徐 勇 張 慧*"/>
999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

圖像自動標注方法研究綜述*>

2016-08-23 09:58:13
現代情報 2016年3期
關鍵詞:語義分類特征

徐 勇 張 慧

(安徽財經大學管理科學與工程學院,安徽 蚌埠 233030)

?

·綜述 · 述評·

圖像自動標注方法研究綜述*>

徐 勇 張 慧*

(安徽財經大學管理科學與工程學院,安徽 蚌埠 233030)

隨著Web2.0的逐步發展,海量用戶生成的圖像信息充斥于各大網絡平臺,圖像自動標注技術逐步成為圖像檢索以及圖像理解的關鍵問題之一。該文主要通過對現有圖像自動標注方法的文獻進行收集和整理,在比較、分析各種方法相關理論和實現技術的基礎上,對圖像自動標注方法研究進展進行評述;并歸納了各種方法的優勢與不足。得出結論:圖像自動標注方法和圖像處理技術仍然需要從機器學習方面進一步的研究與改進,且可以從圖像信息的標注拓展到視頻信息的標注。

圖像信息;圖像自動標注;圖像檢索;多示例;多分類;半監督模型

近年來,隨著信息技術的高速發展以及攝像機、手機等圖像采集設備的普及,圖像信息充斥在世界的每一個角落,用其清晰、簡單的方式描述著日常生活的方方面面。比如,用圖像描述情感(朋友圈的圖像信息),家庭影集的管理,醫學圖像檢索,人臉識別及網絡購物、旅游評論等。據微信平臺統計,僅微信朋友圈每日的圖像信息都超過一個億。圖像信息給日常生活帶來方便的同時,也提出了巨大的挑戰——在浩瀚的圖像海洋中,怎樣檢索到用戶需要的信息;怎樣理解大量用戶生成的圖像內容的情感信息等問題吸引了很多研究者的思考。為了解決這些問題,圖像自動標注技術應運而生,并逐步發展成為圖像檢索以及圖像理解的關鍵問題之一。

圖像自動標注是指針對圖像的視覺內容,通過機器學習的方法自動給圖像添加反應其內容的文本特征信息的過程。其基本思想是:利用已標注圖像集或其他可獲得的信息,自動學習語義概念空間與視覺特征空間的潛在關聯或者映射關系,給未知圖像添加文本關鍵詞。經過圖像自動標注技術的處理,圖像信息問題可以轉化為技術已經相對較成熟的文本信息處理問題。

圖像自動標注技術的運用使得用戶可以更加容易地獲得海量網絡圖像,有效地組織、查詢和瀏覽大規模圖像。這樣,網絡上數以萬計的圖像信息就可以被很好的利用和分析。

隨著Twitter,Facebook,微博等社交平臺上的圖片信息呈指數增長,圖像自動標注技術逐漸成為圖像分析、應用領域的關鍵技術之一,受到越來越多的國內外研究人員的關注。為了更好的了解圖像自動標注方法的研究現狀,本文對現有圖像自動標注方法的文獻進行收集和整理,在了解相關理論和分析的基礎上,對圖像自動標注問題研究現狀進行評述;在此基礎上對各種圖像標注的方法進行了比較。

1 基于分類思想的圖像標注方法

隨著互聯網的普及以及多媒體技術的快速發展,海量的圖像信息因為其方便、簡潔、快速的特點充斥于各大網絡平臺。為了更好的處理圖像信息,圖像標注技術受到了國內外研究者的關注,并逐漸發展成為圖像、圖形領域的熱點問題。傳統的圖像標注是人工完成的,對圖像的理解與標注相對準確,但是在大數據環境下的圖像標注中,人工標注工作量巨大,并且容易受到主觀經驗的影響,對同一幅圖像的標注不一致。于是,有學者利用計算機技術實現圖像的自動標注。

圖像自動標注技術從一開始就得到很多研究者的關注,研究人員提出了各種圖像自動標注模型。其中很多模型經過不斷地修改與改進,都能達到相對較高的標注精度。

早期,研究人員將語言學習領域的方法引入圖像標注,通過理解高層語義,將圖像特征翻譯為對應的文本關鍵詞,這樣就實現了從圖像到文本的轉化。

要想將圖像翻譯為文本,就需要尋找圖像的構成單元。所以研究人員首先將圖像進行分割,然后再統計文本與關鍵詞之間的共生關系,實現圖像標注。Mori等人在1999年提出了共生模型(Co-occurrenceModel)[1],從此越來越多的研究人員開始關注圖像自動標注領域。共生模型的基本思想是先將圖像劃分成規則的區域,對分割的圖像區域進行分類,然后統計圖像區域與關鍵詞的共生概率,用共生概率大的關鍵詞標注圖像。此后,Duygulu等人提出了翻譯模型(Translation Modal,簡稱TM)[2],利用傳統的語言統計翻譯模型將語義概念翻譯為由圖像區域聚類產生的blobs。該模型也需要分割圖像并對圖像區域進行聚類。Jeon等人基于圖像分割提出了跨媒體相關模型(Cross-Media Relevance Model,CMRM)[3],主要是以底層特征(例如顏色,形狀)對圖像區域進行聚類。圖像區域本身與底層特征沒有密切聯系,所以圖像標注的準確率不高。

早期的這些方法都是通過圖像分割、區域分類和統計共生概率的方法進行圖像自動標注。這些方法比較簡單,高層語義關鍵詞與圖像底層視覺特征之間沒有一一對應。早期的方法雖然對于圖像標注的正確率不高,但是建立圖像和語義概念的統計概率模型,開啟了圖像自動標注的研究,吸引了許多學者的關注,為后續圖像自動標注方法提供了參考。

1.1 相關概念

基于分類的圖像標注模型是一種有監督的機器學習方法。分類器訓練過程會不斷地通過反饋信息調整分類器,使得分類器達到某個精度。分類模型的基本思想是:先對圖像進行分割,過濾噪聲和過分割部分,把每一個語義概念當作一個類別,對分割后的圖像進行分類。圖像的自動標注實際上可以看作圖像分類問題來處理。

圖像分類不同于傳統的分類問題,每幅圖像由多個分割區域組成、同時屬于多個語義類別,所以必須用含有該幅圖像語義的多個特征詞標注。比如,一幅圖像中有飛機、老虎、草坪等信息,這幅圖像就同時屬于這幾個語義類別,圖像的標注關鍵詞就為飛機、老虎、草坪。分割區域圖像分類結束,圖像自動標注問題也就解決了。

這種圖像自動標注方法的重點在分類,分類器的好壞直接影響著圖像標注的結果,其代表方法有SVM方法、貝葉斯方法、k-近鄰方法、決策樹方法等。提高分類器的精度,圖像標注的準確性就會提高。

從基于分類的圖像自動標注基本思想可知,對一幅圖像進行自動標注,主要分為兩個階段:標注模型訓練階段(用大量的已分類圖像訓練分類器)和圖像標注階段。如圖1所示。

1.2 經典分類標注方法

1.2.1 多示例多標記標注

一幅圖像由多個區域組成,不同的區域對應不同的語義關鍵字。比如一幅圖像中有藍天、白云、草坪,馬等語義,其中的任何一個語義只是存在于圖像中的某個區域,并不是圖的全局都包含這些語義。所以全局特征不能很好的表示圖像的高層語義。多示例學習問題被引入解決圖像標注的有歧義問題。Dietterich[4]等人首先用多示例學習模型來研究藥物活性問題,通過訓練正包和反包生成模型,對未知圖像包進行標注。在此多示例圖像標注研究的基礎上,Yang C等人[5]提出了多示例學習領域經典的多樣性密度(Diverse Density)算法來解決標注問題。算法的基本思想是[5],如果特征空間中某點最能表征某個給定關鍵詞的

圖1 圖像自動標注分類模型

語義,那么正包中應該至少存在一個示例靠近該點,而反包中的所有示例應該遠離該點。因此該點周圍應當密集分布屬于多個不同正包的示例,同時遠離所有反包中的示例。特征空間中如果某點附近出現來自于不同正包中的示例越多,反包中的示例離得越遠,則該點表征了給定關鍵詞語義的概率就越大。用多樣性密度來度量這種概率,具有最大概率的點即為要尋找的目標點。

一般來說,一幅圖像由多個示例組成;同時,一幅圖像也屬于多個語義關鍵詞,這樣圖像標注問題就屬于多標記問題。Tang J,Cusino C等人[6-7]用多標記學習問題的思路解決圖像標注問題,在多標記學習過程中,先將多標記學習問題轉化為多個單標記學習問題,提出了基于支持向量機的自動圖像標注算法。

多示例多標記的圖像標注方法,只是提供了圖像底層特征與高層語義之間的更好的對應的新思路,對于提取出來的特征向量仍然需要訓練分類模型進行分類。

1.2.2 多分類標注

為了進一步提高圖像標注的準確率,很多研究者提出了多分類模型。Carnerio提出了一種有監督的多分類標注方法(Supervised Multiclass Labeling,簡稱SML)[8],這種方法將每個關鍵詞看作是一個類,通過機器學習中的多示例學習方法來為每個類生成對應的條件密度函數,并將訓練圖像看作是與它相關的標注關鍵詞所對應的條件密度函數的一個高斯混合模型。路晶,金奕江等人[9]提出了使用基于SVM的否定概率和法的圖像標注的方法,此標注方法的基本思想是:先建立小規模圖像庫為訓練集,庫中每個圖像標有單一的語義標簽,再利用其底層特征,以SVM為子分類器,“否定概率和”法為合成方法構建基于成對藕合方式(PWC)的多類分類器,并對未標注的圖像進行分類,結果以N維標注向量表示。臧淼[10]等人提出了Bayes多分類模型,將圖像標注看做多分類問題,然后選擇條件概率密度高的作為圖像標注詞。吳偉等人[11]改進了支持向量機多分類模型,其中把直方圖交叉距離作為核函數,傳統支持向量機的輸出值變換為樣本到超平面的距離,選擇圖像特征中冗余較小的視覺特征,建立分類器,用距離大小來判斷類別。

1.2.3 其它分類方法

除了以上提到的方法,還有很多分類模型被引入到了圖像自動標注領域,如基于聚類、決策樹、K-means、貝葉斯模型等。Wanglei等人[12]提出采用基于子空間的聚類算法,用K-means算法生成blob-token,并通過統計token和key-word之間關聯,建立模型,實現圖像的標注。Yeung等人[13]則通過利用相關反饋技術構造一個語義模板,把視覺特征和高級語義概念相關聯,用于圖像的標注。Li Wei等人[14]用分類的方法在visual terms和keyword之間建立關聯,以此構建分類器,將分類器用于后續圖像的標注。

以上這幾種聚類方法,通常都是基于視覺特征,將具有視覺特征的區域劃分為同一類別,只要視覺特征相同就可以歸為一類,不管其語義特征是否相同,都用相同的關鍵字,所以這種分類方法的圖像標注的準確率不是特別高。很多研究者提出了基于語義的聚類來提高圖像標注的準確性。張元清,包駿杰等人[15]從語義約束的聚類算法方面對圖像區域進行聚類,然后進行圖像標注。在圖像標注階段,他們使用貝葉斯理論進行標注。在這種方法中,對于給定的一幅圖像,計算語義概念的后驗概率。由于聚類區域彼此之間存在著依賴關系,不相互獨立,影響概率的計算方法,他們提出貪心選擇連接(GSJ)算法計算出聚類區域的獨立子集。經過貪心選擇連接算法后,使用貝葉斯理論進行語義標注。劉詠梅等人[16]提出了一種場景語義樹圖像標注方法(SSTM),采集標注字信息,利用PLSA(Probability Latent Semantic Analysis)模型進行場景聚類,高斯混合模型(GMM)建立視覺場景空間,對特定場景的圖像建立一種樹型結構用于標注該場景下的待標注圖像。

Hinton[17]提出了深度信念網,它由一組受限玻爾茲曼機(RBM)組成,可以實現自主地進行特征學習,這一發現促使了對深度學習[18]領域的研究,并將這項技術應用于圖像分類標注領域中。2011年,Marc’ Aurelio Ranzato等人[19]利用深度學習的思想,設計實現了深度生成模型完成特征學習,并將該模型應用于圖像識別和分類工作中。深度學習的興起,促進了基于圖像分類的圖像標注領域的進一步完善。

2 相關模型圖像自動標注

相關模型圖像自動標注方法是基于早期的概率關聯模型而來,不同于概率關聯模型的地方是它不僅僅簡單地統計圖像區域與關鍵詞出現的共生概率,而是建立圖像與語義關鍵詞之間的概率相關模型。通過關聯模型,給待標注圖像找到與其相關性概率最大的一組語義關鍵詞來標注圖像。

早期Jeon等人的概率統計模型標注效率低,正確性低。很多研究者都通過改進相關模型來提高圖像標注的準確性。2003年Lavrenko在CMRM模型的基礎上改進并提出了連續特征相關模型(Continuous-space Relevance Model,簡寫CRM)[20]。隨后,Feng S,Lavrenko等人又在CMRM和CRM模型的基礎上改進而形成了多伯努利相關模型(Multiple-Bernoulli Relevance Model,簡寫MBRM)[21],此模型仍然采用規則的網格劃分圖像,但是標注關鍵詞的概率分布是通過MBRM來估計的。Pan等人采用了EM算法來估計圖像區域與關鍵詞的關系[22]。包翠竹在跨媒體相關模型的基礎上改進了詞匯平滑處理的方法,通過簡潔的圖像特征表示方法和相似度計算方法更準確地度量了圖像與圖像之間的相關性[23]。該方法可以快速的進行圖像標注,不僅提高了圖像標注的正確率,而且提高了速率。

2007年,芮曉光,袁平波等人[24]結合相關模型,提出了一種比較新穎的自動圖像標注框架。其主要思想是對已經標注過的圖像集進行分割,使其成為比較小的圖像區域,再利用軟約束的半監督圖像聚類算法對已經分割好的圖像區域進行語義聚類,實現圖像集在視覺特征空間中的量化表示,每個子類稱為blobs。然后再結合概率相關模型和Manifold排序學習算法,建立語義概念和blobs之間的概率關系。當有未標注的圖像時,通過判斷其區域所屬的blob,即可利用此概率關系進行自動標注。

以上相關模型的自動圖像標注方法,都是先對圖像進行分割,對分割后的圖像子區域與特征關鍵詞利用關聯模型求聯合概率,然后對圖像進行標注。在這個過程中,圖像標注的好壞受到圖像分割技術的影響。而目前圖像分割問題尚沒有得到很好的解決,因此相關模型的準確率和可信度都不是特別高。

為了避免圖像分割造成的圖像信息丟失,提高圖像標注的準確率。郭玉堂,韓昌剛提出基于典型相關分析和高斯混合模型的自動圖像標注方法[25]。其主要思想是:使用典型相關分析(CCA)對融合后的特征進行圖像標注,同時利用高斯混合模型(GMM)估計每一個關鍵詞的先驗概率分布,使用GEM算法估計GMM中的參數。最后利用貝葉斯分類器進行圖像標注,選出概率最大的R個關鍵詞作為圖像的標注詞,并利用詞間語義關系來優化標注結果。周全等人提出基于多尺度上下文的圖像標注方法[26],先對每層分割后的圖像進行識別,然后再利用貝葉斯定理,通過線性加權,然后對每層識別的結果進行融合,從而達到對整幅圖像的自動標注。改善了因為圖像分割造成的圖像信息丟失,提高圖像標注的結果。劉凱等人[27]結合深度玻爾茲曼機與典型相關分析的特點,提出了DBM-CCA算法,利用玻爾茲曼機實現從低層圖像特征向稀疏高層語義轉換,然后通過典型相關分析建立子空間的映射關系,從而實現圖像標注。與典型相關分析和高斯混合模型的圖像標注方法相比,查全率和查準率都有明顯提高。

3 半監督模型圖像自動標注

3.1 相關概念

半監督模型圖像自動標注是一種重要的機器學習方法,已經標注的圖像信息和未被標注的圖像信息都要參與到機器的學習過程中,與前面提到的基于分類的有監督機器學習方法不同,在學習過程中可以利用的圖像信息更多,對信息的了解更加清楚,它適用于圖像信息總量大,而已被標注的圖像信息很少的情形。這種圖像標注方法在大數據環境下可以得到很好地推廣。

圖學習模型是一種重要的半監督模型圖像標注技術之一[28]。基于圖學習算法的具體步驟是:圖節點可以用每幅圖像或者標注關鍵詞表示,邊可以用標注關鍵詞之間或者圖像之間的相似關系來表示,通過圖學習算法來實現標注,即信息從訓練圖像上傳遞到待標注圖像上,以此來完成標注任務。

基于圖學習的標注算法,就是想通過圖像間關系、詞間關系、圖像和關鍵詞的關系這3種關系合作的方式,互相配合、互相補充,實現信息在圖像視覺層次和高級語義關鍵詞之間傳遞。一般來說,關鍵詞和圖像之間有以下幾種關系[28]:

(1)圖像間關系,即兩幅圖像之間由視覺特征所決定的相關性;

(2)詞間關系,即兩個詞對于一幅圖像的適合程度;

(3)圖像到詞的關系,即通過圖像產生語義關鍵詞的可能性,一般通過某種模型來進行訓練的基礎上估計產生;

(4)詞到圖像的關系,即通過給定的語義關鍵詞來取得產生圖像的后驗概率。

3.2 半監督模型方法

Pan首先將圖學習模型應用于圖像標注領域,提出了一種基于圖模型的自動圖像標注方法(Graph-based Automatic Caption,GCap)[29],該方法的主要思想是:將圖像、圖像區域以及標注詞分別作為3種不同類型的圖的節點,并根據它們之間的相關性來連接構造圖。這種方法初步提出了圖模型標注的基本思想,對于圖像節點之間的權值問題以及標注詞與標注詞、圖像與圖像之間的相關性問題考慮的較少。圖像標注結果不理想。

在Pan提出的圖像標注方法基礎上,還有其他一些改進方法,如Liu提出了一種自適應的基于圖模型的圖像標注方法(Adaptive Graph-based Annotation method,AGAnn)[30],該方法綜合考慮了圖像與圖像之間的關系、圖像與標注詞之間的關系以及標注詞與標注詞之間的關系,并提出了用WordNet獲得詞間的關系來為圖剪枝,設計了基于流形排序算法(Manifold-Ranking)的自適應相似圖來對這些信息進行傳播,最終實現圖像標注。在該框架下,基于圖的圖像標注被分為兩個階段來完成,即基本圖像標注與圖像標注改善。Tong H等人[31]提出的通過視覺相似度來標注關鍵詞,但是只考慮了圖像間的相似度,構建k-NN相似圖,沒有考慮關鍵詞間的相關性。Liu等人[32]在2006年提出的自適應圖模型標注方法的基礎上提出了一個基于圖模型的最近鄰生成鏈(Nearest Span-ning Chain,NSC)方法來標注圖像,在該模型中給出了圖像相似性的統計估計。將基于圖學習的圖像標注技術向前推動了一步。

除了基于圖學習的半監督圖像標注的方法,其他半監督學習的方法也得到關注,Zhu[33]總結了半監督學習的一些方法,其中基于圖拉普拉斯的半監督學習方法得到了很多關注,許多相關算法被用于網絡圖像標注。Ma等人[34]提出了一個基于稀疏結構化特征選擇的網絡圖像標注方法,主要應用了圖拉普拉斯半監督學習的方法,同時進行特征選擇,考慮了不同特征之間的關聯。

盡管圖拉普拉斯有比較好的性能,獲得了較廣泛的應用,Kim等人[35]指出圖拉普拉斯的恒定零空間導致其解偏向一個常函數,對于動態的情況,具有較差的推斷能力。并提出了二階Hessian能,它可以使函數值隨著測地距離線性變化,而不是恒定為某一值,同時更好地保持局部流形結構。該種方法提出后得到了廣泛的應用。在此基礎上,Lu等人[36]提出了基于二階Hessian能的主動學習算法HOD進行最優化設計。Zheng等人[37]改進了Lu等人的工作,提出了Hessian稀疏編碼。

面對網絡平臺圖像信息的大量增長,很多研究人員開始關注Web2.0大規模的圖像信息標注。史彩娟等人提出了一種基于I2,1/2矩陣范數和共享子空間的半監督稀疏特征選擇算法(即SFSLS)[38]。基于圖拉普拉斯的半監督學習,應用I2,1/2矩陣范數來選擇稀疏矩陣和特征,學習不同圖像特征之間的關聯信息,同時利用了有標簽圖像信息和無標簽圖像信息,設計迭代算法來最優化目標函數,使得該方法更加適用于大規模圖像標注。大規模的圖像信息是存在很多噪聲的,與小范圍的、明確的圖像標注又有差別。田瞡等人提出一種基于概率距離尺度學習的圖像標注方法[39]。該方法利用距離尺度的方法得到語義上的距離尺度,將概率主題模型的方法用于挖掘網絡中大量模糊的,潛在的但是不確定的相關信息,改進了圖像標注的性能。

4 圖像標注方法比較

對圖像自動標注方法進行研究、分析后發現圖像自動標注方法研究是當前熱點問題之一。在圖像標注方法研究方面,研究者們做出了很多努力,對圖像自動標注領域做出了貢獻。但是現階段,圖像標注的方法仍然需要不斷的改進與創新。

早期的圖像標注方法,雖然標注的準確率不高,但是為圖像標注領域的發展提供了很好的方法和思路,開啟了圖像信息處理嶄新的一步。

基于分類的圖像標注,國內外學者提出很多方法,一大部分是通過先提取訓練圖像的底層特征,然后在底層特征和關鍵詞分類器之間建立分類模型,再對未標注的圖像集運用這個模型進行分類,完成圖像標注。早期的分類器只能實現圖像與關鍵詞之間的一對一標注,后來經過對分類器的改進,可以實現一對多的分類。但是基于分類的圖像標注,無論是一對一的分類方式還是一對多的分類方法,都在不同程度上受到分類器個數的約束和限制,對于大數據環境下的圖像或者大量關鍵詞的標注情況不適用。但是,基于分類模型的圖像標注在圖像識別和檢索方面有很明顯的優越性。

相關模型的圖像標注方法是通過構建一個概率統計模型來計算圖像內容和標注關鍵詞之間的聯合概率。圖像底層特征與標注關鍵詞之間不是一一對應的,聯系不是太緊密。與分類模型相比少了圖像底層特征的提取,標注過程相對簡潔。但是要想準確得到圖像內容與標注詞之間的聯合概率,就要分析語義關鍵詞之間存在的共生概率關系,語義關鍵詞之間的不獨立性,會造成計算得到聯合概率不準確,而影響標注結果。

基于半監督模型圖像標注方法的優點是在學習階段可以利用更多的數據,更加適合于已標注的訓練數據量相對較小、總數據量較大的情況。這種圖像標注方法在大數據環境下可以得到很好地推廣。但是該種標注方法也有缺點,在標注的過程中必須考慮圖像間的權值問題,以及圖像與圖像之間,詞與詞之間,圖像與詞語之間的相關性問題,而這些問題也是基于圖像標注過程中的關鍵點與難點。

基于分類模型的圖像標注方法是一種有監督的圖像標注方法,需要根據反饋信息調整分類器,雖然正確率有一定的提高,但是要花大量的人力、物力,標注成本較高。相關模型的圖像標注方法是一種無監督的圖像標注方法,人力成本低,但是圖像底層特征與高層語義之間的鴻溝以及語義之間的不獨立性,會導致聯合概率計算的不準確。半監督模型的圖像標注方法利用有標注的圖像信息和未標注的圖像信息進行學習,增加參與學習的圖像數量。但是高層語義與底層視覺特征之間存在“語義鴻溝”,單純地用增加學習的圖片數量,不能提高圖像標注的準確率。

文中提到的圖像標注方法,都在一定程度上解決了語義鴻溝的問題。但是圖像處理技術方面的欠缺,也對圖像自動標注技術的研究與發展有一定的影響。比如,為了對圖像區域進行分類,提取圖像的顏色、紋理、形狀等底層特征,原來的圖像特征會急劇下降;圖像分割技術尚不成熟,在很大程度上會影響語義關鍵詞的提取;語義映射機制是基于先驗知識的,往往需要人機交互;建立能夠表示高層語義與底層特征的模型是很困難的。圖像自動標注方法有待于進一步的研究與改進。

5 結束語

近年來,隨著機器學習的出現,越來越多的機器學習方法被用于圖像標注,無監督學習、有監督學習與半監督學習的圖像標注技術都存在不足。研究者們在圖像標注領域仍然需要花費大量的時間進行研究。在未來,隨著信息技術的不斷發展,機器學習是圖像標注領域的重要研究方向。

無監督學習直接通過模型統計,得到底層特征與高層語義之間的聯合概率來標注圖像。語義與圖像之間沒有一一對應的關系,很多時候得到的結果說服力不強。有監督學習需要花費大量的人力、物力來訓練分類器,并且還會受到分類器的限制;半監督學習模型,有標注的圖像類別和未標注的圖像類別都將被用來學習,但是高層語義與底層視覺特征之間存在“語義鴻溝”[40];如果機器學習可以主動的選擇一部分價值很高的無標簽樣本,進行人工標注,這無疑會增加圖像標注的性能。主動學習的方法雖然已經在幾年前提出,但是在圖像自動標注的應用方面仍未得到推廣。如何利用少量的已知標簽樣本來提高分類模型的泛化性能是目前主動學習算法中需要克服的技術難點[41],有待于進一步改進,以提高圖像標注的準確率。

隨著微信等網絡社交平臺的推廣、普及,社交網絡用戶量不斷增加,圖像、視頻等多媒體信息已經逐漸出現在我們的日常交流中,圖像標注將朝著動態畫面標注的方向發展。可以將圖像自動標注的方法用于視頻的標注,這也是我們團隊下一步的主要研究方向。

[1]Mori Y,Takahashi H,Oka R.Image-to-word transformation based on dividing and vector quantizing images with words[C].In MISRM’99 First International Workshop on Multimedia Intelligent Storage and Retrieval Management,1999.

[2]Duygulu P,Barnard K,Freitas N,D.A.Forsyth.Object recognition as machine translation:learning a lexicon for a fixed vocabulary[C].Proceeding of European Conference.On Computer Vision(ECCV.02).Copenhagen,Denmark,2002:97-112.

[3]Jeon J,Lavrenko V,Manmatha R.Automatic image annotation and retrieval using cross-media relevance models[C].Proc.of Int.ACM SIGIR Conf.on Research and Development in Information Retrieval(ACM SIGIR.03).Toronto,Canada,2003:119-126.

[4]Dietterich T G,Lathrop R H,Lozano-Pérez T.Solving the multiple instance problem with axis-parallel rectangles[J].Artificial Intelligence,1997,89(1-2):31-71.

[5]Yang C,Dong M,Fotouhi F.Region-based image annotation through multiple instance learning[C]∥Proc.of ACM Conf.on Multimedia(ACM MM’05).Singapore,Nov.2005:435-438.

[6]Tang J,Lewis P H.A study of quality issues for image auto-an-notation with the Corel dataset[J].IEEE Trans.on Circuits and Systems for Video Technology,2007,17(3):384-389.

[7]Cusano C,Ciocca G,Schettini R.Image annotation using SVM[C]∥Proc.of Int.SPIE Conf.on Imaging IV.San Jose,CA,USA,Feb.2004:330-338.

[8]Carneiro G,Chan A B,Moreno P J,Vasconcelo N.Supervised Learning of Semantic Classes for Image Annotation and Retrieval[J].IEEE Transactions On Pattern Analysis and Machine Intelligence,2007,29(3):394-410.

[9]路晶,金奕江,馬少平,等.使用基于SVM的否定概率和法的圖像標注[J].智能系統學報,2006,(1):62-66.

[10]臧淼,張永梅,李金泉.基于Bayes的自動圖像標注[J].北方工業大學學報,2014,26(1):7-9.

[11]吳偉,聶建云,高光來.一種基于改進的支持向量機多分類器圖像標注方法[J].計算機工程與科學,2015,37(7):1338-1343.

[12]Wang lei,Liu Li,Latifu.Automatic image annotation and retrieval using subspace clustering algorithm[C]∥Proceedings of the 2nd ACM International Workshop on Multimedia Databases,2004:263-274.

[13]Yeung M M,Boon-Lock Y,Bouman C A.Apply semantic template to support content-based image retrieval[C]∥Proceedings of SPIE Storaee and Retrieval for Media Databases,2000:442-449.

[14]Li Wei,Sun Mao-song.Automatic image annotation based on WordNet and hierarchical ensembles[C]∥LNCS 3878:CICLing2006.Berlin Heidelberg:Springer-Verlag,2006:417-428.

[15]張元清,包駿杰,況夯,等.基于貝葉斯理論的圖像標注和檢索[J].計算機科學,2008,35(8):229-231.

[16]劉詠梅,楊帆,于林森.場景語義樹圖像標注方法[J].中國圖像圖形學報,2013,18(5):529-536.

[17]Geoffrey Hinton.A Practical Guide to Training Restricted Boltzmann Machines[M].Neural Networks:Tricks of the Trade.Springer Berlin Heidelberg,2010:599-619.

[18]Itamar Arel,Derek C.Rose,Thomas P.Karnowski.Deep Machine Learning-A New Frontier in Artificial Intelligence Research[C].IEEE Computational intelligence Magazine,2009:13-18.

[19]Marc’Aurelio Ranzato,Joshua Susskind,Volodymyr Mnih,Geoffrey Hinton.On deep generative models with applications to recognition[C].Computer Vision and Pattern Recognition(CVPR),2011 IEEE Conference on.IEEE,2011:2857-2864.

[20]Lavrenko V,Manmatha R,Jeon J.A model for learning the semantics of pictures[C].Proc.of Advances in Neural Information Processing Systems(NIPS.03).Vancouver,Canada,2003:553-560.

[21]Feng S,Manmatha R,Lavrenko V.Multiple bernoulli relevance models for image and video annotation[C].Proc.of IEEE Int.Conf.on Computer Vision and Pattern Recognition(CVPR.04).Washington DC,USA,2004:1002-1009.

[22]Pan JiaYu,Yang Hyung Jeong,Duygulu Pinar,Christos Falousos.Automatic image captioning[C].The 2004 IEEE Int’l Conf on Multimedia and Expo(ICME’04),Taipei,Taiwan,2004.

[23]包翠竹,宋海玉,牛軍海,等.快速圖像標注的改進跨媒體相關模型[J].計算機應用,2014,34(5):1439-1441.

[24]芮曉光,袁平波,何芳,等.一種新的基于語義聚類和圖算法的自動圖像標注方法[J].中國圖象圖形學報,2007,12(2):239-244.

[25]郭玉堂,韓昌剛.基于CCA子空間和GMM的自動圖像標注[J].計算機工程,2013,39(6):277-282.

[26]周全,王磊,周亮,等.基于多尺度上下文的圖像標注算法[J].自動化學報,2014,40(12):2944-2949.

[27]劉凱,張立民,孫永威,等.利用深度玻爾茲曼機與典型相關分析的自動圖像標注算法[J].西安交通大學學報,2015,49(6):33-38.

[28]盧漢清,劉靜.基于圖學習的自動圖像標注[J].計算機學報,2008,31(9):1629-1639.

[29]Pan J Y,Yang H J,Pinar D.Automatic multimedia cross-modal correlation discovery[C]∥The Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2004,(8):653-658.

[30]Liu J,Li M J,Ma W,Liu Q,Lu H.An adaptive graph model for automatic image annotation[C]∥Eighth ACM International Workshop on Multimedia Information Retrieval,2006:61-70.

[31]Tong H,He J,Li M,Ma W,Zhang H J,Zhang C.Manifold-ranking based keyword propagation for image retrieval[J].EURASIP J.Appl.Signal Process.Spec.Issue Inf.Min.Multimedia Database,2006,21:1-10.

[32]Liu J,Li M,Liu QS,Lu HQ,Ma SD.Image annotation via graph learning[J].Pattern Recognition,2009,42(2):218-228.

[33]Zhu Xiaojin.Semi-supervised learning literature survey,technical report 1530[R].Madison:University of Wisconsin,2007.

[34]MA Zhi-gang,NIE Fei-ping,YANG Yi,N Sebe.Discriminating joint feature analysis for mul-timedia data understanding[J].IEEE Trans on Multimedia 2012,14(6):1662-672.

[35]KIM K I,STEINKE F,HEIN M.Semi-supervised regression using Hessian energy with an application to semi-supervised dimensionality reduction[C]∥Pros of Annual Conference on Neural Information Processing Systems,2009:979-987.

[36]LU Ke,ZHAO Jin-dong,WU Yue.Hessian optimal design for image retrieval[J].Pattern Recongnition,2011,44(6):1155-1161.

[37]ZHENG Miao,BU Jia-jun,CHEN Chun.Hessian sparse coding[J].Neurocomputing,2014,123(10):247-254.

[38]史彩娟,阮秋琦.基于增強稀疏性特征選擇的網絡圖像標注[J].軟件學報,2015,26(7):1800-1811.

[40]鮑泓,徐光美,馮松鶴,等.自動圖像標注技術研究進展[J].計算機科學,2011,38(7):35-41.

[41]Culotta A,McCallum A.Reducing labeling effort for structured prediction tasks.In Proceedings of the National Conference on Artificial Intelligence(AAAI),2005:746-751.

(本文責任編輯:馬 卓)

of Automatic Image Annotation Method

Xu Yong Zhang Hui*

(School of Management Science and Engineering,Anhui University of Finance and Economics,Bengbu 233030,China)

With the progressive development of Web2.0,massive user-generated image informa-tion filled in every network platform,automatic image annotation technology gradually become one of key issues of the image retrieval and image understanding.In this paper,through collecting and organizing documents of the existing automatic image annotation method to understand the theory and analysis of the various methods,On this basis,the status of Automatic Tagging images are reviewed,and comparative analysis of the advantages of each method and insufficient.The conclusion is:automatic image annotation method and image processing technology still needs further research and improvement from the active learning,and can expand the image information from the label to label video information.

image information;automatic image annotation;inage retrieval;multi-category;semi-supervised model

2015-12-25

2015年度國家社會科學基金規劃項目“跨媒體用戶生成內容情感傾向挖掘及其應用研究”(項目編號:15BTQ043)。

徐 勇(1978-),男,系副主任,教授,博士,碩士生導師,研安方向:社會計算、信息安全、數據挖掘。

張 慧(1989-),女,碩士研究生,研究方向:數據挖掘與社會計算。

10.3969/j.issn.1008-0821.2016.03.024

G254.36

A

1008-0821(2016)03-0144-07

猜你喜歡
語義分類特征
分類算一算
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 欧美精品影院| 54pao国产成人免费视频| 一级毛片在线播放免费观看| 国产一区二区精品高清在线观看| 国产欧美日韩精品第二区| 亚洲V日韩V无码一区二区| 久久精品91麻豆| jizz国产视频| 欧美色图第一页| 日韩欧美国产综合| 国产一区二区在线视频观看| 亚洲va视频| 波多野结衣中文字幕一区二区 | 欧美中文字幕在线二区| 欧美影院久久| 人人妻人人澡人人爽欧美一区| 日韩午夜片| 91丝袜在线观看| 亚洲国产成人在线| 2021亚洲精品不卡a| 国产成a人片在线播放| 色AV色 综合网站| 91口爆吞精国产对白第三集| 国产精品久线在线观看| 中文字幕无码av专区久久| 久久国产精品无码hdav| 九色综合视频网| 亚洲最大看欧美片网站地址| 99精品福利视频| 亚洲AV无码久久天堂| 日本欧美一二三区色视频| 亚洲无码免费黄色网址| 强奷白丝美女在线观看| 中文无码毛片又爽又刺激| 亚洲欧洲日韩综合| 国产永久在线观看| 成人福利在线免费观看| 中日韩欧亚无码视频| 久久久亚洲色| 免费一极毛片| a毛片在线| 男人天堂亚洲天堂| 看你懂的巨臀中文字幕一区二区| 国产在线欧美| 伊在人亚洲香蕉精品播放| 中文字幕亚洲精品2页| 99青青青精品视频在线| 日韩免费毛片| 国产精品免费福利久久播放| 欧美亚洲国产日韩电影在线| 狠狠色丁香婷婷综合| 久久亚洲高清国产| 亚洲 日韩 激情 无码 中出| 青青青国产在线播放| 波多野结衣视频网站| 亚洲欧洲日韩综合| 中国黄色一级视频| www.亚洲一区| 伊人久久大香线蕉影院| 国产一级毛片yw| 九色最新网址| 欧美日韩一区二区三区在线视频| 国产拍在线| 九九九九热精品视频| 首页亚洲国产丝袜长腿综合| 欧美翘臀一区二区三区| 黄色污网站在线观看| 久久久久久久久18禁秘| 久久亚洲日本不卡一区二区| 久久一本日韩精品中文字幕屁孩| 凹凸精品免费精品视频| 亚洲男人在线| 国产视频 第一页| 亚洲天堂在线免费| 欧美伦理一区| 伊人久久大香线蕉综合影视| 强奷白丝美女在线观看| 国产精品毛片一区视频播| 国产人人干| 最新亚洲人成网站在线观看| 免费无码又爽又刺激高| 伦精品一区二区三区视频|