李夢縈 宋海玉 岳青宇 何炳金 侯建新 李俊華
摘要:文章旨在利用現有的圖像標注模型,開發一個能夠為用戶提供自動圖像標注服務的軟件。為了使用戶能夠方便、即時地使用本軟件,軟件被設計為可以在網絡環境中運行、訪問的軟件。通過對比當前主流的圖像自動標注模型,文章選取著名的多重伯努利相關模型作為基礎標注模型,并針對多重伯努利模型的一些不足進行了改進。
關鍵詞:圖像標注模型;網絡環境;多重伯努利模型;相關模型;Internet環境 文獻標識碼:A
中圖分類號:TP317 文章編號:1009-2374(2016)05-0013-02 DOI:10.13535/j.cnki.11-4406/n.2016.05.007
近年來,隨著電子技術和多媒體的興盛,數碼產品變得普及,互聯網上可存取的圖像數據正在以爆炸性的速度增長。在這種情況下,圖像數據每日以指數速度增長,如何方便快捷地查詢圖像逐漸成了對圖像數據庫進行有效管理的問題之一。為了更好地利用這些圖像資源,20世紀70年代末出現了圖像數據庫管理系統。該系統以人的手工標注作為基礎,但事實證明人工標注存在著諸多問題,因此20世紀90年代末出現了自動圖像標注的研究。圖像自動標注技術的應用前景非常廣泛,針對于普通用戶,它可以提供更人性化的以Web圖像檢索為基礎的圖像檢索服務,提供圖像數據管理、分類、索引等便捷的功能。針對于一些應用平臺,圖像自動標注技術也會發揮巨大的作用,例如建立和管理數字圖書館。數字化設備正在變得越來越普及,圖書館逐漸開始把已有的館藏書籍轉化成數字圖像數據,存儲和索引數量巨大的圖像數據可以依靠圖像標注的現有研究技術來完成。
1 多重伯努利模型
在多重伯努利模型中,參與圖像標注運算的數據是一個手工標注的圖像數據集。使用T來代表這個手工標注的圖像數據集,數據集T中每幅圖像都具有一定數量的標注詞,使用V來代表數據集T中所有標注詞的一個標注關鍵字集合。假設圖像J是數據集T中的一幅圖像,那么圖像J的區域特征可以表示為:rJ={r1,r2,…,rn},rJ是圖像J的特征集合,n表示圖像J被分割的區域個數,也代表圖像J的特征向量個數。圖像J的標注詞可以表示為wJ={0,1}V,wJ表示圖像J的標注詞集合,wJ是標注詞集合V的一個子集,0和1代表圖像J中是否含有該標注詞。假設一幅待標注圖像A,那么綜合上述可以得到待標注圖像A的圖像區域特征可以表示為:rA={g1,g2,…,gnA},wB是標注詞集合V中的一個隨機子集,對于待標注圖像A中出現詞匯wB的概率可以使用rA和wB的聯合概率P(rA,wB)來表示。圖像標注的大致步驟:對于一幅待標注圖像A,計算圖像A的每個區域與訓練集T中每幅圖像J的條件概率,然后把圖像A的n個區域與圖像J的條件概率乘積,以乘積后的結果作為圖像A與圖像J的特征相似度。然后使用兩幅圖像的特征相似度乘以圖像J與標注詞wB的多重伯努利概率,至此便得到了標注詞wB出現在待標注圖像A中的概率,但是為了這種訓練方法的偶然性,需要使用訓練集T中的所有圖像重復上述的計算過程,最后使用訓練集T中所有圖像的計算結果做平均值處理,以平均值作為wB與A聯合概率。計算公式如下:
根據式(1)的計算結果,可以得到A和V中標注詞匯的聯合概率,取聯合概率最大的前5個詞匯作為圖像A的標注結果。計算公式如下所示:
2 軟件系統模塊設計與實現
2.1 軟件模塊劃分
系統設計了兩個模塊:圖像自動標注功能模塊和圖像檢索功能模塊。其中圖像自動標注功能模塊是軟件系統的主要功能。圖像檢索功能模塊為提供輔助性的功能模塊。
2.2 圖像標注功能模塊設計與實現
圖像標注是解決海量圖像數據組織管理的關鍵技術之一,伴隨著圖像自動標注技術的發展,大量的人力和物力被投入到圖像自動標注技術的研究,涌現出了很多優秀的圖像標注算法。本文通過著名的圖像標注算法MBRM算法,來完成軟件中的圖像標注功能。
由于本文設計的是一個在網絡環境中運行的在線圖像標注軟件,圖像標注功能模塊應具有如下的三個功能:(1)可以通過用戶身邊的客戶端電腦使用瀏覽器訪問本軟件;(2)可以上傳喜好的圖像進行標注;(3)標注用戶上傳的圖像,在界面上向用戶提示標注結果。
圖像自動標注模塊的具體實現主要分為兩個方面:一方面是圖像自動標注的模型算法,本文使用的模型算法為MBRM模型;另一方面是圖像的底層特征的選取和特征的提取方法。
圖像的視覺特征分為兩種:第一種,通用視覺特征。它一般用于描述圖像中的一些共有特征,與圖像的具體類型和內容無關,其主要內容有紋理特征、顏色特征和形狀特征。另一種為領域相關特征,它是建立在圖像內容的一些先驗知識上,與具體應用有緊密聯系,例如人臉識別等。在本文中,我們只考慮使用通用的視覺特征。在通用特征中,我們選取顏色和紋理兩種類型的特征。
2.3 圖像檢索功能模塊設計與實現
圖像檢索功能模塊分成兩個部分:基于文本的圖像檢索和基于圖像內容的圖像檢索。
(1)基于文本的圖像檢索。本文中基于文本的圖像檢索根據圖像標注模塊得到的圖像數據進行檢索,以圖像標注結果中的標注詞作為關鍵字。檢索時,根據數據集中已有的關鍵字匹配,返回通過匹配的圖像。(2)基于內容的圖像檢索。基于內容的圖像檢索允許輸入一幅圖像,以查找具有相同或者相似內容的其他圖像,它是計算機視覺領域中的重要研究分支。在基于內容的圖像檢索主要依賴于兩個關鍵技術:圖像特征提取和圖像匹配算法。本文中基于內容的圖像檢索中的特征提取方法使用著名詞袋方法(Bag-Of-Words,BOW),BOW的大體思想是通過對現有圖像的分類,對提取的圖像特征進行聚類,將聚類得到的質心作為BOW詞典中的詞,構建BOW詞典。通過BOW的詞典來計算圖像的特征。
圖像檢索的匹配算法中,由于通過BOW提取的圖像特征向量中的數值比較離散,本文采用街區距離作為圖像的匹配算法。街區距離是數學模型中,計算空間中點到點距離的一種有效方法,距離越小,說明圖像越相近。圖像匹配完成后,對訓練集中所有圖像的距離進行排序。取前500幅最相近的圖像返回。
3 結語
本文嘗試使用現有的圖像標注技術來完成一個方便快捷的圖像標注軟件,并希望能夠收集一些圖像數據,為圖像標注技術發展提供參考。但是由于受到了技術發展的限制,本文中設計的軟件還存在很多的不足,今后的技術發展中,圖像自動標注軟件的開發是一個長期的發展目標。
參考文獻
[1] 伊懷彬.基于語義的圖像多概念標注[D].蘇州大學,2009.
[2] Y.G.Jiang,C.W.Ngo,and J.Yang.Towards optimal bag-of-features for object categorization and semantic video retrieval.In ACM CIVR,2007.
[3] 陳戀.基于圖像文檔模型的圖像語義自動標注[D].復旦大學,2007.
作者簡介:李夢縈(1995-),女,河北唐山人,大連民族大學計算機科學與工程學院學生;宋海玉(1971-),男,河南安陽人,大連民族大學計算機科學與工程學院副教授,碩士研究生導師,博士,研究方向:圖像理解、計算機視覺;岳青宇(1991-),男,黑龍江尚志人,創世比特(北京)科技有限公司軟件工程師。
(責任編輯:周 瓊)