

摘 要: 準確計算圖像多特征距離成為大數據時代影響基于圖像的內容標簽的一個關鍵問題,對基于內容的圖像檢索技術至關重要。在借鑒歐氏距離和高斯歸一化兩種方法的優勢的基礎上,對高斯歸一化算法進行改進,提出一種基于特征距離糾偏的多特征距離計算算法。該算法首先采用歐氏距離法計算定量特征距離,然后利用改進高斯歸一化法完成距離糾偏,最后通過自由設定權重得到最終的圖像多特征距離。與傳統高斯歸一化算法進行比較,實驗結果表明,利用該算法既能有效得到特征間的定量距離,又能方便地把多個特征的地位均衡,從而達到提高相似圖像搜索質量的目標。
關鍵詞: 大數據; 內容標簽; 圖像檢索; 高斯歸一; 歐氏距離
中圖分類號: TN919?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2016)16?0058?03
Abstract: The accurate calculation of image’s multi?feature distance is a key problem in big data era, which influences on the image? based content label, and plays an important role in content?based image retrieval technique. On the basis of the advantages of Gaussian normalization method and Euclidean distance method, the Gaussian normalization method is improved, and a multi?feature distance calculation (C?GN) algorithm based on feature distance rectification is presented. The Euclidean distance method is used in the C?GN algorithm to calculate the quantitative feature distance, and then the improved Gaussian normalization method is used to rectify the distance. The image’s multi?feature distance is obtained through the free weight setting. The experimental results show that, the algorithm can not only effectively obtain the quantitative distance among the features, but balance the status of multi?features conveniently, which improve the search quality of similar images.
Keywords: big data; content label; image retrieval; Gaussian normalization; Euclidean distance
0 引 言
隨著互聯網和多媒體技術的迅速發展,大數據[1?2]時代已經到來,多媒體信息資源呈指數增長,基于內容的標簽體系應運而生。為了從大量的圖像信息中快速、準確地找到需要的內容,傳統的基本文本的圖像檢索已經遠遠不能滿足人們的需求,基于內容的圖像檢索技術[3?5]引起了國內外眾多學者的關注。圖像內容實質上就是圖像中所包含對象的特征(如顏色,形狀)等,這些特征決定了圖像的特性,也成為區別其他圖像的關鍵因素。相似圖像區分的越精確,基于內容的圖像檢索準確度也就越高。因此,如何精準區分相似圖像,準確計算圖像多特征距離成為影響圖像檢索質量的一個關鍵問題。
通過對多個特征進行聚類[6?7]分析,使用K?mean等類似的聚類算法可以得到相似特征集合,但不能得到定量特征距離成為使用該方法的制約因素;直接使用廣義歐氏計算公式[8?10]ED(Euclidean Distance) 進行多特征整合,雖然能定量得到特征的距離,但是,由于多個特征之間的地位不平等,需要進行大量的試驗確定權重。使用高斯歸一法GN(Gaussian Normalization)[11?13]計算多特征計算距離,是一種簡單、高效的方法,但由于對特殊距離進行模糊處理導致了搜索的質量降低。
受到啟發,整合歐氏距離和高斯歸一化兩種方法的優勢,本文提出一種基于特征距離糾偏的圖像多特征距離計算算法(C?GN),采用歐氏距離法計算定量特征距離,利用改進高斯歸一化法完成距離糾偏,通過自由設定權重[14]得到最終的圖像多特征距離。該算法既能有效定量得到特征間的距離,又能方便地把多個特征的地位均衡,從而達到提高相似圖像搜索質量的目標。
1 現有算法簡述
1.1 高斯歸一化算法
高斯歸一法將特征距離歸到0~1區間,進行最終歸一處理的公式為:
[Ni=0, Ni<01, Ni>1] (1)
式中,[Ni]為每一個特征歸一化后的值。
該算法導致距離小于0的多個距離值都被歸一為0,而大于1的就被處理成1,造成了計算結果的不準確。
1.2 歐式計算法
歐氏計算公式實現了多特征整合,整合公式如下:
[D=i=1mwiri-si2, i=1mwi=1, 0 式中[w]是權重。優點是能定量得到特征的距離,但是,多個特征之間的地位不平等,需要進行大量的試驗確定[w]。 2 本文提出的算法 2.1 算法流程 該算法的基本思想是采用歐式距離計算公式對二類特征分別求取距離,采用改進的高斯歸一化方法進行距離歸一處理,然后對歸一距離加權求和,最終輸出距離數組。算法的基本流程如圖1所示。 圖1中,待檢測圖像是需要比較的圖像,需要計算出這張圖像和庫里的圖像的距離,從而知道相似程度最接近的是哪些圖像。首先需要對圖像進行預處理,把圖像規格成統一大小。經過預處理后開始提取圖像的特征,在此,提取圖像的顏色、形狀二個特征。 對于該流程的實現重點,是在圖1的第二個虛框中,在這個部分完成特征距離的計算、特征距離歸一以及特征距離加權求和。 2.2 計算特征距離數組 采用通用的歐氏距離計算式(2)對二類特征分別求取距離。 對于顏色特征,分別由4個子特征組成,如R,G,B,Gray,使用式(2)得到[D_Colori=i=14Ci-Li2],其中,[Ci]([i]取0~3)分別對應R,G,B,Gray四個特征。這樣得到一共N個距離,其中N為特征庫中特征圖像的數量。[Ci]是代表輸入需要檢測的圖像子特征;[Li]為特征庫中圖像子特征。R,G,B,Gray的含義如下:紅、綠、藍、灰度值。 顏色特征數組,結果如下: [D_Color0,D_Color1,…,D_Colorn-1] 式中,n為特征庫中特征圖像的數量。 對于形狀特征,分別由5個子特征組成,即A,D,OA,OD,N,使用式(2)得到[D_Shapei=i=15Ci-Li2]。其中,[Ci]([i]取0~4)分別對應A,D,OA,OD,N五個特征。這樣也得到一共N個距離,其中N為特征庫中特征圖像的數量。[Ci]是代表輸入需要檢測的圖像子特征;[Li]為特征庫中圖像子特征。A,D,OA,OD,N的含義如下:角度、質量中心、外部角度、外部質量中心、頂點。形狀特征數組如下: [D_Shape0,D_Shape1,…,D_Shapen-1] 式中,n為特征庫中特征圖像的數量。 2.3 改進的高斯歸一化算法 改進的高斯歸一化算法如下: (1) 計算均值[Tave:] [Tave=i=1nDin] (3) 式中:n為特征的個數;[Di]為形狀、顏色或者紋理的距離值。 (2) 計算標準差: [Tbzc=i=1nDi-Tave2] (4) 式中:n為特征的個數;[Tave]為式(3)計算出的均值。 (3) 歸一: [Ni=Di-Tbzc3?Tbzc] (5) 式中:[Ni]為初步歸一的距離值。 (4) 計算得到偏離常數[Contoff]: [Contoff=0-Tbzc3?Tbzc] (6) (5) 對距離值進行正值化(糾偏): [Ni=i=lnDi+Contoff] (7) (6) 使用廣義歐氏計算式(2)進行多特征整合。 2.4 設定權重求和 各個特征經過第2.3節的歸一化后,特征的地位平等了,然后可以設定權重。較為重要的特征可以設定高的權值。這里的計算方法如下: [Sumj=w1?Cj+w2?Sj+wi?Tj, i=1mwi=1, 0 式中:[Cj,Sj,Tj]分別對應著特征距離數組的值。 針對該實施例子,這里僅有前兩項,對于更多的特征,可以繼續擴展,例如式(8)中的[wi?Tj]。 這樣就得到了顏色和形狀的加權距離和數組,可以推廣到大于兩個特征的情況,加權距離和數組如下: [DSumN0,DSumN1,…,DSumNn-1] 式中,n為特征庫中特征圖像的數量。這里,權重的選擇可以根據重要程度等原則進行取值。 3 實驗分析與應用 本文對上述算法進行了實驗,實驗數據為某購物網站提供的10萬條商品圖像數據,該實驗數據符合大數據的數據量大、搜索數據種類多、搜索內容類域交叉等多個特點。將這些數據按照圖像相似度分成5大類,每類圖像數量為2萬張,將每兩張圖像分為一組進行對比,最后再將1萬組圖像的特征距離進行匯總后平均得到每類相似度圖像的特征距離。分別采用高斯歸一化GN算法、歐式距離ED算法和改進的C?GN算法進行計算,得到表1所示的計算結果。 表1 算法核心運算比較 計算結果表明,較傳統的高斯歸一化GN算法和歐式距離ED算法,改進的C?GN算法更能準確識別相似圖像,圖像搜索質量較高。將此算法應用在網絡公開課程標簽體系建設中,對于網絡中提取到的公開課圖像進行分析識別,準確定位課程內容,形成精準的內容標簽,網絡公開課標簽的精準度從62.8%提升到82.3%,滿足了教師和學生搜索視頻資料的準確度。 4 結 語 本文提出了一種快速、準確計算圖像多特征距離的算法C?GN。該算法采用歐式距離計算公式對二類特征分別求取距離,以便得到定量的特征距離,準確識別圖像特征;然后采用改進的高斯歸一化方法進行距離歸一處理,通過設定偏離常數對距離值進行正值化糾偏,實現了圖像特征的地位平等化;既保證了對多個特征做歸一化處理時值均大于等于0,又實現了不同的圖像的特征有惟一的不同的歸一化值,同樣的圖像的距離歸一后為0;最后,根據重要程度等原則可自由設置特征權重,對歸一距離加權求和,從而準確獲取相似圖像的特征距離。實驗結果表明,與現有的歐氏計算方法和高斯歸一化方法相比,本文提出的算法在相似圖像搜索的質量和效率上表現出良好的性能。 注:本文通訊作者為孟慶福。 參考文獻 [1] TIEN J M. Big data: unleashing information [J]. Journal of systems science and systems engineering, 2013, 22(2): 4?9. [2] 王元卓,靳小龍,程學旗.網絡大數據:現狀與展望[J].計算機學報,2013,36(6):1125?1238. [3] 施智平,李清勇,趙曉東,等.基于內容圖像檢索中的優化鑒別特征[J].計算機輔助設計與圖形學學報,2012,24(12):1592?1598. [4] 余明艷,丘衍航,劉海員.內容圖像檢索IALA算法的設計與實現[J].科技通報,2013,29(2):103?105. [5] HUSSAIN M, EAKINS J P. Component?based visual clustering using the self?organizing map [J]. Neural networks, 2007, 20(2): 260?273. [6] 陳湘濤,王愛云,謝偉平,等.基于內容圖像檢索的聚類算法研究[J].計算機應用研究,2008,25(12):3546?3549. [7] 張白妮,駱嘉偉,湯德佑.動態的K?均值聚類算法在圖像檢索中的應用[J].計算機工程與設計,2004,25(10):1843?1846. [8] 賈迪,孟祥福,孟琭,等.結合高斯加權距離圖的圖像邊緣提取[J].中國圖象圖形學報,2014,19(1):62?68. [9] 張闖,王婷婷,孫冬嬌,等.基于歐氏距離圖的圖像邊緣檢測[J].中國圖象圖形學報,2013,18(2):176?183. [10] ZHANG C, WANG T T, SUN D J, et al. Image edge detection based on the Euclidean distance graph [J]. Journal of image and graphics, 2013, 18(2): 176?183. [11] YANG Xiaohui, YAO Xueyan, LI Dengfeng, et al. Adaptive image retrieval based on generalized Gaussian model and LBP [C]// Proceedings 2010 2nd IEEE Symposium on Web Society. [S.l.]: IEEE, 2496?2503. [12] HOU Biao, TANG Xu, JIAO Licheng, et al. SAR image retrieval based on Gaussian mixture model classification [C]// Proceedings of 2009 2nd Asian?Pacific Conference on Synthetic Aperture Radar. Xi’an, China: IEEE, 2009: 796?799. [13] WEI Xiao. Research on image retrieval algorithm based on Gaussian mixture models clustering [J]. Software guide, 2011, 4(10): 48?50. [14] JAIN A K,VAILAYA A. Shape?based retrieval a case study with trademark image database [J]. Pattern recognition, 1998, 31(9): 1369?1390.