李 鋒,馮益青
(東華大學 計算機科學與技術學院,上海 201620)
圖像檢索問題起源于 1970s末期,早期的研究主要是基于文本的圖像檢索(Text-based Image Retrieval,TBIR),它利用文本標注的方式對圖像的內容進行描述,為每幅圖片形成相關的描述特征的特征標注文本,在進行圖像檢索時,用戶可提供待檢測圖像的關鍵字,檢索系統將根據關鍵字檢索出描述特征相符的結果,并將結果反饋給用戶。但是,基于文本的圖像處理不僅耗費巨大的人力、財力,使圖像的檢索效率有極大的局限性,而且圖像的豐富內容很難由極短的文本清晰的標注出來。故傳統的檢索技術,例如基于文本的圖像檢索,已不能完全滿足人們的要求[1]。由于基于文本的圖像搜索存在許多的問題,1990s出現了基于內容的圖像檢索(Content-based Image Retrieval,CBIR)[2],它通過提取圖像本身的內在特征例如顏色、形狀、紋理、區域空間關系等圖像特征,并比較這些視覺特征的相似性,從而篩選出符合用戶要求的圖片。相對于基于文本的圖像檢索,基于內容的圖像檢索利用圖片內容的底層特征對圖像進行檢索,融合了計算機視覺、圖像處理、圖像理解和數據庫等多個領域的研究成果,其中特征的提取有專門的特征算法完成,有效的避免了因人工參與而產生的主觀因素的影響。目前,隨著機器學習、深度神經網絡等技術的不斷完善和發展,出現了基于語義的圖像檢索。基于語義的圖像檢索立足于圖像的語義特征,研究如何將圖像的低層視覺特征映射到圖像高層語義,使計算機檢索圖像的能力達到人的理解水平[3-4]。
本文在基于對圖像檢索背景的分析下,進一步考慮到相關的具體應用。科技的快速增長使得紡織行業飛速發展,織物圖片不斷增加。中國作為全世界最大的紡織品服裝生產和出口國,保證紡織行業的可持續發展十分重要[5]。織物是紡織行業生產和發展的主要資源,每天都有成千上萬的數據流動,圖像作為織物的主要呈現方式,如何快速準確的從圖庫中取出符合用戶需求的織物圖片成為生產商和銷售商面臨的主要問題。不管是花型設計、庫存管理還是材料采購等方面,判斷樣品花型圖案是否存在,以及具體的庫存位置都離不開圖像檢索技術。所以,本文結合現存圖像檢索技術和市場織物檢測的需求,將圖像檢索的相關技術應用到對織物圖片的檢索,通過對織物圖片的分析和技術的改進,希望能在織物檢索的精確度上得到提高并縮短時間,這對于后續有關圖像檢索的性能和評估都有一定的參考意義,同時在解決目前市場對織物檢測的把控和紡織業的可持續發展也起到一定的推動的作用。
為了降低圖像像素、尺寸不均等因素影響,有效地提取出織物圖像特征信息,在織物圖像特征提取前需要對初始織物圖像進行預處理。本文預處理是將圖片格式化成相同的尺寸。
為克服單一特征提取的信息量有限,無法全面描述織物圖片的內容的難題,并且結合織物圖像自身的特點,依次提取織物圖像的顏色特征、LBP特征、GLCM特征、SIFT特征,實現多特征融合。
1.2.1 基于顏色直方圖的顏色特征
顏色特征是圖像檢索領域使用很廣泛的特征。因為圖像大部分都具有豐富的顏色信息,且圖像顏色的提取很方便,已經形成了很多成熟的顏色提取方法。此外,顏色特征在差異性判斷和相似性判斷時,不僅效果好而且速度快。直方圖是對圖像數據進行統計的一種方法,可統計每一個強度值所具有的像素個數。
因為顏色特征的眾多優勢,首先選用顏色特征作為融合算法的基本特征。為了充分利用圖像的顏色信息,考慮將圖像的顏色信息進一步分解。圖像有多種格式的顏色空間,其中最常見的是RGB空間。RGB顏色空間是由紅色、綠色和藍色三個顏色通道構成的。現有的許多圖像檢索方法都是直接考慮圖像顏色信息的RGB整體表達,并沒有從三個通道上獨立的去提取特征。
本小節檢索方法的主要思路是,將待檢索圖像和數據庫圖像從紅色、綠色、藍色三個顏色通道上的顏色信息出發,分別提取各顏色通道顏色信息并生成其相應顏色直方圖,最終綜合三個通道特征比較結果得出檢索結果,并以此增加圖像檢索的精度。圖像中的三個通道顏色所占的頻率可分別通過顏色直方圖直觀顯示,對圖像特征提取結果的統計如式(1)所示,其中rk為像素的顏色等級,nk表示該顏色級為 rk的像素數量,n為圖像像素總個數。
在采集圖像的過程中,可能會因為光照等外在因素對圖像產生噪聲干擾。為了減少噪聲對原始圖像的干擾,可以采用圖像平滑的方法對灰度直方圖進行平滑處理,從而減少噪聲對距離計算造成的影響。實質上圖像平滑是一種低通濾波,它的目的就是減少突變梯度,把圖像的亮度平緩漸變,從而改善圖像的質量。對灰度直方圖進行插值平滑處理為公式(2),表示把當前像素灰度值的2倍和該像素水平方向前后領域各像素的灰度值求和,然后求平均值,再將此平均灰度值再重新賦給當前像素。經過平滑操作會減少噪聲對織物圖像檢索的影響,增強檢索的準確率。
其中 f(i)為當前處理的像素的灰度值,f(i–1)為水平方向前領域的像素灰度值,f(i+1)為水平方向后領域的像素灰度值。
1.2.2 基于局部二值模式的紋理特征
顏色是圖像檢索領域使用很廣泛的特征,但是由于織物圖像的信息豐富,若單一的使用顏色特征可能會使得圖像信息提取有限。紋理是反映圖像里同質現象的一種視覺特征,它表達了物體表面具有周期性變化或緩慢變化的表面結構組織排列屬性。紋理有著三大標志:不斷重復某些局部序列性、非隨機排列、紋理區域內為均勻的統一體。特別的,紋理特征不同于顏色特征,它通過綜合像素值和其周圍鄰域的灰度來表現。紋理特征對于圖像內容的區域性表達很有代表性。且同顏色特征一樣,紋理特征的提取也比較方便,已經形成統計型紋理特征、模型型紋理特征、信號處理型紋理特征、結構型紋理特征等在內的多種紋理特征類別。
LBP(Local Binary Pattern)即局部二值模式[6,7],是一種典型的用于描述圖像局部紋理特征的算子,由于其特征計算簡單、檢索效果好、具有灰度不變性和旋轉不變性等多個顯著優點,其在多個計算機視覺領域都得到了廣泛的應用,其中比較著名的是LBP在人臉識別和目標檢測中的應用。故本文選用LBP算子進行圖像紋理特征的統計。
經過LBP算子的計算之后,圖像的每個像素都會產生對應的 LBP特征值,本文定義 LBP計算時的采樣點為 8個,形成的 LBP特征也是 0~255,也可表示為圖像,一般稱之為 LBP圖譜。根據形成的LBP特征可以統計各特征值個數,從而形成一個直方圖。把生成的直方圖作為一個長度為256的向量。
在實際應用過程中,若直接使用該向量,一張圖像至多生成一個長度為256的向量,可以反映圖像灰度的像素值出現的次數,但是將會丟失圖像的全部位置信息,造成重大的精度損失。故本文將圖像分成4×4個區域,統計每個子區域的直方圖向量,生成特征向量的維數為 256×4×4,然后再將各子向量結合表達織物圖像的LBP紋理特征,并以此在控制檢索時間的同時,盡可能的增加檢索精度。LBP處理圖像過程如圖1所示。
圖1 LBP處理圖像過程Fig.1 The process of image processing by LBP
1.2.3 基于灰度共生矩陣的紋理特征
LBP是一種有效的局部紋理描述算法,將其與直方圖結合可以實現紋理特征的描述。為了充分提取圖像的紋理特征,對紋理特征繼續進行深入研究,發現了Haralick等人提出了基于紋理特征的灰度共生矩陣表示法,這個方法提取紋理的灰度級相關性,根據像素之間的距離和方向建立灰度共生矩陣(GLCM),并由此灰度共生矩陣結合數學、物理等理論知識,提取有意義的統計量作為紋理特征向量。灰度共生矩陣是一種較為成熟的統計型紋理特征,其具有較好的適應能力和穩健性,在服裝圖像的檢測和分類也有著較為廣泛的應用。
灰度共生矩陣不能用來直接表示紋理特征,為了從灰度共生矩陣中得到更多的信息,將進一步計算它的能量、對比度、熵、逆差距。其中 L表示灰度圖像的灰度級,P(i,j)表示GLCM中灰度值分別為i和j的像素對的條目數值[8]。
中心對稱二值模式(Center symmetric local binary pattern,CS-LBP)是一種描述局部紋理的描述算子,是在LBP的基礎上延伸而來的,它與基礎的LBP算子相比降低了一半的數據維度,減少了一半的計算量。如圖2所示,LBP計算時以nc為中心點,計算八個鄰域上中心點與像素點差值的符號,若符號為負則賦值為0,反之賦值為1,按照 n0順時針編碼,最后將編碼后的數據賦給nc。CS-LBP是對中心對稱點的亮度差進行編碼,即秩序編碼四個方向上的梯度符號,LBP可以得到 2N個編碼數,故 LBP算子的維度為 2N。而CS-LBP可以得到2N/2個編碼數,相比于LBP,CS-LBP的計算量減少了一半。
圖2 LBP和CS-LBP計算過程Fig.2 LBP and CS-LBP calculation process
在半徑為 R的圓形區域里,中心點為(x,y),其中 ni和 ni+N/2是中心對稱的兩個像素點的灰度值,T為取值范圍為[0,1]的閾值。
由于LBP算子編碼的數據維度很高,本文將以步長為1,角度為0度、45度、90度、135度分別提取灰度共生矩陣,并計算它們的能量、熵、對比度和逆差距。在計算灰度共生矩陣時,為了加快速度,將設置16個灰度級,即GLCM本身需要降低灰度級,LBP與中心點比較大小,編碼大小為256,CS-LBP與對稱點比較大小,編碼大小為16。CS-LBP直接生成16灰度級的特征圖而LBP生成的灰度級是256。由于GLCM本身需要降低灰度級,而CS-LBP直接生成16灰度級的特征圖,故本文選用CS-LBP與GLCM結合檢測,以此提高檢索精度和速度。
1.2.4 基于尺度不變特征變化的形狀特征
LBP算法和GLCM算法都是從紋理的角度對織物特征進行全局統計,織物的印花形狀或其他圖案的形狀也是織物的重要信息。故為了提高系統檢索的準確率,織物的形狀特征不可忽略。SIFT[9-12]即尺度不變特征變換,可以檢索出圖像中的關鍵點,是一種局部特征描述子。SIFT有許多優點,具有很好的穩定性和不變性,可以適應尺度縮放、旋轉和亮度的變化,在一定程度上,還能不受視角變化和噪聲的干擾;區分性好,可以在海量圖像庫中快速準確的進行匹配;多量性,一張圖片會產生多個特征點;可擴展性,能夠和其他的特征聯合。SIFT可以準確的描述圖像局部信息,主要檢索角點、拐點等等信息,SIFT可很好的統計局部特征。
使用SIFT進行特征提取的四個步驟:生成高斯差分金字塔(DoG)構建高斯差分尺度空間;利用高斯拉普拉斯函數(LoG)檢測多尺度空間極值點,選擇DoG空間中的局部極值作為候選關鍵點;基于梯度方向的局部直方圖,為每個關鍵點分配一個或幾個主方向;為每個關鍵點復制一個128維方向參數并生成關鍵點描述符。圖3是使用SIFT取織物圖像的特征點。
圖3 使用SIFT取特征點Fig.3 Use SIFT to get feature points
1.2.5 織物圖像相似性度量
主要思想是對待檢測圖像和數據庫中圖像利用計算機視覺和圖像處理技術分析并提取其自身的視覺特征,并映射為特征向量的形式來描述圖像所包含的內容,然后選取適合的距離度量函數,根據提取的特征向量之間的距離來衡量樣本圖像與數據庫圖像間的相似度,從而實現從數據庫中檢索出目標圖像的目的。
不同的相似性距離度量方法展現的效果不同,本文針對不同的特征向量采用不同的相似性距離度量方法。采取暴力匹配度量尺度不變特征變換,采用歸一化度量顏色直方圖、灰度共生矩陣、局部二值模式[13]。
對經過圖像處理提取特征的結果進行分析,根據每種特征值挑選相似圖片的精準度、決定各特征在加權融合中所占的權重。各特征權重的選擇尤為講究,本文各特征的初始權重根據各特征的搜索準確度來分配。
加權融合算法[14]定義為:
式(9)中:Lh,Lg,Lb,Ls分別HIST特征、GLCM特征、LBP特征、SIFT特征待檢測圖片與圖庫中各圖片特征向量間的距離;wh,wg,wb,ws為分別直方圖、GLCM、LBP、SIFT特征對應的權重。
多特征的融合[15]可以全面表達圖片內容,加大搜索精度,也可以有效避免單一特征不準確、單一特征的局限性、圖像內容表達不完全等等問題,故多特征的良好融合尤為重要。
準確率測試的數據集為1 000張512×384的紡織織物圖像,其中包含事先標定的花朵印花、天空印花、波點印花、幾何印花、卡通印花各16張,剩下920張為其他類型的織物印花,系統的檢索準確率是對衡量系統性能的一個很重要的部分。本節根據多特征融合[1]的織物圖形檢索系統設置對比試驗,進行系統的準確率測試。主要是將本文的特征融合檢索方法與基于單一特征的織物圖像檢索方法進行對比實驗。分別從單個特征和特征融合檢索的查全率和查準率對本系統進行測試。本文從查全率和查準率兩個角度對該系統進行檢索準確率分析。
查全率是從數據庫中檢索出相關信息量和總量的比率。查準率是檢索出的相關信息量和檢索出的全部信息的百分比。將兩者綜合起來,可以有效的表示圖像檢索系統的檢索效率。
查準率和查全率[1]的定義如式(10)和式(11)所示。
其中P表示查準率,R表示查全率,m表示檢索到的圖像總數,n表示圖像庫相關圖像的個數,t表示正確檢索到相關圖像的個數。
分析以上公式可知,若查準率較小,表明算法的檢索精度低;若查全率較低,說明檢索到了大量不相關的圖像。一個優秀的檢索算法要求查全率和查準率較高。
在本次測試中,對基于每種特征檢索出的前6張圖像進行查準率評估,對每一種特征分別采用10張不同的圖片進行10輪檢索,以獲得最終的平均準確率。其中,多特征融合的方法采用了經過權重反饋后的權重參數進行檢測,各花型的查準率測試結果如表1所示。
表1 各花型查準率測試(單位%)Tab.1 Accuracy test of each pattern (unit %)
測試過程中,系統會在數據庫中對樣本圖片按相似度排序,由于測試樣本中事先標定的每種待檢測印花均為16張,因此對基于每種特征檢索出的前16張圖像進行查全率評估,使用不包含于測試樣本中的不同織物印花圖案對所標定的每種印花織物進行 10輪檢索,統計最終的平均查全率。各花型的查全率測試結果如表2所示。
表2 各花型查全率測試(單位%)Tab.2 The recall rate test of each pattern (unit %)
從表 1中可以看出對于天空印花這類紋理特征不明顯,但是色彩特征較為固定的織物印花,顏色直方圖的準確率相對較高,而對于波點印花這類顏色不固定,紋理特征規律且明顯的織物印花,LBP與GLCM這種基于紋理的檢索方式能獲得相對更高的準確率,而對于花朵印花這類顏色鮮艷、形狀特別、但紋理不均勻的織物印花,基于顏色直方圖與 SIFT特征的檢索方式會獲得相對較高的準確率。
從表1與表2的對比可以看出當某種特征對某種印花的查準率越高,則相應的查全率也越高,查全率普遍低于查準率。但使用多特征融合以后查全率與查準率都有了一定程度地提升,這說明了采用多特征融合機制的正確性與必要性。
對兩表進行分析,將多特征融合的查全率、查準率和單個特征的查全率、查準率對比,發現不同的特征對不同印花的敏感度不同,多特征融合的目的是在融合之后使得系統向檢索精度最大的特征靠近,使得系統有較強的適用性。
紡織行業的快速發展,大量花色、形狀不同的織物圖片信息由此產生。如何從海量的圖像庫中快速、精準的找出滿足用戶需求的圖像資源信息,成為了圖像處理領域的極具挑戰性的研究性課題。本文對顏色直方圖、局部二值模式、灰度共生矩陣、尺度不變特征變換進行融合,解決了單一特征的不準確、表達圖像信息有限的缺點。運用特征權重融合各個特征,最后通過實驗表明了多特征融合的有效性。本文方法在織物圖像檢索方面較一些傳統的方法有優異的性能,但也存在不足之處,因此下一步的工作,將各權重修改成動態修改。