胡屹群,周紹光,岳 順,王 莎
(河海大學地球科學與工程學院,江蘇 南京 211100)
利用視覺詞袋模型和顏色直方圖進行遙感影像檢索
胡屹群,周紹光,岳 順,王 莎
(河海大學地球科學與工程學院,江蘇 南京 211100)
基于內容的遙感影像檢索已經成為遙感領域的研究熱點,因此,本文提出了一種綜合視覺詞袋模型和顏色直方圖的遙感影像檢索方法,利用尺度不變特征算子提取影像的局部不變特征,通過視覺詞袋模型組合局部特征,生成每幅影像的金字塔直方圖,接著結合每幅影像的顏色直方圖生成更有區分性的特征向量,利用新的特征向量集訓練支持向量機分類器,通過分類器輸出與查詢屬于一類的影像,完成遙感影像檢索。試驗結果表明,本文方法不僅提高了影像檢索的查準率和查全率,并且驗證了該方法能有效克服影像光照、噪聲、方向等變化,魯棒性較好。
局部不變特征;視覺詞袋模型;顏色直方圖;支持向量機分類器;影像檢索
隨著空間探測技術的發展,遙感影像因其特有的優勢廣泛應用于國土資源、城市規劃、環境安全等多個領域[1]。因此深入研究基于內容的遙感影像檢索技術,發展該技術在各個領域中的應用具有極其重要的意義[2]。基于內容的影像檢索的關鍵技術是特征提取和相似性匹配算法。顏色特征是基于內容遙感影像檢索提取的特征之一[3],每個物體有其獨特的顏色特征,一類物體的顏色特征往往相似,可以作為區分其他類別物體的特征,并且顏色特征對圖像的尺度、形狀、方向等的變化具有較好的魯棒性。但是,如果圖像的檢索僅僅使用顏色特征進行低層特征描述,則檢索結果的準確率和查全率不高,泛化性不太好。針對這一不足,相關研究者提出了局部不變特征[4],局部不變特征是從影像細節紋理結構中提取出的特征。這種特征對圖像的位移、旋轉、尺度、光照等變化有非常好的魯棒性,并且局部不變特征非常適用于復雜背景中特定目標的提取。為進一步克服低層特征和高層語義[5]的差異,有研究者提出了中層特征建模方法[6],中層特征是對低層特征的重新組合。視覺詞袋(bag of visual words model,BOVW)模型就是這樣的中層特征,基于視覺詞袋模型可以獲取圖像的金字塔直方圖,即全局特征向量,可以通過計算兩個特征向量的直方圖距離確定兩張影像的相似度。該模型已在遙感影像檢索的應用中取得了巨大成功,成為一種新的、有效的影像內容特征表示方法。但是,基于視覺詞袋模型的影像檢索也存在問題,加入空間金字塔匹配(spatial pyramid matching kernel,SPM)[7]算法的視覺詞袋模型雖然改變了傳統視覺詞袋模型的“無序”,提供了影像的空間結構信息,但也失去了視覺詞袋模型本身的優勢,抗旋轉性不及傳統視覺詞袋模型。
在基于內容的遙感影像檢索研究領域里,針對紋理特征、顏色特征和局部不變特征的研究較多[8]。但是由于遙感圖像的紋理特征比較接近,存在圖像檢索準確性不高的缺點,而局部不變特征和顏色特征因具備直觀、簡單及較強的魯棒性的優勢獲得遙感研究者的關注,并且顏色直方圖具備抗旋轉的優勢,因此本文選擇局部不變特征和顏色特征作為特征提取的內容,結合視覺詞袋模型和顏色直方圖生成一幅影像新的全局特征向量,利用特征向量集和支持向量機(support vector machine,SVM)[9]訓練分類模型,分類模型訓練完畢,向分類器輸入大數量的未知影像,分類器就會輸出與查詢影像類似的影像,從而實現遙感影像檢索。
綜合利用視覺詞袋模型與顏色直方圖進行遙感數據檢索,可以實現更多、更好的影像檢索功能,幫助相關研究者便捷地獲取遙感數據。該方法在目標檢測、影像檢索及影像分類的應用上具有很大的研究價值。
1.1 局部不變特征和視覺詞袋模型
基于局部不變特征的圖像表示通常需要兩個步驟[10]:①檢測步驟往往根據某些顯著點來表示圖像興趣區域,這些顯著點被稱為興趣點;②計算每個以興趣點為中心創建的圖斑[11]的描述子。本文選擇文獻[12]提出的尺度不變特征變換(scale invariant feature trans form,SIFT)算法檢測特征點和描述每塊圖斑。SIFT的實質可以歸納為在不同尺度空間查找關鍵點的問題,而關鍵點的坐標位置和對應的尺度是圖像在不同尺度空間進行高斯差分濾波和降采樣得到的局部極值。高斯差分圖像是由兩個尺度不同的高斯模糊圖像相減得到的
D(x,y,σ)=L(x,y,kσ)-L(x,y,σ)
(1)
其中,L(x,y,σ)是指由原始圖像與帶有標準差σ的高斯核函數卷積生成的圖像序列表達式;k為尺度倍率因子。
視覺詞袋模型是目前比較成熟和成功的圖像檢索模型,包含圖像局部特征提取、視覺詞匯表生成、局部特征編碼生成加權直方圖,以及生成圖像直方圖后進行圖像檢索等環節。視覺詞袋模型將所有的圖像集表示成維數相同的特征向量,解決了描述圖像局部不變特征數量多和不同圖像的特征向量維數不一致問題。但是傳統的視覺詞袋模型并沒有較好地利用局部特征在特征空間的結構信息,并且計算復雜度高,耗時更多。2005年,Grauman等首次提出了金字塔匹配核(pyramid match kernel,PMK)的概念,金字塔匹配核[13]具有較好的匹配性能,但是并不適用高維特征。為了有效利用局部特征在圖像的空間位置信息,Lazebnik等提出了空間金字塔匹配核函數[14],在生成加權直方圖的過程中,引入圖像的空間位置信息。這種算法可以豐富局部特征描述模型的描述能力,減少了混淆背景對視覺物體識別的影響,增加了局部特征描述模型的魯棒性。空間金字塔算法是一種常用的以多分辨率來表示圖像的有效結構,它在圖像的原始空間進行金字塔式劃分,將圖像分割成不斷精細的子塊,再把表示每個子塊的直方圖加權連接,生成整幅圖像的金字塔直方圖??臻g金字塔匹配核的計算公式為
(2)
式中,Xm和Ym分別為兩幅圖像中第m個通道的二維描述子集合,分別為描述子的橫坐標和縱坐標;M為通道數目,即視覺詞匯大??;L為金字塔分層的層數。最后根據式(3)對每個空間直方圖進行加權,得到特征向量的維數
(3)
1.2 顏色直方圖
顏色直方圖具備計算簡單、運行效率高及旋轉不變性等優點,并且對其歸一化后還具備尺度不變性,因此在圖像檢索中應用相對廣泛[15]。顏色直方圖反映了一幅圖像在顏色上的全局信息,統計像素顏色出現的概率為像素概率的估計,每幅圖像都有與之對應的顏色直方圖。
給定一幅遙感數字影像f,此影像的顏色直方圖歸一化計算公式為
(4)
式中,h[ck]為影像中第k種顏色在此數字影像中出現的頻率數值

(5)
式中,N1和N2分別表示數字影像的行數和列數;fi,j表示數字影像中坐標為i,j處的像素值。
本文提出的遙感影像檢索原理是結合視覺詞袋模型和顏色直方圖生成新的全局影像直方圖,檢索的流程大致可以分為特征提取、特征建模和分類器訓練3個步驟。
2.1 特征提取
數據庫中遙感影像大小為M×N像素,以a×a像素的網格大小劃分影像,一幅影像有(M/a)×(N/a)個網格。設置影像圖斑(patch)大小為(2a)×(2a)像素,一個圖斑計算一個描述子,即一個特征向量。計算時,每個圖斑劃分為(a/2)×(a/2)個方塊(bin),每個方塊可以提取8維的局部不變特征,因此每個圖斑獲取的特征向量的維數為(a/2)×(a/2)×8=2a2。接著每個圖斑向左移動一個網格就獲得新的圖斑。以此類推,移動到影像邊緣,然后往下移動。最終一幅遙感影像由(M/a-1)×(N/a-1)個2a2維特征向量表示。
2.2 特征建模
將一幅影像描述為一個局部區域的無序集合,接著采用K-means聚類法將局部區域或圖斑進行聚類,每個聚類中心看作視覺詞典中一個視覺詞匯(visual word),視覺詞匯由聚類中心對應特征形成的碼字(code word)來表示,這就是特征量化過程。所有視覺詞匯形成的視覺詞典(visual vocabulary)就對應一本碼書(code book),詞典大小由詞匯的個數決定。本文選擇M個詞匯,每個單詞表示2a2維特征向量。影像中每個特征都被影射到視覺詞典中某個詞匯上,這種映射通過計算特征的距離去實現。然后通過統計每個視覺單詞在一幅影像特征里出現的次數,獲取每幅影像的特征袋(bag of features,BOF)。利用視覺詞袋模型獲得影像集的全局金字塔直方圖,接著分別求出每張影像的3個顏色分量歸一化直方圖,即顏色直方圖,將全局金字塔直方圖與顏色直方圖組合,生成每幅影像的新的直方圖,該直方圖更具有區分性。
2.3 分類器訓練
基于歐氏距離的圖像檢索是傳統圖像檢索的基本手段,本文選擇使用支持向量機分類器進行檢索。首先由上述步驟獲取了遙感影像集的每幅影像的特征向量,根據這些特征向量訓練分類器,當分類精度較高時,完成分類器的訓練。分類器訓練結束,向其輸入大量的未知圖像,分類器會輸出需要檢索的目標影像類,完成最終的遙感影像檢索過程。
本文試驗選擇Merced Land Use Dataset數據庫,包含21類場景遙感衛星影像分類(每個類別100張圖片),每張圖像的大小均為256×256像素。為了更能突出本文提出的遙感影像檢索方法的魯棒性較強的性能,優先選取發生光照、平移、縮放或旋轉變化的地物作為遙感影像檢索的影像集。因此,試驗選擇具有代表性的建筑物、森林、道路和水體4類影像作為試驗的查詢影像,如圖1所示。

圖1 Merced Land Use Dataset數據集4類地物遙感影像
為了客觀評價本文方法的檢索效果,試驗采用查準率、查全率曲線圖對試驗結果進行分析,其中查準率(precision)和查全率(recall)的計算公式為

(6)
式中,M為返回的影像數目;N為返回影像中與查詢影像屬于同一類別的影像數目;P為影像集中與查詢影像屬于同一類別的影像數目。
為了驗證本文提出的遙感影像檢索方法查準率和查全率相對較高、魯棒性較強的優勢,本文又進行了基于局部不變特征的影像檢索方法和綜合紋理特征及顏色特征的影像檢索方法的兩個試驗對比,以查準率和查全率作為檢索性能的評價指標。試驗結果如圖2、圖3所示。
圖2是3種方法影像檢索方法的查準率對比圖,圖3則是查全率對比圖。從圖2可以看出本文提出的方法正確率更高,其余兩種方法總體上都略低于本文方法,并且針對4種包含100張的影像類,說明本文提出的方法具有較好的魯棒性和泛化性。從圖3可以看出本文方法的查全率也比較高,而基于紋理和顏色的影像檢索的查全率相對很低,這是由于遙感影像的紋理特征比較接近,導致圖像檢索準確性不高。綜上所述,本文提出的影像檢索方法的查全率和查準率都高于傳統的基于局部不變特征的影像檢索方法,也高于綜合紋理特征和顏色特征的檢索方法,從而驗證了本文方法能有效克服圖像光照、噪聲、方向等變化,其魯棒性較好。

圖2 查準率對比

圖3 查全率對比
本文提出了基于視覺詞袋模型和顏色直方圖的遙感影像檢索方法,使用SIFT算法實現影像局部不變特征提取,通過視覺詞袋模型組合局部特征生成全局金字塔直方圖,綜合金字塔直方圖和顏色直方圖生成一幅影像的全局特征向量。再將訓練影像集的全局特征向量集輸入分類器進行訓練,向訓練好的分類器輸入大量的測試影像集,獲取與查詢影像屬于同一類別的影像,完成影像檢索過程。觀察不同地物和不同影像檢索方法的查準率和查全率結果圖,可以看出本文提出的基于視覺詞袋模型和顏色直方圖的遙感影像檢索方法,魯棒性較強,總體性能較好,為遙感影像檢索提供了一定的參考。
[1] 李德仁,張良培,夏桂松.遙感大數據自動分析與數據挖掘[J]. 測繪學報, 2014,43(12): 1211-1216.
[2] PEIJUN D, YUNHAO C, HONG T, et al. Study on Content-Based Remote Sensing Image Retrieval[C]∥ Geoscience and Remote Sensing Symposium. Seoul: IEEE International Geoscience and Remote Sensing Symposium, 2005.
[3] ZHIYONG A, FENG Z, PING D, et al. Image Retrieval Based on the Color-Spatial Distribution Feature of Generalized Images[C]∥Education Technology and Computer Science (ETCS). Chongqing: 2010 Second International Workshop on IEEE, 2010.
[4] YANG Y, NEWSAM S. Geographic Image Retrieval Using Local Invariant Features[J]. IEEE Transactions on Geoscience and Remote Sensing, 2013,51(2): 818-832.
[5] 陶超,譚毅華,彭碧發,等.一種基于概率潛在語義模型的高分辨率遙感影像分類方法[J]. 測繪學報, 2011, 40(2): 156-162.
[6] 周維勛,邵振峰,侯繼虎.利用視覺注意模型和局部特征的遙感影像檢索方法[J].武漢大學學報(信息科學版), 2015, 40(1): 46-52.
[7] LAZEBNIK S, SCHMID C, PONCE J. Spatia-l Pyramid Matching[J]. Object Categorization Computer and Human Vision Perspectives, 2009, 3(4):37-42.
[8] 趙銀娣,蔡燕.紋理特征在高空間分辨率遙感影像分類中的應用探討[C]∥測繪科學前沿技術論壇摘要集.武漢: [s.n.],2008.
[9] RAHMAN M M, DESAI B C, BHATTACHARYA P. Medical Image Retrieval with Probabilistic Multi-class Support Vector Machine Classifiers and Adaptive Similarity Fusion[J]. Computerized Medical Imaging and Graphics, 2008, 32(2): 95-108.
[10] 孫浩,王程,王潤生.局部不變特征綜述[J]. 中國圖象圖形學報, 2011, 16(2):141-151.
[11] 賴祖龍,申邵洪,程新文,等.基于圖斑的高分辨率遙感影像變化檢測[J]. 測繪通報,2009(8):17-20.
[12] LOWE D G. Distinctive Image Features from Scale Invariant Keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.
[13] 厲心剛.基于SPM特征提取的面向對象遙感影像分類研究[D]. 武漢:武漢理工大學,2011.
[14] LAZEBNIK S, SCHMID C, PONCE J. Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories[C]∥ IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06). [S.l.]: IEEE, 2006.
[15] GIRGIS M R, REDA M S.Content-based Image Retrieval Using Image Partitioning with Color Histogram and Wave-let-based Color Histogram of the Image[J]. International Journal of Computer Applications, 2014, 104(3): 17-24.
RemoteSensingImageRetrievalUsingBagofVisualWordsModelandColorHistogram
HU Yiqun,ZHOU Shaoguang,YUE Shun,WANG Sha
(College of Earth Science and Engineering, Hohai University, Nanjing 211100, China)
Content-based remote sensing image retrieval has become a research hotspot in remote sensing field. In view of this, a new method based on this bag of visual words model and color histogram is proposed for remote sensing image retrieval. The method extracts image local invariant features with scale invariant feature descriptor, combines local features by bag of visual words model, and generates pyramid histogram for each image. Then a more distinctive feature vector is achieved by combining the color histogram of each image, the support vector machine classifier is trained using the feature vector set generated last step, and the images classified into one category with the query image then to be output through the classifier. Finally remote sensing image retrieval procedures are completed. The experimental results show that the proposed method not only improves the precision and recall of image retrieval, but also verifies that the method can efficiently overcome the changes of illumination, noise and direction, and has better robustness.
local invariant features; bag of visual words model; color histogram; support vector machine classifier; image retrieval
P237
A
0494-0911(2017)01-0053-05
胡屹群,周紹光,岳順,等.利用視覺詞袋模型和顏色直方圖進行遙感影像檢索[J].測繪通報,2017(1):53-57.
10.13474/j.cnki.11-2246.2017.0012.
2016-04-10;
2016-07-18
國家自然科學基金(41271420/D010702)
胡屹群(1990—),女,碩士生,主要研究方向為攝影測量與遙感。E-mail:1174679344@qq.com
周紹光。E-mail: zhousg1966@126.com