胡屹群, 周紹光, 岳 順, 劉曉晴
(河海大學地球科學與工程學院,南京 211100)
隨著遙感數(shù)據(jù)量呈幾何級數(shù)的增長,如何從大容量的遙感影像庫快速瀏覽和高效檢索出感興趣的目標或者影像成為了人們關注的焦點,也是目前遙感界迫切需要解決的問題之一。對于遙感影像數(shù)據(jù)庫來說,一般的文字搜索模式的作用微乎其微。為了實現(xiàn)對遙感數(shù)據(jù)庫的更精確、更高效的檢索,近年來,基于內容的圖像檢索(content-based image retrieval, CBIR)技術在遙感圖像檢索中得到了廣泛的應用[1-2]。與傳統(tǒng)影像處理過程相似,特征提取是完成檢索的核心內容,特征一般可分為低層視覺特征和高級語義特征。傳統(tǒng)的檢索方法主要是根據(jù)影像的低層視覺特征(如紋理、顏色和形狀等)來進行檢索[3],但是對于場景復雜、目標繁多的遙感影像來說,這些方法存在一定的局限性。局部不變特征(scale invariant feature transform,SIFT)[4-5]因具有較強的魯棒性以及對不同場景和目標的獨立性,在遙感影像檢索中也得到了一定的應用[6]。由于SIFT特征提供的語義信息不充足,Yang等[7]提出了利用視覺詞袋(bag of visual words,BOVW)[8]模型組合局部不變特征,通過構建視覺詞典及空間金字塔匹配(spatial pyramid matching,SPM)[9]建立圖像表示模型。進行遙感數(shù)據(jù)檢索時,將影像的SIFT特征與BOVW模型結合在一起能夠實現(xiàn)更好的影像檢索功能[10],因而在影像分類和影像檢索等遙感領域有廣泛的應用。
然而,近10 a基于內容的遙感影像檢索對影像提供的語義信息要求越來越高,傳統(tǒng)的特征提取的方式不可能完全表達出影像的語義內容,因此,如何把影像的語義信息和機器提取的低層視覺特征聯(lián)系在一起已經(jīng)成為遙感領域基于內容檢索的一大難題。與此同時,稀疏表示模型的研究[11]給遙感圖像處理和計算機視覺等領域帶來了深刻影響。基于過完備詞典的稀疏表示是一種圖像描述模型,利用詞典中少量原子的線性組合來表示或者近似表示原始圖像,實際上這些少量的原子已經(jīng)捕獲了圖像的主要結構與本質屬性。圖像的稀疏表示模型不僅能獲取圖像有效的稀疏表達,還能揭示圖像的語義信息。Mohamadzadeh等[12]提出使用稀疏表示進行圖像檢索的方法,該方法主要利用形狀和紋理組合特征的稀疏表示進行圖像檢索,并認為稀疏表示特征可以減少檢索時間和數(shù)據(jù)內存,簡化搜索過程并盡可能找到需要的圖像。但是相比SIFT特征的稀疏表示,上述2種組合的稀疏表示花費時間更多,過程更為復雜,這將會影響圖像的檢索效率。
本文提出的遙感影像檢索新方法是通過基于圖像SIFT特征的稀疏表示方式構建視覺BOVW,實現(xiàn)影像信號的有效描述,能夠有效提高檢索精度和效率,并且提取的稀疏表示特征在影像檢索領域具有很強的適用性。
本文提出的基于局部稀疏不變特征的遙感影像檢索系統(tǒng)框架如圖1所示。該系統(tǒng)的流程主要包括3個階段: 建立稀疏表示特征數(shù)據(jù)庫階段、支持向量機(support vector machine,SVM)分類模型學習階段和查詢影像檢索階段。建立稀疏表示特征數(shù)據(jù)庫階段主要是對遙感影像數(shù)據(jù)庫里每張影像提取的大量SIFT特征進行稀疏分解,獲取的稀疏表示直接作為提取的影像特征,形成較大的特征數(shù)據(jù)庫; SVM分類模型學習階段是通過影像庫里隨機抽選的訓練影像和測試影像學習并優(yōu)化而獲取一個最佳的分類模型,為后面的影像檢索階段提供相應指導; 查詢影像檢索階段首先對訓練好的SVM分類模型輸入該影像的局部稀疏不變特征,接著SVM分類模型會判定查詢影像所屬的語義類別,最后查詢影像在分類器輸出的類別范圍內進行相似度匹配,按照距離排名和評價,完成影像檢索。

圖1基于局部稀疏不變特征的遙感影像檢索系統(tǒng)
Fig.1Remotesensingimageretrievalsystembasedonsparselocalinvariantfeatures
近年來,稀疏表示已經(jīng)成為了遙感圖像處理的熱門問題之一[13-14]。本文中,所有的數(shù)據(jù)都屬于實數(shù)域。
假設輸入信號b∈Rm,信號分解是指n個基本原子ai∈Rm的線性組合,(1≤i≤n),構建信號的表達式為
b=a1x1+a2x2+…+anxn=Ax,
(1)
式中:A=[a1,a2,…,an]∈Rm×n,為過完備字典;x=(x1,x2,…,xn)T∈Rn,為稀疏系數(shù)。通過式(2)的l1范數(shù)最小化求解就可以得到式(1)的最優(yōu)稀疏表示為
(2)
式中:λ為正則化參數(shù); ‖·‖2為l2范數(shù); ‖·‖1為l1范數(shù)。
與普通圖像一樣,遙感影像像素間存在相關統(tǒng)計性,所以一般情況下遙感影像也會含有大量的冗余信息。如何在提取SIFT特征的同時去除或者減少這些冗余特征的信息,采用何種方式對影像進行有效描述,是基于稀疏表示的遙感影像SIFT特征提取的研究初衷。首先,采用Lowe[5]的方法提取每幅影像的SIFT特征,即用均勻網(wǎng)格劃分影像,確定圖塊(patch)大小,計算特征向量(dense sift);然后,以每幅影像的特征向量數(shù)據(jù)為原始信號,采用KSVD算法[15]訓練過完備字典,OMP(orthogonal matching pursuit)算法進行稀疏編碼[16],即影像SIFT特征集的稀疏表示。
1.2.1 KSVD算法
因為KSVD算法構建的過完備字典是來自于訓練數(shù)據(jù)本身,所以這些訓練數(shù)據(jù)能夠充分被表示。該算法是一種基于矩陣奇異值分解的泛化K均值聚類算法。
影像訓練特征的稀疏表示為

(3)

1.2.2 OMP算法
利用OMP算法實現(xiàn)SIFT特征的基于過完備字典的稀疏分解,該算法屬于貪婪追蹤算法,其主要思想是尋找使得影像在過完備字典上具有最大投影的少數(shù)單詞,不斷逼近原始影像。OMP算法在分解中選擇最佳的匹配單詞,使用Gram-Schmidt正交化方法進行正交化處理,接著將影像在這些正交原子構建的空間上投影,在稀疏分解的過程中,OMP算法不僅精度要求高,而且收斂速度快,計算時間少。利用OMP算法,影像的局部特征集y經(jīng)過N次分解得到,即

(4)
式中:xK為第K次分解得到的分量;aK為第K次分解得到的分量系數(shù)。
2.1.1SIFT特征
數(shù)據(jù)庫中遙感影像大小為M×N像素,以a×a網(wǎng)格大小無重疊地劃分影像,一幅影像有(M/a)×(N/a)個圖像塊。設圖像塊大小為(2a×2a),一個圖像塊計算一個描述子,即一個特征向量。計算時,每個圖像塊劃分為(a/2)×(a/2) 個方塊(Bins),每個方塊可以提取8維的SIFT特征,所以每個圖像塊獲取的特征向量的維數(shù)為(a/2)×(a/2)×8=2a2。每個圖斑向左移動一個網(wǎng)格就獲得新的圖像塊。以此類推,移動到影像邊緣,然后往下移動。最終一幅遙感影像由(M/a-1)×(N/a-1) 個2a2維特征向量表示。
2.1.2SIFT特征的稀疏表示
設置Yi為第i幅影像的特征數(shù)據(jù)集,i∈(1,m),其中m為影像庫中影像個數(shù)。利用KSVD算法獲取每類影像的過完備字典D,設置Dk為第k類訓練圖像的過完備字典,k∈(1,n),n為影像數(shù)據(jù)集所有類別數(shù)目。在已知影像的特征數(shù)據(jù)集Y和相應類別的過完備字典D以及稀疏度L的條件下,利用OMP算法對影像特征數(shù)據(jù)進行重構,得到每幅影像在其所屬類別的過完備字典下的稀疏系數(shù)Xi,i∈(1,m)。本文把影像根據(jù)過完備字典進行稀疏分解后獲得稀疏系數(shù)Xi直接作為低層特征。
在獲取影像集所有影像的局部稀疏特征之后,采用K-means聚類法將局部區(qū)域或者圖斑的特征進行聚類。每個聚類中心看作視覺詞典中一個視覺詞匯(visual word),視覺詞匯由聚類中心對應特征形成的碼字(code word)表示,這就是特征量化過程。所有視覺詞匯形成的視覺詞典(visual vocabulary)就對應一本碼書(code book),詞典大小由詞匯的個數(shù)決定每個詞匯由一個2a2維特征向量表示。影像中每個特征都被映射到視覺詞典中某個詞匯上,這種映射通過計算特征的距離去實現(xiàn)。然后通過統(tǒng)計每個視覺單詞在一幅影像特征里出現(xiàn)的頻數(shù),獲取每幅影像的特征袋(bag of features,BOF)。在每幅影像對應的BOF提取完成的基礎上,利用空間金字塔匹配模型,獲得每一幅影像全局金字塔直方圖特征,事實上該特征是稀疏向量。
本文選擇采用SVM分類模型進行語義檢索,嘗試在影像低層特征和影像高級語義信息上建立一定的聯(lián)系。首先,采用SVM分類器根據(jù)提取的不同類別影像的特征,學習影像的不同類別表示方法,即要表達的不同語義信息,將訓練好的分類模型保存起來,對查詢影像提取其相應的低層特征; 然后,利用訓練好的分類模型將提取到的低層特征在影像語義類別上進行判定,將查詢影像定位到相應影像類別的范圍內; 最后,在這個類別范圍內進行歐式距離檢索。為了避免因圖像分類的錯誤而導致檢索結果的差錯,對查詢圖像分類的返回結果取其最相似的前3個作為其分類結果,進行圖像檢索時查詢圖像只要與數(shù)據(jù)庫中屬于前3類別的圖像進行相似度計算,返回與其最相似的影像。
實驗選擇Merced Land Use Dataset公開的高空間分辨率遙感影像庫,包含21類衛(wèi)星影像。其中每個類別含有100幅影像,從每類隨機選擇10幅影像訓練,剩余90幅影像用于測試,每幅影像的大小都是256像元×256像元。選用影像庫的示例如圖2所示。另外,在特征建模算法步驟中,本文統(tǒng)一設置視覺詞典的詞匯M=200,空間金字塔層數(shù)L=3,因為在參數(shù)一致的情況下,提出的檢索方法查準率和查全率相對提高,就能有效證明本文方法的優(yōu)勢。

(a) 農(nóng)業(yè) (b) 飛機(c) 棒球場(d) 海灘 (e) 建筑物(f) 灌木叢 (g) 密集居住區(qū)

(h) 森林 (i) 公路(j) 高爾夫球場(k) 海港(l) 交叉點 (m) 中型居住區(qū)(n) 移動公園

(o) 立交橋(p) 停車場 (q) 河流 (r) 跑道(s) 稀疏居住區(qū)(t) 儲油罐(u) 網(wǎng)球場
圖2MercedLandUseDataset遙感影像示例
Fig.2SampleremotesensingimagesfromMercedLandUseDataset
圖3是本文方法檢索的可視化效果圖,以查詢公路為例,從公路影像庫任意選擇一幅影像,根據(jù)相似度匹配值,從大到小排序,返回與查詢影像最為相似的前20幅影像,被錯誤檢索的用加粗標注。從圖3可以發(fā)現(xiàn),只有圖3(q)影像是錯誤的,該影像應該屬于高爾夫球場,其余影像則是檢索正確,都屬于公路影像。

(a) 查詢影像:公路11(b) 公路11(c) 公路15(d) 公路39(e) 公路37(f) 公路38(g) 公路12(h) 公路33(i) 公路09(j) 公路03(k) 公路64(l) 公路34(m) 公路35(n) 公路55(o) 公路04(p) 公路01(q) 高爾夫球場50(r) 公路23(s) 公路26(t) 公路22(u) 公路21
圖3本文方法的可視化結果
Fig.3Visualizationresultsofnewmethodinthispaper
將本文方法與基于SIFT特征傳統(tǒng)檢索方法和基于紋理稀疏特征檢索方法進行對比,其中紋理稀疏不變特征的獲取方法是將每幅圖像以8像元×8像元大小進行無重疊切塊,接著對圖像塊的紋理特征進行字典訓練和稀疏編碼,從而獲取圖像塊的紋理稀疏表示特征。3種方法以分類精度和Kappa系數(shù)作為SVM分類效果評價指標,以查準率和查全率作為檢索性能的評價指標。
為了便于分析比較,本文計算了傳統(tǒng)的SIFT、紋理稀疏不變特征和局部稀疏不變特征3種影像檢索方法的分類精度和Kappa系數(shù)(表1),其SVM分類效果對比如圖4所示。

表1 3種方法分類效果對比表Tab.1 Comparison of three methods’ classification result

圖4 3種方法SVM分類效果對比
從表1和圖4可以看出,本文方法在訓練測試影像數(shù)量為1∶9的情況下保持了平均88.01%的影像分類正確率,有效證明利用局部稀疏不變特征的分類效果高于前2種分類方法。該方法能夠使多種類別的影像在大多數(shù)情況下得到正確分類,提供較精確的影像語義類別信息,而在正確分類情況下能夠獲取較高的影像查準率和查全率。因此本文選取了基于SIFT的稀疏表示構建SVM分類模型,用該模型指導基于內容的影像檢索應用。采用圖像檢索系統(tǒng)中應用最為廣泛的性能評價準則查準率、查全率以及相應的查準率-查全率曲線(圖5)。

圖5 查準率-查全率曲線(平滑后的曲線)
從圖5可以看出,查準率和查全率之間存在著相互依賴和相互制約的關系,如果提高查準率,就會降低其查全率,反之亦然。總體而言,該曲線越偏向右上方,表明該方法的檢索性能越好。由此可知,本文方法在查準率和查全率上具有優(yōu)勢。
另外考慮檢索影像的排序情況,本文還采用了在MPEG-7標準化處理中廣泛使用的平均歸一化修改檢索等級(average normalize modified retrieval rank, ANMRR),ANMRR的取值范圍為0~1,取值越小,說明檢索效果越好。具體的計算過程見參考文獻[12]。
通過計算ANMRR值進行評價(表2),獲知被檢索出的相關影像的個數(shù)和排序情況。

表2 ANMRR值對比Tab.2 Comparison of three methods’ ANMRR
表2中ANMRR值的定量比較證明了本文方法的檢索性能明顯優(yōu)于前面2種遙感影像檢索算法。
依據(jù)稀疏表示模型的實效性和適用性,研究了一種結合局部稀疏不變特征和視覺詞袋模型的遙感影像檢索新方法,解決了傳統(tǒng)局部特征帶來的存儲困難、計算復雜的問題。首先,以每幅影像大量的局部不變特征作為原始數(shù)據(jù),使用KSVD算法學習過完備字典,OMP算法獲取稀疏系數(shù)矩陣,將獲取的稀疏系數(shù)矩陣替代原始的密集局部不變特征; 接著,利用視覺詞袋模型和空間金字塔匹配算法獲取新的直方圖向量,作為每幅影像最終全局表示; 最后,引入最佳SVM分類模型,通過輸入查詢影像的稀疏特征判定其所屬類別,在類別范圍內進行相似度匹配,完成檢索。實驗表明,與傳統(tǒng)的局部特征檢索方法相比,新方法在提高檢索準確性的同時,大大減少所需存儲局部不變特征的數(shù)量,提高了檢索的查準率和查全率,為稀疏表示模型在遙感影像檢索研究領域開拓了新思路。
參考文獻(References):
[1] Du P J,Chen Y H,Tang H,et al.Study on content-based remote sensing image retrieval[C]//Proceedings of 2005 IEEE International Geoscience and Remote Sensing Symposium.Seoul:IEEE,2005.
[2] 程起敏.遙感圖像檢索技術[M].武漢:武漢大學出版社,2011.
Cheng Q M.Remote Sensing Image Retrieval Technologies[M].Wuhan:Wuhan University Press,2011.
[3] Dos Santos J A,Penatti O A B,Torres R D S.Evaluating the Potential of Texture and Color Descriptors for Remote Sensing Image Retrieval and Classification[R].Technical Report-IC-09-47,2009.
[4] Nandhini R,Joel T.Geographic image retrieval using local invariant features with euclidean distance[J].IEEE International Journal for Research and Development in Engineering,2014.222-225.
[5] Lowe D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[6] 吳銳航,李紹滋,鄒豐美.基于SIFT特征的圖像檢索[J].計算機應用研究,2008,25(2):478-481.
Wu R H,Li S Z,Zou F M.Image retrieval based on SIFT features[J].Application Research of Computers,2008,25(2):478-481.
[7] Yang Y,Newsam S.Geographic image retrieval using local invariant features[J].IEEE Transactions on Geoscience and Remote Sensing,2013,51(2):818-832.
[8] Karakasis E G,Amanatiadis A,Gasteratos A,et al.Image moment invariants as local features for content based image retrieval using the bag-of-visual-words model[J].Pattern Recognition Letters,2015,55:22-27.
[9] 周維勛,邵振峰,侯繼虎.利用視覺注意模型和局部特征的遙感影像檢索方法[J].武漢大學學報(信息科學版),2015,40(1):46-52.
Zhou W X,Shao Z F,Hou J H.Remote sensing imagery retrieval method based on visual attention model and local features[J].Geomatics and Information Science of Wuhan University,2015,40(1):46-52.
[10] Lazebnik S,Schmid C,Ponce J.Beyond bags of features:Spatial pyramid matching for recognizing natural scene categories[C]//Proceedings of 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.New York:IEEE,2006:2169-2178.
[11] Yang J C,Wright J,Huang T S,et al.Image super-resolution via sparse representation[J].IEEE Transactions on Image Processing,2010,19(11):2861-2873.
[12] Mohamadzadeh S,Farsi H.Content-based image retrieval system via sparse representation[J].IET Computer Vision,2016,10(1):95-102.
[13] Olshusen B A,Field D J.Sparse coding with an overcomplete basis set:A strategy employed by V1?[J].Vision Research,1997,37(23):3311-3325.
[14] Wright J,Ma Y,Mairal J,et al.Sparse representation for computer vision and pattern recognition[J].Proceedings of the IEEE,2010,98(6):1031-1044.
[15] Aharon M,Elad M,Bruckstein A.K-SVD:An algorithm for designing overcomplete dictionaries for sparse representation[J].IEEE Transactions on Singal Processing,2006,54(11):4311-4322.
[16] 霍 宏.生物視覺啟發(fā)的高分辨率遙感影像特征提取與目標檢測研究[D].上海:上海交通大學,2014.
Huo H.Biological Vision-Inspired Feature Extraction and Object Detection for High Resolution Remote Sensing Images[D].Shanghai:Shanghai Jiao Tong University,2014.