陶 洋,翁 善,林飛鵬,楊 雯
(重慶郵電大學 通信與信息工程學院,重慶 400065)
近年,高光譜成像技術已被廣泛應用于諸多領域[1,2]。高光譜具有波段數眾多、波段相關性強等特點,此類特點極易造成“維數災難”問題[3-5]。由于缺乏足夠的先驗知識,導致數據標注困難的問題。因此,相關學者提出無監督的高光譜特征提取方法。基于流形學習[6,7]的無監督特征提取方法可以發現高維數據中的低維流形結構,能有效表征高光譜數據的本征結構。流形學習方法可以統一在圖嵌入[7]框架下,通過頂點和邊來構建圖,利用邊表示兩個數據點之間的相似性。除了基于幾何特性的圖嵌入方法,Ly等[8]和Li等[9]還引入了稀疏表示方法揭示數據內在關聯特性。然而,稀疏表示之所以有效是因為協同機制,故而放棄算法復雜度高的l1范數,轉而利用簡單高效的l2范數最小化問題[10,11]。這些無監督圖嵌入特征提取方法都屬于直接圖嵌入方法,即只考慮數據間的一元關系,但是高維數據往往存在多元復雜關系[12]。Yuan等[13]利用光譜信息構建超圖,表征數據之間的多元關系。但是,上述圖嵌入特征提取算法忽略了高光譜圖像的空間信息,研究已表明空譜聯合可提高特征提取性能[14,15]。本文中,提出無監督空譜近鄰超圖嵌入(spatial-spectral neighbor hypergraph embedding,SSNHGE)特征提取算法,以無監督的方式,發掘高光譜圖像的空譜近鄰關系,并且通過引入超圖模型去表征高維數據的多元復雜關系,提取有效的鑒別特征,提高地物分類精度。
超圖與普通圖的主要區別是邊的頂點個數不同,普通圖的邊僅有兩個頂點,然而超圖的邊可以有多個頂點。超圖模型可以表示為G={V,E,W}, 其定義請詳見參考文獻[13]。
根據定義,不同于普通圖一條邊包含兩個頂點,只能揭示數據兩兩之間的鄰近關系。超圖的邊可以包含任意多個頂點,所以比普通圖保留更多的信息。因此,超圖適用于表示數據復雜的多元關系。例如,圖1(a)為普通圖,圖1中有7個頂點,7條邊,每條邊僅能表示兩個頂點的關系。圖1(b)為超圖,有7個頂點,3條超邊,每條邊由某個點與其近鄰點組成,其對應的超圖關聯矩陣如圖1(c)所示,與普通圖對比,一條超邊里面的點被分解成多對鏈接關系,易導致在構造圖的過程中造成有價值的信息的丟失。由此可見,普通圖是無法很好地表征高維數據結構。

圖1 超圖與普通圖對比
SSNHGE算法的總體流程如圖2所示,先充分利用無標簽樣本的空間信息與光譜信息建立無監督近鄰關系,繼而構建無監督空譜近鄰超圖模型,然后利用超圖嵌入方法獲得低維投影矩陣,繼而獲得高光譜數據的低維嵌入特征,最后采用分類器對其分類,獲得地物分類結果。

圖2 SSNHGE算法流程
本文所提算法與其它同類算法相比,具有兩方面創新點。其一,傳統方法以局部矩形窗口構建空譜近鄰關系,由于訓練樣本少,易出現局部窗口內未能找到近鄰點導致構圖失敗,以及在無監督的情況下近鄰點的選擇易出現不合適的問題。為解決此類問題,利用全局空間結構信息尋找空間近鄰點集合,再從中選擇出光譜特征相似度最接近的近鄰點集合,由此構建有效的空譜近鄰關系;其二,有效地利用空譜信息構建超圖模型,以表征高維數據多元復雜關系,解決直接圖嵌入方法在構圖過程中沒有做到信息的有效利用,以及構圖時容易丟失有價值的信息的問題。
針對普通圖僅能表征數據之間的二元關系造成構圖過程中有效信息丟失的問題,引入超圖模型表征高維數據之間的多元復雜結構;針對帶標簽樣本獲取困難和傳統的圖嵌入方法僅采用光譜特征相似度對高光譜圖像中每個像元進行獨立處理,難以充分反映其本身的相似性的問題,可通過有效地挖掘高光譜圖像像元之間的空間相關性,再利用空間相關性提取高光譜圖像的空間信息,并協同光譜信息進行有效的近鄰的選取,克服在構造無監督超圖過程中“同譜異物”或“異物同譜”等問題所帶來的不良影響。提出無監督空譜近鄰超圖模型,根據高光譜數據每個像元的光譜信息和空間信息來構建超圖。首先,給定高光譜圖像的無標簽數據集V=[v1,v2,…,vN]∈RD×N, 其中,D和N是高光譜數據集的光譜維數和無標簽像元數。每個像元攜帶自身的空間坐標信息,可定義為vi(pi,qi), 其中,pi,qi代表像元vi的空間坐標信息。如此,構建以vi為中心的空間近鄰集合,根據vi與其它像元的曼哈頓距離構建其空間近鄰集合,可表示為
(1)

(2)

(3)
由超邊矩陣E可構建關鍵矩陣H,其關聯矩陣可定義為
(4)
(5)
頂點vi的度與超邊ei的度可表示為
(6)
(7)
根據式(5)、式(6)、式(7)可構建其超邊權重矩陣、頂點的度矩陣和超邊的度矩陣
(8)
(9)
(10)
超圖嵌入模型的目的是在特征學習的過程中,盡可能地保留高光譜數據局部空譜近鄰結構的同時,有效地在嵌入空間中提取出低維鑒別特征。通過式(4)、式(8)、式(9)和式(10)共同構建其目標函數,表示為

(11)

(12)
其中,正則項VVT用于保持樣本的多樣性。對式(12)采用拉格朗日乘子法求解可得
VLVTP=λVVTP
(13)
求解式(13)的廣義特征值和特征向量,再對特征值進行升序排序,取排序后的前d個特征值所對應的特征向量重新構造成投影矩陣P∈RD×d, 低維嵌入特征可表示為Y=PTV∈Rd×N。 最后,SSNHGE算法的具體流程見表1。

表1 SSNHGE算法流程
采用公開的Indian Pines和Salinas高光譜圖像數據集,通過與同類型算法進行對比以驗證本文算法的有效性。同類型的特征提取算法含局部保持投影(locality preserving projection,LPP)[6]、近鄰保持投影(neighborhood prese-rving embedding,NPE)[7]、基于稀疏表示的稀疏保持圖嵌入(sparsity preserving graph embedding,SPGE)[8]特征提取算法、稀疏低秩保持圖嵌入(sparsity and low-rankness preserving graph embedding,SLPGE)[9]、協同表示圖嵌入(collaboration preserving graph embedding,CPGE)[10]以及協同競爭保持圖嵌入(collaboration-competition preserving graph embedding,CCPGE)[11]算法。為公平起見,實驗中利用各特征提取算法獲得到各低維嵌入特征后,統一采用支持向量機(support vector machines,SVM)分類器對各算法特征提取后的高光譜數據進行性能測試,然后利用總體分類精度(overall accuracy,OA)、平均分類精度(average accuracy,AA)和Kappa系數(kappa coefficient,KA)3種評價指標去評估各算法的性能。為提高實驗可靠性,每次實驗從高光譜數據集中以隨機的方式抽取訓練樣本,其余作為測試樣本,每組實驗重復10次,以平均值作為最終實驗結果。
(1)Indian Pines數據集為美國宇航局在1992年利用AVIRIS傳感器拍攝位于美國印第安納西北部地區,其范圍為100 km2,其尺寸為145×145像素,共220個波段,0.4 μm~2.45 μm的光譜范圍,空間分辨率為20 m,剔除受水氣(噪聲)影響的波段后,剩余200個波段可用于實驗。該數據集含16類地物,如苜蓿(Alfalfa)、玉米(Corn)、小麥(Crop)等。該數據常用于農業研究領域,但是,其中Corn,Soybean和Crop這3類地物光譜曲線相近、相似度小且類間光譜重疊大,此類特點使得分類難度大大提升。其假彩色圖、真實地物圖、類別標記圖及樣本信息如圖3所示,表2顯示了用于訓練和測試的樣本數量。

圖3 Indian Pines高光譜圖像
(2)Salinas是加利福尼亞州薩利納斯山谷區域高光譜數據。該數據集的空間尺寸為512×217像素,空間分辨率3.7 m,原始波段共224個,剔除受噪聲影響的波段后,剩余204個波段可用于研究實驗。該數據集含16類地物類別。圖4展示的是Salinas數據集的假彩色合成圖、樣本信息和類別標記圖。表3顯示了用于訓練和測試的樣本數量。
在實驗中需要分析兩個參數,空間近鄰個數kspa和光譜近鄰個數kspe, 本文測試了kspa和kspe參數在不同設置下對總體分類精度影響的實驗,其中kspe必須小于kspa參數,若大于其值,kspe將失去意義。kspa參數設置為 {8,10,12,14,16,18,20,22,24,26},kspe參數設置為 {4,6,8,10,12,14,16,18,20,22}。 圖5顯示了SSNHGE算法在Indian Pines和Salinas數據集上,kspe和kspa參數的變化對總體分類精度的影響。
從圖5可以看出選擇合適的參數對其分類精度有較大的影響,首先分析空間近鄰個數對總體分類精度的影響,隨kspa增大其分類效果呈現先增大后減少,這說明空間近鄰

表2 Indian Pines數據集的訓練及測試樣本數量

表3 Salinas數據集的訓練及測試樣本數量

圖4 Salinas高光譜圖像

圖5 kspa和kspe參數對總體分類精度的影響
點過多,會導致本文算法不能有效表征同類數據間的本征結構。其原因是,當空間距離越大,像元的相似度也就越低,選取異類像元作為近鄰點的可能性也就越大,當近鄰結構圖中異類點越多,同類數據間的本征結構表示效果越差。然后分析光譜近鄰個數對總體分類精度的影響,隨著kspe增大,其分類效果呈下降趨勢,這說明光譜特征近鄰點多會影響本文算法對數據的表征性能。其原因是,同樣的光譜距離參數設置越大,引入噪點的幾率越高,繼而破壞鑒別特征提取性能,導致分類精度下降,故而選擇合適的光譜距離和空間距離至關重要。所以,根據圖5中的實驗結果選出最優參數,在Indian Pines數據集上,kspa為20,kspe為4時其總體分類效果最佳;在Salinas數據集上,kspa為18,kspe為4時其總體分類效果最佳。
高光譜數據的分類性能會受特征提取算法維數的影響。圖6顯示了LPP、NPE、CPGE、SPGE、SLPGE、CCPGE和SSNHGE特征提取算法在不同的特征提取維數d下的總體分類情況。從圖6可知,無論是哪個數據集,各特征提取算法在特征提取維數d增加的情況下總體分類呈向上的趨勢,且當提取特征的維數達到某個值后,各類算法的總體分類精度逐漸趨于穩定。例如,在Indian Pines數據集中特征提取維數d達到20后,各算法的總體分類精度趨于平緩;在Salinas數據集中特征提取維數d達到10后,各算法的分類精度趨于平緩。在圖6中,很容易看出SSNHGE算法的總體分類精度在兩個數據集上分類精度明顯優于其它算法,尤其在Indian Pines數據集上,SSNHGE算法分類精度明顯高于其它算法。可以驗證,本文所提出的算法能夠提取出有效的鑒別特征。
表4、表5所顯示的是各類算法在兩個高光譜數據集上的分類結果,含各特征提取算法對每一種地物分類精度、平均地物分類精度、總體地物分類精度以及Kappa系數,粗體數字為最優分類評價指標。圖7展示的是Indian Pines數據集經過所提算法與同類算法特征提取后的分類結果圖;各類算法在Salinas數據集上特征提取后的分類結果,如圖8所示。

圖6 維數d對總體分類的影響

表4 各類算法在Indian Pines數據集的分類結果

表5 各類算法在Salinas數據集上的分類結果
由表4可知,在Indian Pines數據集中,SSNHGE算法在大多數的地物分類中取得了較好的分類效果,評價指標OA、AA和KA在所有算法中是最好的。SSNHGE算法的OA為80.42%比CCPGE高3.85%,而傳統的LPP只有68.18%;SSNHGE算法的AA為75.22%比CCPGE高6.96%,而傳統的LPP只有57.12%,具有明顯的優勢,驗證了SSNHGE算法的魯棒性和有效性。在圖7中,SSNHGE算法在“Corn-notill”,“Grass-pasture”和“Grass-trees”等區域錯分點少,表現出了較好的效果,這是由于其它圖嵌入算法僅考慮光譜信息進行構圖,忽略了不同像元在空間上的關系。而所提算法有效地將空間信息融入,依據空間上距離越近,其像元越大的概率屬于同類地物的原則,從距離較近的空間像元尋找光譜特征最相似的像元去構造無監督空譜近鄰關系。通過該方法可有效地抑制噪點帶來的影響,緩解同譜異物的問題,繼而獲得較好的分類效果。

圖7 各類算法在Indian Pines數據集上特征提取后的分類結果

圖8 各類算法在Salinas數據集上特征提取后的分類結果
各類算法在Salinas數據集上的分類性能見表5,SSNHGE算法對大部分地物都具較高的識別率,其OA、AA和KA指標同樣優于其它各類算法。這說明與其它直接圖嵌入算法對比,超圖學習能夠有效表征數據之間本征結構,揭示數據之間的內蘊關系,突出其鑒別特征。并且有效地融入空間信息后更有利于提取鑒別特征,提高地物分類性能。由圖8可知,SSNHGE算法在“Fallow_smooth”,“Brocoli_green_weeds_2”和“Fallow”等區域錯分點少,表現出了較好的效果,且地物分布效果平滑,進一步驗證了所提算法的有效性。
最后,為探究訓練樣本對分類效果的影響,進行了一組不同的訓練樣本個數對分類精度的影響,并且在兩個數據集上進行了驗證。對于Indian Pines數據集,訓練樣本數量與總數量比為 {1/10,1/9,1/8,1/7,1/6}; Salinas數據集為 {0.01,0.02,0.03,0.04,0.05}。 如圖9所示,各算法的分類精度與訓練數據量成正比,驗證樣本信息越豐富,越能有效提取鑒別特征,其分類精度也就越高。同時,在Indian Pines數據集中,SSNHGE的分類精度明顯優于其它算法,Salinas數據集在0.03之后也明顯優于其它算法,說明與其它算法相比,所提算法能夠達到更優的特征提取效果與分類效果。

圖9 維數d對總體分類的影響
為了將SSNHGE算法與LPP、NPE、SPGE、SLPGE、CPGE和CCPGE算法的運行時間進行對比。選用Indian Pines數據集和Salinas數據集,在Intel(R) Core(TM) i5-8400處理器,16G內存平臺上使用MATLAB進行實驗。如表6所示,各類算法在Indian Pines和Salinas數據集上的運行時間,可以看出SPGE、CPGE、SLPGE和CCPGE這4個算法運行時間遠高于SSNHGE算法,這是因為稀疏約束或低秩約束需要較大的計算資源。與SPGE、CPGE、SLPGE和CCPGE相比,SSNHGE算法的運行時間最少且分類性能最高。LPP、NPE和SSNHGE運行時間遠低于其它圖嵌入算法,SSNHGE算法的運行時間略高于LPP和NPE。但SSNHGE算法分類性能高于LPP和NPE算法。這是因為LPP和NPE算法僅利用局部信息構造圖,而SSNHGE算法能夠有效地融入空間信息并利用超圖學習提取鑒別特征,提高地物分類精度。

表6 各類算法在Indian Pines和Salinas數據集上的運行時間
經過一系列的實驗,將SSNHGE算法與其它無監督圖嵌入特征提取算法對比,本文提出的無監督空譜近鄰超圖嵌入特征提取算法在地物分類準確性和運行時間方面都具有優勢。
針對高光譜圖像數據標注困難,空間和光譜信息利用不充分以及傳統圖嵌入無法表征高維數據之間復雜結構的問題,本文提出一種無監督空譜近鄰超圖嵌入特征提取算法,在無監督情況下,利用空間和光譜信息建立有效的近鄰關系去構建超圖模型,揭示高光譜數據的多元復雜關系,實現有效的鑒別特征提取。在公開的高光譜圖像Indian Pines與Salinas數據集上進行一系列實驗后,其實驗結果表明,SSNHGE算法無論在分類精度上還是其它性能方面都優于同類算法。