陳 逸 閆培新 陳基偉 孫玉寶*
1(江蘇省大氣環境與裝備技術協同創新中心江蘇省大數據分析技術重點實驗室 江蘇 南京 210044)2(南京信息工程大學自動化學院 江蘇 南京 210044)3(中國人民解放軍63936部隊 北京 102202)
20世紀80年代,高光譜遙感技術開始興起并且得到迅速發展,該成像技術在對空間地物進行成像的同時,能夠捕捉到其對應的光譜信息,因此高光譜圖像呈現為一個三維數據立方體,實現了圖譜合一成像[1]。每個像素可包含幾十至幾百個譜段,形成了近似連續的光譜曲線,反映了地表事物成分的豐富信息,可以用于識別不同的地物類型,為人類觀測與認識地表事物提供了新的技術手段。目前,高光譜圖像分類已經成為高光譜遙感領域的研究熱點[2]。由于高光譜圖像的自身特性,如光譜維度高、圖譜合一成像等,在高光譜圖像特征表達以及分類器設計等方面也面臨著一定的挑戰。
在高光譜圖像的特征表示方面,學者們進行了很多嘗試[3-5]。最初的方法通常直接使用光譜信息作為分類特征,由于成像噪聲以及光譜變化影響,較難得到穩健的分類結果。地物在空間分布具有連續性,后續的研究表明,利用這一特性有利于提升特征的魯棒性。為此,Pesaresi等[6]采用形態學方法來提取空間結構信息,構建形態輪廓特征(Morphological Profile,MP)。文獻[7]進一步拓展形成擴展形態學輪廓特征EMP,并聯同光譜信息形成空譜聯合特征表示,可有效提升分類性能。
在高光譜圖像分類器設計方面,主要包括監督模型、非監督模型與半監督分類模型,區別在于模型訓練階段是否使用到了帶有標簽的數據樣本。非監督方法不依賴于樣本的標簽信息,主要使用聚類算法來獲得高光譜像素的分布特性,但無法準確判別其類別。相比較而言,監督模型的分類效果更好,但需要大量的標定樣本進行學習[8]。對于高光譜圖像而言,訓練樣本的標定需要消耗大量的人力與物力成本。半監督分類模型充分利用高光譜圖像有限的標記樣本和大量的未標記樣本進行聯合學習[9],有效緩解了高光譜圖像訓練樣本不足的問題,有助于提高分類性能。
諸多文獻研究了高光譜圖像的半監督分類算法[10-11],基于圖模型的半監督分類是其中主流方法之一[12-14]。該類方法將每個樣本作為圖的頂點,并通過邊連接將少量標定樣本的標簽信息傳播給近鄰,在圖拉普拉斯約束下實現各頂點的標簽預測,構建有效的圖模型是該類方法的研究重點。Camps-Valls等[15]利用復合核函數計算樣本間的相似性,并為每個頂點選擇最為相似的k個頂點建立邊連接,即經典的K近鄰法(K-Nearest Neighbors,KNN)構圖。不同于核函數度量的近鄰選擇方式,基于表示的構圖方法通過樣本在字典上的表示系數來建立邊連接,例如:文獻[16]提出了l1稀疏圖模型,利用數據的稀疏表示選擇近鄰樣本,文獻[17-18]中將l1稀疏圖應用于高光譜半監督分類問題,并使用EMP作為頂點特征建立稀疏圖模型。也有文獻通過構建超圖模型[19]表示高光譜數據,不同于常規圖的兩兩頂點連接,超邊可以同時連接多個頂點,有利于表示高階的復雜關系。
構建有效的圖表示模型是高光譜圖半監督分類算法的關鍵[20]。然而當前算法在構圖過程中并未能充分利用給定的樣本標簽信息,比如不同類的樣本不應存在邊連接,同類樣本應建立連接等。為此,本文提出了高光譜圖像半監督分類的標簽約束彈性網圖算法,如圖1所示。在特征表示上,聯合了光譜信息和形態學剖面的空間信息作為樣本特征。在構圖方法上,充分利用給定的樣本標簽信息,經過標簽傳遞形成各頂點間的標簽約束,自適應選取符合標簽約束的像素作為表示字典;基于所構建的字典對每個像素點進行彈性網表示,以表示系數作為邊連接權重,進而構建高光譜圖像的彈性網圖模型;基于所構建的圖模型,實現半監督分類。在Indian Pines和Salinas Scene數據集上同多個現有算法進行對比,本文算法獲得了更優的分類結果,驗證了其有效性。

圖1 高光譜半監督分類的標簽約束彈性網圖算法
本文將各高光譜像素視為圖的頂點,基于標簽約束的彈性網表示建立邊連接,有效捕獲高光譜像素間的內在關聯結構。具體而言,考慮到高光譜圖像的空譜關聯性[21],本文聯合空間EMP與光譜特征作為頂點的特征表示:
(1)
式中:X為光譜特征矩陣;EMP為EMP特征矩陣,由每個像素點x的EMP(x)特征向量聯合而成,EMP(x)={MPPC1(x),MPPC2(x),…,MPPCm(x)}由m個主成分(PC)的MP特征聯合組成[22],每個PC的MP特征由不同圓形結構元素在像素點x處進行開操作和閉操作得到;n是半徑不同的圓形結構元素的個數,則一個MP特征維度為(2n+1),d是光譜波段的數量,N為樣本數量。
不同于現有模型直接將所有樣本自身作為字典的方式,本文利用標簽約束信息對每個樣本構建對應的表示字典,建立標簽約束的彈性網表示來生成圖模型,有利于提升構圖的準確性。整個模型的框圖如圖2所示。

圖2 標簽約束的彈性網表示
文獻[16-18]針對頂點集中每一頂點,將其他所有頂點作為字典進行稀疏分解,由于字典中包含了所有類別的頂點,這增加了誤選不同類別頂點作為近鄰的概率,同時增加了樣本系數分解的復雜度。本文利用給定的樣本標簽,通過標簽傳遞形成頂點間的標簽約束矩陣,標識各頂點間屬于同一類別的置信度,進而利用該信息,可選擇置信度高的像素作為當前樣本的表示字典,有利于降低誤選不同類別頂點作為近鄰的概率。
由于高光譜圖像只存在少量有限的樣本具有標簽約束信息,所以希望通過初始的標簽約束信息,將其傳遞到無標簽約束的樣本上,使得所有樣本之間都擁有標簽約束信息。
首先,定義初始約束矩陣Z=[zij]N×N如下:
(2)
然后,通過高斯核函數度量樣本之間的相似性。成對約束的傳遞可以看作一個兩類的半監督學習問題,具體可以定義為[23]:
(3)
式中:δ>0為正則化參數;tr為矩陣的跡算子;Z是初始約束矩陣;L是圖的正則化拉普拉斯矩陣;U是期望獲得的標簽約束矩陣。
式(3)具有解析解,標簽約束矩陣U計算如下:
(4)

基于獲得的標簽約束矩陣U,可為每一頂點構建標簽約束的字典。對于高光譜圖像的每一個像素點xi,根據標簽約束信息Ui,挑選出前M個置信度最高的像素xj構建標簽約束字典Di:
Di={xj|RM(Ui),j≠i}
(5)
式中:RM(Ui)表示選取Ui中前M個最大置信度的像素作為字典原子。根據標簽約束信息,只有與當前頂點類別最為一致的樣本才會被選中作為字典的原子,有利于提升后續分解的準確性。
基于式(5)的字典生成方法,本文進一步構建高光譜圖像的彈性網表示模型,該模型在l1約束的基礎上加上l2懲罰項[24],能夠度量非零系數間的相關性,選取多個相關的樣本來表征當前樣本。
基于每個像素點構建的標簽約束字典,進行彈性網表示,獲取樣本稀疏表示的系數矩陣。關于構建標簽約束字典的方法,已在1.1節中詳細闡述,由式(5)即可得到。通過求解下面的約束優化問題找到數據集X中所有像素點的彈性網表示[25]:
(6)
s.t.xi=Dici+ei1≤i≤N
式中:ci是xi基于字典Di獲得的表示系數;C=[c1,c2,…,cN]是系數矩陣;E是表征誤差矩陣;λ和γ是正則化參數。本文使用最小角回歸法(Least Angle Regression,LARS)求解式(6)的模型,可獲得所有樣本的表示系數矩陣C。

本文利用前l個樣本的標簽信息,通過式(4)獲得標簽約束矩陣后,進一步求解式(6)的標簽約束彈性網表示模型。根據每個樣本點的彈性網稀疏表示系數C可以構建用于半監督分類的圖模型,樣本之間的系數可以直接作為邊的權重:
(7)
進一步建立該圖上的半監督分類模型,對高光譜圖像進行分類。圖的半監督學習模型可以表示為以下正則化問題:
(8)
式中:第一項約束前l個樣本的預測標簽與真實標簽應趨于一致;第二項約束預測標簽分布的光滑性;Δ是標簽約束彈性網圖的拉普拉斯矩陣,Δ=I-D-1/2WD-1/2;D為所構建圖的度矩陣;tr為矩陣的跡算子;μ是正則化參數,權衡兩項的作用。
式(8)可通過迭代算法進行求解,迭代F(t+1)=βΔF(t)+(1-β)Y直至收斂,其中β∈(0,1)。F*是{F(t)}的收斂值,最終的優化解析解可以表示為:
F*=(I-βΔ)-1Y
(9)
根據獲得的矩陣F,每個樣本的類別判別為:
(10)
完整的算法流程參見算法1。
算法1高光譜半監督分類的標簽約束彈性網圖算法
輸入:高光譜數據矩陣X,初始標簽約束矩陣Z。
輸出:分類結果f1,f2,…,fn。
1)構建空譜聯合特征。
2)根據式(4)進行標簽傳遞得到標簽約束矩陣U。
3)根據U針對每個像素點構建字典Di。
4)根據式(6)求解標簽約束的彈性網表示,獲取系數矩陣C。
5)構建高光譜圖像的標簽約束彈性網圖模型,計算拉普拉斯矩陣Δ=I-D-1/2WD-1/2,W是鄰接矩陣,D是度矩陣。
7)依據式(10)判別各像素點xi的預測標簽fi。
為了驗證本文提出的高光譜圖像半監督分類的標簽約束彈性網圖算法(LCE+SSL)的有效性,將其與以下幾種方法進行比較,包括:
1)只使用光譜特征的支持向量機進行像素分類(PX+SVM);
2)采用支持向量機對擴展形態學特征和光譜特征級聯的像素進行分類(EMP+SVM)[7];
3)文獻[15]中提出的基于圖的半監督學習(Graph+SSL);
4)利用形態學屬性剖面的稀疏表示進行分類(SR+EMAPs)[18];
5)對空譜聯合特征僅使用高斯核構圖的半監督分類學習(GGraph+SSL);
6)空譜聯合特征的標簽約束高斯核構圖的半監督分類學習(LCG+SSL)。
本文采用以下定量指標來評估分類結果的性能:每類樣本分類的準確率,所有樣本分類的總體準確率OA,各類樣本分類的平均準確度AA,Kappa系數。
本文所使用的高光譜圖像數據集主要為:
1)Indian Pines(IP)高光譜數據集。該高光譜數據集是20世紀90年代由AVIRIS傳感器采集的印第安納州西北部的Indian Pines實驗基地圖像。其圖像大小為145像素×145像素,原始波段去除掉24個受干擾的光譜波段,一般使用留下的200個光譜波段進行實驗,地面分辨率為20 m×20 m,地面覆蓋物的類別一共有16類。
2)Salinas Scene(SS)高光譜數據集。該高光譜數據集也是由AVIRIS傳感器所采集的,是美國加利福尼亞州Salinas山谷上空的圖像。圖像大小為512像素×217像素,原始波段去除掉20個不可用的光譜波段,使用留下的204個光譜波段進行分類實驗,地面分辨率為3.7 m×3.7 m,地面覆蓋物的類別一共有16類。
由于高光譜圖像的特殊性,利用構圖來進行分類時,直接處理整個高光譜圖像會導致非常大的計算負擔。例如IP數據集的大小為145像素×145像素,如果對其直接進行構圖,其權重矩陣的大小為21 025×21 025,所以在進行實驗的時候選擇將其分割為大小約為73像素×73像素的不重疊小塊,逐一對其進行處理與實驗,最后再合成觀察實驗效果。
關于實驗中兩個參數α和β對分類性能的影響,從給定的集合{0.1,0.3,0.5,0.7,0.9}中選取這兩個參數進行實驗。經過大量實驗對比,找到最優的α和β以獲得最好的分類效果。
在每個數據集中,分別從每個類中隨機選取10%的像素作為標簽樣本。分類結果分別見表1和表2,最優的結果用粗體顯示。

表1 標簽樣本為10%的IP數據集的OA、AA、Kappa系數和平均類準確率 %

表2 標簽樣本為10%的SS數據集的OA、AA、Kappa系數和平均類準確率 %
表1列出了各算法在Indian Pines(IP)高光譜數據集上的實驗結果,在使用支持向量機的兩個實驗中,通過OA、AA、Kappa系數三個指標來觀察,EMP+SVM的分類效果明顯優于PX+SVM,由此可以學習到空譜聯合特征的使用確實可以提升分類效果。Graph+SSL也取得了不錯的分類效果,與SVM不同的是,基于圖的方法將標簽通過邊傳播到近鄰的頂點上,使其獲得正確標簽達到分類的結果。另外利用EMAPs的稀疏表示模型和高斯核構圖的方法在分類效果上有了大幅度提升,可見構建特征表示的模型方法也很重要。與GGraph+SSL相比,LCG+SSL在構圖時利用到了標簽成對約束信息,三個指標都有所提升,特別是AA得到了很大的提升,可見標簽約束對構圖及分類效果的提高起到相當可觀的作用。LCE+SSL與LCG+SSL相比,雖然在構圖時都使用到了標簽約束信息,但是構圖時使用彈性網的方法,進一步提升了分類準確性。綜上所述,從OA、AA、Kappa系數三個方面結合來看,本文提出的高光譜圖像半監督分類的標簽約束空譜聯合特征彈性網圖算法(LCE+SSL)比其他方法得到的分類效果都要好。本文方法不僅在三個指標上都達到了90%以上的正確率,并且在每類樣本的分類上都達到了很好的效果。由于部分樣本的訓練樣本數量較少,如第1類、第9類等樣本,因此其他方法分類的效果都比較差,而本文方法的分類效果明顯有了很大的提升。
圖3為IP數據集上各個實驗的分類效果圖,可以看出本文方法的分類圖出錯率更低,分類效果更好。

(a)假彩色合成圖像
表2是基于Salinas Scene(SS)高光譜數據集進行的實驗,與IP數據集一樣,選擇從每類樣本中隨機選擇10%的像素作為標簽樣本。該數據集由于每類樣本的分布較為均勻,所有的算法基本上都可以達到比較不錯的分類效果,尤其是本文方法,更是達到了99%以上的優異效果,有些樣本的分類正確率甚至達到了100%。該數據集的分類效果圖如圖4所示。

(a)假彩色合成圖像
實驗結果證明,本文方法總體上的分類效果最優,利用標簽約束信息的彈性網構圖有助于提高分類準確性。
針對高光譜圖像的分類問題,本文提出了一種標簽約束的彈性網表示圖模型用于高光譜圖像半監督分類。在特征表示上,選擇將空間特征與光譜特征相聯合構成空譜聯合特征。在彈性網分解時利用了標簽約束信息,降低了計算復雜度,使得構圖更加準確。在基于圖的半監督分類模型上,本文使用兩個高光譜圖像進行多次實驗,采用六種方法與本文的方法進行對比,實驗結果均表明,本文方法具有較好的分類性能。