李 響,呂 勇
(北京信息科技大學 儀器科學與光電工程學院,北京 100192)
高光譜遙感(Hyperspectral remote sensing)經過上世紀后幾十年的迅猛發展已取得了長足的進步,因其是將光譜分析技術與成像技術相結合,以期達到獲取多維信息的技術手段,因此也被稱為成像光譜遙感[1-2]。目前的航空與航天高光譜遙感測量技術數據獲取途徑正在向多傳感器、多角度與多平臺的“三多”方向發展,而高光譜數據則向著高時間、空間分辨率以及高光譜分辨率的方向發展。因其所包含的豐富信息,高光譜遙感技術不僅被應用于傳統的地質學、地理學、農業科學與植被監測等遙感領域,在海洋學、大氣研究、生態學等環境領域也得到了廣泛的應用與研究[3-5]。當今世界,高光譜遙感已涵蓋了各個國家的航空、航天以及小范圍的地面觀測的多個層級與環節,伴隨先進探測技術、圖像處理技術、光譜分析技術、特征提取等多個學科、多個領域的定性/定量化研究的發展與進步,高光譜分析技術在對地觀測遙感領域已占有不可取代的地位。
高光譜遙感技術能夠在探測過程中,同時獲取關注區域與目標物的一維光譜數據與二維空間信息,形成所謂的“數據立方體”,“圖譜合一”的特點使得高光譜分析技術可以綜合利用光譜分析與圖像處理的優勢,得到更精確與豐富的遙感信息[6-7]。高光譜數據立方體中的每個像素中儲存著探測視場內至少十余個甚至能高達上百個連續光譜波段信息。常見的高光譜探測波長一般分布在400~2 500 nm范圍內,波長分辨率一般小于10 nm。
高光譜數據在包含空間幾何信息的同時,也承載了光譜信息,因此僅使用單一的傳統圖像處理技術或光譜分析技術均顯得力所不及。對此,需要根據高光譜數據的機理與特點發展適合數據立方體的特征信息提取算法與技術。波段重多、數據量龐大,數據內存在亞像元與混合像元,不同探測條件下“同物異譜”現象等問題在高光譜遙感中普遍存在,解決方法主要有以下4方面:數據降維與特征提取、目標探測、圖像分類以及混合像元分解。在上述幾個方面中,數據降維與特征提取可謂重中之重,是后續各種定性與定量分析的前提與基礎,同時也為龐大的高光譜數據的存儲與傳輸提供了便利。本文將拉普拉斯特征映射應用于高光譜數據,用以進行降維與特征提取,并提出了一種改進的樸素貝葉斯分類算法,對高光譜的目標區域進行了地物分類。
高光譜數據處理中的降維(Dimensionality reduction)是指利用具有較低的維度新數據來有效承載原始較高維高光譜數據中的信息,將龐大、冗余的數據量進行壓縮,以便為后續處理環節提供有效的地物信息特征[8-9]的技術。
高光譜數據處理的降維技術主要分特征提取與波段選擇兩種。其中高光譜數據特征提取(Feature extraction)是指對原始高維高光譜數據空間或其部分子空間進行特定算法的數學變換,構建新的攜帶了大部分原始有效信息并且消除了冗余性的派生特征量,以便于后續環節中對高光譜信息具有更好的理解,從而實現信息綜合、特征增強和光譜減維的過程。由于多數情況是在進行此數學變換后,數據集維度并未減小,而是結構發生了優化——少量的新變量攜帶了原始數據中的大部分信息,此時需要繼續進行光譜特征選擇(Feature selection),針對數據特征與后續環節需求,選擇變換后的新特征空間中的一個數據子集[10-11]。此子集是包含了原數據集主要特征但縮小了維度的變量空間,從而實現降維的目的,過程如圖1所示。

圖1 高光譜數據特征的提取與降維Fig.1 Feature extraction and dimensionality reduction of hyperspectral data
波段選擇也是高光譜數據降維的一個重要手段,可直接選擇高光譜數據的一個波段子集,因包含了地物信息的主要光譜特征,能夠保證目標區域的地物類別可分性。一般是設定一個評價函數作為目標,對其進行優化,最終形成一個最優的波段組合。該評價函數的選取會直接決定最終的波段子集所攜帶信息的多寡。一般來講,需要對地物信息有一定的了解,以進行有監督的優化。此外,相比于特征提取,波段如選擇與其相同的數據維度,往往會損失較多的信息,因而其應用場景受限。
拉普拉斯特征映射(Laplacian Eigen mapping)屬于流形學習算法的一種,由Belkin最早提出[12-14]。拉普拉斯特征映射使用類似頻譜技術構建鄰接矩陣的圖來進行降維。該技術基于數據位于高維空間中的低維流形的假設。該算法不能嵌入采樣點,但基于再生核希爾伯特空間正則化的技術增加了其降維能力。
與傳統技術主成分分析的相似之處在于,拉普拉斯特征映射也不會將數據的內在幾何結構作為主要考慮的問題,而會根據數據集的鄰域信息構建圖,每個數據點用作圖的節點,且節點之間的連接由鄰近點的鄰近度控制。由此產生的圖被認為與高維空間中的低維流形的離散近似?;趫D的目標函數的最小化確保流形上相互接近的點在低維空間中彼此接近,以保持局部距離。Laplace-Beltrami算子在流形上的本征函數作為嵌入維數,這是因為在溫和條件下,這個算子有一個可計算的譜,其為流形上平方可積函數的基礎。該算法的基本流程如下:
Step 1:利用K-最近鄰方法構建圖;
Step 2:選用熱核函數來確定點與點之間的權重值Wij,如果樣本點xj與其互為近鄰則有:
(1)
或將其簡化為i與j相連時,Wij=1,否則為0;
Step 3:進行特征映射,計算拉普拉斯矩陣L的特征向量與特征值:
Ly=λDy
(2)
式中,Dy是對角矩陣,滿足Dii=∑jWij,且有L=D-W,稱為Laplacian矩陣,為對稱半正定矩陣。
流形學習的本質是尋找原始數據集中所存在的內在規律性,即從測得的原始數據表象中找出隱含在高維原始數據集中的低維光滑流形。從這一點不難推斷出,相比主成分分析[15-16],作為重在發現不同映射坐標系下差異的算法,拉普拉斯特征映在對具有不同本質的高光譜數據處理時,一定會具有不弱于主成分分析的降維與特征提取能力。下面以公開的AVIRIS(Airborne Visible Infrared Imaging Spectrometer,機載可見光/紅外成像光譜儀)采集的Indian Pines數據集中的Grass-pasture-mowed與Stone-steel-towers兩類數據為例進行說明,分別進行兩種方法的預處理,僅采用各算法的前兩個新變量進行比較,結果如圖2所示。從圖中可以明顯看出,主成分分析后的新變量下,兩種類別仍然混疊在一起,而拉普拉斯特征映射后的新變量下,不同類別能較好的分開,表明拉普拉斯特征映具有更好的效果。

在機器學習中,樸素貝葉斯分類器(Naive Bayes classifier,NBC)是“概率分類器”家族的一員,它簡單而行之有效,其本質是基于貝葉斯定理在特征之間的強(樸素)獨立假設[17-18]。
樸素貝葉斯自20世紀50年代以來在文本檢索領域得到了廣泛地研究,至今仍然是一種流行的文本分類方法,如垃圾郵件判別,敏感內容審查等,其后擴展應用至其他領域。在許多實例中,樸素貝葉斯分類器的分類精度均不低于目前的研究熱點——神經網絡分類算法,尤其因其分類方法簡單,訓練與識別只需花費線性時間,無需其他很多類型的分類器所使用的費時的迭代與逼近運算,運算速度快,更適于處理大型數據,且能同時保證分類的準確性[19-20]。
利用樸素貝葉斯分類算法對高光譜圖像進行分類,首先定義數據集,每個像素處的高光譜數據定義為一個樣本,由一個多維向量X標識,X={x1,x2,… ,xm},其中xm可為原始光譜值,也可為經過預處理后得到的特征值。當由k個地物分類時,分別記為A1,A2,…,Ak,對于一個未知地物類別標號的像素點光譜樣本X,貝葉斯分類算法將判定未知類別的X為后驗概率最高的地物類別,即當1≤i≤k,且僅當P(Ai|X)>P(Aj|X),樸素貝葉斯分類將未知的樣本X分配給類別Ai,其中1≤j,i≤k,j≠i,而其中P(Ci|X)最大的地物類別就是最大后驗概率。
(3)
理論上,樸素貝葉斯模型與其他分類方法相比具有最小的誤差率,但實際上并非總是如此。這是因為樸素貝葉斯模型假設屬性之間相互獨立,這個假設在實際應用中往往不成立,在屬性個數較多或者屬性之間相關性較大時,分類效果不好。而在屬性相關性較小時,樸素貝葉斯性能最為良好。因高光譜數據在進行分類前,一般已經進行了拉普拉斯特征映射或PCA等預處理,這些預處理算法可以保證特征xi之間相互獨立,并可利用P(X|Ai)=∏P(X1|Ai)求得先驗概率,而P(x1|Ai),P(x2|Ai),…,P(xm|Ai)可以利用訓練樣本集求出。另外,樸素貝葉斯模型需要知道先驗概率,且先驗概率很多時候取決于假設,假設的模型可以有很多種,因此在某些時候會由于假設先驗模型的原因導致預測效果不佳。拉普拉斯特征映射是一種基于圖的降維算法,相比于常見的主成分分析方法,它不僅關注增加數據新屬性的差異程度,且更希望相互間有關系的樣本在降維后的空間中盡可能的靠近,因此更適于作為樸素貝葉斯分類模型的降維預處理方法。

為便于比對,本研究采用廣泛應用的免費公開的AVIRIS數據驗證說明以上算法。AVIRIS的相關信息與部分數據可在https://aviris.jpl.nasa.gov/上獲得。AVIRIS獨特的光學傳感器,可以在波長為380~2 500 nm的224個連續光譜通道(也稱為波段)中提供光譜輻射的校準圖像[21]。每個檢測器的光譜分辨率約為10 nm,當來自每個檢測器的數據被繪制在圖上時,可產生完整的可見-近紅外高光譜數據立方體。

表1 Indian Pines場景中真實的地物信息Table 1 True ground informations of Indian Pines scene
AVIRIS項目包含多組數據,限于篇幅本文僅以在印第安納州西北部的印度松樹(Indian Pines)測試場地上的采集數據為例進行說明,本算法在其他測試數據上也取得了較好效果。本文所采用數據集由145×145像素和224個波長范圍為400~2 500 nm的光譜反射波段組成。這個場景是Pursue的Univeristy MultiSpec網站上更大的一個Indian Pines高光譜數據的子集,本子集在在http://www.ehu.eus/ccwintco/上免費獲得。實驗數據集中去除覆蓋吸水區域的部分波段,去除的波段為[104-108],[150-163],220。該場景下,其具體地物信息及所包含像素數如表1所示。
印度松樹場景包含三分之二的農業和三分之一的森林或其他天然多年生植被。有兩條主要雙車道高速公路,一條鐵路線,以及一些低密度住房、其他建筑結構和較小的道路。由于6月份出現了部分作物,玉米、大豆處于早期增長階段,覆蓋率低于5%??捎玫幕臼聦嵄环譃?6個類別,并不完全相互排斥。按真實地物信息(True ground)標記各個地物類別,得到分布圖如圖3A所示,圖3B為相機所拍攝得到的目標區域照片,后續以此為標準對本文算法進行驗證。上述16種地物種類的平均光譜如圖4所示。由圖4中可以看到,相比于普通遙感圖像,高光譜數據因具有不同地物像素點的光譜維度信息,更豐富的信息為更加準確的地物分類提供了可能與基礎。

本研究所述實驗利用PC計算機進行驗證,操作系統為Windows 10,處理器為I5-6700,8 GB內存,利用MATLAB 2016A自行編寫程序。
使用“2.2”所述高光譜數據驗證本研究所提出的算法,因本算法并未涉及各數據的圖像維度信息與關系,因此各像素點數據可作為獨立光譜樣本進行分析,各類別分別隨機選取一半數據作為訓練集,得到判別分析模型,剩余一半作為校驗集,對算法與模型進行驗證。在“2.3”所述軟硬件環境下,對10 512個重復建立模型進行20次計算,取平均值,不計特征提取時間,其訓練時間僅為0.021 s,遠遠快于其他類型分類算法訓練時間。而后對Indian Pines中的剩余10 513個樣本進行分類,檢驗該方法的有效性,重復進行20次,取平均值,訓練時間僅為0.009 s。分別選擇實用原始數據及經典樸素貝葉斯算法,判別分析結果如表2所示。

表2 不同算法判別分析結果的比較Table 2 Comparison of discriminant analysis results of different algorithms
由上表可以得到,本方法的總體分類準確率達到92.7%。相比于前兩種經典方法,本方法的精度大幅提高。在圖2所示的預處理過程中也可以看到,應用拉普拉斯特征映射明顯優于廣泛應用的PCA方法,且具有更高的分類準確率。本研究所提出的方法在保持較高的準確率之外,大幅縮短了計算時間,尤其是訓練時間。
相比于傳統圖像遙感方法,高光譜數據分類具有明顯優勢。拉普拉斯特征映射能夠在降維的同時,很大程度上凸顯關注區域地物的本征特性。本文結合拉普拉斯特征映射預處理方法,通過獎勵權重的方法對經典樸素貝葉斯分類器進行了改進,利用公開數據對算法進行說明驗證,判別地物信息準確率可達到92.7%,相比于傳統方法,有大幅度提高,同時大幅縮短了計算所需時間。因此,本研究所述方法適用于需要對高光譜數據進行快速處理的應用場景。