侯 璨,李志飛
(1. 上海飛未信息技術有限公司湖南分公司,湖南 長沙 410005;2. 湖南星圖空間信息技術有限公司,湖南 長沙 410004)
高光譜遙感是用很窄而連續的光譜通道對地物持續遙感成像的技術。在可見光到短波紅外波段其光譜分辨率高達納米數量級,通常具有波段多的特點,光譜通道數多達數十甚至數百個以上,而且各光譜通道間往往是連續的[1]。目前高光譜遙感已經在自然資源、農業、林業等領域得到廣泛應用,與高光譜有關的處理技術也迅猛發展。由于高光譜影像空間分辨率相對較低,在影像中普遍存在混合像元,混合像元的存在嚴重影響遙感分類和面積計算精度。為提高高光譜遙感應用的精度,首先需要解決混合像元分解的問題?;旌舷裨纸獾年P鍵問題有2 個:①如何準確地估計端元的數目;②如何更有效地尋找出端元[2-3]。目前端元數目估計算法根據原理可以大致分為2 類:第①類是基于信息理論準則法,包括Akaike 信息準則(AIC,akaike’s information criterion)、最小描述長度(MDL, minimum description length)、貝葉斯信息準則(BIC,bayesian information criterion)等。第②類是基于特征值閾值法,常用的有HFC 算法(Harsanyi-Farrand-Chang)、噪聲白化HFC 法(NWHFC,Noise whitened HFC)[4]、基于最小誤差的高光譜信號識別算法(hyperspectral signal identification by minimum error,HySime)[5]等。AIC、MDL、BIC 算法都建立在似然函數對數的基礎上,主要缺點之一是它們基于高斯噪聲的假設。眾所周知,高光譜遙感圖像中的噪聲一般不是高斯分布的。HFC、NWHFC 算法來源于涅曼皮爾森的探測理論,通過計算得到的相關特征值和協方差特征值分別表示由樣本相關矩陣和樣本協方差矩陣產生的特征值,HFC和NWHFC算法由于受誤警率設置的影響,不同的誤警率會導致不同的端元個數估計值。如何設定合適的誤警率通常是算法的關鍵,基于高光譜數據的先驗知識難以獲取,因此我們很難確定合適的誤警率。HySime 算法的自適應性強,不需要輸入任何參數,因此廣泛應用于估計端元個數。
本文采用HySime 算法對不同信噪比的高斯白噪聲、高斯有色噪聲模擬高光譜數據以及馬蹄灣村真實高光譜數據的端元個數進行估計,科學評估算法的有效性、穩健性,為真實高光譜遙感影像端元個數估計提供參考依據。
HySime 算法首先是Bioucas-Dias 和Nascimento 提出來的,其基本原理是使用多元線性回歸估計信號和噪聲的相關矩陣。算法采用信號相關矩陣的特征向量子集來代替信號子空間,通過最小化投影誤差功率之和與噪聲功率來推斷子空間,即通過增加或減少子空間的維數來估計端元個數。因此,如果子空間維數估計過高,噪聲占支配因素;反之如果子空間維數估計過低,投影誤差占支配因素。該算法的優點是計算效率高、非監督及全自動化。HySime算法主要包括噪聲估計(Noise Estimation)和信號子空間估計(Signal Subspace Estimation)2個部分。
在數據分析特別是高光譜遙感數據處理中,噪聲估計是一個常見的典型問題。移動差值法(Shift Difference)是最簡單的噪聲估計法,也被稱為鄰近像素差值法(nearest neighbor difference[6],NND)。該方法首先假設鄰近像素之間的噪聲獨立并且具有相同的統計量,同時其光譜信息也假定基本相同。為了獲取有效的噪聲估計值,移動差分法必須采用均質區域而不是整個影像區域。該方法存在2 種不足:①該方法假定鄰近像素間有相同的信號信息,而在高光譜數據中該假設不一定滿足;②為了改善噪聲估計效果,必須采用監督方法選擇均質區域。
HySime算法中噪聲估計采用多重回歸理論(multiple regression theory)。首先假設Y為N個L維光譜觀測向量,定義Z=YT,zi=[Z]:,i,其中[Z]:,i為矩陣Z的第i列(zi為第i個波段的所有圖像像素數據)。假定zi為其余L-1波段的線性組合,即
式中,Z?i=[z1,…,zi-1,zi+1,…,zL] ?RN×(L-1);βi?RL-1為回歸向量;εi?RN為模型誤差;利用最小二乘法求得βi的估計值[7]:
噪聲估計值為:
噪聲相差矩陣。為了減小計算量,經過推導發現 可以通過去掉(ZTZ)-1的第i行、第i列后經過變換得到。具體算法如下:
1)輸入高光譜數據Y=[y1,y2,…,yN] ;
2)令Z=YT,?=ZTZ;
3)令;
4)for i=1:L
5)輸出。
信號子空間估計是HySime 算法的核心。首先根據前節提到的噪聲估計法確定信號空間的正交方向子集,然后通過尋找原始信號x和由y=x+n得到的x的噪聲投影兩者之間的最小均方根誤差確定子集。假設噪聲服從均值為零,協方差為的高斯分布,即。假定信號樣本相關矩陣為,特征分解為:
式中,E=[e1,…,eL] 為的特征向量按特征值大小排列的特征向量矩陣。將空間RL分解為由Ek=[ei1,…,eik] 確定的k維子空間和由確定的子空間。假定為投影矩陣,經過推導可知子空間參數k的計算公式為[7]:
具體算法如下:
1)輸入高光譜圖像數據Y=[y1,y2,…,yN] ,并計算R?y=(YYT)/N;
3)計算估計的信號相關矩陣;
4)計算;
5)計算k=argmin。
為了更好地評價算法有效性,實驗采用模擬數據和真實高光譜數據2種數據。模擬數據采用USGS光譜庫[8]中明礬石、水銨長石、方解石、高嶺石、云母5種光譜作為端元構建大小200×200 共224 個波段的模擬圖像,光譜范圍0.38~2.5 μm,光譜分辨率為10 nm ,其光譜曲線如圖1所示。模擬圖像的背影為5種光譜的均值,并構建25個模塊,每一列的模塊有相同的尺寸,如圖2所示[9]。

圖1 5種光譜曲線

圖2 25個模塊
真實數據為雄安(馬蹄灣村)高光譜數據集,該數據由中國科學院上海技術物理研究所研制的高分專項航空系統全譜段多模態成像光譜儀采集,光譜范圍為400~1000 nm,波段數為256 個,影像大小為3750×1580,空間分辨率為0.5 m,數據的真彩色影像如圖3所示。

圖3 馬蹄灣村高光譜數據真彩色影像
考慮到算法的隨機性,本次實驗共分為5 組,每組實驗采用HySime 算法分別對不同信噪比的高斯白噪聲(η=0)和高斯有色噪聲(η=1/18)高光譜影像進行端元個數估計,實驗結果如圖4所示。

圖4 模擬數據實驗結果
采用HySime 算法估計高斯白噪聲(η=0)高光譜模擬影像的端元個數,5 組實驗估計端元個數的結果均相同,當信噪比SNR=2 dB時,估計端元個數為1;當信噪比SNR=4 dB時,估計端元個數為2;當信噪比SNR=6 dB 時,估計端元個數為3;當信噪比SNR=8、10、12 dB 時,估計端元個數為4;當信噪比SNR≥14 dB 時,估計端元個數為5。采用HySime 算法估計高斯有色噪聲(η=1/18)高光譜模擬影像的端元個數,除第4組實驗信噪比SNR=4 dB時估計的端元個數為3 外,其余估計的結果均相同,即當信噪比SNR=2 dB 時,估計端元個數為2;當信噪比SNR=4、6、8、10、12、14 dB 時,估計端元個數為4;當信噪比SNR≥16 dB時,估計端元個數為5。
綜上所述,當信噪比SNR≥16 dB時,HySime算法能很好地估計法出端元個數,當信噪比低于16 dB時,HySime 算法估計的端元個數略低于實際端元個數。通過實驗表明在高信噪比高光譜遙感數據中該算法可靠性高、穩定性好。
經過實地考察發現,該地區存在地物類別共計19 類,包括水稻茬、草地、榆樹、白蠟、國槐、菜地、楊樹、大豆、刺槐、水稻、水體、柳樹、復葉槭、欒樹、桃樹、玉米、梨樹、荷葉、建筑。為了科學評價HySime算法,本次實驗分別采用HFC、NWHFC、HySime 算法對真實數據進行端元個數估計,并通過計算信號分量投影在信號子空間的相對功率來評價算法的精度,計算式為e=1-PE/PN,其中PE為信號分量投影在信號子空間的功率,PN為總功率。其端元估計的實驗結果如表1所示,HySime算法的均方誤差分布如圖5所示。

表1 雄安(馬蹄灣村)數據端元個數估計結果

圖5 端元個數估計均方誤差分布圖
在誤警率為10-3條件下,HFC 和NWHFC 算法估算的端元個數分別為16、17;在誤警率為10-4條件下,HFC 和NWHFC 算法估算的端元個數分別為15、17;在誤警率為10-5條件下,HFC 和NWHFC 算法估算的端元個數均為14;通過表1的實驗結果分析可知,HFC 和NWHFC 算法由于受誤警率設置的影響,不同的誤警率會導致不同的端元個數估計值。其整體趨勢為正相關,即誤警率越小,端元個數的估計值越少。而使用HySime 算法不受誤警率設置影響,該實驗所得的端元個數估計值為19。估算的端元個數與實地考察結果基本一致。通過相關學者的進一步研究發現,端元個數的差異會嚴重影響高光譜遙感影像地物分類精度,嚴重影響地物和光譜特征間的精確數量關系模型,在地物識別方面容易忽略微小地物等問題。
綜上所述,由于HySime 算法適應性強,穩定性好,不需要輸入任何參數等特點,通常采用此算法估算真實高光譜遙感影像估算端元個數。
HySime算法首先使用多元回歸估計信號和噪聲相關矩陣,然后使用信號相關矩陣的特征向量子集來表示信號子空間。該子空間是通過最小化投影誤差功率與噪聲功率之和來推斷的,它們分別是子空間維度的遞減函數和遞增函數。因此,如果子空間維度被高估,則噪聲功率項占主導地位;如果子空間維度被低估,則投影誤差功率項占主導地位。通過一系列模擬數據及真實高光譜數據進行的實驗結果表明該算法自適應性強,穩定性好,不需要輸入任何參數,是一種準確估計高光譜影像的端元個數的算法。通過相關學者對HySime 算法進一步的研究,我們可以了解Hy-Sime算法對弱端元的探測能力較差,算法過程中容易忽略弱端元。但是,由于高光譜數據的空間分辨率較低,采用高光譜數據通常是基于宏觀上的分析研究,而忽視弱端元的存在對精度影響較小,基本能夠滿足需求,因此在端元個數不清楚的地區通常使用此算法估計端元的個數。