魏國忠
(山東省國土測繪院,濟南 250102)
模糊聚類中認為待分數據集中的樣本都以一定的隸屬度歸屬于每個類別,隸屬度越大,則歸屬程度越高。高光譜圖像的空間分辨率一般不高,其光譜信息往往是多種地物目標的綜合反映,圖像上存在大量的混合像元具有模糊性,造成同物異譜現象嚴重。因此,利用模糊聚類對高光譜圖像的像元進行分析較硬分類方式更具優勢。在模糊聚類分析中,模糊均值聚類(fuzzy C-means,FCM)是一種經典的方法,近些年來,圍繞高光譜圖像聚類問題以FCM方法為基礎進行改進,出現了一些新的研究。主要包括3個角度:1)FCM中利用歐式距離度量不同像元間的相似性,通過綜合考慮高光譜數據光譜曲線形狀、地物輻射等特性,改進測度對高光譜圖像進行聚類。如劉偉等[2]采用乘性和加性相似性測度方式,陳偉等[3]基于角度余弦提出的新型光譜相似度,及焦洪贊等[4]提出的改進條件隨機場模型相似性測度,都結合FCM方法應用在高光譜圖像聚類中。2)FCM通過迭代計算不斷優化聚類中心位置和隸屬度,這種方法可能會陷入局部解,造成聚類精度不高。于文博等[5]利用峰值密度函數,王秀和[6]利用蟻群算法優化目標函數的求解過程,往往能夠最大程度地逼近全局最優解,令聚類過程和結果更加穩定和優化。3)FCM中采用原始像元特征作為聚類的基本單位進行處理,但在光譜特征的變換空間中可能獲得更高的可分性。如先進行圖像分割后以分割結果為處理單元再聚類[5],或者利用極限學習機將原始圖像像元光譜特征變換到更高維度后進行聚類[7]。從這些角度均有助于較好地提高結果的聚類精度。但這些方法多圍繞像元的光譜信息進行分析和處理,對像元之間的空間信息未做考慮。而事實上,在遙感影像中,相鄰的像元趨向于相同或相近的地物類型,也就是說相鄰像元間存在著統計意義上的相互依賴關系,通常稱為上下文信息[8]。目前,在監督分類中,研究表明,空-譜聯合進行高光譜圖像分類能夠顯著提高結果的分類精度[9],而無樣本監督下結合空間和光譜信息進行模糊聚類的研究相對較少。
因此,本文通過在模糊聚類中結合空間和光譜2類信息,在馬爾科夫場模型框架(Markov random field framework)的基礎上,對FCM方法進行改進,提出了一種新的高光譜圖像模糊聚類算法。
圖像空間上下文特征可以采用馬爾科夫隨機場模型進行建模,Zhang等[10]在傳統馬爾科夫隨機場模型的基礎上進行擴展,提出了馬爾科夫場模型框架,它能夠在分類過程中有效地結合空間和光譜2類信息。假設將高光譜圖像上N個像元聚為K類,任一像元j(1≤j≤N)屬于類別k(1≤k≤K),像元j的光譜向量表示為sj,該框架的數學表達如式(1)所示。
Fk(sj)=aj(k)+βbj(k)
(1)
式中:aj(k)稱為光譜項,表示像元j從光譜相似性角度隸屬于類k的概率;bj(k)稱為空間項,表示像元j從空間性相似角度隸屬類k的概率;β(≥0)是一個調節聚類過程中光譜項與空間項影響程度的權重系數,β=0表示不考慮空間信息,僅利用光譜信息進行聚類。若β取值越大,則表示空間信息在聚類中的權重越大。
FCM的目標函數如式(2)所示。
諾基亞是一家老牌手機制造廠商,其品質過硬、經久耐用,深受消費者歡迎。意想不到的事,面對新一輪的手機行業革命,諾基亞開始衰落并最終被微軟收購。近幾年,互聯網信息技術的跨越式發展,使得電子商務得到了以往從未有過的發展機會并深刻的改變了人們的生活方式。很多電子商務企業通過傳新發展模式,不再需要進行原材料的采購和產品的生產,轉而采取代工的模式,節省了很多中間環節以及生產成本,小米就是在這種模式下快速發展起來的,并迅速成為一家成功的互聯網公司。
(2)
式中:vk表示類別k的質心向量;q∈[1,∞)是一個加權指數。其中,隸屬度可以用ukj表示,即像元j隸屬于類k的概率(隸屬度),必須滿足式(3)。
(3)
在此基礎上考慮像元的上下文相關性,即如果某點處為A類地物,那么在此點鄰域上是A類地物的可能性最大[11]。在空間上下文信息的影響下,像元j在聚類過程中,不僅取決于自身光譜信息,也受到臨近像元的影響。由于鄰域像元對空間像元的影響隨其與中心像元的距離增大而影響逐漸減弱,為簡化目標函數,如圖1所示,本文中僅考慮中心像元j的一階鄰域Nj,l∈Nj表示該一階鄰域內任一像元。

圖1 像元j的一階鄰域Nj(l∈Nj)
馬爾科夫隨機場模型中,利用Gibbs分布描述圖像上臨近像元間的空間關系,一般采用Kroneker函數進行建模[8],本文考慮其鄰域像元l對中心像元j的影響與其聚類的隸屬度存在相關性,即像元l屬于聚類k的概率值越高,該類別對中心像元j的影響越大,反之,則越小。因此,目標函數可定義為式(4)。
(4)
式中:Nj表示像元j的一階鄰域;ul k表示鄰域像元l隸屬于類k的概率;β(≥0)為全局空間權重系數。其中,光譜項與傳統FCM目標函數保持一致,即與當前像元j的光譜特征相關;空間項表示在光譜特征基礎上,像元j與類k空間上的相似性。將目標函數對ukj求偏導,結合式(3)的歸一化項,得到隸屬度矩陣ukj,如式(5)所示。
(5)
然后,將目標函數對質心vk求偏導,并令其為零,得到質心,如式(6)所示。
(6)
得到基于全局空間權重的馬爾科夫隨機場模糊聚類模型(global weight Markov random field-fuzzy C-means,GWMRF-FCM)。
在全局權重馬爾科夫隨機場模糊聚類算法中,采用固定的常數值作為權重系數控制空間特征在目標函數中的比例。但由于遙感圖像上不同地物分布復雜且尺度的差距很大,像元的空間相關性各不相同。比如在同質性區域中,像元的連續性很強,上下文關系對像元的類別影響較大,此時需要給予較大的空間項權重;反之,在邊界區域,由于像元的光譜特征發生突變而不具備相關性,此時應忽略空間關系的影響,僅依靠光譜特征即可進行區分,此時空間項權重應趨近于0。根據此原則,本文提出利用邊緣提取方法得到像元的相關性特征,確定單個像元對應的局部權重系數。
局部權重系數βj要求能夠針對當前像元j位于同質區或邊界區域進行自適應的變化。因此,可以通過計算像元j的梯度信息來獲得。這里采用高斯-拉普拉斯算子(Laplacian of Gaussian,LoG)計算獲取高光譜圖像每個波段的梯度,分別對應0°、45°、90°以及135° 4個方向,如式(7)所示。
(7)
式中:xj,yj分別表示當前像元j的行列號;σ表示高斯核寬度。LoG算子實質是先利用高斯函數對圖像進行低通濾波平滑噪聲,再使用拉普拉斯算子進行邊緣檢測,能夠有效避免噪聲的影響[12]。然后,將高光譜圖像每波段像元的各方向梯度信息累計平均后,得到式(8)。
(X)={ρj∈R,j=1,2,…,N}
(8)
式中:ρj表示像元的平均梯度值。為保證像元的光譜項與空間項在數值上對聚類影響的一致性,根據梯度信息與權重系數間的關系定義邊界函數,如式(9)所示。
(9)
式中:α為常數,將像元j的空間權重值控制在(0,1]范圍內。那么,若像元j位于邊界處時,其梯度值ρj值較大,則考慮其空間權重βj較小;相反,若像元j位于類別連續的同質區域內,其梯度值ρj值較小,則考慮給予其較大的空間權重。
將該局部權重系數帶入式(4),獲得新的目標函數表達式,如式(10)所示。
(10)
此時,隸屬度矩陣表達式變為式(11)。
(11)
得到空間權重自適應馬爾科夫隨機場模糊聚類方法(adaptive weight Markov random field fuzzy C-means,AWMRF-FCM)。
若將高光譜圖像上N個像元聚為K類,本文算法流程如圖2所示。

圖2 空間權重自適應馬爾科夫隨機模糊聚類算法流程圖
步驟1:對高光譜圖像進行邊緣檢測,根據式(7)至式(9)計算像元空間權重系數βj;
步驟2:設置初始值,最大迭代次數T和停止閾值條件θ,隨機初始化隸屬度矩陣ukj,并計算初始質心vk;
步驟3:根據式(11)更新隸屬度矩陣ukj;
步驟4:根據式(6)更新聚類質心vk;
步驟5:根據式(10)計算目標函數J,重復步驟3~步驟4,計算目標函數直至其差異小于閾值θ或者達到最大迭代次數T,結束計算;
步驟6:根據隸屬度最大原則獲得聚類結果。
本文采用模擬及真實高光譜數據集進行實驗,目的是比較僅考慮光譜及結合光譜與空間信息進行模糊聚類方法的精度。對標準FCM算法、FCM聚類后中值濾波(FCM-median filtering)、GWMRF-FCM和AWMRF-FCM 4種算法的聚類結果,利用生產者精度、總體分類精度指標進行定量評價對比。實驗數據中,模擬數據根據先驗知識從真實高光譜圖像上獲取,其每個像元類別標號均為已知,有利于通過實驗結果評價本文算法對空間信息的利用程度及空間信息對最終聚類結果,特別是邊界處像元的影響。真實數據實驗用于證明本文算法在真實數據中的效果。
模擬數據從PHI(pushbroom hyperspectral imager)航空高光譜相機觀測的日本精細農業數據中獲取[13]。該傳感器覆蓋從400~850 nm的80個譜段,空間分辨率為3 m。如圖3所示,根據地面調查結果,從高光譜圖像上分別取出林地、草地和裸地3類地物像元構成模擬高光譜圖像。圖4(a)為模擬高光譜圖像3個譜段(760 nm、650 nm、560 nm)假彩色合成結果。在樣本參考圖圖4(b)中,海藍色表示大面積林地區域;中間綠色區域表示草地;白色表示的裸地,作為林地和草地的邊界。

圖3 模擬高光譜圖像樣本來源分布

圖4 模擬高光譜圖像及樣本參考圖
在模擬和真實高光譜對比實驗中,為保證實驗的可對比性,參數保持一致。其中,FCM聚類數K=3,參數q=2;FCM聚類后進行中值濾波選擇一階3×3窗口;GWMRF-FCM中全局權重系數β取值為1,表示聚類中光譜權重與空間權重同等重要;AWMRF-FCM中自適應權重系數計算時,高斯核寬度σ=0.5,α取值30。4種方法迭代開始均采用隨機初始化隸屬度矩陣,閾值條件θ=0.001作為迭代停止條件。
4種方法的聚類結果如圖5所示。可以發現,FCM聚類結(果圖5(a))中,由于林地和草地光譜異變,存在較為嚴重的同物異譜現象,在聚類過程中出現了較多的誤分,其中林地部分像元被誤分為裸地,草地的部分像元被誤分為林地。通過對該聚類結果進行濾波后處理,即利用空間連續性對噪聲進行去除,從圖5(b)中看出圖5(a)中分類結果的麻點噪聲得到較好的抑制,林地和草地的地塊完整性增強。通過表1中林地和草地的生產者精度發現,該方法處理獲得這2類地物的精度得到明顯提高,整體分類精度也較FCM獲得較大幅度提高,但裸地的分類精度卻嚴重下降,這主要是由于裸地位于林地和草地的邊界處,為線狀地物,在處理過程中很容易發生過平滑現象。在GWMRF-FCM方法中,聚類過程具有明顯噪聲抑制的效果,并且圖5(c)的中心區域的草地區域聚類更加完整,但由于其空間項權重沒有考慮不同地物的連續性程度,在對不同地物處理時的權重完全一致。在本實驗中,草地的效果很好,精度達到100%,但較草地噪聲影響更嚴重的林地中,由于空間信息考慮的程度不足,造成麻點在聚類過程中未被完全去除;相反,裸地在考慮空間信息時又產生了過分類的情況,造成其分類精度下降。但表1中顯示GWMRF-FCM較FCM-median filtering分類結果中裸地的精度略高。最后,通過圖5(d)可以看出,本文提出的AWMRF-FCM自適應地考慮了不同地物的空間連續性程度,其中林地和草地由于連續性較強,其梯度信息較弱,則給予較高的空間權重,而裸地處于地物的邊界處,梯度信息很強,則給予較低的空間權重,保留其細節信息。表1中的分類結果證明,通過自適應權重馬爾科夫隨機場模型聚類方法處理獲得3類地物的分類精度沒有明顯很低的情況,整體分類精度最高。

圖5 模擬高光譜圖像4種不同方法聚類結果

表1 模擬高光譜數據生產者精度及整體精度比較 %
本文選擇的真實高光譜圖像采用高光譜成像光譜儀AVIRIS數據,該數據覆蓋了美國印第安納州西北部地區的一個農業與森林混合地區,拍攝時間在作物的生長季節,是高光譜數據分類方法研究中常用的數據集。數據大小為145行,145列,共220個波段,空間分辨率為30 m。去除水吸收和噪聲波段(104~108、150~163、200),最終剩200個波段。高光譜圖像假彩色合成影像和地面參數據如圖6所示,地物分別由林地、玉米、草地、干草、大豆5種植被組成。實驗地面參考數據用于定量評價高光譜圖像的聚類精度。

圖6 原始高光譜圖像假彩色合成及地面參考數據
如圖7所示,考慮空間信息時,圖7(b)、圖7(c)、圖7(d)與僅使用像元光譜的聚類方法結果圖7(a)相比,圖像上噪聲影響明顯減少,但圖7(b)中圖像的邊界也由于平滑處理變得模糊。GWMRF-FCM和AWMRF-FCM聚類結果中,同類地物區域內保持了更好的同質性,且圖像的邊界保持較為完整。如表2所示,空間濾波后處理對聚類精度提高十分有限,而本文提出的2種方法較FCM聚類的整體分類精度提高幅度分別達到27.69%和31.39%,其中,AWMRF-FCM整體精度最高,達到85.52%。

圖7 真實高光譜圖像4種不同方法聚類結果

表2 真實高光譜數據各類生產者及整體精度對比 %
本文提出了一種整合空間與光譜信息的高光譜圖像模糊聚類方法,即在光譜信息相似性聚類基礎上,引入鄰域像元間相關性和連續性;提出了一種基于空間權重自適應馬爾科夫隨機場模型的高光譜圖像模糊聚類算法,在FCM光譜聚類基礎上,通過馬爾科夫隨機場模型對空間信息進行建模,并利用自適應權重系數控制其在聚類中的影響程度。通過模擬和真實高光譜圖像實驗證明,在聚類過程中,當光譜信息區分度相對較弱情況下,本文方法通過加入空間上下文信息,有效提高聚類判別的正確性,增強了抗噪能力,極大減少了由于混合像元和“同物異譜”現象造成的噪聲影響,提高了聚類精度,有利于進一步對地物提取和識別。