謝福鼎,李 壯
(遼寧師范大學城市與環境學院,遼寧 大連 116029)
基于改進的半監督FCM算法的高光譜遙感影像分類
謝福鼎,李 壯
(遼寧師范大學城市與環境學院,遼寧 大連 116029)
分類是空間數據挖掘研究的主要問題之一。由于無監督分類忽視了樣本信息,往往得不到理想的精度。而監督分類需要標記大量的樣本點,帶來了巨大的工作量。因此半監督分類逐漸成為空間數據挖掘的研究熱點之一。本文通過改進FCM算法的目標函數和迭代過程,提出了一種新的半監督FCM算法(SFCM),該算法充分利用了有標簽樣本點在迭代過程中的作用。本文選取了在高光譜圖像分類中廣泛使用的Indian Pines和Pavia University兩幅高光譜遙感影像作為試驗對象。結果顯示,隨著有標簽樣本點比例的增加,分類精度也隨之增加,且分類結果較好。
半監督學習;SFCM算法;高光譜遙感影像;分類
分類是空間數據挖掘研究的最基本問題之一。目前,分類研究已經在遙感、土地利用、海岸線監測、森林監測、大氣監測等領域取得了很好的成果。根據樣本點是否有類信息,這些算法可以分為兩類:監督方法和無監督方法。典型的監督算法有支持向量機、神經網絡及它們的各種變形等[1-4];經典的無監督算法有模糊c-均值、基于密度的算法等[5-6]。監督方法每個樣本點都有類信息,然而收集到的地理數據基本都是沒有類信息的,標記這些樣本點工作量巨大,因此這類方法的應用在某種程度上受到了限制。而無監督分類算法完全忽視了樣本的類信息,得到的結果往往不夠理想。因此,半監督分類方法的研究成為了目前的熱點。
1973年,Dunn提出了經典的Fuzzy C-means算法(FCM)[7]。對于給定的樣本點集合X={x1,x2,x3,…,xn},xi∈Rd(i=1,2,…,n),n為樣本點個數。FCM算法通過優化下面的目標函數,將數據集分為c個類,
(1)

(2)

(3)
Pedrycz[8]提出的半監督算法引入了有標簽點的隸屬度矩陣F=[fij],j=1,2,…,c,i=1,2,…,n。該算法的目標函數表示如下
(4)
式中,α(α≥0)按照經驗取值為無標簽樣本點與有標簽樣本點個數的比值;bi是一個二值向量,即
(5)
此方法通過引入有標簽樣本點的隸屬度矩陣使無監督算法改進成半監督算法。
Stutz[9]在Pedrycz所提出的算法基礎上作了改進。改進后的目標函數為

(6)
式(4)和式(6)都引入了有標簽樣本點的隸屬度矩陣以達到半監督的效果。
首先對數據集X進行隨機標記,每類中被標記樣本點的比例為α。于是將數據集X分為XL和XU兩部分,其中XL表示有標簽樣本點,XU表示無標簽樣本點。α表示有標簽樣本點在總樣本點中的比重。有標簽樣本點在迭代過程中類別信息保持不變,只對質心的更新起作用。因此,改進后的目標函數為
(7)


為了引導無監督樣本點進行分類,充分發揮有標簽樣本點的作用,使分類效果更好,質心穩定速度更快,修改隸屬度公式和質心更新公式為
(8)

(9)
聚類中心的公式也可以寫為
vj=(1-α)vXU+αvXL
顯然,當α=0,即有標簽樣本點個數為0時,所提出的半監督FCM算法退化為無監督經典FCM算法。當α=1時,即所有的樣本點都被標記,算法不進行迭代。因此,所提出的算法可以被理解為經典FCM算法的一般化。
為了測試本文提出算法的有效性,選取了兩幅高光譜遙感圖像Indian Pines(如圖1所示)數據集和Pavia University(如圖2所示)數據集進行了試驗。試驗結果的衡量采用OA值和Kappa系數,OA值和Kappa系數越大,說明分類的結果越精確。結果表明,通過所提出的算法可以得到理想的結果。此外,在每類樣本分別被標記5%、10%、15%和20%的情況下,還將所提出的算法與MS[11]、BT[12]、MBT[13]、nEQS[14]、FCM算法進行了比較,結果表明本文算法得到的精度高于這5種算法得到的結果。

圖1 Indian Pines影像

圖2 Pavia University影像
Indian Pines數據是1992年由紅外成像光譜儀(AVIRIS)采集到的印第安納西北部的混合農業和林地地區的遙感影像。由表1可以看出,在每類樣本隨機標注5%的情況下, OA值84.05%,高于其余5種算法得到的最高值83.34%。同樣Kappa系數值0.825,也高于由FCM算法得到的0.82。在標記較少的情況下,本文算法類似于FCM算法,但由于有少量的標簽樣本,因此優于FCM算法是合理的。但對于Hay-windrowed、Oats和Wheat這3類,其余4種算法得到的分類精度都在92%以上,表現出了很好的分類能力。在Alfalfa、Corn-notill、Corn-mintill、Buildings-Grass-Trees-Drives這4個類上,本文算法優于其余5種算法得到的結果。在其余類上,利用本文算法得到的結果與其余5種算法結果類似。顯然,隨著標記樣本點的增加,分類精度逐漸提高。

表1 6種算法在Indian Pines數據集上的比較結果 (%)
Pavia University數據是由ROSIS傳感器于2003年采集的意大利帕維亞大學的遙感圖像。試驗結果見表2。從每類的樣本點個數可以看出,該數據集是非均衡數據集,即每類中樣本點的個數差異較大。利用所提出的算法,在標記5%的情況下,總體分類精度均超過90%。除去Asphalt和Bare Soil兩類外,其余每類的分類精度也超過了90%。在Asphalt、Meadows、Gravel、Self-Blocking Bricks上,本文算法表現出了卓越的分類性能。在Painted metal sheets和Shadows上,其余5種算法的分類能力很好,精度都到達了90%以上。

表2 6種算法在Pavia University數據集上的比較結果 (%)
本文提出的算法在兩幅高光譜圖像上的試驗結果表明,該算法可以有效解決高光譜圖像的分類問題。對于不同的遙感數據,隨著有標簽樣本點比重的增大,分類精確度逐漸增加。由于大多數實際數據都只具有很少一部分有標簽的樣本或無標簽的樣本,而標記所有樣本不僅費時費力,而且在有些情況下是不可能實現的。因此,本文所提出的方法具有一定的實用性。
[1] SILVA T C, ZHAO L. Semi-supervised Learning Guided by the Modularity Measure in Complex Networks[J]. Neurocomputing, 2012,78(1):30-37.
[2] MU OZ-MARI J,BOVOLO F,GO MEZ-CHOVA L,et al. Semisupervised One-class Support Vector Machines for Classification of Remote Sensing Data[J]. IEEE Transactions on Geoscience and Remote Sensing, 2010,48(8):3188-3197.
[3] 趙冬泉, 黨安榮, 陳吉寧. 監督分類方法在圖片資料專題信息提取中的應用研究[J]. 測繪通報, 2006(11):32-34.
[4] 賈永紅. 人工神經網絡在多源遙感影像分類中的應用[J]. 測繪通報, 2000(7):7-8.
[5] ZENG S, TONG X, SANG N, et al. A Study on Semi-supervised FCM Algorithm[J]. Knowledge and Information Systems, 2013,35(3):585-612.
[6] HAMASUNA Y, ENDO Y. On Semi-supervised Fuzzy C-means Clustering for Data with Clusterwise Tolerance by Opposite Criteria[J]. Soft Computing, 2013,17(1):71-81.
[7] DUNN J C. A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-separated Clusters[J]. J.Cybern, 1974,3(3):32-57.
[8] PEDRYCZ W, WALETZKY J. Fuzzy Clustering with Partial Supervision[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1997,5(27):787-795.
[9] STUTZ C, RUNKLER TA. Classification and Prediction of Road Traffic Using Application-specific Fuzzy Clustering[J]. IEEE Transactions on Fuzzy Systems, 2002,10(3):297-308.
[10] TUIA D, VOLPI M, COPA L, et al. A Survey of Active Learning Algorithms for Supervised Remote Sensing Image Classification[J]. IEEE J. Sel. Topics Signal Process, 2011,3(5):606-617.
[11] LUO T, KRAMER K, GOLDGOF D B, et al. Active Learning to Recognize Multiple Types of Plankton[J]. J. Mach. Learn. Res., 2005,6(4):589-613.
[12] LI J, BIOUCAS-DIAS J, PlAZA A. Hyperspectral Image Segmentation Using a New Bayesian Approach with Active Learning[J]. IEEE Trans. Geosci.Remote Sens., 2011,49(10):3947-3960.
[13] TUIA D, RATLE F, PACIFICI F, et al. Active Learning Methods for Remote Sensing Image Classification[J]. IEEE Trans. Geosci. Remote Sens., 2009,47(7):2218-2232.
HyperspectralImageClassificationBasedonImprovedSemi-supervisedFuzzyC-meansAlgorithm
XIE Fuding,LI Zhuang
謝福鼎,李壯.基于改進的半監督FCM算法的高光譜遙感影像分類[J].測繪通報,2016(9):60-62.
10.13474/j.cnki.11-2246.2016.0293.
P237
B
0494-0911(2016)09-0060-03
2016-01-14;
2016-05-27
謝福鼎(1965—),男,博士,教授,從事模式識別、空間數據挖掘、復雜網絡、高光譜圖像分類等方面的研究。E-mail:xiefd@lnnu.edu.cn