基于多種分類器組合的森林類型信息提取技術研究
張智超,范文義*,孫舒婷
(東北林業大學 林學院,哈爾濱 150040)
摘要:遙感圖像分類是遙感應用系統中的關鍵技術,提高遙感圖像的分類精度是發展遙感技術重點,采用多分類器組合的算法對黑龍江塔河縣森林類型進行分類。根據黑龍江省森林資源調查技術規定及研究區二類調查數據制定分類系統,最終的分類級別為針葉林、闊葉林和針闊混交林。通過分析TM數據的原始波段和NDVI、BI等植被指數提取各分類類型的光譜特征。選擇最小距離法、最大似然法、馬氏距離法對研究區進行分類,計算出各分類器的精度。在分類器組合的過程中采用信息熵方法確定組合分類器中各分類器的權重系數,利用組合后新的分類器對研究區進行分類。結果表明:多分類器組合的分類精度達75.59%,比單分類器精度提高了3.85%,對闊葉林、針闊混交林、針葉林3種分類類型的分類精度分別達82.32%、66.45%、75.49%,比單分類器進度分別提高了2.87%、4.82%。4.10%。
關鍵詞:遙感,分類器組合,TM數據,熵權法
中圖分類號:S 771.8
文獻標識碼:A
文章編號:1001-005X(2015)03-0075-06
Abstract:Remote sensing image classification is a key technology in remote sensing applications,and the improvement on the accuracy of remote sensing image classification is emphasized for remote sensing technology.The forest types in Tahe county of Heilongjiang province were classified based on multiple classifiers combination.The classification system was designed based on the forest resource inventory technical regulations of Heilongjiang province and inventory data for study area,and the classifications include coniferous forest,broadleaf forest,coniferous and broadleaf mixed forest level.Through the analysis on the TM data band and NDVI,BI vegetation indices,the spectral characteristics of each type of forest were extracted.The minimum distance,maximum likelihood,and the mahalanobis distance method were used to classify the forest types.The weighting factor of the classification was determined by the entry weight method based on the classification accuracy,and combined a new classifier for classification.The experiment results showed that the accuracy of multiple classifier combination achieved 75.59%,a increase of 3.85% compared with the single classifier accuracy.The classification accuracy of the three forest types were as follows:broadleaf forest 82.32%,coniferous forest 66.45%,coniferous and broadleaf mixed forest 75.49%,respectively,which increased by 2.87%,4.82%,4.10%,respectively,compared with the single classifier accuracy.
Keywords:remote sensing;multiple classifiers combination;TM data;entropy weight method
收稿日期:2014-11-12
基金項目:國家高技術研究發展計劃(2012AA102001)
作者簡介:第一張智超,碩士研究生,研究方向:林業遙感。
通訊作者:`*范文義,博士,教授。研究方向:林業遙感。
Investigation of Forest Types Extraction TechnologyUsing Multiple Classifiers Combination
Zhang Zhichao,Fan Wenyi*,Sun Shuting
(School of Forestry,Northeast Forestry University,Harbin 150040)

E-mail:fanwy@163.com
引文格式:張智超,范文義,孫舒婷.基于多種分類器組合的森林類型信息提取技術研究[J].森林工程,2015,31(3):75-80.
森林類型信息是很多研究領域都需要的重要信息之一。由于森林具有面積大的特點,所以遙感技術是解決森林類型信息的最有效方法之一。遙感圖像分類方法的提高直接制約著遙感技術的應用和發展[1-2]。用遙感數據提取森林類型的算法可分為基于像元的分類算法、基于對象的分類算法和混合像元分解算法三大類[3]。基于像元的分類方法主要有最小距離分類、最大似然分類、波譜角分類、混合距離分類等,他們主要依賴地物光譜特性,由于遙感圖像本身分辨率以及“同物異譜”、“異物同譜”的現象存在,導致分類精度不高[4-7]。近年來神經網絡分類方法的研究比較活躍,在分類時并不基于某個假定的概率分布,在監督分類中通過對訓練樣本的學習獲得權值,從而形成分類器,人工神經網絡分類器所得到的精度較高[8-12],支持向量機分類方法有嚴格的理論基礎,可以解決小樣本、高維數、非線性的問題,很好的應用在高光譜和多光譜遙感圖像分類中[13-14]。混合像元分解的問題國內外提出了許多方法,Bateson等人提出了一種端元束方法[15];Wu等人將光譜除以各波段光譜均值后做混合像元分解[16]。在面向對象的分類方法主要面對的是高分辨率數據,Andrea在航空圖像和QuickBird圖像,用影像分割方法和面向對象技術對植被進行變化檢測[17];周春艷用多尺度分割技術生成同質影像對象利用光譜特征和形狀特征模糊分類的方法進行分類[18]。目前,遙感圖像分類算法有很多,但沒有哪一種分類算法是最佳的[19],由于遙感影像數據的復雜性只能具體數據具體分析,以達到更好的效果。
在當前遙感技術的分類算法比較多也比較成熟的情況下,由于遙感圖像的復雜,單一分類算法的分類精度不能滿足應用的要求,利用多種分類器組合的方法提高分類精度是可行的途徑。
本文針對當前遙感技術分類的現狀,用多分類器組合的算法研究提高遙感影像的分類精度,先確定組合分類算法的規則,再采用熵權法對各分類器的差異性進行度量,從而確定各分類器的權重系數,最后用加權的組合分類算法對遙感影像分類[20]。
1實驗區概況及數據處理
本文以大興安嶺地區塔河林業局為研究區,塔河縣位于黑龍江省西北部,地處東經123°19′~125°49′,北緯52°07′~53°20′之間,總面積為14 420 km2。東面是呼瑪縣,南面是新林區和呼中區,西面是漠河縣,北界是黑龍江主航道中心線也是中國與俄羅斯的邊界線。塔河縣位于大興安嶺地區中心,總體地勢西高東低,屬山地和丘陵地形,區域內最高海拔1 396.7 m,最低海拔209.8 m,平均海拔450 m,年平均氣溫-5℃,年平均降雨量400~500 mm,全年植物生長期約為120 d,區域內森林蓄積量達11.183萬 m3,樹種有樟子松、落葉松、云杉、山楊、白樺、柳樹和蒙古櫟[21]。
本研究采用Landsat-5 TM衛星影像數據,軌道編號為121/23和121/24,時間為2007年7月19日,地面數據采用2005年的二類調查數據。由于衛星傳感器在獲得影像數據時受大氣、光、太陽高度角、植被等外界因素和傳感器內在因素的影響,使得獲得的遙感影像數據發生輻射退化,所以在進行分類之前對原始的遙感影像數據進行預處理,其中包括輻射定標、大氣校正、太陽高度角校正、幾何精校正等,兩景遙感影像數據通過確定同名地物點進行拼接,校正后的精度在一個像元內。再利用二類調查的矢量邊界掩膜提取出研究區。
本文制定的分類系統如圖1所示,依據黑龍江省森林資源規劃調查細則確定分類系統各層次的類別,本文的研究重點是將有林地再分類,參照二類調查數據把有林地分為針葉林、闊葉林和針闊混交林。闊葉樹種主要有山楊、白樺,針葉樹種主要是落葉松和樟子松。

圖1 土地利用分類系統 Fig.1 Land classification system
2研究方法
為了實現本研究的分類級別,先對TM影像進行一級分類提取有林地,在一級分類過程中所分的4種土地利用類型分別為灌草地、林地、建筑用地和河流,一級分類使用TM影像數據的1、2、3、4、5波段和計算得到的NDVI波段數據,采用最大似然分類算法進行分類,得到的總體精度98.36%,kappa系數為0.96,有林地生產者精度99.31%。在一級分類提取有林地的基礎上,進一步研究針葉林、闊葉林和針闊混交林級別的三級分類。
根據TM遙感影像數據的特性,林地在3、4波段的光譜特性顯著,所以進一步用3、4波段計算歸一化植被指數(NDVI)和比值植被指數(RVI)。K-T變換是根據多光譜遙感中土壤、植被等信息在多維光譜空間中信息分布結構對圖像做的經驗性線性正交變換,本文選擇K-T變換第一分量土壤亮度指數(BI)和K-T變換第二分量植被綠度指數(GVI)作為分類系統的分類特征。計算各植被指數的算法如下:
歸一化植被指數(NDVI):

(1)
比值植被指數(RVI):

(2)
K-T變換土壤亮度指數(BI):
BI=0.2909b1+102493b2+0.4806b3+0.5568b4+0.4438b5+0.1706b7。
(3)
K-T變換植被綠度指數(GVI):
GVI=-0.2728b1-0.2728b2+0.7721b4-0.733b5-0.1648b7。
(4)
以上植被指數公式中b1、b2、b3、b4、b5、b7分別代表TM原始圖像的第1、2、3、4、5、7波段。
由于原始波段的數量級與NDVI、RVI的數量級不同,將NDVI和RVI拉伸到0~255之間,拉伸公式為

(5)
公式中DN像元值為圖像原始像元值,DNmax、DNmin為該圖像的最大值和最小值。
在掩膜提取有林地的基礎上進行分類,隨機選擇訓練樣本,建立波譜庫,得到各分類類型的像元值見表1,拉伸到0~255后的值如圖2所示。

表1 遙感影像訓練樣本的像元值 Tab.1 Training sample pixel in remote sensing image

圖2 遙感影像各地物類型像元拉伸值 Fig.2 Stretch comparison of the pixel for each surface feature type in remote sensing image
如圖2所示,在NDVI、和RVI波段內3種分類類型的光譜特征差異不顯著;在GVI波段可以清楚的分辨出針葉林,但是闊葉林和混交林的光譜差異不顯著;在波段b2、b3、b4、b5、b7、BI內3種分類類型波普特征的差異顯著,所以在進行分類的過程中選擇b2、b3、b4、b5、b7、BI6個波段作為分類特征。
多分類器結合是利用多個分類器方法的分類結果,通過某個合成方式,最終決策融合的規則。常規的分類器組合分為測量級和抽象級,投票法組合分類器和Bagging算法組合分類器就是基于抽象級的組合方法,Bayesian平均結合規則就是基于測量級分類器組合方法。Wilkinson提出過將統計分類器和網絡分類器結合的方法[22];Pinz做過將最大似然法和神經網絡法進行結合[23];Acqual提出很多空間和光譜特征融合的多分類器分類方法[24]。
加權求和的規則是通過各子分類器的分類精度大小通過一系列算法確定權重,這種思維較投票法更為科學。本研究采用的算法是先確定組合前每個分類器的權重,然后計算出各分類器分類精度的信息熵,通過得到的信息熵計算出各分類器的變異程度系數,最后計算出各分類器的權重系數。熵權法的思想是指標的信息熵越小,所提供的信息量越大,在評價中的作用就越大,相應的權重也越大。本文假定各單一分類器間是相互獨立的,并且各分類器的識別能力有一定差異。所以利用信息熵計算出各分類器精度的熵值,再利用熵值修正各分類器的權重,所得到的權重值更客觀。權值的確定如下:
先確定單個分類器各分類類型的精度e(k)i,計算各分類器的權重:

(6)
式中:k表示分類器編號;i表示分類類型;n表示分類類型個數;e表示精度值。
不同分類器精度的熵值算法如下:

(7)
公式中k,i,n同上,系數m的取值如下:

(8)
根據計算得到熵值,再利用下面的公式得到各分類器精度的變異程度系數:
D(k)=1-H(k)。
(9)
由于變異程度越大,權重就越小,則不同分類器的權重系數用以下公式計算:

(10)
公式中N表示分類器個數。
將分類器的信息熵權重系數加權求和,即可得到組合分類器的算法:

(11)
N、k同上,X為分類器算法。
3結果與分析
對TM遙感數據用最大似然分類器、最小距離分類器、馬氏距離分類器分別進行分類,得到的分類誤差矩陣和分類精度見表2~表5。

表2 最小距離分類器分類誤差矩陣 >Tab.2 The minimum distance classifier error matrix

表3 最大似然分類器分類誤差矩陣 Tab.3 The maximum distance classifier error matrix

表4 馬氏距離分類器分類誤差矩陣 Tab.4 The mahalanobis distance classifier error matrix

表5 3種分類器的精度報告 Tab.5 The classifiers accuracy reported

表6 組合分類器的誤差矩陣和生產者精度 Tab.6 The error matrix and producer accuracy
通過表5可見,3種分類器的對闊葉林的分類精度相對較高,最高達79.45%,最小為75.34%;采用最小距離分類器和最大似然分類器對針闊混交林的分類精度相似,馬氏距離分類器對針闊混交林的精度較低僅為47.84%;3種分類器對針葉林分類精度的波動較大,最大精度與最小精度差達28.82%。馬氏距離分類器對闊葉林的識別進度明顯高于針葉林和針闊混交林,相比較3種分類器,最大似然分類器的分類精度高于其他兩種分類器。
經過計算確定最小距離分類器信息熵權重系數為36.36%;最大似然分類器信息熵權重系數為42.97%,馬氏距離分類器信息熵權重系數為20.67%。組合后的算法為
X=0.3636×X1+0.4297×X2+0.2067×X3。
(12)
X1、X2、X3分別表示最小距離分類器算法、最大似然分類器算法、馬氏距離分類器算法,X表示組合分類器的算法。
加權求和分類器的分類結果如圖3所示。

圖3 組合分類器分類結果 Fig.3 The classification of multiple classifiers combination
最終組合分類器的總體精度為75.59%比單個分類器的高,組合分類器對每種分類類型的精度都有提高,尤其是闊葉林的分類精度達82.32%。
由研究結果可知,四種分類器對闊葉林和針葉林的分類精度都比較高,但是對針闊混交林的分類精度較低,這與針闊混交林的復雜結構有一定關系。如圖4所示4種分類器對3種分類類型的關系,通過加權組合分類器的總體精度都高于單個分類器的精度,從分類類型分析,加權組合分類器的分類精度明顯高于單個分類器的精度,針闊混交林類型提高的最顯著,加權組合分類器的針闊混交林分類精度達66.45%比單個分類器中最高的最大似然法精度高4.82%,3種分類器對針葉林分類精度波動較大,組合分類器對針葉林的分類精度達75.49%比單分類器算法提高了4.1%,組合分類器算法對闊葉林的精度達82.32%提高了2.87%。由于本研究在分類器組合的過程中考慮了各分類器之間的相關性和互補性,使得組合分類器算法有效的提高了3種分類類型的精度,減少了混淆矩陣中錯分和漏分的現象。本研究在精度檢驗過程中選擇了46 935個樣點作為檢驗對象,大量的數據避免了檢驗過程中所出現的偶然性,最終組合分類器的總體精度提高了3.85%。

圖4 各分類器的精度 Fig.4 The accuracy of the classifiers
4結論和討論
本文以TM遙感數據為信息源,首先對研究區進行了一級分類提取林地精度達98.37%,以此基礎上對林地進行分類,選擇了各分類類型中光譜差異較大的b2、b3、b4、b5、b7、BI 6個波段進行分類,在分類的過程中選擇最小距離法、最大似然法和馬氏距離法3種分類器算法,得到的3種分類器對針葉林、闊葉林和針闊混交林3種分類類型的精度,從而提出了組合分類器算法的思想,利用信息熵權重系數的方法確定組合分類器的算法,得到組合分類器的總體精度為75.58%,針葉林分類精度為75.49%,闊葉林分類精度為82.32%,針闊混交林分類精度為66.45%。
本文得到的結論有:通過多分類器組合方法對黑龍江省塔河林場的闊葉林、針闊混交林、針葉林進行分類,使得分類的總體精度達75.58%比單個分類器提高了3.85%,對闊葉林的分類精度達82.32%比單分類器提高了2.87%、針闊混交林的分類精度達66.45%比單分類器提高4.82%、針葉林的分類精度達75.49%比單分類器算法提高4.1%;多分類器組合的分類算法綜合了各單分類器的優點,結合了分類器間的相關性與互補性,本文采用信息熵確定權重系數的規則,這與傳統的投票法規則相比更科學,所以信息熵確定權重系數規則進行多分類器組合的方法能有效的提高遙感信息的識別、提取。
本文在遙感影像的提取和識別的地物類型中引入了組合分類器的思想,具體的分析了組合分類器與單個分類器分類精度。提高遙感影像分類精度的方法有很多,本文選擇了組合分類器算法的方法提高分類精度,但在選擇單個分類器上的研究比較欠缺,在今后的研究中可以選擇更多的分類器算法如SVM、SAM、支持向量機等方法進行組合已達到提高遙感精度的目的。
【參考文獻】
[1]金亞秋.空間微波遙感數據驗證理論與方法[M].北京:科學出版社,2005.
[2]楊紅磊.EM算法研究及其遙感分類應用[D].北京:中國地質大學,2009.
[3]羅小波,趙春暉,潘建平,等.遙感圖像智能分類及其應用[M],北京:電子工業出版社,2011.
[4]Ji C Y.Land-use classification of remotely sensed data using kohonen self-organizing feature map neural networks[J].Photogrammetric Engineering & Remote Sensing,2000,66(12):1451-1460.
[5]Kohonen T.Self organization of a massive document collection[J].Neural Networks,2000,11(3):570-584.
[6]駱劍承.基于徑向基函數(RBF)映射理論的遙感影像分類模型研究[J].中國圖像圖像學報,2000,5(2):95-99.
[7]Bagan H,Ma J W.Dimension reduction of self-organized neural networks classification for multi band satellite data[J].Geometries Information Science of Wuhan University,2004,29(5):461-465.
[8]張友文,馮學智,阮仁宗,等.Kohonen神經網絡在遙感影像分類中的研究[J].遙感學報,2004,8(2):178-183.
[9]劉純平.基于Kononen神經網絡聚類方法在遙感分類中的比較[J].計算機應用,2006,26(7):1745-1750.
[10]戴芹,馬建文.基于遙感數據SOFM網絡分類結果的城市增長潛力模型研究[J].遙感技術與應用,2006,21(3):200-205.
[11]尹汪宏,李超峰,張俊玲.基于混合核函數的自組織神經網絡遙感圖像分類[J].計算機工程與設計,2009,30(2):288-391.
[12]曲培青,施潤和,劉剋.基于遙感和BP人工神經網絡的城鄉氣象站點劃分分析[J].地球信息科學,2010,12(5),726-732.
[13]Zhang J,Zhang Y.Classification of hyperspectral data using support vector machine[A].In:Proceedings of IEEE International Conference on Image Processing[C],Thessaloniki Greece,2001:882-885.
[14]He L M,Kong F S.Multiclass SVM based land cover classification with multisource data[A].In:Proceedings of the Fourth International Conference on Machine Learning and Cybernetics[C].Guangzhou China,2005:3541-3545.
[15]Bateson C A,Asner G P.Endmember bundles:A new approach to incorporating endmember variability into spectral mixture analysis [J].IEEE Transactions Oil Geoscience and Remote Sensing,2000,38(2):1083-1094.
[16]Wu C.Normalized spectral mixture analysis for monitoring urban composition using ETM+ imagery[J].Remote Sensing of Environment,2004,93(4):480-492.
[17]Laliberte AS,Rango A,Havstad K M,et al.Object-oriented image analysis for mapping shrub encroachment from 1937 to 2003 in southern New Mexico[J].Remote Sensing of Environment,2004,93:198-210.
[18]周春艷.面向對象的高分辨率遙感影像信息提取技術[D].青島:山東科技大學,2006.
[19]柏延臣,王勁峰.結合多分類器的遙感數據專題分類方法研究[J].遙感學報,2005,9,(5):555-563.
[20]叢喜東,梁志強.地理信息系統在林業精細化管理中的應用[J].林業機械與木工設備,2014,04:54-56.
[21]徐化成.中國大興安嶺森林[M].北京:科學出版社,1998.
[22]Wilkinson G G,Fierens F.Integration of neural and statistical approaches in spatial data classification[J].Geographical Systems,1995(2):1-20.
[23]Pinz A J,Bartl R.Information fusion in image understanding Landsat classification and ocular fundus image[A].In:SPIE Sensor Fusion V [C],Boston,1992:276-287.
[24]Acqual F D,Gamba P,Ferrari A,et al.Exploiting spectral and spatial information in hyperspectral urban data with high resolution[J].IEEE Transactions on Geoscience and Remote Sensing Letters,2004,1(4):322-326.
[責任編輯:劉美爽]
