周詢, 王躍賓, 劉素紅, 于佩鑫, 王西凱
(1.北京師范大學(xué)地理學(xué)院,北京 100875;2.北京師范大學(xué)地理科學(xué)學(xué)部,北京 100875;3.北京師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院,北京 100875)
遙感技術(shù)為提取耕地類型提供了更加快速、全面、準(zhǔn)確的手段,其中基于像元和面向?qū)ο蟮谋O(jiān)督分類方法較為常用[3-4]。基于像元的分類方法中,需要從影像中選擇特定的訓(xùn)練樣本,獲得樣本的光譜特征,建立每個類別的判定函數(shù)[5],然后利用判定函數(shù)對待分類數(shù)據(jù)進(jìn)行類別判定[6]。面向?qū)ο蟮姆诸惙椒ㄊ紫葘b感影像進(jìn)行分割[7],將分割后的斑塊作為研究對象[8],然后選擇特定的斑塊作為訓(xùn)練樣本,獲取其光譜和幾何等特征,建立不同類別的判定函數(shù),對待分類斑塊進(jìn)行分類[9]。
由于遙感影像的光譜特征受觀測幾何條件和地表類型變化的影響比較大,所以“同物異譜”現(xiàn)象較為嚴(yán)重[10],這導(dǎo)致在利用光譜特征進(jìn)行地物類別判斷時受條件限制較強。此外,進(jìn)行監(jiān)督分類時選擇的訓(xùn)練樣本用于同一幅影像分類時精度較高[11],但處理其他多幅影像時精度顯著降低;而針對不同影像重新選擇訓(xùn)練樣本則效率較低[12]。在高空間分辨率遙感影像中,分類方法的精度與效率的矛盾更加突出,自動化程度需求更強[13]。
為了兼顧遙感影像分類方法的精度與效率,本文提出了一種基于影像窗口子區(qū)的耕地類型自動識別算法。該算法通過對影像的規(guī)則劃分獲取一定大小的影像窗口子區(qū),在提取多光譜和多層次特征的基礎(chǔ)上,利用機器學(xué)習(xí)算法,自動識別影像窗口子區(qū)耕地和非耕地類型。以東北地區(qū)的高空間分辨率遙感影像為例,建立實驗數(shù)據(jù)集以構(gòu)建該區(qū)域特征庫,實現(xiàn)耕地和非耕地類型的非監(jiān)督自動識別,大大提高了分類算法的自動化程度;同時也對影像窗口子區(qū)尺度和樣本容量進(jìn)行了探討。
結(jié)合高空間分辨率遙感數(shù)據(jù)特點,本文提出的基于影像窗口子區(qū)的耕地類型自動識別算法分為3個步驟:首先,通過獲取一定數(shù)量典型地類的純凈窗口子區(qū)構(gòu)建實驗數(shù)據(jù)集;然后,對實驗數(shù)據(jù)集進(jìn)行多光譜、多層次特征提取,建立不同地類的特征庫;最后,采用機器學(xué)習(xí)分類算法實現(xiàn)各地類的自動識別。
高空間分辨率遙感影像數(shù)據(jù)中,典型地物類型會在一定的窗口尺度內(nèi)保持良好的均一性,這樣尺度的窗口稱為純凈窗口子區(qū),該尺度可作為該類型的空間展布尺度[14],可用一定數(shù)量影像窗口子區(qū)中純凈窗口子區(qū)所占比例表示該尺度下地物的純凈度。依照耕地類型的空間展布尺度,通過隨機對遙感影像的規(guī)則切分,獲取一定數(shù)量的影像窗口子區(qū),構(gòu)建實驗數(shù)據(jù)集,作為樣本集。
構(gòu)建的實驗數(shù)據(jù)集包括3個方面的屬性:典型地物類型、樣本容量和各類型所占比例。典型地物類型由研究區(qū)典型地物構(gòu)成決定;樣本容量大小影響分類算法的效率和精度[15];各類型所占比例反映地類的結(jié)構(gòu),按照土地利用/土地覆蓋各類型面積比確定[16]。
構(gòu)建了實驗數(shù)據(jù)集之后,將對其影像窗口子區(qū)進(jìn)行多光譜、多層次特征提取以建立特征庫,作為對影像進(jìn)行識別分類的依據(jù)。
俗話說,造林成敗在于管理。隨著當(dāng)前樹種的多樣化,相應(yīng)的管理理念和方法需要逐步更新。目前,有必要對不同種類的樹木實施不同的管理方法,例如那些在林地或大型牲畜周圍有更多住所的樹木。許多職業(yè)經(jīng)理人需要被安排來照顧和維護(hù)林地。然而,對這一部分的影響較小,可以減少一些人力資源。在林地的后期管理中,應(yīng)重視病蟲害的防治。殺蟲劑噴灑可以用來減少害蟲對樹木的影響。
多光譜特征是針對遙感影像多波段數(shù)據(jù)特點,按照波段數(shù)將遙感影像拆分為多個灰度圖像,將多波段多圖像的光譜特征作為特征庫建立的基礎(chǔ)。
多層次特征是由對影像的初級特征到高級特征的抽象所得[17-18],包括尺度不變特征變換(scale-invariant feature transform,SIFT)、稀疏編碼和最大化池化。SIFT是對影像特征的初級提取,反映了影像的關(guān)鍵點和局部特征[19]。在其基礎(chǔ)上,進(jìn)行稀疏編碼表示,獲得更高層次的特征[20]。其求解過程包括訓(xùn)練階段和編碼階段:訓(xùn)練階段是對訓(xùn)練數(shù)據(jù)圖像的SIFT特征進(jìn)行稀疏編碼,同時求解稀疏編碼約束函數(shù)中的稀疏編碼表示和字典;編碼階段是利用學(xué)習(xí)得到的最優(yōu)字典,對測試數(shù)據(jù)圖像的SIFT特征進(jìn)行稀疏編碼,求解其稀疏編碼表示。得到稀疏編碼表示后,通常需要對其進(jìn)行最大化池化,將向量中各維相應(yīng)的最大分量組成一個特征向量來表示該影像,獲得多層次特征。
針對不同地類的特征,利用支持向量機(support vector machine, SVM)算法對不同地類進(jìn)行訓(xùn)練,構(gòu)建類別判別函數(shù)[21]。首先,對待分類影像進(jìn)行與特征庫相同的特征提取,再利用判別函數(shù)進(jìn)行地類識別;然后將影像識別結(jié)果進(jìn)行融合,統(tǒng)計同一個影像窗口子區(qū)的所有灰度圖像類別,將其眾數(shù)作為該窗口子區(qū)的地物類型,實現(xiàn)耕地類型與非耕地類型的自動識別。基于影像窗口子區(qū)的耕地類型自動識別算法的具體流程如圖1所示。

圖1 耕地自動化識別流程
實驗數(shù)據(jù)源選擇0.4 m空間分辨率的Pleiades衛(wèi)星遙感數(shù)據(jù),共4個波段,分別為藍(lán)光波段B1、綠光波段B2、紅光波段B3和近紅外波段B4。
研究區(qū)位于我國東北地區(qū)的望奎縣、大慶市、梅河口市和嫩江縣4個典型區(qū),分別位于東北地區(qū)的不同方位,典型地物類型主要包括耕地、林地、居民地和水體等,基本反映了東北地區(qū)的主要地物類型。研究區(qū)位置分布及遙感影像如圖2和圖3所示。其中嫩江縣有3個時相數(shù)據(jù)。

圖2 地物類型及研究區(qū)位置

(a) 望奎縣影像 (b) 大慶市影像 (c) 梅河口市影像

(d) 嫩江縣影像1 (e) 嫩江縣影像2 (f) 嫩江縣影像3
如圖2和圖3所示,在研究區(qū)內(nèi),包含了成片的耕地和非耕地區(qū)域,其中非耕地類型主要是林地和居民地。因此本文提出的算法主要以識別耕地、林地和居民地為主要目標(biāo)。
由土地利用/土地覆蓋數(shù)據(jù),得到研究區(qū)內(nèi)耕地、林地和居民地類型所占面積比例分別約為65%,35%和5%,以此作為樣本選取的依據(jù)。
為獲取純凈窗口子區(qū)大小,通過統(tǒng)計窗口子區(qū)尺度與純凈度的關(guān)系曲線,獲得不同尺度下地物的純凈度。本文隨機選擇256像元×256像元,384像元×384像元,512像元×512像元,640像元×640像元和768像元×768像元的影像窗口子區(qū)各150景,目視判別其是否為純凈窗口子區(qū),并分別計算純凈度,統(tǒng)計結(jié)果曲線如圖4所示,圖中紅色點為實驗最終選取的純凈窗口子區(qū)尺度,藍(lán)色點為未選取的其他純凈窗口子區(qū)尺度。

圖4 不同尺度純凈度統(tǒng)計
從圖4可以看出,隨著影像窗口子區(qū)尺度不斷增大,地物純凈度不斷降低。在保證影像窗口子區(qū)純凈度的前提下,考慮算法模型的效率問題,則影像窗口子區(qū)大小選取512像元×512像元,純凈度為85.3%,對應(yīng)實際地面尺寸為200 m×200 m,基本符合東北地區(qū)耕地類型的空間展布尺度。依據(jù)該影像窗口子區(qū)尺度,通過對高空間分辨率影像的隨機切分,構(gòu)建實驗數(shù)據(jù)集,各地物類型影像窗口子區(qū)如表1所示。

表1 各地物類型影像窗口子區(qū)
為了獲取訓(xùn)練/驗證數(shù)據(jù)集樣本容量大小,本文從實驗數(shù)據(jù)集中選取容量大小分別為572,385,291,197,143和100的樣本,測試數(shù)據(jù)集樣本總?cè)萘勘3?83不變。各類型樣本數(shù)依據(jù)土地利用/土地覆蓋面積百分比選取,訓(xùn)練/驗證數(shù)據(jù)集樣本容量統(tǒng)計如表2所示。以不同訓(xùn)練/驗證數(shù)據(jù)集樣本容量,按照本文提出的自動識別算法進(jìn)行對比實驗,獲得各方案分類精度,統(tǒng)計結(jié)果如圖5所示。

表2 各類型樣本容量

圖5 樣本容量與分類精度關(guān)系
本文主要研究對象為耕地類型,因此將林地和居民地進(jìn)行合并,作為非耕地類型。從圖5中可以看出,隨著訓(xùn)練/驗證數(shù)據(jù)集樣本容量的增加,居民地分類精度大幅上升,林地和非耕地分類精度有一定幅度的提高,耕地分類精度也有上升趨勢。為保障各類型識別精度要求,訓(xùn)練/驗證數(shù)據(jù)集樣本容量選擇為572,耕地分類精度為97.0%,林地分類精度為81.6%,居民地分類精度為63.6%,非耕地分類精度為79.5%,總體精度為90.8%。
在確定了影像窗口子區(qū)尺度和樣本容量后,選擇了2套不同特征庫的構(gòu)建方案進(jìn)行對比實驗,分別對多光譜數(shù)據(jù)的多波段多圖像以及合成單圖像進(jìn)行特征提取構(gòu)建特征庫,并對構(gòu)建的特征庫進(jìn)行了多次精度驗證。各方案模型在驗證階段的分類精度均值和方差如表3所示。

表3 各方案模型分類精度均值和方差
從表3可以看出,選擇多波段多圖像的自動識別方法精度較高,在驗證階段達(dá)到84.0%,遠(yuǎn)高于合成單圖像的自動識別方法。
利用訓(xùn)練所得模型,對測試數(shù)據(jù)集進(jìn)行識別分類,并將類型識別結(jié)果與已知標(biāo)簽對比獲取其分類精度。各方案模型在測試階段的不同地物類型識別精度如表4所示。

表4 各方案模型識別精度
從表3可見,多波段多圖像的自動識別方法總體精度較高,在測試階段達(dá)到了90.8%,具有較為理想的自動識別效果。利用該方法,以構(gòu)建某一區(qū)域特征庫為基礎(chǔ),實現(xiàn)對耕地類型的非監(jiān)督分類,大大增強了分類方法的自動化程度。
本文提出了一種遙感影像自動識別耕地類型的機器學(xué)習(xí)算法,基于對影像的規(guī)則切分獲取一定大小的影像窗口子區(qū),通過提取其多光譜和多層次特征,利用機器學(xué)習(xí)算法,實現(xiàn)耕地和非耕地類型的自動判別。通過研究,得到了以下結(jié)論:
1)與傳統(tǒng)基于像元和面向?qū)ο蠓治龇椒ㄏ啾龋疚乃惴▋H以規(guī)則切分后的影像純凈窗口子區(qū)作為研究對象進(jìn)行識別,無需對單一像元進(jìn)行分析處理,也避免了對高空間分辨率影像進(jìn)行復(fù)雜的分割操作。研究表明,窗口子區(qū)尺度和樣本容量的選擇是決定分類精度與效率的主要參量,即窗口子區(qū)尺度選擇的純凈度和樣本容量選擇的代表性是分類精度的關(guān)鍵,為了兼顧工作效率,應(yīng)選擇滿足純凈度要求的最大窗口子區(qū)尺度和滿足分類精度要求的最小樣本容量。本文中研究區(qū)典型地物純凈窗口子區(qū)的尺度選擇為200 m×200 m,純凈度可達(dá)85.3%,是較為合理的影像窗口子區(qū)可識別尺度;隨機獲取該尺度下的影像窗口子區(qū),訓(xùn)練/驗證數(shù)據(jù)集樣本容量選擇572,測試數(shù)據(jù)集樣本容量為883,是兼顧精度與效率的較好選擇。
2)通過對圖像提取多光譜和多層次特征信息,構(gòu)建特征庫,利用機器學(xué)習(xí)算法,實現(xiàn)了對高空間分辨率遙感影像任意窗口子區(qū)耕地類型的自動識別,精度達(dá)到了90.8%。通過不同特征庫條件下的對比實驗發(fā)現(xiàn),訓(xùn)練過程中所采用的策略會對分類精度產(chǎn)生影響,在只利用合成單圖像進(jìn)行多層次特征提取與識別分類時,精度下降到了87.1%。可見基于多光譜和多層次特征的地類識別機器學(xué)習(xí)算法可充分利用多光譜數(shù)據(jù)特征,提高分類模型的性能。
3)通過特征庫的構(gòu)建,使遙感影像分類過程中主要關(guān)注純凈窗口子區(qū)的規(guī)則切分以獲取樣本對象,同時本文算法所選取的訓(xùn)練樣本并不局限于同一景影像中,因此適用于某一區(qū)域內(nèi)大量遙感數(shù)據(jù)的自動化分類處理。在得到影像塊數(shù)據(jù)集后進(jìn)行特征提取,即可利用特征庫進(jìn)行地物類別自動識別,簡化了分類階段的訓(xùn)練過程,實現(xiàn)非監(jiān)督的耕地識別,提高了分類算法的自動化程度,同時也可以用于從遙感影像中某一種純凈地物類型的快速提取。
本文研究也發(fā)現(xiàn)了一些不足之處,如識別的精度受到訓(xùn)練樣本代表性及純凈度的限制。若訓(xùn)練樣本中耕地和非耕地的混合樣本數(shù)超過15%,不滿足窗口子區(qū)純凈度要求時,會導(dǎo)致獲取特征的不穩(wěn)定,從而對分類精度有一定影響。因此,在訓(xùn)練階段需要采用一定訓(xùn)練樣本的選取策略才能保證分類結(jié)果的精度。今后的研究工作將著重探討純凈窗口子區(qū)的自動獲取與快速高效的自動分類研究。