李旭青 劉世盟 李 龍 金永濤 范文磊 吳 伶
(1.北華航天工業學院計算機與遙感信息技術學院, 廊坊 065000;2.河北省航天遙感信息處理與應用協同創新中心, 廊坊 065000;3.中國地質大學(北京)信息工程學院, 北京 100083)
全面、準確、及時了解作物種植結構及其空間分布,是各級政府管理生產、制定相關政策的基礎。遙感信息技術具有快速、多方位和大規模觀測與分析能力,已廣泛應用于農業生產的多個環節。利用機器學習對遙感影像進行識別和提取是遙感應用領域的一個突破,其可重復性好,耗時少,定位精準,具備較好的時效性。
冬小麥等農作物的光學遙感圖像識別主要通過不同農作物在光譜反射特征上的差異性來實現。數據源方面目前主要使用Landsat TM和SPOT等多光譜數據,涉及可見光、近紅外、短波紅外和中紅外數據[1-2]。在農作物遙感分類識別中,基于作物光譜的數學特征轉換(如波段間的比值、差值等數學變換)被廣泛應用,通過目標光譜的多時相分析也會得到良好的識別效果[3-5]。已有研究中探討了尺度變化[6],訓練樣本數量[7],訓練樣本質量,不同特征信息以及點、群樣本檢驗與評估等對小麥面積提取精度的影響。針對不同特征信息,需根據研究區情況選擇最佳的分類器和特征信息組合[8]。對同一抽樣方式,點樣本檢驗精度評價結果波動小,穩定性好[9]。MU-SUP等[10]用隨機森林方法對Landsat和RapidEye遙感影像通過尺度轉換取得較好的解譯效果。
混合像元分解通過計算端元組分豐度可部分解決閾值設置對小麥精度影響的問題,MODIS數據和TM數據兩種遙感數據耦合,既充分發揮長時間序列影像數據的優勢,又在一定程度上解決中等分辨率影像提取研究區農作物種植面積時的精度問題[11]。也可通過變端元混合像元分解開展冬小麥種植面積測量方法研究[12]。端元在空間分布上具有一定的形狀和聚集性,通過動態調整端元矩陣可有效去除不相干端元[13]。利用線性混合像元分解方法提取的冬小麥種植面積與真實地表空間分布相一致,基于GF-1遙感影像的改進多元紋理信息(Modified multivariate texture,MMT)提取、紋理與光譜信息融合以及基于融合影像分類可實現縣域尺度冬小麥識別和面積提取。WANG等[14]研究了混合像元和邊界效應對分類精度的影響,構建了EVI2 (Two-band enhanced vegetation index) 模型,在作物關鍵物候期采用逐步分類的方法,整體分類準確率為91.7%。ZHANG等[15]利用MODIS影像的LST數據,通過對中國東北地區的汛期和水稻移栽時間進行觀測后,提出改進現有的基于物候的方法,準確定義了洪水和移植的時間窗,得到的水稻/非水稻圖像總體準確率為97%,Kappa系數為0.92。PAN等[16]構建了一種基于物候學的作物比例物候指數(CPPI),利用MODIS-EVI時間序列在亞像素尺度上進行作物面積估算,該模型將空間分辨率較低的MODIS-EVI時間序列與地面真實作物信息聯系起來,取得較好的識別效果。
馮美臣等[17]通過兩個年份不同生育期MODIS-NDVI的比較,觀察NDVI時間曲線對冬小麥長勢的響應規律和水旱地冬小麥年同期長勢,發現水地NDVI峰域寬于旱地NDVI。申健等[18]采用迭代濾波技術重建MODIS NDVI時序序列,結合當地典型地物的NDVI曲線特征,建立冬小麥像元的識別規則,提取冬小麥種植信息。張喜旺等[19]和HAN等[20]基于 MODIS NDVI 數據的時間優勢,提取研究區各類植被的 NDVI 時間序列曲線,利用 TM 遙感影像的光譜差異,區分冬小麥與其他作物的混合像元覆蓋區。鄧劉洋等[21]通過加入農田地塊信息,控制農作物邊界,有效避免非感興趣區地物的干擾。張莎等[22]基于年際 NDVI相關關系的監測方法(Relationship analysis of normal difference vegetation index,rNDVI),對冬小麥變化面積進行監測,使用 Savitzky-Golay(S-G)濾波重構的 MODIS EVI 數據逐像元,計算播種期至成熟期EVI的峰值頻數,并結合光譜突變法構建了具有普適性的冬小麥種植面積提取模型。張霞等[23]根據返青期后冬小麥的EVI在整體上表現為逐漸升高,在開花、灌漿期之前表現為逐漸增加,隨后快速降低提取冬小麥面積[23]。張錦水等[24]將小麥 MODIS EVI 時間曲線量化為生長速率、衰減速率及峰值與休眠期比值3個特征,區分小麥與同期生長植被的差異,從而取得比較滿意的提取結果。
李苓苓等[25]基于SVM分類方法,復合光譜、紋理和結構信息等多源數據信息對IKONOS高空間分辨率圖像進行分類,缺點是參數設置花費時間較多。胡潭高等[26]基于SVM二分法的PCVA法測量研究區冬小麥的種植面積,此方法要求關鍵期內作物具有與其他任何地物不同的變化特征。趙蓮等[27]基于線性光譜模型和支持向量機的軟硬分類方法,充分挖掘兩者各自的特點,解決了傳統硬分類方法中的混合像元的問題。游炯等[28]利用多時相多極化SAR 和光學影像,構建不同極化后向散射系數SAR 數據紋理信息和光學影像特征向量組合,VV+VH+T特征組合使冬小麥制圖精度和用戶精度提高,VV+VH+T+L 特征組合表現最佳。
目前,使用較為單一的特征進行冬小麥的空間信息識別,很少同時結合提取目標的多時相信息進行研究。本文利用高分二號遙感影像,選擇冬小麥關鍵生育期6個時相的影像數據,從每個時相的近紅外灰度(NIR)、紅波段灰度(R)、綠波段灰度(G)、藍波段灰度(B)、比值植被指數(RVI)、歸一化植被指數(NDVI)6個特征中優選出對冬小麥面積提取最敏感的1個特征,6個時相共選出6個特征作為輸入變量,利用隨機森林算法構建模型,提取冬小麥空間分布特征,并將模型推廣應用于整個大廠回族自治縣。
研究區位于河北省大廠回族自治縣,屬于華北平原北部地區(東經116°48′20″~117°03′55″,北緯39°49′17″~39°58′56″),屬暖溫帶半濕潤氣候區,降雨量約為580 mm,日照時數約為2 500 h,適宜種植冬小麥和玉米等農作物。冬小麥等農作物的播種時間大多為10月中上旬,在第2年的6月中上旬成熟。大廠回族自治縣(以下簡稱大廠縣)行政區劃如圖1所示。

圖1 大廠縣行政區劃圖Fig.1 Map of Dachang County
本文選用高分二號多光譜遙感圖像,高分二號衛星搭載的傳感器包含3個可見光波段和1個近紅外波段,波譜范圍覆蓋藍光(0.45~0.52 μm)、綠光(0.52~0.59 μm)、紅光(0.63~6.90 μm)和近紅外(0.77~0.89 μm)。高分二號衛星對應的多光譜相機空間分辨率為3.24 m,重新訪問同一地區的周期為5 d,幅寬是45 km。根據大廠縣地域范圍,挑選2015年10月31日、2015年12月15日、2016年1月23日、2016年2月7日、2016年4月21日和2016年5月6日高分二號衛星6期數據進行分析,衛星過境時天氣較為晴朗,少云或無云,衛星影像質量良好,挑選的6期影像過境時間間隔大致為一個月左右,冬小麥分別處于不同的發育時期,可以剛好覆蓋冬小麥完全成熟前的整個生長周期。對影像進行輻射定標、正射校正、鑲嵌、大氣校正以及裁剪處理。
目前,已有很多先進的分類算法被廣泛地應用于農作物遙感分類之中。決策樹算法計算效率較高,不用統計假設以及可以處理不同空間尺度的數據,在大規模遙感圖像分類領域應用廣泛[29-30],但是,它無法刪除與噪聲相關的無關屬性,并且大多數決策樹僅辨別每個節點上的一個屬性,因而具有一定局限性。支持向量機(Support vector machine, SVM)方法能通過求解取得一個最優化的結果,在高維特征空間中需要找到最優的分類超平面,從而解決針對復雜數據的分類問題[25],然而在核函數的優化選擇和多分類策略兩個方面還需要進行深入研究。人工神經網絡算法也被廣泛應用于衛星遙感影像的分類場景[31]。通常來說,增加算法內部處理單元的數量和節點的數量可以提高算法準確性,并有效地降低局部極小的概率,但是一般會需要更長的學習和運行時間,因此造成運算效率低。與常用的圖像識別方法相比,遙感圖像需要處理更多的數據類別,混合度高,特征較多,因此,并不是所有的機器學習算法都適用于冬小麥的識別和提取。隨機森林(Random forest,RF)算法是遙感信息自動提取領域的一種相對較新的機器學習模型。近年來,隨機森林算法已應用于遙感影像的特征識別和信息提取,并實現了較高的識別精度[32]。RF算法既能獲得較高的識別精度,又能保證時間效率,更適宜實際生產應用,甚至在雷達等圖像上也有良好的提取效果。因此,隨機森林分類方法適用于各種數據類型、不同分類系統的影像分類,并優于傳統統計方法和其他機器學習方法。
RF算法屬于一種統計學習的思想理論,RF利用bootstrap(自助法)重采樣方法,從最初的學習樣本集中重復且有放回地隨機選出一組新的學習樣本,然后根據自助樣本數據集組成分類樹,形成一個組合(森林),算法的歸類結果需要由組合里的每棵決策樹投票決定,投票數最多的類別即為算法預測結果[33]。隨機森林是機器學習算法中一種有效的預測模型,它是組合分類器算法和決策樹分類算法的有效結合。分類性能表現優異,幾乎不需要人工干預,可用來估測所有特征在模型中的權重,RF模型也能夠用來估測離群數據定位和聚類分析的相關性[34],運算速度快。隨機森林算法自動解譯具體實現過程主要分為3個步驟,即訓練集的生成、單個決策樹的構建和算法的運行。利用訓練集生成和決策樹構建這兩個步驟,可以重復構造足夠多的決策樹,從而構成一個RF算法模型。本文利用隨機森林模型自動提取冬小麥信息的操作流程如下:首先結合野外核查在遙感影像中選取冬小麥的研究區和樣本區,根據目標地物的屬性選取或構建若干個識別特征,經過一系列的影像處理得到對應的特征影像,把樣本區數據匯總為訓練數據集,然后構建隨機森林模型對研究區數據自動識別。
數據集的質量對算法的性能有很大的影響,直接影響到算法識別結果的精度,因此,樣本的選擇要覆蓋研究區的不同地理位置,包含不同長勢的地塊,盡可能涵蓋不同的種植品種。總體來說,為了使樣本更有代表性,選擇樣本時應考慮產生差異的不同原因,使樣本具備多樣性和全面性,提高訓練數據集的質量,可以有效保證算法學習和預測的準確性。
決策樹的個數ntree在1 000附近時,算法的模型精度會逐漸穩定,但在1 600左右處仍有較小的波動,算法精度隨決策樹數量的遞增變化情況如圖2所示。經過上述對兩個參數的調整分析,把實驗中決策樹的數量ntree設置為2 000,隨機變量的輸入個數mtry設為4,由這些決策樹構建的隨機森林模型性能可由RSQ和MSE指標參數進行分析,其中RSQ表示隨機森林算法中的偽復相關系數,MSE表示算法的均方誤差,偽復相關系數越高且均方誤差越小表示隨機森林算法構建的模型性能越優良。兩個參數的計算公式為
(1)
(2)
式中ρRSQ——偽復相關系數
ρMSE——均方根誤差
n——測試數據集中數據的總體數量
xi——測試數據中第i個變量處的數據,代表算法模型在測試集中第i個數據對應的預測值
yi——測試數據集中第i個變量對應數據的真值


圖2 算法性能隨決策樹數量的變化曲線Fig.2 Changing curve of algorithm performance with number of decision trees
由先前的研究可知,理論上來說若偽復相關系數RSQ越大,并且均方誤差MSE越小,說明構建的隨機森林模型性能越好,一般分別穩定在0.90以上和0.10以下即認為優良[35]。實驗結果表明,RSQ平均分布在0.93之上,MSE平均分布在0.013之下(圖3)。由此表明構建的模型性能較為優良,滿足實驗要求,可以繼續進行下一步操作。

圖3 RSQ、MSE隨隨機森林中決策樹數量的變化曲線Fig.3 Changing curves of RSQ and MSE with number of decision trees in random forest
通過分析隨機輸入特征的權重得到本期影像的最優特征,其中平均基尼指數是一個與之相關的特征權重參考指標,值越大代表權重越大。重復隨機森林算法自動解譯3個步驟,用平均基尼指數對6個時相的影像進行特征優選,最后得到6個優選特征,重新構建模型對實驗區的數據進行預測分析,2015年10月31日優選特征為G,2015年12月15日優選特征為NDVI,其余4個時相優選特征為NIR,從而為冬小麥的信息提取提供運算基礎。6個時相的特征重要性分析結果如圖4所示。

圖4 6個時相的權重指標Fig.4 Weight index of six time phases
利用高分二號遙感影像選擇冬小麥關鍵生育期6個時相的影像數據,從每個時相的NIR(近紅外灰度)、R(紅波段灰度)、G(綠波段灰度)、B(藍波段灰度)、RVI(比值植被指數)、NDVI(歸一化植被指數)6個特征中優選出對冬小麥面積提取最敏感的1個特征作為輸入變量,6個時相共6個特征,利用隨機森林算法構建模型提取冬小麥空間分布特征。利用多期影像優選的6個特征重新構建算法模型后,可以對研究區的數據集進行屬性判別和預測。在數據集中除了被正常預測的像元外,有一些像元是無法被明確辨別的。這是因為當有多個輸入特征時,一些測試數據并不完全符合這些特征所代表的屬性,因此算法的預測值會處于0 ~ 1之間,生成圖像的“噪聲”像元,這些像元的灰度各不相同,其中也會包含一小部分的小麥像元。這類未歸類的像元在加載圖像后不能明確地顯示自身的真實特征,如圖5a所示。因此,為了解決這個問題,提高算法的預測精度,可以對圖像進行降噪,對這些像元按規則進行二值化處理(小麥或非小麥),以便消除干擾像元(即錯分像元),預測結果優化后的二值圖如圖5b所示。

圖5 二值化前后效果對比Fig.5 Comparison maps before and after binarization
經過二值化后的預測結果圖中仍會存在一些干擾像元,即錯分區(非小麥像元),如圖6a所示。首先需要對圖像中的干擾像元矢量區進行篩選和刪除,這些干擾像元由于分布不均,且聚集成片區的像元數較少,因此構成的局部連接區域也較小,在圖層上體現出來的效果是零散的小斑塊。由于小麥地塊相較于干擾區明顯偏大,因此根據面積設定閾值可以快速剔除這些干擾區,提高冬小麥的提取精度,如圖6b所示。

圖6 剔除干擾像元前后效果對比Fig.6 Comparision maps before and after removing interference pixels
把提取結果重新加載到對應的遙感圖像中,即可查看與分析冬小麥的空間分布效果,實驗區的自動提取效果如圖7所示。

圖7 實驗區冬小麥提取效果Fig.7 Extraction effect of winter wheat in experimental area
將模型推廣應用于整個大廠縣,利用6期遙感影像優選出的識別特征構建模型對整個縣的冬小麥進行識別,得到大廠縣冬小麥的空間分布情況,具體分布如圖8所示。通過與當年的統計結果對比分析,經過多時相特征優選構建的算法模型對冬小麥的識別精度接近90%,經過樣本優化和后期處理仍可提升精度,此方法能在保證提取精度的前提下對冬小麥進行快速提取,在一定程度上能代替常用的目視解譯方式,可大大提高相應的工作效率。
利用高分二號遙感影像選擇冬小麥關鍵生育期6個時相的影像數據,從每個時相的NIR(近紅外灰度)、R(紅波段灰度)、G(綠波段灰度)、B(藍波段灰度)、RVI(比值植被指數)、NDVI(歸一化植被指數)6個特征中優選出對冬小麥面積提取最敏感的1個特征,6個時相共選出6個特征作為輸入變量,利用隨機森林算法構建模型提取冬小麥空間分布特征。最后優選出最敏感的6個特征,按照6個時相依次是G、NDVI、NIR、NIR、NIR、NIR。選擇覆蓋研究區的不同地理位置,包含不同長勢的地塊,涵蓋不同種植品種的樣本構建訓練集。推廣應用于整個大廠縣,得到大廠縣冬小麥的空間分布情況。通過與統計結果對比分析,經過多時相特征優選構建的算法模型對冬小麥的識別精度接近90%,經過樣本優化和后期處理仍可提升精度,此方法能在保證提取精度的前提下對冬小麥進行快速提取,提高相應的工作效率。

圖8 大廠縣冬小麥空間分布Fig.8 Spatial distribution map of winter wheat in Dachang County