史博太,常慶瑞,崔小濤,蔣丹垚,陳曉凱,王玉娜,黃 勇
(西北農林科技大學資源環境學院,陜西楊凌 712100)
葉面積指數(LAI)為單位土地面積上單面綠色葉片面積總和,是區域物質循環和能量流動過程等研究的重要參數[1],被廣泛應用于農業、林業、環境變化等領域。大量研究表明,葉面積指數影響作物長勢、產量、光合呼吸速率以及生物量、物候期等諸多理化進程[2-5]。因此,實時、快速、大面積精確獲取作物葉面積指數具有重要意義。
隨著對地觀測技術的快速發展,在提高觀測衛星空間分辨率的同時,越來越多的衛星平臺已經搭載具有多個光譜譜段的傳感器,如歐空局的Sentinel-2衛星、德國的RapidEye衛星、美國的Worldview-2衛星及Lsandsat-8衛星。其中,Sentinel-2衛星由Sentinel-2A和 Sentinel-2B雙子星組成,分別于2015年6月和2017年3月發射升空,隨著雙子星組軌運行,Sentinel-2多光譜衛星時間分辨率縮短至5 d,同時Sentinel-2衛星特有的三紅邊波段在植被信息監測方面具有獨特的優勢,且具備較好的空間分辨率(10/20/60 m),使其為農業遙感信息監測提供了諸多可能。鄭陽等[6]利用Sentinel-2A衛星數據提取出17種常見的植被指數,分別構建其與相應時期內采集的冬小麥地上生物量間最優估算模型,通過分析兩者間的相關性與敏感性,獲取適宜進行生物量估算的指數。蘇偉等[7]利用Sentinel-2A影像數據建立實測葉綠素含量與各植被指數的統計關系,構建玉米冠層葉綠素含量估算模型,并以野外實測玉米冠層葉綠素含量為依據,對基于各植被指數的估算結果進行精度評價。易秋香等[8]利用不同年份的Sentinel-2衛星數據及大面積田間試驗觀測獲取的棉花不同生育時期 LAI實測數據,構建了基于單波段反射率及各類植被指數的棉花不同生育時期及全生育期LAI 估算模型,并采用留一驗證和交叉驗證法對模型精度進行了檢驗。
機器學習算法近年來被廣泛用于農業遙感估算研究[9-11],且相較于傳統的經驗模型和物理模型,機器學習回歸模型解析數據能力較強,且不存在病態反演問題[12],隨機森林算法和人工神經網絡算法均屬于機器學習算法。王麗愛等[13]利用HJ-CCD衛星數據和隨機森林回歸算法建立冬小麥葉面積指數遙感估算模型,并以人工神經網絡模型為參比模型進行預測精度比較。陸坤等[14]利用GF-2衛星數據,采用了回歸模型和神經網絡算法估算了冬小麥孕穗期葉面積指數。劉振波等[15]利用GF-1 WFV影像數據提取水稻植被指數數據,結合地面同步測量的水稻葉面積指數數據,利用隨機森林算法構建了水稻LAI估算 模型。
目前對于Sentinel-2多光譜衛星數據估算作物理化參數大多是基于單參數經驗模型,對多波段信息有效利用不足,且基于機器學習利用Sentinel-2衛星數據估算冬小麥葉面積指數還未有相關研究。本研究基于Sentinel-2A多光譜衛星影像,以關中地區冬小麥種植地區為研究區域,利用提取的影像單波段反射率和植被指數數據,結合地面同步觀測的冬小麥葉面積指數,比較了多因子機器學習回歸估算模型(偏最小二乘回歸、BP-神經網絡回歸、隨機森林回歸)的精度與預測能力,以期豐富大田尺度下遙感估算冬小麥葉面積指數方法,提高其估算精度。
本試驗研究區位于陜西省武功縣(108°01′~108°19′,34°12′~34°26′)和扶風縣(107°45′~ 108°03′,34°12′~34°37′)的交界區域。圖1為研究區Sentinel-2真彩色合成影像。研究區位于關中平原西部,主要地貌類型為黃土臺塬和渭河階地,同屬暖溫帶半濕潤性大陸季風氣候,光照充足,四季分明。其中,武功縣年均降水量和氣溫分別為633.7 mm和12.9 ℃,全年日照時數約為 2 095 h;扶風縣年均降水量和氣溫分別為592 mm和12.4 ℃,全年日照時數約為2 134 h。研究區均屬半干旱區灌溉農業,農作物一年兩熟,主要種植作物是冬小麥與夏玉米,冬小麥大約在2017年10月5日播種,2018年6月15日左右 收獲。
為獲取與遙感影像同步的地面觀測數據,于2018年4月9日-2018年4月10日在武功縣和扶風縣進行田間LAI測定,根據自然條件和冬小麥種植情況,在研究區內選擇5處地勢平坦且冬小麥種植面積大于1 km2的樣地,每個樣地內布設17~26個觀測點。觀測區域選擇遠離道路、建筑物、溝渠,以減少影像混合像元引起的估算錯誤。LAI值的測定使用英國的SUNSCAN冠層分析儀,在測定LAI值的同時使用高精度定位儀同步記錄觀測區域中心地理坐標。試驗共獲取99個有效LAI樣本,LAI最大值5.13,最小值1,平均值2.52,標準差1.02。將獲取的有效樣本數據按照大小順序排列,隨機抽取57個作為建模樣本集,剩余42個作為驗證集。
Sentinel-2衛星數據獲取于歐洲航空局數據網站(https://scihub.copernicus.eu/)。Sentinel-2衛星多光譜數據包括可見光、紅邊、近紅外、短波紅外等13個波段。其不同波段的空間分辨率稍有不同。Sentinel-2衛星波段主參數信息參照歐空局網站發布數據。本研究獲取的影像為2018年4月9日研究區L1C級影像,無云,影像質量極好,時間分辨率較好。Sentinel-2 L1C級影像是已經過輻射定標和幾何校正的影像,因此只需通過Sen2cor插件對影像進行大氣校正處理,然后在SNAP專業軟件中采用最鄰近插值法將影像空間分辨率重采樣至10 m,用于后續各觀測點影像反射率提取、植被指數計算以及LAI 估算。
為充分利用Sentinel-2衛星多波段信息,本研究除了探討各類植被指數與LAI相關關系外,還基于植被指數構建方法,以紅邊波段代替可見光波段,構建新的植被指數,探究兩者關系。所選取的植被指數及基于Sentinel-2波段計算公式如表1所示。
偏最小二乘回歸(partial least squares regression, PLSR)是一種多對多線性回歸模型[29],可同時實現回歸建模(多元線性回歸分析)、數據結構簡化(主成分分析)和兩組變量之間相關性分析(典型相關性分析)。與傳統的最小二乘回歸方法相比,PLSR的變量共線性強度壓縮,通過對信息綜合及篩選提取,獲取對響應變量最優解釋能力的新成分[30]。PLSR模型構建在Minitab軟件中實現。BP神經網絡(back propagation neuron network,BPNN)最早由RumelHart和McCelland提出,是一種具有信號正向傳播、誤差反向傳播特點的多層前饋型神經網絡[31]。BPNN通常由輸入層、隱含層、輸出層三部分組成,所選參數一般包括隱含層數、層節點數、權重值、學習效率和訓練算法。BPNN模型在MATLAB軟件中實現。隨機森林算法(random forests,RF)是一種集成學習方法,基于決策樹算法和bagging算法,本質是組合多棵決策樹以提高機器學習性能[32]。RF回歸模型一般需要優化決策樹數目ntree和建立分枝所需特征變量數目mtry兩個參數。RF回歸模型構建在R語言環境下實現。

表1 所選取植被指數及對應Sentinel-2波段計算公式Table 1 Selected vegetation indices and corresponding Sentinel-2 band calculation formula
將從影像提取的單波段反射率值和植被指數與冬小麥LAI值進行相關性分析,篩選相關性高的幾個因子作為上文機器學習模型的輸入變量,評價三種機器學習模型精度以及預測能力,同時依據最優預測模型,估算研究區冬小麥LAI分布情況。模型評價指標采用決定系數r2、均方根誤差(RMSE)和相對誤差(RE)。其中r2越接近1,模型擬合能力越強;RMSE和RE越小,模型預測值和實測值離散程度越低,模型預測能力越高。
(1)
(2)
從相關性分析結果(表2)看,無論建模集、驗證集和總體樣本,多光譜各波段數據和冬小麥植被指數與LAI的相關性均具有相似的分布規律,表明數據集篩選客觀、準確,后續分析具有可行性。其中,紅波段B4、紅邊波段B6、B7以及近紅外B8、B8a波段光譜反射率與LAI具有極顯著相關性,且B6~B8a四個波段的相關系數大都高于 0.7,說明紅邊波段及近紅外波段在冬小麥長勢監測中具有很好的有效性。同時,三種集合相關性最高波段均是以波長842 nm為中心、波段寬度為145 nm的B8波段,相關系數為0.778。大部分植被指數與LAI呈極顯著相關,三種集合中相關系數均高于0.7的植被指數有差值植被指數(DVI)、三角植被指數(TVI)、修正三角植被指數(MTVI)和反向差值植被指數(IDVI),其中IDVI最佳,在總體樣本集的相關系數為0.776。IDVI相較于NDVI來說,可以克服在高LAI值下的飽和問題,同時對作物葉片水分和葉綠素含量表現出較弱的敏感性[23]。總體來看,加入紅邊波段的植被指數與傳統近紅外植被指數相比,相關性沒有表現出明顯差異,如加入紅邊B7波段的植被指數 CIREP3和NDVIREP3,與LAI相關性變化不顯著。

表2 單波段反射率及植被指數與LAI相關性Table 2 Correlation between reflectance, vegetation index and LAI
綜合考慮信息的冗余和機器學習模型效率,選擇三類集合中相關系數都大于0.7、能較好反映冬小麥LAI值變化的B7、B8、B8a三個單波段反射率和DVI、TVI、MTVI及IDVI四個植被指數共7個光譜變量作為輸入變量,進行模型構建。
將上述所篩選的7個光譜變量作為輸入變量,相應LAI值為輸出變量,分別采用PLSR、BPNN及RF算法建立冬小麥LAI估算模型。對于PLSR建模集采用留一交叉驗證法尋求最佳估算模型;BPNN經過多次訓練確定隱含層節點數為14,最大訓練迭代次數為1 000,學習效率為0.000 1,并采用S型雙曲正切函數為隱含層傳遞函數,輸出層函數為線性函數;RF模型經多次訓練確定回歸樹數量ntree為400,每棵樹隨機抽取特征變量mtry為1,其余參數選擇默認設置。
由表3可知,三個模型的學習能力都較強,r2均在0.7以上,其中模型LAI-RF表現最好,其r2高達0.91。將最終訓練好的3個模型帶入驗證集中,比較模型估算的LAI值與相應實測值,評價不同模型精度及預測能力,驗證集的r2、RMSE和RE如表3。各模型驗證集r2較建模集r2均有所下降,尤其是LAI-BPNN模型,其r2較建模集r2降低了0.37,模型穩定性較差。
將預測值LAI與實測值LAI進行回歸分析,同時制做兩者散點圖(圖2)。由圖2可知,LAI-RF估算模型在三種估算模型中表現最佳,其驗證集r2為0.72,RMSE為0.53,RE為16.83%。進一步分析發現,所有擬合回歸曲線斜率都小于1,這表明以上三類機器學習算法構建的冬小麥LAI估算模型總體上都低估了實測值。當實測LAI值小于2.5時,模型預測結果均存在高估現象,但高估程度較低,而在實測值LAI超過2.5時,模型預測結果存在一定程度的低估。三種模型中LAI-RF擬合圖數據分布較均勻,數據離散程度較低,因此認為LAI-RF估算模型精度和預測能力最好,穩定性較好,可用來估算冬小麥LAI分布。

表3 冬小麥LAI估算模型對比Table 3 Comparison of LAI estimation models for winter wheat
首先基于樣本面向對象和支持向量機分類算法對研究區Sentinel-2衛星影像進行圖像分類,提取研究區冬小麥種植區域。再利用本研究構建的最優估算模型LAI-RF對研究區冬小麥LAI進行反演,結果(圖3)表明,研究區冬小麥反演LAI為1.2~4.5,在高值區域相對低估了0.5個單位左右,但總體來看與地面真實情況較為接近。從空間分布來看,總體上冬小麥種植區域較為集中,在西南部及南部存在程度較低的離散分布,且研究區道路、河流以及居民地等用地在影像上能夠較準確分辨出。這進一步說明以Sentinel-2衛星影像數據建立LAI-RF估算模型,可應用于區域冬小麥LAI反演制圖。
LAI反映了植物冠層功能和結構,包含能量流動和物質循環的結構化信息,常用于植被的光合、呼吸作用、生物碳累積等研究,作物的LAI與最終產量密切相關[33]。LAI和冠層光譜在可見光-近紅外區間存在較強相關性,且機器學習算法模型在作物理化參數估算具有較強可行性[34-36]。因此,基于冠層特征光譜反射率和特征光譜指數耦合的多因子機器學習算法可以定量估算作物理化參數。
針對多光譜衛星數據遙感估算作物LAI,以往研究選取的光譜指數量較少,且少有研究分析敏感冠層反射率與作物LAI之間相關關系。本研究選取了19種光譜指數及可見光-近紅外8個波段反射率,分析共27種變量因子與冬小麥LAI的相關關系,結果表明,敏感波段主要集中在紅邊和近紅外波段處,與以往研究結論一致[8,37]。最佳敏感植被指數為IDVI,在樣本總體中相關系數為0.776,這是因為IDVI對于作物葉片水分和葉綠素含量不敏感,且會減弱估算的飽和趨勢。有研究認為,利用加入紅邊波段的植被指數與原始植被指數估算作物LAI雖均取得了理想的預測精度,但兩者之間精度并沒有明顯提高[38]。本研究也表明,上述兩類植被指數與LAI的相關系數在最佳敏感區間并沒有呈現出顯著性差異,同時加入中心波長為705 nm和740 nm的紅邊波段的植被指數相關系數也無較大變化,而在單波段反射率中三紅邊波段表現最佳的中心波長位于783 nm處,在紅邊參數植被指數中沒有表現出相關性。這說明單波段反射率和植被指數具有獨立性,即在單波段反射率中最佳敏感波段參與構建的植被指數不一定是最佳敏感植被指數。
建模算法的選擇對作物LAI估算精度也有較大差異。與單因子估算模型相比,多因子估算模型對波段信息利用率高,可克服單因子估算出現的飽和現象。以往大多數衛星遙感數據估算方法大多基于單因子模型,雖取得較好預測精度和估算結果,但模型的泛化能力低,實際意義并不大。機器學習模型在很多相關研究中表現優異。王麗愛等[13, 39]基于HJ-CCD遙感信息對比了傳統多元線性回歸算法、偏最小二乘回歸算法、神經網絡算法、支持向量機回歸算法和隨機森林回歸算法對冬小麥生長參數信息的估算精度,結果表明,基于機器學習的估算模型表現較好,且隨機森林估算模型在生長參數發生變化時也具備較強學習和預測能力。本研究對比了多因子構建的PLSR算法、BPNN回歸算法和RF回歸算法對冬小麥LAI學習能力和預測精度,發現基于多因子RF回歸模型對于研究區冬小麥LAI具有最佳預測精度,這與上述研究結論基本一致。這是因為RF回歸算法中兩個隨機性的引入以及采用集成學習方法有利于將弱學習器組合成強學習器,且對數據共線性不敏感,使其具有較好的抗噪能力,也不易陷入過度擬合。而BPNN算法在建模過程中存在過度學習問題,且建模過程中所選參數較多,降低了模型的穩定性,最終導致模型失去呈現隱含規律的能力,降低了模型的適用性。而PLSR回歸算法雖能有效降低數據共線性影響,但當共線性程度超出模型降維限度時,模型精度降低,模型泛化能力減弱。同時,三種模型的驗證精度較建模精度均有所下降,這是因為圖像處理過程中產生了誤差,導致模型泛化能力減弱,與衛星大氣校正過程、地面采樣點位置幾何精度、空間分辨率以及影像像元純度有一定的關系。本研究建立的模型雖仍需多年多生育時期數據進行普適性檢驗,且模型精度需進一步優化,但RF回歸算法不失為冬小麥LAI估算的優先選擇方法。
變量特征的篩選對于機器學習算法建模具有必要性。有研究[40]發現大多數機器學習算法在建模之前,對變量進行特征篩選既可以減少數據處理時間,也能夠提高LAI估算精度。本研究經過多次建模發現隨著輸入變量因子的增多,三種模型的精度先增高到一定值后趨于平穩,隨后模型穩定性又開始下降且模型預測能力出現顯著退化,因篇幅所贅,不在此闡述。這是因為較多的顯著性變量之間存在共線性信息,這些冗余信息的累積使模型解譯能力下降,結果使模型預測穩定性降低。綜合考慮變量信息的冗余以及機器學習模型的效率,本研究選擇相關系數大于0.7、能較好反映冬小麥葉面積指數變化的7個光譜變量作為最佳輸入變量,參與模型構建。
基于Sentinel-2多光譜數據和三種常用機器學習算法,分析了光譜參數及敏感波段反射率與冬小麥LAI估算的特點,同時構建研究區冬小麥LAI估算模型,并驗證模型精度,結果表明,Sentinel-2多光譜數據應用于冬小麥LAI估算具有較強可行性,且隨機森林回歸模型是冬小麥LAI估算最優機器學習模型。