齊建東,買晶晶
(1.北京林業大學信息學院,北京100083;2.國家林業草原林業智能信息處理工程技術研究中心,北京100083)
蒸散量(Evapotranspiration,ET),即蒸發散,指土壤水分蒸發和植物蒸騰作用的總和,即水分從地球表面移向大氣的過程,廣泛用于測量陸地和大氣之間植物蒸騰、冠層蒸發和土壤蒸發過程的總水分損失量[1]。中國人口眾多,農業用水占水資源消耗的比例較大,農業消耗水由ET、滲透水和灌溉棄水組成,其中ET為作物耗水量,不能再利用,ET消耗的水量為農業用水中真實消耗的水量[2],因此準確預測ET不僅可以為區域水資源管理和農田作物培養提供信息及決策支持,還可以貫徹落實農業節約用水措施[3]。
ET的觀測和分析所使用的數據來源之一是基于渦流協方差技術的全球通量塔[4],測量值較為精確,但它只能測定當前時間的蒸散量,無法估算出未來時間段的蒸散量。由于氣候環境變化和人類活動逐漸地改變陸地生態系統的結構和功能,估算并預測ET仍然是一個巨大的挑戰[5-6]。常用的ET估算方法主要有2種:基于衛星的遙感估算法和數值模擬法。基于衛星的遙感估算方法的估算精度受植被生理生態特征、氣候及水分等因素影響,且獲得關鍵植物參數較難從而增加了模型復雜度[7-9]。數值模擬法可以有效捕捉 ET與環境因子之間的非線性關系,由于其效率高、泛化性強等優點,近年來被廣泛應用于ET的模擬估算中,如Antonopoulos等[10]使用人工神經網絡(Artificial Neural Networks,ANN)對希臘北部韋戈里特湖的日蒸散量進行了估算,得到了較好的結果。Yao等[11]引入支持向量機(Support Vector Machine,SVM)來預測ET,結果表明使用SVM預測ET是可靠的。Ki?i[12]使用Levenberg-Marquardt(LM)和共軛梯度2種前饋神經網絡來預測參考作物蒸散量(Reference evapotranspiration,ET0),結果表明 2種算法可以成功地模擬ET0。陳宣全等[13]使用多元自適應回歸樣條算法來模擬川中丘陵區的ET,并說明了該算法在ET模擬領域的可行性。2015年,Abdullah等[14]將極限學習機(Extreme Learning Machine,ELM)應用于ET模擬中,該算法被強烈推薦應用于地理和氣象條件類似于伊拉克干旱和半干旱地區的地域。之后,魏俊等[15]在氣象條件缺失的情況下使用ELM對中國西北旱區的ET0進行模擬,得出選取溫度和風速作為輸入的模型可以作為西北旱區的 ET0模擬模型。
綜上,基于傳統機器學習方法如SVM、ELM、ANN等進行ET模型模擬已經做了大量研究工作。而深度學習作為機器學習的最新研究成果,在針對多維數據的特征表示與提取方面,較傳統機器學習方法具有較大的優勢。邢立文等[16]指出 ET0在時間上具有動態特性,可以用時間序列模型進行描述,建立了基于長短期記憶(Long Short-Term Memory,LSTM)的 ET0預測模型,結果表明LSTM可以作為華北地區逐月ET0預測的推薦模型。Saggi等[17]建立深度學習多層感知機(Deep learning multilayer perceptrons,DL)的ET0模擬模型,并與廣義線性模型、隨機森林模型(Random Forest,RF)、梯度提升機模型對比,得出DL模型具有更高的魯棒性,模擬效果更準確。Ferreira等[18]利用逐小時氣象數據,使用卷積神經網絡模型估計逐日ET0,與RF、ANN和極端梯度提升模型相比得到了很好的模擬性能。Chen等[19-20]使用時序卷積網絡建立了東北平原和膜下滴灌玉米的ET模擬模型,取得了很好的效果。深度學習目前在ET模型模擬領域有很大的應用與推廣空間。深度學習通過深層次架構學習模型特征,在數據特征和模型挖掘上有顯著優勢,ET作為典型的時間序列數據,深度學習模型尤其適合。
本文選取寧夏鹽池縣作為研究站點,并使用基于注意力機制的 LSTM 模型(AT-LSTM)來模擬 ET,鹽池縣屬于干旱半干旱地區,水資源匱乏,在干旱半干旱地區降水以蒸散形式返回到大氣中的水分達到 80%以上,鹽池縣作為寧夏回族自治區首個脫貧摘帽的地區,擁有自己的特色農業項目,準確估算并預測鹽池縣ET變化對該地區農業水資源管理及區域氣候調節具有重要意義[21]。注意力機制的引用可以進一步提升時間序列模型的分析效果,且目前AT-LSTM模型在ET值模擬方面的應用尚為空白。本文的目標如下:1)驗證AT-LSTM模型模擬ET的可行性和有效性;2)使用AT-LSTM模型建立16種不同環境因子輸入組合,對鹽池縣的ET進行模擬,并將其與LSTM、SVM、ELM主流模型對比,以期為鹽池縣農業用水管理提供科學支持。
研究站點位于寧夏回族自治區東部的鹽池荒漠生態系統定位研究站(鹽池站),地理坐標107.20°~107.26°E,37.68°~37.73°N,北臨毛烏素沙地,南接黃土高原,是黃土丘陵向鄂爾多斯緩坡丘陵過渡,半干旱區向干旱區過渡,草原向荒漠草原過渡,農區向牧區過渡的區域,平均海拔1 600 m,總面積8 661 km2,屬于溫帶大陸季風氣候,四季少雨多風,氣候干燥。鹽池縣多年平均降水量311 mm,降水自東南向西北遞減。鹽池縣地表降水占總水資源的 62%,降水有限且分布不均。該縣農業大力發展灘羊、牧草、黃花菜、小雜糧、中藥材等,農業生產灌溉大多依靠黃河引水。
Wagle等[22]的研究指出,對于較長期的水通量總和,30 min尺度更為可靠,因此,本研究選取鹽池縣2012年1月1日—2017年12月31日的每30 min環境因子數據。根據文獻[1, 23-24]選取ET主要影響因子:空氣溫度(Ta)、凈輻射(Rn)、相對濕度(Relative Humidity,RH)、土壤溫度(Ts)、土壤含水率(Soil Water Content,SWC)。ET由公式(1)計算得到。

式中λ為汽化熱,即蒸發 1個單位質量水的能量,為2.454×105J/kg;LE為潛熱通量,W/m2,采用渦流協方差技術的通量塔測得[23,25-26]。試驗數據共有105 216條,其中87 696條數據作為訓練集,17 520條數據作為測試集。
1)缺失值處理:采用均值填補法[27],對缺失的時間點的數據選取前后10 d的數據,取平均值。
2)為了消除指標之間的量綱對預測效果的影響,將數據進行歸一化處理。
3)各年份逐日ET由逐小時ET值累加得出,同理,逐月ET由逐日ET累加得到。
輸入環境因子的數量越多,所需的測量成本越高,為了獲得較高的ET模擬精度并減少成本,分析不同環境因子輸入下的模型模擬精度,采用不同環境因子組合作為模型輸入參數(表1)。

表1 不同環境因子組合的輸入參數Table 1 Input parameters of different environmental factor combinations
本文使用編碼器-解碼器框架建立AT-LSTM模型[28],并使用在干旱半干旱地區常用的ELM模型[29]、處理長時間序列的 LSTM 模型[16]以及基本機器學習模型 SVM[30]來構建鹽池縣ET模擬模型,4種模型均使用python語言來編寫。
AT-LSTM模型參數設置:學習率設為0.000 1,編碼器和解碼器中 LSTM 的隱藏層大小設為 64,批量大小(batch size)設為32,序列窗口大小設為10。LSTM模型參數設置:學習率為0.001,隱藏層節點為10,batch size為128,樣本訓練次數為100。ELM模型設定隱藏層神經元數目為 100,選擇隱藏層神經元激活函數“sigma”。SVM模型選取徑向基函數為核函數,設置懲罰系數為10,gamma參數為1。
采用均方根誤差(Root Mean Square Error,RMSE)、平均絕對誤差(Mean Absolute Error,MAE)、相關系數(R)作為模型的驗證因子,并將其統一到整體評價指標(Global Performance Indicator,GPI)評價模型模擬精度。GPI計算公式如下:

式中GPIi是模型i的 GPI值;zik為模型i的驗證因子k的值;zk是因子k的中位數;當k為MAE和RMSE時,αk=-1,k為R時,αk= 1,GPI越大,模型的模擬精度越高,文中GPI按照排名表示,排名靠前GPI越大。
由于驗證集與測試集得到的ET模擬精度相差不大,因此使用測試集結果說明模型的模擬精度。表2為4個模型在不同參數因子組合下測試集10次模擬精度的平均值。從表2可知,不同輸入參數下AT-LSTM模型的模擬效果較為穩定,RMSE在0.013~0.016 mm/30 min之間,MAE在0.006~0.008 mm/30 min之間,R在0.859~0.905之間。但SVM、ELM、SVM模型模擬精度變化較大。
當輸入全部5個環境因子時,所有模型的GPI均為1。其中 AT-LSTM1模型的精度最高,RMSE為0.013 mm/30 min,MAE為0.006 mm/30 min,R值為0.905;當輸入4和3個環境因子時,不同模型對輸入數據的響應存在差異。AT-LSTM4和ELM4模型(輸入Ta、Rn、RH)的模擬精度優于AT-LSTM5和ELM5(輸入Rn、Ts、SWC),而SVM4和ELM4模型的模擬精度低于SVM5和ELM5;當輸入2個不同的環境因子時,AT-LSTM模型的模擬精度明顯比其他模型高,仍然能夠得到較優的ET值。不同模型輸入Rn、Ts時模擬精度均較高,為輸入2個環境因子中的最優模型。
只有1個環境因子作為輸入時,AT-LSTM模型模擬效果非常穩定,模擬精度均較高,然而其他 3種模型模擬效果因輸入環境因子的不同差距很大。僅輸入Rn時4種模型表現最好,其中AT-LSTM14模型模擬效果最好,RMSE和 MAE分別為 0.014、0.007 mm/30 min,R為0.892,模擬效果甚至優于LSTM、ELM和SVM模型輸入全部環境因子時。4種模型僅輸入SWC時GPI均為16,SVM16、ELM16、LSTM16的模擬效果最差。當4種模型增加Rn作為輸入時(4種模型的模型16與模型10、15與11、6與5),模擬精度明顯提升,這說明Rn對ET的模擬起到了積極的作用。
綜上,環境因子組合產生的模擬效果與選用的模型有關。AT-LSTM模型對ET的模擬具有可行性,且輸入環境因子的不同并沒有顯著影響AT-LSTM模型的模擬效果,這是AT-LSTM模型與SVM、ELM、LSTM模型在ET模擬中最大的區別,這說明注意力機制可以更好地捕捉環境因子與ET之間復雜的非線性關系。從模擬結果來看,Rn對模型的模擬效果起到積極作用。僅有Rn輸入的AT-LSTM14模型在獲得較高的ET模擬精度的同時,減少了測量環境因子所需的成本,可以選用AT-LSTM14作為鹽池縣環境因子缺失情況下的模擬模型。

表2 4種模型不同環境因子輸入下測試集的模擬精度對比Table 2 Comparison of simulation accuracy of test set with input of different environmental factors of four models
圖2為全部環境因子輸入的 AT-LSTM1、SVM1、LSTM1、ELM1和只輸入Rn的AT-LSTM14模型分別執行10次的RMSE值對比。從圖中可以看出,SVM1模型的 RMSE值穩定不變,為 0.165,穩定性最好。其次為AT-LSTM1和AT-LSTM14模型,AT-LSTM模型具有很好的穩定性。

圖2 模型穩定性對比Fig.2 Comparisons of model stability
表3為4種模型對逐日蒸散量的模擬效果,模型的模擬精度與30 min蒸散量的模擬精度排名相同,AT-LSTM模型的模擬精度最高,輸入Rn、Ts的 AT-LSTM11模型GPI為2,僅輸入Rn的AT-LSTM14模型GPI為3,其次為LSTM模型,ELM模擬精度略低于LSTM模型,SVM模擬精度最低。僅有Rn輸入的AT-LSTM14模型在小時尺度及日尺度上的模擬精度均高于全部環境因子輸入的LSTM1、SVM1、ELM1模型,故選取AT-LSTM14、LSTM1、SVM1、ELM1模型對日蒸散的模擬值與真實值進行對比(圖3),其他幾年的蒸散量變化及模擬趨勢與2013年相似。從圖3中可以看出,4種模型均很好地模擬出ET值在冬季較低,夏季較高的單峰趨勢,但是模擬效果存在一定差異。SVM1模型模擬的ET值在1—3月和11—12月浮動較大,而真實值較為平緩。LSTM1和ELM1模型在1 —3月和11—12月對ET值的模擬效果較好,而在6—8月當 ET值較大時,模擬結果與真實值差距較大。而AT-LSTM14模型模擬的 ET值從整體來看更加貼合真實值,在 6—8月的模擬值與其他幾種模型相比效果更好,這是因為注意力機制可以通過不斷迭代更新,從序列中學習到每一個環境因子的重要程度。

表3 不同環境因子輸入下逐日蒸散量的測試集模擬精度對比Table 3 Comparison of simulation accuracy of daily evapotranspiration of test set between with input of different environmental factors
圖4為AT-LSTM14(僅輸入Rn)、LSTM1、SVM1、ELM1在4個季節的一天中ET模擬情況對比。春、夏、秋、冬季分別選擇2013年前一周沒有降水的4月10日、8月18日、10月10日、1月12日。從圖中可以看出,ET值在一天中的分布曲線呈拋物線狀。一天中ET的最高值出現在12:00—14:00之間,春、夏、秋、冬ET值在一天中的最高值分別為0.077、0.221、0.076、0.021 mm。冬季晝短夜長,氣溫回升慢,ET值開始上升的時間晚于春、夏、秋季,ET值降為0的時間早于春、夏、秋季。4種模型都很好的模擬出了ET值先增大后減小的變化趨勢,但是模型的模擬效果存在差異。

圖3 2013年日蒸散量模擬值與真實值對比Fig.3 Comparison of simulated and real values of daily evapotranspiration in 2013
從圖4中可以明顯地看出,春、秋、冬季SVM1模型模擬效果明顯劣于其他模型,而夏季 8:00—14:00之間SVM1模型的模擬效果較好,與ELM1相當。在ET值較小的時間段(00:00—6:00、19:00—24:00)AT-LSTM14模型、LSTM1模型、ELM1模型、SVM1模型的相對誤差分別為-1.23%~3.21%、5.25%~10.78%、7.64%~14.31%、40.23%~60.98%。在其他時間段 AT-LSTM14模型、LSTM1模型、ELM1模型、SVM1模型的相對誤差分別為0.15%~0.35%、0.20%~2.58%、0.33%~2.35%、0.42%~10.07%。從整體來看,僅輸入Rn的AT-LSTM14模型精度最高,SVM1模型的模擬效果最差。ELM1模型和LSTM1模型因季節不同模擬效果不同,春季、冬季以及ET值較小的時間段,LSTM1模型模擬精度優于ELM1模型。

圖4 2013年不同季節一天中模型模擬蒸散量對比Fig.4 Comparison of simulated ET of models in a day of different seasons in 2013
圖5為2012—2017年月平均蒸散量模型模擬和平均降水量的對比圖。選取僅有Rn輸入的AT-LSTM14和全部環境因子輸入的SVM1、ELM1、LSTM1模型。從圖5中可以看出,鹽池縣的月ET值呈先增大后減少的單峰趨勢,4種模型都能很好地模擬出這種趨勢。7月溫度升高,降水量增多為73.750 mm,植物快速生長期到來,ET值達到最大為68.140 mm,12月到達最小值1.75 mm,1月、2月、12月降水量為0。其中7月AT-LSTM14模型、SVM1模型、LSTM1模型、ELM1模型的模擬值分別為60.050、54.070、39.640、48.380 mm,12月AT-LSTM14模型、SVM1模型、LSTM1模型、ELM1模型的模擬值分別為2.320、-4.810、2.760、3.370 mm。春季(3—5月)降水量少,氣溫回升快,ET值變大,出現春旱的現象,此時生態系統 ET的來源主要為灌溉和地下水。當 ET值較小時(1 月—4月、11月—12月)ELM1模型、AT-LSTM14模型、LSTM1模型的模擬值都非常接近,模擬效果很好,而SVM1模型的模擬值與真實值差距較大,模擬效果較差。植物生長季(5—10月)可以明顯看出AT-LSTM14模型比其他3種模型的模擬值更加接近真實值,LSTM1模擬效果最差。其中5月—7月可以看出SVM1模型的模擬效果變好,優于ELM1模型和LSTM1模型。以上表明在月尺度上,AT-LSTM 模型對蒸散量的模擬效果最好,ELM1模型次之。

圖5 2012—2017年月蒸散量模擬值與真實值對比Fig.5 Comparison of simulated and real values of monthly evapotranspiration from 2012 to 2017
生態系統蒸散過程是一個較為復雜的綜合性過程,受到各個環境因素和生物因素的制約,而它們之間又相互影響[31],氣候變化和人類活動也會影響蒸散量。
AT-LSTM模型、ELM模型、LSTM模型、SVM模型都可以很好地描述鹽池縣蒸散量變化趨勢,這是因為它們都可以描述ET與環境因子之間復雜的非線性關系。相比于ELM、SVM、LSTM 模型,AT-LSTM 模型的顯著優勢表現在當輸入因子變化時,模型模擬精度變化很小且模擬效果較好,例如僅輸入SWC的ELM16、SVM16、LSTM16模擬效果很差,而AT-LSTM16模型仍可以得到較好的模擬結果。這是因為ELM模型和SVM模型架構簡單,對特征捕捉的能力有限,LSTM可以對歷史數據樣本進行深度學習并解決了長期依賴問題,而AT-LSTM模型在LSTM模型的基礎上不斷計算并更新解碼器隱藏狀態的權重,相對于傳統機器學習模型可以更好地捕捉時間序列特征,挖掘更深尺度信息。
由表2的結果可以看出,氣象因子(Ta、RH、Rn)比土壤因子(Ts、SWC)對ET的影響更大,當輸入環境因子中增加Rn時,4種模型效果均得到大幅度改善,說明Rn對鹽池縣的ET影響較大,這是因為凈輻射是能量的來源,且Rn與日照時數和太陽總輻射有關,而太陽總輻射是引起溫差的原因,溫度和日照時長也在Rn中得到了表現[32],這與曹雯等[33]得出的結論一致。在 5個環境因子中,SWC對ET的影響最小,降雨是土壤含水量的主要來源,通常來說只有10%~20%的降水最終可以轉化為土壤水分[34],而土壤水分蒸發主要受到氣象因素與土壤溫度的影響,這也是Rn、Ts輸入的模型模擬精度高的原因。總體來說氣象因素(Ta、Rn、RH)對鹽池縣蒸散量的影響大于土壤因素(Ts、SWC)。但Chen等[23]研究指出在北美地區常綠針葉林的ET主導因素依次為Ta、大氣二氧化碳濃度、Ts、SWC、Rn,這說明針對不同的研究區域,ET對環境因子的響應也存在差異。
1)AT-LSTM 模型模擬精度高,模型穩定性強,可以應用于鹽池縣蒸散量的模擬預測問題,且在小時尺度、日尺度、月尺度、季節尺度上均取得了很好的模擬效果。
2)總體上,AT-LSTM模型模擬效果最好,LSTM模型優于ELM模型,SVM模型模擬效果最差。但SVM模型在溫度較高的時段 5月—9月以及夏季的 10:00—14:00,模擬效果與ELM模型相當。
3)在缺少環境因子輸入的情況下,AT-LSTM 模型模擬精度變化很小,模擬精度仍較高,凈輻射(Rn)對鹽池縣蒸散量的模擬貢獻程度最大,土壤含水量最小。僅輸入Rn情況下AT-LSTM模型也能取得較好的精度,可以作為缺失環境因子輸入情況下的模擬模型。