劉小強,代智光,吳立峰,張富倉,董建華,陳志月
GPR、XGBoost和CatBoost模擬江西地區參考作物蒸散量的適應性研究
劉小強1, 2,代智光1,吳立峰1*,張富倉2,董建華3,陳志月4
(1.南昌工程學院 水利與生態工程學院,南昌 330099;2.西北農林科技大學 旱區農業水土工程教育部重點實驗室,陜西 楊凌 712100;3.昆明理工大學 農業與食品學院,昆明 650500;4.河海大學 水文水資源學院,南京 210098)
【】提高機器學習模型模擬參考作物蒸散量在江西省適應性和精度。基于江西南昌等15個氣象站2001—2015年日值氣象數據(最高氣溫、最低氣溫、地表輻射、大氣頂層輻射、相對濕度和2 m高風速),以FAO-56 Penman-Monteith(P-M)公式的計算結果作為對照,建立了計算0的高斯過程回歸(GPR)、極限梯度提升(XGBoost)和梯度提升決策樹(CatBoost)模型,并分別與經驗模型進行比較。各氣象參數對機器學習模型模擬0的精度影響由大到小依次為:s、max和min、、2,且采用max、min、s和氣象參數組合的機器學習模型(0.2 mm/d)模擬0精度高。此外,3種機器學習模型在有限的氣象數據時具有較好的適用性,且優于傳統經驗模型,其中GPR和CatBoost模型的預測精度高,但GPR模型穩定性最好。考慮到所研究模型調參的復雜性、預測精度和穩定性,GPR模型可作為江西地區參考作物蒸散量模擬的推薦方法。
參考作物蒸散量;高斯過程回歸;極限提升增強;梯度提升決策樹;經驗模型
【研究意義】作物需水量是農田土壤水分循環的關鍵因子,對水資源優化配置和灌溉制度的制定有重要意義,而計算作物需水量的關鍵是確定參考作物蒸散量(0)[1]。【研究進展】國內外通常將FAO-56 Penman-Monteith(P-M)作為估算0的標準方法[2],而P-M法需要的氣象數據完整性高,多數氣象觀測數據無法達到該方法要求,使得P-M法的應用受到一定程度的限制,于是利用有限氣象數據的經驗法就得到了廣泛應用,如基于輻射的Irmak法[3]和Makkink法[4]等。張倩等[5]比較了基于輻射和溫度等9種方法在新鄉的適用性,發現輻射法中Irmak模型的精度高于溫度法。胡興波等[6]在青海高寒地區發現Makkink法可直接用于計算極端干旱區以外的0。
近年來,神經網絡方法[7]、支持向量機[8]、基因表達式編程[9]和隨機森林[10]以及各種優化模型(蝙蝠算法優化極限學習機[11]和極限學習機優化遺傳算法[12]等)由于輸入參數組合靈活以及精度優于經驗模型而得到廣泛研究,并且在某些特定區域具有更高的精度[9-10]。【切入點】江西地處我國華東地區,水熱資源豐富,但由于經常旱澇急轉嚴重制約了作物的高產穩產。此外,江西不同區域氣候差異較大,但具有長系列氣象觀測資料的氣象站點卻匱乏,無法滿足農業生產對氣象資料的需要。因此,確定適宜的0計算方法極其重要。而大多數學者運用機器學習模擬0時,以模型預測精度為研究對象較多[7-9],而綜合考慮其精度和穩定性[13]的比較研究在江西地區還缺乏報道。
【擬解決的關鍵問題】為此,以FAO-56 P-M計算的0結果為對照,建立基于有限的氣象數據的3種機器學習模型(GPR、XGBoost和CatBoost),分析不同氣象要素對江西地區0預測精度的影響和穩定性;并將機器學習模型與Irmak和Makkink模型進行比較,評估機器學習模型的精度和穩定性,以便篩選出氣象數據不足條件下江西地區最適宜的0估算替代方法,以期為江西地區灌溉制度制定和水資源優化配置提供科學指導。
江西省(24°29′—30°04′N,113°34′—118°28′E)位于長江中下游地區,屬中亞熱帶濕潤季風氣候,全省多年年均氣溫為16.3~19.5 ℃,且一般自北向南遞增。省內降水豐沛,主要集中在4—9月,多年平均降水量1 341~1 940 mm。降水的季節性變化大,汛期河水暴漲,易泛濫成災。
選取江西省修水、宜春、吉安、遂川、贛縣、廬山、鄱陽、景德鎮、南昌、樟樹、貴溪、玉山、南城、廣昌、尋烏15個氣象站2001—2015年的地面觀測數據中的日值數據集(包括最高氣溫(max)、最低氣溫(min)、相對濕度()、2 m高風速(2)、大氣頂層輻射(a)、地表輻射(s))。其中2001—2010年用于訓練,2011—2015年用于驗證。
1.3.1 FAO-56 Penman-Monteith模型
FAO-56 Penman-Monteith(P-M)公式被聯合國糧農組織推薦為最適宜估算參考作物蒸散量的方法[2],其具體表達式為:

式中:0為參考作物蒸散量;n為地表凈輻射;為土壤熱通量密度;為2 m高處的平均氣溫;2為2 m高處的風速;s和a分別為飽和水汽壓和實際水汽壓;為蒸汽壓曲線的斜率;為溫度計常數。
1.3.2 高斯過程回歸模型
給定訓練集={(x,y)|=1,2,…},其中為維輸入向量,為輸出的標量,為訓練樣本數,輸入矩陣為×列的向量,為目標輸出,因此記為=(,)。高斯過程回歸模型(GPR)是給定輸入向量時確定目標輸出的聯合高斯分布,由均值函數()和協方差函數(,')[14]給出:

1.3.3 極端梯度提升模型
極端梯度提升(XGBoost)是由Chen和Guestrin[15]于2016年提出的一個梯度增強機(GBMs)的新型算法。XGBoost模型旨在防止過度擬合,同時通過簡化和正則化使預測保持最佳計算效率而降低計算成本。XGBoost算法源于“提升”的概念,它結合了一組弱學習者的所有預測,通過特殊訓練培養強學習者。其計算式為:
, (3)
式中:f(x)為步驟的學習者;f(t)和f1是步驟為和1;x是輸入變量。
1.3.4 梯度提升決策樹模型
梯度提升決策樹(CatBoost)是一種新的梯度提升決策樹(GBDT)算法[16]。它成功地處理了分類特征,并利用訓練過程中對分類特征處理,而不是預處理。該算法的另一個優點是它在選擇樹結構時用新模式計算葉值,這有助于減少過度擬合并允許使用整個訓練數據集,即對每個示例數據集進行隨機排列并計算該示例的平均值。該方法對于回歸任務,需要將獲取的數據平均值用于先驗計算。

式中:為先驗值;參數是先驗值的權重。
本研究使用了3個常用的統計指標,分別為平均絕對誤差()、均方根誤差()和決定系數(2)。
表1為3種機器學習模型不同輸入組合下的預測0的性能評估結果。由表1可知,對于訓練期,組合1~9的模型精度表現為XGBoost>CatBoost>GPR,而組合10表現為CatBoost>XGBoost>GPR。在驗證期,由于多數組合的和的誤差都在2.7%以內,故CatBoost和GPR模型具有相似的精度,整體上CatBoost和GPR模型預測0的精度比XGBoost模型高。
合理的輸入參數組合對模型模擬的精度有顯著提高,如采用max、min、s、,max、min、s、2和max、min、s作為輸入參數的模型比采用max、min、a、,max、min、a、2和max、min、a模型模擬的效果好,這表明s比a對模型模擬效果影響大。另外,模型9和模型10的性能優于模型8,表明、2對模型模擬的精度有一定的影響。余下組合則展示s對于預測0的影響最大,max/min次之,2最小。在驗證期,模型CatBoost10的和的值是最低的,2最高(2=0.998,=0.073 mm/d,=0.050 mm/d),與上述情況一致。因此考慮到組合8僅有溫度和地表輻射資料就可獲得較高的模擬精度,推薦模型8作為該地區0適宜模型。

表1 GPR、XGBoost和CatBoost模型的平均統計指標
本研究通過分析2的大小比較3種機器學習模型的差異(表1),可得,GPR模型中有5個組合預測0的2最高,其中組合max、min、R、U的最高2為0.987;XGBoost模型有3個組合預測0的2最高,這些組合包含s、、2,而最高2為0.943;CatBoost模型含有風速時預測0的2最高,其2為0.998。此外,有5個組合預測0的2排在第2位。總體上看,在驗證期中,XGBoost模型2排序最大,排第3位,CatBoost模型排第2位,而GPR模型2的排序最小,排第1位。
由表1加粗字體可知,在訓練期,總體上XGBoost模型優于GPR和CatBoost模型,然而驗證期,GPR模型卻優于CatBoost和XGBoost模型。通過分析機器學習模型驗證期相對訓練期的平均及其百分比(表2)可知:對于3種機器學習模型,XGBoost模型驗證期平均的百分比在各個組合均最大,其最大百分比是193.4%;而GPR模型其百分比增長幅度最小,都在8%以內;對于CatBoost模型,在前5個組合中,其百分比在10%以內,而后5個組合中其介于20%~41%之間,說明GPR模型模擬時穩定性最好,其次是CatBoost模型,而XGBoost模型最差。
表2 機器學習模型驗證期相對訓練期的平均及其百分比

Table 2 The average RMSE and percentage of machine learning models during the texting period relative to the training period

表3 經驗模型和機器學習模型的平均統計指標
本研究分析了經驗模型與相同輸入參數的機器學習模型預測0的平均統計指標(表3),可得機器學習模型的精度都高于經驗模型。在max、min和s的輸入組合下,Irmak模型預測精度最低(驗證期2=0.922,=0.430 mm/d,=0.342 mm/d),而GPR8模型預測精度最高(驗證期2=0.966,=0.277 mm/d,=0.205 mm/d);在max、min、s和的輸入組合下,驗證期中Makkink模型預測0的精度最低(2=0.931,=0.440 mm/d,=0.333 mm/d)。
輸入氣象參數組合方式是機器學習模型預測高精度的0的關鍵因子。本研究中,當使用相對濕度和風速時,機器學習模型的模擬值與世界糧農組織推薦的標準方法[2]計算值偏差最大,然而使用溫度(max/min)和輻射數據時,機器學習模型的模擬值精度高,與Fan等[10]和Feng等[17]在亞熱帶季風性濕潤地區基于溫度和地表輻射的機器學習模型預測0的精度高和基于溫度和大氣頂層輻射模擬精度較高的結果一致。主要是因為在作物生長過程中,太陽輻射和溫度是不可替代的關鍵因素。當使用組合max、min、s、2時,2與s的耦合作用對CatBoost模型預測精度影響巨大,具體出現的原因還有待進一步研究。此外,模型預測精度隨著輸入氣象參數個數增加而提高,與前人研究[18-20]結果一致。
本研究GPR模型在驗證期預測0的精度高。Holman等[14]發現,在高原地區高斯過程比最小二乘回歸的精度高。Karbasi等[21]研究表明:GPR模型隨著使用時間序列的增長其預測的精度越高,但具體能否在江西地區獲得相同的結果,還有待進一步驗證。Jhaveri等[22]在其他領域也應用CatBoost和XGBoost模型,由于XGBoost模型存在過度擬合的問題,故XGBoost模型精度較差。Huang等[23]發現,由于CatBoost模型是將該模型獲得最佳的訓練精度來獲得最優結果,故CatBoost模型的精度較高,但本研究中GPR和CatBoost模型在max、min、s、的組合下和的誤差都在0.9%以內,當輸入3個參數時,和的誤差都在2.7%內而輸入1個參數的和的誤差都在0.7%內,表明GPR模型模擬江西地區0的精度高。
機器學習模型的穩定性是預測0時需要考慮的關鍵因素。研究表明,在機器學習模型中,XGBoost模型驗證期相對訓練期的百分比增長最大,其次是CatBoost模型,GPR模型可能是因為能夠處理非線性關系使其增長最小,但具體原因還有待后續研究。此結果揭示了XGBoost模型極不穩定,且隨著使用氣象參數個數的增加,XGBoost模型預測穩定性出現顯著下降,與Fan等[24]利用XGBoost模型預測太陽輻射時,驗證期增長幅度比其他模型大,而CatBoost模型對早期預測不正確的點賦予額外的權重后進行加權預測使CatBoost模型的百分比增加幅度比XGBoost模型小的結果一致。
機器學習模型提高了江西地區參考作物蒸散量的精度,且各氣象要素對機器學習模型模擬效果的影響由大到小依次為:s、max/min、、2。
使用max、min和s作為輸入組合的GPR模型,驗證期2=0.966,=0.277 mm/d,=0.205 mm/d,為江西地區適宜的參考作物蒸散量模型。
[1] MEHDIZADEH S. Estimation of daily reference evapotranspiration (0) using artificial intelligence methods: Offering a new approach for lagged0data-based modeling [J]. Journal of Hydrology, 2018, 559: 794-812.
[2] ALLEN R G, PEREIRA L S, RAES D, et al. Crop evapotranspiration (guidelines for computing crop water requirements) [M]. Rome: FAO, 1998.
[3] IRMAK S, IRMAK A, ALLEN R G, et al. Solar and net radiation-based equations to estimate reference evapotranspiration in humid climates[J]. Journal of Irrigation and Drainage Engineering, 2003, 129(5): 336-347.
[4] MAKKINK G F. Testing the Penman formula by means of lysimeters [J]. Journal of the Instition of Water Engineers, 1957, 11(3): 277-288.
[5] 張倩, 段愛旺, 高陽, 等. 基于溫度資料估算參考作物騰發量的方法比較[J]. 農業機械學報, 2015, 46(2): 104-109.
ZHANG Qian, DUAN Aiwang, GAO Yang, et al. Comparative analysis of reference evapotranspiration estimation methods using temperature data [J]. Transactions of the Chinese Society for Agricultural Machinery, 2015, 46(2): 104-109.
[6] 胡興波, 蘆新建, 董梅, 等. 簡化參照作物蒸散量(0)計算公式在青海省高寒區的適用性分析[J]. 西北農林科技大學學報(自然科學版), 2013, 41(11): 201-208.
HU Xingbo, LU Xinjian, DONG Mei, et al. Applicability of simplified reference crop evapotranspiration equations in high altitude and cold area of Qinghai Province[J]. Journal of Northwest A & F University (Natural Science Edition), 2013, 41(11): 201-208.
[7] 趙文剛, 馬孝義, 劉曉群, 等. 基于神經網絡算法的廣東省典型代表站點0簡化計算模型研究[J]. 灌溉排水學報, 2019, 38(5): 91-99.
ZHAO Wengang, MA Xiaoyi, LIU Xiaoqun, et al. Using neural network model to simplify0calculation for representative stations in Guangdong Province[J]. Journal of Irrigation and Drainage, 2019, 38(5): 91-99.
[8] YAO Y J, LIANG S L, LI X L, et al. Improving global terrestrial evapotranspiration estimation using support vector machine by integrating three process-based algorithms[J]. Agricultural and Forest Meteorology, 2017, 242: 55-74.
[9] WANG S, FU Z Y, CHEN H S, et al. Modeling daily reference ET in the Karst area of northwest Guangxi (China) using gene expression programming (GEP) and artificial neural network (ANN)[J]. Theoretical and Applied Climatology, 2016, 126(3): 493-504.
[10] FAN J L, YUE W J, WU L F, et al. Evaluation of SVM, ELM and four tree-based ensemble models for predicting daily reference evapotranspiration using limited meteorological data in different climates of China[J]. Agricultural and Forest Meteorology, 2018, 263: 225-241.
[11] DONG J H, WU L F, LIU X G, et al. Estimation of daily dew point temperature by using bat algorithm optimization based extreme learning machine[J]. Applied Thermal Engineering, 2020, 165: 114569.
[12] WU L F, ZHOU H M, MA X, et al. Daily reference evapotranspiration prediction based on hybridized extreme learning machine model with bio-inspired optimization algorithms: Application in contrasting climates of China[J]. Journal of Hydrology, 2019, 577: 123960.
[13] HASSAN M A, KHALIL A, KASEB S, et al. Exploring the potential of tree-based ensemble methods in solar radiation modeling[J]. Applied Energy, 2017, 203: 897-916.
[14] HOLMAN D, SRIDHARAN M, GOWDA P H, et al. Gaussian process models for reference ET estimation from alternative meteorological data sources[J]. Journal of Hydrology, 2014, 32: 28-35.
[15] CHEN T, GUESTRIN C. Xgboost: A scalable tree boosting system. In Proceedings of the 22nd acmsigkdd international conference on knowledge discovery and data mining [EB/OL], 2016(8): 785-794.
[16] DOROGUSH A V, ERSHOV V, GULIN A. CatBoost: gradient boosting with categorical features support [EB/OL]. 2018: arXiv: 1810.11363[cs.LG]. https://arxiv.org/abs/1810.11363
[17] FENG Y, PENG Y, CUI N B, et al. Modeling reference evapotranspiration using extreme learning machine and generalized regression neural network only with temperature data[J]. Computers and Electronics in Agriculture, 2017, 136: 71-78.
[18] TORRES A F, WALKER W R, MCKEE M. Forecasting daily potential evapotranspiration using machine learning and limited climatic data[J]. Agricultural Water Management, 2011, 98(4): 553-562.
[19] TABARI H, KISI O, EZANI A, et al. SVM, ANFIS, regression and climate based models for reference evapotranspiration modeling using limited climatic data in a semi-arid highland environment[J]. Journal of Hydrology, 2012, 444: 78-89.
[20] ANTONOPOULOS V Z, ANTONOPOULOS A V. Daily reference evapotranspiration estimates by artificial neural networks technique and empirical equations using limited input climate variables[J]. Computers and Electronics in Agriculture, 2017, 132: 86-96.
[21] KARBASI M. Forecasting of multi-step ahead reference evapotranspiration using wavelet- Gaussian process regression model[J]. Water Resources Management, 2018, 32(3): 1 035-1 052.
[22] JHAVERI S, KHEDKAR I, KANTHARIA Y, et al. Success Prediction using Random Forest, CatBoost, XGBoost and AdaBoost for Kickstarter Campaigns[C]//2019 3rd International Conference on Computing Methodologies and Communication (ICCMC). IEEE, 2019(2): 1 170-1 173.
[23] HUANG G M, WU L F, MA X, et al. Evaluation of CatBoost method for prediction of reference evapotranspiration in humid regions[J]. Journal of Hydrology, 2019, 574: 1 029-1 041.
[24] FAN J L, WU L F, MA X, et al. Hybrid support vector machines with heuristic algorithms for prediction of daily diffuse solar radiation in air-polluted regions[J]. Renewable Energy, 2020, 145: 2 034-2 045.
Comparing the Performance of GPR, XGBoost and CatBoost Models for Calculating Reference Crop Evapotranspiration in Jiangxi Province
LIU Xiaoqiang1,2, DAI Zhiguang1, WU Lifeng1*, ZHANG Fucang2, DONG Jianhua3, CHEN Zhiyue4
(1.College of water conservancy and ecological engineering, Nanchang Institute of Technology, Nanchang 330099, China; 2. Key Laboratory of Agricultural Soil and Water Engineering in Arid and Semiarid Areas, Ministry of Education, Northwest A&F University, Yangling 712100, China; 3. Faculty of Agriculture and Food, Kunming University of Science and Technology,Kunming 650500, China; 4. College of Hydrology and Water Resources, Hohai University, Nanjing 210098, China)
【】Alternate drought and waterlogging increasingly occurring in Jiangxi province means that rational irrigation strategies are required to safeguard its agricultural production.【】The objective of this paper is to select a suitable machine learning model to calculate reference crop evapotranspiration across the province.【】Meteorological data - including daily maximum (max) and minimum (min) ambient temperature, global solar radiation, extra-terrestrial solar radiation(s), relative humidity (RH) and 2m-height wind speed (U2) - were measured from 2001 to 2015 at 15 stations across the province; they were then used to train and test three models: Thegaussian process regression (GPR), the extreme gradient boosting (XGBoost), and the gradient boosting with categorical features support (CatBoost). We compared accuracy with empirical model for estimating the reference evapotranspiration.【】The meteorological factors that impacted the accuracy of the machine learning model for estimating0was ranked in the descending order as follows based on their significance:s>max>min>>2. Models usingmax,min,sand2gave the most accurate0estimate with0.2 mm/d. All three models have a good applicability by using limited meteorological data, and are superior to the traditional empirical model. In particular, GPR and CatBoost were more accurate, and GPR was most stable.【】In terms of complexity, accuracy and stability, GPR was the most suitable model for estimating reference crop evapotranspiration in Jiangxi province.
reference crop evapotranspiration; gaussian process regression; extreme gradient boosting; gradient boosting with categorical features support; empirical model
S274.1;S274.4
A
10.13522/j.cnki.ggps.2020056
1672 - 3317(2021)01 - 0091 - 06
2020-02-10
江西省教育廳研究項目青年基金項目(GJJ180952);江西省科技廳自然科學基金項目(20171BAB216051)
劉小強(1995-),男,江西進賢人。碩士研究生,主要從事節水灌溉理論與技術研究。E-mail: liuxiaoqiangyx@163.com
吳立峰(1985-),男,黑龍江阿城人。講師,博士,研究方向為節水灌溉理論與技術研究。E-mail: china.sw@163.com
劉小強, 代智光, 吳立峰, 等. GPR?XGBoost和CatBoost模擬江西地區參考作物蒸散量的適應性研究[J]. 灌溉排水學報, 2021, 40(1): 91-96.
LIU Xiaoqiang, DAI Zhiguang, WU Lifeng, et al. Comparing the Performance of GPR, XGBoost and CatBoost Models for Calculating Reference Crop Evapotranspiration in Jiangxi Province[J]. Journal of Irrigation and Drainage, 2021, 40(1): 91-96.
責任編輯:韓 洋