赫迪,胡鵬程,王靖,王良,房世波
(1. 中國氣象科學研究院災害天氣國家重點實驗室,北京 100082;2. 澳大利亞昆士蘭大學農業與食品科學學院,布里斯班 QLD4067;3. 中國農業大學資源與環境學院,北京 100193;4. 山東省農業科學院,山東 濟南 250100)
食用油供給安全是我國糧食安全戰略的重要組成部分,當前國內食用油市場需求不斷增長,然而我國油料作物的單產和種植面積卻一直徘徊不前[1-4],食用油自給率低于30%[5],食用油供給形勢嚴峻。 油菜是我國第二大油料作物,除了用于高品質的食用油生產外,也正被廣泛應用于生物能源等工業用油領域[6-9],因此發展油菜生產對保障我國食用油供給安全有重要意義。
長江流域是我國油菜的優勢主產區,其冬油菜種植主要以水稻-油菜輪作形式利用冬季閑田進行,不影響其他主糧作物的生產。 長江流域可擴大利用的油菜種植面積近399 萬hm2[10-11],還有很大的發展空間。 定量評估長江流域冬油菜產量潛力分布特征,明確油菜優勢產區,對如何擴大推廣冬油菜在長江流域的種植有重要指導作用。
相比于傳統的光溫生產潛力和氣候生產潛力逐級訂正法,作物生長模型APSIM 可以在逐日尺度上考慮作物生長與各環境因子的關系,從而更準確地獲得作物的潛在產量,現已被廣泛應用于小麥、玉米、油菜、馬鈴薯等的產量評估[12-17],但由于模型運行需要的參數和輸入量較多,大范圍應用受到限制。 機器學習近年來被廣泛應用于農業領域[18],利用作物模型的輸入和輸出變量,構建機器學習模型反演作物模型的模擬結果,可簡化作物模型的輸入需求并提高計算效率。
本研究以長江流域冬油菜產區為研究區,將作物生長模型APSIM 和機器學習技術結合,建立油菜產量潛力預測模型,利用該模型評估長江流域縣級冬油菜產量潛力,并對產量潛力的空間分布特征進行分析,同時結合縣級產量的歷史統計數據定量當前不同產量潛力區域的產量差,以期為擴大長江流域冬油菜生產提供科學指導。
長江流域指長江干流和支流流經的廣大區域,位于東經90°33'~122°25'、北緯24°30'~35°45'之間,氣候主要受副熱帶季風環流影響,以濕潤的亞熱帶季風氣候為主。 長江流域冬油菜的主要種植區分布于長江中下游地區,以水稻-油菜輪作為主,冬油菜秋季播種,次年春季收獲[19]。本研究選取長江中下游地區的玉溪、樂山、江口、長沙、武漢和南京6 個代表站點(表1),收集油菜生長發育、田間管理、生物量和產量數據;其氣象數據來源于中國氣象局科學數據共享網,包括各個試驗站點試驗年份及1961—2010 年的逐日氣象資料。 氣象要素包括平均氣溫、最高氣溫、最低氣溫、降水量、日照時數、平均風速,逐日太陽總輻射值由日照時數根據Angstrom 公式計算獲得。

表1 各站點的地理信息、氣候特征及油菜品種
縣域尺度的氣象資料(1985—2021 年)來自于美國航天航空局(NASA)的Prediction of Worldwide Energy Resource(POWER)數據庫(https:/ /power.larc.nasa.gov/),氣象要素包括最高氣溫、最低氣溫、降水量、太陽總輻射。
作物生長模型APSIM(Agricultural Production Systems sIMulator)可以逐日模擬溫度、光周期、輻射、土壤水分和氮素水平的變化對作物的發育過程、生長過程以及籽粒產量的影響,目前已廣泛應用于農業生產系統管理、氣候變化影響評估和產量潛力評估等研究中。 APSIM 的油菜模擬模塊(APSIM-Canola)對油菜的發育期模擬主要由積溫驅動,考慮了春化作用和光周期對開花的影響;生物量的積累主要根據冠層截獲的太陽輻射量和光能利用率計算,并考慮每天的溫度、水分和氮素對生物量積累的影響;籽粒產量是利用動態收獲指數進行模擬,在灌漿階段,收獲指數線性增加。APSIM-Canola 在中國的適用性和參數化過程已經得到充分的驗證和分析[14,20-21],模型中影響油菜發育期、生物量和產量的重要參數包括春化敏感性、光周期敏感性、灌漿周期、光能利用效率和最大收獲指數。
模型參數優化選擇了全局優化的方法,即首先根據參數范圍,基于參數在范圍內是均勻分布的假設生成全部的參數組合,即為目標函數的可能解,然后從中選取使目標函數最小的參數組合,即為目標函數的最優解。 本研究選取均方根誤差(RMSE)和標準均方根誤差(NRMSE)作為目標函數對模型模擬結果進行評價,計算方法如下:
其中,Oi和Si是相對應的觀測值和模擬值是觀測值的平均值,n 是觀測樣本的數量。
產量潛力預測模型的構建主要分為兩步,首先利用APSIM 模型在代表站點進行多年(1961—2010 年)無肥力脅迫的產量潛力模擬,并統計每年的關鍵氣象信息,包括生長季(10—12 月、次年1—5 月)及逐月的平均太陽輻射、最低氣溫、最高氣溫、總降雨量,獲得長期多點位的氣象和產量數據集;然后將全部數據的80%作為訓練集、20%作為驗證集,利用訓練集的資料進行機器學習模型的訓練。 將數據集中的氣象資料作為輸入值、產量數據作為輸出值,利用機器學習算法訓練機器學習模型,訓練過程中用10-fold 交差驗證的方法對模型進行調參,最后用驗證集的數據對機器學習模型進行驗證。 本研究通過比較3 種常用的機器學習算法——神經網絡(kNN)、支持向量機(SVM)和隨機森林(Random Forest),最終選用建模效果最好的隨機森林算法進行建模。 機器學習模型的訓練全部在R 語言程序中調用caret 程序包實現。
利用訓練好的機器學習模型和縣域尺度的氣象資料(1985—2021 年)對長江流域近37 年的油菜潛在產量進行預測,并對其多年平均產量的區域特征進行分析,分析由R 語言程序中的sf 程序包實現。 對有觀測資料記錄的縣級油菜產量(2008—2012 年)進行提取,并與預測的潛在產量對比分析,明確當前長江流域油菜產量差的分布特征。
通過全局優化的方法進行模型參數調試后,APSIM-Canola 模型可以準確模擬6 個代表性站點7 個油菜品種在不同播期和密度種植條件下的發育期、生物量和產量(圖1)。 其中,對開花期和成熟期的模擬誤差分別為2.4 d 和5.1 d,相對誤差分別為1.7%和2.4%;對生物量和產量的模擬誤差分別為2 168.6 kg/hm2和332 kg/hm2,相對誤差分別為20.6%和14.3%。 可見,生物量的模擬誤差略高,這主要由生物量的測量誤差較高及部分試驗的生物量是由產量和收獲指數轉換獲得而造成。

圖1 APSIM-Canola 模型對6 個站點油菜發育期、生物量和產量的實測值與模擬值比較
機器學習模擬可以準確復現APSIM-Canola模型在6 個代表站點的長期模擬結果。 驗證數據集的驗證結果(圖2)顯示,隨機森林模型可以解釋81% 的產量潛力變異, 模擬誤差為475 kg/hm2,相對誤差為16.4%。 該結果與APSIMCanola 模型對觀測數據的模擬精度接近,進一步說明機器學習模型可以用于大區域產量潛力的預測。

圖2 隨機森林模型對APSIM-Canola 模型模擬的油菜產量潛力的復現和驗證
機器學習建模過程中,通過對輸入因子的重要性進行分析,最終選取6 個預測變量進行建模,包括生長季(10 月—次年5 月)的平均最高溫度、平均最低溫度、降雨量及7 月平均最低溫度、1 月平均最高溫度和2 月平均太陽輻射。 在縣域尺度上,利用上述6 個變量和隨機森林模型即可對每年的油菜產量潛力進行預測。
1985—2021 年長江流域冬油菜平均產量潛力分布特征如圖3 所示。 冬油菜潛在產量分布大致呈西南低、東北高的趨勢,平均產量潛力變化范圍在1 000~4 000 kg/hm2之間。 云南地區的平均潛在產量僅有1 000 ~1 500 kg/hm2,這可能是因為本研究模擬的潛在產量為雨養潛在產量,該地區潛在產量較低可能與西南地區季節性干旱有關。 江蘇、安徽、湖北、重慶大部分地區及江西、湖南、貴州的北部地區為冬油菜的主要優勢產區,多年平均潛在產量均可達到3 000 kg/hm2以上。

圖3 1985—2021 年長江流域縣級冬油菜平均潛在產量空間分布特征
2008—2012 年平均的縣級統計資料顯示,統計產量的空間分布特征與潛在產量的分布特征基本一致,也呈北高南低、西低東高的趨勢,進一步說明了機器學習模型預測的潛在產量分布的合理性。 產量差的分布特征則與統計產量和潛在產量不同,在江蘇大部分地區、安徽和湖北北部、四川大部分地區、云貴高原地區,油菜產量差大多低于1 000 kg/hm2,說明這些地區的品種選擇和農田管理均接近產量最優水平,進一步的產量提高需要優化品種選育。 而在江西、湖南大部分地區及安徽和湖北北部,產量差可達2 000 kg/hm2,縣級統計產量僅有潛在產量的50%左右,有很大的產量提升空間(圖4)。

圖4 2008—2012 年長江流域縣級冬油菜平均統計產量、潛在產量和產量差空間分布特征
目前我國長江流域適于油菜種植的冬閑田約有778 萬hm2[11],明確長江流域的油菜優勢產區及產量差的分布特征,可以科學指導和推廣該區域的油菜種植。 本研究結果表明長江中下游的冬油菜潛在產量有很大的區域性差異,長江中下游北部區域有更高的產量潛力,多年平均潛在產量可達3 000 ~4 000 kg/hm2。 張智[22]的研究表明長江流域冬油菜的實際產量、試驗產量、可獲得產量、潛在產量分別為1 810、2 437、3 702、3 996 kg/hm2,與本研究結果基本一致。 而Tian 等[11]利用改進后的農業生態區域模型(AEZ)分析的長江流域油菜潛在產量分布則與本研究結果有所差異,其研究指出該流域油菜的潛在產量高值區主要分布在四川、云南及江西和湖南南部,與實際的縣級統計產量分布有所差異。 叢日環等[23]對長江流域與油菜產量相關的氣候因子的分析研究發現,AEZ 模型獲得的潛在產量分布特征與長江流域大于等于0 ℃積溫的分布模式十分接近;進一步研究表明,長江上游和下游地區大于等于0 ℃積溫與油菜產量并無顯著相關關系,但在中游地區呈負相關關系。 這可能是由于長江流域日照時數和太陽輻射相對充足,太陽輻射不是油菜生長的限制因子。 AEZ 模型是根據聯合國農糧組織(FAO)和國際應用系統分析研究所(IIASA)基于中國1961 年以來的統計資料共同開發的大尺度統計模型,其模擬結果可能更接近傳統的光照、溫度、水分逐級訂正的生產潛力計算結果。 而本研究預測的長江流域油菜潛在產量分布可能與實際情況更為接近。
本研究根據隨機森林算法篩選出6 個用于估測油菜潛在產量的因子,篩選過程中發現生長季最高溫度、1 月份最高溫度和2 月份太陽輻射均與潛在產量呈負相關關系,而生長季降水量和7月份最低氣溫呈正相關關系。 這與前人研究結果基本一致,如張皓等[24]研究發現長江流域冬油菜產量與蕾薹期和花期的溫度呈顯著負相關關系。值得注意的是,油菜在長江流域的生長季節為10月到次年5 月,而7 月份的平均最低氣溫在不同的機器學習算法中均被篩選為關鍵因子,相關分析結果也顯示7 月份的平均最低氣溫和油菜潛在產量的相關系數高達0.85。 進一步分析發現,7月的平均最低氣溫與其他關鍵因子如生長季降雨、最高氣溫、1 月最高氣溫和2 月的太陽輻射均有顯著的相關關系,相關系數分別為0.54、-0.80、-0.74 和-0.74,不同時間段氣象因子間的相互關系,可能與天氣系統的相互作用有關。
本研究結果顯示,長江中下游的冬油菜優勢產區主要分布于江蘇、安徽、湖北、重慶大部分地區及江西、湖南、貴州的北部地區,油菜多年平均潛在產量可達3 000 kg/hm2以上。 目前長江中游二熟區和三熟區油菜種植面積最為廣泛,共計375.6 萬hm2,而長江下游油菜種植面積相對較低,為66.13 萬hm2[23]。 長江中下游冬閑田的遙感監測顯示,當前長江中下游農業區冬閑田面積仍占總耕地面積的45%左右,冬閑田主要集中于長江中下游北部,其中湖北、湖南和江蘇是冬閑田分布面積最多的省份[10]。 結合本研究結果,建議在這些地區推廣冬油菜種植,充分利用冬閑田,提高油菜總產量。 同時,在湖南、江西、湖北和安徽的北部,當前產量與潛在產量的產量差仍在2 000 kg/hm2,縣級統計產量僅為潛在產量的50%左右,建議在這些地區進一步開展油菜種植技術的推廣,如水氮管理、播期調控和病蟲害防控等[24-27],以提高油菜產量。
長江流域是我國冬油菜種植的優勢產區,油菜潛在產量變化范圍在1 000~4 000 kg/hm2之間,分布呈北高南低、西低東高的趨勢。 江蘇、安徽、湖北、重慶大部分地區及江西、湖南、貴州的北部地區,油菜多年平均潛在產量可達3 000 kg/hm2以上,是長江流域的優勢產區,應重點推廣冬油菜種植,充分利用這些地區的冬季閑田。 與實際統計產量比較,油菜產量差在江西、湖南大部分地區及安徽和湖北北部可達2 000 kg/hm2,縣級統計產量僅有潛在產量的50%左右,仍有很大的產量提升空間,在這些地區應進一步推廣高效的油菜種植技術,提高油菜的實際產量。 而在產量差較低的江蘇大部分地區、安徽和湖北北部、四川大部分地區、云貴高原地區,應考慮通過選育適宜的高產品種進一步提升產量潛力。