基于等距拆分和隨機森林算法的皖北小麥始花期氣象預(yù)報

2023-06-20 00:51:22樂章燕陳文濤史錫軍馬嘉煒邱虎森

麥類作物學(xué)報 2023年6期

關(guān)鍵詞：特征模型

李德,樂章燕,陳文濤,史錫軍,馬嘉煒,陳偉,孫朋,邱虎森

(1.安徽省宿州市氣象局,安徽宿州 234000;2.河北省廊坊市氣象局,河北廊坊 0650002;3.宿州學(xué)院環(huán)境與測繪工程學(xué)院,安徽宿州 234000)

小麥赤霉病是世界范圍內(nèi)廣泛流行的小麥病害,具有暴發(fā)性強、抗病育種難度大、防治適期時效性強、危害損失重等特點[1-3]。隨著全球氣候變暖和耕作方式的改變,小麥赤霉病的發(fā)生危害面積和頻次不斷增加。在中國小麥主產(chǎn)區(qū)的黃淮麥區(qū),赤霉病也已成為常發(fā)病害[2-4]?！耙娀ù蛩?統(tǒng)防統(tǒng)控”是當前赤霉病防控工作的黃金法則[3-6],其關(guān)鍵是提前對小麥開花日期進行準確預(yù)報,從而為藥劑藥械、人力調(diào)度等提供決策依據(jù)。

目前,諸如小麥開花期、成熟期等作物物候預(yù)報問題一直受到學(xué)者的關(guān)注。統(tǒng)計模型、過程機理模型和理論模型[7-8]是物候預(yù)報的傳統(tǒng)方法,但均存在不足,如統(tǒng)計模型未考慮影響因子之間的非線性關(guān)系[7,9]、過程機理模型的機理研究不清且參數(shù)多[10-11]、以遙感數(shù)據(jù)驅(qū)動的理論模型[7-8]在研判閾值上存在不確定性[12-16]等。機器學(xué)習(xí)算法由于在理解和預(yù)測生物系統(tǒng)和非生物系統(tǒng)間復(fù)雜的相互作用方面具有優(yōu)勢,且不要求樣本數(shù)據(jù)具有特定的分布形式,能智能分析數(shù)據(jù)規(guī)律并利用其進行預(yù)測[7-9,17],特別是隨機森林算法(RF,random forest),近年來已在玉米物候識別[18]與葉綠素濃度估算[19]、梨樹花期[9]、天氣類型與氣象要素[20-24]、森林火災(zāi)[19]、空氣質(zhì)量[26]、小麥產(chǎn)量[27]和赤霉病病穗率預(yù)測[28]等許多領(lǐng)域得到應(yīng)用并取得較好預(yù)測效果。然而,目前這方面的研究在訓(xùn)練模型時,多采用從基礎(chǔ)數(shù)據(jù)集中隨機抽取樣本[9,19-21,25],或?qū)⑷繕颖綶22-23,26]作為訓(xùn)練集,或直接采用Bootstrap法[24,27-28]訓(xùn)練模型,并未對樣本不均衡引起的過擬合問題進行關(guān)注[29-31]。同時,應(yīng)用RF算法進行作物物候預(yù)測的研究相對較少。本研究依據(jù)前人先驗知識,篩選影響皖北地區(qū)小麥始花期早遲的關(guān)鍵氣象因子作為特征變量,以小麥始花期為目標變量,采取有序等距離抽樣的拆分方法,構(gòu)造訓(xùn)練集與測試集,再根據(jù)不同起報時間,由RF算法訓(xùn)練構(gòu)建皖北地區(qū)小麥始花期氣象預(yù)報模型并實現(xiàn)始花期逐日預(yù)報,以期通過解決樣本不平衡問題,提升始花期預(yù)報精度,為小麥赤霉病精準防控提供技術(shù)支撐。

1 材料與方法

1.1 研究地概況

冬小麥是安徽省主要糧食作物之一,其中皖北地區(qū)常年種植面積140 萬 hm2以上,約占全省種植面積的70%,年總產(chǎn)量占全國總產(chǎn)量的8%左右[6,32]。皖北平原屬黃淮冬麥區(qū)[33],冬小麥適宜播種期間日平均氣溫15～18 ℃,越冬期間年平均氣溫0 ℃上下,極端最低氣溫不低于-20 ℃,越冬期凍害幾率低。冬小麥生育期間多年平均降水量為300 mm左右,≥0 ℃積溫2 300 ℃·d,日照時數(shù)約1 300 h。

1.2 數(shù)據(jù)來源

1980-2019年,皖北地區(qū)亳州、碭山、蒙城、宿州、阜陽、壽縣和五河7個農(nóng)業(yè)氣象觀測站的冬小麥始花期原位觀測地段的物候觀測數(shù)據(jù)和氣象監(jiān)測逐日實況數(shù)據(jù),均來自安徽省氣象信息中心,其中壽縣站和亳州站冬小麥始花期觀測分別開始于1983年和1985年,7個觀測站累計有小麥始花期樣本271個。觀測站點的冬小麥物候觀測地段與觀測植株選擇標準以及開花始期觀測方法,均按照《農(nóng)業(yè)氣象觀測規(guī)范(下卷)》[34]執(zhí)行。7個觀測站的冬小麥物候觀測期間對應(yīng)的逐日氣象監(jiān)測實況數(shù)據(jù)包括平均氣溫、最高氣溫、最低氣溫、降水量、日照時數(shù)等。

1.3 研究方法

1.3.1 等距拆分和RF算法的小麥始花期氣象預(yù)報模型構(gòu)建技術(shù)路線

依據(jù)影響冬小麥開花始期早遲的相關(guān)知識和研究成果,搜集基本氣象數(shù)據(jù)和小麥始花期數(shù)據(jù)。通過Pearson相關(guān)分析,篩選與小麥始花期相關(guān)程度較高的關(guān)鍵氣象因子作為特征變量并形成基本數(shù)據(jù)集。有序等距離抽樣拆分出測試集與訓(xùn)練集方法,即先把皖北地區(qū)7個觀測站點的冬小麥逐年始花期數(shù)據(jù),逐一按照由早到遲的順序進行排列,然后根據(jù)各站點的樣本量和所需要抽取用于測試的樣本量大小,確定抽取距離。例如40個樣本,抽取5個用于測試集,則抽取距離為8個間距,樣本點分別為8、16、24、32、40號位上的樣本,并由抽取的這5個樣本年份的小麥始花期數(shù)據(jù)及其對應(yīng)年份篩選出來的特征變量構(gòu)成測試集,剩下的始花期樣本及其對應(yīng)年份的特征變量則構(gòu)成訓(xùn)練集。按照不同的開始預(yù)報日期,基于RF算法,由訓(xùn)練集進行模型訓(xùn)練,并經(jīng)測試集進行預(yù)報模型精度評估。最后,利用評估后的預(yù)報模型開展小麥始花期氣象預(yù)報(具體技術(shù)路線見圖1)。

圖1 基于等距拆分和RF算法構(gòu)建小麥始花期氣象預(yù)報模型技術(shù)路線Fig.1 Technical route of meteorological forecast model of wheat initial flowering based on isometric sampling split method and random forest algorithm

圖2 不同界限溫度的積溫及累積日數(shù)與始花期之間相關(guān)系數(shù)Fig.2 Correlation coefficients between accumulated temperature,accumulated days and initial flowering at different threshold temperatures

1.3.2 隨機森林預(yù)報模型構(gòu)建

(1)特征變量與目標變量構(gòu)造:研究表明,小麥開花受到春化作用、光合周期反應(yīng)、熱效應(yīng)等環(huán)境因素和基本早熟性等生物因素的相互作用,且環(huán)境因素對物候影響更顯著,其中氣溫、日照時數(shù)等氣象要素是環(huán)境因素中最重要、最活躍的影響因子,尤其是每個物候期的開始日期與其前2～3個月的氣溫有顯著的相關(guān)關(guān)系[10,33,35-39]。本研究依據(jù)冬小麥的生物學(xué)特性[33,39],結(jié)合環(huán)境氣候特點和生產(chǎn)服務(wù)經(jīng)驗及相關(guān)研究成果[3,7-8,10,35-39],按照不遺漏可能影響開花的前期氣象因子,并兼顧所選預(yù)報因子距離實際開花始期有一定的提前量,以提升預(yù)報結(jié)果的實際應(yīng)用價值為原則,選取的氣象因子的終止日期為較常年始花期早10 d的4月15日,以選取更多的氣象因子。依據(jù)Pearson相關(guān)系數(shù),篩選出通過0.01信度水平檢驗的氣象因子,作為基本特征因子。同時,按照冬小麥越冬期、越冬至返青、返青至起身和起身至始花前4個時段進行特征因子篩選。

首先,篩選冬小麥越冬開始期(1月1日)至開始現(xiàn)花之前(4月10日)逐旬及其跨旬的日平均氣溫、日照時數(shù)、降水量等氣象要素,以反映小麥始花前氣象條件整體變化對生育進程的影響。同時,重點普查起身后至開花前(3月上旬-4月10日)逐旬及其跨旬的日平均氣溫、日平均最高氣溫和日照時數(shù)與始花期之間的相關(guān)程度,以反映氣象要素之間的疊加效應(yīng)。

其次,為反映氣候過渡帶冬小麥越冬期間熱量累積對生育進程的影響[32-33,39],普查了越冬期間(1月1-31日)逐日平均氣溫≥0 ℃積溫與始花期之間的相關(guān)程度。

再者,為反映返青到起身之間熱量效應(yīng)對生育進程的影響,普查了2月1日-3月10日逐日平均氣溫≥0 ℃活動積溫和≥3.0 ℃與≥5.0 ℃活動及有效積溫與始花期間的相關(guān)程度。

最后,為反映起身后溫度效應(yīng)對發(fā)育進程的影響,選取起身后日平均氣溫、日平均高溫等氣象要素超過小麥生理適宜溫度的累積量及其日數(shù)等指標,即自每年3月11日開始累積到4月10日、4月11日……4月15日的逐日平均氣溫≥5.0 ℃和≥11.5 ℃活動積溫、有效積溫及累積日數(shù)和逐日平均最高氣溫≥15.0 ℃活動積溫與累積日數(shù),計8個指標,每個特征指標自4月10日為一組,向后每增1 d特征變量增加一組,至4月15日為止,共計8×6組變量并與始花期進行相關(guān)系數(shù)計算。

目標變量為皖北地區(qū)亳州、碭山、蒙城、宿州、阜陽、壽縣和五河7個觀測站點的小麥始花期原位觀測數(shù)據(jù),累計271個樣本。采用日序法轉(zhuǎn)換法,將皖北地區(qū)7個站點的冬小麥逐年始花期的日期型數(shù)據(jù),轉(zhuǎn)換為數(shù)值型數(shù)據(jù),作為目標變量集,即1月1日、1月2日、1月3日……1月31日,分別為1、2、3……31,其余類推。

(2)逐日滾動氣象預(yù)報模型構(gòu)建:以4月10日為開始預(yù)報日期、4月15日為終止預(yù)報日期,自4月10日開始至4月15日,期間每向后延1 d,分別選取不同的特征變量進入數(shù)量集進行模型訓(xùn)練,累計訓(xùn)練6個預(yù)報模型,以實現(xiàn)始花期逐日滾動氣象預(yù)報。

(3)預(yù)報模型構(gòu)建過程:隨機森林回歸是由多棵分類回歸樹(classification and regression tree, CART)構(gòu)成的組合分類模型[40-41],以選定的特征變量作為特征數(shù)據(jù)并與始花期數(shù)據(jù)進行集成,構(gòu)成隨機森林的樣本數(shù)據(jù)集。

本研究對皖北地區(qū)7個觀測站點各等距離抽取5個樣本(表1),計35個樣本用于測試集,占總樣本量的13%。剩余的236個樣本作為訓(xùn)練集,占總樣本量的87%。

表1 等距離抽樣法抽取的各站點測試樣本(年份)Table 1 Samples of each site extracted by isometric sampling split method(year)

然后,通過自助法(bootstrap)從訓(xùn)練集采樣得到構(gòu)建N棵樹所需的N個子集,每次未被抽到的數(shù)據(jù)稱為袋外數(shù)據(jù)(out-of-bag,OOB),用來進行內(nèi)部誤差估計和變量重要性評價。生成每棵樹時,從規(guī)模為M的特征變量集中隨機選擇m個變量(m

(1)

式中,y為各原位監(jiān)測點歷年小麥始花期數(shù)據(jù);N為決策樹數(shù)量;Qn為獨立同分布隨機向量。

本研究在逐日始花期氣象預(yù)報模型的 RF 算法訓(xùn)練中,最大節(jié)點數(shù)、最大樹深度、最小子節(jié)點數(shù)、模型數(shù)量分別取1 000、10、5、100,并利用 R 語言 Random Forest包來實現(xiàn)隨機森林模型構(gòu)建和各特征變量重要性計算。

1.3.3 模型精度評估與應(yīng)用

采用決定系數(shù)(r2)、均方根誤差(RMSE)和預(yù)報準確率(Nd)3個指標進行模型優(yōu)劣評價。

(2)

(3)

Nd=Nr/Nf×100%

(4)

同時,利用等距離抽樣法拆分出訓(xùn)練集和測試集,比較了基于隨機森林(RF)算法與類神經(jīng)網(wǎng)絡(luò)算法(ANN)、線性支撐向量機(LSVM)、多元回歸(RG)和支持向量機(SVM)4種算法訓(xùn)練出的預(yù)報模型的優(yōu)劣。

另外,2020年和2021年,利用皖北地區(qū)亳州、碭山、蒙城、宿州、阜陽、壽縣和五河7個觀測站點氣象監(jiān)測實況數(shù)據(jù),驅(qū)動訓(xùn)練的6個始花期氣象智能預(yù)報模型,進行了小麥始花期預(yù)報應(yīng)用檢驗。

《普通高中英語課程標準：2017年版》指出英語課程承擔(dān)著發(fā)展學(xué)生思維能力的任務(wù)。思維品質(zhì)體現(xiàn)英語學(xué)科核心素養(yǎng)的心智特征，是學(xué)生發(fā)展的重要內(nèi)容。提問作為英語教學(xué)的重要教學(xué)技能，是培養(yǎng)學(xué)生思維品質(zhì)的重要手段。然而，為了滿足應(yīng)試需求，英語教師普遍關(guān)注語用能力的培養(yǎng)，提問側(cè)重于閱讀文本的詞句、段落大意的理解，較少涉及學(xué)生對文本內(nèi)涵的理解和評判，在促進學(xué)生思維發(fā)展方面存在不足。在英語學(xué)科核心素養(yǎng)的背景下，閱讀教學(xué)中學(xué)生思維品質(zhì)的培養(yǎng)已成為重要教學(xué)目標。

2 結(jié)果與分析

2.1 旬尺度氣象要素與小麥始花期的相關(guān)性

依據(jù)Pearson相關(guān)系數(shù),篩選出通過0.01水平檢驗的旬尺度及跨旬尺度的氣象要素即特征變量共有28個(表2)。在這28個特征變量中,有27個特征變量與小麥始花期的相關(guān)程度均達到了0.001顯著性水平,其中相關(guān)程度最高的特征變量為3月-4月上旬平均氣溫,與始花期之間的相關(guān)系數(shù)為-0.658 1;剩余的1個變量(3月上旬-中旬日照時數(shù))與始花期的相關(guān)程度最低,相關(guān)系數(shù)為-0.180 8。入選的特征變量由平均氣溫、最高氣溫、日照時數(shù)三類因素構(gòu)成,而降水量、降水日數(shù)、最低氣溫等因素未入選,表明本研究區(qū)域內(nèi),在旬和跨旬尺度水平上,降水因素與小麥始花期早遲相關(guān)性不強。

表2 旬及跨旬尺度氣象要素與小麥始花期相關(guān)系數(shù)Table 2 Correlation coefficients between meteorological elements and initial flowering dates of wheat at ten-day scale and inter-ten-day scale

2.2 不同界限溫度的積溫及其累積日數(shù)與始花期相關(guān)性

入選的不同界限溫度的活動積溫、有效積溫及其累積日數(shù)變量共有12個(表3),而1月逐日平均氣溫≥0 ℃累積日數(shù),2月1日-3月10日日平均氣溫≥3.0 ℃、≥5.0 ℃有效積溫及其累積日數(shù),3月11日-4月15日逐日平均氣溫≥5.0 ℃的累積日數(shù),與小麥始花期之間的相關(guān)程度均未通過0.01顯著性水平檢驗。12個特征變量中,ΣT0、ΣT6和ΣTn3i與小麥始花期之間的相關(guān)系數(shù)絕對值均小于 0.5,其他特征變量與小麥始花期之間的相關(guān)系數(shù)絕對值均大于0.5,其中ΣT7i和ΣT8i與小麥始花期相關(guān)性最大。

表3 篩選的積溫效應(yīng)特征變量Table 3 Selected characteristic variable of accumulated temperature effect

2.3 不同預(yù)報日期氣象預(yù)報模型入選的特征變量及其重要性分析

根據(jù)上述確定的逐日預(yù)報模型構(gòu)建原則,以4月10日為開始預(yù)報日進行始花期預(yù)報,以后每增加1 d訓(xùn)練1個氣象預(yù)報模型,到4月15日最后1個預(yù)報日,累計訓(xùn)練6個預(yù)報模型。其中,4月10日、4月11日、4月12日、4月13日和4月14日入選的特征變量均為40個,4月15日入選的特征變量為39個(表4)。

表4 不同日期預(yù)報模型入選的特征變量Table 4 Selected characteristic variables of different date prediction models

從6個預(yù)報日預(yù)報模型入選的特征變量重要性看,從大到小排序前5位的特征變量(表5)中,排在第1位的特征變量均為ΣT0,即越冬期間1月1日-31日>0 ℃的積溫量。這可能與皖北地區(qū)地處氣候過渡帶,在本研究時段內(nèi)冬季無明顯越冬期[32,39],越冬期間的積溫多少對小麥生育進程有正向促進作用。排在第2位的6個特征變量中,ΣT3占3個,分別屬于預(yù)報模型1、模型4和模型6;ΣT6占2個,分別屬于預(yù)報模型2和模型3;余下的Tav5屬于預(yù)報模型5。排在第3和4位的特征變量只有1個相同,即Sav8,其余5個特征變量均不相同。排在第5位的特征變量在6個預(yù)報模型中均不一樣。這表明即使距離花期有1 d變化,影響花期早遲的氣象因子也存在差異。

表5 不同預(yù)報模型中重要性排在前5位的特征變量Table 5 Top 5 important characteristic variables in different forecast models

2.4 逐日氣象預(yù)報模型的誤差比較

2.4.1 等距抽樣和隨機抽樣法拆分構(gòu)建預(yù)報模型的誤差

采用等距抽樣和隨機抽樣法拆分訓(xùn)練集,再基于RF算法構(gòu)建不同預(yù)報日期的預(yù)報模型。在訓(xùn)練集和測試集上,基于等距拆分法構(gòu)建的預(yù)報模型預(yù)報誤差在±3 d以內(nèi)的準確率均高于傳統(tǒng)的隨機抽樣法,且隨著預(yù)報日期逐漸向終止預(yù)報日接近,訓(xùn)練集和測試集的準確率均呈現(xiàn)增加的趨勢(圖3)。采用隨機抽樣法拆分數(shù)據(jù),訓(xùn)練的預(yù)報模型準確率在訓(xùn)練集和測試集上的穩(wěn)定性都弱于等距離拆分法。

圖3 不同模型在訓(xùn)練集和測試集上的預(yù)報準確率Fig.3 Prediction accuracy of training set and test set

從預(yù)報模型的RMSE和決定系數(shù)(r2)(圖4和圖5)看,在訓(xùn)練集上,等距抽樣和隨機抽樣法的RMSE 和r2均相近,RMSE在2.0左右,r2在0.93以上;在測試集上,隨機抽樣法的RMSE和r2分別顯著高于和低于等距離拆分法,其中隨機抽樣法的RMSE普遍高于4.0,r2普遍在0.85以上,而等距離拆分法RMSE則多在2.0～3.0之間,r2多在0.65～0.75之間。

圖4 不同預(yù)報模型的均方根誤差(RMSE)Fig.4 Root mean square error(RMSE) of different prediction models

圖5 不同預(yù)報模型的決定系數(shù)(r2)Fig.5 Determination coefficients of different prediction models(r2)

2.4.2 基于等距抽樣拆分法構(gòu)建不同機器學(xué)習(xí)算法的氣象預(yù)報模型評估

基于利用等距離抽樣拆分法建立的訓(xùn)練集和測試集,分別用類神經(jīng)網(wǎng)絡(luò)算法(ANN)、線性支撐向量機(LSVM)、多元回歸(RG)和支持向量機(SVM)構(gòu)建預(yù)報模型,其在訓(xùn)練集和測試集上的準確率均低于RF算法模型,RMSE和r2分別均大于和小于RF算法(圖6)。

圖6 4種機器學(xué)習(xí)算法構(gòu)建預(yù)報模型評估Fig.6 Evaluation of prediction model constructed by four machine learning algorithms

2.5 2020年和2021年小麥始花期氣象預(yù)報應(yīng)用檢驗

分別利用2020年和2021年皖北地區(qū)亳州、碭山、蒙城、宿州、阜陽、壽縣和五河7個氣象觀測站的氣象監(jiān)測數(shù)據(jù),以等距離抽樣拆分法和RF算法構(gòu)建的不同預(yù)報日期的小麥始花期氣象預(yù)報模型,得到7個站點2020年、2021年小麥始花期(圖7)。與實際監(jiān)測的小麥始花期相比,2020年和2021年除4月12日有2個站(阜陽站誤差3.7 d、宿州站誤差3.5 d)預(yù)報誤差超過3 d外,4月12日之后即4月13-15日的預(yù)報誤差均在3 d之內(nèi),尤其是最終的預(yù)報日,即4月15日,2個年度的預(yù)報模型5(即4月15日)的預(yù)報誤差均在2 d以內(nèi),取得了較高的預(yù)報精度。

圖7 2020年和2021年不同預(yù)報日期的預(yù)報誤差Fig.7 Forecast errors of different forecast dates in 2020 and 2021

3 討論

利用氣象數(shù)據(jù)準確預(yù)報皖北地區(qū)冬小麥始花期,可為小麥赤霉病防控決策部署提供技術(shù)支撐。本研究以4月10日為起報日、4月15日為終報日,以始花期為目標變量及與花期早遲密切相關(guān)的前期氣象條件為特征變量,以決定系數(shù)、均方根誤差(RMSE)和準確率為判定訓(xùn)練模型優(yōu)劣指標,采用有序等距離抽樣的方法,拆分出訓(xùn)練集和測試集,基于隨機森林算法(RF),每日訓(xùn)練1個模型,形成6個模型,建立了冬小麥始花期的逐日滾動氣象智能預(yù)報技術(shù)。同時,基于RF算法訓(xùn)練的預(yù)報模型的3項檢驗指標均優(yōu)于類神經(jīng)網(wǎng)絡(luò)算法(ANN)、線性支撐向量機(LSVM)、多元回歸(RG)和支持向量機(SVM)4種算法訓(xùn)練的預(yù)報模型。經(jīng)2020年、2021年利用氣象監(jiān)測實況數(shù)據(jù)檢驗,6個RF算法預(yù)報模型均表現(xiàn)出較高的預(yù)報能力,提前7～9 d準確預(yù)報出當年小麥始花期,基本滿足小麥赤霉病防控決策部署的氣象服務(wù)需求,為開展相關(guān)作物花期預(yù)報技術(shù)研究提供了樣例。

隨著機器學(xué)習(xí)技術(shù)的興起,多種應(yīng)用場景都采用了機器學(xué)習(xí)算法構(gòu)建模型進行預(yù)測研究,尤其是能較好解決特征變量間非線性問題的RF已成為應(yīng)用熱點并取得一定成效[9,17-28]。然而,這些工作并未較好解決RF算法中的類不平衡問題[29-30]。本研究采用先把目標變量樣本進行有序排列,再采用等距離抽樣法拆分出訓(xùn)練集和測試集,并與隨機抽樣拆分法訓(xùn)練的預(yù)報模型進行比較。經(jīng)檢驗,在訓(xùn)練集上,等距離抽樣法訓(xùn)練的6個預(yù)報模型的各項指標均優(yōu)于隨機抽樣拆分法。在測試集上,等距離拆分法的6個預(yù)報模型的決定系數(shù)均高于0.85、而隨機抽樣法多在0.65～0.75之間。采用有序等距離法拆分出訓(xùn)練集和測試集,為解決RF算法用于日期類物候預(yù)報中的類不平衡問題提供了一種方案。

特征變量篩選[9,19-24,28,42]是利用機器學(xué)習(xí)算法進行不同應(yīng)用場景預(yù)測工作的基礎(chǔ)。本研究依據(jù)相關(guān)研究成果、生產(chǎn)服務(wù)經(jīng)驗和冬小麥生物學(xué)特性及環(huán)境氣候特點,在盡可能多地篩選出影響花期早遲的前期氣象條件的基礎(chǔ)上,以相關(guān)程度高為原則,確定不同時間段的特征變量,進行預(yù)報模型訓(xùn)練。這在目前對決定小麥始花期早遲的氣象因子影響機制尚不清晰的情況下,為最大限度地篩選出影響花期早遲的特征變量提供了思路和方法,也是本研究基于RF算法構(gòu)建氣象預(yù)報模型特征變量的特色,為開展小麥等作物物候氣象預(yù)報提供了一種思路。

在隨機森林算法訓(xùn)練出的6個預(yù)報模型中,在入選的特征變量重要性排序中,排在前5位的特征變量并不一致,表明本研究區(qū)域內(nèi)影響小麥花期進程的氣象因子即使有一日之差,對花期早遲的影響也不一樣。由此表明,小麥花期早遲受氣象因子影響的復(fù)雜性、非線性特征,尤其是在驅(qū)動植物物候變化的各種因素是同時作用或是有序進行至今尚不清晰的當下[7],在難以掌握驅(qū)動因素與物候之間的復(fù)雜關(guān)系時,采用機器學(xué)習(xí)技術(shù),通過大規(guī)模數(shù)據(jù)挖掘其規(guī)律,利用現(xiàn)有氣象數(shù)據(jù)對小麥等作物物候進行預(yù)測是有效技術(shù)之一。

不同機器學(xué)習(xí)任務(wù)中數(shù)據(jù)集的規(guī)模和質(zhì)量是限制機器學(xué)習(xí)系統(tǒng)性能的重要問題[7-8,17]。作物生育速度的快慢,與作物本身的生物學(xué)特性、氣象條件、土壤肥力及耕作栽培技術(shù)措施等密切相關(guān)[7,35]。對于某一地區(qū)來說,土壤條件和耕作技術(shù)是相對穩(wěn)定,作物的生育速度主要取決于作物本身的生物學(xué)特性和環(huán)境氣象條件的變化[7,38,43]。本研究入選的關(guān)鍵氣象因子為溫度和日照時數(shù),且溫度類占入選因子的80%以上,這與學(xué)術(shù)界公認的溫度是植物物候變化的主要驅(qū)動因子[7,43-45]的結(jié)論一致。未來隨著監(jiān)測數(shù)據(jù)的豐富,引入諸如土壤溫度、冠層溫度[7]等數(shù)據(jù)作為特征變量,會進一步提升模型的預(yù)測精度,這是未來本研究需要改進之處。

4 結(jié)論

(1)采用有序等距離抽樣拆分出訓(xùn)練集和測試集,基于RF算法,從4月10日到4月15日,逐日訓(xùn)練1個小麥始花期氣象預(yù)報模型,計6個預(yù)報模型,實現(xiàn)了逐日滾動氣象預(yù)報。2020年和2021年應(yīng)用模型進行預(yù)報,提前7～9 d準確預(yù)報出當年始花期,基本滿足了氣象服務(wù)需求。

(2)構(gòu)建的6個逐日氣象預(yù)報模型的預(yù)報精度均較高,訓(xùn)練集與測試集誤差在±3 d以內(nèi)的平均正確率分別為93.3%、80.4%,平均均方根誤差(RMSE)分別為1.860～1.960和2.510～2.709,平均決定系數(shù)(r2)分別為0.944和0.841,且6個預(yù)報模型的r2均隨著預(yù)報日期向始花期的臨近逐漸增大。

(3)以“篩選特征變量+有序等距離抽樣拆分+RF算法訓(xùn)練模型+模型評估+模型應(yīng)用”為技術(shù)流程,構(gòu)建的皖北地區(qū)冬小麥開花期氣象智能預(yù)報技術(shù),可為開展其他作物開花期等關(guān)鍵物候的客觀預(yù)報技術(shù)研究提供了新的思路。