葉勁秋,劉文波,林春花,鄭服叢,繆衛國
(海南大學植物保護學院,海南 海口 570228)
【研究意義】橡膠樹(Heaveabrasiliensis)是天然橡膠的主要來源,發展橡膠樹產業具有重要的經濟價值和戰略意義[1]。由橡膠樹白粉菌(Oidiumheveae)侵染引起的橡膠樹白粉病是威脅橡膠生產的重大常見病害[2-3]。在氣候、物候適宜時,橡膠樹白粉菌通過菌絲孢子繁殖、傳播,為害橡膠樹的嫩葉(古銅期或淡綠期葉片)、嫩芽、嫩梢等幼嫩組織;造成葉片皺縮、枯萎,甚至落葉,導致橡膠開割時間推遲而減產[4]。開展橡膠樹白粉病的準確預測預報,對于預防和控制橡膠樹白粉病病情具有重要意義。【前人研究進展】橡膠樹白粉病流行趨勢主要受寄主物候、氣候條件、當前病情三方面的因素影響[2,5-6]。其中,氣候條件中的溫度[7]、光照[5]、濕度[7]、雨量[6]是影響病害流行的重要因素。基于這些影響因素,由植保專家和植膠農戶結合多年的田間生產經驗總結和建立了多種橡膠樹白粉病的田間預測預報方法,如:總指數法、總發病率法、嫩葉病率法、混合病率法等[4, 8]。植膠農場在白粉病流行學專家的指導下,采用上述傳統病害預測預報方法,對于預防和控制橡膠樹白粉病病情起到了關鍵作用。【本研究切入點】傳統病害預測預報方法存在預測預報高度依賴專家經驗、準確性較低、時效性較差等不足。隨著計算機技術的普及和統計學方法的引進,病害預測預報方法得到了進一步發展[4, 8-9]。近年來,將神經網絡應用于植物病蟲害識別和流行預測[10],極大地促進了植物流行病學的發展和病害預測預報實踐。神經網絡(Neural Network, NN),全稱人工神經網絡(Artificial Neural Network, ANN),是在現代神經生物學、仿生學、信息學、數學研究基礎上對生物神經系統的功能進行數字化建模的模擬[11]。人工神經網絡基于大量樣本經過反復訓練的學習過程,能被賦予完成某項任務的具體功能。神經網絡技術在擁有傳統數學模型中能處理海量多維數據的優點的同時,還具有高度自由的非線性、泛化性等優良特性[11],越來越多地被應用到日常生活以及科學研究的多個領域,例如,圖像識別[12-14]、生物信息學預測[15-16]、植物病蟲害識別和流行預測[10, 17-18]等。【擬解決的關鍵問題】迄今,在包括小麥[17, 19]、黃瓜[12]、黑麥草[18]、檀香[20]、葡萄[21]等多種植物上,已經成功建立了白粉病的神經網絡預測模型,均在白粉病的預測預報方面取得了超越傳統方法的良好效果。然而,通過神經網絡建模來預測預報橡膠樹白粉病的病害流行趨勢,尚未見報道。Abdullah 等[22]嘗試對橡膠樹各類病害建立了神經網絡識別模型,該模型能通過計算機掃描葉片區分不同的病害,但不具備病害流行趨勢預測功能。構建橡膠樹白粉病的人工神經網絡預測模型,乃至建立基于神經網絡模型的智能專家系統,對于提高橡膠樹病害預測預報的準確性、實現預測預報的自動化,減少病害發生和危害,發展我國橡膠產業,具有重要價值。本研究以人類專家綜合利用傳統經驗方法預報病害的相關經驗數據作為樣本、采用人工神經網絡建模技術,建立了橡膠樹白粉病預測預報神經網絡模型。該模型將能直接根據田間調查的測報因子(氣候、物候和當前病情指數)和數據,做出病害防治決策,為將來結合互聯網技術、建立可代替人工專家決策的智能專家系統、實現橡膠樹病害預測預報的自動化奠定基礎。
預測參數的挑選:選取植膠農場容易獲得且日常生產、病害監控中必須采集的氣象、物候、病情數據作為測報參數,包括:未來一周的平均溫度、晝夜溫差、總云量、濕度、雨量,以及當前橡膠樹的嫩芽率、古銅葉率、淡綠葉率、老葉率、當前病情指數等共10個影響因子,作為測報模型的輸入參數;人類專家對這些影響因子綜合評判后推薦的施藥量作為測報模型的輸出參數。此外,為確保神經網絡能輸出一個推薦藥量的取值范圍,滿足實際應用時的選擇靈活性,在輸入參數中引入了一個標記因素作為虛參數。該因素只有0、1兩種取值,當標記因素為0時輸出上述10個影響因子作用下最低推薦藥量;當標記因素為1時,則輸出最高推薦藥量。
測報數據來源與獲取方法:未來氣象數據,包括溫度、總云量、濕度、雨量,通過查詢WorldWeatherOnline(https://www.worldweatheronline.com)的天氣預報獲得。物候數據,主要指嫩葉率和老葉率,由各林段的觀察員直接目測獲取。白粉病病情則由各林段的觀察員采用鉤葉查病的調查方法[23]獲取。從橡膠樹上割下數條被采樣的枝條,抽樣調查統計各枝條上被選葉片中各病情級別葉片所占比例。病害防治數據則記錄了各農場在病情出現后的防治措施及施藥量。所施藥物為325篩目硫磺粉,計量單位為kg/hm2[24]。本研究共采集了2010-2018年度云南和海南兩省63個農場提供的共6312條數據。
1.2.1 測報數據的預處理 將原始數據處理為訓練樣本。每條樣本由一對數據組成,分別為:輸入數據,即影響病害流行的預測參數;對應的輸出數據,即人類專家推薦的施藥量。將配對后的樣本數據作歸一化處理[11]。采用公式(1)歸一化樣本數據對中的輸入數據。其中,Inorm為歸一化后的值,I為歸一化前的初始值,μ為歸一化通道內所有數據的平均值,σ為歸一化通道內所有數據的標準差。采用了公式(2)歸一化樣本數據對中的輸出數據。其中Jnorm為歸一化后的值,J為歸一化前的初始值,Jmin為歸一化通道內所有數據的最小值,Jmax為歸一化通道內所有數據的最大值。
(1)
(2)
1.2.2 神經網絡模型結構的確定 參考通過神經網絡訓練、建立植物病害預測模型的成功案例,本研究采用誤差反向傳播神經網絡(Back Propagation Neural Network, BPNN)[11]作為模版。由于樣本中有11個預測參數(10測報參數和1個虛參數)作為輸入,而僅有1個輸出參數(推薦施藥量),所以神經網絡結構選用11個輸入節點,1個輸出節點。隱層節點數量利用經驗公式確定:“(輸入節點數×輸出節點數)0.5+ a”[11],其中a為[1,10]內的自然數。將本研究的節點數帶入后計算可得,隱層節點數在[4,13]之間都是可取的。因此可取隱層節點數為8。其中,神經網絡的兩個隱層的激活函數都采用雙曲線正切函數Tanh,而最后的輸出層則使用單極性S函數Sigmoid作為激活函數。
1.2.3 神經網絡訓練算法的選取 綜合考慮算法性能和安全性,本研究采用Adam算法[25]作為神經網絡訓練算法;學習率選用0.002,一階動量為0.9,二階動量為0.999[25]。
1.2.4 神經網絡模型訓練以及防止過擬合 為防止發生過擬合問題(韓力群,2017),維持神經網絡的泛化特性,訓練時需要使用早停止[11]以及簡單交叉驗證。隨機抽取總樣本的20%作為測試集,其余的80 %作為訓練集。其中,訓練集參與訓練,直接影響神經網絡權重的調整,而測試集不參與訓練,只作為網絡誤差的監測樣本。當隨著訓練的進行,測試集誤差保持穩定不下降、甚至出現明顯回升或震蕩時,及時停止訓練。此時的神經網絡結構即為已訓練完畢的橡膠樹白粉病預測預報神經網絡模型。
1.2.5 神經網絡預測結果的后處理 由于在訓練前對樣本數據已作歸一化處理,訓練后的模型運行給出的輸出值也是變換后的值。因此,需要將輸出值做反歸一化[11],將其還原為原本應表達的推薦藥量值。反歸一化通過歸一化函數公式(2)對應的逆函數公式(3)來實現。
(3)
通過采用反歸一化公式(3)進行后處理,在計算機上運算產生神經網絡模型輸出結果,即橡膠樹白粉病防治推薦藥量。若神經網絡模型輸出低于7.5 kg/hm2的推薦藥量,應該按照不防治處理而將輸出的推薦藥量置0。
1.2.6 預測模型田間驗證方法 選取了2015-2018年云南和海南2省6個農場共14個調查林段的防治數據(包括10個預測參數和實際施藥量、施藥一周后的病情指數),進行神經網絡模型的驗證。將待驗證數據,即田間調查的物候、病情測報參數和氣象網站獲取的氣象數據等輸入神經網絡,得到輸出后,經后處理得到推薦施藥量。根據神經網絡模型給出的推薦施藥量和實際施藥量以及實際防治效果(病情指數增長程度)綜合評判神經網絡模型測報的準確性。
1.2.7 預測模型田間驗證標準 傳統的測報方法對測報結果的準確性評價標準中,預測的白粉病病指增長和實際情況相差不超過10則認為測報結果準確[8]。可據此標準延伸出判定本神經網絡模型測報準確性的標準(表1)。
將未來1周的平均溫度、晝夜溫差、總云量、濕度、雨量,以及當前橡膠樹的抽芽率、古銅葉率、淡綠葉率、老葉率、當前病情指數等10個影響因子,以及對應的人類專家推薦施藥量,共11個參數作為訓練數據。采用誤差反向傳播神經網絡結構和Adam算法、經過8萬次訓練之后,測試集的網絡均方誤差(Mean Square Error, MSE)已基本收斂于0.09547附近(圖1),此時的神經網絡結構即為已訓練完畢的橡膠樹白粉病預測預報神經網絡模型。

表1 神經網絡模型測報結果準確性田間驗證評定標準
注:a:(推薦施藥量-實際施藥量)≥3 kg/hm2,即為足量施藥。所施藥物統一為硫磺粉。
Note: When the deviations between amount of agrochemical recommended to apply by neural network model and that applied in fact more than 3 kg/hm2, it means sufficient amount of agrochemical application.Agrochemical applied was sulphur powder.

圖1 神經網絡模型均方誤差下降趨勢Fig.1 Decline curve of mean square error (vertical axis) accompany with increase of training times (horizontal axis) by neural network

圖2 實際推薦藥量與神經網絡推薦藥量對比Fig.2 Comparison of amount of agrochemical application recommended by export (horizontal axis) and neural network model (vertical axis)
以測試集中所有推薦藥量數據為橫坐標,相對應的神經網絡輸出的推薦藥量數據為縱坐標,將所有點繪制在坐標系中,即可得到輸出對比分布圖(圖2)。從測試集與神經網絡輸出對比計算,得到其回歸方程為Y=0.9387X+0.05459,擬合優度(Goodness of Fit,R2)為88.11 %,T值[26]為0.8670(圖2)。神經網絡輸出的推薦用藥量與測試集樣本(人類專家推薦施藥量)十分接近,可以認為成功訓練得到了橡膠樹白粉病神經網絡預測模型。
在本方法中,將嫩芽、古銅葉、淡綠葉作為3個參數進行處理(圖1~2)。而傳統預報方法處理物候數據時,是將嫩芽、古銅葉、淡綠葉都無差別的合并作為“嫩葉”指標處理。若在人工神經網絡建模過程中將該3個參數合并為嫩葉率處理,則訓練得到的均方誤差達到0.1289(圖3),擬合優度僅為78.57 %(圖4)。若與將嫩芽、古銅葉、淡綠葉作為3個參數進行人工神經網絡建模結果進行比較(圖1~2),可見將3個參數合并建模時,均方誤差提高了0.03343,擬合優度下降了9.36個百分點,T值也降低了0.1290。這說明分開處理物候指標能獲得更好的模型效果。

圖3 合并嫩葉率參數后神經網絡模型均方誤差下降趨勢Fig.3 Decline curve of mean square error (vertical axis) accompany with increase of training times (horizontal axis) by neural network when combining young leaf index

圖4 合并嫩葉率參數后實際推薦藥量與神經網絡推薦藥量對比Fig.4 Comparison of amount of agrochemical application recommended by export (horizontal axis) and neural network model (vertical axis) when combining young leaf index
為檢測各預測參數對神經網絡模型性能的影響,分別將單個參數從神經網絡模型中剔除后建立神經網絡模型,比較了訓練后相關評價指標(均方誤差MSE、擬合優度R2、T值)的變化(表2)。
從表2中可知,分別將單個參數從神經網絡模型中剔除后建立神經網絡模型,都會導致均方誤差(MSE)上升、擬合優度(R2)和T值下降,表明這些參數的缺失會導致神經網絡預測性能下降。尤其是當初始病指缺失時,神經網絡性能下降最明顯,其次則是氣象參數中的日均溫,再次為物候參數中的嫩芽率。而對神經網絡性能影響最小的則是晝夜溫差。

表2 單個測報參數缺失時各模型評價指標變化
為驗證神經網絡模型的實際使用效果,選用了2015-2018年云南和海南2省6個農場共14個調查林段的防治數據,進行神經網絡模型的準確性驗證(表3)。
從表3可見,根據表1給出的判定神經網絡模型測報準確性的標準,在6個農場14個調查林段的33個案例中,分別有29個預測準確、4個預測不準確。田間驗證結果表明,本研究建立的橡膠樹白粉病預測預報模型田間實際符合率為87.88 %。
通過神經網絡建模來預測預報橡膠樹白粉病的病害流行趨勢,尚未見報道。傳統的預測預報方法中,主要考慮寄主物候、氣候條件、當前病情3個方面的影響[2]。本研究采用了傳統預測預報方法中常用的10個影響因子,成功訓練得到了橡膠樹白粉病神經網絡預測模型。

表3 神經網絡模型在6個農場測報結果的準確性評價
續表3 Continued table 3

農場-林段Plantations測報日期Forecasting date初始病指Initial disease index推薦施藥(kg/hm2)Agrochemical amount recommended by model 實際施藥(kg/hm2)Agrochemical amount applied in fact藥效結束后病指Disease index after agrochemical losing efficacy病指變化Disease index alteration 測報評價Forecasting accuracy萬寧新中-南林三區NL32016/3/287.016.5~181511.4+4.4準確yes萬寧新中-南林三區NL32016/3/3111.416.5~18188.7-2.7準確yes萬寧新中-南林一區NL12016/3/287.816.5~18158.3+0.5準確yes萬寧新中-南林一區NL12016/3/318.316.5~18184.1-4.2準確yes萬寧新中-南平區 NL2016/3/3125.6181532.2+6.6準確yes萬寧新中-香根區XGQ2016/3/3121.8181514.0-7.8準確yes保亭南茂-南島隊ND2017/2/123.19~12未防治 04.6+1.5不準確no保亭南茂-南島隊ND2017/2/204.69~15未防治 05.6+1.0不準確no保亭南茂-南島隊ND2017/3/25.615~18未防治 048.8+43.2準確yes保亭南茂-石建村SJ2017/2/205.815~16.51未防治 08.4+2.6不準確no保亭南茂-石建村SJ2017/3/28.416.5~18未防治 067.8+59.4準確yes景洪熱作所-1 Jinghong 12017/2/205.815~18未防治 019.0+13.2準確yes景洪熱作所-1 Jinghong 12017/2/2719.018未防治 038.2+19.2準確yes景洪熱作所-2 Jinghong 22017/2/204.418未防治 022.4+18.0準確yes景洪熱作所-2 Jinghong 22017/2/2722.418~19.5未防治 064.2+41.8準確yes景洪熱作所-3 Jinghong 32017/2/208.216.5~18未防治 022.2+14.0準確yes景洪熱作所-3 Jinghong 32017/2/2722.218未防治 054.4+32.2準確yes五指山暢好-8隊 WZS2017/3/25.615~16.5未防治 054.4+48.8準確yes瑞麗市經作-板東 RL2018/3/195.216.5~18155.2±0.0準確yes瑞麗市經作-板東RL2018/3/225.218927.4+22.2準確yes瑞麗市經作-板東RL2018/3/2627.4187.544.8+17.4準確yes
本研究建立的橡膠樹白粉病神經網絡預測模型,盡管存在一些發散區,特別在推薦藥量值較低的區域(低于7.5 kg/hm2),發散更為明顯(圖2)。但由于實際防治時不會采取低于7.5 kg/hm2的防治濃度,故不推薦施藥輸出值發散區低于7.5 kg/hm2的結果并不會對實際防治策略產生干擾。而在高藥量區域,模型的預測結果收斂度有上升趨勢。表明本研究建立的神經網絡預測模型并不會因發散區的存在而影響預測預報的準確性。
對于任何預測方法,其相關預測參數的數量越多,采集精度越高,必然能提升理論預測效果。本方法中將傳統的“嫩葉率”指標拆開為“抽芽率”、“古銅葉率”、“淡綠葉率”3個指標分別統計數據用于神經網絡建模,取得了更好的效果。其理論基礎則是越幼嫩的組織越易感染白粉病,因此將不同物候階段的葉片分開統計提高了采樣精度,從而導致建模預報效果更優。
樣本參數的來源精度仍有可以提升的空間。例如氣象參數,都源于氣象預報網站。而氣象預報都是區域性的綜合預報,難以獲得農場區域的局部小氣候數據。因此,若能直接在田間合理設置新型氣候站直接測量獲得氣象數據,則模型精度還能進一步提高。
分別將單個參數從神經網絡模型中剔除后建立神經網絡模型,都會導致神經網絡預測性能下降,揭示了這10個影響因子在橡膠樹白粉病經網絡建模中的重要性。李增平和鄭服叢[2]認為溫度是影響橡膠樹白粉病流行最重要的因素,但是在本研究中對模型的影響明顯不如初始病情大(表2)。這有可能是因為以往的研究都是以控制變量后默認初始病情相同為前提,此時溫度就成為影響最大的參數。而對于溫度和初始病指究竟哪個對橡膠樹白粉病流行影響更大,則未見任何報道。就本研究的結果而言,初始病指是所有因子中影響最大的參數,可能是因為橡膠樹白粉病是孢子傳播的爆發性病害,初始病指直接決定了病害發展的基數和潛力。
與傳統建模方法相比,神經網絡模型最容易被提到的優勢是它的高精度。而這種精度源于本身的自由非線性。傳統的建模方式多為多元線性回歸,只能處理線性問題,而傳統的非線性回歸算法必須在回歸前就指定一個固定的非線性函數,這意味著必須提前知道數據間的大致規律。而神經網絡內部通過矩陣積建模,理論上能低損模擬任何函數。
正因為如此,神經網絡有著容易被忽略的第二類優點,即可以直接使用原始參數建模。而傳統建模方法在解決非線性問題,例如溫度對病害影響時,不得不做人工轉換,將原始的溫度參數轉換為“溫度在某范圍內的天數”,以此將非線性問題轉換為線性問題再解決。轉換過程中由于有人為主觀參與,轉換者的專業水平就直接決定了轉換后參數的質量,這個過程或多或少會損失客觀信息。而直接用原始參數建模不僅能省去人工強制轉換丟失客觀性的風險,也在模型運行的時候簡化了輸入數據的處理流程。
然而,神經網絡這種看似“絕對的”客觀性是有缺陷的。因為神經網絡唯一的信息來源就是訓練樣本,訓練樣本中各參數自身的數值分布情況直接決定了神經網絡模型的偏向性。而傳統建模時人工強制轉換數據會引入人類的常識信息,起到修正作用,而神經網絡不可能有任何常識。例如,本研究中推薦施藥為0,即不施藥的區域大面積擴散到施藥區域;這就很可能是樣本中推薦施藥的樣本過多造成的,由于樣本整體分布偏向于施藥,神經網絡的輸出也會在訓練中得到過多施藥信息的刺激而更偏向于輸出施藥策略。
因此,樣本分布不均勻時,神經網絡的精度優勢和客觀性優勢難以發揮,甚至會略遜于傳統建模。但是神經網絡能直接處理原始數據的優勢仍然存在。
由于本模型使用的是人類專家針對橡膠樹白粉病的防治數據,因此,本模型自身只適用于測報橡膠樹白粉病病害。但是,本模型的基本結構,即誤差反向傳播神經網絡能適用于所有病蟲害的測報。只要擁有足夠數量的、分布較均勻的其他病害數據作為訓練樣本,即可得到能針對該任何其他病害的測報模型。
本研究采用人類專家綜合利用傳統經驗方法預報病害的相關經驗數據作為神經網絡的樣本,選用誤差反向傳播神經網絡結構,以Adam算法為訓練算法,首次成功訓練得到了橡膠樹白粉病神經網絡預測模型。其擬合優度達88.11 %,田間試驗驗證的實際符合率為87.88 %。表明本研究建立的橡膠樹白粉病神經網絡預測模型在提供防治建議上已具備與橡膠樹白粉病專家相當的水平。