聶臣巍
摘要 [目的]在地理信息系統GIS的平臺上,將不確定性推理方法——貝葉斯網絡引入病害預測,基于關鍵氣象因子(溫度、降水、濕度、日照)構建一個用于預測小麥條銹病發生概率的貝葉斯網絡模型。[方法]采用預測日前7 d的氣象數據預測自預測日起7 d內的條銹病發病概率,并對我國小麥條銹病重要流行區域——甘肅省東南部地區2010~2012年病害發生情況進行預測。[結果]模型在返青期至乳熟期輸出的病害發生概率與實際調查結果吻合度分別為62.92%、63.18%、79.48%、94.75%,能夠較客觀地反映病害發生的時間規律和空間分布特點。[結論]該研究表明將貝葉斯網絡和GIS分析結合在較大的空間范圍內利用關鍵氣象因子進行小麥條銹病短期預測是一種可行的途徑。
關鍵詞 小麥條銹病;氣象因子;貝葉斯網絡;預測模型
中圖分類號 S126 文獻標識碼 A 文章編號 0517-6611(2014)16-05027-04
小麥條銹病由Puccnia striiformis Westend f.sp.tritici Eriks引起,是小麥生產中一種重要的流行性病害。該病可在全球范圍內造成小麥大幅減產[1-2]。在我國,2002年小麥條銹病的全國性大流行造成超過670萬hm2農田感染,直接導致約10億kg的產量損失[3]。由于該病能夠在早期通過噴藥等措施控制,因此,如何在早期對小麥條銹病的發生進行有效預測,一直以來受到農業植保部門的高度重視。目前,國內外學者基于氣象、農學數據開展了一系列關于小麥條銹病預測方法的研究。陳剛等利用判別分析方法對四川馬爾康和甘肅天水兩地的小麥條銹病進行預測,回帶準確率和交叉驗證準確率均在78%以上[2];胡小平等用BP神經網絡對漢中地區小麥條銹病進行預測,結果與病害實際發生情況高度吻合[4];劉榮英等以甘肅天水地區小麥條銹病歷史數據為基礎,進行基于GM(1,1)組合模型的小麥條銹病預測方法研究,正確率達到94.5%[5];袁磊等琴提出了一種基于小波變換和神經網絡相結合的小麥條銹病預測模型,并以漢中地區1974年到1994年小麥條銹病發生流行數據作為訓練數據,預測1995~1997年小麥條銹病發生情況,結果與實際流行程度高度吻合[6];許彥平等采用統計原理,結合甘肅省天水地區的小麥條銹病相關數據和氣象數據,進行冬小麥條銹病發生發展規律的研究,建立冬小麥條銹病預測數學模型[7]等。上述研究構建的小麥條銹病預測模型在局地條件下均可取得較高的精度,能夠為特定區域內的病害預警提供重要信息。但注意到上述模型均是針對某一地區的整個小麥生長季發病程度進行預測,且研究區域為條銹病菌源地,模型的標定往往根據局地氣象和菌量數據,具有較強的區域專一性,缺乏對較大時空范圍的病害預測能力。考慮到該病的發生和流行涉及地域范圍較廣,且為多循環病害[8-9],亟需構建針對大區域、連續時相的病害預測模型,而目前關于這方面的研究罕有報道。
小麥條銹病的發生從環境條件上看,主要受溫度、濕度、降水、日照等一些氣象因素的影響和決定[2]。如何在具有一定空間廣度和時間幅度的區域中,建立上述因子與病害發生概率間的關系,是構建小麥條銹病預測模型的關鍵性問題。貝葉斯網絡是建立在概率統計理論基礎上的一種概率圖論模型,具有嚴密的推理過程、清晰的語義表達和數據學習能力等特點,可以通過一些變量的信息來獲取其他變量的概率信息,是不確定性推理和數據分析的一種有效工具[10],自20世紀80年代以來已在專家系統、數據挖掘、模式識別、圖像處理、人工智能等眾多領域得到了廣泛的應用[11]。為此,筆者嘗試將貝葉斯網絡方法引入到小麥條銹病的預測建模,選擇我國小麥條銹病的重要病源地——甘肅省東南部地區為研究區,通過分析2010~2012年連續3年的小麥條銹病測報數據及同期氣象數據,構建基于氣象參數的條銹病發生概率預測模型,使用預測日前7 d的氣象參數預測自預測日起7 d內條銹病發生概率。
1 數據獲取及處理
1.1 氣象數據 選用與小麥條銹病的發生關聯較強,且較易獲得的平均溫度、平均相對濕度、降水量和日照時數等氣象因子作為病害預測建模的輸入變量。從中國氣象局獲取甘肅省研究區及其周邊的57個氣象站點(圖1)2010~2012年小麥返青期至乳熟期的逐日數據,數據跨度從發病前2周至小麥成熟。數據處理包括異常值去除,周平均值計算和空間插值。對去除異常值的氣象數據,以周為單位計算各參數平均值。將氣象站點數據以30 m×30 m分辨率進行插值處理。考慮到某些氣象參數和海拔間存在較強關系,可通過對海拔擬合殘差插值的方法提高插值精度[12-13]。為此,該研究對于與海拔間決定系數(R2)高于0.6的氣象因子采用上述方法進行修正。插值方法方面,采用Kolmogorov-Smirnov方法對氣象站點數據進行正態性檢驗,對于P-value>0.05即符合高斯分布的樣本采用kriging插值,對于不符合高斯分布的數據采用反距離權重(Inverse Distance Weighted)插值。
1.2 小麥條銹病測報數據 該研究中小麥條銹病測報數據由甘肅省植保總站提供,數據年份從2010年至2012年共3年數據,測報點數量分別為:45、18、47,空間分布如圖1所示(以2010年為例)。測報時間范圍為2010年3月1日~2010年7月4日,2011年3月7日~2011年7月3日,2012年3月19日~2012年7月1日。各點測報時間間隔為7 d,測報內容包括測報點經緯度、條銹病始見期等。該研究將各測報點病害發生數據按時序進行整理,其中,將每年份各生育數據隨機分為訓練數據(60%)和驗證數據(40%)。
2 貝葉斯網絡方法
貝葉斯網絡是一個有向無環圖,是一種建立在概率統計理論基礎上的概率圖論模型,具有嚴密的推理過程、清晰的語義表達和數據學習能力等特點,可以通過一些變量的信息來獲取其他變量的概率信息,是不確定性推理和數據分析的一種有效工具。
該研究構建小麥條銹病預測貝葉斯網絡參考Cooke(2006)的研究結論[8],選擇與小麥條銹病發生和流行關系較大的溫度(Temperature,T)、濕度(Humidity, H)、降水(Precipitation,P)和日照時數(Sunshine Duration,S)等氣象因子作為節點變量。此外,考慮到小麥條銹病發展與生育進程間存在較密切的關系,將小麥生育期(G)也作為一個變量。在網絡結構上,貝葉斯網絡通過在不同節點(因子/預測概率)間連邊的方式描述不同因子間的相互聯系以及因子和預測概率間的關系[14]。該研究中,考慮到T、H、P、S、G因素對小麥條銹病發生存在直接聯系,因而在5個因素與小麥條銹病發生概率(W)間建立關聯(即在網絡中連邊)。此外,考慮到降水事件對濕度和日照時數的間接影響,在P和H、S因素間建立關聯。最終形成的用于預測小麥條銹病發生概率的貝葉斯網絡結構如圖2所示。其中,w表示小麥感染條銹病的狀況,分為感染(w1)與未感染(w0)2種情況,生育期(G)根據甘肅省研究區域內的小麥物候分為返青(g1)、拔節(g2)、抽穗(g3)、乳熟(g4)4個時期。H、P、S、T的分級如表2所示。de Vallavieille-Pope等的研究表明,當溫度在5~25 ℃范圍內時,小麥條銹病的感染效率等于或高于23%,當溫度超過30 ℃時不發生感染[15],Newton等的研究表明溫度低于0 ℃時病菌不能產生孢子[16]。因此,筆者將0~25 ℃范圍內的溫度等間隔分成5級,小于0 ℃的為一級。降水、日照、相對濕度按照數據分布及病害作用規律分為6級,具體各參量值域范圍如表1所示。
為獲得某因子對應的先驗概率值,首先根據2010~2012年訓練數據建立各參數的概率表。參考測報數據以7 d為步長進行病害預測,根據第i時相的氣象條件和生育期對應的發病先驗概率計算第i+1時相的小麥條銹病發生的后驗概率。在計算中為避免零頻率出現時導致的極端值,采用Laplace估計計算各節點的概率分布[17],計算公式如下:
其中,n為訓練實例個數,nw為類的取值個數,nj為第j個屬性的取值個數,wi為第i個訓練實例的類別標記,aj為影響因子的第j個屬性值,aij為i訓練實例的第j個屬性值δ(wi,w)是一個二值函數,當wi=w時為1,否則為0。
3 結果與分析
在空間上,通過觀察2010~2012年研究區小麥條銹病的擴散過程,發現該地區病害的發生和傳播具有較強的規律性,每年返青期始見于甘肅南部地區,隨后向北擴散。此外,在甘肅省東北地區稍晚亦出現自發性的條銹病感染區域,并向西傳播。由于研究區菌源充足,通常經過一段時間的擴散,在6月初條銹病會侵染研究區的大部分地區。這種空間傳播過程由于強烈受到氣象條件的影響,因此能夠被該研究中提出的模型較好地預測(圖3,以2010年為例)。通過反復試驗和經驗判斷確定0.4為概率閾值,判定概率低于0.4的樣本不發生條銹病,反之則判定發生病害。結果表明(表2),預測準確率在返青期、拔節期、抽穗期、乳熟期分別為:62.92%、63.18%、79.48%、94.75%,隨生育期的推進預測準確率逐漸升高。