張芳群,包曉敏
(浙江理工大學信息學院,浙江杭州 310000)
基于PLS-GA-Elman算法的病蟲害預測
張芳群,包曉敏
(浙江理工大學信息學院,浙江杭州 310000)
針對農業中蟲害受多種復雜因素的影響及發生量預測問題非線性、樣本少、特征變量多的特點,結合偏最小二乘回歸(PLS)、遺傳算法(GA)與Elman神經網絡,建立了蟲害發生量的PLS-GA-Elman預測模型。通過PLS回歸算法對影響因素進行特征提取后,將降維變量輸入Elman模型,并運用GA對Elman建模中的權值和閥值進行優化。通過實例分析表明該模型預測準確性高,能有效地預測蟲害的發生量。同時為驗證算法的有效性,與PLS算法、Elman神經網絡算法、基于GA的Elman神經網絡算法(GA-Elman)、基于GA的BP神經網絡算法(GA-BP)進行比較。
Elman神經網絡;偏最小二乘法;遺傳算法;PLS-GA-Elman算法
病蟲害對農作物的產量有重要影響[1]。作為農業大國,如果病蟲害大面積發生,會給社會帶來嚴重的影響,做好病蟲害防治工作對促進我國農業的可持續發展意義重大[2]。病蟲害防治的一個重要工作就是做好預測,病蟲害的發生受到多種復雜因素的影響,例如環境因素、天敵數量、氣象因素等[3],因此,病蟲害的預測實際上是一個多輸入、單輸出或多輸出、輸入量之間相互影響的非線性問題[4]。
隨著現代科技的發展,為提高病蟲害發生量的預測精度,傳統的預測理論方法、灰色系統理論、神經網絡理論等被引入到病蟲害發生量預測中,并在提高蟲害發生量預測精度上取得了一定的效果。其中,神經網絡在處理非線性問題和大規模計算時有比較強大的功能[5]。Elman神經網絡是一種動態網絡,具有適應時變特性的能力[6],但是Elman網絡是以BP為基礎進行的改進[7],與BP網絡一樣,Elman網絡存在學習速度慢、易陷入局部極小的問題[8]。同時神經網絡有太多的特征變量輸入時,會妨礙網絡的收斂,甚至最終影響預測精度[9],因此,需要從大量的特征變量中提取最有用的特征[10]。由于影響病蟲害的因素之間存在著相互作用,變量的提取要在不影響樣本間相關性的情況下進行。偏最小二乘回歸(PLS)在對輸入變量多、數據量又較少的樣本進行主成分提取時,能盡可能多的攜帶原始數據的變異信息和保證變量之間的相關性[11-12]。遺傳算法(GA)是一種自適應全局優化概率搜索算法,可歸納為遺傳運算(交叉與變異)和進化運算(選擇)2種運算過程。用遺傳算法(GA)的全局尋優能力對Elman網絡進行優化,能克服尋優中的盲目性,避免局部收斂的發生,使網絡性能得到極大的改善。為此,本研究選用偏最小二乘回歸(PLS)進行特征提取、遺傳算法(GA)優化權值和閥值后的Elman網絡,建立了PLS-GA-Elman多元變量蟲害發生量預測模型。以實例進行分析,并與PLS、Elman、GAElman、GA-BP預測模型進行比較,為提高蟲害發生量預測精度提供了有效途徑和方法。
以陜西地區1988—2013年玉米螟蟲害為例,表1中數據為玉米螟蟲與氣象因子的發生程度關系,其中x1為5月份的平均氣溫,x2為5月份的平均降水量,x3為6月份的平均氣溫,x4為6月份的平均降水量,x5為7月份的平均氣溫,x6為7月份的平均降水量,x7為8月份的平均氣溫,x8為8月份的平均降水量,x9為9月份的平均氣溫,x10為9月份的平均降水量,y為玉米螟蟲發生量。將表1中數據分為訓練集和測試集2個部分,以1988—2008年的數據作為訓練集,以2009—2013年的數據作為測試集。其中x1、x2、x3、x4、x5、x6、x7、x8、x9、x10作為網絡輸入,y作為網絡輸出。

表1 玉米螟蟲與氣象因子關系
2.1 PLS回歸分析
由于選用的是年蟲害發生量的有關數據,預測模型的輸入變量是10個,且存在相關性,用于實驗的樣本數據不多,所以用PLS對樣本數據進行主成分提取,PLS模型的建模步驟如下:
1)對自變量組x和因變量組y進行標準化,分別為E0、F0。
2)從E0中提取第1個成分t1,t1=E0w1,殘差矩陣E1,E1=E0-t1a1T。其中,w1為矩陣最大特征值所對應的特征向量,a1為E0對 t1的回歸系數,a1=E0Tt1/||t1||2。
3)以E1代替E0重復步驟2),得到w2、t2、a2;E2依次類推。
4)用交叉有效性來確定提取成分個數。一般認為如果在第h步,若有Qh2<0.097 5,則可停止成分的提取;若Qh2≥0.097 5,表示第h步提取的第th成分的邊際貢獻顯著,繼續第h+1步計算。
根據上面的步驟,在E0中提取第2成分t2,交叉有效性Q?2=0.395 1>0.097 5,提取第3成分t3,交叉有效性Q?2=-0.270 4<0.097 5;故提取3個成分即可滿足。通過數據標準化的逆過程,可得到原始因變量y對自變量x的偏最小二乘回歸方程:
y=593.590 9+3.361 3x1-0.371 2x2-0.377 70x3+ 0.383 8x4-6.310 4x5+0.353 7x6-16.323 1x7-0.208 9x8+2.951 8x9-0.453 4x10。
2.2 基于GA的Elman神經網絡模型
本文中的Elman網絡的反饋層采用tansig函數,輸出層采用線性函數purelin,Elman神經網絡模型如圖1所示。其中:
a1(k)=tansig(IW1.1×p+LW1.1×a1(k-1)+b1);
a2(k)=purelin(LW2.1×a1(k)+b2。

圖1 Elman神經網絡模型
GA-Elman算法的具體實現步驟:
2)由網絡結構確定遺傳算法的個體長度,所有權值和閥值組成一個個體,多個個體組成種群。
3)由個體得到初始的權值和閥值,選取測試集數據的預測輸出和期望輸出之間的誤差絕對值和的倒數作為適應度函數:

式中,yi是期望輸出值,ti是預測輸出值,n是測試集樣本數目。
4)采用輪盤賭法,即依據每個個體的相對適應度來確定個體被選中的概率,每個個體的選擇概率:

式中,f(xi)為第i個個體適應度值,n為種群個體數目。
5)采用實數交叉法,以交叉概率pc對個體ak和al進行交叉操作,產生新個體ak’和a1’,即在第k個染色體ak和第l個染色體al在j位以雜交概率pc進行雜交,其中pc為[0,1]間的隨機數,公式如下:

6)對第i個個體的第j個基因aij進行變異,變異操作方法如下:

式中,amax為基因aij的上界,amin為基因aij的下界,r2為一個隨機數,g為當前迭代次數,Gmax為最大進化次數,r是[0,1]間的隨機數。
7)產生新一代種群。
8)重復3)到7),直到設定最大代數。
9)通過遺傳算法得到的最優值優化Elman神經網絡的權值和閥值,訓練達到精度或訓練次數則結束。
2.3 蟲害發生量預測模型建立與結果
偏最小二乘回歸能在樣本個數較少以及自變量存在嚴重相關性的條件下進行建模,且模型對實際的解釋能力更強[13]。PLS通過提取主成分很好地解決了變量間的共線性[14],但PLS算法主要使用線性逼近得到結果,其預測精度往往不如GAElman模型,因而將2種方法有機地結合起來可以顯著提高GA-Elman模型對蟲害發生量預測模型的運行效率和預測精度。PLS-GA-Elman模型先用PLS提取主成分,t1,t2,t3,…,th代替初始駛入變量x1,x2,x3,…,xn,然后利用GA改進的Elman進行學習和訓練,建立蟲害發生量預測模型,模型流程如圖2所示。

圖2 PLS-GA-Elman蟲害發生量預測模型流程
對于訓練樣本,將主成分t1、t2、t3及因變量y輸入到Elman中進行擬合,采用GA算法對權值和閥值進行優化,初始種群為10,最大進化次數100,交叉概率0.2,變異概率0.1。
將5組測試樣本輸入到建立的PLS-GA-ELMAN模型中得到預測結果見表2。為進一步比較該模型的有效性,本文還運用同樣的數據建立了蟲害發生量PLS模型、Elman模型、GA-Elman模型、GABP模型和PLS-GA-Elman模型,并對測試樣本進行預測。由表2可以看出,幾種模型的預測結果均能較好地預測未來的發生趨勢。總體來說,PLSGA-Elman預測模型能夠較好地接近實際值,并且平均相對誤差較其他模型小,表明該預測模型的精度能夠滿足實際需求。
在PLS算法的基礎上,結合GA優化的Elman神經網絡算法提出了PLS-GA-Elman組合神經網絡模型。PLS在對數據信息進行分解和篩選、提取對預測變量解釋性最強的綜合變量的同時,顧及與因變量的相關程度[15],而神經網絡又具有較強的非線性處理問題的能力,Elman神經網絡在BP神經網絡的基礎上增加了反饋功能。GA-Elman模型能加快神經網絡的收斂速度,避免其陷入極小點。所以將PLS與GA優化后的Elman神經網絡有機結合的模型,能夠較好地擬合非線性預測問題。實例分析結果表明,PLS-GA-Elman模型精度較高,具有較好的泛化能力,為農業蟲害發生量的預測提供了一個科學有效的方法。

表2 蟲害發生量預測結果與誤差分析
[1] 楊潔.基于本體的柑橘病蟲害知識建模及推理研究[D].武漢:華中師范大學,2014.
[2] 劉紅皊.基于WebGIS與RS理論的農業病蟲害預測預報[D].南昌:南昌大學,2014.
[3] 張沙沙.稻麥主要病蟲的CBR預測模型參數優化及知識庫構建[D].合肥:安徽農業大學,2013.
[4] 馮慧敏,閆巍,李雪非.基于Choquet積分的非線性蟲害預測[J].湖北農業科學,2013,52(22):5485-5487.
[5] 梁燁妮.人工神經網絡的發展及應用[J].硅谷,2014(12):3.
[6] 吳澤志,傅佳.Elman神經網絡改進模型在腦膜炎診斷中的應用[J].計算機工程與應用,2014,50(3):221-226.
[7] 潘少偉,梁鴻軍,李良,等.改進PSO-BP神經網絡對儲層參數的動態預測研究[J].計算機工程與應用,2014,50(10):52-56.
[8] 孫艷梅,苗鳳娟,陶佰睿.基于PSO的BP神經網絡在壓力傳感器溫度補償中的應用[J].傳感技術學報,2014(3):342-346.
[9] 丁世飛,賈偉寬,許新征,等.基于PLS的Elman神經網絡算法研究[J].電子學報,2010,38(s1):71-75.
[10] 賈偉寬,丁世飛,許新征,等.基于Shannon熵的因子特征提取算法[J].模式識別與人工智能,2011,24(3):327-331.
[11] 尤艷麗,周敬宣,李湘梅.基于偏最小二乘法的武漢市生態足跡模型及驅動力研究[J].湖北農業科學,2014,53(19):4751-4756.
[12] 葛彥鵬.基于偏最小二乘法的火電機組關鍵參數預測模型研究[D].北京:華北電力大學,2013.
[13] 石琳,李志玲,崔桂梅.基于偏最小二乘回歸的高爐鐵水硅含量模型[J].內蒙古大學學報(自然科學版),2010,41(4):427-430.
[14] 陳高波.年用電量預測的PLS-LSSVM模型[J].計算機工程與應用,2010,46(25):223-225.
[15] 丁世飛,靳奉祥,史忠植.基于PLS的信息特征壓縮算法[J].計算機輔助設計與圖形學學報,2005,17(2):368-371.
(責任編輯:侯春曉)
S431.9
:A
:0528-9017(2016)12-2082-04
文獻著錄格式:張芳群,包曉敏.基于PLS-GA-Elman算法的病蟲害預測[J].浙江農業科學,2016,57(12):2082-2085.
10.16178/j.issn.0528-9017.20161250
2016-06-06
公益性行業(農業)科研專項(201203036)
張芳群(1991-),女,河南周口人,碩士研究生,主要從事農業蟲害預測研究,E-mail:896689196@qq.com。