高風昕
(黃淮學院 數學與統計學院,河南 駐馬店 463000)
麥芽蟲又稱膩蟲,據統計,我國每年因為麥蚜蟲的危害使小麥減產2×108~3×108t。目前,國內外對小麥蚜蟲的預測模型主要采用統計的方法,如李文峰等[1]利用逐步回歸的方法構建蚜蟲預報預測模型,丁世飛等[2]用逐步判別方法構建麥蚜蟲發生期的模型,Luo等[3]利用SPSS中的邏輯回歸的方法給出蚜蟲預報預測模型。支持向量機在小樣本訓練方面比其他方法更勝一籌,該方法的泛化能力非常強,而支持向量機大多運用在證券、金融、大氣污染物濃度的預測中,在小麥蚜蟲發生程度的預測模型的研究中國內外文獻資料涉及的很少。本文運用支持向量機回歸對豫南地區小麥蚜蟲發生程度進行預測,以豫南地區2008年—2019年的麥芽發生情況、氣象資料為依據,給出小麥蚜蟲發生的17個影響因子,利用主成分分析的方法對輸入因子降維,從而得到支持向量機的訓練樣本和測試樣本,由此建立基于RBF核函數支持向量機回歸的小麥發生程度的預測模型。經測試樣本檢驗表明,該方法預測精度高、泛化能力和時效性強,具有良好的應用前景。
支持向量機(SVM)將每個樣本數據表示為空間中的點,使不同類別的樣本點盡可能明顯地區分開。通過將樣本的向量映射到高維空間中,尋找最優化區分兩類數據的超平面,使各類到超平面的距離最大化,距離越大表示SVM的分類誤差越小,即使數據集的邊緣點到分界超平面的距離最大,稱邊緣點為支持向量。通過非線性映射將原始數據空間映射到高維特征空間并在新空間中求取最優化線性分類面。為權重向量,b為偏置常數。
把線性回歸問題轉化為求如下的最優化問題:

式中:C——懲罰參數,ξi,——松弛變量,ε——不敏感損失函數閾值。
模型(1)的對偶問題:


K(xi,x)為核函數,常用的核函數有線性核函數、多項核函數、徑向基核函數、sigmod核函數,根據專家經驗徑向基核函數(KBF)能使支持向量機取得最好的效果,所以選擇KBF作為核函數。
對支持向量機回歸參數估計有多種,比較各種參數估計方法從預測精度上考慮常選擇網格搜索法來確定懲罰因子C,核參數σ,損失函數中的參數ε。
本文選取豫南地區駐馬店市、信陽市、南陽市的2008年—2019年小麥種植區的氣象和小麥蚜蟲發生程度的數據資料,氣象各因子資料來源于豫南地區逐日氣象觀測資料,小麥蚜蟲的發生程度和天敵的數據資料來源于當地植保部門,氣象資料采取每月每旬作為時間周期,小麥蚜蟲的發生程度和天敵數據資料是指每個地市至少選擇5個樣本采集區,每5d采集1次樣本,影響小麥發生程度的因子見表1。本文以2008年—2019年,每年2月1日—5月20日,以每旬作為時間周期,為了減少因子個數把天敵作為一個因子共17個因子187個解釋變量。根據中華人民共和國農業行業標準(NY/T612-2002)《小麥蚜蟲測報調查規范》,麥蚜發生程度根據百株蚜量(y,頭)分為5級,分級標準為一級(y≤500)、二級(500 由影響小麥蚜蟲發生程度的指標因子和小麥蚜蟲發生程度數據組成的樣本集,(xi,yi),i=1,2,…n,xi∈Rn,yi∈Rn來構建小麥蚜蟲發生程度的SVR預測模型。由于各影響因子的量綱不盡相同,為了克服各因子由于量綱的不同對預測結果的影響,同時為了提高個各數據間的可比性和數據的收斂速度減少模型的訓練時間所以先對原始數據進行歸一化處理,利用公式(4)可將原始數據壓縮到[0,1]上。 式中:xi——原始數據;x' i——歸一化后的數據,xmax和xmin分別為原始數據的最大值和最小值。 影響麥蚜發生程度的解釋變量有187個,指標因子維數過大,采用主成分分析的方法對指標因子降維得到主成分及得分,然后分別以所得主成分為自變量以麥蚜發生程度為因變量分別進行多元線性回歸分析和支持向量機回歸分析,根據以上分析可以確定PCA-SVR預測模型的流程圖,見圖1。 圖1 PCA-SVR預測模型的流程Fig.1 Theflow chart of PCA-SVRprediction model 根據歸一化后得到的數據利用SPSS25對各因子數據進行主成分分析從而獲得主成分和主成分得分,分析結果由原來的187個指標因子縮減為6個主成分且方差貢獻率達到98.57%,在原始變量的基本信息基本保持不變的條件下因子個數由187個減少了181個,所以用6個主成分代替187個原始變量進行多元線性回歸分析。 以旬為單位收集了2008年—2019年12年的210個樣本數據,其中選取2008年—2016年的樣本數據作為訓練樣本,2017年—2019年樣本數據作為測試樣本。對于訓練樣本選取徑向基核函數(KBF)構建(2)式的預測模型。同時利用170個訓練樣本使用LIBSVM3.22軟件包,采用網絡遍歷法和K(K=10)折交叉驗證法選擇最優參數。結果:C=2257672.96512,g=0.000038896503529,p=0.0338。 以主成分分析所得到的6個主成分為解釋變量,利用PCA-SVR模型和多元線性回歸模型得到麥蚜發生程度的預測值與觀測值之間的數據見表2,并且利用PCA-SVR模型得到麥蚜發生程度的預測值與實際值之間的相關系數接近于1,利用多元線性回歸模型得到麥蚜發生程度的預測值與觀測值之間的相關系數為0.97,這表明麥蚜發生程度實際觀測值與預測值之間具有高度的相關性,并且通過PCA-SVR模型得到的訓練樣本的預測值與實際觀測值相符合見表1,測試集樣本數據的預測值與實際觀測值相符合見表2。 表1 訓練樣本實際觀測值與預測值對比Tab.1 The comparison of actual observation value and predicted value 表2 測試樣本實際觀測值與預測值對比Tab.2 The comparison of actual observation value and predicted value 為評價模型的質量,常用PCA-SVR模型的預測值與觀測值的進行比較,通常采用以下統計量對PCA-SVR模型進行評價,比較結果見表3。 表3 訓練和測試樣本誤差因子比較Tab.3 The comparison of error factors of training and testing samples MLRM 誤差指標PCA-SVR SVR 0.21780.55420.06410.1568 MAPE RMSE MSE MAE 0.10430.11650.02630.11390.1110.42170.03630.1476 平均絕對誤差MAE= 均方誤差MSE= 均方根誤差RMSE= 平均絕對百分比誤差MAPE= 由表4可以得出PCA-SVR組合模型具有較高的預測精度,所以PCA-SVR組合模型的應用能夠準確及時地發布豫南地區小麥蚜蟲監測預警信息,有效地進行小麥蚜蟲的科學防控。2.2 數據的歸一化處理

2.3 PCA-SVR組合模型預測流程圖

2.4 主成分回歸分析
2.5 主成分SVR參數尋優
3 模型預測結果分析
3.1 預測值和實際值的比較分析


3.2 模型的評價


4 結論