袁壽新
(甘肅鋼鐵職業技術學院,甘肅 嘉峪關 735100)
基于核主元分析法的灌溉用水量預測法
袁壽新
(甘肅鋼鐵職業技術學院,甘肅 嘉峪關 735100)
因需灌溉是節約農業用水,實現農業增產增收的有效辦法。基于核主元分析法的農業灌溉用水量預測法可以起到節約灌溉用水的作用。將土壤及環境相關信息作為模型輸入向量,提取出非線性特征,消除向量之間的多重共線性,進而確定輸入空間的主要特征變量。然后采用最小二乘支持向量機回歸建模,反映原始輸入輸出數據之間的復雜關系。通過仿真結果比較,表明基于KPCA-SVM的灌溉用水量預測法具有較高的預測精度,為灌溉用水量預測提供了一種新方法。
核主元分析;灌溉用水量;預測法;支持向量機
農業總用水量占我國總用水量的60%以上,其中,灌溉總用水量占農業總用水量的90%以上,由于灌溉技術落后等原因,我國目前灌溉水有效利用系數僅為0.50[1],灌溉用水浪費十分嚴重。適時適量地進行科學灌溉是節約農業用水,實現農業增產增效的有效辦法。
由于灌溉對象是一個大慣性、非線性和純時延的系統[2],無法對其建立精確與統一的數學模型。國內外學者多以產量最大作為目標函數,一般是基于作物水分需求與作物產出的關系來建立模型[3]。目前采用的預測方法主要有線性隨機模型、神經網絡模型、灰色預測模型、組合模型等方法[4]。線性隨機模型需要假設序列是線性相關的,人為擬定一個線性回歸方程來進行模擬;神經網絡模型具有良好的非線性映射能力,但是收斂速度慢,容易陷入局部最小點;灰色預測方法只適合預測呈近似指數增長規律的數據序列[5-7]。另一類預測方法是通過分析作物水分需求,采用土壤水量平衡方法研究灌溉用水量預測模型研究。這類模型法需要大量與土壤及環境相關的信息作為模型輸入變量,因為影響因素太多,導致模型復雜化,進而出現系統復雜性增加等問題。
故此提出一種簡化的預測模型,將與土壤及環境相關的信息作為模型輸入向量,由于這些原始特征之間存在嚴重的相關性,通過核主元分析方法的非線性映射處理原始輸入數據,使變量之間存在嚴重的相關性,在映射到高維特征空間后,原始數據的非線性特征轉化為高維空間的線性特征,再用線性方法作特征選擇,消除了輸入變量的多重相關,然后在精簡輸入空間的基礎上建立灌溉用水預測模型,減小灌溉系統模型的復雜性。
基于核函數的主元分析法(KPCA)是先對樣本進行非線性變換,由非線性函數將輸入數據從原空間映射到高維特征空間,然后在特征空間執行主元分析(PCA)。定義并計算下面的核函數:


特征空間中的PCA通過求解下面的方程得到特征值λ和特征向量υ;

其中特征值λ≥0。將每個輸入變量與式(3)內積,得

將式(3)、(5)代入式(4),得:

根據式(6),有:


輸入樣本經核主成分分析后,可求得各核主成分,選擇前m個主成分,使它們的累計貢獻率足夠大,重構輸入相空間,簡化輸入空間維數。
支持向量機是基于Mercer核展開定理,通過非線性映射,把樣本空間映射到一個高維特征空間,使特征空間中可以應用線性學習機的方法解決樣本空間中的高度非線性分類和回歸等問題。最小二乘支持向量機是將傳統支持向量機中的不等式約束改為等式約束,且將誤差平方和(Sum SquaresError)損失函數作為訓練集的經驗損失,這樣就把解二次規劃問題轉化為求解線性方程組問題,提高求解問題的速度和收斂精度。設樣本為n維向量,某區域的l個樣本及其表示為:

這樣非線性估計函數轉化為高維特征空間的線性估計函數。利用結構風險最小化原則,尋找就是最小化:





其中本次建模選用了高斯徑向核:

基于核方法的精準灌溉用水量預測模型具體過程是:
(1)收集樣本數據。由于灌溉用水量受到土壤濕度和溫度、空氣濕度和溫度、PH值、光照強度、土壤養分、CO2濃度等物理量參數的影響,灌溉用水量預測可看作是這些參數的時間序列間復雜的高維非線性函數關系的逼近問題。對樣本數據進行預處理,見式(16)。然后,由各變量構成初始的時間序列作為初始的輸入矩陣。

(2)由于各參數時間序列數據量大,導致預測模型結構復雜,影響模型預測時間,本文采用核主元分析方法(KPCA)進行非線性特征提取,精簡輸入向量。利用核函數將輸入矩陣轉換到特征空間,形成維的矩陣,然后在特征子空間中用線性PCA方法對該l維矩陣進行特征提取,得到p+q維的非線性特征主元。核函數的選擇關系到建模的精度,故采用了高斯核函數。
(3)以p+q維的線性不相關主元作為樣本數據,利用SVM信息融合方法得到灌區用水量估計模型。
在預測日前一天,每隔1小時記錄一次土壤濕度和溫度、空氣溫度和濕度、PH值、光照強度、土壤養分、CO2濃度等物理量參數,這樣,每天測得24組,將以上數據作為一天的輸入樣本數據。
采用120組樣本數據作為訓練樣本集,為具代表性,樣本數據分布在12個月中,每組數據包括土壤濕度和溫度、空氣溫度和濕度、PH值、光照強度、土壤養分、CO2濃度等物理量參數,共8維向量;樣本數據經標準化后,構成輸入矩陣,各輸入數據之間存在復雜的相關關系,根據KPCA原理,計算各個特征量。
根據KPCA算法,可計算出經KPCA提取的主成分、與主成分對應的各特征值及特征值的累積貢獻率。表1為各主成分對應的貢獻率及累計貢獻率。選取前6個主成分,它們的總累計方差貢獻率已達到93.77%,可認為這6個主成分已無相關性,并且包括了原始數據的絕大部分信息。
為了進行比較,采用3種方案進行實驗:①用線性典型相關分析(PCA)進行相空間重構,并用LS-SMV回歸建立模型;②用非線性典型相關分析(KPCA)進行相空間重構,用LS-SMV建立模型;③用LS-SMV建立模型。

表1 主元分析結果
分別利用100組訓練樣本訓練基于PCA-SVM、 KPCA-SVM和LS-SMV的灌溉用水量預測模型后,對20組測試樣本進行預測,模型的訓練精度和泛化能力都用均方根相對誤差(RMSPE)檢驗,其定義為:其中:是預測值;是實際值;是訓練樣本長度;是檢驗樣本長度。

訓練數據預測值的均方根相對誤差RMSPE為2.117%,測試數據預測值的均方根相對誤差RMSPE為2.482%。表2是2015年某灌區實際用水量與KPCA模型預測用水量的比較。表3是采用PCA+SVM、KPCA+SVM和LS-SVM三種模型的預測結果比較,結果表明KPCA-SVM模型的預測結果最好,PCA-SVM和LS-SVM模型預測精度相差不多。

表2 2015年某灌區預測數據和實際數據比較
針對灌溉用水量所受影響因數多,建立用水量預測模型輸入變量多,導致系統復雜性增加等問題,提出了一種基于核主元分析的灌溉用水量特征提取方法,采用KPCA方法提取非線性特征向量,較好地反映了原始輸入數據之間的復雜關系,精簡了輸入數據陣的維數,再利用最小二乘支持向量機回歸建模,實現灌溉用水量的預測。仿真結果證明,基于KPCA-SVM預測模型具有較好的非線性數據處理能力,預測精度高,該預測模型對節約水資源,提高灌溉效益具有重要意義。
[7]鄭玉勝,黃介生.基于神經網絡的灌溉用水量預測[J].灌溉排水學報,2004,23(2):59-61.
[8]趟酋才,唐延芳,顧拓,等.灌溉用水量的并聯型灰色神經網絡預測[J].農業工程學報,2009,25(5):26-29.

表3 3種預測方法的精度比較
[1]馮寶清,我國不同尺度灌溉用水效率評價與管理研究[D].中國水利水電科學研究院,2013.
[2] 郭正琴,王一鳴,等.基于模糊控制的智能灌溉控制系統[J].農機化研究,2006,(12):103-105.
[3] K.SRINIVA RAJU.Irrigation PIanning using genetic aIgorithm[J].Water Resouces Management,2004,(18):163-176.
[4] 謝芳,唐德善. 農業灌溉用水量的LS-SVM預測模型研究[J].安徽農業科學,2010,38(19).
[5] 羅毅,雷志棟,楊詩秀.一個預測作物根系層儲水量動態變化的概念性隨機模型[J].水利學報,2008,31(8):80-83.
[6]拜存有,馮旭,張升堂,等.灰色等維信息模型在灌溉用水量預測中的應用研究[J].西北農林科技大學學報:自然科學版,2004,32(9):115-118.
[9] 禹華鋼,高俊,黃高明.基于核典型相關分析的五元平面十字陣無源定位算法[J].系統丁程與電子技術,2011,33(8):1707-1712.
[10]王華忠,俞金壽.核函數方法及其模型選擇[J].南京大學學報(自然科學版),2006,5(4):500-503.
[11] DENG N Y,TIAN Y J.New Method of Data Mining-Support Vector Machine[M].Beijing:Science Press,2004.
[12] 顧艷萍,趙文杰,吳占松.最小二乘支持向量機的算法研究[J].清華大學學報(自然科學版),2010,50(7):1063-1071.
The prediction method of agricultural irrigation water consumption based on KPCA
Yuan Shou Xin
(Gansu Iron and Steel Vocational Technical College, Jiayuguan, 735100)
Irrigation is an effective way to save agricultural water and increase the income of agricultural. The prediction method of agricultural irrigation water consumption based on KPCA (kernel principal component analysis) can play a role in saving irrigation water. In the way information of soil and environment are regarded as input vectors, kernel canonical correlation analysis is used to extract nonlinear character of input vectors and eliminate the existing multicollinearity reasonably among the vectors. Then main character variables are determined. Finally the model based on Least squares SVM (support vector machine) were completed which reflects the complex relationship between original input and output data and the array dimension of input data is simplified. Results show that the method is effective and suitable for forecasting irrigation water requirement.
KPCA;Irrigation water consumption ; Prediction method ;SVM
S274.2
A
1671-3818(2016)09-0026-03
袁壽新(1966-),女,甘肅嘉峪關人,學士學位,副教授,主要從事自動化儀表及控制方面的教學和研究。