趙艷玲,何廳廳,劉亞萍,石娟娟,冉艷艷,倪 巍,吳國偉
(中國礦業大學(北京)土地復墾與生態重建研究所,北京100083)
耕地變化預測是土地利用規劃中的重要內容之一[1],可為區域耕地保護政策制定提供重要依據。目前對于耕地變化預測方法的研究較多,有單一方法如回歸預測、灰色預測、BP神經網絡預測[2-5]等,其中前兩種方法是時間序列數據的純數學處理,缺乏對社會和經濟方面變化的綜合考慮;BP神經網絡易陷入局部最優。也有組合方法如灰色—馬兒科夫模型[6]、遺傳算法最小二乘支持向量機模型[7]等。前者仍是對時間序列數據的數學處理,后者中的支持向量機(Support Vector Machine,SVM)是基于統計學習理論的VC維理論和結構風險最小化原則的新型學習機器[8],該方法具有小樣本學習、學習效率高與推廣性好的特點,能有效避免“過學習”和“維數災難”等問題,在模式識別[9-10]和回歸估計[11-12]等研究領域都取得了很好效果。由于SVM模型最終轉化為求解一個二次凸規劃問題,當訓練數據量大和維數高時,SVM解算速度較慢。Suykens等[13]在標準SVM的目標函數上增加了誤差平方和項,提出最小二乘支持向量機回歸算法(Least Square Support Vector Machine Regression,LSSVR)。它將線性不等式約束轉化為線性等式約束,使得SVM的二次凸規劃問題等價于線性方程組求解,極大地提高了SVM的求解效率,也降低了SVM的學習難度[14-16]。將遺傳算法與最小二乘支持向量機算法結合,雖然可提高支持向量機模型的預測精度,但是遺傳算法同樣存在優化過程中容易陷入局部最優的缺陷。
魚群算法(Fish Swarm Algorithm,FSA)是一種基于動物自治體的優化方法,是集群智能思想的一個具體應用。它能很好地解決非線性函數優化等問題。優化過程中能夠很好地跳出局部最優值,并盡可能地搜索到其他的極值,最終搜索到全局極值。將魚群算法與最小二乘支持向量機回歸算法相結合,可避免陷入局部最優,保證了擬合精度,提高了預測能力。
本文以2002—2011年《安徽省統計年鑒》中的數據為依據,構建耕地變化的FSA-LSSVR預測模型,經代入驅動因子數據驗證,該模型速度快、精度高,可應用于耕地變化預測。
最小二乘法支持向量機的主要思想是:通過映射函數把輸入數據非線性映射到高維特征空間,然后在高維特征空間中解決回歸問題P[17]。采用最小二乘支持向量機進行非線性函數估計的算法如下[18-19]:
已知訓練樣本 D={(x1,y1)│i=1,2,…,N},其中xi∈R″為輸入數據,yi∈R是輸出類別。在權向量w空間(原始空間)中的最小二乘支持向量機的回歸函數問題可以描述為如下問題求解:

約束條件:yi=wTφ(xi)+b+ei,i=1,2,…,N其中,φ(xi):Rn→是核空間映射函數,權向量w∈(原始空間),誤差變量ei∈R,b是偏差量。損失函數J是SSE誤差和規則化量之和,γ是懲罰因子(常數)。核空間映射函數的目的是從原始空間中抽取特征,將原始空間中的樣本映射為高維特征空間中的一個向量,以解決原始空間中線性不可分的問題。
由于w可能為無限維的,于是直接計算規劃(1)是極其困難的,因此將這一規劃問題轉化到其對偶空間中,構建拉格朗日函數:

式中,ai∈R是拉格朗日算子,在LSSVR形式中可以為正,也可以為負。分別對w,b,e,a進行偏微分,可以得到(2)的最優條件,如下:

式中,i=1,2,3,…,N。消除w 和e,得矩陣方程:

式中,y=[y1,y2,…,yN]T,I=[1,…,1]T,a=[a1,a2,…,aN]T,E是 N×N 維的單位矩陣,Ω=φ(xi)Tφ(xl),i,l=1,2,…,N。根據 mercer條件[20],存在映射函數φ和核函數K(·,·)使得:

由式(5)進而得到最小二乘法支持向量機回歸函數:

其中a,b由式(4)解得。核函數有多種不同形式,如多項式核函數、高斯核函數、樣條核函數、RBF核函數等[21]。在本文耕地變化預測模型中,選擇RBF核函數。即K(x,x)=ilσ為核函數參數(常數)。最小二乘支持向量機回歸函數的預測精度和收斂速度受參數(γ,σ)影響,本文選用魚群算法(FSA)對其進行尋優。
魚群算法(Fish Swarm Algorithm,簡稱FSA)是一種模擬魚群運動規律的優化算法,是由李曉磊等[22]在2002年提出的一種新型群體智能優化算法,其基本思想是魚群向食物濃度較大的水域游動,魚群規模最大的地方食物濃度最大。據此,魚群算法構造人工魚個體,模擬魚群的覓食、群聚和追尾行為,通過各個體的局部尋優,實現全局最優在魚群中凸現出來的目的。該算法具有良好的克服局部極值的能力。并且算法中只使用目標函數的函數值,無需目標函數的梯度值等特殊信息,對問題不需要嚴格的數學機理。對搜索空間具有一定的自適應能力,而且算法對初值沒有要求,對各參數的選擇也不很敏感[23]。
本文充分利用魚群算法的全局收斂、初值不敏感、收斂速度快、實時性高等特點[24],對LSSVR模型的懲罰因子γ和RBF核函數參數σ在設定的范圍內進行最優或近似最優參數的選擇,以使模型的預測精度獲得提高,具體的FSA和LSSVR結合方式如圖1所示。
根據已有的研究成果[25-26],將影響耕地變化的社會經濟環境驅動因子劃分為自然類(環境變化、自然災害、氣候、地形、地貌等)、人口類(總人口數、農業人口數、第三產業就業人數等)、經濟發展類(地區生產總值、第一產業生產總值、人均生產總值、固定資產投資等)、生活水平類(農民人均純收入、城鎮居民消費水平等)及土地政策類(土地管理[27]政策、退耕政策、耕地保護政策等)。從眾多的耕地變化驅動因子中選擇主要驅動因子是耕地變化預測精度的根本。針對安徽省耕地變化的實際情況,根據定性和定量相結合的辦法,依據2002—2011年《安徽省統計年鑒》,應用主成分分析法、相關分析法、迭代回歸分析法[28]最終確定影響耕地變化驅動因子指標體系,即第一產業生產總值、農民人均純收入、農民人口數、第三產業人口數、固定資產投資、城市化水平、耕地保護政策,因變量為耕地面積,具體見表1。其中第一產業總值、農民人均純收入、農民人口數目、第三產業就業人數、固定資產投資、耕地面積數據直接來源于安徽省統計年鑒,城市化水平通過非農業人數除以人口總數算得,耕地保護政策以數字“1—10”衡量,最嚴格的耕地保護政策定義為“10”。1998年實施《土地管理法》首次以立法形式確認了“十分珍惜、合理利用土地和切實保護耕地是我國的基本國策”,保護政策為“1”;2004年中央1號文件《中央關于促進農民增加收入若干政策的意見》明確提出“各級政府要切實落實最嚴格的耕地保護制度”,保護政策為“3”;2005年的《政府工作報告》要求嚴格保護耕地特別是基本農田,保護政策為“5”;2006年中央1號文件《關于推進社會主義新農村建設的若干意見》在耕地占用稅、土地出讓金、新增建設用地有償使用費征繳和使用方面做出了有利于耕地保護的規定,保護政策為“8”;2008年中央《關于推進農村改革發展若干重大問題的決定》提出“堅持最嚴格的耕地保護政策,層層落實責任,堅決守住1.2億hm2耕地紅線”,保護政策為“10”。
在Matlab R2010環境下,應用SVM和LSSVR工具箱,利用表1中2001—2006年的數據作為訓練數據,分別建立多元線性模型、GM(1,1)、BP神經網絡、FSA-SVM、FSA-LSSVR 耕地變化預測模型,算得2007—2010年的耕地面積,并與實際耕地面積比較,對各預測模型進行精度評價和驗證,具體的耕地預測結果和精度數據見表2、表3和圖2。

表1 耕地預測影響因子

表2 各模型耕地預測結果

表3 各模型耕地預測精度

圖2 各預測模型耕地預測值和真實值對比
由表2、表3和圖2可知:(1)多元線性耕地預測模型的預測精度較差,其模型內和總精度的均方根誤差、最大絕對誤差、最大相對誤差和平均絕對誤差在這幾種預測模型中最大,表明多元線性模型不能準確表達非線性耕地變化預測;(2)GM(1,1)耕地預測模型僅考慮耕地變化的內在規律,忽略了其他綜合因子對耕地變化的外在影響,所以其預測精度不高;(3)BP神經網絡耕地變化預測模型的模型內精度最好,各精度指標均優于其它幾種預測模型,但其模型外精度指標均低于其他預測模型,且其網絡結構復雜,參數確定困難,易產生過擬合現象[24];(4)FSASVM耕地變化預測模型和FSA-LSSVR耕地變化預測模型的模型外精度和總精度均高于前三個預測模型,模型內精度僅次于BP神經網絡耕地預測模型;(5)FSA-LSSVR模型精度略高于FSA-SVM 模型,因為LSSVR模型在標準SVM的目標函數上增加了誤差平方和項,把線性不等式約束轉化為線性等式約束,求解過程轉化為解一組線性方程式,避免了耗時的二次凸規劃問題求解,改善了SVM的求解效率,簡化了SVM的學習復雜度,提高了模型的預測精度;(6)利用本文引用的安徽省2001—2010年的耕地數據,FSA優化SVM和LSSVR內部參數時,調用SVM 1 500次耗時274.56s,調用LSSVR 1 500次耗時86.37s。可見,FSA-LSSVR的運行速度較快。
本文針對耕地變化預測模型的問題,以安徽省耕地變化為例,提出了一種FSA-LSSVR耕地變化預測模型。通過對比分析多元線性、GM(1,1)、BP神經網絡、FSA-SVM和FSA-LSSVR模型在耕地變化中的預測能力,得到如下結論:
(1)針對SVM內部參數難以確定的問題,利用FSA的全局搜索能力對懲罰因子γ和RBF核函數參數σ進行最優或近似最優選擇,結果證實,FSA能有效地收斂到參數γ和σ的全局最優解。
(2)耕地變化是一種多因素參與的高維非線性預測系統。多元線性模型和單因素GM(1,1)模型均不能準確地表達耕地變化趨勢。BP神經網絡由于其復雜的網絡結構和大量隨機的內部參數,使其在耕地變化中的預測精度不高,并且BP神經網絡缺乏完善的理論依據。
(3)FSA-LSSVR模型的預測精度指標遠高于多元線性、GM(1,1)和BP神經網絡模型,且優于FSASVM。
(4)FSA優化SVM和LSSVR內部參數時,調用LSSVR 1 500次較調用SVM 1 500次耗時縮短了近2/3,運行速度大大提高。
總之,FSA-LSSVR模型可以解決SVM內部參數難以確定的問題,適用于多因素參與的高維非線性的耕地變化預測,而且速度快、精度高,具有推廣價值。
[1] 杜新波,周偉,司慧娟,等.青海省2000—2008年間耕地變化及驅動力研究[J].水土保持研究,2013,20(5):180-86.
[2] 車明亮,聶宜民,劉登民,等.區域耕地數量變化預測方法的對比研究[J].中國土地科學,2010,24(5):13-18.
[3] 趙永華,劉曉靜,奧勇.陜西省耕地資源變化及耕地壓力指數分析與預測[J].農業工程學報,2013,29(11):217-223.
[4] 趙海英,張明旭.基于灰色模型的耕地變化預測[J].吉林師范大學學報:自然科學版,2007,5(2):66-67.
[5] 胡喜生,洪偉,吳承禎.基于BP神經網絡的福建省耕地預測模型[J].福建農林大學學報:自然科學版,2008,37(4):66-67.
[6] 黃成毅,鄧良基,方從剛.基于灰色—馬爾柯夫模型的區域耕地變化預測研究:以四川盆地中部丘陵區為例[J].四川師范大學學報:自然科學版,2009,32(6):816-821.
[7] 張豪,羅亦泳,張立亭,等.基于遺傳算法最小二乘支持向量機的耕地變化預測[J].農業工程學報,2009,25(7):226-231.
[8] Yuan S F,Chu F L.Support vector machines-based fault diagnosis for turbo-pump rotor[J].Mechanical Systems and Signal Processing,2006,20(4):939-952.
[9] Doumpos M,Zopounidis C,Golfinopoulou V.Additive support vector machines for pattern classification[J].Systems,Man,and Cybernetics,Part B:Cybernetics,IEEE Transactions on,2007,37(3):540-550.
[10] Khemchandani R,Chandra S.Twin support vector machines for pattern classification[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2007,29(5):905-910.
[11] Wu Z,Li C,Ng J K Y,et al.Location estimation via support vector regression[J]. Mobile Computing,IEEE Transactions on,2007,6(3):311-321.
[12] Hao P Y,Chiang J H.Fuzzy regression analysis by support vector learning approach[J].Fuzzy Systems,IEEE Transactions on,2008,16(2):428-441.
[13] Suyken J A K,Vandewalle J.Least squares support vector machine classifiers[J].Neural Processing Letters,1999,9(3):293-300.
[14] Van Gestel T,Suykens J A K,Baesens B,et al.Benchmarking least squares support vector machine classifiers[J].Machine Learning,2004,54(1):5-32.
[15] Anguita D,Boni A.Digital least squares support vector machines[J].Neural processing Letters,2003,18(1):65-72.
[16] Tsujinishi D,Abe S.Fuzzy least squares support vector machines for multiclass problems[J].Neural Networks,2003,16(5):785-792.
[17] Vapnik V N.Statistical learning theory[M].New York:Wiley,1998.
[18] 朱家元,段寶君,張恒喜.新型SVM對時間序列預測研究[J].計算機科學,2003,30(8):124-125.
[19] 彭珍瑞,孟建軍,祝磊,等.基于支持向量機的鐵路客運量的預測[J].遼寧工程技術大學學報,2007,26(2):269-272.
[20] 朱家元,陳開陶,張恒喜.最小二乘支持向量機算法研究[J].計算機科學,2003,30(7):157-159.
[21] 李波,徐寶松,武金坤,等.基于最小二乘支持向量機的大壩力學參數反演[J].巖土工程學報,2008,30(11):1722-1725.
[22] 李曉磊,邵之江,錢積新.一種基于動物自治體的尋優模式:魚群算法[J].系統工程理論與實踐,2002,22(11):32-38.
[23] 周利民.基于魚群算法的無線傳感器網絡覆蓋優化研究[D].長沙:湖南大學,2010.
[24] 楊淑霞,韓奇,徐琳茜,等.魚群算法與神經網絡結合的節能減排效果評價[J].中南大學學報:自然科學版,2012,43(4):1538-1544.
[25] 趙永華,何興元,胡遠滿,等.岷江上游汶川縣耕地變化及驅動力研究[J].農業工程學報,2006,22(2):94-97.
[26] 李偉,郝晉珉,馮婷婷,等.基于計量經濟模型的中國耕地數量變化政策與資產因素分析[J].農業工程學報,2008,24(6):115-118.
[27] 劉文智,陳亞恒,李新旺.基于產能的耕地整理數量質量潛力測算方法研究:以河北省盧龍縣為例[J].水土保持研究,2010,17(3):227-231.
[28] 林建平,趙小敏,鄧愛珍,等.城鎮建設用地規模影響因素分析及預測:以江西省廣豐縣為例[J].國土資源科技管理,2008,25(2):102-106.