李逸川,王海濤,田淑芳
(1.中國地質大學(北京)地球科學與資源學院,北京 100083;2.長春師范學院城市與環境科學學院,吉林 長春 130032)
以往國內外對土地利用預測及其影響因子的研究方法主要有典型相關分析、最小二乘準則下的多對多回歸分析以及提取自變量成分的主成分分析等[1]。但這些方法建模時,因土地利用及其影響因子變量之間的相互影響和制約難以滿足一些模型要求的不相關假設,常有樣本數量不足等局限。本文借助偏最小二乘回歸法在解決土地利用預測模型中自變量多重相關性問題上的優勢,引入投影尋蹤方法,運用基于實數編碼的加速遺傳算法來優化投影指標函數,計算最佳投影方向,使降維結果的相對誤差降低。
建立基于偏最小二乘回歸的投影尋蹤耦合模型,其中投影尋蹤回歸模型為基于Hermite多項式的投影尋蹤回歸模型。具體過程為:
步驟1:建立偏最小二乘回歸模型提取成分,設有單因變量yi(i=1,2,…,n)和p個自變量{x1,x2,…,xp},觀測n個樣本點,構成自變量與因變量的數據表X=[x1,x2,…,xp]n×p和Y=[y]n×1。偏最小二乘回歸分別在X和Y中提取成分t1和u1,在第一個成分t1和u1被提取后,偏最小二乘回歸分別實施X對t1的回歸以及Y對t1的回歸,如果回歸方程已經達到滿意的精度,則算法終止;否則,將利用X被t1解釋后的殘余信息以及Y被t1解釋后的殘余信息進行第二輪的成分提取。如此往復,通過交叉有效性判別,直到能達到一個較滿意的精度為止。最終對X共提取了d個成分t1,t2,…,td。
步驟2:由步驟1提取的d個成分t1,t2,…,td計算投影值:

式1中,aj為投影方向,tij已進行歸一化處理。
步驟3:對散布點(z,y),用基于正交Hermite多項式擬合,此時基于偏最小二乘回歸的投影尋蹤耦合模型為:

式2中,r為多項式階數;c是多項式系數,可用最小二乘法獲得;h表示正交Hermite多項式。
步驟4:優化投影指標函數。在優化投影方向a時,同時考慮多項式系數c的優化問題,可以通過求解投影指標函數最小化問題來估計最佳a,c值,即:

這是一個以a、c為優化變量的復雜非線性優化問題,用傳統的優化方法處理較難。本文應用模擬生物優勝劣汰與群體內部染色體信息交換機制的基于實數編碼的加速遺傳算法(RAGA)來解決其高維全局尋優問題[3-6]。
步驟5:計算第一次的擬合殘差r1=y-,如果滿足要求則輸出模型參數,否則,進行步驟6計算。
步驟6:用r1代替y,回到步驟1開始下一個嶺函數的優化,直到滿足一定要求,停止增加嶺函數個數,輸出最后結果。
本文選擇黑龍江省某市為典型區進行案例研究。該市耕地面積從1994—2006年發生了較大變化,根據研究區的社會發展情況,分別從經濟、政策、人口等方面選取因子,應用Matlab對原始數據進行初值化處理,分辨率取0.5,做灰色關聯度分析[7]。依據關聯度大小,從中選取19個影響耕地面積的主要相關因子(表1)。

表1 耕地面積與影響因子的關聯度Tab.1 Correlation between areas of cultivated land and influencing factors

表2 耕地面積與主要相關因子統計表Tab.2 Areas of cultivated land and main influencing factors
選取上述19個因子的近13年統計數據作為樣本,用上文介紹的方法提取出兩個成分,比較PLSPP與PLS模型對耕地面積的擬合精度。
步驟1:建立基于偏最小二乘回歸的投影尋蹤耦合模型,用表1中的1994—2006年的13個樣本建模。先將因變量(耕地面積)序列yi(i=1,2,…,13)、自變量(各影響因子)序列xij(i=1,2,…,10;j=1,2,…,19)標準化處理,再進行多重相關性診斷。相關系數如r(x8,x16)=0.9605,r2(x1,x4)=0.9226>0.9,即方差膨脹因子(VIF)max-(1-0.9226)-1=12.92>10,變量之間存在多重相關性。
采用單因素變量PLS方法提取主成分,交叉有效性判別見表3。由表3可以看出,提取3個主成分時,交叉有效性判別計算值小于0.0975,說明提取2個主成分t1、t2即可。
步驟2:建立基于偏最小二乘回歸的投影尋蹤耦合模型,將因變量(耕地面積)序列yi(i=1,2,…,13),成分ti1、ti2(i=1,2,…,13)序列分別代入到式1—4中,采用一個嶺函數進行擬合,多項式的階數為8,通過優化計算得投影指標函數為3.2739×105,參數a、c值見表4。
表5給出了各樣本點在yi上的原始取值,再采用PLSPP模型后的預測值i。從表中yi與i的比較可以看出其相對誤差絕對值的均值從PLS模型的3.92%,降低到了0.13%。可見PLSPP模型對耕地面積的預測效果是令人滿意的[8-10]。

表3 交叉有效性判別Tab.3 Cross-validation estimation

表4 參數a、c值Tab.4 Values of a and c

表5 PLSPP與PLS模型對耕地面積的擬合精度比較Tab.5 Com parison on fitting precision of PLSPP and PLSmodels on cultivated land areas
從實例結果看,耕地面積預測涉及的各種因素復雜而又相互影響,因子之間存在多重相關性問題,偏最小二乘回歸方法在簡化數據結構、消除重疊信息、綜合典型變量方面具有優勢,實例中通過PLS方法提取的2個成分解決了各影響因子之間共線問題,降低了投影尋蹤的輸入維數。同時該模型很好地解決了耕地面積與各自變量(總人口數、第一產業勞動力占比重等)間的非線性問題。
應用基于實數編碼的加速遺傳算法實現了投影尋蹤回歸的優化,克服了傳統優化方法需要目標函數具有連續可導的限制條件[2],而且實現過程更為簡單,使得投影尋蹤回歸技術便于實際操作應用。
運用投影尋蹤優化投影方向可以得出滿意的預測值,與獨立使用偏最小二乘回歸比較,PLS-PP模型得出的預測值精度較高。
耕地是土地利用中的主要用地類型[11],預測其變化趨勢,對實現土地合理利用和可持續發展具有現實意義。本文模型得出的預測值符合實際情況,具備較高的可信度。以此并結合地區社會、經濟和生態效益等數據,可以為區域土地資源管理和制定地方經濟發展決策提供支持。
(References):
[1]張旸,周成虎,戴錦芳,等.偏最小二乘回歸方法在土地利用結構研究中的應用[J].自然資源學報,2004,19(6):804.
[2]付強.數據處理方法及其農業應用[M].北京:科學出版社,2006:224-225,289-290.
[3]Friedman J.H,Turkey J.W.A projection pursuitalgorithm for exploratory data analysis[J].IEEE Trans On Computer,1974,23(9):881-890.
[4]付強,付紅.基于加速遺傳算法的投影尋蹤模型在水質評價中的應用研究[J].地理科學,2003,(3):55-58.
[5]金菊良,魏一鳴,付強,等.農業生產力綜合評價的投影尋蹤模型[J].農業系統科學與綜合研究,2001,17(4):241-243.
[6]趙小勇,付強.投影尋蹤模型的改進及其在城市水資源承載能力預測中的應用[J].數學的實踐與認識,2007,37(7):76-77.
[7]劉鐘瑩,卜龍章,李泉.灰色關聯投影法在工程項目評標中的應用[J].揚州大學學報,2003,6(1):57-60.
[8]擺萬奇,趙士洞.土地利用和土地覆被變化研究模型綜述[J].自然資源學報,1997,12(2):169-175.
[9]史培軍,宮鵬,李曉兵,等.土地利用/覆蓋變化研究的方法與實踐[M].北京:科學出版社,2000:1-4.
[10]鄭新奇.耕地總量動態平衡幾個理論問題的思考[J].中國土地科學,1999,13(1):32-37.
[11]李秀彬.土地利用變化的解釋[J].地理科學進展,2002,21(3):195-203.