摘要:選取了城市生活垃圾產量的7個影響因素,采用本征值與病態指數檢驗法進行多重共線性進行診斷,說明在7個因素之間存在著嚴重的多重共線性,為了克服多重共線性導致的預測失真問題,運用偏最小二乘回歸模型,以合肥城市垃圾產量為研究對象,按照交叉有效性的決策原則,建立了預測模型,所提取成分對X累計解釋能力達到99.74%,對y的累計解釋能力達到97.03%,具有較高的預測精度,該方法還可進一步應用到類似問題中。
關鍵詞:多重共線性偏最小二乘回歸交叉有效性解釋能力城市垃圾產量
偏最小二乘回歸(PLSR,Partial Least-Squares Regression)是一種新型的多元統計分析方法,集多元線性回歸、典型相關分析和主成分分析的功能為一體,能有效解決自變量因子間的多重共線性影響的問題,因此,本文結合合肥城市特點,擬對PLSR建模方法在城市生活垃圾產量預測中的應用加以探討,以提高模型擬合效果和預測精度。
1 城市生活垃圾產量影響因素與多重共線性診斷
1.1 城市生活垃圾產量影響因素分析
為保證模型的準確性和穩定性,選取了城市生活垃圾產量相關的7個影響因素:非農人口、人均生活消費支出、平均住宅使用面積、國內生產總值、社會商品零售總額、生活消費總支出和燃氣普及率,根據合肥統計年鑒,查詢到合肥市98-08年城市生活垃圾產量及影響因素數據,見表1。
表1合肥市98-08年城市生活垃圾產量及影響因素數據垃圾
產量1非農
人口1人均生活
消費支出1平均住宅
使用面積1國內生
產總值1社會商品
零售總額1生活消費
總支出1燃氣
普及率萬噸1萬人1元/人1m2/人1億元1億元1億元1百分比21.91129.5714096112.312481991114129140.9155231132.9514291113.112701471123100143.5160.126.321136.9114552113.312941451134141145.1167.328.951143.0415040114.613241731148127145.9172.531.471146.8115600115.313631441164160146.3173.237.231153.5415721116.114121811184177146.6176.939.421160.1716234116.814841961207143146.8180.440.91168.961699811715891701239177147.1183.750.371184.9117398118.418531571287110147.6186.852.91196.1618165118.911073.761340.64146.7190.353.31203.7319936119.3311334.611414.53145.2193.471.271210111752119.3611664.841520.26143.5192.31.2 影響因素多重共線性診斷
選定的城市垃圾產量有7個,可能將存在一些近似線性的變量選作解釋變量,這種解釋變量間的近似線性關系在統計中稱之為多重共線性(multicollinearity)。由于多重共線性的存在,違背了線性回歸模型的假定,使得具有良好特性的最小二乘估計與最小二乘理論遭到嚴重破壞,所作的預測也就完全失效。因此有必要進行多重共線性診斷。
目前較為常用的診斷方法主要有:條件指標法、特征分解法、方差擴大因子法、本征值與病態指數檢驗法等。本文采用本征值與病態指數檢驗法。
利用該方法,對影響因素數據進行計算得:λmax=1.49與λmin=4.4517×10-4,代入式(1)得:k=3347,CI=57.8533,說明在7個影響因素之間存在著嚴重的多重共線性。
2 基于PLSR的合肥市生活垃圾產量預測
2.1 模型建立
根據表1中的統計數據,按照2.2中的偏最小二乘法回歸算法,用MATLAB程序編程[13],通過程序運算得合肥市城市垃圾產量的的偏最小二乘回歸模型為:
=-19.0046+0.1796x1+0.6854x2+0.1342x3
+0.0436x4+0.051x5-0.0363x6+0.0464x7(2)
2.2 交叉有效性變量累計解釋能力
偏最小二乘回歸方程并不需要選用全部的成分進行回歸建模,而是與主成分分析一樣,采用截尾的方式選擇幾個成分就可以得到一個預測性能較好的模型。對于因變量y,成分th的交叉有效性為Q2h,經計算交叉有效性如表2所示。
表2成分對因變量的交叉有效性成分個數11121314Q2h1110.219710.14011-0.0465臨界值10.0975按照Q2h≥0.0975的決策原則,由于Q23=0.1401,而Q24<0,所以,只提取4個主成分時,方程的預測性能為最佳。
2.3 變量累計解釋能力
根據交叉有效性計算結果,從自變量系統中提取了4個成分,由成分對變量解釋能力定義,計算成分th(h=1,2,3,4,5)對自變量X和因變量y的累計解釋能力,如表3所示。
表3成分的解釋能力Rd11121314X10.6035810.758610.993310.9974y10.9270410.95710.96610.9703從表3可見,提取4個成分時,對的X累計解釋能力達到99.74%,對y的累計解釋能力達到97.03%,自變量系統與因變量系統相關性較高。
2.4 預測結果與誤差分析
根據(2)式中的偏最小回歸方程,將數據代入計算得擬合值,并進行誤差分析,結果見表4。
表4合肥市城市垃圾產量預測/擬合誤差對比表原始值1擬合值1誤 差1相對誤差1原始值1擬合值1誤 差1相對誤差21.9122.04951-0.0149610.00683139.42138.861510.0558410.0141723123.53241-0.0532410.02315140.9143.77741-0.2877510.0703526.32125.294610.1025410.03896150.37149.210110.1159910.0230328.95129.26851-0.0318510.011152.9149.938310.2961710.0559931.47132.75881-0.1288810.04095153.3159.24691-0.5946910.1115737.23134.956310.2273710.06107171.27168.135410.3134610.04398根據數據繪制了預測/實際值對比圖和誤差分析圖,見圖1和圖2。
圖1預測/實際值對比圖從以上圖表的計算結果可以看出,合肥市城市生活垃圾的偏最小二乘回歸模型的預測誤差較小,預測精度高,擬合效果較好,
4 結論
本文根據以往研究,總結出了城市生活垃圾產量的7個預測指標,采用本征值與病態指數檢驗法進行多重共線性進行診斷,說明在7個影響因素之間存在著嚴重的多重共線性。為了克服多重共線性導致的預測失真問題,運用偏最小二乘回歸模型,以我國城鎮登記失業率為研究對象,按照Q2h≥0.0975的決策原則,由于Q23=0.1401,
圖2誤差分析圖而Q24<0,提取4個主成分時,對的X累計解釋能力達到99.74%,對的累計解釋能力達到97.03%,方程的預測性能為最佳,自變量系統與因變量系統相關性較高。該方法還可以進一步推廣到類似問題的解決中去。
參考文獻:
[1]王彬,李川,李蘭等.多元線性回歸預測模型在城市生活垃圾產量預測中的應用 [J].新疆環境保護 2006,3:41-43.
[2]廖智強,朱寧,胡亞東.基于指數趨勢模型在城市垃圾產量預測中的應用 [J].環境保護科學 2006,32(4):27-29.
[3]陳國艷,張衍國,曾紀進.灰色系統理論對我國垃圾產量的預測 [J].環境保護科學 2011,4:29-32.
[4]楊晗耀,吳育華.組合預測模型在城市垃圾產量預測中的研究與應用[J].北京理工大學學報 2009,(2):54-57.