丁立,錢強強,趙俊,吳建曄
(湖州市測繪院,浙江 湖州 313000)
大壩監測數據多重共線性問題處理方法的比較研究
丁立*,錢強強,趙俊,吳建曄
(湖州市測繪院,浙江 湖州 313000)
多重共線性是大壩安全監測中一種常見的病態數據問題,為了削弱其對參數估計的影響,本文綜合應用了主成分回歸法、偏最小二乘回歸法、嶺回歸法和Lasso法等四種有偏估計方法對大壩實測數據進行建模分析,并與多元線性回歸模型結果進行比較。結果表明,多重共線性對模型的擬合及預報效果影響不大,但在模型的可解釋性以及模型系數的穩定性方面,有偏估計方法更具優越性,且四種有偏估計方法針對多重共線性數據建模各有其特點。
多重共線性;主成分回歸法;偏最小二乘回歸法;嶺回歸法;Lasso法
多重共線性是指在自變量之間存在線性相關關系的現象,它的存在會影響最小二乘回歸模型的參數估計,降低回歸模型的可靠性,導致模型不能反映大壩的真實狀態。為了削弱多重共線性對參數估計的影響,研究人員分別從子集選擇、系數壓縮以及變量重組等角度對參數估計方法進行了改進研究。其中子集選擇法的代表方法主要是逐步回歸法,而收縮法和降維法本質上都屬于有偏估計方法,有偏估計方法在均方誤差意義下對最小二乘估計具有改良作用,主要體現在參數估計值更為準確穩定[1~2]。經過長時間的不斷開拓,以嶺回歸、偏最小二乘回歸、主成分回歸和Lasso法為代表的有偏估計法已被應用于不同研究領域。目前,處理大壩安全監測數據中多重共線性問題的有偏估計方法相對單一,大部分的研究主要考察單一方法的應用效果,對原理相近的幾種方法的應用效果進行對比分析研究相對較少,因此,本文綜合采用多種有偏估計方法建立大壩位移監控模型,通過實例比較各種方法的特點并分析其相對于最小二乘估計的優越性。
對于由單個因變量Y和n個自變量X1,X2,…,Xn構成的線性回歸模型
Y=β1X1+β2X2+…+βnXn+ε
(1)
式中β1,β2,…,βn是未知參數,ε是隨機誤差項。
如果存在一組不全為0的常數α1,α2,…,αn使得式(2)成立
α1X1+α2X2+…+αnXn≈0
(2)
那么就稱變量X1,X2,…,Xn之間存在多重共線性。
當變量間存在嚴重的多重共線性時,如果仍采用最小二乘法進行參數估計,可能引起法方程的解極不穩定,主要表現為,法方程中的系數或常數項存在舍入誤差而產生微小變化時,會引起參數解的差異很大。
有偏估計能夠有效地處理多元線性回歸模型中的多重共線性問題。目前,處理多重共線性的常用方法有主成分回歸法[3]、偏最小二乘回歸法[4,5]、嶺回歸法和Lasso法[6],表1中介紹了這四種方法的基本思想以及優缺點。四種方法的建模步驟及算法在其他相關文獻中均有詳細介紹,本文在此不再贅述。

四種有偏估計方法的對比 表1
為了說明在變量間存在嚴重多重共線性問題時最小二乘估計的不適用性以及比較四種有偏估計方法的效果,以某混凝土壩一壩段135期監測數據為例,分別建立位移監控模型。根據實測資料,確定大壩位移初選統計模型的表達式為:

(3)

從135期大壩實測數據中取出前125期數據建立大壩位移y與水位因子、溫度因子和時效因子之間的多元線性回歸模型,按照逐步回歸的步驟引進顯著變量,剔除不顯著變量,最終建立的模型為:
y=-353.6097H+1.3572H2-0.0017H3+0.0257T20
-0.1956T1s-0.0989T2s+0.0324T3s-1.0982θ
+0.2026lnθ+30698.8738
(4)
經計算,逐步回歸模型的復相關系數為0.9848,F檢驗值為829.6,擬合殘差平方和為0.272,如果取顯著性水平α=0.05,該模型中所有的環境因子對位移y的影響都是顯著的。
為了進一步驗證逐步回歸模型中系數的穩定性和可靠性,以下將對樣本數據進行抽樣,然后建立不同樣本下對應的位移逐步回歸模型,抽樣的方案共分為5種:方案一,以135期觀測數據為樣本;方案二,隔一期數據抽取一個樣本;方案三,隔兩期數據抽取一個樣本;方案四,隔三期數據抽取一個樣本;方案五,隔四期數據抽取一個樣本。五種抽樣方案對應的逐步回歸模型系數如表2所示。

不同抽樣方案對應的位移逐步回歸模型系數 表2
同樣采用大壩實測數據中前125期數據,分別采用四種有偏估計方法建立大壩位移回歸模型。
在采用主成分回歸法建模時,以主成分的累計貢獻率達到95%為標準,共提取了3個主成分,各自的貢獻率分別為61.51%、32.86%和1.97%,其累計貢獻率達到96.34%,根據提取結果建立3個主成分對位移的回歸模型:
y=0.04704H+9.086×10-5H2+2.339×10-7H3
+0.00241T1+5.587×10-4T10+0.00176T20
+0.00592T50-0.05639T1s+0.04222T2s
-0.00766T3s-0.00258T4s-0.01633θ
-0.03479lnθ-19.39277
(5)

y=0.02981H+5.851×10-5H2+1.531×10-7H3
-0.00197T1-0.01094T10+0.01081T20
+0.01734T50-0.15491T1s+0.15429T2s
+0.00925T3s-0.00098T4s+0.04708θ
+0.03091lnθ-12.26631
(6)
在采用嶺回歸法建模時,選用L-曲線法確定嶺參數,根據L-曲線法原理,當k=0.335時,可確定曲率最大點,因而k=0.335即為使用L-曲線法確定的嶺參數,然后計算大壩位移嶺回歸模型為:
y=0.02729H+6.066×10-5H2+1.767×10-7H3
+0.00625T1-0.01657T10+0.02872T20
+0.01434T50-0.16295T1s+0.0954T2s
+0.00568T3s-0.01295T4s-0.36983θ
+0.13112lnθ-11.27464
(7)
在采用Lasso法建立大壩位移監控模型時,按照最小角回歸算法(LARS)[7]求解Lasso問題,根據交叉檢驗法來確定懲罰參數t,當t=38.0166時,即算法進行到第18步時,CV=0.2965,取得最小值,其對應的估計參數即為選出的Lasso法最優解,因此Lasso法確定的大壩位移模型為:
y=0.04571H+9.38×10-5H2+0.00548T1
-0.01601T10+0.02549T20+0.01423T50
-0.15819T1s+0.1091T2s+0.00591T3s
-0.01181T4s-0.26741θ+0.10891lnθ
-15.42662
(8)
為了進一步比較各種方法所建大壩位移模型的預報效果,利用后10期數據進行預報,預報結果如表3所示。

5種模型的預報結果(單位/mm) 表3
(注:sr:逐步回歸模型,pcr:主成分回歸模型,plsr:偏最小二乘回歸模型,rr:嶺回歸模型)
通過以上的計算分析不難發現,無論是多元線性回歸法,還是四種有偏估計方法,所建立的大壩位移監控模型都能達到令人滿意的效果,而單從數值上看,多元線性回歸法的擬合和預報效果更為理想??梢?,僅將擬合及預報效果作為評價指標,多重共線性問題對最小二乘估計的影響微乎其微。
理論上,水位因子H2和H3都由H演變而來,三者的變化趨勢是基本一致的,而且根據經驗判斷,大壩水平位移量應該與上游水位因子呈正相關關系,因此可以判定模型中三個因子的符號都應該為正,而在逐步回歸模型中,盡管水位因子作為混凝土壩水平位移重要的影響因子都被選入最終的模型中,但三個水位因子的符號并不一致,其中位移量與水位因子H2呈正相關關系,而與H、H3卻呈負相關關系,這顯然給模型的解釋帶來了困難。不僅如此,表2也充分說明不同抽樣方案對應的位移逐步回歸模型系數的穩定性較差,在不同樣本模型中同一變量對應的回歸系數發生了較大的波動,有些因子甚至發生了符號上的變化,而且不同抽樣方案選出的顯著因子也有所差別。通過四種有偏估計方法建立的模型的可解釋性則相對較好,水平位移量與上游水位因子均呈正相關關系,各個模型對應系數的數量級也趨于一致,且系數的符號和大小均未發生大的波動,較為穩定,不同抽樣方案對應的各模型系數變化情況如圖1~圖4所示。

圖1 主成分回歸模型系數變化圖

圖2 偏最小二乘回歸模型系數變化圖

圖3 嶺回歸模型系數變化圖

圖4 Lasso模型系數變化圖
通過圖1~圖4可以發現,主成分回歸模型系數結構及變化趨勢和偏最小二乘回歸模型相似,嶺回歸模型系數結構及變化趨勢與Lasso模型相似。
根據主成分回歸法和偏最小二乘回歸法的建模思想可以得知,兩種方法都需要進行成分提取,所提取的成分之間線性無關,減弱了原始自變量間的多重共線性,最終利用所提取的成分進行回歸處理。盡管兩種方法的思想趨近,但建模原理有本質區別。從主成分回歸法計算過程來看,三個主成分F1、F2和F3的累計貢獻率達到96.34%,基本涵蓋了自變量數據中絕大部分的變異信息,但由于在成分提取過程中,因變量并未發揮任何作用,所有主成分均是利用自變量相關系數矩陣求取的,因此不能保證各主成分對因變量擁有較強的解釋能力。對于偏最小二乘回歸法建模而言,成分的提取與自變量、因變量都息息相關,不僅要求攜帶盡可能多的原始自變量信息,而且要求每個成分與因變量的相關度盡可能大,該實例中當提取到第四個成分時,各成分對因變量的累計解釋能力達到0.9721,所以偏最小二乘回歸法提取成分的過程與主成分回歸法相比更加合理完善。結合兩者的擬合效果來看,主成分回歸模型的擬合效果明顯比偏最小二乘回歸模型差,這很大程度上是由主成分對因變量解釋能力不強導致的,從這一點上看,偏最小二乘模型的可解釋性更強且可靠性更高。
嶺回歸法與Lasso法都涉及對系數的壓縮,但兩種方法對系數的壓縮程度會存在差異,使用Lasso法建立的模型則會更加精煉、稀疏。從模型稀疏性的角度考慮,Lasso法能夠降低模型的復雜度,顯然更具優勢,但也存在不可靠之處,如果懲罰參數選取不得當,會導致模型過于稀疏,一些重要的自變量可能未被選入模型中。在本實例中,嶺回歸法與Lasso法都能有效地處理大壩自變量因子間的多重共線性問題,雖然擬合效果比多元線性回歸模型稍差,但所得的回歸系數更符合實際,兩種模型的系數結構及變化趨勢較為吻合,對于不同樣本方案的模型系數穩定性良好,而且在本實例中,使用Lasso法建立模型時,并未發生模型過于稀疏的情況,較嶺回歸模型而言,僅將水位因子H3的系數壓縮為0,模型更加簡潔。
本文以某混凝土大壩實測數據為例,分別采用多元線性回歸法和四種有偏估計方法進行建模分析。本文的計算結果表明,受多重共線性的影響,多元線性回歸法的處理結果在可解釋性和系數的穩定性方面均比四種有偏估計方法要差。通過對基本原理相似的有偏估計方法比較可知,雖然主成分回歸法和偏最小二乘回歸法都能較有效地處理多重共線性問題,但偏最小二乘回歸模型的可解釋性更強且可靠性更高,采用嶺回歸法和Lasso法所建模型的系數結構及變化趨勢較為吻合,而Lasso法建立的模型更加簡潔稀疏。
[1] 唐小燕. 有偏估計若干問題的研究[D]. 哈爾濱:東北林業大學,2010.
[2] 歸慶明,李國重,歐吉坤. 有偏估計與LS估計的比較與選擇[J]. 測繪學報,2003,32(1):26~30.
[3] 陳希孺,王松桂. 近代實用回歸分析[M]. 廣西人民出版社,1984.
[4] 付凌暉,王惠文. 多項式回歸的建模方法比較研究[J]. 數理統計與管理,2004,23(1):48~52.
[5] 王惠文,吳載斌,孟潔. 偏最小二乘回歸的線性與非線性方法[M]. 國防工業出版社,2006.
[6] 張燕,宋俊峰,童行偉. 鄭州白糖期貨價格的模型選擇方法[J]. 北京師范大學學報·自然科學版,2011,47(6):551~557.
[7] 周瑋. 變量選擇中的LARS算法及其在國民經濟中的應用[D]. 濟南:山東大學,2011.
AComparativeStudyontheProcessingMethodsofMulticollinearityinDamMonitoringData
Ding Li,Qian Qiangqiang,Zhao Jun,Wu Jianye
(Huzhou Institute of Surveying and Mapping,Huzhou 313000,China)
Multicollinearity is a kind of common pathological data problem in dam safety monitoring,in order to weaken the influence on parameter estimation,principal component regression,partial least squares regression,ridge regression and lasso method are comprehensively applied to modeling analysis of dam observation data,and results are compared with multiple linear regression model’s. It shows that the multicollinearity has little effect on the model fitting and forecasting,but biased estimation methods have advantages in model interpretability and stability of model coefficients,and four kinds of biased estimation methods have their own characteristics for modeling with multicollinearity data.
multicollinearity;principal component regression;partial least squares regression;ridge regression;lasso method
1672-8262(2017)06-139-04
P207
B
2016—11—01
丁立(1989—),男,碩士,助理工程師,主要從事安全監測數據處理相關工作。