張亞利,劉 星
(1.重慶大學(xué) 土木工程學(xué)院,重慶 400045;2.重慶大學(xué) 山地城鎮(zhèn)建設(shè)與新技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,重慶 400045)
偏最小二乘回歸在系統(tǒng)形變分析中的應(yīng)用
張亞利1,2,劉 星1,2
(1.重慶大學(xué) 土木工程學(xué)院,重慶 400045;2.重慶大學(xué) 山地城鎮(zhèn)建設(shè)與新技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,重慶 400045)
系統(tǒng)形變往往由很多主導(dǎo)因素引起,且各主導(dǎo)因素之間并不獨(dú)立。以國(guó)土利用變化驅(qū)動(dòng)分析為例,運(yùn)用偏最小二乘回歸方法建立變化的驅(qū)動(dòng)機(jī)制模型,并和主成分回歸法相比較。結(jié)果表明,偏最小二乘回歸不僅在擬合效果上優(yōu)于主成分回歸,系統(tǒng)性更強(qiáng),結(jié)論更可靠,而且偏最小二乘模型的回歸系數(shù)更易于解釋,提供的系統(tǒng)信息也更豐富。偏最小二乘為樣本個(gè)數(shù)少、自變量多、且變量間存在多重共線性的復(fù)雜大系統(tǒng)形變分析提供了新的、有效的解決途徑。
偏最小二乘;多重共線性;形變分析
由于受多種主觀和客觀因素影響,系統(tǒng)會(huì)產(chǎn)生形變,形變?nèi)绻隽艘?guī)定的限度,就會(huì)影響系統(tǒng)的正常使用,嚴(yán)重時(shí)還會(huì)導(dǎo)致安全事故。為此,系統(tǒng)形變監(jiān)測(cè)不僅要掌握變形體的實(shí)際性狀,更要分析導(dǎo)致形變的原因及各原因的相互耦合作用,即形變的物理解釋[1]。
統(tǒng)計(jì)分析法是形變物理解釋中的一種重要方法,主要以回歸分析模型為主。傳統(tǒng)的回歸分析模型中包括多元回歸分析模型、逐步回歸分析模型、主成分回歸分析模型和嶺回歸分析模型等[2]。多元回歸對(duì)相互獨(dú)立的自變量系統(tǒng)形變分析比較有效,當(dāng)系統(tǒng)存在多重共線性時(shí),則分析效果不好;逐步回歸存在自變量取舍問(wèn)題,且取舍的原則僅僅從該變量是否顯著的數(shù)學(xué)原則出發(fā),而未考慮其在系統(tǒng)中的具體意義和所起的作用,有些比較重要的自變量常被舍棄;嶺回歸分析中嶺參數(shù)的選擇受到人為因素的影響,導(dǎo)致建立的模型可比性差,且?guī)X回歸僅是從數(shù)學(xué)角度,改善矩陣求逆時(shí)的病態(tài)性問(wèn)題,并沒(méi)有顧及自變量系統(tǒng)對(duì)因變量系統(tǒng)的解釋問(wèn)題,因此所建立的模型中各變量的系數(shù)所體現(xiàn)的含義常常與事實(shí)不符;主成分回歸僅僅從自變量中提取主成分,導(dǎo)致所建立的模型可能對(duì)因變量的解釋不強(qiáng)。而偏最小二乘(Partical Least Squares,PLS)回歸分析在建模過(guò)程中集中了主成分分析、典型相關(guān)分析和多元線性回歸分析的特點(diǎn),是建模預(yù)測(cè)類型的數(shù)據(jù)分析方法與非模型式的數(shù)據(jù)認(rèn)識(shí)性分析方法的有機(jī)結(jié)合,被稱為“第二代回歸分析”。
PLS在1983年被提出后,國(guó)外學(xué)者開(kāi)展了廣泛深入的理論探討和應(yīng)用研究[3-10],國(guó)內(nèi)則主要從應(yīng)用方面開(kāi)展了相關(guān)研究[11-17]。研究表明,在多因變量對(duì)多自變量的回歸建模中,當(dāng)各變量集合內(nèi)部存在較高程度的相關(guān)性時(shí),用偏最小二乘回歸分析建模,比對(duì)逐個(gè)因變量做多元回歸更加有效,其結(jié)論更加可靠,整體性也更強(qiáng)[18],因此是一種非常有效的系統(tǒng)形變分析方法。
偏最小二乘回歸通過(guò)提取對(duì)整個(gè)變量系統(tǒng)具有最佳解釋能力的新綜合變量,然后進(jìn)行回歸建模,其基本算法如下[18]:


t1=E0w1.
(1)

u1=F0c1.
(2)
根據(jù)主成分分析原理,則
Var(t1)→max,
Var(u1)→max.
再由典型相關(guān)分析
r(t1,u1)→max.
綜合起來(lái),偏最小二乘表達(dá)式為求解下列優(yōu)化模型:
(3)
采用拉格朗日算法,令

(4)
對(duì)s分別求關(guān)于w1,c1,λ1,λ2的偏導(dǎo),并令其為0,即
(5)
上式可導(dǎo)出

令
則
(6)
(7)
將式(7)代入式(6)得

(8)

求得w1,c1后,則第一個(gè)成分
t1=E0w1,
u1=F0c1.
分別求E0,F(xiàn)0對(duì)t1,u1的3個(gè)回歸方程,得
(9)
其中:回歸系數(shù)向量



(10)
用殘差矩陣E1,F(xiàn)1分別代替E0和F0,求w2,c2,則第二個(gè)成分
t2=E1w2,
u2=F1c2.
(11)
而目標(biāo)函數(shù)
(12)


(13)

(14)
因此,回歸方程
(15)
(16)
依此類推,若X的秩為A,則
(17)
(18)

(19)
其中,F(xiàn)Ak是殘差矩陣FA的第k列。

(20)

由PLS的回歸原理可以得出:偏最小二乘回歸在對(duì)多自變量系統(tǒng)中的信息進(jìn)行篩選時(shí),不是對(duì)自變量進(jìn)行逐個(gè)的判斷去留,而是利用信息分解的方法,將自變量系統(tǒng)中的信息重新組合,有效地提取對(duì)系統(tǒng)解釋性最強(qiáng)的綜合變量,去除重疊信息或無(wú)解釋意義的信息,從而獲得更好的分析結(jié)果。
為體現(xiàn)PLS對(duì)多因變量和多自變量所組成的復(fù)雜系統(tǒng)分析時(shí)的優(yōu)越性,現(xiàn)選擇自變量意義明確,樣本個(gè)數(shù)少于自變量個(gè)數(shù)的重慶市某區(qū)國(guó)土利用變化作為實(shí)例。
由總?cè)丝?、非農(nóng)人口、農(nóng)林牧漁產(chǎn)值、國(guó)內(nèi)生產(chǎn)總值、全社會(huì)固定資產(chǎn)投資額和人均國(guó)內(nèi)生產(chǎn)總值構(gòu)成原始自變量數(shù)據(jù)X,即
X=[X1,X2,X3,X4,X5,X6].
由耕地面積、園地面積、林地面積、水域面積、建設(shè)用地面積和未利用地面積構(gòu)成原始因變量數(shù)據(jù)Y,即
Y=[Y1,Y2,Y3,Y4,Y5,Y6].
計(jì)算自變量相關(guān)系數(shù)如表1所示。表1表明:各自變量之間并非相互獨(dú)立,存在相關(guān)關(guān)系,而且大部分屬高度相關(guān)。
為發(fā)現(xiàn)自變量對(duì)因變量的影響規(guī)律,計(jì)算二者相關(guān)系數(shù)如表2所示。

表1 自變量相關(guān)系數(shù)

表2 自變量與因變量相關(guān)系數(shù)
將原始自變量數(shù)據(jù)X標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化后構(gòu)成矩陣E0;原始因變量數(shù)據(jù)Y標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化后構(gòu)成矩陣F0,則

而

依據(jù)偏最小二乘回歸[18]計(jì)算得
所得到的標(biāo)準(zhǔn)化回歸方程可以概括各自變量對(duì)因變量的作用關(guān)系。自變量系數(shù)的符號(hào)表示其對(duì)因變量的作用方向:“+”表示自變量對(duì)因變量的作用是正向的,即自變量與因變量變化方向相同;“-”表示自變量對(duì)因變量的作用是反向的,即自變量與因變量變化方向相反。系數(shù)絕對(duì)值的大小表示自變量對(duì)因變量的作用強(qiáng)度:絕對(duì)值越大,表示其作用強(qiáng)度越強(qiáng);絕對(duì)值越小,表示其作用強(qiáng)度越弱。
模型(21)中各系數(shù)具有“權(quán)重”意義,通過(guò)比較系數(shù),確定各自變量對(duì)因變量的作用強(qiáng)弱關(guān)系。模型表明:影響該區(qū)土地利用變化的解釋變量系統(tǒng)中,各變量對(duì)土地利用系統(tǒng)的驅(qū)動(dòng)強(qiáng)度不同,由強(qiáng)到弱的排序?yàn)椋簢?guó)內(nèi)生產(chǎn)總值>全社會(huì)固定資產(chǎn)投資額>總?cè)丝?非農(nóng)人口>人均國(guó)內(nèi)生產(chǎn)總值>農(nóng)林牧漁產(chǎn)值。
雖然自變量系統(tǒng)存在嚴(yán)重的多重共線性問(wèn)題,但模型(21)中各自變量系數(shù)的符號(hào)與表2所體現(xiàn)的規(guī)律一致,不僅清晰地體現(xiàn)了各自變量對(duì)因變量的作用方向,而且較表2更直觀科學(xué)地反映出各自變量對(duì)因變量的作用強(qiáng)度。
將模型(21)還原為用原始變量表示的偏最小二乘驅(qū)動(dòng)模型為
(22)
對(duì)X進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,計(jì)算得到其協(xié)方差矩陣所對(duì)應(yīng)的各特征根和主成分的方差貢獻(xiàn)率如表3所示。
表3顯示:第一主成分所對(duì)應(yīng)的特征值為5.175,貢獻(xiàn)率也達(dá)到86.244%;因此,選擇第一主成分計(jì)算其所對(duì)應(yīng)的標(biāo)準(zhǔn)化特征向量[19]
0.439 0 0.439 0 0.425 4).
代入數(shù)據(jù)得到主成分回歸模型如下:

表3 特征值及主成分貢獻(xiàn)率
(23)
比較偏最小二乘回歸模型(22)和主成分回歸模型(23)發(fā)現(xiàn),兩種回歸方法得到的模型非常接近,現(xiàn)將兩種回歸方法得到的殘差平方和進(jìn)行比較,數(shù)據(jù)如表4所示。

表4 殘差數(shù)據(jù)
表4表明:PLS回歸模型中園地的殘差平方和5.022大于主成分回歸的殘差平方和4.955;但其他土地類型的殘差平方和都小于主成分回歸,導(dǎo)致其系統(tǒng)總殘差平方和較小??梢?jiàn),PLS回歸所建立的模型不僅能對(duì)自變量與因變量的相互關(guān)系有良好科學(xué)的解釋,整體性也更強(qiáng)。
PLS回歸是一種非常有效的系統(tǒng)形變分析方法,所建模型中能保留自變量系統(tǒng)中的全部自變量,自變量系數(shù)的符號(hào)和絕對(duì)值的大小可以清晰地說(shuō)明該自變量對(duì)因變量的作用方向和作用強(qiáng)度,語(yǔ)義明晰,解釋性強(qiáng)。與主成分回歸的對(duì)比分析表明,PLS回歸的穩(wěn)健性和整體性更強(qiáng)。
PLS回歸作為一種新的回歸方法,尤其對(duì)自變量個(gè)數(shù)多于樣本個(gè)數(shù),且各變量間存在嚴(yán)重的多重共線性的復(fù)雜形變分析有很好的效果。為拓展PLS回歸的應(yīng)用范圍,今后應(yīng)加強(qiáng)以下幾方面的研究:①針對(duì)因變量可能存在較大的粗差,研究PLS回歸系數(shù)的穩(wěn)健求解方法;②加強(qiáng)非線性模型與PLS回歸模型的融合,以解決現(xiàn)實(shí)中存在的大量非線性問(wèn)題;③充分利用先驗(yàn)信息建立約束條件,探求此基礎(chǔ)上的PLS回歸系數(shù)求解方法;④研究關(guān)于偏最小二乘的統(tǒng)計(jì)檢驗(yàn)方法。
[1]陳 蕾,劉立龍,陳東銀.自適應(yīng)卡爾曼濾波法用于變形監(jiān)測(cè)數(shù)據(jù)處理[J].測(cè)繪工程,2008,17(1):48-50,54.
[2]黃聲享,尹暉,蔣征.變形監(jiān)測(cè)數(shù)據(jù)處理[M].武漢:武漢大學(xué)出版社,2003.
[3]HOSKULDSON A. PLS regression methods[J].Journal of Chemometrics,1988,2:211-228.
[4]HELLAND I S. On the structure of partial least squares regression. Communications in statistics- simulation and Computation, 1988,17:581-607.
[5]HELLAND I S.PLS regression and statistical models[J].Scandivian Journal of Statistics, 1990, 17:97-114.
[6]WOLD S,KETTANEH-WOLD N,SKAGERBERG B. Non-linear PLS modeling[J].Chemometerics and Intelligent Laboratory Systems, 1989,7:53-65.
[7]EDWARD M A, RICHARD T. Nonlinear Partial Least Squares [J].Computers in Chemical Engineering, 1997,8:875-890.
[8]YAROSHCHYK P,DEATH D L, SPENCER S J.Comparison of principal components regression, partial least squares regression, multi-block partial least squares regression, and serial partial least squares regression algorithms for the analysis of Fe in iron ore usin g LIBS [J]. Journal of Analytical Atomic Spectrometry, 2012,27(1):92-98.
[9]ABUDU S,KING J P ,PAGANO T C.Application of partial least-squares regression in seasonal stream flow forecasting[J].Journal of Hydrologic Engineering,2010,15(8):612-623.
[10]GELADI P, QKOWLASKI B. Partial Least Squares regression :A tutorial [J]. Analytica chemical Acta, 1986,35:1-17.
[11]蔣國(guó)興.偏最小二乘回歸方法(PLS)在短期氣候預(yù)測(cè)中的應(yīng)用研究[D].南京:南京信息工程大學(xué), 2007.
[12]張正健,劉志紅,郭艷芬,等.偏最小二乘在遙感監(jiān)測(cè)西藏草地生物量上的應(yīng)用[J].草地學(xué)報(bào),2009,17(6):735-739.
[13]徐洪鐘, 吳中如.偏最小二乘回歸在大壩安全監(jiān)控中的應(yīng)用[J].大壩觀測(cè)與土工測(cè)試, 2001,25(6): 22-27.
[14]楊杰, 吳中如.觀測(cè)數(shù)據(jù)擬合分析中的多重共線性問(wèn)題[J].四川大學(xué)學(xué)報(bào):工程科學(xué)版,2005,37(5):19-24.
[15]李林, 付強(qiáng).偏最小二乘回歸模型的城市水資源承載能力研究[J].水科學(xué)進(jìn)展,2005,16(6):822-825.
[16]羅批, 郭繼昌, 李鏘, 等.基于偏最小二乘回歸建模的探討[J].天津大學(xué)學(xué)報(bào), 2006,35(6):783-786.
[17]李智錄.大壩安全監(jiān)控統(tǒng)計(jì)模型研究[D].西安:西安理工大學(xué),2006.
[18]王惠文.偏最小二乘回歸方法及其應(yīng)用[M].北京: 國(guó)防工業(yè)出版社,1999.
[19]王黎明, 陳穎, 楊楠.應(yīng)用回歸分析[M].上海: 復(fù)旦大學(xué)出版社,2008.
[責(zé)任編輯:劉文霞]
The application of partial least squares regression in system deformation analysis
ZHANG Ya-li1,2, LIU Xing1,2
(1.School of Civil Engineering, Chonqjing University,Chongqing 400045,China;2.Key Laboratory of New Technology for Construction of Cities in Mountain Area of Ministry of Education, Chongqing University, Chongqing 400045,China)
System deformation is usually caused by many leading factors, which aren’t independent. Taking driving analysis of the land use change as an example, a dynamic models is set up based on partial least squares regression. and also compared with principal component regression.The results show that partial least squares regression not only has better fitting, stronger systematic and reliable than principal component regression, but also the coefficients are easily explicated and much large systematic information are transmitted. Partial least squares will provide a new and effective analysis method for complicated and big system which has less samples,more independent and multicollinearity variables.
partial least squares; multicollinearity; deformation analysis
2013-09-24
重慶市自然科學(xué)基金資助項(xiàng)目(cstc2011jjA0065)
張亞利(1971-),女,副教授,博士.
P207
:A
:1006-7949(2014)08-0001-05