摘 要:系統的狀態檢測過程中,各影響因子之間往往存在著多重相關性,給回歸建模分析帶來許多負面影響,采用偏最小二乘(PLS)回歸建模分析可以很好地解決這個問題。在簡述 P LS原理的基礎上,結合系統狀態檢測仿真數據, 建立系統的狀態檢測的PLS模型,分別驗證PLS回歸預測模型用于多個自變量對單個因變量和多個自變量對多個因變量的回歸模型的用于系統狀態檢測的可行性。
關鍵詞:偏最小二乘;回歸分析;狀態檢測
中圖分類號:TP391 文獻標識碼:A
The Model of Multivariate and Linear Regress in State Detection Based on PLS
SHANG Wei1, LIANG Yuying1, BA Ning2
(1.Ordnance Engineering College,Shijiazhuang 050003,China;
2.Wuhan Ordnance Noncommissioned Officers Academy,Wuhan 430075,China)
Abstract:Multiple correlations often exist among the different impact factors in systematic state detection course. And will bring about a series of negative effects on regression modeling and analysis. However,the partial least—squares regression method can solve this problem in a reasonable manner. Based on the principle of PLS,and also combined with system State detection emulation data,a partial least—squares regression model are established.validate of these two models include more to one and more to more model ware made,and good results was achieved.
Key words:partial least—squares(PLS);regression analysis;state detection
1 引 言
對系統進行安全檢測,整理歸納所測數據資料并進行建模分析,掌握系統的工作情況,評估其安全程度,是十分重要的。在狀態檢測技術的分析、預測研究中,多元線性回歸分析是一種很常用的技術方法,然而在實際應用中卻受到很多限制,主要表現為:①實際情況中普遍存在變量之間的多重相關性問題,他能嚴重影響多元線性回歸模型的參數估計,擴大誤差;②多元線性回歸對樣本容量要求較高,在許多問題的實際應用中很難達到。偏最小二乘(PLS)回歸分析能有效解決以上問題。PLS回歸提供一種多對多線性回歸建模的方法,特別當兩組變量的個數很多,且都存在多重相關性,而觀測數據的樣本量又較少時,用偏最小二乘回歸建立的模型具有傳統的經典回歸分析等方法所沒有的優點。
2 PLS分析原理
PLS回歸方法與普通最小二乘回歸在思路上的最主要的區別是它在回歸建模過程中采用了信息綜合與篩選技術。它不是直接考慮因變量和自變量集合的回歸建模,而是在變量系統中提取若干對系統具有最佳解釋能力的新綜合變量,然后利用它們進行回歸建模。
偏最小二乘回歸分析在建模過程中集中了主成分分析, 典型相關分析和線性回歸分析方法的特點,因此在分析結果中,除了可以提供一個更為合理的回歸模型外,還可以同時完成一些類似于主成分分析和典型相關分析的研究內容,提供更豐富、深入的一些信息。
2.1 建模步驟
考慮p個因變量y1,y2,…,yp與m個自變量x1,x2,…,xm的建模問題。建模步驟一般包括:
1)標準化處理。因變量組和自變量組的n次標準化觀測數據陣分別記為E0和F0。
E0=x*11x*n1……x*1mx*nm,F0=y*11y*n1……y*1py*np
x*ij=xij-jsj,i=1,2,…,n,j=1,2,…,m (1)
y*ij=yij-jsy,i=1,2,…,n,j=1,2,…,p (2)
式中,j、j表示均值,sj、sy表示標準差。為了方便表示,先假定 p個因變量y1,y2,…,yp與m個自變量x1,x2,…,xm均為標準化變量,即xij=x*ij。
計算技術與自動化2011年3月
第30卷第1期尚 偉等:PLS在狀態檢測多元線性回歸中的應用
2)分別提取兩變量組的第一對成分,并使之相關性達最大。
從E0中抽取一個成分t1=E0w1,w1=ET0F0‖ET0F0‖且‖w1‖=1,實施E0和F0在t1上的回歸。
E0=t1pT1+E1(3)
F0=t1r1+F1(4)
式中,pT1、r1是回歸系數,即
p1=ET0t1‖t1‖2,r1=FT0t1‖t1‖2
檢查收斂性,若y對t1的回歸方程達到滿意的精度,則進行下一步;否則,E0=E1,F0=F1,回到第2)步。
3)在方程滿足精度要求后,得到q個成分t1,t2,…,tq,實施F0在t1,t2,…,tq上的回歸,得到
F0=r1t1+r2t2+…+rqtq(5)
由于t1,t2,…,tq是E0的線性組合,所以可得
F0=r1E0w*1+r2E0w*2+…+rqE0w*q(6)
其中,
w*h=Πh-1j=1(I-wjpTj)ωh,(ωh是w*h的分量,下同)。
4)由于第1)步中假設x、y都是標準量,而實際上是經過標準化處理后得到的,所以,按照標準化的逆過程,F0的回歸方程還原為y對x的回歸方程,最后得到
y=a1x1+…+apxp(7)
2.2 交叉有效性分析
一般情況下,偏最小二乘法并不需要選用存在的r個成分t1,t2,…,tr來建立回歸式,而像主成分分析一樣,只選用前l個成分(l
SymbolcB@ r),即可得到預測能力較好的回歸模型。對于建模所需提取的主成分個數l,可以通過交叉有效性檢驗來確定。通過考察增加一個新的成分后,能否對預測模型的預測功能有明顯的改進來考慮。
每次舍去第i個觀測,用余下的n-1個觀測值按偏最小二乘回歸方法建模,并考慮抽取h個成分后擬合的回歸式,然后把舍去的第i個觀測點代入所擬合的回歸方程式,得到yj(j=1,2,…,p)在第i個觀測點上的預測值(i)j(h)。對i=1,2,…,n重復以上的驗證,即得抽取h個成分時第 j個因變量yj的預測誤差平方和為
PRESSj(h)=∑ni=1(yij-(i)j(h))2(8)
Y的預測誤差平方和為
PRESS(h)=∑pi=1PRESSj(h)(9)
另外,再采用所有的樣本點,擬合含h個成分的回歸方程。這時,記第i個樣本點的預測值為ij(h),則可以定義yj的誤差平方和為
SSj(h)=∑ni=1(yij-ij(h))2 (10)
定義Y的誤差平方和為
SS(h)=∑pi=1SSj(h) (11)
PRESS(h)的值達到最小時,對應的h即為所求的成分個數。在提取成分時,總希望比值PRESS(h)SS(h-1)越小越好。一般可設定限制值為0.05,即PRESS(h)SS(h-1)≤0.952時,增加成分th有利于模型精度的提高。
為此,定義交叉有效性為
Q2h=1-PRESS(h)SS(h-1)(12)
這樣,在建模的每一步計算結束前,均進行交叉有效性檢驗,如果在第h步有Q2h<1-0.952,則模型達到精度要求,可停止提取成分。
3 案例分析
PLS回歸模型可以實現多因變量對多自變量的回歸建模。本文分別對多對一、多對多模型進行實例分析。其中因為多對一模型比較簡單,只是進行了簡單的驗證,而把重點放在了多對多模型分析驗證上。
圖1 三階低通濾波器
3.1 單因變量的回歸模型
單因變量的回歸模型,本文采用某三階低通濾波器為模型,如圖1所示,共設5個檢測點,以檢測點2的數據為因變量,其余檢測點為自變量?;貧w結果為
v(2)=0.1757v(1)-1.2529v(3)-1.5349v(4)-0.1757v(5)
得出,檢測點2的值是其他檢測點值的線性組合。
3.2 單因變量的回歸模型
采用某電路功率的仿真數據為例,X1、X2、X3為檢測點電壓,作為自變量,Y1、Y2為兩個檢測點功率,用做因變量。
以上數據中,取前十組數據用做回歸分析,后三組數據用做預測檢驗。把數據代入功能程序分析后可得:提出的成分個數 r=2
回歸系數為
251.5877 -33.5541
-2.674612.3638
-6.685516.7355
-0.7671 1.8699
其中,第一行為常數項,第i列對應第i個因變量。對應的回歸方程為
y1=251.6-2.675x1-6.686x2-0.767x3
y2=-33.554+12.36x1+16.74x2+1.870x3
下圖為回歸與預測絕對誤差曲線圖,用‘o’號表示的為y1誤差曲線,用‘+’號表示的為y1誤差曲線。
圖2 回歸與預測絕對誤差曲線
可以看到,PLS回歸模型可以很好的完成線性系統的回歸分析,對短期預測達到較高的精度。由于仿真數據比真實數據中夾雜的噪聲信號要小,所以回歸與預測精度較高。
4 結束語
通過對偏最小二乘回歸分析的原理以及建模步驟的分析,提出將PLS應用于系統的狀態檢測的多元線性回歸,并通過實例驗證了該方法的可行性。仿真實例計算表明,PLS方法可以很好的克服多重相關性在系統回歸建模中的不良影響,所建模型不論是擬合效果還是預測精度都取得令人滿意的結果。模型具有了多元線性回歸分析、主成分分析和典型相關分析的優點,對系統狀態檢測數據的整體性分析能力強。然而,PLS僅僅對線性回歸具有較好的解釋能力,而且還有很多可以發展和完善的地方,需要繼續深入地研究。
參考文獻
[1] 張恒喜,郭基聯,朱家元,等.小樣本多元數據分析方法及應用[M] .西安:西北工業大學出版社,2002.
[2] 李紅祥,岳東杰.偏最小二乘回歸在大壩位移監控中的應用[J] .水電自動化與大壩監測,2010,34(2):42-45.
[3] 鄒永杰,端木京順,高海龍.基于核偏最小二乘的支持向量機回歸算法研究[J] .計算機工程與設計,2010,31(10),2290-2293.
[4] 樓順天,劉小東,李博菡.基于MATLAB 7.x的系統分析與設計—信號處理[M].西安:西安電子科技大學出版社,1998.
[5] 谷松林,秦志明.基于稀疏核偏最小二乘法的短期負荷預測研究[J] .華北電力大學學報,2010 37(2):24-28.
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文