□趙玉新
近年來不少學者都在積極探索解決多元線性回歸中的多重共線性研究,對三種解決方法進行深入探討,針對每種解決方法的優劣以及實際應用效果進行深入分析,探討每種解決方法的實際應用情景,從而提高多元線性回歸的統計分析有效性以及預測準確性。三種方法的適用對象以及使用機理,本文研究的中心,其目的是為了提高實際問題中多元線性回歸的分析效果,降低多重共線性對分析結果及預測結果的影響,明確這些解決方法的實用情景以及模型預測分析是多元線性回歸應用繼續解決的問題。
多重共線性問題是多元線性回歸中自變量由于線性關系或者是近似線性關系,導致變量的顯著性更加隱蔽,不利于察覺,所以增加了強參數估計的方差,導致模型的構建更加復雜、不穩定,不利于多元線性回歸分析。若是多元線性回歸中多重共線性存在于自變量系統之中,依舊是采用最小二乘擬合回歸系數,就會降低模型的精確度以及可靠性,原因如下:一是當自變量完全相關時,最小二乘回歸系數難以估計;二是自變量之間若是存在不完全共線線性,雖然回歸系數可以估計但是估計方差會與自變量共線性成正比例關系;三是高度相關條件下,回歸系數的估計值會與樣本數據的微小變化的波動性大,導致回歸系數估計值穩定性下降;四是所示多重共線性影響較為嚴重,則回歸系數統計檢驗就難以順利進行;五是當自變量高度相關下,最小二乘法得到的回歸模型中的回歸系數難以解釋物理含義,所以導致回歸系數的取值價值下降,嚴重會導致回歸系數符號與實際情況相反;六是回歸模型基于樣本,多重線性也是抽樣數據所以建立的回歸模型若是用于預測,就難以保證預測期間數據不會受到多重共線問題影響,相對的共線性問題對預測結果雖然不會造成嚴重影響,但是預測結果卻難以確定;七是多重共線一旦出現,回歸系數就難以用一般解釋方法進行解釋。由此可見多元線性回歸中多重共線性影響嚴重,無法滿足多元線性的模型構建以及參數估計,不利于預測以及統計分析,研究多重共線性的消除是提高多元線性回歸分析價值提升以及模型穩健性的重要保障。
現階段學者們探索出的多重共線性解決方法主要是成分回歸、嶺回歸以及對偏最小二乘回歸三個方法,能夠有效消除多元線性回歸中多重共線性形象,針對自變量以及變量小系統的數據進行多樣處理。不過在解決線性回歸模型的多重共線性問題之中,這三種方法各具優勢,但是在嶺回歸及主成分回歸之中嶺參數以及特征因子篩選問題還是備受爭議,而對偏最小二乘回歸的機理及模型作用更加明顯。
(一)主成分回歸。主成分回歸的核心思想是主成分分析,根據多元統計方法針對多個變量間的相關系進行分析,利用幾個互不相關的主成分構建新的綜合指標,從而替換原有的具有一定相關性的P個指標,從而確保主成分具有更多的原始信息。具體步驟如下:一是摒除因變量Y,只考慮自變量的集合進行主成分提取,先是確定自變量集合的前m個非零特征值及向量,之后再針對主成分的性質,從均值為零和方差算子入手,前者是E(F h)=0,h=1,2,…,m,后者為var(F h)=λh h=1,2,…,m所以有var(F1)≥var(F2)≥…≥var(Fm),能夠反映出原變異信息的反應精度;二是針對第一主成分與所有原變量的相關度進行最優問題確定,也就是尋找一個綜合變量與原有所有自變量形成最相關,換言之就是第一主成分的確定;三是對主成分進行協方差確定,也就是針對主成分之間的不相關線性進行多重相關性回歸建模,通過成分提取思路,摒除因變量Y的影響,但是主成分回歸難以解釋Y,所以其應用范圍有限。
(二)嶺回歸。嶺回歸消除多重共線性得解決機理,主要是針對自變量中的復共線性也就是|XX'|≈0時,給XX’加上正常的數矩Kl(k>0),那么X'X+KI=0的可能性就會高于X'X,那么此時的基本思想:當出現多重共線性時,X'X≈0,從而使參數的β^=(X'X+KI)-1X'Y就會高于普通最小二乘估計的β,那么得到的模型就會更加穩定。嶺回歸應用主要應用于經濟數據分析,可以針對進口總額Y以及國內總產值X1、儲存量X2以及總消費量X3之間的關系進行分析,實際應用案例有2011年的法國經濟數據分析,通過收集得到的11組數據,計算出各個自變量及變量的平均值、方差、然后通過對給定的原始數據進行標準化及中心化,可以進一步得出最小二乘回歸,進而得出所需的特征值以及回歸方程,再通過嶺估計的概念在回歸方程中通過不同K值的代入能夠得到殘差平方和是嶺跡k的單調增函數,從而得到回歸的嶺跡圖,取得穩定的K值之后就可以得到所需的嶺回歸方程,用于統計分析以及預測技術。
(三)對偏最小二乘回歸。對偏最小二乘回歸主要是針對多因變量的統計關系之中,尤其是在回歸分析中若是自變量與因變量之間的個數較多,則因變量與自變量之間都會存在嚴重的多重共線性問題,所以就不能采用一般的多元回歸方法,因此需要利用最小二乘法進行建模,提高數據統計分析的效果以及數據價值。
對偏最小二乘回歸的基本思想如下:第一,記t1=X0W1,則能夠將多元線性回歸中多重共線性的消除轉變為優化問題,確定max。第二,將X0和Y確定在t1的回歸線上,也就是實現回歸方程的數值帶入,例如:X0=t1p1'+X1。第三,則是將殘差矩陣中的X1和y1代替X0和y,然后采取提取t1的方法,進行第二個綜合變量的t2的提取,以此類推,提取所有的綜合變量,目前比較流行采用的是交差有效性,針對Y進行成分t1,t2,…的普通多元線性回歸線防城區入定,然后針對X1,X2…進行線性組合得到PLS1回歸模型。總體而言,對偏最小二乘回歸采用的是循環式的信息分解與數據提取,所以能夠確保原始信息與變量信息的保存,自動排除對Y解釋無意義的數據,能夠有效對數據進行綜合性分析及模型構建,雖然對數據要求比較高,但是其應用范圍是最廣的。
總而言之,比對起成分回歸以及嶺回歸而言,對偏最小二乘回歸雖然在數據方面比較嚴格,但是其研究分析方法以及模型實用性較高,嶺回歸則是能夠在均方誤差無偏估計最小原則的情況下選擇嶺參數,而成分回歸則是能夠利用主成分加權殘差平臺進行篩選特征值,在實際應用過程中各有千秋,但對偏最小二乘回歸的模型最為有效,所以在消除多重共線性中備受關注。