關于二階PLS-PM模型中權重估計算法的探討

2011-03-09 06:37:36趙萍

統計與決策 2011年13期

關鍵詞：模型

趙萍

（1.中國人民大學統計學院，北京 100872；2.澳門大學科技學院數學系,澳門 3001)

0 引言

二階PLS-PM模型（PLS Path Model）首先由H.Wold（1982）提出模型的基本設計。Lohmoller（1989）列出了各種外、內權重估計模式組合，以及得到的不同結果。2001年C. Guinot（2001）將PLS-PM模型與復數據表分析相結合構建二階PLS-PM模型，并將其應用于法國女性的化妝品使用習慣中。王惠文（2004），鮮思東(2010),，葉明（2010）,阮敬（2006），劉旭華（2008）將其應用于（在多個領域）建立綜合評價指數，都采用了外部權重估計模式A及內部權重估計重心模式C對模型進行估計，結果是各個一階潛變量均被賦予了相同的內部權重，各個顯變量也被賦予了幾乎“相同”的外部權重。正如王惠文在文中所指出，“在實際問題的評估中，代表不同概念的變量組其重要程度是不一樣的，應該具有不同的權重”，并建議對此做進一步研究。為此，本文將著重對二階PLS-PM模型在實際應用中的權重估計算法模式選擇問題進行研究：首先討論不同權重估計算法模式的統計意義，以便應用時能正確地作出選擇。由于權重估計模式組合不同，模型的優化目標及作用不同，分析說明的問題也就不同，如果不能正確選擇，導致結果可能與預期不符。其次，討論各種權重估計模式組合下，模型不同的優化結果。然后，采用蒙特卡羅模擬方法證明，在二階PLSPM模型中，采用模式A得到的權重有嚴重的趨同現象，不能很好地反映實際問題中的信息差別。而模式B得到的權重具有反映相對貢獻的效果，具有實際應用價值。模式A估計的參數較穩定；模式B估計的參數穩定性不如模式A,但在一定條件下可以通過參數檢驗。

1 二階PLS-PM模型簡介

1.1 模型的基本設定

二階PLS-PM模型由外部區組模型與內部遞階結構模型兩部分組成（詳見 H.Wold 1982,，Lohmoller 1989，C. Guinot 2001）。假設對J個區組的顯變量Xj={xj1，…，xjk，…xjkj}均有n個樣本觀測值，所有顯變量xjk都是中心化的變量。每一區組顯變量Xj的所有信息通過其一階潛變量ηj來傳遞，即有外部區組模型①外部區組模型沒有“構成型”模型，只有唯一的“反映型”外部模型（1）（H.Wold,1982），但在模型估計算法中，外部模型有模式 A（向外虛線表示）和模式B（向內虛線表示）兩種外部權重估計算法。使用模式B外部權重估計算法并不等于“構成型模型”。不可將模型和模型的估計算法相混淆。模型不同的權重估計模式決定了模型不同的優化目標。：

J個區組的一階潛變量ηj之間并非完全獨立，卻又沒有特定的因果關系，但存在公共結構/內在關聯。設定內部結構模型，目標是用二階潛變量ξ來概括/反映一階潛變量ηj之間的公共結構/內在關聯信息。內部遞階結構模型（即一階LVηj與二階LVξ之間的模型）形式有兩種選擇。外散二階模型（由二階LVξ指向一階LVηj）有J個內部模型關系；內收二階模型 (由一階ηj指向二階ξ)有一個內部模型關系（H. Wold，1982）。如果二階ξ為構成型LV，一階ηj為其構成要素，而且我們的研究目標是用二階ξ來概括一階ηj（或通過一階預測二階ξ），應選擇二階內收結構模型：

圖1 二階pls-pm模型設定圖（模型設定圖用實線表示）

如果二階ξ為反映型LV，一階ηj為其反映指標，應選擇二階外散結構模型：

分別對（1）、（2a）、(2b)模型做條件期望假設。

1.2 權重估計算法的基本設定

輔助估計關系：H.Wold(1982)提出，重復使用MVs來估計二階PLS路徑模型，如圖2所示。所有MVs都用兩次，一次用作ηj的指標，一次用作ξ的輔助指標并放在ξ的后面。

圖2 PLS-PM權重估計算法設定圖（估計算法設定圖用虛線表示）

二階PLS-PM模型一方面可以直接求出各階潛變量LVs得分估計值,并確定各個顯變量MV對構建一階LV的貢獻及一階LV對構建二階LV的貢獻；另一方面，二階LV既對所有原始顯變量的代表性最好，又可以由所有一階潛變量進行解釋，可以作為概括原始顯變量信息的綜合指標。然而，對同一個二階外散/內收模型，有12種權重估計算法模式組合（外部關系與輔助關系有AA、AB、BA、BB,內部有C、F、P），不同的權重估計模式組合會得到不同的模型估計結果。

2 各種權重估計算法模式的統計意義及其選擇原則

2.1 外部權重估計算法模式A、B的統計意義

每一個LV的外部權重估計有兩種算法選擇：模式A及模式B。外部權重估計算法模式的選擇是模型估計的關鍵，它決定了模型的優化目標。下面對這兩種算法模式A、B的統計意義進行較為詳細的闡述。

為了得到潛變量LV的外部估計值，即一階LV:Yj=(Xjwj) *和二階LV:Y=（Xw）*，首先要對外部權重wj及w進行估計。模式A用簡單回歸系數Xj=wjZj來估計外部權重wj；模式B用多元回歸系數Zj=wjXj來估計外部權重wj。其中Zj為一階LV的內部估計值。

2.1.1 模式A

因為cov(Xj,Zj)=cov(wjZj,Zj)=wjvar(Zj)=wj，即權重等于協方差，算法模式A的權重只考慮每個MV與其LV的協方差關系，沒有考慮MV與區組其他MVs的內部相關。

模式A的優化目標是，尋找ηj的估計值Yj達到條件最小化該區組每個MV的殘差方差，在收斂的極限，所有MVs的殘差方差聯合最小化。即在其他參數給定的條件下，達到該區組LV對MVs的最佳預測，MVs為最佳預測子。因此，模式A多適用于因變量LV。

模式A中權重為簡單回歸系數，即以載荷作為權重（此時權重與載荷成比例）來估計LV值。由于載荷測量的是每個MV單獨/獨立反映潛在LV的能力；而每個MV的權重反映它對構建LV的貢獻。因此，用模式A估計時，是以每個MV獨立反映潛在LV的能力作為權重來構建LV的估計值。由于此時權重為每個MV對LV的獨立的貢獻，沒有研究每個MV在LV中的相對重要性。因此，模式A多適用于反映型LV。

2.1.2 模式B

模式B的優化目標是，尋找ηj的估計值Yj達到條件最小化該LV的殘差方差；即在其他區組參數給定的條件下，達到MVs對該區組LV的最佳預測，LV為最佳預測子。因此模式B多適用于自變量LV。

模式B中外部權重為多元回歸系數，即以多元回歸系數為權重來估計LV值。用模式B估計時，是以每個MV對LV的相對貢獻作為權重來構建LV的估計值。權重反映一個區組中每個MV（相對于區組整體MVs）對LV的相對貢獻。因此，在實際應用中,模式 B中每個MV的權重即為其相對重要性。需要指出，外部權重只代表該區組內的MVs間的相對重要性，不能與其他區組的權重進行比較。因構成型 LV中，MVs的作用取決于它預測其LV的能力。因此構成型LV多采用模式B估計。用模式B估計時，要求MVs之間不存在或存在較小的多重共線性。

2.2 內部權重估計算法模式C、F、P的統計意義

(1)重心模式C(Centroid)，e.j=ej.=sign(corr(Yj.Y))=+1。重心模式C僅利用一階LVs與二階LV間的關聯關系，賦予相同的內部權重，而不考慮相關的強度及因果關系。

(2)因子模式F(Factor)，e.j=ej.=corr(Yj,Y)。因子模式F考慮各個一階LV與二階LV間的相關大小，內部權重為相關強度，但不考慮結構模型關系。

(3)路徑模式P(Path)，既考慮一階LVs與二階LV間相關強度，又考慮他們的結構關系。內收模型中內部權重e.j用Y對Y1,…,YJ的多元回歸系數；外散模型中內部權重e.j用Yj對的簡單回歸系數，此時e.j=ej.=corr(Yj,Y)，權重值等于因子模式F時的權重值，結果與采用因子模式沒有差別.雖然三種內部權重估計模式的統計意義不同，但因為潛變量LV的值主要由外部權重加權得到，模型的參數值差別不大。

表1 不同的外部、內部權重估計算法模式組合

3 不同的外部、內部權重估計算法模式組合，得到不同的二階PLSPM模型優化目標

由于不同的外部、內部權重估計模式，及不同的估計模式組合，將使得模型的優化目標和作用不同，因此分析說明的問題不同；如果不能正確選擇，可能導致模型優化目標及應用結果與期望解決的問題不符。因此,以下對此進行說明。表2列出了所有系統的權重估計算法模式的組合及其應用結果。

組合#2是Lohmoller’s分組主成分分析采用外部模式A、輔助模式A及內部模式P情況下,得到所有X的第一主成分Y=(wX)*，各個區組Xj的主成分Yj=(wjXj)*。此時，二階LV既是所有X的主成分（MVs的最佳預測元）;也是所有一階LV的主成分（解釋最多的一階LVs的方差）；二階潛變量一方面最大程度反映所有顯變量所包含的信息；另一方面又與其他一階潛變量之間有最強的相關性。

組合 #7 Carroll’s一般典型相關分析。采用外部模式B、輔助模式B及內部模式F情況下，得到Carroll’s一般典型相關分析結果即Yj與Y之間的相關平方和最大化：Max∑cor2(Yj,Y)。采用外部模式B、輔助模式B及內部模式C情況下，得到Horst’s一般典型相關分析結果（SUMCOR標準），即Yj與Y之間的相關和最大化：Max∑cor(Yj,Y)。

組合 #1a：目前國內應用二階PLSPM模型建立各種綜合評價的文章中，都使用了組合#1a,即外部估計模式A及內部估計重心模式C。上文已經說明，采用內部估計重心模式C，僅考慮一階LV與二階LV的相關關系，使得各個一階LV在二階LV中均被賦予相同的權重值+1。以下將用蒙特卡羅模擬證明，采用估計模式A,外部權重也具有嚴重的“趨同性”，并解釋了造成這種趨同性的原因。因此，這種權重估計模式組合并不能很好反映實際問題中的信息差別、不同的重要程度，從而賦予不同的權重。

組合 #4:適用于綜合評價模型。模式B得到的權重具有反映MV對LV的相對貢獻，反映不同數據信息的相對重要性，具有實際應用價值。采用外部模式B（輔助模式A）及內部權重模式P，得到最佳權重估計及最優綜合評價結果，適用于構成型LV的綜合評價模型。

4 蒙特卡羅模擬：比較兩種外部權重估計模式A、B所得權重值

通過模擬說明，不同的外部權重估計模式，所反映的數據信息不同，模型估計結果不同。外部權重模式A以載荷為權重，其權重值具有趨同現象，不能反映各個顯變量對構建LV的相對貢獻率;而模式B具有一定區別信息相對貢獻率的能力。

表2 外部權重估計模式A、B所得權重值比較

內收二階模型產生模擬數據：X的取值樣本n=100,獨立正態分布;三個一階潛變量，每個分別有三個顯變量;一階潛變量的相關系數r=0.6,外部殘差= 0.2,路徑系數分別為0.2，0.3，0.5；二階LV估計的輔助關系采用外部權重模式A。表2中，比較一階LV外部權重模式A、B時的權重值。

模式A下同一區組MVs的權重僅僅在小數點第二位有微小差別，即模式A下權重具有“嚴重”趨同性。模式B下的權重區別程度較大，權重反映相對重要性，。模式A下模型的穩定性大于模式B的穩定性，但模式B下，模型也是穩定的，全部通過t檢驗。

造成模式A下權重具有“嚴重”趨同性的原因是，在二階PLSPM模型中，每個顯變量MV都使用了兩次，一次在一階LV區組中，一次在二階LV區組重復使用。此時，對同一個顯變量MV，在兩個相關的潛變量LVs（一階LV和二階LV）中的兩個“載荷”代表LVs間的結構系數，即協方差系數，不是LV的載荷系數，即不是MVs對LV的回歸系數。由于同一個一階LV區組內的各個MVs載荷均反映該LV與二階LV的協方差系數，因而載荷取值嚴重趨同。由于權重估計模式A是以LV在MV中的“載荷”為權重由此權重也就會具有嚴重的趨同現象。

5 結論

研究結果表明，兩種外部權重估計模式A、B及三種內部權重模式C、F、P具有不同的統計意義；尤其是不同的外部權重估計模式決定了不同的模型優化目標。模式A條件最小化區組每個MV的殘差方差，LV為最佳預測元；模式B條件最小化LV的殘差方差，LV為最佳預測子。模式A適用于反映型、因變量LV；模式B適用于構成型、自變量LV。模式A下的權重反映每個MV對LV的獨立的貢獻，模式B下的權重反映一個區組中每個MV（相對于區組整體MVs）對LV的相對貢獻。

二階PLSPM模型中，各種不同的估計模式組合下，模型的優化結果不同。采用蒙特卡羅模擬方法，證明了采用模式A得到的權重有趨同現象，不能很好地反映實際問題中的信息差別。而模式B得到的權重具有反映相對貢獻的效果，具有實際應用價值。模式A估計的參數較穩定；模式B估計的參數穩定性不如模式A,但在一定條件下可以通過參數檢驗。外部權重模式B（輔助權重模式A）及內部權重路徑模式P適用于估計二階內收PLS-PM模型，外部權重及內部權重均為相對貢獻率，從而達到最佳綜合評價的目標。但需要事先對顯變量MVs進行“因子分析”，消除或減輕多重共線性的影響，提高穩定性。此結論適用于構成型一階及二階潛變量。

[1]Wold H.Soft Modelling:the Basic Design and Some Extensions [J].System Under indirect Observation:Causality,Structure,Prediction,North Holland,Amsterdam,1982，（2）.

[2]Lohm?ller J.-B.LatentVariablesPath Modelingwith Partial Least Squares[M].Heildelberg，Physica-Verlag 1989.

[3]Guinot,C.,Latreille,J.,Tenenhaus,M.PLS Path Modeling and Multiple Table Analysis.Application to the Cosmetic Habits of Women in Ile-de-France[J].Chemometrics and Intelligent Laboratory Systems，2001，58.

[4]王惠文，付凌暉.PLS路徑模型在建立綜合評價指數中的應用[J].系統工程理論與實踐，2004，10(10).

[5]鮮思東，楊春德.基于PLS的商業銀行BSC績效評價[J].統計與決策，2010,（10）.