999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

偏最小二乘—二階因子模型在綜合變量構建問題的研究

2016-05-30 10:48:04程豪易丹輝
現代管理科學 2016年2期

程豪 易丹輝

摘要:為了突破獨立性假定和主觀賦權的局限,兼顧真實數據的結構特征,文章提出偏最小二乘—二階因子模型(Partial Least Square Second-order Latent Variable Model,PLS-SLVM),解決綜合變量的構建問題。二階因子模型(Second-order Latent Variable Model,SLVM)作為構建綜合變量的模型基礎,其測量模型和結構模型分別展示了可測變量與潛變量間、潛變量間的結構關系。偏最小二乘(Partial Least Square,PLS)作為構建綜合變量的估計方法,不要求可測變量間相互獨立,保證權重賦值的客觀性。與簡單線性相加相比,PLS-SLVM較難理解,運算較為復雜,但PLS-SLVM放寬了獨立性假定,兼顧變量間真實的相關關系和結構狀態,提高了綜合變量的分類準確性,為企業管理與績效評價等方面提供方法學指導。

關鍵詞:綜合變量構建方法;二階因子模型;偏最小二乘估計;簡單線性相加

一、 引言

綜合變量構建方法需要滿足全面性、目的性、可比性、層次性、科學性等基本原則。綜合變量必須反映綜合評價問題的各個方面,必須緊緊圍繞綜合評價目的展開,保證研究結論的確反映了評價意圖,必須保證對每個研究對象的公平性和可比性,不能有傾向性的側重某些研究對象。綜合變量的構建過程必須關注綜合評價指標體系的層次性和結構性。這種層次性和結構性一方面體現在綜合變量架構的設計上,另一方面則體現在不同指標間關系的明確量化。綜合變量構建過程的層次性和結構性必須以綜合變量構建方法的科學性為前提。從元素到結構,從計算內容到計算方法都必須科學、合理、準確。科學的綜合變量構建方法一定是客觀的、嚴謹的,是經得起推敲的。從真實數據出發,有效避免人為干預,嚴格把握構建方法的適用條件,保證分析結果和研究結論的客觀性和嚴謹性。

簡單線性相加作為一種簡單易懂、方便操作的綜合變量構建方法。它要求所有條目間、不同條目所屬方面間均相互獨立,一般默認等權或人為賦權。這種強假設條件和主觀的賦權方式直接影響研究結論。本文提出的PLS-SLVM可以改進這些方面的不足,完成綜合變量的構建。

二、 PLS-SLVM的提出

1. 提出依據。目前,國內外常用的綜合變量構建方法不少于幾十種。盡管各種方法在原理、適用范圍、優劣點方面有所不同,但大體上可以分為兩類:一類是主觀賦權,即采用綜合咨詢評分的定性方法確定權重,比如簡單線性相加、層次分析法、綜合指數法等。另一類是客觀賦權,即根據各指標間的數值關系確定權重,比如主成分分析、因子分析等等。這些常用的綜合變量構建方法存在一些共性的特點。主觀賦權法普遍具備簡單易懂、清晰明了、方便操作的特點,客觀賦權法則有效規避了主觀賦權法在權重確定方面不夠客觀的缺陷,利用數據信息構建各指標變量間的層次關系和相互關聯。此外,不同的綜合變量構建方法都存在著不同的局限性。層次分析法的評價結果因判斷矩陣的不同而異,而且利用九級分制對指標的兩兩比較很容易出現矛盾,綜合指數法較難確定比較標準,而且評價結果對比較標準過于依賴。而主成分分析法在主要主成分的涵義和個數的確定方面都存在一些質疑。涵義界定的是否清楚直接關系到對結果的解釋清晰度和評價可信度。而根據方差貢獻率選擇的主要主成分畢竟不能代表全部數據信息,尤其在主成分是無序變量時,主成分綜合評價函數會導致錯誤的結論。相比之下,雖然因子分析同樣利用了降維的思想,但是因子分析需要滿足因子間不相關的假設條件,通過坐標軸不同程度的旋轉會得到不同的因子,而且因子載荷有時為負值,不易解釋。顯然,如果用因子分析尋找變量間的潛在結構,構造綜合變量存在一定的問題。

簡單線性相加作為綜合變量的構建方法之一,主要存在以下兩個方面的不足:

第一,簡單線性相加假定所有條目間、不同條目所屬方面間均相互獨立。在實際應用中,某幾個條目間可能存在獨立關系,但所有條目間相互獨立很難成立。試想,如果真實世界中所有條目間相互獨立,則統計學中討論變量間相關關系和因果關系的方法將無法使用,數據挖掘和機器學習的許多方法將失去研究基礎。不同條目所屬方面的獨立性假定,削弱了綜合變量本身可能存在的結構形態。不同方面間可能存在著一定的相關關系,這種相關性通過綜合變量可以得到進一步的解釋,表現為共同受到的潛在因素的影響。

第二,簡單線性相加采用默認等權或主觀賦權法,加入人為干預,不夠客觀。主觀賦權因人而異,不同的專家給出不同的權重。主觀賦權沒有考慮不同人群的特征,不同的人群可能有相同的權重。這種主觀而“普適”的權重賦值方式直接影響綜合變量的研究結論和評價效果。賦權方式應該是基于客觀數據的,是兼顧人群特征的,是參與數值計算過程始終的。尤其在挖掘和探索綜合變量不同方面間結構關系,通過先驗信息決定權重削弱了對實際數據的提取和利用。

真實世界的可測變量間往往不相互獨立。綜合變量的構建需要真實反映綜合變量的內涵與邏輯結構,有效避免簡單線性相加等主觀賦權法對非客觀數據因素的依賴性。相比之下,PLS-SLVM從真實數據出發,不要求所有條目間相互獨立,揭示條目間實際存在的相關關系和結構形態。選擇客觀的權重賦值方式,有效避免人為干預,經過權重和得分的相互作用和反復調整,完成綜合變量的所有數值計算工作。PLS-SLVM的提出,突破了簡單線性相加的局限,提供了一種新的綜合變量的構建方法。

2. SLVM。作為綜合變量構建方法的模型基礎,SLVM根據變量是否可以直接觀測,將模型中的變量分為可測變量和潛變量。SLVM的提出將變量是否可以直接觀測這一屬性和變量間的結構清晰的展示出來。一階因子表示的是可測變量共同反映的某個方面,二階因子是一階因子的綜合體現,反映的是一階因子共同受到的影響因素。比如,在評價企業家領導力、企業戰略績效、企業資本等問題時,二階因子可以作為綜合變量,反映這些評價課題不同方面共同收到的影響因素。SLVM的表達形式如下:

xjh=?姿jh?孜j+?著jh(1)

?孜j=?茁j?濁+?啄j(2)

(1)式為測量模型,它反映的是可測變量xjh與一階因子?孜j間的關系。?姿jh是載荷系數,表示一階因子?孜j對可測變量xjh的影響。?著jh為第j個一階因子?孜j中第h個可測變量xjh的測量誤差,均值為0,方差為?啄2jh,且與一階因子?孜j不相關。

(2)式為結構模型,它反映的是一階因子?孜j與二階因子?濁間的關系。?茁j是路徑系數,表示二階因子?濁對一階因子?孜j的影響。?啄j為第j個一階因子?孜j的測量誤差,均值為0,方差為?啄2j。

3. PLS。為了避免聯合分布的假定,可以采用PLS估計SLVM中的因子得分和系數。算法的基本思想如下:

首先,標準化一階因子(?孜j-mj)的外部估計Yj。一階因子的外部估計是指利用可測變量的線性組合對一階因子進行逼近。標準化一階因子(均值為0,標準差為1)以中心化的可測變量的線性組合表示:

Yj∝[?撞?棕jh(xjh-xjh)](1)

標準化一階因子最終可寫為:

Yj∝[?撞■jh(xjh-xjh)](2)

一階因子的估計為:

mj=?撞■jhxjh=Yj+mj(3)

■jh被稱為外生權重。

其次,標準化二階因子(?濁-m)的內部估計Z。二階因子潛變量的內部估計指的是利用因子間的某種數學關系,對一階因子的外部估計值進行調整的過程。內部估計Z被定義為:

Z∝?撞eiYi(4)

內生權重ei指在模型中有箭頭連接的兩個因子的關系,它有路徑加權方法、重心方法、因子加權方法三種方法可以選擇,本文采用重心法,即ei等于Yj與Yi的相關系數的符號。

第三,更新一階因子與可測變量間、二階因子與一階因子間的權重。本文利用(7)式更新一階因子與可測變量間的權重?棕j,利用(8)式更新二階因子與一階因子間的權重e。

?棕j=(X′jXJ)-1X′jXJ(5)

e=(Y′jYJ)-1Y′jZJ(6)

初始的權重可以任意的賦值,然后進行上述的迭代計算,直到收斂為止。常用的收斂判斷標準為:相鄰兩次的權重估計值相差小于10-5。

因此,PLS算法的迭代步驟如下:

步驟1設定初始權重?棕jh=1,計算向量Yj的初始值為?撞(xjh-xjh),通過(4)式,可以得到Z的估計值;

步驟2根據Z的估計值,通過公式(5)和(6),可以計算出新的權重?棕j和e;

步驟3利用計算得到的?棕j和e,依次通過(2)和(4),分別得到新的Yj和Z;

步驟4再回到步驟1,指導計算收斂為止,則最終得到的?棕j和e作為權重,最終得到的和作為一階因子Yj和Z二階因子得分。

三、 PLS-SLVM的研究結論

1. PLS放寬了對數據分布的要求。綜合變量構建中的估計方法有最大似然(ML)估計法和偏最小二乘(PLS)估計法兩種方式。最大似然法固然可以估計出權重和系數,但是要求數據服從對稱的聯合正態分布。但在實際研究中,數據多為不對稱的偏態分布。因此該方法科學性的基礎受到限制。偏最小二乘估計算法(PLS)通過內外部關系調整、迭代,計算得到潛變量的值,對數據沒有聯合正態分布的要求,因此更適于企業管理和績效評價的實證研究。偏最小二乘(PLS)估計不要求數據服從正態分布,可以采用Bootstrap方法構造置信區間,計算均值、標準差、置信上限和置信上限,構造95%置信區間檢驗各個參數的合理性(顯著性)。為驗證大樣本情況下滿意度指數PLS估計的穩健性與可行性,采用Bootstrap法進行五組模擬實驗:根據滿意度指數模型生成樣本量為100 000的模擬數據,分別利用Bootstrap法抽取樣本量為5 000、10 000、20 000、30 000和50 000的隨機子樣本,每組模擬重復500次抽樣。將每組模擬數據的模型估計結果平均值、全數據(100 000條)一次估計和模擬數據參數真值進行比較,研究發現Bootstrap法隨機估計的方法優于全數據的一次性估計。

2. 兼顧變量相關性,突出結構狀態。簡單線性相加有兩種賦權方式:一種是默認權重為1,假定不同可測變量與潛變量間、潛變量與潛變量間的關系相同;另一種是主觀賦權,采用專家打分等方法對權重賦值。無論采用哪種賦權方式,可測變量與潛變量間、潛變量與潛變量間的權重均沒有從真實數據出發,沒有考慮變量間的相關性。而且,這兩個賦權過程是相互獨立的,彼此互不影響。

PLS-SLVM對路徑系數和載荷系數的估計不是兩個相互獨立的過程。在全盤考慮條目間關系的基礎上,通過不斷的內部調整,更新內生權重,通過不斷的外部調整,更新外生權重,反復迭代,最終估計出路徑系數和載荷系數。不同可測變量與潛變量、不同潛變量間數量關系的明確量化突出了綜合變量的結構形態。

3. 減少因子得分趨同的可能性。因子得分可以表現不同研究對象在某個方面的表現,如果不同研究對象的某個因子得分相同,則說明研究對象在該方面的表現沒有區別。但是,也可能是方法本身造成因子得分的過度趨同。若二階因子宗氣指數得分過于趨同,則會影響綜合變量對結果的判斷和評價;若一階因子得分過于趨同,則不利于綜合變量排名的影響因素的探索,無法研究綜合變量得分相同的各一階因子的得分及構成特點,更不利于研究綜合變量得分不同的各一階因子的得分及構成特點。

事實上,綜合變量構建方法本身也會對因子得分產生影響,選擇二階因子模型可以更好的區分不同研究對象的各階因子的水平。這是因為,二階因子模型計算因子得分的過程中要通過外部調整和內部調整,利用可測變量與一階因子間的權重(載荷系數)、一階因子與二階因子間的權重(路徑系數)不斷調整外部估計和內部估計,迭代所得。而簡單線性相加則是對可測變量進行權重為1的一次性加和,如果每個可測變量均采用量表打分的方式,取值范圍均為{1,2,3,4,5},更易出現因子得分趨同的結果。此外,二階因子模型中各個權重系數之間的差異也是增加因子得分區分度的因素之一。

4. 提高綜合變量分類準確性。綜合變量構建方法的好壞,直接影響綜合變量對不同結局的識別能力和分類效果。為了進一步探討簡單線性相加方法和PLS-SLVM在這些方面的表現,本文借助受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC),計算AUC和判對率,評價綜合變量的區分度和分類準確性。

因子得分作為重要的估計結果之一,是繪制ROC曲線的基礎。因子得分的研究,并不止于比較絕對數值的大小,而在于對相對信息的分析和探索,關注不同研究對象的相對位置,因此,對因子得分取秩是獲得相對信息的途徑之一。無論是對因子得分本身還是取秩后進行研究,PLS-SLVM都為綜合變量分類準確性的提高提供了可能。研究表明,PLS-SLVM提高了綜合變量的判對率,增加了分類準確性。

四、 結論

綜合變量構建方法的好壞,關鍵在于多指標結合為綜合指標的統計方式的選擇。一種好的統計方式應該放寬獨立性假定,突破主觀賦權的人為干預,考慮真實數據的結構特征。SLVM設定了可測變量與潛變量間、潛變量間的結構關系。PLS算法不要求可測變量間相互獨立,完成了載荷系數、路徑系數及因子得分的估計。SLVM與PLS的結合,改進了簡單線性相加在強獨立性假定和主觀賦權方面的不足。

研究表明,PLS-SLVM作為一種綜合變量的構建方法,不僅在構建過程中兼顧變量間的相關關系和結構形態,而且提升了綜合變量的分類準確性,可以用來判斷或預測不同研究對象的所屬類別。

此外,偏最小二乘—二階因子模型作為一種非參數的估計方法,沒有分布假定,不必計算結構模型中的所有關系。因此,當樣本量較少時,不會出現無法識別的問題,而且會得到相對較高的統計功效。隨著樣本量的增加,偏最小二乘—二階因子模型的估計精度越高。當存在缺失數據時,該算法在一定程度上具有較高的穩健性。偏最小二乘—二階因子模型可以適用于度量數據、二分類數據等數據類型,但是在測度分類內生變量時,存在一定的局限性。無論模型是否復雜,因子(潛變量)是通過單個還是多個可測變量進行測度,因子與可測變量間關系是形成型還是反映型,偏最小二乘算法都較為適用。而且,隨著可測變量個數的增加,該算法的估計有偏性會降低。此外,與極大似然估計方法相比,盡管偏最小二乘估計算法沒有全局擬合優度評價指標,但是卻可以得到因子得分。當樣本量足夠大時,可以借助Boostrap方法構造置信區間,計算均值、標準差、置信上限和置信上限,構造95%置信區間檢驗各個參數的合理性(顯著性)。

但是,并不是所有的綜合變量構建問題都可以用PLS-SLVM來解決。當一階因子間存在中高度關聯性,一階因子測度的是同一個問題的同一個水平,二階因子能夠反映并解釋一階因子所受到的共同影響時,才考慮采用SLVM。尤其在樣本量較小、待估參數較多的情況下,PLS-SLVM可以保證模型的可識別性和模型的簡化。

參考文獻:

[1] 侯杰泰,溫忠麟,成子娟.結構方程模型及其應用[M].北京:教育科學出版社,2004.

[2] 高文杰,高旭.基于SEM的我國重要城市現代化水平綜合評價模型研究[J].數學的實踐與認識,2010,(18).

[3] 羅玉波,王玉翠.結構方程模型在競爭力評價中的應用綜述.技術經濟與管理研究,2013,(3).

[4] 孫繼紅,楊曉江,繆榕楠.我國高等教育發展統計特征的PLS通徑模型分析.數理統計與管理,2010,(2).

[5] 王惠文.偏最小二乘回歸方法及其應用[M].北京:國防工業出版社,1999.

基金項目:2012年中醫藥行業科研專項(項目號:2012468005)。

作者簡介:易丹輝(1948—),女,漢族,湖南省汨羅市人,中國人民大學統計學院教授、博士生導師,研究方向為風險管理與保險、預測與決策;程豪(1989—),男,漢族,山西省長治市人,中國人民大學統計學院博士生,研究方向為結構方程模型、社會網絡、數據挖掘。

收稿日期:2015-12-12。

主站蜘蛛池模板: 国产精品自拍露脸视频| 日韩毛片免费| 搞黄网站免费观看| 国产精品网曝门免费视频| 国产日韩丝袜一二三区| 精品国产黑色丝袜高跟鞋| 久久五月天国产自| 免费在线看黄网址| 国产亚洲欧美在线中文bt天堂| 免费一极毛片| 在线高清亚洲精品二区| 国产jizzjizz视频| 第一区免费在线观看| 成AV人片一区二区三区久久| 美女裸体18禁网站| 久久久噜噜噜久久中文字幕色伊伊 | 国产欧美亚洲精品第3页在线| 国产免费怡红院视频| 人人妻人人澡人人爽欧美一区| 国产精品999在线| 国产精品手机在线播放| 美女内射视频WWW网站午夜| 色综合成人| 亚洲精品你懂的| www.精品国产| 激情无码字幕综合| 91亚洲精选| 国产精品无码久久久久久| 国产黑丝一区| 国产亚洲精品自在线| 中文字幕资源站| 亚洲成人在线免费| 91原创视频在线| 欧美丝袜高跟鞋一区二区| 国产xxxxx免费视频| 国产AV无码专区亚洲精品网站| 在线观看国产小视频| 国产欧美日韩va另类在线播放| 国产精品丝袜在线| 国产美女无遮挡免费视频| 日韩免费中文字幕| 无码国产伊人| 91啦中文字幕| 亚洲欧洲日本在线| 亚洲第一黄片大全| 四虎成人精品在永久免费| 夜夜操天天摸| 2021无码专区人妻系列日韩| 最新国产麻豆aⅴ精品无| 青青草综合网| 91久久精品国产| 日韩欧美中文字幕在线精品| 五月婷婷导航| 国产在线一区二区视频| 日韩国产黄色网站| 无码视频国产精品一区二区| 91精品国产无线乱码在线 | A级全黄试看30分钟小视频| 国产网站免费| 久久九九热视频| 欧美中文字幕第一页线路一| 国产成人三级在线观看视频| 精品1区2区3区| 黄色网站不卡无码| 特级欧美视频aaaaaa| 久99久热只有精品国产15| 99久久精品免费看国产电影| 91黄视频在线观看| 狠狠v日韩v欧美v| 97久久免费视频| 欧美丝袜高跟鞋一区二区| 国产极品美女在线| 亚洲 欧美 中文 AⅤ在线视频| 99re这里只有国产中文精品国产精品 | 99久久精彩视频| 影音先锋亚洲无码| 国产精品久久久久久久久| 日本精品视频一区二区 | 婷婷激情五月网| 国产在线视频自拍| 精品国产污污免费网站| 真实国产乱子伦高清|