999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于偏相關系數和平行檢驗的主成分抽取數量的確定方法

2011-10-24 06:35:12
統計與決策 2011年4期
關鍵詞:方法模型

尹 波

(成都東軟學院,成都 611481)

基于偏相關系數和平行檢驗的主成分抽取數量的確定方法

尹 波

(成都東軟學院,成都 611481)

主成分抽取數量的確定是主成分分析中的關鍵問題。文章提出了一種新確定方法:首先基于原樣本數據采用偏相關系數準則來確定主成分抽取的數量;然后基于再抽樣樣本數據來驗證主成分數量模型的穩定性,并在SPSS環境下實現了該方法。實例應用表明該方法相比特征值大于1、Cattle Scree等準則,結果更客觀、準確和穩定,可廣泛應用于主成分分析、因子分析等相關研究中。

主成分抽取數量準則;特征根大于1;偏相關系數;平行檢驗

0 引言

在管理科學的研究中,經常需要通過問卷調查等方式來獲得樣本數據,并對樣本數據進行主成分抽取或因子抽取(以下統稱主成分抽取)時,這里必然要涉及的一個重要問題就是主成分抽取數量的確定[1,2,3]。不少研究者常常采用SPSS或SAS軟件包中內置的降維模塊來確定主成分抽取的數量,并進而構建結構模型。比如SPSS15.0 for Windows中確定主成分抽取數量的準則主要有兩個:一是特征根大于1;二是預先確定要抽取的主成分數量。由于常常預先難以確定主成分抽取的數量,國內不少研究者是采用特征根大于1的抽取準則(Kaiser準則)[4,5,6,],以《管理世界》為例,2001~2006 年涉及主成分和因子抽取的文章36篇,其中使用Kaiser準則的32篇。事實上,Kaiser準則作為主成分抽取的常用準則[7],往往過多地抽取主成分[2,3],導致部分主成分難以賦予合適的意義,成為“噪音”;或采用解釋總方差比例(比如大于85%)作為主成分抽取的準則[8]。這些方法不免主觀和武斷,缺乏足夠的科學依據。

由于Kaiser準則等的不足,國內外不少學者對于主成分抽取數量確定的準則作了研究和改進。比如Cattell Scree準則,是通過觀察Scree Plot圖形的“肘部”來判斷主成分抽取數量的一種直觀方法,該準則可以提高主成分確定數量的準確性,但存在的問題是有時候“肘部”不容易清楚判斷或者有幾個“肘部”[9];文獻[10、11]在探索性階段預先確定主成分數量的備選范圍,在驗證性階段檢驗主成分數量和相應結構模型,較好地提高了主成分數量確定的科學性和相應結構模型的穩定性,但這些方法還存在以下問題:一是備選主成分數量如何有效確定;二是模型的吻合情況只針對了樣本數據,得到的主成分數量模型對于總體數據而言可能有一定甚至較大的偏差。

基于以上研究,本文擬提出確定主成分抽取數量的新方法:首先基于原樣本數據采用Velicer偏相關系數準則來確定主成分抽取的數量;然后基于再抽樣樣本數據采用Horn平行檢驗來驗證主成分數量模型的穩定性,并在SPSS環境下編程實現了該方法。該方法將較好地解決文獻[4、5、6、8、10、11]方法中存在的問題,在樣本數據一定的情況下,可減少主成分數量模型的系統誤差,提高模型的泛化性和穩定性,是對目前廣為使用的Kaiser準則等的改進,可應用于主成分分析和因子分析等相關研究中。

1 主成分抽取數量確定的方法

主成分抽取的目標是以盡可能少的主成分來盡可能充分地反映原樣本空間的信息。主成分數量抽取太少,就難以充分地反映原有信息。主成分抽取數量過多,反映的原樣本空間信息多,但較多的主成分難以給予恰當的背景意義?!氨M可能少”的主成分和“盡可能多”信息之間的平衡是主成分抽取的關鍵和困難所在。這里我們提出確定主成分抽取數量的新方法,其步驟為:

(1)基于樣本數據,選擇良好的判斷準則,確定主成分抽取的數量。

(2)采用同一總體數據中不同樣本數據,選擇良好的檢驗方法,對(1)所確定的主成分數量模型進行檢驗。

(3)如檢驗通過,主成分數量模型確定;如檢驗未通過,尋找其他方法來確定主成分數量。

1.1 基于樣本數據的Velicer判別準則

目前基于樣本數據的判別準則多樣,如Kaiser準則、Cattle Scree準則、解釋的總方差比例、Bartlett's Sphericity檢驗和Velicer偏相關系數等。從算法的理論基礎、目標、主成分數量結構的顯著性等方面來考察,不同的準則有不同的優缺點,總體而言,Velicer偏相關系數作為一種對于數據分布無假設、統計計算量不大的統計方法,是普遍公認的最好方法[12、13],其方法可以表述為:

設向量矩陣X=(x1,x2,…,xp),從X中抽取m個主成分Z=(z1,z2,…,zm)。 矩陣[X,Z]的相關系數矩陣為這里C11是X的相關系數矩陣,C22是Z的相關系數矩陣,從向量矩陣 X=(x1,x2,…,xp)中去除 m 個主成分所得矩陣的相關系數矩陣為

這里rij*是矩陣R11*第i行和第j列的元素。當fm的值最小時,對應的m的值即抽取的主成分數量,這里m取值從1到p-1。2000年Velicer,W.F.等對于最小平均平方根偏相關系數準則進行了改進,提出了最小平均1/4次方偏相關系數準則,基于真實數據和仿真數據的研究表明兩種最小平均偏相關系數檢驗結果極其相似,但后者更加準確和靈敏[14]。

1.2 基于同一總體數據中不同樣本數據的檢驗

如果樣本數據充分,我們可以從全體樣本數據中隨機抽取一些樣本數據用于主成分分析來確定抽取的主成分數量(通常是總樣本數據的2/3),另外一部分數據用于主成分數量模型的檢驗。實際應用中,通常樣本數據較少,因此需要我們采用Bootstrap方法產生再抽樣數據進行主成分數量模型的檢驗。

基于再抽樣樣本數據的檢驗方法我們選擇Horn平行檢驗。Horn平行檢驗首先計算再抽樣樣本集合的特征值的平均值λmean,并與基于原樣本數據的特征值λraw分布相比較,觀察λraw≥λmean,對應的主成分數量的最大值就是最優決策;進一步考慮在 95%置信區間下的 λm,比較 λm與 λraw,觀察 λraw≥λm,對應的主成分數量的最大值就是更穩定的主成分數量決策[15、16],這也是美國教育與心理測量雜志大力推廣的確定主成分抽取數量的方法[17]。這個方法的缺點是再抽樣數據在某種意義上而言是偽數據,特別是當抽樣調查方法不盡科學合理時,數據的偏差會更大。單一使用Horn平行檢驗來確定主成分抽取的數量有較大的樣本風險,因此我們僅僅使用Horn平行檢驗來驗證基于原樣本數據所確定的主成分數量模型。

1.3 檢驗通過或未通過的情形

如檢驗通過,主成分數量模型確定;如檢驗未通過,需要尋找其他方法,如Bootstrap Bias Corrected and Accelerated(BCa)等更復雜的模型來尋找最優解[18,19]。

綜合1.1,1.2,1.3所述,我們確定主成分抽取數量的方法為:

(1)基于樣本數據,選擇Velicer偏相關系數準則,確定主成分抽取的數量。

(2)基于Bootstrap再抽樣樣本數據,選擇Horn平行檢驗,對(1)確定的主成分數量模型 進行檢驗。

(3)如檢驗通過,主成分數量模型確定;即同時滿足公式(3)、(4)的解為要抽取的主成分數量。

這里λi是基于原樣本數據的第i個特征值,LSi是對應第i個特征值的基于Bootstrap再抽樣數據的特征根均值或95%的置信區間的統計值等。如聯立公式(3)、(4)無解,需要尋求其他方法如BCa等來確定主成分抽取數量。

由于Kaiser準則、Cattle Scree準則、解釋的總方差比例等都可以通過統計軟件SPSS來實現,因此我們選擇在SPSS環境下編程實現Velicer偏相關系數準則和Horn平行檢驗來完整實現該方法。

接下來,我們應用這一方法對筆者的一次國際酒店企業文化調查問卷確定需要抽取的主成分抽數量,并與Kaiser準則、Scree碎石準則、解釋的總方差比例等通行方法做一個比較,以檢驗該方法的可行性和有效性。

2 應用

2006~2007年期間筆者對成都一國際酒店進行了一次企業文化問卷調查。調查問卷發放過程中盡可能覆蓋各個部門,不同年齡、不同性別和不同層次等等,得到一個50×15的樣本矩陣。在對問卷調查進行主成分分析前,首先我們觀察變量間相關系數矩陣(Correlation Matrix),可知不少變量之間存在高度相關;其次觀測KMO值和 Bartlett球型檢驗情況,KMO值為0.869,說明目前的變量能夠較好地被主成分所解釋。Bartlett Sphercity檢驗拒絕單位矩陣的假設,檢驗結果表明問卷數據適合做主成分分析。

表1 Velicer偏相關系數

表2 原樣本數據特征值&再抽樣樣本數據特征值均值 &95%置信區間下的特征值均值

2.1 基于樣本數據的主成分抽取數量的確定

我們采用Velicer 偏相關系數準則來求解主成分數量,結果如表1所示。最小平均平方根偏相關系數是0.0404,抽取的主成分數量為 2;最小平均1/4次方偏相關系數是0.0048,也說明抽取的主成分數量應為2。

圖1 基于原樣本數據和再抽樣樣本數據的主成分數量

2.2 基于再抽樣樣本數據的檢驗

本文采用Bootstrap方法生成再抽樣樣本數據1000組,應用Horn平行檢驗來加以驗證,結果如表2和圖1所示。

基于1000組再抽樣樣本數據,確定應抽取2個主成分。檢驗結果表明:基于原樣本數據的Velicer偏相關系數準則所確定的主成分數量模型(2個主成分)具有良好的穩定性和泛化性。另外圖1中的RAWDATA曲線就是Scree Plot圖,從該曲線可以觀察出,曲線的肘部在主成分數量為2處;如采用Kaiser準則,應抽取5個主成分。進一步驗證了文獻[2、3]等指出的kaiser法則過多抽取主成分和文獻[2、12、13]等指出的基于樣本數據的判別準則Velicer偏相關系數是最好的結論。綜合以上分析,可以得到表3。

表3 不同判斷準則得出的主成分數量①限于篇幅,特征根解釋的總方差比例直接給出。

3 結論

本文針對當前主成分抽取數量確定方法中廣泛使用的特征值大于1、解釋的總方差比例、Cattle Scree等準則所存在的一些不足,提出了一種新的確定方法。該方法首先基于樣本數據采用Velicer偏相關系數準則來確定主成分抽取的數量,然后基于Bootstrap再抽樣數據采用Horn平行檢驗來驗證主成分數量模型的穩定性,并在SPSS環境下實現了該方法。

本文應用該方法對筆者的一次國際酒店企業文化調查問卷確定主成分抽取的數量,結果表明相比特征值大于1、解釋的總方差比例、Cattle Scree等方法,本文所得結論更客觀、準確和泛化;進一步支持文獻研究關于Kaiser準則過多抽取主成分的結論。

本文提出的方法是對目前特征值大于1等準則的改進,可廣泛應用于主成分分析、因子分析等相關研究中。

[1]Franklin,S.,Gibson,D.,Robertson,P.,Pohlmann,J.,Fralish,J.Parallel Analysis:A Method for Determining Significant Components[J].Journal of Vegetation Science,1995,(1).

[2]Jackson D.Stopping Rules in Principal Components Analysis:a Comparison of Heuristical and Statistical Approaches[J].Ecology,1993,(8).

[3]Rencher,A.Multivariate Statistical Inference and Applications[M].New York:John Wiley&Sons Inc,1998.

[4]王國順,張仕璟,邵留國.企業文化測量模型研究——基于Dension模型的改進及實證[J].中國軟科學,2006,(3).

[5]任勝鋼,彭建華.基于因子分析法的中國區域創新能力的評價及比較[J].系統工程,2007,(2).

[6]黃善東,楊淑娥.公司治理與財務困境預測[J].預測,2007,(2).

[7]Kaiser,H.F.The Application of Electronic Computers to Factor Analysis[J].Educational and Psychological Measurement,1960,(1).

[8]賀穎.2001~2004年中國管理類期刊學術影響力綜合評價[J].中國軟科學,2007,(1).

[9]Cattell B.The Scree Test for the Number of Factors[J].Multivariate Behavioral Research,1966,(2).

[10]柯江林,孫鍵敏,石金濤,顧琴軒.企業R&D 團隊之社會資本與團隊效能關系的實證研究[J].管理世界,2007,(3).

[11]唐炎華,石金濤.我國知識型員工知識轉移的動機實證研究[J].管理工程學報,2007,(1).

[12]Velicer W.Determining the Number of Principal Components from the Matrix of Partial Correlations[J].Psychometrika,1976,(3).

[13]Ferre L.Selection of Components in Principal Component Analysis:A Comparison of Methods[J].Computational Statistics and Data Analysis,1995,(6).

[14]Vellcer,W.F.,Eaton,C.A.,Fava,J.L.Construct Explication Through Factor or Component Analysis:A Review and Evaluation of Alternative Procedures for Determining the Number of Factors or Components[A].Problems and Solutions in Human Assessment[M].Boston:Kluwer,2000.

[15]John L.,Horn.A Rationale and Test for the Number of Factors in Factor Analysis[J].Psychometrica,1965,(2).

[16]Glorfeld,L.W.An Improvement on Horn’s Parallel Analysis Methodology for Selecting the Correct Number of Factors to Retain[J].Educational and Psychological Measurement,1995,(3).

[17]Thompson,B.,Daniel,L.G.Factor Analytic Evidence for the Construct Validity of Scores:A Historical Overview and Some Guidelines[J].Educational and Psychological Measurement,1996,(2).

[18]Efron,B.Better Bootstrap Confidence Intervals[J].Journal of the American Statistical Association,1987,(3).

[19]Hall,P.Theoretical Comparison of Bootstrap Confidence Intervals[J].The Annals of Statistics,1988,(3).

F222

A

1002-6487(2011)04-0007-03

尹 波(1971-),男,江西吉安人,博士,教授,研究方向:組織文化與計量管理。

(責任編輯/亦 民)

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 亚洲毛片网站| 国产精品99在线观看| 国产成人免费| 尤物精品视频一区二区三区| 欧美一区中文字幕| 国产成人精品第一区二区| 国产69精品久久久久孕妇大杂乱| 国产无人区一区二区三区| 最新国产你懂的在线网址| 国产SUV精品一区二区| 日韩中文字幕亚洲无线码| 91成人试看福利体验区| 国产精品一区二区国产主播| 天天综合网在线| 草逼视频国产| 国产极品粉嫩小泬免费看| 国产高清无码麻豆精品| 久久a级片| 午夜福利免费视频| 欧美日本激情| 久久伊人色| 国产精品男人的天堂| 91免费在线看| a毛片基地免费大全| 香蕉精品在线| 久久午夜夜伦鲁鲁片无码免费| 91久久精品日日躁夜夜躁欧美| 久久久久亚洲精品无码网站| 久久黄色一级片| 国产va在线观看免费| 久久精品日日躁夜夜躁欧美| 精品撒尿视频一区二区三区| 精品视频一区二区三区在线播| 日韩色图区| 亚洲精品片911| 99re在线视频观看| 日本精品αv中文字幕| 日韩 欧美 国产 精品 综合| 国产麻豆精品久久一二三| 免费看久久精品99| 全午夜免费一级毛片| 精品1区2区3区| 手机精品福利在线观看| 91精品人妻互换| 国产乱论视频| 欧美日韩午夜| 欧美h在线观看| 国产成人免费视频精品一区二区 | 1024国产在线| 日本亚洲国产一区二区三区| 亚洲品质国产精品无码| 欧美成人日韩| 无码综合天天久久综合网| 亚洲不卡无码av中文字幕| 国产精品爆乳99久久| 夜色爽爽影院18禁妓女影院| 黄色三级网站免费| 天天综合网亚洲网站| 国产在线观看精品| 国产高清免费午夜在线视频| 久久香蕉国产线看观看式| 久久天天躁狠狠躁夜夜2020一| 5555国产在线观看| 国产va免费精品观看| 精品一区二区三区视频免费观看| 成人免费黄色小视频| 国产精品污污在线观看网站| 99爱视频精品免视看| 手机在线免费不卡一区二| 亚洲欧洲日韩综合色天使| 波多野结衣爽到高潮漏水大喷| 久久免费观看视频| 精品91自产拍在线| 91精品国产自产在线观看| 99er精品视频| 婷婷开心中文字幕| 国产精品刺激对白在线| 免费在线成人网| 亚洲三级色| 人妻21p大胆| 日韩区欧美国产区在线观看| 亚洲成人一区二区|