胡書文,徐建武
(1.重慶大學 數學與統計學院, 重慶 401331; 2. 92514部隊, 山東 煙臺 264007)
?
主成分分析和因子分析在中國股票評價體系中的應用
胡書文1,徐建武2
(1.重慶大學 數學與統計學院, 重慶 401331; 2. 92514部隊, 山東 煙臺 264007)
目前在中國股票市場上有近3 000只股票,在對股票進行投資之前,需要分析各只股票的盈利情況,從而投資那些盈利能力強、風險小、財務指標好的股票。但股票的評價指標有很多,如何在一個評價體系里考慮所有指標是一個很現實的問題。運用主成分分析和因子分析對中國股票市場進行分析。主成分分析和因子分析能提取出反映股票各方面能力的成分,比如股本擴張能力主成分、盈利能力主成分等,從而可對各股票進行排名,幫助投資者進行決策。
股票評價;主成分分析;因子分析
隨著我國股票市場的不斷發展,股票投資已成為投資者的主要途徑之一。盡管從理論上講股票投資能給投資者帶來收益,甚至是巨大收益,但同時投資者也面臨著巨大風險。所以投資者目前的主要目的是在保值的情況下實現最大的增值,這樣就有了股票投資分析。當前股票投資分析方法主要有兩種:一是基本分析,二是技術分析。但上述分析方法都是定性分析,通常只做一些描述性的說明且帶有很強的主觀成分,投資者很難從這些主觀性的描述中確定哪些是值得投資的股票。因此,如何合理地建立一個投資評價體系成為亟待解決的問題。
2001年S Gnaesalingnaj, KuldeepKumar[1]利用因子分析法,通過對1986—1991年美國證券市場中部分公司的數據進行分析得出了因子分析適合于股票市場的結論。張宗強、任敬喜應用因子分析應用于對2002年度汽車類上市公司投資價值的分析[2]。王文哲、李真燕將因子分析應用于我國家電業上市公司竟爭力的分析[3]。顧文炯采用因子分析對農業上市公司進行財務分析[4]。
綜上所述,國內外將主成分分析和因子分析應用到股票價值的評價體系中的研究并不是很多,因此本文結合主成分分析和因子分析來對股票進行定量評價,試圖得到進一步的結果。
1.1 指標的選取原則
在建立評價體系時,指標的選取顯得尤為重要。不僅要考慮指標反映投資價值的全面性,還要考慮指標體系是否科學、是否具有可比性、是否具有操作性以及數據能否有效得到等許多問題[5]。因此,本文主要考慮以下幾個指標選取原則:1) 全面系統原則;2) 恰當適用原則;3) 靈活可控原則;4) 簡明科學原則。
1.2 指標的選取
指標的選取對評價體系有很重要的作用[6]。本文選取能反映股票價格的重要財務指標[7]。見表1。

表1 投資價值評價體系指標分類
2.1 主成分分析
主成分分析法就是一種既能保留原有信息又能簡化指標變量的多元統計方法,它的目的是降維,設法將原始指標進行綜合,求出一組原始指標的線性組合,這些線性組合即為主成分。在這個數學變換中,要求總的方差不變,然后使第一變量的方差最大,即為第一主成分,方差僅次于第一變量且與第一變量獨立的第二變量,即為第二主成分,依此類推。在實際應用中,一般提取前幾個方差較大的主成分,使其盡可能多地反映原始信息。另外,當主成分個數確定后,可以以各主成分的方差貢獻率為權數,構造綜合主成分。通過綜合主成分的得分得到股票的排名進而構建評價體系。
主成分分析的基本步驟如下[8]:
1) 確認待分析的原有若干變量是否適合做主成分分析,即確定變量之間是否具有較強的相關關系。一般可以做Bartlett球度檢驗,它是以變量的相關系數矩陣為出發點,零假設是H0:相關系數矩陣是一個單位陣。統計量根據相關系數矩陣的行列式計算得到,如果該統計量值比較大,且其對應的概率值小于某個給定的著性水平,則應拒絕H0,認為相關系數矩陣不太可能是單位陣,適合做主成分分析;反之,則不適合。
2) 對原始指標數據標準化處理,消除計量單位不同量綱不一等因素。設有p個隨機變量X1,…,Xp,它們在第i次試驗中的取值分別為xi1,xi2,…,xip,其中i=1,…,n。寫成矩陣形式有
3) 求出Z的相關系數矩陣R:
4) 求R的特征值和其對應的特征向量:

5) 確定主成分個數

6) 計算綜合主成分得分
對m個主成分加權求和,就可以得出綜合主成分得分,各主成分的權重通過主成分的方差貢獻率來確定。
2.2 因子分析
因子分析是主成分分析的推廣,它也是從研究相關系數矩陣內部的關系出發,把一些具有相關關系的變量歸結為少數幾個綜合因子的一種多元統計分析方法。其基本思想是:根據相關性大小將變量分組,使得同組內的變量之間相關性較高,但不同組的變量相關性較低。每組變量代表一個基本結構,這個基本結構稱為公共因子。對于所研究的問題就希望用最少個數的不可測的公共因子的線性組合與特殊因子之和來描述原來觀測的每一分量。在實際問題中,描述一種現象的指標很多,從一些有關聯的現象中找出少數幾個主要因子,每一個主要因子就代表一種解釋,抓住這些主要因子就可以幫助我們對復雜的問題進行分析和解釋。
設X為p×1隨機向量, 其均值為μ,協差陣為∑=(σij),若X能表示為X=μ+Af+u,其中∑是p×k未知常數陣,f是k×1隨機變量,μ是p×1隨機向量, 且
則X=μ+Af+u稱為因子分析模型,f稱為公共因子,u稱為特殊因子。
因子分析的基本步驟如下[9]:
1) 確認待分析的原有若干變量是否適合做因子分析,即確定變量之間是否具有較強的相關關系。一般可以做Bartlett球度檢驗,具體步驟和上文主成分分析類似。

3) 因子變量的命名解釋
因子變量的命名解釋是因子分析中的重要問題,也是區別于主成分分析的地方。對于上面計算得到的因子載荷矩陣A進行觀察,一般會發現這樣的現象:A可能在某一行的許多列都有較大的取值,或A可能在某一列的許多行上都有較大取值。這說明:某個原有變量可能同時與幾個因子都有比較大的相關關系。因此,可以通過因子旋轉的方法使每個變量在盡可能少的因子上有比較高的載荷,即在理想狀態下,讓某個變量在某個因子上的載荷趨于1,而在其他因子上的載荷趨于0。這樣,一個因子就能夠成為某個變量的典型代表,實際含義更加清楚。
因子旋轉的方法包括正交旋轉法、斜交旋轉法等,本文分析采用方差極大法。即選取方差最大的正交旋轉,將某個因子旋轉到某個位置,使每個變量在旋轉后的因子軸上的投影向最大、最小兩級分化,從而使每個因子中的高載荷只出現在少數的變量上,最后得到的旋轉因子載荷矩陣中,每列元素除幾個值外,其余的均接近于0。
4) 計算因子得分
得到公共因子和因子載荷后,需要反過來考察每個樣本的得分情況,從而對樣本進行評價和分類。估計因子得分的方法有很多,如湯普森(Thompson)1939年提出的回歸法,也叫湯普森法,約內斯克(Joreskog)和羅萊(Lawley)在1967年提出了一種較為實用的迭代法,R中的因子分析函數factanal就采用了這種算法。
2.3 回歸分析
線性回歸分析最早由19世紀末期高爾頓提出。線性回歸常表示成如下形式:

至于回歸分析的顯著性檢驗,常見的有F檢驗和t檢驗。F檢驗是對模型的顯著性檢驗,t檢驗是對系數的顯著性檢驗。
3.1 數據的來源
本文數據來源于2015年10月31日滬深的全部股票,通過西南證券金點子財富管理軟件獲得2 780只股票,其中滬市1 062只,深市1 718只。
3.2 數據的處理
3.2.1 數據的標準化處理

3.3.2 數據的缺失值處理
在實際問題中,有一些數據往往無法獲取,進而對整體的數據分析產生影響。所以有必要采取一些方法對缺失值進行處理。常見的方法有:個案剔除法、均值替換法、回歸替換法和多重替換法。本文采用剔除法和均值替換法。最后的股票數為2 685只。
3.3 主成分分析
1) 依據上文主成分分析的步驟,首先判斷10個變量之間的相關性,相關系數如表2。從表2中可看出:各變量之間的相關系數不是很大。之后做Bartlett球度檢驗,p值很小,接近0,則應拒絕H0,認為相關系數矩陣不太可能是單位陣,適合做主成分分析。
2) 用R中的函數scale()對原始數據進行標準化[10]
3) 求標準化后數據的特征值
10個特征值依此為:5 158.753 3,3 333.053 2,2 786.389 5,2 734.092 8,2 694.469 0,2 640.575 7,2 524.126 4,2 335.578 3,1 804.966 5,827.995 4。 4) 直接使用R提供的主成分函數princomp()進行主成分分析,結果分別見圖1, 2, 3。

表2 相關系數矩陣

圖1 主成分分析結果

圖2 主成分碎石圖
由圖1知:前6個主成分的方差之和占全部方差之和的72%,所以按照本文標準選6個主成分為宜。這樣,原來的10個指標轉化成6個,起到了降維的作用。且由主成分碎石圖可以看出:前3個主成分解釋的原始信息較多,第5主成分到第6主成分沒有明顯的下降趨勢,但前5個主成分的方差之和只占全部方差之和的62%,所以還是選前6個主成分。
第1主成分Y1=0.18x3-0.38x4+0.58x8+0.59x9-0.37x10
第2主成分Y2=0.3x2+0.53x3-0.49x4-0.29x7-0.37x8-0.31x9-0.26x10
第3主成分Y3=0.65x1-0.31x2-0.1x4-0.41x5-0.24x6+0.45x7-0.16x9-0.1x10
第4主成分Y4=-0.43x1+0.53x2-0.18x3-0.5x5-0.29x6+0.36x7-0.2x10
第5主成分Y5=-0.12x1-0.13x2+0.13x3-0.58x5+0.78x6
第6主成分Y6=0.29x1+0.5x2-0.1x3+0.39x5+0.47x6+0.51x7
第1主成分方差貢獻率為19.22%,主要與每股凈資和每股公積有關,這2個指標能衡量股本的擴張能力,稱為股本擴張能力主成分;第2主成分方差貢獻率為12.42%,主要與流動比率和資產負債率有關,而這2個指標可衡量償債能力,稱為償債能力主成分;第三主成分方差貢獻率為10.38%,主要與凈利潤率有關,但其他各方面也都涵蓋,把它稱為綜合主成分;第4主成分方差貢獻率為10.19%,主要與凈利潤率和毛利率有關,這2個指標能衡量盈利能力,稱為盈利能力主成分;第5主成分方差貢獻率為10.04%,主要與存貨周轉率和總應收賬款周轉率有關,可衡量資產管理能力,稱為資產管理能力主成分;第6主成分方差貢獻率為9.8%,主要與毛利率和總資產周轉率有關,叫做盈利能力和資產管理能力主成分[11]。
5) 令第1主成分Y1,第2主成分Y2,第3主成分Y3,第4主成分Y4,第5主成分Y5,第6主成分Y6為自變量,現價Y為因變量,做回歸分析。其中R2=0.3012,調整的R2=0.2996,說明擬合優度不是很好,但p值很小,說明模型通過了檢驗。Y=20.76+6.51Y1+0.03Y2+0.1Y3+0.84Y4-0.27Y5+1.08Y6,而Y2,Y3和Y5的系數沒有通過檢驗,猜測可能是自變量之間存在著嚴重的相關性,因為Y3被命名為綜合主成分,所以和其他主成分之間存在交叉。
然后采用逐步回歸法,利用R中的step( )函數,該函數以AIC信息量為準則,默認的是向后法,從所有變量開始,逐步通過選擇最小的AIC信息量達到增刪變量的目的。結果最后保留的變量是第1主成分Y1,第4主成分Y4,第6主成分Y6,回歸方程為Y=20.76+6.51Y1+0.84Y4+1.08Y6,且系數也都通過了顯著性檢驗。說明股價主要和第1主成分股本擴張能力主成分、第4主成分盈利能力主成分、第6主成分盈利能力和資產管理能力主成分有關,這也符合實際情況。

限于篇幅,這里只給出了排名前20名和后20名的股票。本文的評價系統對每個股票的評價具有現實的參考價值。
3.4 因子分析
1) 按照上述因子分析的步驟,首先確認原有若干變量是否適合做因子分析,即是否具有相關性,根據主成分分析的結果,答案是肯定的。
2)構造因子變量和計算因子載荷矩陣
因子分析和主成分分析有一個不同之處在于主成分分析是根據算出來的累積貢獻率來確定主成分個數,但是因子分析是在之前就預判出要提取的因子個數。此處采用R中的 fa.parallel函數,結果建議選擇3個因子,如圖4。但3個因子總的方差貢獻率僅為42%,為防止遺漏重要信息,選取5個因子。5個因子的方差貢獻率為62.2%。

圖4 因子選取
3) 因子變量的命名解釋,因子載荷矩陣見表4。
由表4可以看出:盡管一個因子可以解釋許多變量信息,但它卻只能解釋某個變量的少部分信息,不是任何一個變量的典型代表。這樣的情況必然使得因子變量的實際含義模糊不清。因此,可以通過因子旋轉的方法使每個變量在盡可能少的因子上有比較高的載荷。這樣,一個因子就能夠成為某個變量的典型代表,實際含義更加清楚。這里采用方差極大法進行因子旋轉。旋轉后的因子載荷矩陣見表5。

表3 主成分得分排名

表4 因子載荷矩陣

表5 旋轉后的因子載荷矩陣
每股凈資產x8,每股公積金x9在Factor1上有較大載荷,稱為股本擴張能力因子;流動比率x3,資產負債率x4,流通股比例x10在Factor2上有較大載荷,稱為償債能力因子和股本結構因子;凈利潤率x1,毛利率為x2在Factor3上有較大載荷,稱為盈利能力因子;存貨周轉率x5,總資產周轉率x7在Factor4上有較大載荷,稱為資產管理能力因子;應收賬款周轉率x6在Factor5上有較大載荷,稱為資產管理能力因子。
4) 計算因子得分
用R中的因子分析函數factanal計算因子得分,然后以各因子的方差貢獻率為權數,算出總的因子得分并進行排名。見表6。
與前面的主成分得分排名進行對比發現:主成分得分排名第1的五礦稀土在因子得分中排名倒數第7,而查看五礦稀土的具體情況不難看出其綜合主成分得分為4.61,明顯高于后面股票的綜合主成分,原因在于它的第2主成分顯著較高,而第2主成分為償債能力主成分,并非越高越好,而是需要在一個合適的范圍。且因子得分中五礦稀土的得分比較低是因為第5因子資產管理能力因子特別低,即應收賬款周轉率特別低,說明企業的資金周轉不好,所以綜合來看,雖然五礦稀土的主成分得分排名第1,但是不推薦。
因此,考慮把主成分得分和因子得分綜合起來考慮,取平均值,得到的最終排名如表7(排除五礦稀土和西水股份,因為其主成分得分明顯異常),明顯看出排名較差的20名中有好多是ST板塊的,也比較符合實際情況。搜索了一下排名靠前的股票,例如上海鋼聯、貴州茅臺和賽升藥業等,也都是利好消息,可以投資。例如上海鋼聯排名第一,查閱相關信息可知[12]:上海鋼聯在國內鋼鐵工業陷入嚴冬之際,主營線上鋼市信息和鋼材交易,在過去一段時間里實現了股價十幾倍的暴漲。這家公司在2011年登陸創業板,此前主營業務是鋼鐵行業的咨詢信息服務。在傳統鋼貿業企業紛紛倒塌的時候,該公司開始向后端的線上交易、金融等板塊延伸,意在打造垂直于鋼鐵全產業鏈條的電商生態系統。被貼上互聯網、金融、電商標簽的上海鋼聯迅速成為資本市場的寵兒。從2013年的5月到2015年的3月,股價從8元左右飆升至143元左右,漲超16倍。2015年9月到12月,該股的關注度高于行業內的其他113家公司,排名第41。共有5家機構發布了18篇關于該股的研究報告,該股綜合評級為增持,維持前期評級。雖然截止目前(2016年1月8日)的消息[13]是:上海鋼聯跌停,報于36.38元,但其實是跟這些天股市的不穩定形態有關[14],在熔斷機制運行的4個交易日中已有1月4日和1月7日兩天被觸發熔斷,同時均伴隨市場暴跌。1月4日下午,A股大跌連續兩次觸發熔斷并暫停交易;3天后,滬深300指數在開盤不到半小時內,再度兩次觸發熔斷。實施熔斷機制連續4天以來,上證指數跌幅累計達11.96%。所以,這不影響上海鋼聯的內在投資價值。排名最后的ST宜紙本身就處于ST板塊,且最新的消息是“ST宜紙‘易主+重組’方案遭上交所問詢”,也已停牌多日,顯然不適合投資。

表6 因子得分排名

表7 綜合排名
4.1 主要結論
本文分析了影響股票的一些重要財務指標,利用主成分分析和因子分析建立了股票的評價體系,并利用相關數據分析得出影響股價最重要的因素有股本擴張能力、盈利能力和資產管理能力,給出了一個最終的股票排名。表7是根據這個評價體系給出的股票投資的參考。
4.2 展望
本文所提出的投資評價體系仍然存在不足之處。例如指標的選取不全,沒有考慮到影響股票的其他宏觀因素、數據的選取問題等。總之,要更加透徹地研究股票評價模型,不僅需要進一步深化學習,還應該努力追蹤國內外最新研究進展,通過對股票影響因素的深入挖掘,結合我國股票變化特點,形成一套行之有效的理論。
[1] GAMESALINGAM S,KUMAR K.Detection of financial distress via multivariate statistical analysis[J].Managerial Finance,2001,27(4):45-55.
[2] 張宗強,任敬喜.對2002年度汽車類上市公司投資價值的因子分析[J].價值工程,2004(5):109-112.
[3] 王文哲,李真燕.我國家電上市公司競爭力的因子分析[J].價值工程,2005(3):105-108.
[4] 顧文炯.用因子分析對農業上市公司進行財務評價[J].安徽大學學報,2005,29(3):136-139.
[5] 杜茜,張雪梅.清潔能源行業上市公司投資價值評估研究[D].北京:中國地質大學,2013.
[6] 任福勻.因子分析法在我國股票市場行業投資價值評價中的應用[D].長沙:中南大學,2005.
[7] 姜愛宇.部分線性模型在股票價格預測中的應用研究[D].大連:遼寧師范大學,2012.
[8] 王學民.應用多元分析[M].上海:上海財經大學出版社,2009.
[9] 楊虎.金融大數據統計方法與實證[M].北京:科學出版社,2016.
[10]湯銀才.R語言與統計分析[M].北京:高等教育出版社,2008:316-324.
[11]張甜,牛明飛.基于主成分分析的股價因素分析[D].蘭州:蘭州大學,2013.
[12]新京報.上海鋼聯:從8元漲到143元的“電商故事”[EB/OL].[2015-04-13].http://tech.163.com/15/0413/02/AN22CJ0700094ODV.html.
[13]金融界網站.快訊:上海鋼聯跌停 報于36.38元[EB/OL].[2016-01-08].http://stock.jrj.com.cn/hotstock/2016/01/08095720376470.shtml.
[14]東方網.熔斷重啟時間未定證監會稱將“不斷完善相關機制”[EB/OL].[2016-01-08].http://finance.sina.com.cn/roll/2016-01-08/doc-ifxnkeru4776113.shtml.
(責任編輯 陳 艷)
Application of Principal Component Analysis and Factor Analysis in China’s Stock Evaluation Market
HU Shu-wen1, XU Jian-wu2
(1.College of Mathematical and Statistics, Chongqing University, Chongqing 401331, China;2.The No.92514thTroop of PLA, Yantai 264007, China)
At present, there are nearly 3 000 stocks in the Chinese stock market. Before entering in the stock market, it is necessary to analyze the profitability of each stock and invest in that stocks with strong profitability, low risk and good financial indicators. However, there are many evaluation indicators of the stocks and how to evaluate all the indicators systematically is a very important problem. China’s stock market was analyzed by principal component analysis and factor analysis. These two measures can extract the components that reflect the various aspects of the stock, such as the principal component of capital expansion capacity, principal component of profitability, and so on. After getting the principal component scores and factor scores, the stocks whose ranks were relatively high and low were analyzed and it is perfect to meet the actual situation. So the final ranks were given after considering the two cases.
stock evaluation; principal component analysis; factor analysis
2016-12-17 基金項目:國家自然科學基金青年基金資助項目(11001286)
胡書文(1992—),女,碩士研究生,主要從事縱向數據、線性模型方面的研究,E-mail:swhu@cqu.edu.cn。
胡書文,徐建武.主成分分析和因子分析在中國股票評價體系中的應用[J].重慶理工大學學報(自然科學),2017(5):192-202.
format:HU Shu-wen, XU Jian-wu.Application of Principal Component Analysis and Factor Analysis in China’s Stock Evaluation Market[J].Journal of Chongqing University of Technology(Natural Science),2017(5):192-202.
10.3969/j.issn.1674-8425(z).2017.05.032
O212.4;F830.91
A
1674-8425(2017)05-0192-11