◎黃詩蘊
基于支持向量機的上市公司投資回報預測
◎黃詩蘊
該文先利用SPSS因子分析確定影響較大的財務指標,然后采用支持向量機(SVM)來處理上市公司財務指標數據,較客觀地預測上市公司的投入資本回報率(ROIC),為投資人的決策提供支持。

支持向量機(SVM)是在高位特征空間使用線性函數假設空間的學習系統,它由一個來自最優化理論的學習算法訓練,該算法實現了一個由統計學習理論導出的學習偏置。此學習策略由Vapnik和他的合作者提出,是一個準則性的并且強有力的方法。
風險度量是風險投資中的重要組成部分,能否對投資回報率進行準確估計關系到整個風險管理體系的成敗。我們可以將上市公司的投資回報率劃分為若干檔,如0%~5%檔、5%~10%檔、10%以上檔。利用支持向量機預測上市公司投資回報率的所屬檔位,從而進行風險控制。
樣本的選擇。本文選擇了2013年年報4386家上市公司的財務指標,去除缺失部分指標的公司后剩余798家上市公司作為樣本。之所以選擇2013披露的年度報告是因為該時間段股市相對比較平穩,能夠較好地避免極端因素對預測結果的影響。以上數據全部從銳思數據庫獲得。
變量的選擇。本文首先將全部財務指標(共50個)導入SPSS中進行因子分析。結果顯示14個因子可解釋76.11%的方差。通過旋轉成分矩陣,本文選取了每個因子中載荷較高的指標作為預測模型中的變量,其中因變量選取了載荷最高的投入資產回報率(ROIC),其余13個成分為自變量因子。成分1為產權比率(%)_Dbequrt;成分2為經營活動盈利能力指標(包括銷售凈利率(TTM)(%)_NetprfrtTTM,成本費用利潤率(%)_Totprfcostrt);成分3為現金流與償還短期負債能力指標(包括經營凈現金流量/負債合計_NOCFtotlia,成本費用利潤率(%)_Totprfcostrt);成分4為總資產周轉率(次)_Totassrat;成分5為流動比率(%)_ Currt;成分6為股利支付率(%)_Divprt;成分7為扣除非經常損益后的凈利潤/凈利潤_Nprfcutnprf;成分8為歸屬母公司股東的凈利潤/凈利潤_NPPCNPDP;成分9為凈利潤/利潤總額_NPTPDP;成分10為賒銷管理能力指標(包括長期負債與營運資金比率(%)_Ldbwrkcap,應收賬款周轉率(次)_ARTrat,流動資產/總資產_Curtotast)成分11為年換手率YrFulTurnR;成分12為營業利潤增長率(%)_Opeprfgrrt;成分13為利息保障倍數_Intcvr。
基本原理。通過使用Matlab關于向量機的核心函數SVMTRAIN與SVMCLASSIFY,對數據進行分析。先使用SVMTRAIN函數,它可以使用訓練矩陣數據樣本進行函數擬合。然后用SVMCLASSIFY函數對測試樣本進行分類,預測結果。測試結果分為三類,0%~5%(不含)的標記為1,5%~10%(不含)的標記為2,10%以上的標記為3。
操作方法。本文首先選取了3.4%的樣本(共27個)作為測試樣本,其余作為訓練樣本進行實驗。核函數分別選取了多項式核函數(Polynomial)、徑向基核函數(RBF)、Quadratic核函數與線性核函數(linear)進行訓練,得到如下結果(表1)。使用polynomial核函數的準確率為85.19%,RBF核函數準確率為62.96%,使用quadratic核函數的準確率為81.48%,而使用線性核函數的預測準確度最高,為96.29%。

表1:選取不同核函數的向量機方法下的預測結果(部分)
復核。重新隨機選取12%的數據為測試樣本,其余為訓練樣本,用線性核函數進行訓練。結果表明,在增大了測試樣本減少了訓練樣本的情況下,使用線性核函數的準確率依然很高,為98.0%。因此選用線性核函數為SVMTRAIN中Kernal Funtion參數的值。
支持向量機技術可對上市公司投入資產回報率進行有效的識別與分類。以各方面的財務指標作為自變量,以投資回報率作為因變量進行預測。選用線性核函數訓練的準確度在90%以上,表現出向量機對有限樣本的良好泛化能力。我們可以在已知上市公司部分財務指標的情況下,應用這個方法判斷企業的投資回報率,從而為投資決策提供參考,一定程度上減小了投資風險。
行業間財務指標的數據是存在差異的,不同行業間,理想的存貨周轉率、流動比率等的理想值是不同的。要提高預測精度,可以分開行業進行預測。每個行業的前景也不一樣,應該結合政策等具體分析。
本方法也存在一定缺陷。首先我們難以獲知公司每時每刻的財務指標,只有等到期末才有正式的披露。同時,數據可能存在一定程度的粉飾和虛假,誤導投資決策行為。在預測結果中,存在一些誤差很大的異常值,可能和公司經營的微觀因素有關。因此,決策時需要多方面考慮,不要局限于對外披露數據的分析,而要深入調查公司情況。
(作者單位:北京科技大學)