王瑞臻+林婧
[摘 要]文章利用四種不同的分類模型Logistic模型、決策樹模型、BP神經網絡以及隨機森林對2015年創業板與主板上市公司差異性財務數據進行了識別。研究發現不同的識別方法,識別結果有一定差異,在識別差異性數據的此類問題上,隨機森林具有一定的優勢。隨機森林識別出的兩板差異性數據主要有速動比率、流動比率、應收賬款周轉率等。
[關鍵詞]隨機森林;上市公司;財務數據;差異性識別
[DOI]10.13939/j.cnki.zgsc.2018.02.188
1 引 言
2009年啟動創業板,至今已有600多家公司成功發行。雖然創業板與主板市場的準入條件、交易規則以及投資者特征等方面不同,但可以根據統計財務數據對兩市場進行對比研究,找出兩個市場在哪些方面存在差異,分析差異的原因,并通過彼此之間的借鑒來加以完善,這對我國股市持續穩定的發展具有參考價值。為識別出兩板上市公司差異性財務數據,通常涉及傳統的ANOVA方差分析,與此同時,分類模型可為此類問題提供一種方法。分類問題在醫學、經濟管理等領域經常涉及,針對這一類問題通常采用統計學方法Logistic進行分析。近年來,越來越多的機器學習方法對分類模型給出了新的解決方案,常見的機器學習分類模型如決策樹模型、BP神經網絡、隨機森林等,一般來說,建立的分類模型是用來預測。但無論是Logistic模型還是上述的機器學習都可以對輸入的變量按重要性提取出關鍵變量,這對我們識別創業板與主板上市公司的差異性財務數據提供了另外一種可行的方法。進一步通過上述多類模型的比較,可以選取出適合差異性差別的方法。
2 變量選擇與數據預處理
2.1 研究對象
本文財務數據來自國泰安數據服務中心中國上市公司財務指標分析數據庫,剔除一些異常上市公司和極端值后,選取2015年創業板的491家上市公司,1249家主板上市公司,共計1740個觀測值。由于本文是為了識別差異性財務數據,充分使用數據進行建模,所以把所有數據作為訓練樣本進行訓練且充當檢驗樣本進行檢驗。
2.2 變量選擇
依照選取財務指標的全面性、重要性、科學性的原則從上市公司共選取30個財務指標,如表1所示。
即使其中有的指標之間可能高度相關 ,但本文采用的方法比較均能較好地處理高度相關性,選取較多的財務數據將盡量包含比較多的信息 ,盡可能多地從各方面識別出主板與創業板上市公司的差異性財務數據。
2.3 缺失值處理與數據標準化
缺失值對于上述模型有著很顯著的影響,為了降低這一影響,利用統計軟件SPSS19.0中的以缺失值鄰近點的算術平均值進行替代。再對所有指標進行標準化處理。采用Z-score標準化方法也叫標準差標準化,經過處理的數據符合標準正態分布,即均值0,標準差為1,其轉化函數為:
其中σ用所有樣本數據的標準差估計,μ用所有樣本數據的均值估計。
3 基于隨機森林的差異性指標識別
隨機森林算法是組合分類模型中的一種,該分類器最早由LeoBreiman和AdeleCutler提出。隨機森林是由很多CART決策樹分類模型集成的組合分類模型,在給定自變量X后,每個決策樹分類模型都有一票投票權來選擇最優的分類結果。其基本步驟為:首先利用Bootstrap重抽樣方法從原始訓練樣本中抽取n個樣本,且每個樣本的容量都與原始訓練集中的樣本個數相同,對n個樣本建立n個CART決策樹模型得到各個分類結果,最后投票記錄并決定最終分類結果。隨機森林的每棵樹都不剪枝,讓其充分生長,最終的模型結果是對所有的決策數的結果的簡單平均。
在R3.33版本中利用程序包RandomForest可以快速地對數據進行建模。隨機森林變量重要性識別的方法是置換精度重要性,其原理是:隨機刪減某些變量,這時如果預測精度大大降低,則說明該變量特別重要。首先使用RandomForest函數,使用樣本量為500(Ntree=500),對每個樣本建立一棵決策樹,并按照置換精度重要性輸出自變量重要性。
自變量重要性如表2所示,重要性大小的從大到小排序前十位依次為:速動比率、流動比率、應收賬款周轉率、市銷率、市凈率、本利比、總資產增長率、資產負債率、股東權益比率、產權比率。
4 不同分類模型比較
4.1 分類模型擬合混淆矩陣
根據綜上建立的四個分類模型輸出的混淆矩陣,進行匯總得到表3。分類模型的擬合判別正確率會對差異性指標的識別造成影響。
從擬合效果分析來看,隨機森林擬合效果最好為100%,其次分別為BP神經網絡、決策樹、Logistic模型,這樣的結果通常是可以理解的。
4.2 分類模型優劣分析
第一,Logistic模型作為傳統的統計方法,其特點是識別線性特征,對于非線性特征的處理存在一定的劣勢。
第二,決策樹對于識別非線性特征有優勢且易于理解和分析,在相對短的時間內能夠對大型數據源做出可行且效果良好的結果,但其對異常值過于敏感, 很容易導致樹的結構的巨大變換。
第三,BP神經網絡其非線性映射能力非常強,能夠處理內部機制非常復雜的問題,并且容錯能力也很有優勢,在部分神經元被破壞的條件下依然能夠保持較高的精度。但其缺點也是很明顯的,神經網絡結構選擇不一會導致每次訓練得到不同結果的,同時模型復雜不易理解。這給神經網絡的應用在一定程度上造成了一些影響。
第四,隨機森林作為組合模型針對差異性指標識別問題有著很大的優勢,隨機森林可實現隱式特征選擇,并且提供一個很好的特征重要性指標。由于隨機森林在每棵樹的每個節點僅僅隨機選擇少數變量來競爭拆分變量,限制了強勢變量,很多變量都進入了決策樹,這對隨機變量的誤判率降低提供了很大的幫助。更重要的是在識別差異性指標這類問題,隨機森林這種節點競爭變量隨機限量選擇的做法使得一些弱勢變量可以有機會參加建模,這對差異性指標的識別效果的提升幫助很大。除此之外,隨機森林的訓練速度快也是其受歡迎的一個原因。endprint
5 差異性指標比較分析
隨機森林識別的差異性指標前四位為速動比率、流動比率、應收賬款周轉率與市銷率。其中流動比率與速動比率反映的是上市公司短期償債能力;應收賬款周轉率通常反映上市公司的營運能力;市銷率通常能夠反映成長能力。結合相關參考文獻,得到如下結論。
5.1 流動比率與速動比率
流動比率與速動比率通常反映企業償還短期債務的能力。從上市公司經營者角度來看:首先,流動比率越高意味著過多的資金滯留在持有的流動資產上,就會影響資金在生產經營過程中高效地運轉。從比較數據來看創業板上市公司的流動比率遠遠高于主板上市公司,主板上市公司的流動比率在正常范圍內,而創業板上市公司的流動速率超出正常營運需求,這就意味著大量資金停留在流動資產上。創業板沒有合理充分地運用超募資金,創業板上市公司規模較小,會發生資金籌集到手但新創意和新項目卻未產生的情況。速動比率的高低能直接反映企業的短期償債能力強弱,它是對流動比率的補充,通過對速動比率的差異也進一步印證了上市公司超募的情況。
5.2 應收賬款周轉率
應收賬款周轉率能夠反映企業營運能力,其值越高,表示平均應收賬款周期越短,資金回收越快,所以一般來說,應收賬款周轉率越高企業營運能力越強。數據表明創業板營運資金過多呆滯在應收賬款上,影響正常資金周轉及償債能力,進一步影響公司的營運能力。但在創業板超募的情況下,企業有超額的資金進行運營,這種應收賬款風險并未暴露出來,進而也未影響到公司的正常運營。
5.3 市銷率
市銷率是總市值除以(年度)主營業務收入的值。一般來說,市銷率越低,估值越低,上漲潛力越大。主板上市公司的市銷率小于創業板的市銷率,這說明創業板的估值水平相對主板來說要高,這與實際情況相符。通常認為創業板的成長性較主板有很大優勢,其成長性優勢通常反映市值估計,進而反映到市銷率。
6 結 論
綜上所述,本文從眾多財務數據中識別出在兩板塊上市公司差異性數據,通過分類模型的比較發現,隨機森林在解決此類問題上有很大的優勢。通過隨機森林識別出來的差異性財務數據顯示,創業板較主板上市公司來說總體存在著超募、高估值以及營運能力較差的情況,這與實際情況相符。創業板與主板市場的準入條件、交易規則以及投資者特征等方面不同,進而導致財務數據上的差異。這種差異如果在合理的范圍內是屬于正常現象,創業板設立的目的是為中小企業提供上市融資的渠道,進一步激發中小企業在經濟發展中的驅動作用。
參考文獻:
[1]楊淑娥,黃禮.基于BP神經網絡的上市公司財務預警模型[J].系統工程理論與實踐,2005(1):12-18,26.
[2]陳善廣,鮑勇.BP神經網絡學習算法研究[J].應用基礎與工程科學學報,1995(4):105-110.
[3]孟杰.隨機森林模型在財務失敗預警中的應用[J].統計與決策,2014(4):179-181.
[4]方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述[J].統計與信息論壇,2011(3):32-38.
[5]趙振順.流動、速動和資產負債比率的分析及運用[J].會計之友,1995(1):34.
[6]潘宗英.基于杜邦模型的財務比較研究——來自主板與創業板上市公司的數據[J].財會通訊,2012(26):99-100.
[7]吳喜之.應用回歸及分類:基于R[M].北京:中國人民大學出版社,2016:171-190.endprint