李星辰 王青龍 林國慶



摘 要:當前我國上市公司信息披露仍存在著許多不規范的現象,個別上市公司在面臨財務危機時,粉飾其財務風險,進行財務造假。本文利用上市超過3年的A股共3002家上市公司的財務數據,通過對ST、*ST和10家2019年退市的公司樣本分析,根據不同的時間窗口,構建了財務預警因子庫,共96個因子。分別采用機器學習中的邏輯斯蒂回歸、支持向量機、決策樹模型對因子數據進行訓練。將數據集分為訓練集和測試集,用訓練集訓練模型,并將模型應用在測試集中進行預測。結果如下:(1)三種模型均有較好的預測能力,其準確率都在94%以上;(2)決策樹模型的預測效果最佳,支持向量機模型次之,邏輯斯蒂回歸模型的預測效果最差;(3)三種模型都存在將較多的財務預警公司預測為正常公司的情況。本文通過將三種模型進行對比分析,以尋找更加優質的財務預警模型,來更好地幫助企業識別財務風險。
關鍵詞:財務預警;機器學習;邏輯回歸模型;支持向量機模型;決策樹模型
引言:目前,我國宏觀經濟正面臨著下行壓力,許多企業在大形勢下都面臨著融資困難和財務風險暴露的問題,目前我國上市公司信息披露仍存在著許多不規范的現象,因此,識別可能進行財務造假的公司,有助于幫助投資者合理投資,更有利于維護經濟社會的健康良性發展。
由于企業財務風險暴露是有征兆的,所以企業的財務危機是可以預測的,因此本文基于大數據和機器學習方法,構建識別上市公司財務造假的三種不同的財務預警模型,通過對比分析得出更有價值的財務預警模型,這能幫助企業識別財務風險,有助于實現財務狀況的良性循環,具有巨大的應用價值。
一、數據處理與因子庫構建
1.數據來源
本文樣本公司的相關財務數據主要來自銳思RESSET數據庫以及同花順金融數據庫。我們選取了3002家A股上市公司以及10家2019年退市的上市公司的相關數據作為樣本,考慮到上市不滿三年的公司,業績變動幅度可能相對較大且業績表現不夠穩定,因此將其剔除。
2.構造因子庫
根據國內外已有的關于上市公司財務造假的相關研究成果,結合定性分析和定量分析,從企業的償債能力、營運能力、盈利能力以及其他能力等四方面,提取出30個相關財務指標作為可提取因子。由于對出現風險暴露或者已退市的上市公司來說,出現財務問題年度的前三年是公司財務狀況發生變化的重要轉折點,因此我們選取了最近3年-5年的上市公司年度數據,將選取的財務指標進行不同年度的處理,最終形成了包含96個可提取因子的因子庫。
二、模型構建
根據現有研究,國內學者建立的財務預警模型較多,不同模型具有其自身優缺點,其中利用邏輯斯蒂回歸、支持向量機和決策樹方法的研究受到較多關注,因此本文選擇這三種模型進行對比分析。
1.邏輯斯蒂回歸模型
(1)模型概述
邏輯斯蒂回歸(LR)是在進行數據挖掘時經常使用的一種分類模型,該方法的基本原理為:在線性回歸的基礎之上,與sigmoid函數兩者相結合,利用極大似然函數估計回歸參數w和b,公式如下所示:
(2)模型的計算和結果分析
本論文通過Matlab中的機器學習工具箱求解。LR模型所得結果的準確率如下表所示:
由上表可知,LR模型在訓練集和測試集中所得的準確率分別是94.8%和92.38%。
訓練集和測試集的混淆矩陣如下表所示。
由上表4可知,LR模型在全樣本中的準確率為94.39%,精確度為38.58%,召回率為32.67%,F值為35.38%。由此可知,召回率并不高,其判斷的精確度為35.38%,相對較低。從總體結果看,無論是訓練集還是測試集準確率都在92%以上,體現出較好的總體準確率,該模型對發生財務預警的公司預測結果則較差,而對未發生財務預警的公司預測較準確。
2.支持向量機模型
(1)模型概述
支持向量機(SVM)是一類按監督學習方式對數據進行二元分類的廣義線性分類器,其決策邊界是對學習樣本求解的最大邊距超平面。支持向量機屬于有監督學習模型可以用于數據的分析、分類、回歸以及檢測異常值。
(2)模型的計算和結果分析
SVM模型所得結果的準確率如下表所示:
由上表5可知,SVM模型在訓練集和測試集中所得的準確率分別是95.72%和93.55%。與LR模型的準確率相近。
由表7可知,SVM模型在全樣本中的準確率為95.35%,精確度為59.26%,召回率為21.33%,F值為31.37%。由此可知,比LR模型召回率低11.34%,其判斷的精確度為59.26%,相對LR模型較高。
3.決策樹模型
(1)模型概述
決策樹是在進行數據挖掘時經常使用的分類和預測方法,該方法的基本原理為:根據算法規定的分類條件對整體數據進行分類,產生一個決策節點,仍然按照該算法規則分類,在下一個決策節點重復上述操作,運算到無法繼續分類為止。而對于Boosted Tree算法為,每添加一次樹,即為學習一個新的目標函數,在這棵樹上尋找最佳節點進行特征分裂。
(2)模型的計算和結果分析
由上表可知,Boosted Tree模型在訓練集和測試集中所得的準確率分別是96.32%和95.51%。在三個模型中的準確率最高。
由上表可知,Boosted Tree模型在全樣本中的準確率為96.18%,精確度為68.82%,召回率為42.67%,F值為52.68%。
三、總結
本論文針對上市公司的財務預警問題,構建因子庫,分別采用了機器學習中的邏輯斯蒂回歸法、支持向量機方法和決策樹方法,對訓練集進行了分類,并用測試集進行預測,結果對比如下表所示。
由上表可知,三種模型具有較高的準確率,均在94%以上,其中Boosted Tree準確率最高;精確度則差距較大,Boosted Tree模型最高;同時Boosted Tree模型具有高達42.67%的召回率。從上表的結果對比可以看出,盡管三種模型都對財務預警問題具有相當的預測能力,但上述三種模型預測能力由優到劣依次為:決策樹模型、支持向量機模型、邏輯斯蒂回歸模型。因此通過本文論述研究,認為決策樹模型對公司進行財務預警是較好的選擇。但是本文還有改進之處,一方面由于部分上市公司的財務數據不夠真實,另一方面可能來自數據的滯后性,致使對財務造假公司預測效果精確度有所不足,針對這一問題筆者將會進一步改進。
參考文獻:
[1]張玲玲.A股上市公司財務預警模型對比研究——基于logistic回歸和BP神經網絡模型[J].環渤海經濟瞭望,2019(09):165-166.
[2]田珅,陳文熙.房地產退市風險企業財務預警研究——基于主成分分析與logistic模型對比[J].沈陽建筑大學學報(社會科學版),2019,21(04):376-381.
[3]姚欣.Z模型在我國上市公司財務風險預警中的適用性研究[J].會計師,2019(13):22-23.
[4]徐碧瑩,程昔武.基于Logistic回歸模型的建筑業上市公司財務風險預警分析[J].景德鎮學院學報,2019,34(03):1-4.
[5]王元月,景在倫,劉偉.KMV模型在漁業上市公司財務預警中的運用——以獐子島為例[J].中國漁業經濟,2019,37(03):56-61.
[6]鄭玉玉.“互聯網+”背景下ZA信息技術公司財務風險預警研究[D].東華理工大學,2019.
[7]胥光華.基于機器學習構建的公司財務預警系統研究[D].廈門大學,2014.
[8]王媛媛.基于因子分析與支持向量機的上市公司財務危機預警研究[D].西安電子科技大學,2012.
[9]梁小紅.財務危機預警的SVMs模型研究——基于我國制造業上市公司經驗數據[J].福建論壇(人文社會科學版),2011(12):37-41.
[10]劉彥文.上市公司財務危機預警模型研究[D].大連理工大學,2009.
作者簡介:李星辰(1998- ),天津科技大學本科生,主要研究方向:產業金融、國民經濟;王青龍(1998- ),天津科技大學本科生,主要研究方向:計算數學與數據分析;林國慶(1997- ),天津科技大學本科生,主要研究方向:數據挖掘