蔣盛益 ,汪 珊,蔡余沖
(廣東外語外貿大學a.信息學院,b.財經學院,廣州 510420)
陷入經營危機的企業幾乎毫無例外地都是以出現財務危機為征兆。財務危機的出現有一個逐步顯現、不斷惡化的過程,最終會通過財務指標反映出來。因此,財務管理作為企業經營管理的一個重要組成部分,自然也要求建立相應的財務預警系統。構建一個有效的財務危機預警模型,及早獲得上市公司財務狀況出現嚴重惡化的預警信號,滿足利益相關者日益迫切的需要,具有很重要的研究價值和現實意義。此外,正確預測企業財務風險,對于保護投資者和債權人的利益、經營者防范財務危機,以及政府管理部門監管上市公司質量和證券市場風險,都具有十分重要的現實意義。本文采用多種機器學習方法對2005~2007年的非金融企業上市公司財務數據進行了分析。
本文實驗的原始數據來源于CCER中國上市公司非金融企業財務數據庫中2000~2007年一般上市公司的真實財務報表數據,將中國證券市場中上市公司被ST(特別處理)和被*ST(退市預警)視為公司陷入財務危機的標志。選取Normal(財務正常)、ST以及*ST作為目標變量。
基于對樣本個體差異的考慮,一般認為金融行業的財務指標和非金融行業的財務指標有明顯的差異,因此,本文僅針對非金融上市公司進行研究。并根據中國上海證券交易所和深圳證券交易所所有非金融行業A股的年度報告中的財務數據,同時刪除不屬于Normal,ST以及*ST的數據后分別得到二組測試數據,第一組將2000~2005年5183條正常公司數據和521條非正常公司數據(ST為449條,*ST為72條)作為訓練集,對應2006年1253條正常公司數據和55條非正常公司數據(ST為26條,*ST為29條)以及2007年1347條正常公司數據和116條非正常公司數據 (ST為57條,*ST為59條)作為測試集;第二組將2000~2006年6436條正常公司數據和576條非正常公司數據(ST為475條,*ST為101條)作為訓練集,對應2007年1347條正常公司數據和116條非正常公司數據(ST為57條,*ST為59條)作為測試集。在訓練集上建立預測模型,在測試集上檢驗模型的有效性。
企業陷入財務困境是一個漸進的過程,其生產經營狀況逐步惡化通常會快速地反應在企業的財務報表上,表現出一些財務指標數據異常。影響企業財務狀況的因素很多,但有些指標的數據很難取得,需要耗費大量的人力和物力,因此那些取得成本很高的財務比率不予考慮。根據可操作性原則,結合財務報告中所提供的指標,本文選取綜合反映盈利能力、償債能力、營運能力和現金流量等方面的29個財務指標用于構建財務預警模型,其中包含了一般論文中沒有涉及但我們認為對財務風險預測有較大影響的公司規模和成長能力方面的4個財務指標(log(總資產),log(凈資產*股東權益合計),總資產增長率,營業收入增長率)。所選指標具體如表1。
我們使用數據挖掘軟件Weka提供的貝葉斯網絡(BayesNet)、決策樹(J48)、基于規則的分類(JRip)、最近鄰分類(1NN)、 多層感知機 (MultilayerPerceptron)、BP神經網絡(RBFNetwork)、邏輯回歸(Logistic)等7個分類方法建立各類預警模型并進行分析比較。從兩個方面進行了大量的數據分析,首先使用所有財務指標利用7種分類方法進行風險建模分析,然后利用數據挖掘方法進行指標選擇,再利用選定的指標進行風險建模分析。
這里建模過程基于未經屬性選擇的原始數據集,針對每種分類算法分別進行兩種模型的建立:2000-2005年度數據集和2000-2006年度數據集分別作為訓練集;2006年度相關數據和2007年度相關數據分別作為測試集。表2給出了不同分類方法在兩組數據上的測試結果。
實驗結果表明,最近鄰分類、多層感知機、BP神經網絡及邏輯回歸四類方法的性能基本相當,而貝葉斯網絡、決策樹、基于規則的分類三類方法的性能差異不大,整體性能明顯低于前四類方法,但對于ST的識別精度(60%左右)明顯高于前四類方法。

表1 財務危機預警指標列表
從實驗結果可以看出,利用2000年到2005年的數據作為訓練集進行建模,來預測2006年至2007年的數據,大部分方法的預測準確率低于利用2000年到2006年的數據預測2007年的預測準確率。注意到2006年股市“全面型牛市”以及2007年度 “全民炒股”的真實市場現象,可以理解2006、2007年股市的規律明顯不同于2000~2005年,因而,模型的預測精度不夠理想。
對2000~2005年的數據,通過運用weka中的BestFirst,GreedyStepwise,LinearForwardSelection三種屬性選擇方法進行屬性選擇,綜合得到9項保留屬性,即每股收益(攤薄營業利潤),債務資產比率,log(總資產),log(凈資產 *股東權益合計),總資產增長率,現金負債比率,營業利潤,所有者權益合計(包括少數股東權益),凈資產等。
對于選定的9個指標,針對每種分類算法分別建立兩種模型:2000-2005年度數據集和2000~2006年度數據集作為訓練集;2006年度相關數據和2007年度相關數據作為測試集。表3給出了試驗結果。

表2 屬性選擇前各種分類算法對兩類不同數據集的預測準確率

表3 屬性選擇后各種分類算法對兩組不同數據集的預測準確率
從表2、表3可見,通過屬性選擇后,各種模型的預測準確率變化不大,大部分略有提升,但數據量相對于屬性選擇前減少近2/3,因此模型的建立時間大大縮短,采用多層感知機算法時,模型的建立時間縮短為屬性選擇前的16.5%,其它分類方法的建模時間也有不同程度的減少,建模時間縮短為屬性選擇前的24.74%至57.57%不等。同時,屬性選擇后模型的表示更為簡潔,檢測新數據的時間也相應縮短,由此可見屬性選擇后的模型具備更好的適用性。此外,注意到經過屬性選擇后,本文所提出的4個創新指標保留了3個(log(總資產),log(凈資產 *股東權益合計),總資產增長率),說明本文所加入創新指標的構思是正確的。
通過對2000~2007年非金融企業上市公司財務數據的分析,引入了log(總資產)、log(凈資產*股東權益合計)、總資產增長率、營業收入增長率等四個新的指標,總計29個指標用于風險分析,并采用7種不同的分類方法來進行財務風險建模,結果表明最近鄰分類、多層感知機、BP神經網絡及邏輯回歸四類方法的性能基本相當,并可以用9個有代表性的指標來建立風險預警模型,可以較好地實現風險預測。
經統計,滬深兩市上市公司中被特別處理的上市公司占上市公司總數的12%左右,在我們選取的所有數據中,被特別處理的股票數據占總數的近10%,因此,總體來說我們處理的數據集是不平衡(正常上市公司數據占有絕對比例)的,所采用的經典機器學習方法對不平衡數據中少數類的分類性能不理想。在后續的研究中我們將研究針對不平衡數據集的分類方法并應用到上市公司財務風險建模,在基本保持對正常數據分類精度的前提下,盡量提高對ST、*ST數據的分類精度;同時采用數據融合技術,運用多種分類方法以提高模型預測的準確性;借助數據挖掘與財務知識,進一步分析財務指標之間的關系,選擇更有代表性的財務指標用于建模,以盡可能簡化模型和提高數據分析的效率。
[1]William H.Beaver.Financial Rations as Predictors of Failure[J].Journal of Accounting Research,1966,4.
[2]Edward I.Altman.Financial Rations Discriminate Analysis and the Prediction of Corporate Bankruptcy[J].The Journal of Finance,1986,23(4).
[3]Deakin,E.B.A Discriminant Analysis of Predictors of Failure.[J]Journal of Accounting Research,Spring,1972,10(1).
[4]K Skogsvik.Current Cost Accounting Ratios as Predictors of Business Failure:The Swedish Case[J].Journal of Business Finance and Accounting,1990,17(1).
[5]陳靜.上市公司財務惡化預測的實證分析[J].會計研究.1999,4.
[6]吳世農,盧賢義.我國上市公司財務困境的預測模型研究[J].經濟研究,2001,6.
[7]楊保安,季海,徐晶,溫金祥.BP神經網絡在企業財務危機預警之應用[J].預測.2001,20(2).