摘要:支持向量機(jī)(SVM)對(duì)小樣本問(wèn)題具有良好的學(xué)習(xí)能力和泛化能力,但應(yīng)用到數(shù)據(jù)分布不平衡的財(cái)務(wù)危機(jī)預(yù)警問(wèn)題時(shí),對(duì)“正例”的識(shí)別效果不佳;模糊C均值(FCM)聚類(lèi)能夠在保持原有樣本數(shù)據(jù)信息的同時(shí)較好的實(shí)現(xiàn)“正例”和“反例”的平衡。文章在FCM實(shí)現(xiàn)數(shù)據(jù)預(yù)處理的基礎(chǔ)上,應(yīng)用SVM方法對(duì)企業(yè)財(cái)務(wù)危機(jī)進(jìn)行識(shí)別,實(shí)證分析證明這種方法在是有效的。
關(guān)鍵詞:FCM;SVM;財(cái)務(wù)危機(jī)預(yù)警
企業(yè)財(cái)務(wù)危機(jī)是指企業(yè)喪失償還到期債務(wù)的能力,包括從資金管理的技術(shù)性失敗到破產(chǎn)以及處于兩者之間的各種情況。企業(yè)財(cái)務(wù)危機(jī)預(yù)警就是要識(shí)別出當(dāng)前企業(yè)財(cái)務(wù)的狀況,在該問(wèn)題中通常“正例”(ST公司)數(shù)量要遠(yuǎn)小于“反例”(非ST公司),因此企業(yè)財(cái)務(wù)危機(jī)預(yù)警本質(zhì)上是不平衡模式識(shí)別問(wèn)題。
支持向量機(jī)(簡(jiǎn)稱(chēng)SVM)由于優(yōu)越的學(xué)習(xí)能力、泛化能力,特別是能有效地解決小樣本問(wèn)題,很快被應(yīng)用到了模式識(shí)別領(lǐng)域。然而,標(biāo)準(zhǔn)的SVM算法是基于精度的,在處理不平衡模式識(shí)別問(wèn)題時(shí),往往能夠得到較高的精度但對(duì)“正例”的識(shí)別效果一般。通過(guò)平衡“正例”和“反例”的樣本數(shù)量可以有效的解決這一問(wèn)題。機(jī)器學(xué)習(xí)領(lǐng)域有向上采樣法和向下采樣法,但是向上采樣法新生的“正例”數(shù)據(jù)不具有代表性,而向下采樣法去掉的部分“反例”數(shù)據(jù)可能帶有一些必要的信息。Zmijewski(1984)研究表明,若樣本中財(cái)務(wù)危機(jī)與非財(cái)務(wù)危機(jī)企業(yè)的比例偏離總體中兩類(lèi)企業(yè)的比率,則會(huì)歪曲模型的預(yù)測(cè)能力。
模糊C均值(FCM)聚類(lèi)善于處理模糊不確定性問(wèn)題并且不依賴(lài)先驗(yàn)知識(shí),得到的代表點(diǎn)在有效保持原有樣本數(shù)據(jù)信息的同時(shí),較好地實(shí)現(xiàn)了“正例”和“反例”的平衡。
本文將兩種方法有機(jī)結(jié)合起來(lái),在FCM實(shí)現(xiàn)數(shù)據(jù)預(yù)處理的基礎(chǔ)上,應(yīng)用SVM算法對(duì)滬深上市公司2004年財(cái)務(wù)情況進(jìn)行識(shí)別,驗(yàn)證這種集成方法在企業(yè)財(cái)務(wù)危機(jī)預(yù)警中的有效性。
一、 FCM簡(jiǎn)介
FCM算法是一種基于劃分的聚類(lèi)算法,它的思想就是使被劃分到同一簇的對(duì)象之間相似度最大,而不同簇之間的相似度最小。模糊C均值算法是普通C均值算法的改進(jìn),普通C均值算法對(duì)于數(shù)據(jù)的劃分是硬性的,而FCM則是一種柔性的劃分。
四、 實(shí)證研究
1. 樣本選取。根據(jù)我國(guó)上市公司實(shí)際情況和有關(guān)政策規(guī)定,上市公司發(fā)生財(cái)務(wù)狀況異常或發(fā)生其他異常狀況,導(dǎo)致投資者對(duì)該公司前景難以判定,可能發(fā)生損害投資者利益的情形時(shí),上市公司自動(dòng)進(jìn)入ST板塊。其中,財(cái)務(wù)狀況異常指的是最近兩年連續(xù)虧損,或最近一年的每股凈資產(chǎn)低于每股面值。從以上規(guī)定可以看出,宣布為特別處理的企業(yè)已經(jīng)陷入了較大的財(cái)務(wù)危機(jī)。因此,將ST類(lèi)作為財(cái)務(wù)危機(jī)型企業(yè)的標(biāo)準(zhǔn)是現(xiàn)有條件下的最佳選擇。本文數(shù)據(jù)來(lái)源于巨潮網(wǎng),數(shù)據(jù)為公司被ST前第三年的數(shù)據(jù)。剔除一些奇異值后,共有95個(gè)學(xué)習(xí)樣本,其中“正例”數(shù)據(jù)24個(gè),“反例”數(shù)據(jù)71個(gè),另外有96個(gè)作為測(cè)試樣本。
2. 財(cái)務(wù)危機(jī)指標(biāo)選取。在參考相關(guān)文獻(xiàn)的基礎(chǔ)上,本文選取以下指標(biāo)進(jìn)行分析:流動(dòng)比率(x1),速動(dòng)比率(x2),現(xiàn)金比率(x3),資產(chǎn)負(fù)債率(x4),負(fù)債權(quán)益率(x5),應(yīng)收賬款周轉(zhuǎn)率(x6),存貨周轉(zhuǎn)率(x7),總資產(chǎn)周轉(zhuǎn)率(x8),產(chǎn)期資產(chǎn)適合率(x9),主營(yíng)業(yè)務(wù)毛利率(x10),主營(yíng)業(yè)務(wù)利潤(rùn)率(x11),凈資產(chǎn)收益率(x12),總資產(chǎn)擴(kuò)張率(x13),每股收益(x14),總資產(chǎn)利潤(rùn)率(x15),主營(yíng)業(yè)務(wù)比率(x16),主營(yíng)業(yè)務(wù)收入增長(zhǎng)率(x17),凈利潤(rùn)增長(zhǎng)率(x18),每股收益增長(zhǎng)率(x19)。
3. 指標(biāo)篩選。本文數(shù)據(jù)來(lái)自于不同的行業(yè),所以首先應(yīng)將數(shù)據(jù)正規(guī)化,使數(shù)據(jù)落在[0,1]之間。
本文選取的指標(biāo)眾多,目的是使模型獲得盡可能多的信息,但這樣勢(shì)必帶來(lái)維度爆炸問(wèn)題,使模型計(jì)算量加大,為此應(yīng)用SPSS對(duì)所有樣本進(jìn)行主成分分析,提煉綜合因子形成彼此不相關(guān)的主成分,避免信息重疊。KMO值為0.652,Bartlett球度檢驗(yàn)給出的相伴概率為0.000,可見(jiàn)構(gòu)造樣本適用于做因子分析。取累計(jì)貢獻(xiàn)率為76.6%,得到的主成分因子個(gè)數(shù)為7,即用7個(gè)主成分代替原有的19個(gè)指標(biāo),7個(gè)主成分包含了原來(lái)76.6%的信息。
4. 樣本空間生成。利用FCM將學(xué)習(xí)樣本中數(shù)量居多的“反例”進(jìn)行聚類(lèi),得到和“正例”數(shù)量相同的代表“反例”的新樣本,這些樣本和“正例”樣本一起組成新的學(xué)習(xí)樣本空間,并作為支持向量機(jī)的輸入樣本。對(duì)測(cè)試樣本做同樣的處理,生成測(cè)試樣本空間。
5.結(jié)果分析。本文通過(guò)K-折交叉驗(yàn)證中的網(wǎng)格法(Grid)在MATLAB7.0環(huán)境下編程進(jìn)行參數(shù)尋優(yōu),得到:C=2.0,?酌=2.0。對(duì)輸入樣本進(jìn)行學(xué)習(xí),獲得決策函數(shù),進(jìn)而對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)。定義第Ⅰ類(lèi)錯(cuò)誤為將非ST公司預(yù)測(cè)為ST公司,定義第Ⅱ類(lèi)錯(cuò)誤為將ST公司預(yù)測(cè)為非ST公司。具體結(jié)果如下:
從表1中我們可以清楚的看到,直接用支持向量機(jī)對(duì)學(xué)習(xí)樣本進(jìn)行學(xué)習(xí),進(jìn)而對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè)時(shí),其總體準(zhǔn)確率較之FCM、SVM集成方法差了10多個(gè)百分點(diǎn),但從第Ⅰ類(lèi)錯(cuò)誤率來(lái)看,二者幾乎是相等的(本文只保留了小數(shù)點(diǎn)后兩位),即兩種方法預(yù)測(cè)非ST公司準(zhǔn)確率幾乎相等,而在第Ⅱ類(lèi)錯(cuò)誤率上,F(xiàn)CM—SVM集成方法要比SVM方法小的多。
這說(shuō)明:第一,采用FCM聚類(lèi)方法對(duì)數(shù)據(jù)進(jìn)行的預(yù)處理很好的保留了“反例”樣本的信息,并有效的實(shí)現(xiàn)了兩類(lèi)樣本數(shù)量上的平衡,加上支持向量機(jī)良好的分類(lèi)能力,從而獲得了較好的效果;第二,從SV數(shù)量上來(lái)看,F(xiàn)CM-SVM集成方法在保證較高預(yù)測(cè)精度的前提下,得到的SV數(shù)量顯著減少,這有效減少了模型的計(jì)算時(shí)間;第三,企業(yè)財(cái)務(wù)危機(jī)預(yù)警重點(diǎn)在于對(duì)ST公司的預(yù)測(cè),第Ⅰ類(lèi)錯(cuò)誤的代價(jià)要遠(yuǎn)遠(yuǎn)小于第Ⅱ類(lèi)錯(cuò)誤的代價(jià),所以模型應(yīng)盡可能使第Ⅱ類(lèi)錯(cuò)誤率小,從上表可以看出,F(xiàn)CM-SVM集成方法很好的做到了這一點(diǎn)。
五、 結(jié)論
支持向量機(jī)具有非常好的魯棒性和泛化能力,但是在處理企業(yè)危機(jī)預(yù)警這類(lèi)樣本數(shù)據(jù)分布極不平衡的問(wèn)題時(shí),預(yù)測(cè)精度雖然較高,但是實(shí)際效果并不一定好。利用模糊C均值聚類(lèi)方法進(jìn)行數(shù)據(jù)的預(yù)處理能有效地解決樣本數(shù)據(jù)的不平衡問(wèn)題,是支持向量機(jī)在企業(yè)危機(jī)預(yù)警問(wèn)題中的有效補(bǔ)充,實(shí)證表明,基于FCM—SVM的集成方法在企業(yè)危機(jī)預(yù)警問(wèn)題中具有較高的預(yù)測(cè)精度以及較好的對(duì)“正例”的預(yù)測(cè)能力。
參考文獻(xiàn):
1.謝紀(jì)剛等.分類(lèi)器集成在財(cái)務(wù)危機(jī)預(yù)測(cè)中的應(yīng)用研究.復(fù)旦學(xué)報(bào),2004,43(5):785-788.
2.張根明,向曉驥.基于支持向量機(jī)的上市公司財(cái)務(wù)預(yù)警模型研究.科技管理研究,2007,(4):234-235.
3.邊肇祺,張學(xué)工.模式識(shí)別.北京:清華大學(xué)出版社,2000.
4.程芳,黃國(guó)良.財(cái)務(wù)預(yù)警研究中應(yīng)注意的六個(gè)問(wèn)題.統(tǒng)計(jì)與決策,2007,(4):159.
5.楊淑娥,王樂(lè)平.基于BP神經(jīng)網(wǎng)絡(luò)和面板數(shù)據(jù)的上市公司財(cái)務(wù)危機(jī)預(yù)警.系統(tǒng)工程理論與實(shí)踐,2007,(2):61-67.
6.李曉峰,徐玖平.企業(yè)財(cái)務(wù)危機(jī)預(yù)警Rough—ANN模型的建立及其應(yīng)用.系統(tǒng)工程理論與實(shí)踐,2004,(10):8-14.
基金項(xiàng)目:黑龍江省科技攻關(guān)項(xiàng)目(項(xiàng)目編號(hào):GC05A108)
作者簡(jiǎn)介:梁靜國(guó),哈爾濱工程大學(xué)經(jīng)濟(jì)管理學(xué)院教授、博士生導(dǎo)師;劉丙泉,哈爾濱工程大學(xué)經(jīng)濟(jì)管理學(xué)院博士生。
收稿日期:2008-02-01。
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。