摘要:利用支持向量機(SVM)-Logistic回歸的混合兩階段模型來對上市公司信用風險進行評價。通過Logistic回歸分析來對SVM的輸出結(jié)果進行修正,降低了傳統(tǒng)SVM方法的經(jīng)驗風險,提高了分類準確率。對SVM-Logistic回歸模型、SVM和神經(jīng)網(wǎng)絡(luò)-Logistic 回歸模型進行實證比較,結(jié)果表明,支持向量機-Logistic回歸模型的總判別準確率高于其他判別模型。
關(guān)鍵詞:SVM;Logistic回歸;信用風險評價
中圖分類號:F276.3 文獻標識碼:A
Listed Companies′ Credit Risk Evaluation Based on Integration Model
ZHANG Jie,WANG Fan
(School of Economics and Management,Beijing University of Technology, Beijing 100022,China)
Abstract: This paper uses the Support Vector Machine (SVM) and Logistic Regression for corporate financial risk evaluation. This can decrease the empirical risk of SVM outputs by interpreting and modifying the outputs of the SVM classifiers according to the result of Logistic Regression analysis so that it improves the accuracy of classifier rate. Compared with the models of SVM and NN-Logistic , the result shows that the integrated binary discriminant rule proves more accurate classifier rate than that of other models.
Key words:SVM;Logistic regression;credit risk evaluation
一、 引言
在現(xiàn)代市場經(jīng)濟中,信用是一切經(jīng)濟關(guān)系的基礎(chǔ)。上市企業(yè)總體而言代表著我國各行業(yè)資產(chǎn)質(zhì)量較好、營運水平較高的企業(yè),但由于一些歷史原因和人為因素,也有部分上市企業(yè)出現(xiàn)了過度包裝,欺騙上市,損害投資者利益的情況。有些上市公司上市不久便被特別處理,也有些在債務方面依靠借新債還舊債的方式維持企業(yè)的發(fā)展,有的甚至出現(xiàn)違約情況,使債權(quán)方的利益受到損失。因此,建立科學合理的上市公司信用評價模型就具有十分重要的意義。
自Altman在公司破產(chǎn)及信用風險分析的開創(chuàng)性工作以來,國內(nèi)外學者從不同角度進行了上市公司信用風險的研究,形成了兩類模型,一類是統(tǒng)計模型,另一類是人工智能模型。每種模型都有各自的優(yōu)點,但同時還存在一定的局限性。對Logistic 回歸方法而言,其優(yōu)點主要是其穩(wěn)健性較好、模型的可解釋性較強、可以產(chǎn)生一個線性評分卡,缺點則是其預測精度比神經(jīng)網(wǎng)絡(luò)差。對神經(jīng)網(wǎng)絡(luò)方法而言,主要優(yōu)點是預測精度較高,其缺點:一是穩(wěn)健性不夠好,當用保留樣本進行預測時,精度下降較多;二是模型的解釋性不強,建模過程基本上是一個“黑箱”;三是它主要用于分類,即將申請人分成“好客戶”和“壞客戶”,而不能像判別分析、Logistic 回歸等方法那樣產(chǎn)生線性評分卡。因此不斷優(yōu)化上市公司信用風險評價模型的判別精度,是當前研究上市公司信用風險問題的焦點。
楊宏峰、陳蔚(2006)[1]綜合了神經(jīng)網(wǎng)絡(luò)和Logistic回歸模型的優(yōu)點,首先利用神經(jīng)網(wǎng)絡(luò)方法建立一個信用評分模型,然后將神經(jīng)網(wǎng)絡(luò)評分的結(jié)果作為解釋變量之一,再加上其余的特征變量,最后建立一個基于神經(jīng)網(wǎng)絡(luò)-Logistic回歸的混合兩階段模型,并對上市公司的財務困境進行了實證研究,取得了滿意的結(jié)果。
筆者將基于小樣本的支持向量(SVM) 與Logistic回歸模型混合來對上市公司信用風險進行評價。實證結(jié)果表明,支持向量機-Logistic回歸混合兩階段模型的總判別準確率高于其他判別模型。
二、數(shù)據(jù)來源與處理
(一)上市公司樣本選取及數(shù)據(jù)處理
選取上市公司的財務數(shù)據(jù)作為數(shù)據(jù)來源,以上市公司因財務原因被ST(特別處理)作為界定公司處于財務危機的標志??紤]到ST本身的滯后性,根據(jù)公司被ST前二年的財務數(shù)據(jù)來預測公司是否已經(jīng)處于財務困境。根據(jù)我國的實際情況,在樣本中將以下ST公司排除:(1)已經(jīng)被披露存在嚴重假賬的公司;(2)上市兩年就被ST的公司,這樣的公司極有可能是為了不正當目的被虛假包裝上市。與ST公司相對應,也去掉了一部分正常公司:(1)已經(jīng)被披露存在嚴重假賬的公司;(2)據(jù)研究表明,金融機構(gòu)的財務結(jié)構(gòu)是與非金融機構(gòu)有著很大不同的。因此,將金融機構(gòu)從樣本中排除出去。
筆者將總樣本分為兩組,一組為訓練樣本組,用來構(gòu)建預測模型;另一組為測試樣本組,用來測試預測模型的分類準確率。根據(jù)數(shù)據(jù)處理結(jié)果,將滬深上市公司2004年的40家公司(ST公司20個和非ST公司20個)作為訓練樣本,并將2005年的54家公司(ST公司27個和非ST公司27個)作為測試樣本,其中非ST公司是按照當年上市公司信用評級由高到低抽取的。(數(shù)據(jù)來源http://www.stockstar.com)。為了表述方便,將上市公司ST前一年計為t-1年,前兩年記為t-2年。
(二) 指標選擇
企業(yè)財務指標主要分五類:償債能力指標、營運能力指標、盈利能力指標、成長能力指標和現(xiàn)金流量指標。從中選擇有代表性的8個指標。
X1=流動比率 X2=負債比率
X3=存貨周轉(zhuǎn)率 X4=總資產(chǎn)周轉(zhuǎn)率
X5=凈資產(chǎn)收益 X6=每股收益
X7=總利潤增長率 X8=每股經(jīng)營現(xiàn)金流量
這些指標的選用,既考慮了公司的資產(chǎn)與負債能力,同時兼顧到公司的盈利能力與成長能力,能夠充分體現(xiàn)公司
的信用狀況(所有指標均來自證券之星公布的滬深上市公司財務綜合指標)。
三、 基于SVM-Logistic回歸的混合兩階段模型
支持向量機是Vapnik1995年提出的[2]。傳統(tǒng)的SVM模型建立在結(jié)構(gòu)風險最小化原則(SRM)的基礎(chǔ)上,已被證明優(yōu)于傳統(tǒng)的經(jīng)驗風險最小化原則(ERM)。Madevska -Bogdanova, Nikolik, and Curfs (2004)指出SVM的輸出結(jié)果可以被認為是點到超平面的距離,即依靠點到超平面的相關(guān)距離來建立分類模型。點到超平面的距離越近,被誤判的風險就越高;反之,點到超平面的距離越遠,則被誤判的風險就越低。因此要想提高傳統(tǒng)SVM的分類準確率,就要用ERM原則來修正那些存在高風險的SVM模型的輸出結(jié)果。
SVM-Logistic混合兩階段模型首先利用支持向量機建立一個信用風險評價模型,然后將支持向量機的評分結(jié)果作為解釋變量之一,再加上其余特征變量,最后建立一個基于Logistic回歸的上市公司信用風險評價模型,對支持向量機的分類結(jié)果進行修正。由于支持向量機方法預測精度高,因此,其信用評分結(jié)果綜合了解釋變量與因變量之間關(guān)系的更多信息,將這種信用評分結(jié)果作為解釋變量之一,能夠大大提高模型的預測精度。而最終Logistic回歸模型的建立,又保證了模型的穩(wěn)定性、可解釋性。因此,SVM-Logistic混合兩階段模型有較高的預測精度。
(一)支持向量機判別模型
量機的誤判率為fj。將支持向量機訓練得出的結(jié)果作為一個解釋變量,加入到訓練樣本集。利用Logistic回歸模型計算出y=1時x發(fā)生的概率p:如果p>fj,則混合模型將接受此輸出結(jié)果;如果p 同理當SVM的輸出為y=-1可以用上述同樣的方法進行修正。 將8個指標作為8個解釋變量,將SVM訓練結(jié)果作為一個解釋變量與原有8個解釋變量共同進行Logistic回歸模型分析,構(gòu)造Logistic回歸樣本集(X,Y),其中X的維數(shù)為9,Y∈{0,1} ,Y=1表示信用狀況良好,Y=0表示信用狀況較差。取pi>0.5,如果pi>0.5,取Y=1;反之,如果Pi<0.5,取Y=0。 (三) 比較結(jié)果及分析 筆者將SVM-Logistic混合兩階段方法、支持向量機方法和神經(jīng)網(wǎng)絡(luò)——Logistic回歸混合兩階段方法的訓練結(jié)果進行比較,其中訓練集對應t-1年和t-2年的數(shù)據(jù)分別表示所選2004年的上市公司對應2002年和2003年的數(shù)據(jù),測試集對應t-1年和t-2年的數(shù)據(jù)分別表示所選2005年的上市公司對應2003年和2004年的數(shù)據(jù),比較結(jié)果如表1: 從訓練結(jié)果可以看出SVM-Logistic混和兩階段模型的判別準確率對應t-1年、t-2年分別為94%、94%;SVM的判別準確率對應t-1年、t-2年分別為91%、92%; NN-Logistic回歸模型對應t-1年、t-2年的判別準確率分別為89%、91%。比較結(jié)果SVM-Logistic混和兩階段模型的判別準率最高。 從表1中還可以看出用上市公司ST前一年和前兩年的數(shù)據(jù)來預測上市公司的信用狀況的準確率相近,且準確率幾乎都達到85%以上。說明上市公司信用狀況可以提前兩年就能預測到。 四、 結(jié)論 以上實證結(jié)果表明基于SVM-Logistic回歸的混合兩階段模型與其他分類模型相比有最高的分類準確率。該模型綜合了SVM和Logistic回歸模型的優(yōu)點,具有總體上的優(yōu)越性。上市公司ST前一年和前兩年的判別結(jié)果相近,因此利用此模型可以預測上市公司兩年后的信用風險狀況,為上市公司預警或投資者的投資提供幫助。 參考文獻: [1] 楊宏峰,陳蔚.基于神經(jīng)網(wǎng)絡(luò)-Logistic回歸的混合兩階段財務困境預測模型[J].統(tǒng)計與決策,2006(10):157-159. [2] Cortes,Vapnik. Support vector networks[J].Machine Learning,1995,20(3). [3] Zhongsheng Hua.Predicting corporate financial distress based on integration of support vector machine and logistic regression[J].Expert Systems with Applications,2006. [4] 楊宏峰.上市公司財務困境判別模型的理論分析與實證研究[C].山東大學碩士論文,2006-04. [5] 石慶焱.一個基于神經(jīng)網(wǎng)絡(luò)-Logistic回歸混合兩階段個人信用評分模型研究[J].統(tǒng)計研究,2005(5):45-49. (責任編輯:張淑蓮) 注:“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文?!?/p>