楊青龍,田曉春,胡佩媛
(中南財經政法大學 統計與數學學院,武漢430073)
基于LASSO方法的企業財務困境預測
楊青龍,田曉春,胡佩媛
(中南財經政法大學 統計與數學學院,武漢430073)
文章綜合考慮企業的財務和非財務因素,利用LASSO方法對企業財務困境預測指標進行篩選,然后使用決策樹、隨機森林、SVM、最近鄰法這四種數據挖掘方法,以及常見的logistic模型,分別建立企業財務困境預測模型。結果表明:不能忽視非財務因素在企業財務困境預測中的作用;并非所有數據挖掘方法都優于常用的logistic模型;LASSO方法能在降維的同時保證企業財務困境預測的準確性,實現模型的精簡。
財務困境預測;LASSO;變量選擇
準確地預測企業財務困境,有助于保護投資者、債權人,以及企業其它利益相關者的利益,也有助于經營者防范企業陷于財務困境,更有助于政府監管部門對企業質量和證券市場進行有效監控。因此無論是學術研究還是實際應用中,關于企業財務困境預測的研究一直受到廣泛的關注。
近些年來,國內許多學者對企業財務困境預測問題進行了探討,但是進行實證分析的文獻不多。本文將綜合考慮影響企業財務困境的財務和非財務因素,利用在大規模數據變量模型中具有良好的變量選擇性質的LASSO方法進一步篩選預測指標。另外,我們知道判別分析法只能用于自變量全部為數量變量的情形,而本文的預測指標還包括一些分類變量,因此本文最后選擇最常用的logistic模型,以及決策樹、隨機森林、SVM、KNN等數據挖掘方法建立預測模型,通過對比指標篩選前后的均方誤差和預測準確度來選擇最符合國情的企業財務困境預測模型。
1.1 LASSO基本思想
Tibshirani(1996)在Frank(1993)的橋回歸(Bridge Regression)和Bireman(1995)的非負絞除法(Non-negative Garrote)基礎上,提出了一種新的變量選擇方法,即LASSO(Least absolute shrinkage and selection operator)。它的基本思想是加入一個懲罰項來約束回歸系數的大小,將變量的系數進行壓縮并使得某些較小系數變為零,從而達到變量選擇的目的,即在約束條件下,變量的系數要滿足的條件為:

這等價于:

其中式(2)中的第一部分表示模型的擬合的優劣,第二部分就是所加入的懲罰項。LASSO方法確定的變量系數既要使得殘差平法和小,同時又要壓縮系數,避免其膨脹。另外,調和系數λ(λ>0)越小,模型的懲罰力度越小,保留的變量就越多;λ越大,模型的懲罰力度就越大,保留的變量就越少。我們的目的是進行變量選擇,在提供足夠信息的條件下盡量減少變量個數,使得模型能夠更精煉,因此我們必須要在模型的擬合優度和簡潔性之間進行權衡。在確定λ的問題上一般是用交叉驗證或者Mallows CP等準則通過計算來確定。MallowsCP統計量是用來評價回歸的一個準則,如果從k個自變量中選取P個(k>p)參與回歸,則CP統計量具有定義:

基于MallowsCP準則,使用迭代算法,找到使得CP統計量最小的λ,再將此最優的λ代入式(2),得到基于懲罰約束條件下變量系數的估計值。
1.2 五折交叉驗證
在樣本量充足的情況下,為了選擇模型,可以將樣本集隨機地分為訓練集、驗證集和測試集,其中,訓練集用于訓練模型,驗證集用于選擇模型,而測試集則用于最終對模型的評估。但是,在實際應用中樣本量常常不夠充分,為了選擇好的模型,可以采用交叉驗證的方法,其基本思想是重復地使用樣本。以下對五折交叉驗證方法進行詳細說明。
隨機地將樣本切分為5個互不相交的大小相等的子集,然后用4個子集的樣本訓練模型,而利用余下的子集測試模型,將這一過程對可能的5種選擇重復進行,最后選出5次評測中標準化均方誤差(NMSE)最小的模型。

需要注意的是,如果僅用均值來做預測,那么NMSE應該為1,因此,若是模型中NMSE大于1,說明模型很糟糕,還不如直接用均值做預測。
1.3 評價指標介紹
企業財務困境預測模型本質上就是二類分類問題,而二類分類問題常用的評價指標就是精確率(precision)和召回率(recall),以及F1值。這三個指標越大,說明模型預測效果越好。通常以關注的類為正類,在本文中,企業發生財務困境為正類,財務健康為負類。模型在測試數據集上的預測情況一共有4種情況,各種情況出現的次數分別記為:
TP ∶將財務困境企業預測為財務困境;
FN ∶將財務困境企業預測為財務健康;
FP ∶將財務健康企業預測為財務困境;
TN ∶將財務健康企業預測為財務健康。
于是,將精確率定位為:

召回率定義為:

F1是精確率和召回率的調和均值,定義為:

2.1 樣本選擇
本文選取了截止于2014年底仍被ST的48家上市公司,對照組為2665家未被ST上市公司。在對數據進行缺失值和異常值處理后,剩余38家被ST的上市公司和2362家未被ST的上市公司。所有數據均來源于wind數據庫。另外,在多數文獻中會按照1:1的比例選取ST公司和非ST公司,這與這類文章一般選擇準確率(accuracy rate)作為模型的評價指標有關,準確率定義為:

其中,TP+TN表示正確做出判斷的樣本數量,N表示所有樣本量。當樣本出現傾斜時,即樣本中非ST公司的數量遠遠多于ST公司數量,若我們將所有測試集樣本都判斷為非ST公司,那么我們也可以得到較高的準確率,然而此時模型顯然是有問題的。本文用于評級模型的指標是精確率,召回率以及F1,可以避免出現這樣的問題,因此本文不按照1:1的比例選取ST公司和非ST公司。
2.2 指標篩選
2.2.1 備選指標
目前企業財務困境預測研究中所使用的指標,不再局限于傳統的反映企業償債能力、盈利能力、運營能力、發展能力以及現金流量等方面的財務指標,而是開始引入包括企業組織結構、市場變量和宏觀經濟變量等在內的非財務指標。本文參考其他文獻,同樣是考慮了企業償債、盈利、運營、發展能力,以及現金流量等方面的財務指標,另外,還加入了“前十大股東持股比例合計”來反映企業股權的集中程度,“BETA值”和“股價年振幅”來反映企業對市場的敏感程度。最后,考慮了各企業前三年的財務狀況對企業當前財務表現的影響。具體的財務困境預測指標如表1所示。

表1 備選財務困境預測指標
2.2.2 LASSO回歸篩選指標
本文用R軟件進行LASSO回歸來選擇財務預測指標。結果如表2所示,指標x2、x9、x10、x11、x13、x14、x15的回歸系數均不顯著,而這些指標基本上是屬于企業的運營能力、發展能力和現金流量,這說明存在多余變量,原本的23個備選指標經過篩選后剩余16個指標。另外,各指標系數的絕對值大小也體現了各個指標對預測結果的重要性大小,我們可以發現,重要性排名前五的指標中有4個是非財務指標,且與排名在五名之后指標系數的大小也有明顯的差距,說明非財務指標是企業財務困境預測研究中的重要因素。

表2 LASSO回歸系數
2.3 建立模型
除了最常用的logistic模型,本文還用了決策樹、隨機森林、SVM、最近鄰法的數據挖掘方法建立了企業財務困境預測模型。需要注意的是,在使用這些方法時,我們會改變各個函數中的參數默認值,盡量使各個模型達到最佳結果。根據這5種方法建模的5折交叉驗證結果如圖1所示。圖1中的黑色條形表示用篩選前的23個指標進行建模時的標準化均方誤差,灰色條形表示用篩選后的16個指標進行建模時的標準化均方誤差。從5折交叉驗證的原理我們知道,選擇模型的標準為:選擇測試集中標準化均方誤差最小的模型。指標篩選前決策樹、隨機森林、SVM、最近鄰法、logistic模型選擇的分別是第3、3、5、3、5組數據所建立的模型,而指標篩選后,相應組別的數據所建立模型的標準化均方誤差基本上能保持在原有水平,其中決策樹、SVM以及logistic模型在指標篩選后還能夠降低模型的標準化均方誤差。另外,對比常用的logistic模型,和其他數據挖掘方法,發現logistic模型的標準化均方誤差低于SVM,但仍遠遠高于其余三種數據挖掘模型。

圖1 財務困境預測指標篩選前后的模型選擇情況(黑色:篩選前,灰色:篩選后)
本文精確率反映的是判斷為財務困境的企業實際上就是陷于財務困境企業的準確性,與它對應的統計學概念是犯第Ⅱ類錯誤(納偽)的概率,精確度越大,犯第Ⅱ類錯誤的概率就越小。從表3可以看出,對于四種數據挖掘模型,不管是否經過指標篩選,訓練集合測試集的精確率都達到100%,即不會犯第Ⅱ類錯誤;而對于logistic模型,經過指標篩選后,訓練集的精確率得到提高,而測試集的精確率從85.71%降低至83.33%,但相差不大。召回率反映的則是實際陷于財務困境的企業被識別出來的概率,與之對應的統計學概念就是犯第Ⅰ類錯誤(拒真)的概率,召回率越大,犯第Ⅰ類錯誤的概率就越小。

表3 模型預測結果對比 (單位:%)
同樣從表3可以看出就本文的樣本數據而言,SVM模型雖然有較高的精確率,但召回率較低,甚至低于logistic模型,然而logistic模型比SVM模型簡單得多,此時SVM的優勢無法體現。我們知道在樣本量確定的情況下,犯第Ⅰ類錯誤和犯第Ⅱ類錯誤的概率一般是此消彼長的,這種關系同樣適用于精確率和召回率,為了均衡考慮這兩個指標,我們可以直接比較F1值。通過比較F1值,我們發現對于本文的樣本數據,決策樹、隨機森林,以及最近鄰法這三種數據挖掘模型的預測效果優于logistic模型,而logistic模型又優于SVM。另外,指標篩選前后,決策樹、隨機森林,SVM以及最近鄰法這四種數據挖掘模型的預測效果沒有發生變化;對于logistic模型,指標篩選后,訓練集的預測效果得到提升,而測試集的預測效果則是變差了。經過LASSO指標篩選后的logistic模型,模型得到精簡,對訓練樣本的擬合優度也得到提高,但是模型的泛化能力受到一定程度的影響。
本文利用LASSO方法對企業財務困境預測指標進行篩選,然后用決策樹、隨機森林、SVM、最近鄰法這四種數據挖掘方法,以及最常用的logistic模型,分別建立了企業財務困境預測模型,研究發現:(1)非財務指標的LASSO回歸系數遠遠大于財務指標,這說明在企業財務困境預測的研究中不應該只限于對財務報表的分析,而應該看到企業所處的市場和宏觀環境,以及企業自身的組織結構等非財務因素;(2)無論指標是否經過篩選,SVM方法都不如常用的logistic模型,但其他三種數據挖掘方法都能優于logistic模型;(3)指標是否經過篩選對于四種基于數據挖掘方法的企業財務困境預測模型沒有產生影響,也就意味著用較少的預測指標能夠達到同樣良好的預測效果,而對于logistic模型,指標篩選提高了模型的擬合優度,雖然降低了模型的泛化能力,但以較少的預測指標(更精簡的模型)仍可以得到在可接受范圍內的預測效果,由此可以認為LASSO方法在企業財務困境預測中的指標選擇問題上有良好的表現。
[1]Altman E I.Predicting Financial Distress of Companies:Revisiting the Z-score and ZETA models[J].SternSchool of Business,2000.
[2]Reisz AS,Perlich C.A Market-based Framework For Bankruptcy Pre?diction[J].Journal of Finance Stability,2007,3(2).
[3]Bharath S T,Shumway T.Forecasting Default With the Merton Dis?tance to Default Model[J].Review of Financial Studies,2008,21(3).
[4]Bauer J,Agarwal V.Are Hazard Models Superior to Traditional Bank?ruptcy Prediction Approaches?A Comprehensive Test[J].Journal of Banking&Finance,2014,(40).
[5]Zhou L,Lai K K,Yen J.Empirical Models Based on Features Rank?ing Techniques for Corporate Financial Distress Prediction[J].Com?puters and Mathematics With Applications.2012,64(8).
[6]Liang D,Tsai C F,Wu H T.The Effect of Feature Selection on Finan?cial Distress Prediction[J].Knowledge-Based Systems.2015,(73).
[7]崔毅,蔡玉蘭.企業財務困境預測研究的國際進展及啟示[J].技術經濟與管理研究.2014,(11).
[8]董景榮,陳軍.論經典統計財務困境預測模型的理論誤區[J].統計與決策.2010,(4).
[9]方匡南,章貴軍,張惠穎.基于LASSO-logistic模型的個人信用風險預警方法[J].數量經濟技術經濟研究.2014,(2).
(責任編輯/浩 天)
F270.5
A
1002-6487(2016)23-0170-04
國家自然科學基金資助項目(11301545)
楊青龍(1981—),男,河南南陽人,博士,副教授,研究方向:金融統計。
田曉春(1991—),女,福建三明人,碩士研究生,研究方向:金融統計。