基于機器學習的上市公司違約概率估計模型構建

2022-08-20 09:21:02陳蓉蓉

現代計算機 2022年12期

陳蓉蓉

（貴陽信息科技學院信息工程系，貴陽 550025）

0 引言

1990年滬深交易所相繼成立，2019年7月注冊制正式落地，2020年12月退市新規正式落地，隨著資本市場制度的不斷完善，給投資者和企業家均帶來了良好機會和制度保障。2020年上市公司突破4000家，已經成為全球范圍內第二大交易所。2020年期間因連續2年虧損被實施特別處理（ST）的股票有76只，數量再創歷史新高。如何有效監測上市公司信用風險，保障資本市場平穩運行成為一個亟待解決的問題。2021年8月9日發布的《關于促進債券市場信用評級行業健康發展的通知》指出，“信用評級機構應當長期構建以違約率為核心的評級質量驗證機制，制定實施方案，2022年底前建立并使用能夠實現合理區分度的評級方法體系，有效提升評級質量。”通知明確了違約概率是構建信用評級的核心。Maltritz采用復合KMV模型，利用日交易市場數據，基于極大似然估計法計算2007—2009年金融危機期間美國銀行業的違約概率。鄭德淵借鑒KMV和復合KMV計算違約距離的函數形式確定違約距離，并將標準正態分布函數轉換成支付違約概率。本文將基于機器學習中的Logistic回歸、Probit回歸、決策樹、AdaBoost回歸從上市公司不同維度指標中篩選出顯著性較高指標，指標的篩選遵循剔除冗余信息、同時保留最大違約判別能力的原則。在構建違約概率估計模型時優先選擇精度較高、可解釋性較強、模型較簡潔的Logistic回歸模型，通過預測對模型進行評估。

由于上市公司財務數據需要經過審計，數據來源更可靠，利用上市公司財務數據來構建違約概率估計模型，相比于利用股票收益波動率、股權市場價值為基礎或資產賬面價值、收入現金流歷史數據為基礎計算的違約概率更具穩定性、可靠性。同時機器學習方法更適合運用在特征較多的模型構建，它能夠從海量特征中優先篩選出最顯著的特征，這是與傳統統計學方法的不同，這一優勢可以更好地運用于多維度指標體系的上市公司模型構建。

1 數據來源

由于商業銀行通常出于對企業信息的保密而不對外公布相關數據，因此違約的數據無法直接獲得。本文將2015—2019年上海證券交易所網站公布的被實施特別處理（ST）的股票所對應的上市公司作為發生違約的樣本，未被處理的上市公司作為對照樣本。這樣做主要有以下幾點原因：

（1）上市公司被實施特別處理（ST）通常由于兩種情況，一種情況是上市公司經過審計連續兩個會計年度的凈利潤都是負值，另一種情況是公司最近一個會計年度每股凈資產低于股票面值。在這種情況下，公司支付違約風險增大，因而可被定義為違約。

（2）上市公司的財務數據通常需要經過審計，其數據信息相對于非上市公司更為可靠。

本文選取了短期貸款數量較多的制造業上市公司作為樣本進行研究。篩選出2015—2019年59家制造業被實施特別處理（ST）的上市公司，同時隨機選取了141家制造業上市公司中財務數據正常的企業作為對照組，總計200家制造業上市公司作為測算違約概率的樣本。上市公司的財務數據來自于萬得（Wind）金融數據庫。

2 指標體系

在估計違約概率時，選擇上市公司被實施特別處理（ST）的前一年的財務數據作為模型中的解釋變量，以公司是否違約作為被解釋變量（發生違約即ST公司取值為1，未發生違約即非ST公司取值為0）來構建模型。在選擇影響公司違約概率的因素時通常遵循體現公司經營成果、償債能力，并且具有可操作性、整體性、可比性的原則最終選取了28個財務指標作為公司經營狀況的指標代表，將企業財務指標綜合分為長期償債能力、短期償債能力、現金流量能力、股東獲利能力、運營能力、盈利能力以及發展能力七個維度，每個維度下的具體指標如下：

（1）長期償債能力。資產負債率（ZCFZL）、流動資產比率（LDZCBL）、固定資產比率（GDZCBL）、流動負債比率（LDFZBL）、產權比率（CQBL）、已獲利息倍數（EBIT/利息費用）（LXBS）。

（2）短期償債能力。流動比率（LDBL）、速動比率（SDBL）、營運資金對總資產比率（YYZZCBL）。

（3）股東獲利能力。每股收益（MGSY）、每股凈資產（MGJZC）。

（4）現金流量能力。每股經營活動現金凈流量（MGXJLL）、現金比率（XJBL）、現金凈流量對流動負債比率（XJJLDFZBL）。

（5）盈利能力。營業利潤率（YYLRL）、總資產凈利潤率（ZZCJLRL）、凈資產收益率（JZCSYL）、總資產報酬率（ZZCBCL）、銷售凈利率（XSJLL）。

（6）運營能力。應收賬款周轉率（YSZKZZL）、存貨周轉率（CHZZL）、應付賬款周轉率（YFZKZZL）、固定資產周轉率（GDZCZZL）、總資產周轉率（ZZCZZL）。

（7）發展能力。資產總計（N年，增長率）（ZCLJ）、營業收入（N年，增長率）（SRLJ）、營業利潤（N年，增長率）（LRLJ）、股東權益（N年，增長率）（QYLJ）。

3 指標選擇與模型構建

3.1 數據預處理

將所有自變量轉為數值型變量，將因變量轉為分類變量。統計每個變量的缺失值情況，由于數據是從萬得（Wind）金融數據庫里根據公司的財務報表整理得來，因此不考慮數據存在異常值的情況，只對數據作缺失值的填補，缺失值填補利用R語言中missForest包進行數據插補。missForest是基于隨機森林算法的缺失值填補的非參數方法，適用于任何類型的數據（連續、離散），同時填補效果相比于均值、中位數填補更接近真實值，效果更好。

3.2 指標選擇

采用Logistic回歸模型，自變量的篩選使用AIC準則結合逐步回歸方法。AIC（赤池信息準則）是衡量模型擬合優良性和模型復雜度的一種標準。逐步回歸是一種線性回歸模型自變量選擇方法，解決了多重共線性問題的同時保留了最顯著的變量。經過多次變量的進入和剔除，逐步回歸得到最終模型的=127.32，這與起始的154.97相比有了較大的降低，說明模型有了明顯的優化。分析最終的回歸結果得到，較顯著的變量有MGJZC、GDZCBL、ZZCZZL、CQBL、QYLJ，因此只將這五個變量作為自變量引入模型中，得到的Logistic回歸結果如表1所示。

表1 邏輯回歸結果

可以看到，當只引入較顯著的GDZCBL、CQBL、MGJZC、ZZCZZL、QYLJ五個變量時，ZZCZZL變量變得不再顯著，最為顯著的變量為MGJZC（每股凈資產）。

采用Probit回歸模型，自變量的選取仍采用逐步回歸的方法，經過多次的變量進入和剔除，最終得到逐步回歸的結果。Probit回歸得到的結果與Logistic回歸相似，逐步回歸得到的變量較顯著的有MGJZC、GDZCBL、ZZCZZL、QYLJ和CQBL，這與Logistic回歸得到的結果一致，只引入這五個變量的結果如表2所示。從回歸結果可以看出，只引入五個變量后ZZCZZL變量也變得不再顯著，這與Logistic回歸類似。

表2 Probit回歸結果

決策樹回歸得到的結果如表3所示，從決策樹增長過程中結點的選擇可以看出變量MGJZC、QYLJ、ZCLJ較為顯著。其中的MGJZC（每股凈資產）、QYLJ（股東權益（年，增長率））在Logistic回歸和Probit回歸中也是較為顯著的變量。

表3 決策樹回歸結果

表4顯示了在AdaBoost建模過程中每個變量被選為結點屬性的權重的比較，從而也反映了變量的重要性。AdaBoost回歸模型中較顯著的變量為MGJZC、QYLJ、ZCLJ，結果與決策樹回歸結果一致。

表4 變量重要性

表5匯總了以上模型中顯著性較高的變量。

表5 顯著性變量匯總

綜合上述四種方法，將顯著變量全部引入Logistic模型中，運用逐步回歸的方法得到最終的模型如表6所示。

表6 回歸結果

該模型的=125.01。

最終的上市公司違約概率估計指標由衡量股東獲利能力的每股凈資產、衡量運營能力的總資產周轉率、衡量發展能力的資產總計（年，增長率）、營業收入（年，增長率）與股東權益（年，增長率）與衡量長期償債能力的固定資產比率組成。

3.3 模型構建

Logistic回歸模型對于判斷二分類變量的關系具有良好的效果，同時該模型不需要對有關變量做限制性統計假設，方法較為簡單，所需參數較少，可操作性、可解釋性較強，同時以極大似然法所求的估計量相比較其他模型使用的最小二乘法所得到的估計量準確性更高。考慮到前提假設、變量選擇、模型構建等各方面的因素，下文將采用Logistic回歸模型對違約概率進行估計，估計模型如下：

4 模型預測與評估

4.1 訓練集

將模型（1）在訓練集樣本上進行預測的混淆矩陣如表7所示，訓練集的誤判率為11.5%。

表7 訓練集結果

4.2 測試集

首先選擇2020年上海證券交易所公布的被實施特別處理的36家上市公司作為違約樣本，同時隨機選擇64家運營正常的上市公司作為對照樣本，利用模型（1）和樣本公司在發生違約前一年的財務數據對其發生違約年份的違約概率進行估計。樣本公司的財務數據主要來自于萬得（Wind）金融數據庫中公司的年報。測試集樣本的混淆矩陣如表8所示，最終得到測試集的誤判率為12%。

表8 測試集結果

5 結語

信用風險是資本市場各主體高度關注的一類風險，它的核心是違約概率的估計，本文通過機器學習方法篩選出顯著性較高的財務指標，并結合Logistic回歸構建違約概率估計模型。上市公司的財務指標眾多，不同維度的指標反映了上市公司不同層面的能力，如何從眾多指標中篩選出具有較大判別能力的指標從而構建違約概率估計模型是本文的重點。而機器學習方法克服了傳統統計學方法無法解決特征多、樣本少的問題，本文對于指標的選擇同時綜合了多種方法，最終得出衡量股東獲利能力的每股凈資產、衡量運營能力的總資產周轉率、衡量發展能力的資產總計（年，增長率）、營業收入（年，增長率）與股東權益（年，增長率）與衡量長期償債能力的固定資產比率指標對于上市公司的違約風險具有較好的判別能力。將以上指標結合Logistic回歸構建的違約概率估計模型在訓練集和測試集上的預測效果較好。