


摘要:隨著信用債“暴雷”的頻繁發生,信用債違約成為金融市場較為重要的課題。文章主要利用公司財務數據,采取兩種機器學習模型預測公司債違約,并利用樣本進行了實際測算以及對結果進行了對比,發現兩種機器學習模型對于預測公司債信用違約都有較好的效果。其中,SVM模型的預測精度更高,logit模型則犧牲了一部分精度來預測出更多違約事件。應用層面上,logit模型更適合市場風險預警,而SVM模型更適用于提示監管機構采取一定措施。利用機器學習模型研究信用債違約,有助于推動我國信用風險評估市場化進程。
關鍵詞:信用違約;logit模型;SVM模型;比較分析;應用場景啟示中圖法分類號:F830 文獻標識碼:A
Research and empirical analysis on prediction of credit default usingmachine learning model
CHEN Xuerong
(Yushi Internet Financial Information Service Co., Ltd., Shanghai 200120, China)
Abstract: With the frequent occurrence of credit debt thunderstorm, credit default has become a more important issue in financial market. Mathematical methods are also more common in finance, and machine learning techniques are more mature. Therefore, this paper mainly uses the company financial data, adopts two kinds of machine learning model to forecast the company debt default, uses the sample to carry on the actual computation, and has carried on the contrast to the result. It is found that the two ML models have better effect on the default of corporate bonds. The precision of SVM model is higher, but logit model sacrifices part of precision to predict more default events. On the application level, logit model is more suitable for market risk early warning, while SVM is more suitable for prompting regulators to take certain measures. The study of credit default using machine learning model is helpful to the further development of credit default prediction and the marketization of credit risk assessment in China.
Key words: credit default, logit model, SVM model, comparative analysis, application scenario enlightenment
1? 研究背景
債券是金融市場不可或缺的重要工具之一,信用債又是債券中的重要類型。信用債是企業的重要融資途徑,信用風險是金融市場風險的重要來源。近年來,信用違約事件屢屢發生,信用債違約逐漸成為常態。2019年,209 只債券發生違約,違約金額為1302.33億元;2020年,196只債券發生違約,違約金額達1752.71億元。在此背景下,研究信用債違約便成為重要課題。
定性分析較為常見的違約分析辦法,主要分析發行公司的現金流和盈利狀況,常見方法為 5C ( Capacity,Capital,Collateral,Condition,Character )模型,主要從企業償債能力、資本結構、抵押品價值、公司未來成長和公司償債意愿等維度進行分析。
現有的定量分析預測違約模型可分為三類:第一類是評分模型。其中,具有代表性的模型有基于多元判別分析( MDA)的 Altman ( 1968) Z 評分模型和 Ohlson (1980) O 評分模型。Z 評分模型存在較大的局限性。首先,其決策規則是不確定的,得分判別存在2.99~ 1.81的中空地帶。此外,它并沒有給出估計的違約概率。logit 模型則可以有效地解決該問題。 Ohlson (1980)使用 logit 模型來計算違約概率。LDA 線性與 logit 和 probit 非線性模型僅僅是將模型套用在公司/企業債上,它們存在兩個問題,即起到較大作用的是指標的設定,而指標的人為構造或選取又存在一定的主觀性;線性回歸或者非線性回歸雖不易造成過擬合,但是容錯率很高,對于違約的預測沒有很好的效果。
第二類是 Merton (1974)提出的結構化模型,即 Merton 模型。其假設購買杠桿公司的股票應被視為等價于購買寫在公司資產上的看漲期權。Merton 模型假設資產價值是隨機的,并遵循幾何布朗運動;預期資產收益率和波動率以及無風險利率,不隨著時間推移改變。Merton 模型存在局限性,如需要對發債人的債務進行持續交易,而大多數負債都很難經常性地交易;資產價值的波動標準差被假定為不變,而實際的波動性隨著時間而變化等。
第三類是 Reduced Form 模型。它是生存分析模型的一種變體。之所以將 Hazard 模型稱為 Reduced Form 模型,是因為 Hazard 模型將復雜的違約機制簡化為一個簡單的表達式,使模型能夠在現實中接受市場數據采集。它還可以推導出無套利定價、估值和套期保值公式。
2? 模型
2.1? 因子篩選
我們建立了關于債券的數據庫,除了債券的一些基礎信息外,還從公司財務報表中整理了400多個財務因子,作為模型的輸入變量。
2.2? logit 模型建立
(1)logit 模型原理
在分析國內外定量模型的優缺點及適用性后,針對我國的信用債市場,考慮選擇 binomial 分布對應的 logit 回歸為初始模型。觀測到違約事件發生情況:
其中,殘差項εi 的分布為 logistic 分布。
那么,Yi =1的概率公式如下:
其中:
其中,Xi 為因子參數,β為對應參數的系數值。
(2)logit 機器學習計算步驟
在非線性模型預測的基礎上,我們在模型中引入了機器學習算法(圖1)來完成預測違約。
將該算法轉為機器學習模式,可以處理為:
Logistic 回歸模型可以寫成 Y=h ( x )= F(X′iβ+εi ),其替代函數 sigmoid 函數也叫 s 型函數,用 g( z )表示:
其中,z=X′iβ+εi 。
誤差反饋(損失函數 J)為:
機器學習模型容易過擬合,泛化能力較差,且違約事件為小概率事件,難以訓練[2]。此時,需要模型的參數設置精巧,即考慮過擬合問題,同時能保證預測精度。為了解決機器學習的維度災難問題,本文在模型中加入了正則項。正則項可以取不同的形式,在回歸問題中取平方損失,就是參數的 L2范數,也可以取 L1范數。取平方損失時,模型的損失函數變為:
其中,λ為正則項系數,合適的正則函數和系數能夠提高分類問題的精度。
模型最終篩選出了14個因子,包括一些常規因子,如代表償債能力的流動負債和貨幣資產;挖掘不到一些非常規但其實有效的因子,如代表資產結構的固定資產清理和盈余公積等。
(3)支持向量機(SVM)模型原理及公式
支持向量機 ( Support? Vector? Mechine ,SVM)是 V.Vapnik 等人提出的一種針對小樣本的分類機器學習理論[1]。支持向量機指的是將向量映射到一個高維空間,在這個高維空間中建立一個最大間距超平面。在分隔數據的超平面的兩側建立了兩個平行的超平面,以該方式使兩個平行的超平面之間的距離最大化。假設平行超平面之間的距離或差值越大,分類器的總誤差就越小。
SVM 和 logistic 回歸是功能相近的分類器,二者的區別在于 logistic 回歸的輸出具有概率意義,也容易擴展至多分類問題,而 SVM 的稀疏性和穩定性使其具有良好的泛化能力并在使用核方法時計算量更小。
3? 結果分析
(1)樣本介紹
由于涉及財務數據,考慮債券發行公司財務數據的存在性問題,本文只選取部分上市公司的公司債的2016年 ~2020年的季度違約數據作為樣本數據做滾動預測。
(2)logit 機器學習模型結果分析
違約債券方面,logit 機器學習模型預測結果如表1 所列。
從表1 可以看到,第一類錯誤率較高,說明模型預測違約但實際不違約情況較多,可能雖然整體數據發出了違約信號,表明公司有違約風險,但公司及時籌集了足夠的資金避免了違約事件的發生。第二類錯誤率非常低,說明模型基本可以將違約事件全部預測到,也說明模型犧牲了一部分的第一類錯誤,以保證可以預測出更多違約事件。
模型對于公司發生違約事件的預測結果如表2 所列??梢钥闯觯? 和表2 中的預測準確率差別不大,但是表2 的第一類錯誤率較低,這是因為一個公司可以發多只債券,但在一個季度內,只違約了一只債券,預測違約公司的難度要小于預測違約的債券。
(3)SVM 機器學習模型結果分析
違約債券方面,SVM 機器學習模型預測結果如表3 所列。
從表3 可以看到,第一類錯誤率非常低,說明模型預測違約但實際不違約情況為0,表明模型在樣本數據內預測出的違約會有100%的概率發生。第二類錯誤率比 logit 模型的結果高,說明模型不能將違約事件全部預測到,也說明模型犧牲了一部分的第二類錯誤,以保證可以預測出的精確度。
SVM 模型對于公司發生違約事件的預測結果如表 4所列??梢钥闯?,表3 和表4 中的預測準確率差別不大,但是表2 的第二類錯誤率較低,這是因為一個公司可以發多只債券,但在一個季度內,只違約了一只債券,預測違約公司的難度要小于預測違約的債券。
(4 )模型結果比較
通過兩個模型的結果對比可以看出,logit 模型犧牲了第一類錯誤來保證第二類錯誤率盡量小,即為了保證預測出所有的違約事件,將一部分高風險但沒有違約的公司或債券納判斷為違約。而 SVM 模型犧牲了第二類錯誤來保證第一類錯誤率盡量小,即為了保證預測出的違約事件100%的概率真實違約,保證了預測違約的精確度,但沒能預測出全部違約事件。
筆者認為,這兩種模型可以用于不同的方面,如 logit 模型的結果可以提供給預測出的可能違約的公司參考,供其檢視自身的流動性是否充裕,讓公司解決其潛在問題,避免發生違約事件。而 SVM 模型的預測結果則可用于相關機構參考,使其有足夠的時間采取必要措施,避免債券不兌付或者公司清算重組造成的影響。
4? 總結
由結果分析可以看出,機器學習模型對于中國公司債違約事件的預測具有一定的效果,雖然各有優劣,但在分別使用的情況下相信有助于國內債券市場的長期發展。
不足之處在于:第一,數據不全,并沒有用全市場的數據代入模型,模型的系數更適用于被選中的數據;第二,模型因子只包含400個財務數據,只能反映企業的部分狀況,而在高管管理能力以及是否有大型集團做擔保等難以定量化的因素方面,未能涵蓋進模型;第三,模型應用了機器學習,可以保證預測的精度,但也有一定的缺點,如系數的解釋性較弱,以及因變量(因子)系數的高低雖然可以反映其對違約的影響,但無法確定其真實的相關性;第四,尚未深入研究參數選擇,參數的選擇會對模型的結果有一定的影響。在后續的研究中,可以彌補以上不足來優化模型,以期得到更好的結果。
參考文獻:
[1 ] 喬林波.大規模正則化機器學習算法研究[ D ].長沙:國防科技大學.2017.
[2 ] 常甜甜.支持向量機學習算法若干問題的研究[ D ].西安:西安電子科技大學.2010.
作者簡介:
陳雪融(1994—) ,碩士,研究員,研究方向:信用風險、宏觀經濟研究、機器學習。