田崇文(西交利物浦大學理學院金融數學)
我國債券違約類型主要分為本息展期(BXZQ)、觸發交叉違約(CFJCWY)、擔保違約(DBWY)、技術性違約(JSXWY)、提前到期未兌付(TQDQWDF)、未按時兌付本金(WDBJ)、未按時兌付本息(WDBX)、未按時兌付回售款(WDHSK)、未按時兌付回售款和本息(WDHSKLX)、未按時兌付利息(WDLX)。最新狀態主要分為實質違約(Szwy)、展期(Zq)、觸發交叉違約(CFJCWY)、已兌付(Ydf)四種狀態。同時公司也分為上市(Yes)與非上市(No),公司的性質也分為民營企業(MY)、中外合資企業(ZWHZ)、公眾企業(GZ)、其他(QT)地方國有企業(DFGY)、中央國有企業(ZYGY)、外資企業(WZ)。本文主要通過對違約類型的總結、最新狀態、公司的性質、是否上市來分析,對各種因素進行分析,以得出結論,判斷各種情形對最新狀態的影響,并對公司是否違約、新狀態是否實質違約進行預測。
在統計學中,二分類問題的常見估計方法為“邏輯回歸”,這是統計學的分類問題,即考慮兩點分布。在給定x 的情況下,考慮y 的兩點分布概率:
其中,函數F(x,β)稱為連接函數,因為它將特征向量x 與響應變量y連接起來。在給定x的情況下,y的條件期望為E(y|x)=1×p(y=1|x)+0×p(y=0|x)=p(y=1|x),可將模型的擬合值(預測值)理解為事件“y=1”的發生概率,如果F(x,β)為標準正態的累積分布函數,則其中,φ(.)與 Φ (.)分別為標準正態的密度函數與累積分布函數,此模型稱為概率單位模型。由于標準正態的密度函數之積分并無解析表達式,須進行數值積分,故計算不便。由于回歸參數β出現積分上限,故無法解釋其含義。
如果連接函數F(x,β)為“邏輯分布”的累積分布函數,則
此模型稱為邏輯回歸,對邏輯函數 Λ (?)求導數,即可得到邏輯分布的密度函數:
本文將在下文中,依據此模型進行實證分析
本文的數據來自Wind 數據庫,收集了2014—2021 年的債券違約事件,本文對數據進行處理,以公司的性質、是否上市、違約類型、最新狀態為切入點,對債券市場進行分析。
通過python,我們得到了以下圖表。
表1 數據的統計特征
結果顯示,整理后的數據框ZJWYDQ 包含929 個觀測值與4個變量,考察數據框的統計特征,結果表明,在全部929 個公司中,634 個民營企業,294 個未按時兌付本息,687 個未上市公司,774 個最新狀態為實質違約。
表2 展示了四種最新狀態(觸發交叉違約,實質違約,已兌付,展期),分別在是否上市這兩種分類下,四種最新情況分別所占的比例。可以分析是否上市對四種狀態的影響,比如,實質違約與已支付的比例差別不大,但可以明顯看出,觸發交叉違約與展期的比例中,上市公司的比例幾乎是非上市公司的兩倍。因此可以看出,企業是否上市對違約新狀態有影響。
表2 考察是否上市的影響
表3 展示了四種新違約情況對應公司的性質,表3 對公司性質的影響進行了詳細的解釋,本文從表中可以得到解釋。在觸發交叉違約類型中,除了民營企業,其他企業均為0。公眾企業全部為實質違約。在已支付類型、公眾企業、外資企業、中外合資企業占比均為0,在展期狀態中,地方國有、其他、外資類型占比較高。通過表3 可以明顯看出,公司性質對違約最新狀態有明顯影響。
表3 考察企業性質的影響
本文從表4 得知,當原違約狀態不為觸發交叉違約時,新狀態不會變為觸發交叉違約,當原狀態為擔保違約,未按時兌付回售款幾乎全部變為實質違約。交叉性違約有一個相當高的比例變為已支付。而本息展期也有一個相當高的比例變為展期,但除了本息展期,僅有未兌付本金和利息與未按時兌付回售款和利息有一個較小的概率會變為展期。表4 告知了我們原違約類型對新狀態確實有影響。
表4 考察違約類型的影響
本文通過python 的sklearn 模塊,將樣本隨機分為兩組,其中70%作為訓練集,30%作為測試集,進行迭代與回歸,我們可以得到下表。
表5 使用Numpy 的exp()得到幾率比。結果顯示,給定其他特征變量,當違約類型由本息展期變為觸發交叉違約時,公司違約的幾率將是原幾率的2.28375e+1 倍,又比如,當一個公司由非上市公司變為上市公司時,公司違約的幾率將是原幾率的1.650774e+00 倍,當一個公司由地方國有公司變為公眾公司時,公司違約的幾率將是原幾率的3.492696e+09 倍。
表5 考察各種變量的幾率比
通過summary()方法,本文得到了以下邏輯回歸的匯總表。
上表的右下角顯示,準R~2 為0.4016。表格下部顯示,除了Weiyue[T.DBWY],Weiyue[T.JSXWY],Weiyue[T.WDHSK]等指標以外,其余各項P 值均小于0.05,證明其余各項均在統計學上高度顯著。根據左下角,除了intercept 與Xingzi[T.MY],Xingzi[T.QT],Xingzi[T.WZ],Xingzi[T.ZYGY] 的 系 數為負,其余系數均為正數,這些符號符合預期。然后我們使用get_margeff 進行數據的二次處理,得到邏輯回歸的平均邊際效應。
通過表6 與表7,我們可以對回歸結果進行預測,并計算混淆矩陣,本文根據算法,依次得到以下數據(測試集的結果):
表6 數據匯總表
表7 特征的平均邊際效應
(2)通過公式Accuracy=(table[0,0]+table[1,1])/np.sum(table)。我們得到準確率為0.9107692307692308,同理,我們得到錯分率為0.08923076923076922。
(3)靈敏度為0.9649446494464945,特異度為0.6388888888888888,召回率為0.9306049822064056。以上結果顯示,訓練樣本的預測準確率為0.9107692,但是在正例(實質違約)中的預測準確率卻高達0.9649446,而在反例(其余新狀態)中的預測準確率僅為0.638889。由于反例中并不僅有一種新狀態,所以反例更難預測。本文在下文中,對測試集進行預測,將預測通過概率定為0.5,得到以下結果。
表8 則給出了各項的系數,通過這些系數,我們可以得到邏輯回歸的公式。
表8 模塊的估計系數
經過公式及python 的運算,我們得到以下數組:
表9 實質違約的概率
此數組表示了每一個公司新狀態為實質違約或其他狀態的概率,經過邏輯回歸的python 預測,我們得到了,所以我們可以得知,前五個公司的新狀態為實質違約。此數組同時也可以作為風險預警的指標,對市場進行風險預測。
由表10,我們可以得知,precision=TP/(TP+FP),精確率是精確性的指標,表示被分類器正確分為正例的個數(TP)占被分類器分為正例的樣本(TP+FP)的比重。recall=TP/(TP+FN)=TP/P。召回率是覆蓋面的度量,也就是被分類器正確分為正例的個數(TP)占原始數據中全部正例(TP+FN)的比重,所以上市公司的precision=TP/(TP+FP)=0.93,recall=TP/(TP+FN)=0.96。F1-score,也稱為F-beta score。
表10 數據的統計指標
只有當P 和R 都很高的時候,F1才會高,所以稱為調和平均數,F1的取值范圍是0 到1。
support 支持度,是指原始的真實數據中屬于該類的個數。通過表10,我們可以對精確性與準確性有一個全面的了解。
在圖1 中,橫軸為“假陽率”,即(1-特異度),而縱軸為“真陽率”,及靈敏度。圖中右下角AUC=0.85,同時KAPPA率為0.6495,證明一致性較好。
圖1 測試集的ROC曲線圖
本文通過各種圖表,運用邏輯回歸方法,求到了各種數據,在實證分析中,也逐一分析各種特征變量對響應變量的影響。同時通過總結表,得出了各種變量的系數,檢驗了各種統計變量的統計學意義。在本文得到了邏輯回歸的公式之后,可以得出本文所設計的風險預警系統。
通過本系統,可以對結果進行預測。例如,當最后結果為0-0.2,則意味著此公司有很小的可能性會變為實質違約,當結果為0.8-1.0 時,則意味著此公司有很大的可能性會變為實質違約。通過此系統,可以更好地檢驗商業風險。