林同源
(貴州大學,貴州 貴陽 550025)
近年來,隨著我國金融市場化改革的不斷推進,債券發行的種類與數量增長迅速,同時違約問題也日益受到投資者的關注。2018年~2019年我國債券違約共計340只,違約金額高達2199.90億元,大大超過2014年~2017年債券違約金額之和。因此,構建一個有效的企業債券違約預警模型有重要的理論與現實意義。
目前有關企業債券違約預警模型的構建主要有兩大方向:
一種是基于傳統計量模型如logistic回歸、KMV模型等,國內外眾多學者對此有較為深入的研究。金曉夢等[1]通過KMV模型解決了不同評級公司之間評級標準不統一的問題,有效地度量了樣本企業的違約率;李梓嫻[2]運用改進的KMV模型分析了河南省地方政府債券違約率與其債券發行量的關系;Mizen等[3]發現使用次序probit模型能更有效地評估債券信用風險;生柳榮等[4]采用Logistic回歸的方式構建了非金融企業債券違約預警模型對企業的違約風險進行了有效評估;郭兆靈[5]通過改進的Lasso-logistic回歸構建模型,從違約債券樣本中選取了11項關鍵的預警指標。
另一種則是基于機器學習算法,如決策樹、支持向量機、神經網絡等。作為一種新興的構建預警模型的方法,其迅速受到了學者們的關注。沈沛龍等[6]以200家中小企業為樣本,使用支持向量機理論預測發債企業的信用風險并通過違約概率來評估企業的信用等級;匡海波等[7]以深交所940家中小板企業為對象,利用BP神經網絡篩選出了鑒別企業違約能力最強的48個指標變量,構建了一套在供應鏈金融下中小企業違約風險評估的指標體系。
在機器學習算法中,因決策樹算法有原理通俗易懂與數據預處理較為方便的優點,受到了較為廣泛的關注。李星辰等[8]引用企業財務數據,并通過使用比較不同機器學習算法預測的準確率,得出C5.0決策樹算法對公司財務預警具有較好的作用;宋宇等[9]以決策樹C5.0算法為基礎,采用決策樹集成bagging的方法解決樣本數據不平衡的問題,提高了模型的預測率;李嘉東[10]以工業上市企業數據為樣本,證明了采用C5.0中隨機森林的決策樹集成的方式構建模型可以提升財務預警模型的預測準確率;Mathieu等[11]采用隨機森林的集成算法證實了權益信貸比公式(E2C)在預測企業互換信用違約(CDS)時的優勢,以及其公司債務評級和規模的影響。總而言之,在目前在有關決策樹算法預測債券違約的相關研究中,較多的以企業財務數據為基礎,利用決策樹中的C5.0算法構建預警模型,且多數研究都證實了采用決策樹集成的方式,如bagging、隨機森林等能夠提升原預警模型的預測準確率。
CART是決策樹中的另一種算法,該算法既可以研究分類問題,可也以研究回歸問題。Yang等[12]以企業財務數據為基礎,使用CART算法對60家ST企業和30家非ST企業進行了信用評估與風險預測,并指出在此算法基礎上使用bagging的集成方法可以大大提升模型的預測穩定性;Kelley等[13]通過對美國得克薩斯州達拉斯的房地產樣本數據的研究,發現在大樣本條件下CART-bagging算法的預測能力要優于傳統的OLS估計。
本文采用基于CART決策樹的集成bagging算法,探究非財務數據與宏觀數據對預測企業債券違約的作用,同時通過構建債券違約預警模型,選取對預測企業債券違約較為關鍵的相關指標,以便對今后的相關研究提供便利。
本文選取我國2015年~2019年期間發生債券違約企業157家,因部分非上市違約企業并未進行及時的數據披露,實際具有數據分析價值的違約企業為109家,同時選取對應行業的有存續債的未發生違約企業231家作為健康企業實證樣本。數據來源為wind債券數據庫。
在對違約企業數據選取的過程中,為確保整體數據的嚴謹性,保留了存在部分變量數據缺失的企業樣本。同時,為控制變量,避免違約企業未發生債券違約年份的數據可能和發生債券違約年份的數據產生相關性從而影響模型判斷,將同一個未發生違約企業的不同年份數據作為不同的樣本,而違約企業僅選取違約年份的數據作為樣本。
以上共得到實證樣本數據1310個。其中,未發生違約企業樣本數1155個,發生違約企業樣本數155個,違約與非違約樣本比例約為1∶7。在建模時,將未發生違約的企業樣本記為“0”,將發生違約的企業樣本記為“1”,同時采用分層抽樣,從未發生與發生違約企業的樣本中各抽取60%樣本作為訓練集(693個未發生違約樣本,93個發生違約樣本),30%樣本作為測試集(346個未發生違約樣本,46個發生違約樣本),剩下的10%數據作為驗證數據(115個未發生違約樣本,15個發生違約樣本),來驗證模型的預測準確率。
在預測指標變量選取方面,本文參考了部分國內外權威信用評級機構如中誠信、穆迪的評級指標,并綜合相關文獻所選取的指標,將預測指標分為三個部分,即財務數據、非財務數據、宏觀經濟數據。
財務數據中包括四個評價維度:資產規模、經營能力、償債能力、盈利能力。具體指標如表1所示。

表1 財務數據指標體系
非財務數據則包括企業管理成本、審計意見、政策支持力度、股權結構。其中,管理成本與政策支持力度因無法直接計量,從而采用管理費用/營業總收入、稅收減免、政府補助這三個指標來間接體現。審計意見代表了審計機構對企業財務信息披露的認可程度,一般分為無保留意見、有保留意見,否定意見和拒絕表示意見四種情況。在本文中,將所有無保留意見記為“0”,表示該本年度該企業財務信息披露較為全面;其余計記“1”,表示該企業在財務信息披露方面存在一定問題。股權結構則以第一大股東持股比例為代表,表現企業在經營方面話語權的強弱。
在宏觀數據的選取上,本文選取2015年~2019年全國居民基尼系數、PPI(生產價格指數)、M2(廣義貨幣供應量) 、社會融資規模、全國與企業所在省份的GDP。其中,為剔除物價變動的影響,對全國與企業所在省份GDP的數據采用了不變價,以2015年的物價指數作為基期計算得出。
本文使用SPSS-Modeler軟件構建決策樹模型。其中,為了探究非財務數據與宏觀數據對企業債券違約預測的作用,構建了三類預測模型。一類為以純財務數據為基礎所構建的預測模型,用以對照;一類為以非財務數據與宏觀數據為基礎所構建的單獨預測模型,用以展示這兩類數據本身對預測債券違約的作用大小;最后一類為在傳統財務數據構建模型的基礎上依次加入非財務數據與宏觀數據,以表現非財務數據與宏觀數據對以財務數據為基礎的預測模型的提升作用。通過對這兩類模型的對比分析,可以較為清楚地得知非財務數據與宏觀數據在預測企業債券違約過程中的具體作用。
以下為構建決策樹模型的具體步驟:
第一步:聚類。對純財務數據的數據集D1、非財務數據與宏觀數據數據集D2進行K-Means聚類分析,得出最佳分類都為三類,此時凝聚和分離的輪廓測量為0.3與0.5,都屬于良好范疇,同時也是單數,利于基學習器的投票輸出。
第二步:設置基學習器。根據以上聚類結果設置三個基學習器進行bagging,基學習器則采用CART決策樹算法。通過對企業財務數據的分析學習預測其是否將會發生違約。
第三步:加入非財務數據。加入新指標后聚類結果將可能發生改變因此需重新對新的訓練集數據進行K-Means聚類分析,得出新數據集D3的最佳分類為三類,凝聚和分離的輪廓測量為0.3,屬良好范疇。重復上述步驟根據聚類結果設置三個基學習器,判斷通過加入非財務數據是否能提高模型的預測精準程度。
第四步:加入宏觀數據。緊接上述步驟,在加入宏觀變量后對數據集D4進行K均值聚類,發現當分為兩類時凝聚和分離的輪廓測量為0.4,聚類質量較高,但是由此設置兩個基學習器則有可能會出現“平票”問題,同時相比于分三類,樣本在分五類時的凝聚和分離的輪廓測量較優為0.2,因此選擇分五類的情況,設置五個基學習器進行預測。
(1)預測結果對比
如表2所示,以非財務數據與宏觀數據所構建的預測模型準確率較高,訓練集的準確率達到92.64%,在測試集為93.1%,驗證集則為90%,雖然在訓練集中的準確率不如以純財務數據構建的模型,但是測試集與驗證集中非財務數據與宏觀數據模型的準確率均占優勢。可見,這非財務數據與宏觀數據本身對預測企業債券是否違約的效果也相對較好。

表2 模型預測準確率對比
同時,在加入非財務數據與宏觀數據后,以原始財務數據為基礎的預測模型的準確率提升效果有限。其中:加入非財務數據對模型訓練集準確率的影響很低,但是在加入了宏觀數據之后,訓練集的準確率有了一定提升,但是仍然有限;非財務數據與宏觀數據對測試集與驗證集準確率的提升較訓練集而言相對明顯,測試集的預測準確率從原先的92.61%上升到了最終的94.09%,驗證集的預測準確率從原先的89.23%上升到了90.77%。
將兩類模型最終的結果進行對比后可以發現,從總體上看,以原始財務數據為基礎并加入非財務數據與宏觀數據的預測模型在訓練集、測試集與驗證集的預測準確率方面均略高于單以非財務數據與宏觀數據所構建的模型,但是二者相差不明顯,準確率差距僅為1%上下,說明非財務數據和宏觀數據本身對預測債券是否違約具有一定作用,但加入這兩項數據對以原始財務數據為基礎的預測模型預測率提升作用則相對有限。
(2)預測變量重要性分析
在預測企業債券是否會發生違約過程中,某些預測指標變量起著比較關鍵的作用。根據前文所述,在CART算法中,變量重要性體現在其Gini差值的大小中,差值越大,變量純度越高,重要性則越強。在本研究中,以原始財務數據預測模型(G1)、非財務數據與宏觀數據預測模型(G2)以及包括財務數據、非財務數據以及宏觀數據的總模型(G3)為例,選取上述三種模型結果中預測重要性排名前五的變量。
①原始財務模型
在原始財務數據模型(G1)中,重要程度前五的變量為總資產報酬率ROA、成本費用率、凈資產收益率ROE、凈利潤/營業總收入、資產負債率,具體重要性大小如圖1所示。

圖1 模型G1指標變量重要性排序
總資產報酬率ROA在模型(G1)中對預測企業債券是否違約中的作用較為突出。總資產報酬率ROA=企業息稅前利潤/平均總資產,此指標用來判斷企業運用全部資產的總體獲利能力強弱,是評價企業資產營運效益大小的關鍵性指標。ROA較高,則說明企業對其資產的使用效率高,也意味著企業的資產盈利能力強。因此該指標才能成為預測企業是否違約變量中地位較為突出的財務指標之一。成本費用利潤率是指企業利潤總額與成本費用總額的比率,體現企業單位成本所創造的利潤大小,該指標越大則說明企業單位成本投入所創造的利潤較多,盈利能力較強,是較為典型的判斷企業盈利能力的指標之一,但對企業的綜合反映能力不如總資產報酬率ROA。
凈利潤/營業收入與凈資產收益率ROE的在預測企業違約中的重要程度相差不明顯。凈利潤/營業收入即營業收入凈利率,體現企業凈利潤占營業收入的比率,反映企業盈利能力的大小,提高凈利潤在營業收入中的比重就只能減小成本,提高經營效率,但這個指標會受到非經常性損益如政府補貼等影響,抗干擾能力較弱;凈資產收益率ROE,即股東權益報酬率,是企業凈利潤與平均股東權益的比率,也是企業稅后利潤與凈資產的比率,該指標可以對股東權益收益水平進行較好的判斷,用以衡量公司運用自有資本的運作效率。如果企業的ROE較高,則說明該企業股東投資所得收益較高,但該指標與營業收入凈利率一樣,存在抗干擾較弱的問題:一般而言企業負債的增加會導致ROE的上升,因為根據改進后的杜邦分析公式,ROE=凈經營資產凈利率+(凈經營資產凈利率-稅后利息費用率)×凈財務杠桿,而凈財務杠桿=凈負債/股東權益,所以如果凈負債增加會在理論上使ROE增加。高杠桿無非是為了尋求高收益,但這也會增大企業的違約風險。
排名第五的變量指標為資產負債率,其作為傳統財務分析指標之一,對判斷企業經營狀況具有較為基礎的作用。資產負債率=總負債/總資產,它反映了企業總負債與總資產的比率,該指標越高表示企業的負債經營越嚴重,借貸風險也就越大,當資產負債率達到100%甚至超過100%時,則代表該企業已“資不抵債”處在經營崩潰的邊緣。資產負債率作為一個較為寬泛的靜態指標,在計算時既沒有考慮企業負債的償還期限也沒有考慮企業資產的結構,因此存在較大的局限性。
②非財務數據與宏觀數據模型
審計意見類別、管理費用/營業總收入、大股東持股比例、PPI、M2是非財務數據與宏觀數據模型(G2)中重要性較高的五個指標,其具體重要性排序如圖2所示。

圖2 模型G2指標變量重要性排序
在這五條預測變量指標中,作為非財務數據的審計意見純度最高,重要性最強,可見審計意見對于判斷企業債券是否違約有著較為關鍵的作用。審計意見代表了審計部門對企業本年度財務報表信息披露的認可程度,財務發生危機的企業不會在財務報表中披露企業的所有信息,往往會隱瞞相關經營不善的數據,從而在審計意見類別中體現為帶強調事項段的無保留意見、保留意見等;而財務狀況良好的企業在財務數據披露方面則較為全面,從而在審計意見中體現為標準的無保留意見。
“管理費用/營業總收入”的純度(G2)中排名第二,其主要間接反映企業的委托代理成本,該比率可以間接體現出企業在維持日常經營過程中所付出的成本以及效益大小。企業在委托代理的過程中較為容易出現道德風險,即管理層謀求個人私益而犧牲企業長遠的發展利益,從而容易出現管理費用較高而企業營業總收入較低的情形,長此以往,企業抵御風險的能力則會大大下降,增大違約的可能性。
第一大股東持股比例、PPI、M2這三個指標的純度相差不大,對企業的影響也較為間接,大股東持有企業多數股票,控制了企業的經營決策權,大股東的意志會在一定程度上左右企業的發展。PPI指生產價格指數,該指數的高低反映我國在一定時期內的企業生產原料價格水平的高低,PPI的變化會影響企業的生產成本、管理成本等。M2指廣義貨幣供應量,指在銀行體系之外流通中的現金加上居民與各企業的存款等,其通常反映社會總需求變化和未來通脹的壓力狀態,對企業的經營決策方向及業務開展情況會產生一定影響。
③財務數據、非財務數與宏觀數據
在包括財務數據、非財務數據與宏觀數據的模型(G3)中,排名靠前的變量指標為審計意見類別、總資產報酬率ROA、成本費用率、凈利潤/營業總收入、凈資產收益率ROE,具體重要性大小如圖3所示。

圖3 模型G3指標變量重要性排序
從圖3中可見除審計意見類別為模型G2中的非財務指標外,其余變量均為模型G1中重要性排名靠前的財務指標,且模型G3中排名前五的指標中沒有宏觀數據變量。究其原因,雖然宏觀環境的變化的確會對債券違約情況產生影響,但這種影響是間接的,宏觀經濟環境的好壞會反映在企業的財務狀況上,如宏觀經濟環境惡化,那么發債企業的財務狀況則可能會受到波及,這將會反映在某些具體財務指標的變化上。如在新冠疫情期間,社會生產停滯,居民消費受到抑制,某些企業的營業收入下降,凈利潤降低甚至為負,導致無法按時償還所發出的債券利息。因此,重要性較高的變量大多為財務指標或非財務指標。
本文考慮了非財務指標與宏觀數據在預測企業債券違約中的作用,并使用CART-bagging算法構建了三類預警模型,一是以純財務數據構建的預警模型,二是以非財務數據與宏觀數據單獨構建的預警模型,三是在以財務數據為基礎并依次加入非財務數據與宏觀數據所構建的模型。研究發現:非財務數據與宏觀數據本身對預測企業債券違約就有一定的作用,且其預測準確率不亞于單純以原始財務數據所構建的模型;在原始財務數據為基礎的模型中依次加入非財務數據與宏觀數據后,模型測試集與驗證集預測準確率都獲得了不同程度的提升,但提升僅為1%左右。此結果證明了非財務指標與宏觀指標對優化以財務數據為基礎的預警模型的作用有限。
同時,本文也對這三類模型中排名前五的變量指標進行了單獨分析,闡述了其對預測企業債券違約的重要意義。其中非財務數據里的審計意見類別對預測結果的影響較為顯著,而宏觀數據的影響則比較有限,主要是因為宏觀環境對企業的影響是間接的。同時,財務數據中的總資產報酬率ROA、成本費用率、凈利潤/營業總收入、凈資產收益率ROE也在預測債券違約中有著重要的作用,在今后的相關研究中可對這些指標加以重點關注。