

摘要:大數據、人工智能技術的運用為企業信用風險預測提供了新的視角。本文通過爬蟲程序抓取全市場約9000家企業的司法訴訟信息、招聘信息、法人和核心團隊工商變更記錄等無法粉飾的剛性數據,并采用機器學習等人工智能方法,開發出違約概率預測模型,可對企業違約概率做出前瞻性預測,從而實現對企業信用風險更早的預警。
關鍵字:信用風險??剛性數據??機器學習方法??神經網絡
在當今大數據、人工智能的時代,很多企業的日常經營行為在互聯網上都有跡可循,這為企業信用風險預測提供了新的視角。我們通過互聯網爬蟲技術抓取與企業經營相關且無法粉飾的剛性數據,并從這些非結構化的數據中提取結構化的入模指標,采用由監督機器學習技術開發的企業違約概率預測模型,對企業違約情況進行預測。經過檢驗,該預測模型達到了很好的效果。本文將對基于剛性數據的違約概率預測模型的基本原理進行闡述,從一個全新的視角力求對債券市場信用風險進行分析。
違約預測的剛性數據和彈性數據
傳統的企業信用風險評估方法主要基于企業財務報表數據。同時,企業的會計核算以權責發生制為基本原則,企業收入和利潤的核算、確認有一定的調節空間。因此,我們通常把企業的財務數據稱為彈性數據。通過研究已經違約主體在違約前三年的財務數據,我們發現很難從這些彈性數據中獲取企業的財務異常信號。因此,很多企業在其違約前的利潤和現金流狀況都體現為“良好”。那么在實務中如何對企業信用風險進行預測?
我們通過研究發現,根據企業的剛性數據往往能夠發現其違約前的信號。這些剛性數據包括司法被訴信息,每季度發布招聘職位數量的變化趨勢,法人變更情況,董事、監事、高級管理人員(以下簡稱“董監高”)及財務人員變更情況,股權出質和動產抵押融資等數據。由于企業對這些數據很難粉飾,因此我們把它們統稱為剛性數據。
這樣,我們評估企業信用風險的思路就非常清晰了。那就是首先從獲取的大量信息中剔除“噪聲”、保留“信號”,然后再用保留的有價值信號對企業信用風險作出判斷。所謂噪聲,是指假象,是無價值的信息;所謂信號,是指真相,是有價值的信息。
使用剛性數據評估企業信用風險及檢驗
使用剛性數據評估企業信用風險,主要包括剛性數據的獲取、剛性指標的提取、機器學習方法計算企業違約概率等三個步驟。
(一)剛性數據的獲取
我們獲取企業剛性數據的數據源主要有三個,分別是獲取司法訴訟信息的中國裁判文書網,獲取企業發布招聘職位信息的各大招聘網站、地方人才網和行業招聘網站,獲取法人變更、董監高變更和企業場外融資信息的地方工商局網站。
在數據源確定后,我們使用Python編程語言開發許多爬蟲程序,可以做到每天批量抓取全市場約9000家主體的上述剛性數據。
(二)剛性指標的提取
從抓取的司法裁判文書中,我們可根據司法涉訴性質和嚴重程度分別提取定量型指標,如每家公司因合同糾紛被訴次數、勞動爭議被訴次數、拖欠貨款被訴次數、企業與股東間的訴訟次數、被銀行起訴的次數、被小貸公司起訴的次數、被法院執行的次數、是否被法院納入失信名單等司法涉訴性質指標。而且,這些指標所反映企業經營異常的嚴重程度在逐漸增加。比如:拖欠貨款被訴在一定程度上說明企業的現金流緊張,與股東間的訴訟表明企業跟股東之間有矛盾,被銀行起訴說明拖欠了銀行的貸款(屬于比較嚴重的信號),被小貸公司起訴說明企業現金流非常緊張、已經借高利貸且逾期了(屬于極其嚴重的信號),等等。
除此之外,我們還可提取比率型的指標和被訴且需要賠款的金額等量化型指標,這些指標在更大程度上反映了企業經營困難的嚴重程度,如被訴次數最近兩年占比、被訴且需要賠款的金額最近兩年占比等指標。
通過研究已經違約的公司在違約前的征兆,我們發現一些公司在違約前一年內存在頻繁變更公司法人、董監高和財務人員的情況,也存在一些股權出質、動產抵押等場外融資行為。因此,通過工商注冊變更記錄,我們可提取公司法人名下有多少家公司、最近兩年工商變更次數、場外融資情況等量化指標,如圖1所示。
(三)用機器學習方法計算企業違約概率
從上述非結構化數據中提取結構化指標的長清單,只是采用非財務數據進行違約概率預測的第一步。接下來,還需要從這些長清單中篩選對違約狀態影響比較顯著的擬入模指標,并在擬入模指標中剔除相關性較強的指標,避免出現模型的過擬合現象,最終生成入模指標清單。之后,將這些入模指標送入神經網絡(機器學習方法之一)作為輸入,并不斷訓練得到神經網絡每個節點的激活函數,最終就可計算得到每家公司的違約概率,如圖2所示。
(四)全市場檢驗結果
通過上述方法計算得到每家公司的違約概率,并根據全市場樣本違約與正常的標記,可繪制如圖3所示用于檢驗分類模型的ROC曲線,并得到AUC的值為0.939。這條曲線表明,將正常樣本和違約樣本區分開來的違約概率臨界點是0.028,正常樣本中90.7%的預測準確,違約樣本中85.0%的預測準確。
典型違約事件淺析
(一)A公司
A公司債券上市日期為2010年10月20日,違約日期為2015年10月19日。在違約前約兩年時間里,A公司未公布任何財務報表信息。但在2014—2015年間,A公司存在如表1所示的嚴重負面事件。
工商銀行起訴還本付息
我們運用前文介紹的方法,計算A公司每月的違約概率,繪制了如圖4所示的違約概率曲線。曲線顯示,從2014年10月開始,A公司違約概率大幅上升,在實際發生違約的2015年10月,其違約概率達到61.95%。
(二)B公司
B公司債券違約發生時間為2018年9月25日,在其違約前的一年多時間里,我們先后抓取到B公司被銀行起訴3次、民間借貸被訴1次、與股東之間的訴訟1次,并繪制了如圖5所示的違約概率曲線。曲線顯示,從2017年5月開始,B公司違約概率顯著上升,2018年后違約概率穩定在16.74%,明顯高于歷史均值。
目前,中國資本市場評估企業信用風險主要依靠財務數據,而從違約前的財務數據中難以獲取企業異常信號,要識別企業信用風險是一個龐大的系統工程。為此,我們率先做了一些嘗試,使用以非財務數據為主、財務數據為輔的大數據評級方法,并回測計算每家企業違約發生前兩年多的違約概率并繪制違約概率曲線,力求通過概率統計的創新方法,對信用風險進行更早的預警。
作者單位:深圳市云信譽科技有限公司
責任編輯:劉鐵峰??羅邦敏
參考文獻
[1]云信譽官網:www.yun-rating.com.
[2]崔玉征.?基于R語言的證券公司信用風險計量和管理[M].?北京:清華大學出版社,2017.
[3]崔玉征.?人工智能在信用債投資領域的應用:Python語言實踐[M].?北京:清華大學出版社,2018.