王曉菲 劉繼端 詹梓雯 劉彥清 張燕玲 周燕



作者簡介:王曉菲(1993— ),女,漢族,廣東廣州人。主要研究方向:企業信用管理。
摘 要:由于房地產企業是屬于高負債企業,對財務金融杠桿的依賴性極高,具有長周期性等高風險特征。再加上如今國家宏觀調控緊、地方微觀調控嚴,房地產企業步入了資金收緊、盈利減少的階段,面臨難融資、融資少的問題,導致房地產企業風險進一步放大,阻礙了房地產企業的發展。所以,房地產企業要想持續發展,就要加強風險管控和防范。本文通過專業的信用管理知識將機器學習AI模型與傳統信用風險度量模型結合來度量房地產企業的信用違約風險。因為機器學習AI模型能夠補充傳統信用風險度量模型在財務數據方面外的空白,而傳統信用風險度量模型能夠通過其在金融領域的研究經驗為機器學習提供研究方向,所有將兩者進行結合能通過多角度對房地產企業的信用違約風險進行更加精準的度量。
關鍵詞:機器學習;房地產;風險度量;模型融合
中國的房地產行業經歷幾十年的發展,已經成為國民經濟和金融體系中不可或缺的一部分。房地產企業在這個過程中也在不斷調整和改變,但房地產企業高負債和長周期的經營模式一直是房地產企業的一個特點。高負債和長周期的經營模式不但帶來了高杠桿、高回報,也帶來了高風險。而企業風險度量一直是當前不斷探索和解決的問題,尤其是房地產企業。但當前企業使用的風險度量模型還是基于傳統的一些風險度量模型,比如KMV、Z模型、CreditVaR系列模型等,而傳統風險度量模型由于年限較長,再加上大部分來自于國外學者研究,對當今復雜多變的市場度量信用風險時,難免會有較大的偏差。本文將大數據技術和機器學習AI技術與傳統的風險度量模型結合,從而打破僅僅通過財務數據的單一角度來度量風險的傳統思維,使用更新、更多角度、更與時俱進的方法和思維來設計和打造出適用于當下市場環境的風險度量模型。
一、信用違約風險建模
本文采用的算法模型有遺傳算法、KMV模型、LGB模型、SnowNLP模型、LR回歸模型,其中遺傳算法模型負責解出最優解;KMV模型作為傳統風險度量模型負責解出企業違約概率和違約距離;LGB模型和LR回歸模型負責擬合樣本數據,對樣本進行預測分類;SnowNLP模型負責對文本數據進行情感分析。根據以上四個模型,進行風險度量建模。
(一)遺傳算法KMV模型
首先,采用遺傳算法對全國所有行業的上市公司訓練出適合我國國情的KMV模型,即訓練出適合我國國情的長期負債系數和短期負債系數。
在適合中國國情的KMV模型中,其短期負債系數和長期負債系數分別為0.948和0.264。根據遺傳算法訓練出來的KMV模型簡稱為“QG_KMV”模型,本文通過QG_KMV模型去度量全國109個行業的信用違約風險。
由于房地產行業高負債的特點,導致應用QG_KMV模型度量房地產行業風險時,房地產的違約風險偏高,所以本文將放棄使用全國所有行業的上市公司去訓練KMV模型,而改用全國所有房地產行業的上市公司去訓練KMV模型,如圖1所示:
從圖 1中可知,利用全國所有房地產行業的上市公司訓練KMV模型訓練出的短期負債系數和長期負債系數分別為0.0438和0.0783,本文將該模型簡稱為“FDC_KMV”模型。
通過“FDC_KMV”模型計算出各行業違約概率如下:
由圖 2中可知,相較之前的KMV模型,“FDC_KMV”模型在房地產企業的平均違約距離和概率大幅下降,信用等級從D上升到A,更加適用于房地產企業,且全國地產的信用等級明顯優于區域地產。
(二)LGB_KMV模型
同時通過將機器學習LIGHTGBM模型與KMV模型結合,采取全國3541家上市公司(其中3355家非ST公司和186家ST公司)作為訓練數據。其中ST公司是指連續兩年虧損或者凈資產低于股票面值的公司,非ST則相反。但由于兩類公司數量不一致,導致數據不平衡,經過SMOTE算法進行上采樣之后,共計6710條數據樣本,其中包含ST公司和非ST公司樣本各3355條。
圍繞著這6710條數據樣本進行建模,將數據集以8:2的比例切分為訓練集和測試集,采用的數據特征有流動負債、非流動負債、總市值、收益率波動率、總負債,以及通過KMV模型計算得出的違約距離及違約概率。同時將樣本數據特征分為兩組,一組是加入KMV模型計算出來的違約概率和違約距離特征,稱為LGB模型;另一組是沒有加入KMV模型計算出來的違約概率和違約距離特征,稱為LGB_KMV模型。通過對兩組數據進行建模分析。LGB_KMV模型在測試數據集中的表現優于LGB模型,其中LGB_KMV模型預測的準確度達88%,而LBG模型的準確度為83.9%,所以融合了KMV模型之后的LGB_KMV模型比沒有融合KMV模型的LGB模型準確度提高了4.1%。
(三)SNOWNLP模型
通過python的SNOWNLP自然語言情感分析庫對房地產上市公司公告進行情感分析,對每一年中發布的每一條上市公司公告進行打分,分值為[0-1],其中得分越接近1,說明該公告攜帶的信息表現為越積極,反之,得分越接近0,說明該公告攜帶的信息表現為越消極,將公告得分大于0.5分判斷為積極公告,小于0.5分判斷為消極公告,等于0.5分的判斷為中立公告。
以萬科2020年公告做一個情感判斷為例,結果如圖 3所示:
如圖 3所示,SNOWNLP模型能夠對每條公告信息進行一個情感分析并且進行情感評分。
(四)LGB_LR模型
股市是一個消息市,股票市場中股民會參考公司披露的公告信息來投資股票,所以上市公司的公司公告發布會對股價造成一定程度的影響,股價的變動會影響公司的市值。正如KMV模型中通過公司的市值,從而計算出公司的價值來度量風險,那么公司的股票價格的變動就會與公司的風險相關聯。
將公告的文本信息進行數據處理,再采用詞嵌入的方法,即應用TF_IDF方案。TF是指單詞詞頻,即一個詞在文章中出現的頻率,從客觀的角度出發一些詞出現的頻率越高,說明這個詞的重要性可能是比較高的。IDF是指逆文本頻率,即該詞越少越能代表該篇文章,因為一篇文章中可能有大多的介詞或者代詞,這些詞都沒有特別大的意義,例如‘的、‘將、‘通過、‘你、‘我、‘他等等詞語。將處理后的公告信息通過LGB_LR模型進行預測出下一天股價的變化趨勢。
二、風險量化
綜上,本文將通過定量的方法,對房地產行業中的10家房地產企業風險進行量化處理,其中包括5家ST公司,5家非ST公司。將引入一個信用風險值,這個值涵蓋各個模型所得結果及影響因素。通過信用風險值來衡量房地產公司的風險大小,信用風險值與信用風險成正比關系。
信用風險值的計算公式如下:
其中和分別為KMV模型輸出的違約概率和違約距離,為LGB_KMV模型的準度,為LGB_KMV模型預測值,為LGB_LR模型的準度,為LGB_LR模型預測值,為SNOWNLP模型輸出的情緒值,常數項1.7147是違約距離的臨界值。
Sigmoid函數計算公式如下:
Sigmoid函數能夠將連續變量映射到(0,1)范圍內,0.5為企業違約的閾值,風險值達到0.5表明企業可能發生違約事件,風險值越接近1表明發生違約事件的可能性越高。本文中的風險等級分為低風險、中低風險、中高風險、高風險四個等級,對應的信用風險值為(0,0.25]、[0.25,0.5]、[0.5,0.75],[0.75,1)。
通過4個模型的輸出結果,進行計算10家房地產企業的信用風險值的大小,如表 1所示:
如表1所示,通過對比ST和非ST兩類企業信用風險值可知,本文的模型能夠更加具體的度量出兩類企業的信用風險值,并且ST企業的信用風險值明顯高于非ST企業。
通過兩類企業的對比,驗證了本文模型在房地產企業的信用風險度量上的效果,證實了本文模型的可信度。
三、結語
本文主要研究房地產公司信用風險的度量,主要研究結果和結論如下所示:
(1)從度量結果可知,ST房地產企業的信用風險值屬于中高、高風險區域,違約可能性大,相比之下非ST房地產企業的信用風險值屬于中低、低風險區域,履約能力較強。
(2)加入傳統風險度量模型能夠提高機器學習預測的準確率,在本文中準確率提高了4.1%。
(3)傳統的KMV模型不適用于房地產行業。
(4)“全國地產”行業信用水平高于“區域地產”行業。
參考文獻:
[1]馮雅情.基于改進的KMV-LBGoost的信用債風險度量[D].2020.
[2]王慧,張國君.KMV模型在我國上市房地產企業信用風險度量中的應用[J].經濟問題,2018(03):36-40.
[3]袁琦富.基于Logistic模房地產上市公司違約風險度量研究[D].天津財經大學,2018.
[4]潘義.我國上市公司信用風險度量研究[D].安徽工業大學,2010.
[5]余佳坤.制造業上市公司信用違約風險度量[D].山東大學,2020.
[6]周志華.機器學習[M].北京:清華大學出版社,2016:12-16.
[7]邱偉棟.基于LightGBM模型的P2P網貸違約預測研究[D].江西財經大學,2020:6.
[8]羅欣.中國房地產市場融資現狀分析[J].現代商業,2011(33):48-49.
[9]高國華.嚴調控趨勢下房企信用風險分析[J].債券,2017(07):61-66.
[10]劉君紅.我國房地產行業信用風險評價研究[D].北京交通大學,2012.
[11]劉敏.基于判別分析法的房地產企業信用風險度量研究[J].財會通訊,2013(20):107-108.