李晨堯
據國家統計局發布,2022 年全國房地產開發投資下降10.0%,房地產開發景氣指數處于較低景氣水平。商品房銷售面積、銷售額和均價下跌,居民買房意愿不足,而房地產開發企業投資回收期長的特點,使得眾多開發商面臨資金鏈緊張的困境。一些龍頭房企接連出現債務違約“暴雷”現象,也帶來不良的社會影響。房地產企業財務危機的出現是由于戰略定位錯誤、盲目投資多元化、內部管理水平低、產品核心競爭力不足、庫存管理不佳等多種原因造成。企業出現財務危機不是一蹴而就的,往往會在前期隱藏一定的財務風險。因此,針對房地產企業行業特點,選取相應財務指標并構建財務風險預警模型,具有較強的現實意義和應用價值。本文將從財務指標和非財務指標兩方面構建一個財務風險預警的指標體系,并利用WEKA 平臺的數據挖掘與機器學習功能,評價不同算法對房地產企業財務風險的預警水平。
1.樣本選擇
本文使用的財務數據來自國泰安(CSMAR)數據庫,選取樣本參照國內研究的一般方法,將2017—2021年被首次特別處理(ST)的房地產公司作為財務危機企業樣本,非ST 房地產公司作為財務正常的企業樣本。根據房地產行業的實際情況,采用非配對抽樣,選取較多的財務正常企業樣本和較少的財務危機企業樣本。
基于以上原則,依據國泰安數據庫中行業分類標準,參考證監會2012 版行業分類和申銀萬國行業分類2012修訂版,選取2017 年至2021 年共876 個房地產企業樣本,其中財務正常企業樣本共846 個,財務危機企業樣本共30 個。
2.指標選取
指標的選取是構建財務預警模型的核心環節。財務指標能夠從多維度全方面地展現公司的財務狀況和經營水平,本文選取了能夠在一定程度上檢測企業財務風險的財務指標。由于企業內部治理狀況和管理情況不盡相同,指標的選取不應拘泥于財務指標,也應選取一定的非財務指標作為補充。因此本文遵循系統性、不相關性、靈敏性和切實可操性原則,參照國內相關財務風險預警指標的研究建立一套財務風險預警的指標體系,包括償債能力、經營能力、盈利能力、股東獲利能力、發展能力、現金流量指標、風險水平等財務指標,同時也選取了兩權分離度、年度內董事會的會議次數和審計意見等非財務指標。具體情況見表1。

表1 財務預警指標選擇
1.數據處理
對全部原始數據進行預處理。為保證WEKA 平臺能夠正常讀取數據,將所有數據保留三位小數;對于無法從財務報表及公開信息中獲取的財務數據選擇用眾數進行填充;對于非財務指標的缺省采用悲觀準則進行填充,如董事會的會議次數如果無法獲取,則認為年度內的會議次數為0。
2.模型構建
本研究采用流行的數據挖掘方法來構建財務風險預警模型,主要包括貝葉斯網絡(GBN)、樸素貝葉斯網絡(NBN)、邏輯回歸(LR)、決策樹(DT)、支持向量機(SVM)、人工神經網絡(ANN)、裝袋(BA)、k 最近鄰(KNN)和隨機森林(RF),共計9 種算法。
3.評價指標
評價分類器的性能指標主要為機器學習類指標。機器學習類指標主要包括預測模型的構建速度、混淆矩陣相關的度量指標(真陽性率,真陰性率,假陽性率,假陰性率,綜合準確率,F-Measure)以及接受者操作特征曲線下面積。F-Measure 度量值高可以保證查全率和查準率都比較高,表明機器學習算法準確率較高。接受者操作特征曲線下面積(AUC)的范圍在0.5(隨機模型)和1(完美模型)之間,越接近1 表明模型精度越高。
1.結果
本文采用WEKA 3.8.6 軟件對處理后的876 條數據采用十折交叉驗證的方式進行實驗。十折交叉驗證是將數據集分成十份,輪流將其中9 份作為訓練數據,1 份作為測試數據進行試驗的方式。實驗結果機器學習類指標見表2。

表2 機器學習類評價指標
2.討論
根據機器學習評價指標,首先從算法訓練的時間上看,ANN 算法學習時長最久,是因為神經網絡所需參數較多,學習過程比較長。其余算法產生模型的時間均較短,速度較快。剩余度量標準TPR、F-Measure、AUC 和Accuracy 的評價值越高說明算法的分類效果越好,預測精度越高。本文針對剩余度量指標做出具體分析如下。
從整體上來看,基于集成學習思想的模型——比如BA、AB、RF,比其他模型的綜合準確率、F-Measure 和AUC 值高,這可能是因為集成方法通過聚集多個分類器的預測結果來提高分類準確率,平均了單個模型的偏差,使得集體決策在全面可靠性和準確度上優于個體決策。除此之外,SVM 和ANN 算法也提供了同樣最高的綜合準確率和第二高的F-Measure,但根據AUC 指標,ANN 算法的ROC 曲線下面積更大,意味著ANN 算法的平均性能要優于SVM 算法。
從單個算法角度看,基于函數的LR、基于決策樹的DT 和基于實例的kNN 的綜合正確率均超過了95%,這些算法的F-Measure 也均大于0.95,LR 的ROC 曲線下面積達到了0.79 以上,說明它們在該房地產預警數據上的分類性能較好,能夠在財務危機早期預測中發揮重要作用。這些算法中表現相對較弱的是GBN 和NBN。然而,我們更換貝葉斯網絡中的全局評分度量,將K2算法更改為TAN(Tree-Augmented Naive Bayes,樹增強樸素貝葉斯)后,貝葉斯算法的綜合準確率則增加到了95.4338%,F-Measure 和AUC 則達到了0.954 和0.922,說明更改合適的度量后該算法也可以在房地產企業財務風險預測中達到良好的效果。
為了更好地預測房地產企業財務危機,我們需要針對房地產企業數據特征做出比較和評價。需要注意的是,在房地產財務風險模型數據的這種不平衡數據集中,識別為財務風險的企業數量遠遠小于未識別為財務風險的企業數量,但識別出有財務風險的企業卻更有意義,因為如若未識別出財務風險,會對社會產生更大的不良影響,銀行、社會投資者和購房百姓會付出更大的代價。因此在關注上述指標之外,我們更需要關注假陽性率指標,假陽性率指標越低,意味著真陰性率指標越高,也就意味著該分類器在針對房地產企業財務風險發出預警的意義就更大。本研究結果表明,NBN、GBN、GBN-TAN、kNN、ANN 的假陽性率指標相對其他算法更低,能夠更準確地識別出財務風險企業。
綜上所述,在該房地產企業財務風險預警數據集上的分類預測效果較好的算法有三種,分別是GBN-TAN、ANN 和kNN。這三種算法在真陽性率、假陽性率、F-Measure、AUC 和綜合準確率等多種指標的綜合測評下都有比較出色的表現。未來,計劃繼續擴大原始數據集,繼續對原始數據中財務指標的選擇和各種算法進行優化,進一步降低假陽性率,結合各個模型的優勢特點來提高對房地產企業財務危機的預測精度。