基于隨機森林算法對企業信用信息中預警特征識別的研究

2023-07-06 02:33:40周二磊陸進宇馬江濤鄭巖馬曉威

中國信息化 2023年6期

周二磊陸進宇馬江濤鄭巖馬曉威

近年來，隨著國家政務大數據的匯聚，企業的信用信息逐漸豐富，除包括企業基本信息外，逐步將動態經營、監督管理、社會輿情、投訴舉報等多個維度信息納入信用體系，為構建科學、精準的信用預測預警模型奠定基礎。為強化信用監管和社會監督，促進企業自律，2021年國家市場監管總局制訂《嚴重違法失信企業名單管理辦法》，企業一旦列為嚴重違法失信企業名單（俗稱“黑名單”），將會面臨嚴重后果。因此，有必要對企業提前預警，并對預警特征值定量判斷，一方面，有利于監管部門建立科學的評分體系，提升監管的精準度，并在日常監管中重點關注某些市場特征，避免市場上出現大量不穩定因素；另一方面，有利于企業在經營中高度關注預警指標，避免列入“黑名單”。

隨機森林算法模型作為集成學習的一種，能夠處理高維度數據，較為快速地實現預測功能，且能反映每個特征值的權重，形成“預警性”指標。以往研究中，劉玉航等通過優化參數組合，建立隨機森林模型，有效預測食品檢驗不合格指標并對其分類。張家偉等通過加權策略對過采樣和隨機森林進行改進，結果顯示能夠提升少數類樣本的分類準確率和整體分類性能。馬夢晨等以340所上市公司28個信用風險指標為研究對象，采用不同機器學習算法進行預測，結果顯示隨機森林預測準確率最高。王朝輝等利用后剪枝的隨機森林進行特征選擇，并利用改進Q-learning和XGBoost算法，使模型具有更高的分類準確率。楊慶振通過大規模數據訓練，利用隨機森林算法，對“黑名單”相關的特征值進行抽取和排序。馬曉君等在對企業信用評級時提出基于加權隨機森林模型，驗證得出其評級準確率優于傳統的統計模型。現實中企業信用風險數據具有不平衡性，為此，于勤麗等提出一種改進的SMOTE 過采樣方法，避免少數類過度聚集在少數類中心，實現對不平衡數據的處理，提升模型訓練效果。此外，有關研究表明使用隨機森林算法在多種不平衡數據分類場景和其他工程領域應用中取得了良好的效果，模型泛化能力強。

隨機森林算法模型在風險預測中的各項評估指標表現較好，且無需過多考慮特征間多重共線性，能夠較為快速處理多維度、大批量數據。但現有研究中，多側重于算法本身的改良，應用的實驗數據較少，特征維度較小，缺乏將研究成果運用在更大規模數據、更多維度特征的應用場景。本研究將以河南省市場監管部門歸集的50萬個企業的數據和80個信用領域的風險指標為來源，通過對不均衡數據的處理，比較隨機森林等機器學習算法模型的有效性，從而識別和量化風險指標項，為政府部門的監管執法和企業自律提供有力依據。

一、方法與預處理

（一）隨機森林基本原理

隨機森林是一種有監督的算法模型，該模型通過建立學習器構建裝袋集成，生成若干個訓練集；然后對于每個訓練集構造決策樹作為弱評估器，其分裂節點往往不追求信息增益最大值，而是在特征中隨機抽取部分特征并找到最優解實施分裂；最后重復迭代，形成由若干棵決策樹組成的森林，按照多數投票機制，將決策樹分類結果整合，多數決策樹的判定結果就是最終隨機森林模型的分類結果。隨機森林基于集成思想，可以有效避免過擬合。同時，通過隨機森林可以計算出特征值對模型的貢獻率，從而得出特征的定量權重。

（二）數據采集

采集河南省市場監督管理局“企業信用風險分類監管平臺”中，截止2022年12月31日歸集的企業信用數據，從中隨機抽取50萬個企業的80個完整指標項信息。參照國家市場監管部門對企業信用風險的解釋，企業信用風險信息共5類，分別為基本因素，包含企業規模、企業年齡、企業背景等10項基礎特征信息，反映基于企業群體特征所表現出的風險因素；動態因素，包含企業準入許可、登記備案、年報公示、經營狀況、納稅社保、知識產權等方面的40項行為信息，反映基于行為特征所表現出的風險因素；監管因素，包含行政檢查、行政處罰、訴訟信息、經營異常、黑名單、失信被執行人等方面16項信息，反映基于歷史監管記錄所表現出的風險因素；關聯因素，包含企業相關人員違法失信和關聯企業違法失信等9項信息，反映基于企業關聯關系所表現出的風險因素；社會評價因素，包含投訴舉報、輿情評價和社會關注度等5項信息，反映基于社會評價信息所表現出的風險因素。數據來源中50萬個企業數據項均為完整字段，無需清洗處理，為數據建模奠定良好基礎。

（三）指標項編碼

將抽取的數據指標項逐一編碼，其中，以“黑名單”作為輸出標簽，將其余79個信用風險指標項作為樣本數據的特征項，如表1所示。

（四）數據預處理

1. 數據分箱

數據分箱（Binning）作為數據預處理的一部分，也被稱為離散分箱或數據分段。數據分箱本質就是把數據按特定的規則進行分組，實現數據的離散化，增強數據穩定性，減少過擬合。參照市場監管部門《企業信用風險分類標準》，將80個指標項按照不同的數值進行數據分箱（見表2）。

2. 不平衡數據處理

通過計算，在50萬條企業數據中，“黑名單”企業數據僅占3%。因此，該樣本數據極不平衡，在數據預處理中采用過采樣（SMOTE）方法使數據達到平衡。SMOTE是一種綜合采樣人工合成數據算法，用于解決數據類別不平衡問題，主要做法是在特征空間中，在少數類臨近點之間放置合成點，不斷重復直至數據平衡。本次實驗中，SMOTE策略設置為0.1。

二、結果與分析

（一）實驗仿真

本實驗采用Anaconda3中的Jupyter Notebook作為工具，通過調用Scikit-learn庫構建算法模型。對隨機森林訓練時，將79個指標項作為特征值（data）輸入，將“黑名單”作為標簽輸出（target），抽取樣本訓練模型，對特征進行節點分裂，采用固定隨機種子方式（參數random_state=90），生成若干棵決策樹，從而生成隨機森林。

（二）評估指標

“黑名單”數據屬于少數類數據，為檢驗模型的有效性及泛化能力，通過模型的預測精確度（Precision）、召回率（Recall）及F1值進行分析，觀察模型效果。

其中，P代表的是正類樣本的數量，N是負類樣本的數量。因此，TP（true positive）代表正例預測正確的個數，FP（falsepositive）代表負例預測錯誤的個數，FN（falsenegative）代表正例預測錯誤的個數。

（三）隨機森林模型的參數優化

采用學習曲線和網格搜索方式遍歷超參數組合，通過十折交叉驗證，返回最優參數。第一步，調試決策樹個數，學習曲線圖如圖1，采用F1值為評估標準，得到最佳決策樹個數為11，F1值為0.925。

第二步，采用網格搜索方式，以F1值評估為主，精確度、召回率評估為輔，按照“最大深度”、“最大特征”、“分枝后子節點最小樣本數”、“分枝節點包含最小樣本數”的順序逐步調整參數。

其中t代表給定的節點，i代表標簽的任意分類，c表示葉子節點上標簽類別的個數，c-1表示標簽的索引，P（i|t）代表標簽分類i在節點t上所占的比例。通過網格搜索，推薦采用基尼系數，F1值為0.928。

（四）實驗對比

將以上訓練好的模型，分別與決策樹、GBDT、XGBoost算法所構建的模型對比，通過評價指標觀察隨機森林模型在精確度、召回率、F1值有較高優勢。

（五）結果分析

利用已訓練好的隨機森林，查看每個特征值的貢獻率，得出企業信用信息中預警特征權重及排序，圖2為排名前20名的預警特征及權重值。

三、結論與討論

從結果可以看到，“未年報、隱瞞情況、弄虛作假”、“三年內列異次數”、“當前是否列異”、“年報數據填報異常”、“成立距今時長”等5項指標占有較高權重，符合執法監管部門的經驗認知。本研究在實際中的意義，一是能夠為政府監管部門提供有用信息，構建企業信用風險分類監管評分體系，改變大規模、運動式的監管，提升監管的精準性和科學性，同時輔助監管部門定期發布經營警示性信息，避免市場上出現大量“黑名單”企業；二是輔助企業針對預警特征值，提前感知“危險”因素，調整經營狀況，避免造成經濟損失。

本研究是以河南省市場監管部門截止2022年12月的企業信用信息作為源數據集，未來能否將模型擴展至更多省份、更長時間跨度，將成為下一步研究的重點。

作者單位：周二磊，河南省政務大數據中心；陸進宇，河南省平臺經濟發展指導中心；馬江濤，鄭州輕工業大學計算機與通信工程學院；鄭巖，河南省政務大數據中心；馬曉威，河南省平臺經濟發展指導中心。

基金項目：國家市場監督管理總局科研項目：基于大數據技術的食品經營主體風險分類管理關鍵技術研究（編號：2021MK067）；河南省科技攻關項目：食品生產企業信用風險分類和智能識別方法研究（編號：222102310515）；河南省市場監督管理局科技計劃項目：市場監管大數據分析應用（編號：2021sj119）。