郭懿統 劉浩南 梅 杰 王辰楷 潘治廷
(東北大學,遼寧 沈陽 110004)
中小企業是我國經濟產業的重要支柱,但中小企業融資難、融資貴等問題卻愈發突出。構建預測準確率高、適用范圍廣的中小企業信用風險評價模型愈發重要。早期基于機器學習的信用風險評價模型多采用單一分類算法,自集成學習被引入該領域,研究發現集成學習模型多用于單一機器學習算法。總結已有文獻發現目前研究主要集中于以下兩個方面。
該類研究的代表性成果有:Tomczak等(2016)采用boosting方法,構建極端梯度提升樹集成模型;He和Zhang(2018)使用隨機森林和極端梯度提升樹作為集成學習基礎分類器;王重仁等(2019)提出了基于貝葉斯參數優化和XGBoost算法的個人違約風險評價方法;Gang等(2012)人基于Bagging和隨機空間兩種集成策略,提出雙策略集成樹,能改善噪聲數據和數據冗余屬性的影響;Alaraj等(2016)提出基于Gabriel鄰域圖編輯和多元自適應回歸樣條的混合集成信用評分模型。
部分學者認為分類算法改進成本高,提高效果不顯著,因此將研究重點轉向不平衡樣本處理、分類特征選擇等階段。
不平衡樣本處理階段多利用采樣技術,通過調整不同類別樣本個數得到平衡數據集。He等(2018)改進了balance cascade欠采樣方法。劉洋在不減少原數據集中采用重復采樣進行數據處理,彌補欠采樣的信息損失。Jie等(2018)采用了SMOTE-DSR過采樣與Bagging-DSR欠采樣結合的混合采樣方法。KunNiu(2020),程硯秋等(2016)也對樣本類不平衡有所研究。
分類特征選擇階段通過影響數據質量從而影響模型效果。ADL(2015)對比不同的特征選擇方法,認為GA算法和LR算法較優。Jadhav等(2018)提出了基于wrapper信息增益為導向的降維方法。Nali等(2020)提出了集成特征選擇方法,并與傳統特征選擇方法進行對比。
雖然學者們在上述各階段均有研究,但研究多局限于模型的特定環節,缺少對混合集成全局最優化及集成策略的討論,致使模型泛化能力欠佳,模型穩健性及適應性尚待提升。
本文針對以上問題,關注多個階段組成的混合集成框架:不平衡樣本處理、評價特征降維、集成算法選擇。在類不平衡處理階段依據三種采樣思路選取代表性技術;在評價指標選取環節依據特征選擇和特征提取兩類策略選取技術;在算法環節選用代表性的串行、并行集成范式,利用樹模型作為基分類器構建集成學習算法模型。通過召回率、Accuracy、AUC等指標,討論多階段混合集成中策略選擇對于模型評價的影響,并得到兼顧可靠性與優越性的多階段集成組合策略。
本文選用的三種采樣方法、兩種降維方法以及兩類集成分類算法具有代表性,由此組成了十二個混合集成系統,通過實證分析不同采樣與降維思路對中小企業信用風險評價結果的影響,并從中選取最佳的集成策略。
對于建模數據不充分與不平衡問題,本文使用采樣方法構造有效平衡樣本。多有隨機欠采樣,過采樣與混合采樣三種類型。
1.隨機欠采樣
隨機欠采樣以少數類樣本為基準,從多數類樣本中隨機抽取與少數類樣本同等數量的樣本,兩者組合形成平衡數據集。此方法全部使用真實樣本解決類不平衡問題,但樣本信息損失過多,使得樣本不充分問題更加嚴重。
2.過采樣
SMOTE采樣法是一種過采樣法,其原理是對所有少數類樣本的K個近鄰同類樣本構建新的少數類樣本。構建原理為:

3.混合采樣法
SMOTEENN算法首先通過SMOTE算法擴充數據集,得到新數據集,過采樣之后基于ENN數據清理技術對樣本重疊數據進行清洗,相較于SMOTE過采樣方法,可以將部分不合理的人工樣本剔除。
使用特征降維方法可緩解數據特征相關性大問題,同時避免由于特征矩陣過大、模型復雜度過高導致的“維度災難”。本文采用特征提取與特征降維方法進行實證對比。
1.特征提取
特征提取即凝練原始特征得到新的特征,進而改變原始特征空間。基于可解釋性原則,這里采用因子分析法研究特征提取的效果。其原理是將相關性高的特征轉化為不相關的少數幾個因子,然后根據方差貢獻率確定所需要的因子個數。在此基礎上,根據因子旋轉載荷矩陣解釋新變量以及重要程度,為決策者決策提供幫助。

2.特征選擇
特征選擇是從原始特征中篩選特征子集,且未改變原始特征空間。本文選取基于隨機森林的Gini下降量法測量指標重要性進行排序,并選擇靠前的指標。
Gini系數的本質是度量一個集合的“不純度”。例如在二分類問題下,某節點的數據集D。若D根據特征A的某一取值a,被分割為D1和D2兩個部分,則在a的條件下,切分后的Gini指數度量:

隨機森林模型會產生OOB數據未被用于模型建立。用其測試隨機森林性能,得到模型Gini指數。之后向某個特征A的值中人為添加噪聲擾動,數據集變為D'。再計算得模型Gini指數,與原始Gini指數之間的差異被稱為Gini下降量,若添加噪聲后的模型Gini指數顯著降低,則表明該特征具有較高的重要性。以此進行排序。

1.XG boost
XG boost算法可以看作t棵樹的加法模型:

每次加入決策樹會在原模型不做更改的前提下進行梯度提升,目標是最小化目標函數,其目標函數定義為:

其中第一項是傳統的損失函數,表示預測值與真實值的差異程度。第二項是模型的懲罰項,反應模型的復雜度。
目標函數中的懲罰項表示如下:

最小化目標函數的目的是在模型的預測準確率與泛化能力二者之間尋找一個平衡點。
2.隨機森林
隨機森林利用bootstrap重抽樣方法從原始樣本集中抽取K個訓練樣本集,后對每個Bootstrap樣本生成K個CART決策樹建模。若每個樣本有M個變量,則在每個決策樹的構造過程中,特征子集M個變量中隨機抽取m個變量(m 本研究以中國中小企業財務指標數據作為實證分析的數據集。為確保數據可靠性以及可獲得性,原始數據來源于中小板上市公司。受新冠疫情影響,2020年與2021年財務指標數據不具有一般性,因此選取2019年年末財務數據作為實驗樣本。以被特殊處理的上市中小企業(即ST與*ST)作為高風險企業樣本,以未作處理的正常運營公司數據作為低風險樣本。數據集中高風險與低風險樣本的比例為71:928,高風險企業占比約7.1%。 本文綜合考慮前人的研究,從盈利能力,償債能力,營運能力和成長能力四個方面構建評價指標體系。盈利能力表示企業利用當下資源創造利潤的能力,具體的二級指標包括凈資產收益率、銷售凈利率、成本費用利潤率、成本費用利潤率、總資產凈利率、營業凈利率等。償債能力則反映了該企業往期償債情況,進而體現其信用狀況,二級指標包括流動比率、速動比率、現金比率、凈資產負債率、產權比率、利息保障倍數等。營運能力表示企業經營效率的高低,主要指企業營運資產的效率與效益,二級指標包括存貨周轉率、總資產周轉率與應收賬款周轉率。成長能力體現了企業發展的快慢與對未來的預期等,二級指標包括凈資產周轉率、營業收入增長率與總資產增長率。 為了獲得適合該模型的數據集,需要對數據進行預處理。在本節中,將通過如下步驟,實現對實驗數據的預處理。 首先進行缺失值處理。以上指標數據并非完整,主要原因是中小企業數據信息不透明。除利息保障倍數缺失303個值之外,其余特征的缺少值數量均在20以下。因此對于缺失較少的指標數據采用均值填補法進行填補。由于利息保障倍數是衡量企業長期償債能力大小的重要標志,因此對該缺失值使用缺失森林法進行填補。 其次進行數據的標準化。原始數據xi通過以下公式轉換為新的數據yi。 通過性能度量對本研究中提出的模型進行評價。這些度量的描述可以用表1中的混淆矩陣來解釋。 表1 混淆矩陣 根據上述解釋,可以得到一些評價指標,如下所示: Accuracy被認為是模型的正確預測在實例總數中所占的比例。召回率被認為是模型正確預測的高風險中小企業的比率。TN rate代表模型正確預測的低風險中小企業的比率。此外,AUC值也是評價模型性能的常用指標。 本節介紹了信用風險評價的多階段混合集成模型。Python語言具有豐富的開源庫,能夠滿足本研究實證過程的所有要求。為了保證模型最終測試的可靠性,本研究的最終驗證集均為真實企業樣本。將欠采樣后的實驗數據按8:2的比例分為訓練集和驗證集。這29個驗證樣本是本研究中唯一的驗證集,不參與過采樣、建模、參數調整等過程。 圖1給出了實驗模型的流程圖。它包括模型建立的流程和階段:(1)數據預處理;(2)抽樣;(3)特征降維;(4)集成分類算法;(5)績效評價。本文將重點討論第二、第三和第四階段。如圖1所示,本文選擇三種采樣方法、兩種降維方法和兩種集成分類算法,由此形成了12種集成策略來構建12個混合集成模型。通過實證分析并從中選擇最佳集成策略。 圖1 實驗流程 在特征降維階段,對采樣后的樣本進行KMO檢驗和Bartlett球形檢驗,三種采樣方法下的檢驗結果見表2,表明本研究初選的20個指標適合使用因子分析進行降維。第二、四、六、八、十、十二混合集成選用Gini下降量法對20個指標重要性進行排序,綜合模型性能與降維原則,確定最終保留的指標個數。 表2 不同的采樣方法的檢驗結果 在集成分類算法階段,選擇XGBoost作為串行集成范式的代表方法,隨機森林作為并行集成范式的代表方法。在訓練集上使用五重交叉驗證來確定模型參數的取值。 對于中小企業信用風險評價而言,對高風險企業的誤判代價遠高于對低風險企業的誤判。通過在訓練集上進行五折交叉驗證調整十二種多階段策略集成構建的混合集成系統的參數。使用預先保存的驗證集驗證模型在實際環境中的泛化能力。十二個混合集成系統的評價效果見表3。 表3 十二種混合集成系統評價效果 可以看出, SMOTE-FA-RF模型的準確率最高,為93.10%,但召回率較低,約為85.71%,對低風險企業風險泛化能力較好。在表3中,SMOTEENN-FA-XGBoost模型的Accuracy和召回率最高,分別為93.10%和92.85%,適用于整體的信用風險評價以及高風險企業風險預測。同時該策略AUC值排名第二,略低于第一位的策略。鑒于其擁有最高的準確率和第二高的AUC,本文認為組成此混合集成框架的集成組合策略為最優策略。 三類采樣方法對于混合集成模型的真正率召回率影響結果見表4。可以看出召回率最高的是SMOTEENN-FA-XGBoost,達到了92.9%。SMOTE過采樣下的混合集成召回率普遍偏低,過采樣生成的大量人工樣本使得模型產生偏差。對高風險企業的誤判是十分致命的。而混合采樣法與樸素欠采樣平均召回率相同,表明過采樣后利用ENN進行人工樣本數據清洗可以有效調整這種劣勢。部分混合集成模型的真正率都達到了100%。采用SMOTEENN混合采樣的混合集成模型平均真正率高于采用欠采樣的混合集成平均真正率。 表4 三類采樣方法模型召回率與真正率 兩類特征降維方法對于混合集成模型的真正率召回率影響結果見表5。顯而易見,相比于基于Gini下降量特征選擇法的混合集成模型來說,基于因子分析特征提取的混合集成模型的召回率均較大。而就真正率而言,采用Gini下降量法的混合集成模型平均提升并不明顯,大多數情況下兩者持平。特征提取方法利用原始特征進行融合凝練成新特征,不僅能夠保持對原始指標數據有效信息的利用率,還能夠過濾對模型評價提升沒有幫助的無關信息,對原始數據有降噪的功能。特征選擇方法則直接舍棄貢獻排名靠后的指標,不僅損失部分有價值的信息,而且對貢獻靠前的指標數據中的冗余信息未做到有效剔除。 表5 兩類特征降維方法模型召回率和真正率 進一步,比較兩類集成分類算法的混合集成模型的效果,如表6所示。可以發現,基于XGBoost集成分類器的混合集成模型的平均召回率約為78.57%,與基于隨機森林分類器的模型相當。XGBoost的平均真正率略高于隨機森林分類器,前者約為96.67%,后者約為95.56%。同時,效果最佳的策略所采用的分類算法為XGBoost算法。 表6 兩類集成分類算法的召回率和真正率 本文研究了混合集成各個階段的方法選取對于信用風險評價效果的影響。具體研究中,選取了欠采樣,過采樣,混合采樣三種代表性采樣的方法,特征提取和特征選擇兩類特征降維思想的代表方法,以及bagging與boosting兩類基本集成算法的代表分類算法。通過實證檢驗,首先定性討論了多階段混合集成中各階段策略選擇對于模型評價效果的影響,其次給出了一條兼顧可靠性與優越性的評價流程多階段集成策略。研究發現SMOTEENN-FA-XGBoost模型具有相比于其他策略最高的可靠性與優越性。從理論層面,未來研究可以嘗試擴大和更新混合集成模型中的算法選擇以豐富并優化集成策略,亦可以本文中的三階段為基礎擴展為更多階段的全局最優化研究。從應用層面,未來研究可納入更加廣泛的信用風險數據進行建模。
三、實驗設置
(一)數據選取,評價指標初選
(二) 數據預處理

(三)模型表現評價指標


(四)模型建立


四、實證結果
(一)混合集成整體結果

(二) 混合集成分階段分析



五、結語