基于隨機子空間集成學習的中小企業信用評估方法研究

2018-06-11 05:47:40王慶姚康

上海管理科學 2018年3期

王　慶　姚　康

(蘇州企業征信服務有限公司，江蘇蘇州　215003)

0　引言

中小企業在我國經濟社會發展中發揮著日益重要的作用。截至2016年第三季度末，我國注冊的中小企業已達到2000多萬戶，占全國企業總數的99%以上，工業產值占我國GDP的58.5%。然而，融資難一直是制約中小企業發展的瓶頸。中小企業融資難，從根本上來說是由中小企業與金融機構之間的信息不對稱引起的，如何合理有效地評估中小企業的信用風險狀況對于解決中小企業融資難問題起著決定性的作用。

評估中小企業信用風險傳統上主要用專家法和評分法。專家評分法主觀性過強，在評估過程中評估專家可能會因其自身的知識結構偏差而導致選擇偏差；傳統的線性信用評分模型由于對于數據要求苛刻，而中小企業數據缺失，財務狀況不透明，故不具有廣泛的適用性；以Merton為基礎的KMV等模型需要建立在大量的有效市場信息之上，而中小企業上市時間過短，違約距離難以測算，中小企業關聯方過多的現象也使credit risk+表現不佳。而新興的機器學習類方法由于其對樣本數據的要求不高，自學習能力強，能夠有效地適用于中小企業的信用評估。

近年來人工智能、機器學習算法發展和興起，相關數據分析算法也逐漸被應用到信用風險評估當中，主要包括人工神經網絡(Artificial Neural Network，ANN)、支持向量機(Support Vector Machine，SVM)及集成學習算法等。這些算法對較少的企業數據樣本具有良好的預測性能，并且比傳統統計方法更能區分企業信用狀況的好壞。此外，基于數據預處理的集成學習算法也已被越來越多的研究人員應用到信用評估中，研究成果表明集成學習算法比單純的分類算法模型擁有更好的性能。

因此，本文采用基于隨機子空間的特征選擇算法和SVM 集成學習算法來評估中小企業的信用。本算法首先利用隨機子空間對數據集進行特征選擇，然后采用集成學習框架，提出了基于SVM模型的集成算法，該算法有效提升了信用評估分類的學習能力，在預測中小企業信用方面具有良好的性能。

1　基于隨機子空間的集成學習方法

1.1　集成學習

集成學習問題可描述如下：

假設從訓練樣本集S構造N個學習機器，記為：

∏={C1,C2,…,CN}

集成學習就是綜合來自集合∏的N個個體學習機器的預測得到最終決策結果。

按對訓練數據進行處理得到個體學習器方式的不同，可將集成學習大致分為AdaBoost和Bagging兩類。AdaBoost用上一級個體學習設置樣本權值，為下一級個體學習器提供分類信息并指導下一級個體學習器的訓練；Bagging獨立設計各個體學習機器，其主要思路是尋找一種合適的組合準則來將各個體學習的輸出綜合起來并形成最終的結果。

在集成學習算法構造過程的各個階段，可以通過加入不同的擾動得到具有多樣性的個體學習機器。可歸結為兩種方式：一是通過輸入擾動，另一種則是通過學習算法擾動。對于前者，可使用不同的特征子集作為個體分類器的輸入，實現策略如特征選擇、隨機子空間法等。對于后者，集成不同的學習算法及相同算法的不同學習參數或初始化都有利于個體多樣性的產生。集成學習算法的主要步驟包括子空間的選擇(包括樣本子空間和特征子空間)、特征降維(子空間降維)、個體學習集成，具體步驟如下：

(1)從原始的特征空間中，通過子空間的選擇得到m個不同的子空間；(2)若得到的子空間的維數較大，則可通過特征降維策略生成m個維數更低的子空間，以此來節省存儲和時間開銷；(3)通過選擇不同的機器學習算法，分別對m個子空間訓練得到m個不同的個體學習機器；4)用這m個個體學習機器對測試樣本進行分類，可得m個不同的分類結果，選擇某種集成方法(如簡單投票法)，將這m個結果進行整合得到最后的分類結果。

1.2　隨機子空間

隨機子空間方法(Random Subspace Method,RSM)是一種集成學習技術，隨機子空間通過使用隨機的部分特征而不是所有的特征來訓練每個分類器，以降低每個分類器之間的相關性。類似bagging集成學習，bagging隨機使用部分訓練數據，而隨機子空間是隨機使用部分特征，算法如圖1所示。

圖1　隨機子空間算法

1.3　基于隨機子空間的集成學習方法

基于隨機子空間的集成學習方法，本文采取了融合特征選擇和集成算法的RSM-SVM 集成學習算法來評估中小企業的信用。本算法首先利用RSM對數據集進行特征選擇，然后采用集成學習框架，提出基于SVM 分類器的集成算法，算法如圖2所示。該算法有效提升了分類模型的學習能力，在預測中小企業信用狀況方面具有良好的性能。

圖2　基于隨機子空間的集成學習算法

2　實證分析

2.1　數據樣本

數據來源于銀行貸款數據，選取120家中小企業作為建模對象，其中60家出現違約，60家正常，這些企業規模相當，行業覆蓋面較全，具有一定的代表性。本文篩選整理出了包含120 個中小企業客戶的數據，按照貸款風險分類標準進行好客戶和壞客戶的劃分,將“關注”和“正常”兩類客戶作為未違約樣本,標注為“0”，將“次級”“可疑”和“損失”三類客戶作為違約樣本,標注為“1”。

表1　中小企業信用評估指標

2.2　指標體系的選取

指標的合理選取對于模型的有效性有著重要的的影響，為了指標的全面性及準確性，根據樣本數據信息，分別從公司的盈利能力、資產管理能力、負債比率、償債能力及發展能力五個方面計算15個財務指標作為預測系統的解釋變量。在構建企業信用風險評價指標體系的過程中，所選擇的評估指標主要基于國際上通用的財務報表分析指標，而且充分借鑒參考了國內外這一領域的前期研究成果。其具體指標如表1所示。

2.3　實驗設計

在傳統的分類方法中，常用準確度(Accuracy)作為評價指標。然而，很多情況下，僅僅依靠準確度不足以區分分類模型的優劣。所以，為了讓所提出的模型的預測結論可靠，本文在模型準確度的基礎上，新增兩類錯誤率作為評估分類模型性能的指標。假陽性錯誤,即第一類錯誤( Type I errors) 和假陰性錯誤, 即第二類錯誤(Type II errors)。假陽性錯誤是指將好客戶誤分類為了壞客戶,而假陰性錯誤是指將壞客戶錯誤地分類為了好客戶。這兩類錯誤率是基于混淆矩陣得來的，表2就是一個分類問題的混淆矩陣。

表2　混淆矩陣

根據以上混淆矩陣，分別定義準確度、第一類錯誤和第二類錯誤的概念：

為了同時驗證本文提出的隨機子空間集成算法在信用評估上的性能和有效性，實驗分別測試了邏輯回歸Logistic算法、決策樹DT算法、人工神經網絡ANN算法、支持向量機SVM算法、隨機森林RS算法，以及在預測性能好的SVM算法上用集成學習的算法所得出的Accuracy。在實驗中，我們采用十字交叉驗證了(10-fold crossvalidation)的測試方法。這種方法的基本思想是把原始數據分成10份，輪流將其中9份作為訓練集，1份作為測試集。首先，用訓練集對分類器進行訓練，然后利用測試集來測試訓練得到的模型，最后評價模型的分類性能。在使用十字交叉驗證方法時，會得到10次模型評價結果，將這10次結果的平均值作為模型最終的評價指標。另外，試驗中集成學習算法的迭代次數取值100。表3為以上實驗算法的對比結果情況。

表3　模型比較結果　%

從上述實證結果分析，在現有的模型算法上，SVM能夠普遍獲得較好的預測性能。為了進一步提高預測性能，在集成學習的基礎上創新地使用隨機子空間、AVM組合集成學習方法，使得預測準確率達到82.71%。

從綜合實證結果中可以發現，基于集成學習的SVM 模型能夠較理想地對中小企業客戶的違約與未違約情況進行分類，結果穩定。從RSM-SVM 模型的預測結果看，集成學習方法在從中小企業違約預測上確實具有一定優勢。

從表3可以看出，使用SVM集成學習方法，比如bagging或者boosting算法，在Accuracy上比單純使用邏輯回歸、人工神經網絡、決策樹、SVM等分類模型要低，這說明單純的集成學習算法的預測精度和穩定性都有很大的改善空間。在使用集成學習方法的前提下，加入隨機子空間算法使得模型的分類精度和穩定性有了顯著的提升，也就是對數據集進行特征選擇后，SVM集成算法預測的精度也有了極大的提升，同時也更加穩定。這說明數據集的質量對分類模型的影響十分大，從某種程度上決定了分類模型的性能。而且，可以很容易地看出，RSM-SVM算法較前三種算法的性能更加優越，這種模型的預測精度和穩定性都表現得很出色。因此，基于數據處理的集成學習算法較單純的分類算法具有更好的性能。

3　結論

本文提出了基于隨機子空間的集成學習算法，該算法首先利用隨機子空間方法對數據進行特征選擇，選取最優特征子集后采用SVM 分類算法進行分類。在使用相同數據集的前提下，使用邏輯回歸、決策樹、人工神經網絡、支持向量機和基于隨機子空間的集成算法分別對中小企業進行信用評估，實驗結果證實基于隨機子空間的集成算法較其他算法的性能更優越。

我們可以完善擴展評估指標體系，獲取中小企業水電煤、稅務繳納、進出口、負面評價及企業主信息等研究建立更完備、預測性能更好的企業信用評估模型。

基于隨機子空間集成學習的中小企業信用評估方法研究

0 引言

1 基于隨機子空間的集成學習方法

1.1 集成學習

1.2 隨機子空間

1.3 基于隨機子空間的集成學習方法

2 實證分析

2.1 數據樣本

2.2 指標體系的選取

2.3 實驗設計

3 結論