毛子林 劉姜
摘? ?要:基于信用風險評估的文獻隨著時間的推移以及技術創新的不斷更新,相關機器學習方法運用近年來也與時俱進。基于此,主要從傳統的機器學習方法、近現代機器學習方法以及近三年來最新研究三個方面進行信用風險評估領域文獻梳理與評述,歸納現有機器學習方法存在的問題和不足,并對未來機器學習方法在金融風控領域研究方向做出展望,提出發展趨勢。
關鍵詞:機器學習方法;信用風險;評估
中圖分類號:F830;TP181? ? ? ?文獻標志碼:A? 文章編號:1673-291X(2021)23-0117-03
隨著人工智能的發展和大數據時代的到來,眾多學者利用機器學習方法對信用風險評估展開廣泛研究。信用風險管理在國內外金融機構的穩健運行中扮演重要角色,傳統的判斷用戶是否違約的方法已經不能滿足當今數據類型多、用戶量大、風險預測準確率高的要求,大量學者運用機器學習方法深入展開相關討論并做出一系列研究成果,證明該方法具有較好的預測和泛化能力。整體來看,我國的個人信用風險評估較國外起步較晚,起初的文獻大部分都是進行傳統單一模型的風險評估,近年來才開始利用集成機器學習方法進行風險預測。信用風險對于我國金融風控領域尤為重要,因此,對此進行相關文獻梳理以及發展趨勢研究具有重要意義。
一、基于統計學習方法的信用風險評估綜述
回歸分析等方法最早用于開展信用風險評估領域。在國外,Durand(1941)利用線性判別分析法應用信貸評估系統,提出使用基于數理統計的模型對信用風險評估問題進行了研究,是已知文獻中最早被用來進行信用風險評估的方法,自此信用評估由單純的定性分析轉向了定量分析。同時,這一方法存在一定的局限性,它對于數據分布要求的假設性太強,并且樣本分類依據不是均值而是方差,因此導致最終的分類效果不是特別強。Orgler(1970)在1970年最早使用線性回歸方法針對貸款者的信用狀況結合實際情況進行分數評級,預測銀行客戶信用風險。在國內,姚路(2017)結合個人信用數據對用戶進行信用評價,運用多元線性回歸方法進行模型構建。線性回歸方法從本質上來說是用現有用戶信用數據對未知信用狀況的用戶進行回歸預測,最終得出用戶是否違約的概率。
但是線性回歸也有一定的弊端,它所得出的值域介于正負無窮大之間,而邏輯回歸方法的出現正好解決了這一問題。Wiginton等(1980)最先提出Logistic 回歸模型用于進行信用評估。邏輯回歸將線性回歸后得出的值進行Sigmoid 函數轉換成概率值,在0—1之間設定經驗閾值從而實現二分類問題。Grablowsky(1981)在Logistic基礎上進一步提出Probit 回歸模型進行風險評估。該模型主要是將Logistic回歸模型中的似然比對數函數調整為正態分布函數的反函數。Steenackers等(1989)對Logistic 回歸模型進行優化,將用戶信息的各種變量關系通過該模型進行反映,增強了該模型的可解釋性。Ziari (1997)進行信用風險評估時將線性分析模型與統計分析模型相結合,對比單一的線性分析和統計分析模型發現效果更好。在國內,胡濱(2011)利用logistic回歸模型對銀行信貸狀況進行分析,以減少信用經濟帶來的損失和風險。李淑錦(2018)運用logistic回歸實證得出傳統金融借貸機構風險低于網貸平臺,同時考慮閾值的設定對規避模型判斷失誤而導致的資金損失有重要意義。
二、基于現代機器學習方法的信用風險評估綜述
基于機器學習的個人信用風險評估模型在近年來逐漸興起,展現了相比傳統風險評估方法較強的優越性。常見的現代機器學習方法有BP神經網絡、K近鄰、SVM支持向量機等。此外,基于樹模型的機器學習方法也廣泛應用于個人信用風險評估,如基礎的決策樹模型、相關集成模型如隨機森林、GBDT、XGBoost、lightGBM等。
在國外,Makowski(1985)是最先開啟現代機器學習方法在個人信用風險評估領域應用的學者,他利用用戶信用數據在分類樹上構建模型,對好壞客戶進行分類并取得了一定效果。Cover 和Hart(1986)提出K近鄰方法,對于二分類的問題處理比較高效且被廣泛應用于信用風險評估中。Odam(1990)最先將人工神經網絡模型應用于個人信用評分模型,根據用戶信用數據構建評分體系,指出人工神經網絡在信用評分過程中有較好的解釋性與應用性。Li(2000)對XGBoost 進行信用風險建模研究。Baesensl 等(2003)針對2003年之前的個人信用風險評估模型進行對比研究驗證發現,線性判別分析法和Logistic 回歸模型在進行信用風險評估表現出較好的效果。Stefan Lessmann 等(2015)在41種分類器對不同數據集進行分析,實驗結果表明,集成模型如隨機森林在信用風險評估效果上表現最佳。Brown(2012)指出,機器學習方法主要是通過監督學習對用戶的信用數據進行模型構建,經過數據處理、特征提取等一系列操作對構建的模型進行用戶行為和特征的預測,以此來判斷用戶下一次交易違約的可能性。
在國內,姜明輝等(2004)利用K近鄰方法研究了信用風險評估,對小數據集的分類風險問題進行實驗分析。劉昕(2007)將人工神經網絡運用于銀行信用風險管理,得出神經網絡比傳統的打分法和統計模型判別正確率更高,并且在第二類錯誤率這一關鍵指標上優勢較好。王潤華(2010)改進支持向量機進行風險評估,得出多項式核進行分類在高斯核和線性核三種方法中表現效果最好。方匡南等(2014)引入Lasso-Logistic 模型,運用Lasso方法對重要的變量特征進行選擇,這一組合進行個人信用評估可以明顯加快計算速度。付永貴(2016)改進線性回歸模型,并在大數據的基礎上對網絡供應商信用數據進行了研究。羅雅晨(2018)研究了數據不平衡問題,基于改進的隨機森林方法提出比例平衡的隨機森林模型用來建立個人信用評分模型。