王卓婭 王彬彬 劉源
[摘 要]互聯網金融的風控模式不同于傳統銀行業金融機構的信貸審核機制,缺乏足值抵押,面臨的信息不對稱問題也有別于傳統金融行業。當前,隨著大數據的迅猛發展和機器學習算法的普及,人工智能正在興起。文章基于人工智能算法的互聯網金融信用評分模型,對人工智能在互聯網金融中的應用及其現實挑戰進行了研究,發現基于人工智能的信用評分模型具有獨特優勢,必將成為未來金融業風險控制的主流選擇。
[關鍵詞]人工智能;互聯網金融;信用評分;Logit模型
[DOI]10.13939/j.cnki.zgsc.2018.13.039
1 引 言
交易風險是傳統銀行業金融機構面臨的主要風險,商業銀行需要對客戶還款的履約能力進行風險評估,在評估客戶違約可能性的基礎上給予恰當的授信額度。[1]傳統風險評估中,客戶的工作、收入、婚姻狀況和財產等背景風險是重要的決策因素,同時還要求一定額度的抵押品,綜合授信門檻高,由此導致的金融排斥和金融低效常常受到人們詬病。近年來,互聯網金融打破傳統金融服務的“二八定律”,依靠大數據和機器學習的算法優勢,擁有豐富的真實業務場景,人工智能信用評分模型在互聯網金融領域日益普及。[2]文章將對人工智能在互聯網金融信用評分模型方面的應用、面臨的現實挑戰進行分析并給出對策建議。
2 人工智能的信用評分模型
人工智能評分模型日益增多,分析問題的視角也不盡相同,但學習類模型的思路大致相通。首先根據信用評分的真實業務場景建立模型,通過正則化的懲罰項約束過高的模型復雜度,將數據分為訓練數據和檢測數據,根據最大熵原理進行模型優化,其算法十分豐富:迭代尺度法、梯度下降法、牛頓法、擬牛頓法等。[3]由于訓練數據和檢測數據永遠增加,且模型具有自主調整能力,因此能夠持續學習成長。關于人工智能的信用評分模型,具有代表性的主要是以下幾種:
(1)Logit模型。Logit模型實際上是受限因變量(LDV)分析框架的一種應用。在互聯網金融評分模型中,最簡單的客戶分類就是“好”和“壞”兩類,從概率上看只要超過0.5便可以確定其類別屬性,因而也是兩分類受限因變量的常見處理方式。評分模型實際上是對未知客戶的信用水平進行打分,客戶的真實信用狀況是不可觀測的,因而稱為潛變量Y*,信用評分實際上就是利用連接函數將潛變量分值轉換為可觀測的{0,1}兩分類結果,人工智能的算法就是要保證找到使信用分值經轉換后能最大限度擬合訓練數據Y值的模型,進而確定出重點影響因素并對新增客戶進行信用打分和預測。LDV的一般框架如下:yit*=x′itβ+εityit=T(yit*),其中yit*是潛變量,yit=T(yit*)是轉換函數,它將yit*的取值轉換為可觀測的結果yit。如果以潛變量是否大于0來對觀測結果進行分類,取值概率如下:P(yit=1)=P[T(yit*)]=P(x′itβ+εit≥0)=F(x′itβ)。顯然,LDV分析框架下,模型的具體形式就取決于累計分布函數F(x′itβ)的形式,如果是Logistic分布就是Logit模型,連接函數F(x,β)=Flogistic(x′β)=11+e-x′β,因變量取值概率Pr(Y=1|X)=Flogistic(x′β)=11+e-x′β。關于模型評價:一是看擬合優度:R2=lnL1-lnL0lnLmax-lnL0;二是看正確預測百分比,如果概率P≥0.5,取Y_hat=1,預測正確的除以總數就是正確預測百分比;三是看KS曲線,它是好客戶和壞客戶的累積概率差的最大值,如果壞客戶估計值的經驗分布與好客戶估計值的經驗分布存在顯著差異,并且壞客戶集中于信用評分較低的區域,好客戶集中于較高區域,表明模型區分能力較好。
(2)支持向量機。支持向量機(SVM)是機器學習中一個非常重要的分類算法,最早由Cortes和Vapnik于1995年提出并得到廣泛運用。它是一種二分類模型,原理是在特征空間中尋找使得間隔最大的線性分類器,算法上表現為對一個凸二次規劃問題求解。SVM能夠在有限的樣本信息條件下,兼顧好訓練精度和泛化能力的矛盾關系,因此在解決小樣本、非線性及高維模式識別中具有獨特優勢。在信用評分模型中,通常采用線性可分支持向量機,這種情形下訓練數據是線性可分的,并且能夠保證最優解是全局唯一的,性質優良。實際應用中,不妨將“違約”“不違約”定義為兩分類變量Yi:{-1,+1},則對訓練數據集T={T1,T2,…,Tn}來說,就是要尋找使得這些點間隔最大的分離超平面。假設分離超平面由:y=wx+b表示,則這個最優化的分離超平面可由下述最優化問題得到:min12‖w‖2s.t yi(wxi+b)-1≥0,相應決策函數為:f(x)=sign(w*x+b*)。
(3)隨機森林。決策樹是一種樹型結構的分類方法,簡單易行,因此也適用于信用評分模型,它從根節點出發,采用“if-then”規則,遞歸地對每一個實例進行分類直到葉節點,因此保證了分類路徑的唯一性。然而,傳統的決策樹容易引起過擬合的嚴重問題,現代方法傾向于采用隨機森林來解決。所謂隨機森林就是以隨機方式,采用多個決策樹的投票機制,以“多數票”方式來進行過擬合問題的改善。在互聯網信用評分模型中,假設采用隨機森林的方法,使用了m棵決策樹,因此需要生成m個樣本數據集來訓練每一棵樹。顯然,全樣本訓練這m棵決策樹是不可取的,并且全局樣本容易產生忽視局部規律的問題,這對提升模型泛化能力是有害的。實踐中,常常采用Bootstrap自抽樣方法,解決了有限樣本下大量訓練的問題,是一種行之有效的方法。
(4)人工神經網絡模型。人類大腦的神經元就是一種最簡單的分類器,可以從N個感受器接受到電信號后進行加權判斷,決定是否發出電信號。受此啟發,信用評分模型總可以用N-1維的超平面分割N維空間,對“好”“壞”客戶進行分類。著名的Hebb算法通過逐點調整分離超平面的位置完成模型優化,得到最終的分類結果。然而,現實問題的維度通常很高,難以通過簡單線性可分的神經元完成分類要求,因而需要對每一次線性切分的半平面作交、并等運算,相當于上一層的神經元作為下一層神經元的輸入,這就構成了人工神經網絡模型。人工神經網絡模型的訓練依靠反向傳播算法,從開始輸入層輸入特征向量,經網絡層層計算,如果輸入結果與實際分類標簽不一致,就會從最后一層進行參數調整,并且層層倒推,直到網絡輸出的分類結果正確為止。
3 現實挑戰
互聯網信貸審核和信用風險防控主要依靠互聯網金融下的各類信用評分模型,在人工智能發展的日新月異下,各類先進的人工智能算法開始頻繁出現于信用評分領域。人工智能的目的是要最終實現自主化和智能化運行,將人們從煩瑣低效的傳統信貸審核和現場調查中解放出來,節約企業運營成本,提升金融業效率。[4]然而,還存在如下現實挑戰:
(1)挑戰一,模型泛化能力弱化。由于互聯網金融信用評分應用場景千差萬別,技術人員建模過程過于重視訓練效果,或過于重視單一業務數據的擬合效果,導致模型整體泛化能力偏弱,模型對新增業務場景或新增客戶的審核缺乏學習和成長能力,模型失效和模型預測不準時有發生,部分公司甚至依靠人工審核進行授信,人工智能評分模型束之高閣,不能適應未來行業發展需求。
(2)挑戰二,模型過度復雜,過擬合現象嚴重。人工智能在多數信用評分問題中都取得了比傳統模型更好的性能,這是因為人工智能下的評分模型無須變量分布的嚴格假設,可以直接從不斷更新的訓練數據中獲得知識并解析規律。與傳統的線性評分模型相比,人工智能在處理非線性分類問題時,更加靈活高效。實踐中,由于技術人員過于追求訓練擬合效果,傾向于采取過度復雜和過度繁多的變量建模,導致過擬合現象嚴重,預測效果低于預期。
(3)挑戰三,交叉驗證機制流于形式。人工智能模型獲得良好學習能力的一個方法就是要建立正確合理的交叉驗證機制,對訓練數據和檢測數據進行動態調整,不斷增強模型的學習機會。然而,由于企業人員的技術能力參差不齊,對模型的理解和執行思路未能有效厘清,許多企業只是簡單將數據劃分為訓練和檢測兩類,對數據生成機制缺乏深入探索,導致模型訓練存在偏誤。
(4)挑戰四,缺乏行業標準。當前,人工智能模型似乎百花齊放、百家爭鳴,一派繁榮景象。然而,繁華之下亂象叢生。近年來人工智能在迅猛發展的同時,也存在行業泡沫,根源是缺乏行業指導和標準。[5]由于人工智能的進入門檻過低,評判標準不清,導致諸多人工智能應用被當作題材概念進行炒作,最終有損行業發展。
4 結論與對策建議
未來,人工智能必將成為未來互聯網金融風控的基石。然而,當前互聯網金融評分模型還存在模型錯用、過擬合現象普遍、泛化能力弱化、泛化誤差較大和技術人才稀缺等問題。克服現實挑戰:一是加強高校科研院所與互聯網金融行業的項目交流機制,引導產學研的深度結合,為人工智能在互聯網金融行業的發展提供人才保障;二是建立人工智能互聯網金融風控的峰會論壇交流機制,為現實問題尋求行業答案;三是以央行和銀監會等監管部門牽頭,發布風控行業的人工智能發展指引,頒布數據安全標準,建立基準模型,樹立行業規范標準。
參考文獻:
[1]蔡慧琴.互聯網金融的發展及人工智能的應用[J].現代商貿工業,2017(35):36-37.
[2]喬海曙,王鵬,謝姍珊.金融智能化發展:動因、挑戰與對策[J].南方金融,2017(6):3-9.
[3]謝水園.基于布朗運動歐拉離散化模擬的VaR在股票市場中的應用研究[J].特區經濟,2017(5):110-112.
[4]劉源.“一帶一路”沿線國家的金融監管架構——國際比較與經驗借鑒[J].沈陽工業大學學報:社會科學版,2017,10(3):210-220.
[5]劉源.互聯網金融對高校金融教育影響的SWOT分析[J].大學教育,2017(10):8-10.