陳為民,趙艷秋
(湖南科技大學商學院,湖南 湘潭 411100)
機器學習常被應用于評估P2P領(lǐng)域內(nèi)的借款人信用風險,信用風險評估(也稱貸款違約預測)是利用不同的特征解釋和預測借款人未按要求償還貸款的過程,最終目的是為了幫助投資人做出決策以及借款人的信用得到合理的評估。通過閱讀P2P信用風險評估領(lǐng)域的文獻,我們可以發(fā)現(xiàn),越來越多的研究使用信用風險評估模型來評估違約風險,并不斷提出精確度更為優(yōu)秀的評估模型,從傳統(tǒng)的統(tǒng)計模型,發(fā)展到如火如荼的機器學習模型,以及近年來備受推崇的組合模型,但可以發(fā)現(xiàn)除模型準確度之外,可解釋性也應被人們所重視。
雖然現(xiàn)有研究者們提出了一個又一個準確度極高的評估模型,但不排除最后得到的結(jié)果只是一堆“看上去”毫無意義的模型參數(shù)和高的準確度。而我們需要得到的不僅僅是準確的結(jié)果,我們也需要了解我們從數(shù)據(jù)或特征中學到了哪些知識,從而導致我們產(chǎn)生了最終的決策,這也是為什么在機器學習構(gòu)建的模型準確率很高的情況下,統(tǒng)計模型依舊備受推崇的原因之一。如果一個模型完全不可解釋,那么在很多領(lǐng)域的應用就會因為沒辦法給出更多可靠的信息而受到限制。
本文的可能貢獻在于,基于真實的人人貸數(shù)據(jù),在保證信用評估準確性的同時,利用LIME算法對借款人信用風險評估結(jié)果進行解釋,希望可以為P2P領(lǐng)域內(nèi)的信貸決策助力。具體來說,人人貸數(shù)據(jù)常被用于P2P領(lǐng)域的信用風險研究,但是以往文獻的研究重點并非在可解釋性的研究;機器學習中的樹模型和邏輯回歸被用于信用風險的評估;而在模型的結(jié)果解釋方面,選用了LIME算法,該算法從局部解釋的角度出發(fā),對某個特定觀測值的類別分類結(jié)果進行解釋,并說明某個變量對于預測結(jié)果的貢獻程度。
本文剩余部分結(jié)構(gòu)為:第二部分是信用風險評估領(lǐng)域可解釋性相關(guān)的研究。通過對相關(guān)研究的梳理,為研究方法和模型的選擇提供了依據(jù);第三部分是實證,包括對借款人信用風險的評估以及基于LIME算法的評估結(jié)果解釋;第五部分是結(jié)論。
現(xiàn)有的P2P信用風險評估多用特征重要性評分或者模型系數(shù)大小對評估結(jié)果進行解釋,比如邏輯回歸模型的系數(shù)大小;決策樹模型、XGBoost以及性能更加優(yōu)化的LightGBM模型,但這并滿足可解釋性的目標。
指出模型的可解釋性可以從三方面來體現(xiàn):全局和局部可解釋性、時間限制以及不同受眾的專業(yè)知識差異。具體到P2P信用風險評估領(lǐng)域,全局可解釋性是指解釋“黑箱”模型背后的整個邏輯,而局部可解釋性是指解釋預測結(jié)果的原因,即只需要解釋特定選擇的原因;在時間限制方面,和短的決策時間相比,決策者更需要復雜和詳盡的解釋;關(guān)于不同受眾的專業(yè)知識差異,對于信貸領(lǐng)域的研究者來講,他們會更加傾向于復雜的模型,而對于相關(guān)背景知識和經(jīng)驗較少的投資者而言,透明度高的模型會更具有可解釋性。
Interpretable Model-agnostic Explanations(LIME)是通過一個可解釋的模型g在被解釋分類的數(shù)據(jù)點x處近似擬合模型進而解釋分類器f的預測一種算法,具體來說,為了做到與模型無關(guān),LIME不會深入模型內(nèi)部;為了搞清楚哪一部分輸入對預測結(jié)果產(chǎn)生貢獻,在被解釋數(shù)據(jù)點x周圍進行隨機擾動,觀察模型的預測行為,然后根據(jù)這些擾動的數(shù)據(jù)點z距離被解釋分類點x的距離分配權(quán)重,基于上述學習得到一個可解釋的模型和預測結(jié)果。
人人貸是目前我國P2P網(wǎng)貸行業(yè)影響力較大的網(wǎng)貸平臺之一,其在合法合規(guī)以及運營等方面都是P2P行業(yè)的典范,同時平臺也積累了大量真實有效的交易數(shù)據(jù),因此,本文選取人人貸平臺的實際交易數(shù)據(jù)作為研究樣本。
我們通過邏輯回歸模型以及以樹模型為代表的機器學習模型(決策樹以及LightGBM)對樣本進行建模,由表1可知集成樹模型LightGBM的表現(xiàn)要優(yōu)于其余兩個模型。

表1 各模型精度比較Tab.1 Comparison of accuracy of each model
由表1可知集成模型LightGBM在四種評價指標中的表現(xiàn)都是最優(yōu)的,故接下來我們將針對LightGBM模型的結(jié)果進行進一步解釋。
3.3.1 LightGBM的特征重要性
一般情況下LightGBM結(jié)果的可解釋性體現(xiàn)在該模型自帶的特征重要性,結(jié)果如下:

表2 LightGBM特征重要性結(jié)果Tab.2 Lightgbm feature importance results
3.3.2 基于LIME算法的結(jié)果討論
LIME在測試數(shù)據(jù)集中選擇特定樣本,以獲得每個類的概率值并對分配概率的原因進行說明。

圖1 Lime結(jié)果Fig.1 Lime results
圖1是樣本的預測結(jié)果,可以看出哪些特征決定樣本被分類到類別0(藍色),哪些特征決定樣本被分類到類別1(橙色),且具體列出樣本在這些特征的數(shù)值大小,具體來說,LightGBM中ProjectStatus和SuccessfulNum是影響借款人違約的重要因素。
為了增加信用評估的可解釋性,本文首先選擇在建模前對相關(guān)變量進行數(shù)據(jù)探索性分析,找到可能會對借款人是否違約產(chǎn)生關(guān)鍵性作用的變量;接著選擇具備特征重要性評分的樹模型(決策樹和LightGBM)以及以模型系數(shù)指代特征重要性的邏輯回歸模型對數(shù)據(jù)進行建模,發(fā)現(xiàn)LightGBM的綜合表現(xiàn)最優(yōu);最后基于LIME算法對LightGBM模型的結(jié)果進行說明,得出結(jié)論:在結(jié)構(gòu)化的因素中,除財務(wù)因素外,借款人之前的借款成功次數(shù)也會對借款人是否會違約產(chǎn)生關(guān)鍵性影響。