郭龍飛,嚴廣樂
(上海理工大學 管理學院,上海 200093)
銀行通常運用信用評分模型來決定是否接受一個客戶的信貸。一般采用基于客戶的經濟狀況、能力和條件的傳統的判斷方法,銀行會對信用卡申請客戶使用信用評分模型做分類。但是,隨著大數據技術的不斷發展,數據挖掘的新技術不斷出現。Python的第三方庫有更好的方法,同時支持一些新興的預測模型和分類技術,如隨機森林、邏輯斯特回歸等。此外,如果是一個好的信用評分模型,它就可以幫助管理者做出更合理的選擇。本文主要是提出一種用來解決現有模型不適應大規模的非結構化數據、缺失數據等問題的信用卡申請人分類的模型,然后比較兩種評分模型在信用卡申請人分類預測中的性能表現。
信用評分模型是一種有監督職能的學習模型(Supervised Learning),數據由一群自變量x和對應的因變量y構成。傳統零售信用模型中,x大致分為客戶的基本信息(年齡、性別、職業、學位等)、財務信息(收入、每月生活消費、每月信貸還款額等)、產品信息(LTV、信用卡類別、個人貸款用途等)、征信信息(前6個月被查詢次數、前6個信用卡最大利用率、未結清貸款數等),而一般取值0—1因變量y可以定義為在未來12個月是否出現欠款90天等。信用評分模型可以將信用卡申請人未來的行為進行一定程度的預測,使用數值形式表示出來,可以判斷申請人在接下來的某時間段內違約的幾率。
建立合適的信用評分模型。首先獲取申請人的個人信息和銀行提供的相關資料,接著對信息進行數據處理,選用合適的算法,建立信用評分模型,進行價差驗證,得出客戶的綜合信用評分,算出一個合格的標準,判定客戶是否通過申請。不同的指標數據類型不一致,有的用是、否,有的用離散的數值,有的用區間段。這里我們統一用1,2,3等離散的數值來預處理一下。
1.隨機森林模型
隨機森林是基于統計理論的數據挖掘技術,可以理解為是用隨機的方式建立森林,這個森林有著許多決策樹。得到森林后,輸入數據,用每一棵決策樹來判斷,看看這個樣本劃分到哪一類,接下來看看哪一類被選擇得最多,就預測樣本屬于哪一類。在建立模型的過程中,需要注意的是樹的分支。假定輸入了N個樣本,那么采樣也采N個樣本。這樣的話,訓練時每一棵決策樹的輸入樣本都不是全部的樣本,最終就不容易出現過擬合。最后來進行列采樣,我們從M個特征中選擇m個(m必定要遠小于M)。雖然每一棵決策樹都很弱,但是如果組合起來就很強大了。
2.邏輯回歸模型
邏輯回歸其實就是套用了一個邏輯函數的回歸。回歸就相當于一個函數y=f(x),表示的是自變量x和y的關系。可以通過歷史數據對未來世界將要發生的結果進行預測。
本文的主要研究目標在于探討信用卡申請者信用評分機制,使銀行能夠建立信用風險監控的防線。首先,從已有的很多的有關客戶背景、行為和信用的數據中,銀行能挖掘出“好客戶”和“壞客戶”的一些特征。其次,根據數據建立相應的信用評分模型。再次,分別用不同的分類方法對數據進行處理,得到結果,并進行分析對比,得出最佳的信用評分模型。
具體步驟是:(1)輸入數據。把缺失值清理掉,留下的數據作為輸入數據。(2)數據標識。原來的數據按照指標依次分成1,2,3,4等級。目標變量是客戶的狀態,把它設置成1,2來分別表示壞客戶和好客戶。(3)劃分原數據。把數據集劃分成兩部分,即訓練集和驗證集,訓練集用來訓練模型,后者用來驗證所建模型。(4)選擇數據挖掘方法。本文用隨機森林和邏輯回歸方法來預測。
在借鑒傳統評分指標選擇的基礎上,選擇的個人信用評分的指標要考慮我國的具體國情。具體指標如下:
第一,客戶信息。客戶信息指標記錄了申請客戶個人包括年齡、受教育情況、房產狀況的基本信息,為銀行了解客戶的還款能力和意愿提供了一定的依據。
第二,執業情況。客戶的收入水平可以由他的工作情況間接顯示,可以作為考察客戶信用水平的重要指標。
第三,經濟能力。客戶家庭成員收入狀況、住房位置情況、貸款與否和債務情況等,個人經濟狀況指標是反映貸款客戶還款能力最直接的指標。
第四,信用狀況。包括客戶之前其他信用貸款記錄情況,這個反映了客戶的信用道德水平。
這里選擇了一些傳統的指標作為特征變量,將各個特征變量按信用表現進行分組,且用1,2,3等數字表示。
現在評分模型中共有11個變量可以作為解釋變量。另外,模型的應變量可以表示為:Lebel=1好客戶/2壞客戶該模型用python語言實現,從銀行內部數據的資料中,選取了4522個數據進行模型訓練和檢驗,其中88.4%是“壞客戶”。選取期中3149個數據用于訓練模型,1373個數據用于檢驗模型。

表1
結果如表1。
根據以上數據做出混淆矩陣如表2。

表1

表2
其中,1代表好客戶,2代表壞客戶。1311是測試集里的好客戶的個數,61是壞客戶的個數。實際上是好客戶預測的也是好客戶是1188人;實際上是好客戶預測的是壞客戶是123人;實際上是壞客戶預測的是好客戶是28人;實際上是壞客戶預測的也是壞客戶是33人。
預測的準確率=(1188+33)/1373*100%=88.93%
將好客戶預測為壞客戶的概率=123/1373*100%=8.96%
將壞客戶預測為好客戶的概率=28/1373*100%=2.04%
同樣的用邏輯回歸來預測,用python程序建立logistic模型后得到的結果整理成混淆矩陣如表3。
預測的準確率=(1050+91)/1373*100%=83.10%

表3
好客戶預測為壞客戶概率=152/1373*100%=11.07%
壞客戶預測為好客戶概率=18/1373*100%=1.31%
由結果不難發現隨機森林預測結果相比后者的準確率是要高一點的。
從以上實驗可以看出,我們的模型在將好客戶判斷為壞的客戶來說,無論是訓練樣本還是測試樣本,隨機森林的預測精度都大于邏輯斯特回歸模型;在第二類誤判,即將壞客戶判斷為好客戶這一類,對于訓練樣本和測試樣本來說,邏輯斯特的預測精度要大于隨機森林回歸模型。考慮實際情況,第二類誤判就是將壞客戶判定為好客戶從而接受其貸款申請會給銀行造成的損失更大,這是極其不好的。然而縱觀全局,從整體來說,隨機森林的整體預測精度能達到88.93%,而邏輯回歸的整體預測精度僅能達到83.10%。
綜上所述,兩種方法都可用來作為判定的模型,其中邏輯斯特回歸目前在信用評價領域運用較為廣泛,而隨機森林算法是近幾年來隨著大數據技術的發展才有的比較成功的算法。從實驗結果中還可以看出,模型的穩健性是邏輯斯特回歸的優點,而缺點在于其預測精度不如隨機森林算法;對于后者,其模型的訓練效果和預測精度都很好。綜上所述,本文認為利用隨機森林算法建立信用評分模型是比較合適的方法。
在當今社會信息爆炸的環境下,合理利用科學的大數據技術構建合理的信用評價模型成為制約信貸行業發展的關鍵。信用評估是通過機器學習等技術建立信用評分模型,然后對信貸申請客戶的未來的行為進行預測,并根據客戶的各種特征變量將其劃分為“好客戶”和“壞客戶”。用這種方法做出的分類對于現如今的信貸的風險控制有著至關重要的作用,只要利用得當,對企業的發展會大有益處的。
[1]李卯.個人信用評分模型比較數據挖掘分析[J].時代金融,2017,(2):295-298.
[2]任瀟,姜明輝,車凱,王尚.個人信用評估組合模型選擇方案研究[J].哈爾濱工業大學學報,2016,(5):67-71.
[3]劉武成,談超洪.基于數據挖掘的信用卡信用評分模型[J].微型機與應用,2014,(9):73-76.
[4]蕭超武,蔡文學,黃曉宇,陳康.基于隨機森林的個人信用評估模型研究及實證分析[J].管理科學,2014,(6):111-113.
[5]張麗娜,趙敏.我國商業銀行個人信用評分指標體系分析[J].市場周刊(理論研究),2007,(8):115-117.
[6]馬海英.基于神經網絡及Logistic回歸的混合信用卡評分模型[J].華東理工大學學報:社會科學版,2008,(2).
[7]Left Not Easy.機器學習中的算法——決策樹模型組合之隨機森林與GBDT[J/OL].知識天地,2016-10-10.