蒲崢屹 李云飛/文
隨著經(jīng)濟(jì)快速發(fā)展,各種信用消費(fèi)浮出水面,銀行及各種小額貸平臺(tái)認(rèn)識(shí)到信用評(píng)分的作用及重要性,越來(lái)越多的統(tǒng)計(jì)學(xué)方法運(yùn)用到信用評(píng)分領(lǐng)域。1941年Durand最早將判別分析用于信用評(píng)分系統(tǒng),William Fair and Earl Isaacs在1958年運(yùn)用判別分析法建立了信用評(píng)分系統(tǒng),Myers and Forgy在1963年運(yùn)用判別分析和回歸分析對(duì)消費(fèi)者零售信用申請(qǐng)表的數(shù)據(jù)進(jìn)行信用風(fēng)險(xiǎn)預(yù)測(cè),判別分析法在金融界和學(xué)術(shù)界都得到了廣泛的運(yùn)用。1970年Orgler將線性回歸分析用于信用評(píng)分系統(tǒng),但是線性回歸應(yīng)用于信用評(píng)分系統(tǒng)存在明顯缺陷,而Logistic回歸模型克服了線性回歸模型的缺陷,Logistic回歸模型成為信用評(píng)分系統(tǒng)常用模型。1994年Rosenberg and Geit在防范信用欺詐及公司信用決策等領(lǐng)域運(yùn)用神經(jīng)網(wǎng)絡(luò)進(jìn)行討論,Davis對(duì)神經(jīng)網(wǎng)絡(luò)及其他方法進(jìn)行比較,認(rèn)為神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本時(shí)間較長(zhǎng),錯(cuò)判比例較高。2012年杜婷采用粗糙集的方法對(duì)影響信用評(píng)分的指標(biāo)進(jìn)行變量選擇,20個(gè)指標(biāo)約簡(jiǎn)了三分之二以上,再運(yùn)用支持向量機(jī)建立模型,提升了建模精度,縮減了建模時(shí)間。2014年Oreski運(yùn)用神經(jīng)網(wǎng)絡(luò)與混合遺傳算法相結(jié)合,提高了建模精度,2015年Koutanaei將屬性選擇算法與集成算法相結(jié)合,混合模型得以廣泛運(yùn)用。
本文為了提高模型預(yù)測(cè)能力,引入網(wǎng)格式搜索法(GS)優(yōu)化模型建立過(guò)程中的兩個(gè)重要參數(shù),同時(shí)采用5倍交叉驗(yàn)證法以訓(xùn)練集最小均方根誤差為適應(yīng)度函數(shù)來(lái)進(jìn)行參數(shù)尋優(yōu),從而提高模型預(yù)測(cè)能力,進(jìn)而通過(guò)優(yōu)化后的支持向量機(jī)構(gòu)建個(gè)人信用評(píng)分模型。
支持向量機(jī)(Support Vector Machine,SVM)是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小原理和統(tǒng)計(jì)學(xué)VC理論(Vapnik-Chervonenkis Theory)的一種學(xué)習(xí)方法。它的主要思想是建立一個(gè)分類(lèi)決策面。SVM利用核函數(shù)將數(shù)據(jù)映射到高維空間,使其盡可能地線性可分。常用的核函數(shù)包括線性核函數(shù)、多項(xiàng)式核、徑向基核(RBF)、傅立葉核、樣條核和Sigmoid核函數(shù)等。由于RBF核函數(shù)無(wú)論樣本數(shù)據(jù)特點(diǎn)是高維還是低維,數(shù)據(jù)量大還是小,都展現(xiàn)了很好的分類(lèi)性能,因此,選擇RBF作為SVM的分類(lèi)核函數(shù)。
SVM數(shù)據(jù)處理過(guò)程如下:
設(shè)感官特征數(shù)據(jù)為N維,共L組數(shù)據(jù),即(x1,y1),L,(xl,yl)∈Rn。
決策面可表示為

(x)—非線性映射函數(shù)
b—閾值
為了最小化結(jié)構(gòu)風(fēng)險(xiǎn),最優(yōu)分類(lèi)超平面應(yīng)滿足以下條件

引入非負(fù)松弛變量ξi,這樣分類(lèi)誤差就在一個(gè)規(guī)定的范圍內(nèi)。因此,優(yōu)化問(wèn)題就被轉(zhuǎn)變?yōu)?/p>

式中c—懲罰因子,控制模型的復(fù)雜程度和泛化能力
引入拉格朗日算法,優(yōu)化問(wèn)題被轉(zhuǎn)換為對(duì)偶形式

其中

式中g(shù)—核函數(shù)參數(shù),控制輸入空間的范圍
上述優(yōu)化問(wèn)題轉(zhuǎn)變?yōu)?/p>

可以看出,優(yōu)化問(wèn)題取決于兩個(gè)重要參數(shù)c和g,這兩個(gè)參數(shù)會(huì)影響SVM的預(yù)測(cè)性能。
網(wǎng)絡(luò)搜索法(Grid Search,GS)也稱為“窮舉法”,沒(méi)有特定的函數(shù)公式與之對(duì)應(yīng),其基本原理是通過(guò)設(shè)定參數(shù)的取值范圍,將參數(shù)的可行區(qū)間按照一定步長(zhǎng)劃分成網(wǎng)格,對(duì)每個(gè)網(wǎng)格進(jìn)行搜索,使參數(shù)在一定范圍內(nèi)取值。目標(biāo)函數(shù)值在交叉點(diǎn)處,按某種規(guī)則搜索全部的交叉點(diǎn),找出代表最優(yōu)目標(biāo)函數(shù)的各個(gè)交叉點(diǎn),該交叉點(diǎn)代表的各個(gè)參數(shù)即為最佳參數(shù)。SVM預(yù)測(cè)問(wèn)題取決于平衡參數(shù)c和核函數(shù)參數(shù)g,這兩個(gè)參數(shù)對(duì)SVM的預(yù)測(cè)能力和學(xué)習(xí)效率起決定性作用。為了提高模型的預(yù)測(cè)性能,引入網(wǎng)格式搜索法(GS)優(yōu)化模型建立過(guò)程中的兩個(gè)重要參數(shù)。同時(shí)避免模型過(guò)學(xué)習(xí)和欠學(xué)習(xí)的現(xiàn)象發(fā)生,采用5倍交叉驗(yàn)證法以訓(xùn)練集最小均方根誤差為適應(yīng)度函數(shù)來(lái)進(jìn)行參數(shù)尋優(yōu)。當(dāng)達(dá)到最小均方根誤差時(shí),所得到的c和g為最佳參數(shù)。GS中,以0.5為間隔進(jìn)行全局搜索,c和g的范圍均是(2-10,210)
改進(jìn)的網(wǎng)格搜索算法,即采用大步長(zhǎng)粗搜,小步長(zhǎng)精搜的思路尋找所有可能的參數(shù)組合,確定最優(yōu)化的SVM參數(shù),模型建立流程圖(見(jiàn)圖1)。
傳統(tǒng)的商業(yè)銀行要求借款人提供有效個(gè)人資料、當(dāng)?shù)貞艨诨蛴行矸葑C明材料、借款人貸款償還能力的證明材料、收入證明、借款人納稅單、保險(xiǎn)單、信用卡透支及付款情況等,評(píng)估指標(biāo)繁多。而網(wǎng)絡(luò)貸款,提供的資料相對(duì)簡(jiǎn)單,一般包括個(gè)人身份信息、個(gè)人資產(chǎn)狀況、年齡、學(xué)歷等基本情況,在確定基本情況后,核對(duì)相符,貸款平臺(tái)進(jìn)行放款。本文針對(duì)各較大網(wǎng)貸平臺(tái)進(jìn)行一定的研究,根據(jù)網(wǎng)貸平臺(tái)的特點(diǎn)和構(gòu)建指標(biāo)體系的規(guī)則,選取年齡、婚姻狀況、文化學(xué)歷、工作年限、工作單位性質(zhì)、收入情況、住房狀況、歷史信用等級(jí)8個(gè)具有代表性的指標(biāo)構(gòu)建評(píng)估指標(biāo)體系。

圖1 個(gè)人信用等級(jí)評(píng)分的GS-SVM流程圖
由于選取的指標(biāo)分為定性和定量?jī)煞N,為了防止各個(gè)指標(biāo)在輸入評(píng)估模型時(shí)具有不必要的差異,需要對(duì)所選擇的指標(biāo)進(jìn)行量化使其具有可比性,因此本文選取的指標(biāo)及量化標(biāo)準(zhǔn)均參考招商銀行的信用評(píng)估指標(biāo)體系并結(jié)合了國(guó)內(nèi)的實(shí)際情況對(duì)個(gè)人信用評(píng)估進(jìn)行了標(biāo)準(zhǔn)設(shè)計(jì)(見(jiàn)表1)。
本文從人人貸、拍拍貸等四家國(guó)內(nèi)具有代表性的網(wǎng)貸平臺(tái)所產(chǎn)生的交易數(shù)據(jù)中抽取了104組借款人交易數(shù)據(jù)作為本文樣本,然后抽取24組交易數(shù)據(jù)作為參照組,用來(lái)對(duì)該模型最終的結(jié)果進(jìn)行對(duì)驗(yàn)證。

表1 P2P網(wǎng)貸借款人信用指標(biāo)量化
采用網(wǎng)格搜索方法確定SVM的參數(shù)c和g,c和g的范圍均是(2-10,210),參數(shù)尋優(yōu)結(jié)果如圖2所示。

圖2 SVM參數(shù)選擇結(jié)果圖
最終確定參數(shù)最優(yōu)值為c=4,g=0.047366。
利用建立的個(gè)人信用等級(jí)評(píng)分GM-SVM模型對(duì)24個(gè)學(xué)習(xí)樣本進(jìn)行回歸檢驗(yàn)(見(jiàn)圖3),可以看出,回歸曲線與實(shí)際曲線基本吻合。
訓(xùn)練和擬合完成后,對(duì)經(jīng)過(guò)訓(xùn)練生成的SVM模型進(jìn)行預(yù)測(cè)結(jié)果的驗(yàn)證,預(yù)測(cè)人員信息如表2所示。

圖3 SVM預(yù)測(cè)輸出圖
從GM-SVM模型對(duì)24位借款者的信用等級(jí)預(yù)測(cè)可以得出,僅有第 83、85、86、94、103 五位測(cè)試者有極小偏差,其余均滿足我們預(yù)測(cè)準(zhǔn)則,該模型的預(yù)測(cè)輸出和實(shí)際結(jié)果基本一致。通過(guò)前80組信用信息進(jìn)行模擬學(xué)習(xí),選擇RBF作為SVM的分類(lèi)核函數(shù),引入網(wǎng)格式搜索法確定最優(yōu)參數(shù),使SVM模型具備了對(duì)網(wǎng)貸借款人信用等級(jí)的測(cè)評(píng)能力。從測(cè)試結(jié)果可以看出:81、82、83、84、85、86、87、88、89、90、91、93、94、97、98、99、100、102、103這19名客戶信用評(píng)分高,可直接通過(guò)貸款;92、95這2名客戶信用評(píng)分中等,可考慮給其貸款;96、101、104這3名客戶信用評(píng)分低,可不通過(guò)貸款。

表2 測(cè)試結(jié)果
本文通過(guò)網(wǎng)格搜索(GS)對(duì)個(gè)人信用評(píng)分SVM回歸分析模型進(jìn)行參數(shù)優(yōu)化選擇,提高了模型預(yù)測(cè)性能,同時(shí)采用5倍交叉驗(yàn)證法以訓(xùn)練集最小均方根誤差為適應(yīng)度函數(shù)來(lái)進(jìn)行參數(shù)尋優(yōu),構(gòu)建一種可行的個(gè)人信用評(píng)分模型,可以實(shí)現(xiàn)對(duì)個(gè)人信用評(píng)分的預(yù)測(cè),降低客戶違約風(fēng)險(xiǎn),具有實(shí)際運(yùn)用價(jià)值。