【摘要】本文以中國西南地區(qū)個人小額信貸真實數(shù)據(jù)樣本為基礎(chǔ),通過建立申請信用評分模型,探討小貸公司風(fēng)控政策量化的可行性以及信用評分模型對中國中低收入人群的實用性。
【關(guān)鍵詞】小貸公司 信用評分 logistic回歸
引言
至2008年中國銀行業(yè)監(jiān)督管理委員會、中國人民銀行頒布《關(guān)于小額貸款公司試點的指導(dǎo)意見(銀監(jiān)發(fā)〔2008〕23號)》以來,國內(nèi)小貸公司迅速崛起,貸款余額逐年穩(wěn)步提升。小貸公司以服務(wù)廣大微小企業(yè)、中低收入人群為宗旨,已成為我國多層次金融體系中不可或缺的一環(huán)。
小額貸款業(yè)務(wù)金額小、筆數(shù)多,目前國內(nèi)機構(gòu)多采取“信貸工廠模式”進行運作,其特點是“人海戰(zhàn)術(shù)”、“大數(shù)定律”,即依靠大量銷售人員進行掃樓式營銷,又配比相應(yīng)風(fēng)控人員進行準(zhǔn)入審核,風(fēng)險控制主要特點是不斷擴大貸款余額,以減小逾期、不良率。此運營模式的癥結(jié)在于人力成本奇高,經(jīng)營效率相對低下,而風(fēng)控效果完全取決于風(fēng)控人員的個人經(jīng)驗,主觀性較大,缺乏對整個市場客群的全面判斷和對客戶的標(biāo)準(zhǔn)畫像,因此風(fēng)險常常處于不可控之中。2014年下半年以來,隨著國家宏觀經(jīng)濟調(diào)整,小微企業(yè)生存環(huán)境惡化,以之為主要客群的小貸公司經(jīng)營也舉步維艱,貸款余額增速明顯放緩,2015年3季度迎來拐點,貸款余額下降趨勢開始顯現(xiàn),如圖1所示。
與小貸行業(yè)的“瓶頸期”境遇不同,互聯(lián)網(wǎng)金融、消費金融公司等新興業(yè)態(tài)依靠大數(shù)據(jù)和先進的風(fēng)控技術(shù),采取“線上申請、自動審批、快速放款”運作模式,逆勢蓬勃發(fā)展,贏得了市場的認(rèn)可,其依賴的關(guān)鍵技術(shù)便是信用評分模型。信用評分模型運用現(xiàn)代數(shù)理統(tǒng)計技術(shù),通過對信貸客戶信用歷史記錄和業(yè)務(wù)活動記錄的深度數(shù)據(jù)挖掘、分析和提煉,發(fā)現(xiàn)蘊藏在紛繁復(fù)雜數(shù)據(jù)中,反映信貸申請者風(fēng)險特征和預(yù)期信貸表現(xiàn)的知識和規(guī)律,并通過評分的方式總結(jié)出來,作為管理決策的科學(xué)依據(jù)[1]。早期,國內(nèi)信用評分模型主要應(yīng)用于銀行信用卡領(lǐng)域,原因在于銀行信用卡用戶數(shù)量龐大、而金額相對較少,且銀行擁有完善的數(shù)據(jù)庫系統(tǒng)、標(biāo)準(zhǔn)化的數(shù)據(jù)結(jié)構(gòu)及字段,再加上銀行系都能接入央行征信系統(tǒng),模型的建立有著完備的物質(zhì)基礎(chǔ)。2010年前后,隨著一大批海歸金融從業(yè)者轉(zhuǎn)戰(zhàn)國內(nèi)普惠金融市場,信用評分模型應(yīng)用逐漸普及。以P2P為代表的互聯(lián)網(wǎng)金融有著天然的技術(shù)基因,隨著網(wǎng)絡(luò)技術(shù)的不斷升級,在客戶數(shù)據(jù)獲取方面優(yōu)勢明顯;消費金融公司多數(shù)有著銀行背景(如:北銀消費金融、中銀消費金融)或有著較強的產(chǎn)業(yè)背景(如:馬上消費金融,海爾消費金融),可借鑒的歷史客戶數(shù)據(jù)存量本就龐大,所以也有著評分模型建立的物質(zhì)基礎(chǔ)。反觀小貸,08年國家政策放開后,一度野蠻生長,卻忽略了技術(shù)與人才的沉淀,采取粗放式的運營模式,再加上客群質(zhì)量普遍較差,數(shù)據(jù)庫建設(shè)滯后,鮮有小貸公司建立信用評分模型,并加以應(yīng)用,因此在這方面國內(nèi)的研究處于空白狀態(tài)。本文以實證的方法,基于西南地區(qū)個人小額信貸真實數(shù)據(jù)樣本,借助R語言平臺,建立logistic回歸模型,并建立申請信用評分卡,以驗證小貸公司風(fēng)控政策量化的可行性以及信用評分模型對中國中低收入人群的實用性等問題。
二、數(shù)據(jù)獲取和清洗
數(shù)據(jù)樣本取重慶地區(qū)某小貸公司2015年9月~2017年3月的部分業(yè)務(wù)數(shù)據(jù),共計6581條;取審批通過的且有人行征信的,共計1804條。樣本選取時間是2017年4月,所有客戶表現(xiàn)期均在1月以上。由于獲取樣本數(shù)量的局限和方便數(shù)據(jù)處理等原因,特定義本模型的表現(xiàn)期為1月,壞客戶定義為:任何逾期客戶。
剔除掉缺省過多,或無法建模的字段,或不適用于申請信用評分建模字段,按需建立衍生類字段,建立數(shù)據(jù)集市字段如表1所列。
按照7:3的比例隨機選擇1263條樣本作為訓(xùn)練樣本,剩下540條樣本作為檢驗樣本。
三、模型學(xué)習(xí)
利用條件推斷樹函數(shù)smbinning對連續(xù)變量離散化處理并分箱,從決策樹的原理可知,“無法分箱”的變量無預(yù)測能力,因此刪除,分箱結(jié)果見表2。
對剩余變量進行woe轉(zhuǎn)換,轉(zhuǎn)化公式如下所示:
根據(jù)各變量的WOE值,發(fā)現(xiàn)有些WOE值出現(xiàn)無窮大,對變量不合理分箱進行臨近分段合并。
然后進行person相關(guān)性分析,計算公式如下所示:
找出中等以上相關(guān)(correlation≥0.3)變量,見表3。
算出各變量的信息值,計算公示后如公式(3)所示:
對相關(guān)性較強的變量,為避免多重共線性,去掉信息值較小的或大于0.5的變量,見表4。
從圖中可知,fend和estates的woe圖形不符合經(jīng)濟規(guī)律,或有一定虛假成分,在后續(xù)回歸中應(yīng)該去掉;eductation從5開始不符合經(jīng)濟規(guī)律,嘗試把5和4合并后,重新畫圖,如圖3所示,隨著學(xué)歷的升高,壞客戶概率相應(yīng)降低,符合經(jīng)濟規(guī)律。
建立logistic回歸模型,其中P為好客戶的概率,Xi為自變量,βi為回歸系數(shù),如下所示:
通過逐步回歸,排除了不顯著變量cddraw_cddebttoltal,最終得到如下回歸結(jié)果,其中sex(性別)、addr(住址)、incometype(收入發(fā)放形式)、cdcredit(信用卡總授信額度合計)、cdholdmob(信用卡最長持卡月數(shù))、cdexpnum12(信用卡近12月現(xiàn)1上次數(shù))、inquirynum6(近6個月累計查詢數(shù))在0.05水平以內(nèi)顯著,見表6。
Signif.codes:0‘***0.001‘**0.01‘*0.05‘.0.1‘
利用方差膨脹因子VIF檢查各參數(shù)的共線性,計算公式如下所示,其中Ri為復(fù)相關(guān)系數(shù):
經(jīng)檢驗,所有參數(shù)的方差膨脹因子均小于5,表明模型不存在多重共線性。
下面,進行評分卡刻度的設(shè)定,設(shè)優(yōu)比Odds{60:1}時的分值為600,PDO=20,算出B=28.85,A=481.86計算公式如下所示:endprint
用公式(7)進行評分卡的分值分配,其中Wij第i個變量第j個取值的證據(jù)權(quán)重;δij是二元變量,表示變量i是否取第j個值。
最終得到標(biāo)準(zhǔn)評分卡,見表7。
四、模型檢驗
(一)分?jǐn)?shù)分布
根據(jù)訓(xùn)練樣本及檢驗樣本的直方圖,發(fā)現(xiàn)波峰均向左偏移,表明客群質(zhì)量總體偏差,與現(xiàn)實情況相符合,見圖4。
(二)模型擬合
畫出訓(xùn)練樣本及檢驗樣本的擬合曲線,訓(xùn)練樣本和檢驗樣本曲線基本重合,隨著信用評分的升高,壞客戶占比逐漸走低,符合預(yù)期規(guī)律,見圖5。
(三)模型區(qū)分度
由訓(xùn)練樣本的區(qū)分圖可知,模型有一定區(qū)分能力;但檢驗樣本量過小,區(qū)分度不明顯,見圖6。
(四)K-S統(tǒng)計量
訓(xùn)練樣本K-S統(tǒng)計量為0.335,在0.3~0.5可接受范圍內(nèi),而檢驗樣本K-S統(tǒng)計量僅為0.237,低于可接受水平,見圖7。
(五)Gini系數(shù)
訓(xùn)練樣本Gini曲線明顯下凹,Gini系數(shù)為0.444,在0.4~0.6可接受范圍內(nèi),而檢驗樣本Gini曲線相較平緩,系數(shù)僅為0.296,低于可接受水平,見圖8。
五、結(jié)論
本文以實證的方法,基于中國西南地區(qū)個人小額信貸真實數(shù)據(jù)樣本,建立申請信用評分模型,以驗證小貸公司風(fēng)控政策量化的可行性以及信用評分模型對中國中低收入人群的實用性等問題。從模型的logistic回歸結(jié)果看,sex(性別)、addr(住址)、incometype(收入發(fā)放形式)、cdcredit(信用卡總授信額度合計)、cdholdmob(信用卡最長持卡月數(shù))、cdexpnum12(信用卡近12月現(xiàn)1上次數(shù))、inquirynum6(近6個月累計查詢數(shù))等7個變量在0.05水平以內(nèi)顯著,另4個變量在0.1水平內(nèi)顯著;從最終模型的檢驗效果看,模型分?jǐn)?shù)分布符合現(xiàn)實情況,模型表現(xiàn)符合經(jīng)濟規(guī)律,訓(xùn)練樣本各項驗證指標(biāo)均在可接受范圍內(nèi),模型具備一定的預(yù)測能力。
從實證的結(jié)果看,相比銀行、消費金融公司,雖然小貸公司客群整體質(zhì)量偏差,比如中國西南地區(qū)低收入人群,但信用評分技術(shù)仍然適用,仍能通過申請人個人歷史信息提煉出有價值的信息,對信貸的準(zhǔn)入決策提供量化依據(jù)。這為小貸公司的技術(shù)升級提供了可行性依據(jù)。實踐中,小貸公司可根據(jù)自身業(yè)務(wù)特點,統(tǒng)一數(shù)據(jù)庫字段結(jié)構(gòu),做好客戶數(shù)據(jù)的積累;另外,針對逾期客戶,應(yīng)根據(jù)自身風(fēng)險容忍度及催收表現(xiàn)制定“好”、“壞”的劃分標(biāo)準(zhǔn),以為后續(xù)信用評分模型的建立奠定物質(zhì)基礎(chǔ)。
當(dāng)然,本文研究中部分問題還有待進一步解決,如:由于檢驗樣本不足,導(dǎo)致檢驗樣本區(qū)分度不佳,K-S、Gini等各統(tǒng)計指標(biāo)低于理想水平,對模型的表現(xiàn)提出質(zhì)疑。筆者將在后續(xù)研究中,不斷積累樣本數(shù)據(jù),進行反復(fù)驗證,待樣本數(shù)據(jù)積累到一定程度后,重新建模進行驗證,以求得更可靠結(jié)果。
參考文獻
[1]陳建.信用評分模型技術(shù)與應(yīng)用[M].北京:中國財政經(jīng)濟出版社,2005.
[2]Mamdouh Refaat.信用風(fēng)險評分卡研究基于SAS的開發(fā)與實施[M].北京:社會科學(xué)文獻出版社,2013.
[3]王濟川,郭志剛.logistic回歸模型——方法與應(yīng)用[M].北京:高等教育出版社,2001.
[4]徐毅,陳麗萍主編.統(tǒng)計建模與R軟件[M].北京:清華大學(xué)出版社,2006.
作者簡介:陳亮(1983-),男,漢族,重慶渝中區(qū)人,畢業(yè)于重慶大學(xué)經(jīng)濟與工商管理學(xué)院,碩士,任職于重慶匯金小額貸款有限公司,金融研究員,研究方向:普惠金融。endprint