【摘要】本文以中國西南地區個人小額信貸真實數據樣本為基礎,通過建立申請信用評分模型,探討小貸公司風控政策量化的可行性以及信用評分模型對中國中低收入人群的實用性。
【關鍵詞】小貸公司 信用評分 logistic回歸
引言
至2008年中國銀行業監督管理委員會、中國人民銀行頒布《關于小額貸款公司試點的指導意見(銀監發〔2008〕23號)》以來,國內小貸公司迅速崛起,貸款余額逐年穩步提升。小貸公司以服務廣大微小企業、中低收入人群為宗旨,已成為我國多層次金融體系中不可或缺的一環。
小額貸款業務金額小、筆數多,目前國內機構多采取“信貸工廠模式”進行運作,其特點是“人海戰術”、“大數定律”,即依靠大量銷售人員進行掃樓式營銷,又配比相應風控人員進行準入審核,風險控制主要特點是不斷擴大貸款余額,以減小逾期、不良率。此運營模式的癥結在于人力成本奇高,經營效率相對低下,而風控效果完全取決于風控人員的個人經驗,主觀性較大,缺乏對整個市場客群的全面判斷和對客戶的標準畫像,因此風險常常處于不可控之中。2014年下半年以來,隨著國家宏觀經濟調整,小微企業生存環境惡化,以之為主要客群的小貸公司經營也舉步維艱,貸款余額增速明顯放緩,2015年3季度迎來拐點,貸款余額下降趨勢開始顯現,如圖1所示。
與小貸行業的“瓶頸期”境遇不同,互聯網金融、消費金融公司等新興業態依靠大數據和先進的風控技術,采取“線上申請、自動審批、快速放款”運作模式,逆勢蓬勃發展,贏得了市場的認可,其依賴的關鍵技術便是信用評分模型。信用評分模型運用現代數理統計技術,通過對信貸客戶信用歷史記錄和業務活動記錄的深度數據挖掘、分析和提煉,發現蘊藏在紛繁復雜數據中,反映信貸申請者風險特征和預期信貸表現的知識和規律,并通過評分的方式總結出來,作為管理決策的科學依據[1]。早期,國內信用評分模型主要應用于銀行信用卡領域,原因在于銀行信用卡用戶數量龐大、而金額相對較少,且銀行擁有完善的數據庫系統、標準化的數據結構及字段,再加上銀行系都能接入央行征信系統,模型的建立有著完備的物質基礎。2010年前后,隨著一大批海歸金融從業者轉戰國內普惠金融市場,信用評分模型應用逐漸普及。以P2P為代表的互聯網金融有著天然的技術基因,隨著網絡技術的不斷升級,在客戶數據獲取方面優勢明顯;消費金融公司多數有著銀行背景(如:北銀消費金融、中銀消費金融)或有著較強的產業背景(如:馬上消費金融,海爾消費金融),可借鑒的歷史客戶數據存量本就龐大,所以也有著評分模型建立的物質基礎。反觀小貸,08年國家政策放開后,一度野蠻生長,卻忽略了技術與人才的沉淀,采取粗放式的運營模式,再加上客群質量普遍較差,數據庫建設滯后,鮮有小貸公司建立信用評分模型,并加以應用,因此在這方面國內的研究處于空白狀態。本文以實證的方法,基于西南地區個人小額信貸真實數據樣本,借助R語言平臺,建立logistic回歸模型,并建立申請信用評分卡,以驗證小貸公司風控政策量化的可行性以及信用評分模型對中國中低收入人群的實用性等問題。
二、數據獲取和清洗
數據樣本取重慶地區某小貸公司2015年9月~2017年3月的部分業務數據,共計6581條;取審批通過的且有人行征信的,共計1804條。樣本選取時間是2017年4月,所有客戶表現期均在1月以上。由于獲取樣本數量的局限和方便數據處理等原因,特定義本模型的表現期為1月,壞客戶定義為:任何逾期客戶。
剔除掉缺省過多,或無法建模的字段,或不適用于申請信用評分建模字段,按需建立衍生類字段,建立數據集市字段如表1所列。
按照7:3的比例隨機選擇1263條樣本作為訓練樣本,剩下540條樣本作為檢驗樣本。
三、模型學習
利用條件推斷樹函數smbinning對連續變量離散化處理并分箱,從決策樹的原理可知,“無法分箱”的變量無預測能力,因此刪除,分箱結果見表2。
對剩余變量進行woe轉換,轉化公式如下所示:
根據各變量的WOE值,發現有些WOE值出現無窮大,對變量不合理分箱進行臨近分段合并。
然后進行person相關性分析,計算公式如下所示:
找出中等以上相關(correlation≥0.3)變量,見表3。
算出各變量的信息值,計算公示后如公式(3)所示:
對相關性較強的變量,為避免多重共線性,去掉信息值較小的或大于0.5的變量,見表4。
從圖中可知,fend和estates的woe圖形不符合經濟規律,或有一定虛假成分,在后續回歸中應該去掉;eductation從5開始不符合經濟規律,嘗試把5和4合并后,重新畫圖,如圖3所示,隨著學歷的升高,壞客戶概率相應降低,符合經濟規律。
建立logistic回歸模型,其中P為好客戶的概率,Xi為自變量,βi為回歸系數,如下所示:
通過逐步回歸,排除了不顯著變量cddraw_cddebttoltal,最終得到如下回歸結果,其中sex(性別)、addr(住址)、incometype(收入發放形式)、cdcredit(信用卡總授信額度合計)、cdholdmob(信用卡最長持卡月數)、cdexpnum12(信用卡近12月現1上次數)、inquirynum6(近6個月累計查詢數)在0.05水平以內顯著,見表6。
Signif.codes:0‘***0.001‘**0.01‘*0.05‘.0.1‘
利用方差膨脹因子VIF檢查各參數的共線性,計算公式如下所示,其中Ri為復相關系數:
經檢驗,所有參數的方差膨脹因子均小于5,表明模型不存在多重共線性。
下面,進行評分卡刻度的設定,設優比Odds{60:1}時的分值為600,PDO=20,算出B=28.85,A=481.86計算公式如下所示:endprint
用公式(7)進行評分卡的分值分配,其中Wij第i個變量第j個取值的證據權重;δij是二元變量,表示變量i是否取第j個值。
最終得到標準評分卡,見表7。
四、模型檢驗
(一)分數分布
根據訓練樣本及檢驗樣本的直方圖,發現波峰均向左偏移,表明客群質量總體偏差,與現實情況相符合,見圖4。
(二)模型擬合
畫出訓練樣本及檢驗樣本的擬合曲線,訓練樣本和檢驗樣本曲線基本重合,隨著信用評分的升高,壞客戶占比逐漸走低,符合預期規律,見圖5。
(三)模型區分度
由訓練樣本的區分圖可知,模型有一定區分能力;但檢驗樣本量過小,區分度不明顯,見圖6。
(四)K-S統計量
訓練樣本K-S統計量為0.335,在0.3~0.5可接受范圍內,而檢驗樣本K-S統計量僅為0.237,低于可接受水平,見圖7。
(五)Gini系數
訓練樣本Gini曲線明顯下凹,Gini系數為0.444,在0.4~0.6可接受范圍內,而檢驗樣本Gini曲線相較平緩,系數僅為0.296,低于可接受水平,見圖8。
五、結論
本文以實證的方法,基于中國西南地區個人小額信貸真實數據樣本,建立申請信用評分模型,以驗證小貸公司風控政策量化的可行性以及信用評分模型對中國中低收入人群的實用性等問題。從模型的logistic回歸結果看,sex(性別)、addr(住址)、incometype(收入發放形式)、cdcredit(信用卡總授信額度合計)、cdholdmob(信用卡最長持卡月數)、cdexpnum12(信用卡近12月現1上次數)、inquirynum6(近6個月累計查詢數)等7個變量在0.05水平以內顯著,另4個變量在0.1水平內顯著;從最終模型的檢驗效果看,模型分數分布符合現實情況,模型表現符合經濟規律,訓練樣本各項驗證指標均在可接受范圍內,模型具備一定的預測能力。
從實證的結果看,相比銀行、消費金融公司,雖然小貸公司客群整體質量偏差,比如中國西南地區低收入人群,但信用評分技術仍然適用,仍能通過申請人個人歷史信息提煉出有價值的信息,對信貸的準入決策提供量化依據。這為小貸公司的技術升級提供了可行性依據。實踐中,小貸公司可根據自身業務特點,統一數據庫字段結構,做好客戶數據的積累;另外,針對逾期客戶,應根據自身風險容忍度及催收表現制定“好”、“壞”的劃分標準,以為后續信用評分模型的建立奠定物質基礎。
當然,本文研究中部分問題還有待進一步解決,如:由于檢驗樣本不足,導致檢驗樣本區分度不佳,K-S、Gini等各統計指標低于理想水平,對模型的表現提出質疑。筆者將在后續研究中,不斷積累樣本數據,進行反復驗證,待樣本數據積累到一定程度后,重新建模進行驗證,以求得更可靠結果。
參考文獻
[1]陳建.信用評分模型技術與應用[M].北京:中國財政經濟出版社,2005.
[2]Mamdouh Refaat.信用風險評分卡研究基于SAS的開發與實施[M].北京:社會科學文獻出版社,2013.
[3]王濟川,郭志剛.logistic回歸模型——方法與應用[M].北京:高等教育出版社,2001.
[4]徐毅,陳麗萍主編.統計建模與R軟件[M].北京:清華大學出版社,2006.
作者簡介:陳亮(1983-),男,漢族,重慶渝中區人,畢業于重慶大學經濟與工商管理學院,碩士,任職于重慶匯金小額貸款有限公司,金融研究員,研究方向:普惠金融。endprint