林翠波,李偉強
(廣西師范大學數學與統計學院,廣西桂林 541006)
近年來,隨著互聯網的發展,互聯網金融的個人消費信貸的領域得到快速發展,這不僅給金融機構帶來利益,同時也增加了貸款風險。因此,如何根據用戶的信息進行分析,為金融機構提供決策和建議,更加有效地應對風險,是非常具有價值的。但是,目前征信采集對象占總人口比重較小,且數據難以共享,引發了一系列的問題,只有成立百行征信才能更好解決。據統計,我國個人消費信貸的增長率每年高達20%,預估2019年個人消費信貸規模將突破41.1萬億元[1]。同時,金融機構面臨的個人信用風險將隨之增加,信用評分模型顯得更重要。
國內對征信的研究很多,陳純等人基于螞蟻花唄消費信貸產品對大學生進行調查,為提高大學生風險防范等提供建議[2]。王夢佳基于Logistic回歸對P2P網貸平臺借款人信用的風險進行評估[3]。本文計劃用Logistic回歸模型嘗試對互聯網征信的影響因素進行分析。
Logistic回歸函數應限制在[0,1]區間,所以要進行變換。Logistic分布函數:行邏輯變換得到模型
本文所使用的數據為用戶征信相關的數據,共1000條記錄。數據一共包含9個變量。其中,因變量為“是否按期還款”,且0表示“違約”,1表示“未違約”,其余的均為自變量,為了初步探究自變量對因變量的影響,下面對自變量進行分析:
基本信息包括性別、婚姻情況和生育情況。其中,女性違約占比31.8%,男性違約占比34.8%,性別對是否違約無顯著影響;已婚用戶違約率29.2%較低,而未婚用戶37.4%較高;已育用戶違約率29.5%較低,而未育用戶36.9%較高。
學習能力包括教育水平和英語水平。其中,教育水平劃分為“高中及以下”“大專或本科”“碩士研究生”“博士研究生及以上”,其違約率分別為39.6%、39.4%、28.8%、15.2%,顯然學歷高的違約率最低,而學歷低的違約率最高,這與我們的推測一致;英語等級劃分為“四級以下”“四級”“六級”“六級以上”,其違約率分別為43.3%、37.4%、27.2%、21.1%,英語等級較高的違約率較低,等級低的違約率較高。總之,學習能力對客戶違約率的影響較為顯著。
其他方面有社交人脈、收入水平和消費理念。其中,社交人脈用微博好友數度量,均值較高的違約率也高,而均值較低的違約率也低。未違約的用戶收入均值為24309.27較高,相比之下,違約用戶的收入均值為16019.68較低。可見,收入水平對客戶的違約率有顯著的影響,收入水平越高,違約率越低;消費理念=信用卡消費/總消費,消費理念整體呈右偏分布,大多數用戶的消費理念在0.125左右,當客戶越傾向于超前負債消費時指標值越高,違約群體的消費理念指標值明顯高于履約群體。
3.2.1 回歸結果
本文以“是否按期還款”作為因變量,其他變量作為自變量,建立logistic回歸模型。首先對模型進行顯著性檢驗,結果顯示,Pr(>Chi)值為2.2e-16,即該模型在,0.00的顯著性水平下高度顯著,而且擬合程度較好。然后,建立AIC、BIC回歸模型,如表3-1所示。

表3-1 AIC回歸模型和BIC回歸模型結果
由表3-1知:在α=0.05下,AIC模型保留8個變量,而BIC模型只保留5個變量。AIC模型和BIC模型在變量選擇和回歸系數的估計上都存在差異,該保留哪一個模型?下面分析。
3.2.2 模型選擇
為比較全模型,AIC模型和BIC模型,分別繪制其ROC曲線。

圖3-1 三個模型的ROC曲線
如圖3-1所示,全模型和AIC模型的ROC曲線很接近,而BIC模型的ROC曲線靠下。綜合考慮后,選擇AIC模型。
3.2.3 模型解讀
由表3-1知,在固定其它量,α=0.05下對模型解讀:
(1)收入、女性、已婚、已育的回歸系數為正,表明這些用戶按期還款率大;
(2)微博好友數、消費理念的回歸系數為負,表明這些用戶的相應指標越大按期還款率越小;
(3)用戶按期還款率隨著學歷、英語水平遞增而遞增。
3.2.4 模型預測與精度評價
使用0-1回歸模型可以預測違約率,進而判斷是否會違約。當預測概率大于等于最佳閾值時,預測為違約,小于最佳閾值時,預測為未違約。對于不同的閾值,預測的準確率也不同,因此需要選取一個最佳的閾值。

圖3-2 AIC模型的ROC曲線及最佳閾值
圖3-2給出了AIC模型的ROC曲線及最佳閾值,其橫縱軸分別為特異度和靈敏度。同時我們得到的AUC取值為0.679,即最佳的閾值為0.679。
圖3-3為全部樣本預測的按期還款率,據預測值將用戶分為5個等級,計算每一級用戶的平均按期還款率,第一列為前20%的用戶預測為88%,其余以此類推。

圖3-3 不同客戶的實際還款概率
本文對征信數據進行分析,得到以下結論:
用戶的基本信息、收入水平、學歷、社交人脈和消費理念這5個方面都會對是否按期還款有顯著的影響。金融機構可以通過分析客戶的這些指標值將客戶進行分類,進而考慮是否為其提供借貸服務。為了進一步分析客戶履約的影響因素,還可以加入更多指標。比如用戶的職業、固定資產等。