999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Logistic回歸的個(gè)人消費(fèi)貸款預(yù)測(cè)

2017-11-22 07:28:17李哲瑜簡(jiǎn)宋全李青海
現(xiàn)代計(jì)算機(jī) 2017年29期
關(guān)鍵詞:模型

李哲瑜,簡(jiǎn)宋全,李青海

(廣東精點(diǎn)數(shù)據(jù)科技股份有限公司,廣州510630)

基于Logistic回歸的個(gè)人消費(fèi)貸款預(yù)測(cè)

李哲瑜,簡(jiǎn)宋全,李青海

(廣東精點(diǎn)數(shù)據(jù)科技股份有限公司,廣州510630)

研究個(gè)人住房貸款與個(gè)人消費(fèi)貸款之間的關(guān)系,通過(guò)住房貸款業(yè)務(wù)累積的客戶(hù)賬戶(hù)信息,作為自變量構(gòu)建一個(gè)Lo?gistic回歸模型來(lái)預(yù)測(cè)客戶(hù)是否會(huì)申請(qǐng)消費(fèi)貸款,以此來(lái)精準(zhǔn)定位客戶(hù)群體,實(shí)現(xiàn)精準(zhǔn)營(yíng)銷(xiāo)。

0 引言

消費(fèi)貸款也稱(chēng)消費(fèi)者貸款,是商業(yè)銀行和金融機(jī)構(gòu)以消費(fèi)者信用為基礎(chǔ),對(duì)消費(fèi)者個(gè)人發(fā)放的,用于購(gòu)置耐用消費(fèi)品或支付其他費(fèi)用的貸款。從種類(lèi)上看,包括居民住宅抵押貸款、非住宅貸款和信用卡貸款。具有高風(fēng)險(xiǎn)、高收益、周期性和利率不敏感性,是商業(yè)銀行和金融機(jī)構(gòu)的一項(xiàng)很重要的業(yè)務(wù),帶來(lái)很大的利潤(rùn),所以有必要對(duì)其潛在客戶(hù)進(jìn)行定位和挖掘,實(shí)現(xiàn)精準(zhǔn)營(yíng)銷(xiāo)。

消費(fèi)貸款和住房貸款都是針對(duì)個(gè)人客戶(hù)的業(yè)務(wù),它們之間會(huì)共享一些客戶(hù)信息。本文研究的就是能否通過(guò)住房貸款業(yè)務(wù)累積的客戶(hù)信息來(lái)預(yù)測(cè)客戶(hù)是否會(huì)申請(qǐng)消費(fèi)貸款。

1 數(shù)據(jù)與方法

1.1 數(shù)據(jù)

本文使用的數(shù)據(jù)包含20229個(gè)客戶(hù)的信息,12個(gè)屬性,具體描述如表1。

1.2 方法

(1)Logistic回歸

在很多定量分析的研究中比較常使用的基本統(tǒng)計(jì)方法是線(xiàn)性回歸方法,然而現(xiàn)實(shí)生活中很多應(yīng)變量都只是分類(lèi)變量,特別是二分類(lèi)變量,例如客戶(hù)是否拖欠貸款、貸款審批是否通過(guò)等等,這時(shí)線(xiàn)性回歸方法就顯得不太適用。

Logistic回歸是解決這種二分類(lèi)問(wèn)題的有效方法之一。首先考慮函數(shù):

hw(x)=g(wTx)=moid函數(shù),它的圖形如下,當(dāng)橫坐標(biāo)刻度足夠大時(shí),就像一個(gè)階躍函數(shù)。

表1

假設(shè)在給定x,w的條件下,y=1出現(xiàn)的概率服從伯努利分布,表示為:

圖1

在m個(gè)獨(dú)立樣本情況下,可得似然函數(shù)為:

訓(xùn)練模型的過(guò)程就是選擇恰當(dāng)?shù)膚使得l(w)達(dá)到最大。常用的方法有梯度上升法和牛頓法。

(2)ROC曲線(xiàn)與AUC值

接收者操作特征曲線(xiàn)(Receiver Operating Charac?teristic Curve,簡(jiǎn)稱(chēng)ROC曲線(xiàn)),又稱(chēng)為感受性曲線(xiàn)(Sen?sitivity Curve),ROC曲線(xiàn)上每個(gè)點(diǎn)反映著對(duì)同一信號(hào)刺激的感受性,是一種在二分類(lèi)建模問(wèn)題中比較常見(jiàn)的檢驗(yàn)指標(biāo)。

根據(jù)實(shí)際結(jié)果和預(yù)測(cè)結(jié)果可以做出如下列聯(lián)表,1代表正例,0代表負(fù)例:

表2

根據(jù)表2,分別定義下面幾個(gè)變量:

(1)真正類(lèi)率(True Postive Rate)TPR:TP/(TP+FN),代表分類(lèi)器正確預(yù)測(cè)的正例占所有真實(shí)正實(shí)例的比例,又稱(chēng)靈敏度(Sensitivity)。

(2)負(fù)正類(lèi)率(False Postive Rate)FPR:FP/(FP+TN)=1-Specificity,代表分類(lèi)器錯(cuò)誤預(yù)測(cè)的負(fù)例占所有真實(shí)負(fù)實(shí)例的比例。

(3)真負(fù)類(lèi)率(True Negative Rate)TNR:TN/(FP+TN),代表分類(lèi)器預(yù)測(cè)的壞客戶(hù)中實(shí)際負(fù)實(shí)例占所有負(fù)實(shí)例的比例,TNR=1-FPR。又稱(chēng)特異度(Specificity)。

采用邏輯回歸分類(lèi)器時(shí),其給出針對(duì)每個(gè)實(shí)例為正類(lèi)的概率,那么通過(guò)設(shè)定一個(gè)閾值如0.5,概率大于等于0.5的為正類(lèi),小于0.5的為負(fù)類(lèi),對(duì)應(yīng)的就可以算出一組(FPR,TPR),在平面中得到對(duì)應(yīng)坐標(biāo)點(diǎn)。隨著閾值的逐漸減小,越來(lái)越多的實(shí)例被劃分為正類(lèi),但是這些正類(lèi)中同樣也摻雜著真正的負(fù)實(shí)例,即TPR和FPR會(huì)同時(shí)增大。閾值最大時(shí),對(duì)應(yīng)坐標(biāo)點(diǎn)為(0,0),閾值最小時(shí),對(duì)應(yīng)坐標(biāo)點(diǎn)(1,1)。

如下面這幅圖,(a)圖中實(shí)線(xiàn)為ROC曲線(xiàn),線(xiàn)上每個(gè)點(diǎn)對(duì)應(yīng)一個(gè)閾值。

圖2

橫軸FPR:1-TNR,1-Specificity,F(xiàn)PR越大,預(yù)測(cè)正類(lèi)中實(shí)際負(fù)類(lèi)越多。

縱軸TPR:Sensitivity(正類(lèi)覆蓋率),TPR越大,預(yù)測(cè)正類(lèi)中實(shí)際正類(lèi)越多。

理想目標(biāo):TPR=1,F(xiàn)PR=0,即圖中(0,1)點(diǎn),故 ROC曲線(xiàn)越靠攏(0,1)點(diǎn),越偏離45度對(duì)角線(xiàn)越好,Sensitiv?ity、Specificity越大效果越好。

ROC曲線(xiàn)有個(gè)很好的特性:當(dāng)測(cè)試集中的正負(fù)樣本的分布變換的時(shí)候,ROC曲線(xiàn)能夠保持不變。在實(shí)際的數(shù)據(jù)集中經(jīng)常會(huì)出現(xiàn)類(lèi)不平衡現(xiàn)象,即正負(fù)樣本比例差距較大,而且測(cè)試數(shù)據(jù)中的正負(fù)樣本的分布也可能隨著時(shí)間變化。

ROC曲線(xiàn)下的面積被稱(chēng)為AUC統(tǒng)計(jì)量(Area un?der the Curve),介于0.1和1之間。由上述描述可知,一個(gè)隨機(jī)預(yù)測(cè)模型對(duì)應(yīng)的AUC值為0.5,而一個(gè)完美的預(yù)測(cè)模型對(duì)應(yīng)的AUC值為1.AUC作為數(shù)值可以直觀的評(píng)價(jià)分類(lèi)器測(cè)好壞,值越大越好。一般情況下,一個(gè)評(píng)分模型的AUC值在0.7與0.8之間則表示該模型的區(qū)分能力尚可接受,若在0.8和0.9之間,則表示模型有著良好的區(qū)分能力,而如果AUC值大于0.9則說(shuō)明模型的區(qū)分能力非常好。使用AUC值作為評(píng)價(jià)標(biāo)準(zhǔn)是因?yàn)楹芏鄷r(shí)候ROC曲線(xiàn)并不能清晰的說(shuō)明哪個(gè)分類(lèi)器的效果更好,而作為一個(gè)數(shù)值,對(duì)應(yīng)AUC更大的分類(lèi)器效果更好。

2 實(shí)驗(yàn)過(guò)程

2.1 特征提取

數(shù)據(jù)集中包含所屬地市、貸款種類(lèi)等分類(lèi)變量,這些變量都包含多個(gè)取值。如果用啞變量來(lái)直接處理這些分類(lèi)變量的話(huà),會(huì)增加很多變量,但可能包含一些對(duì)最終結(jié)果沒(méi)有太大影響的特征,造成結(jié)果的不準(zhǔn)確,所以先對(duì)分類(lèi)變量做處理。步驟如下:

(1)選定一個(gè)分類(lèi)變量,計(jì)算不同取值下的貸款概率

(2)計(jì)算所有概率的均值

(3)不考慮均值附近的取值,將剩下的概率相同或近似的取值歸為一類(lèi),生成一個(gè)啞變量

通過(guò)這種方法可以簡(jiǎn)化模型并且提升模型的效果。最終得到的部分特征如表3:

表3

2.2 擬合模型

從樣本集中隨機(jī)抽取70%的數(shù)據(jù)作為訓(xùn)練集,訓(xùn)練Logistic回歸模型,并用不同的逐步回歸方法對(duì)自變量進(jìn)行篩選,最終得到10個(gè)模型,整合結(jié)果如下:

表4

綜合上表,我們選取第二個(gè)模型作為最終的擬合模型。結(jié)果如下:

Call:

glm(formula=V17~V1+V5+V6+V7+V8+V10+

V11+V12+V13+V14+V16,family=binomial(link="log?

it"),data=train_data)

Deviance Residuals:

Min1Q Median 3QMax

-1.0876-0.4224-0.3374-0.2653 3.1793

Coefficients:

Estimate Std.Error z value Pr(>|z|)

(Intercept)0.166569 1.114357 0.149 0.8812

V10.7954150.157199 5.060 4.19e-07***

V5-1.0245840.164124-6.243 4.30e-10***

V6 -0.4590670.094846-4.840 1.30e-06***

V70.544794 0.087695 6.212 5.22e-10***

V8-0.1721730.076259-2.258 0.0240*

V10 0.182286 0.076137 2.394 0.0167*

V110.2522490.109495 2.304 0.0212*

V12 -0.477404 0.101634-4.697 2.64e-06***

V130.1726750.098817 1.747 0.0806.

V14 1.1416730.183889 6.209 5.35e-10***

V16 0.0394490.005739 6.874 6.24e-12***

Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1

‘’1

(Dispersion parameter for binomial family taken to be 1)

Null deviance:7300.2 on 14157 degrees of freedom

Residual deviance:6904.3 on 14146 degrees of freedom

AIC:6928.3

Number of Fisher Scoring iterations:6

用模型二來(lái)預(yù)測(cè)測(cè)試集的結(jié)果。下圖為模型二的ROC曲線(xiàn)。

圖3

2.3 選取閾值

步驟如下:

(1)對(duì)所有訓(xùn)練集的預(yù)測(cè)結(jié)果進(jìn)行排序

(2)獲取十分位點(diǎn)對(duì)應(yīng)的值

以②得到的值為閾值計(jì)算訓(xùn)練集和測(cè)試集的召回率,得到表5。

根據(jù)實(shí)際業(yè)務(wù)需求和經(jīng)驗(yàn),選擇第五個(gè)分位點(diǎn),即-2.75194作為閾值得到的結(jié)果是最好的。

3 討論

本文的研究目的是預(yù)測(cè)客戶(hù)是否有意愿申請(qǐng)個(gè)人消費(fèi)貸款,提出的方法是以客戶(hù)的住房貸款情況構(gòu)建一個(gè)Logistic回歸模型。在構(gòu)建模型之前,先對(duì)分類(lèi)型特征做了處理,刪去一些多余特征,簡(jiǎn)化模型。用ROC曲線(xiàn)和AUC值為指標(biāo)選擇擬合效果最好的模型,并用召回率來(lái)確定最終的閾值。最終通過(guò)實(shí)驗(yàn)驗(yàn)證表明,該模型可行且有效。

表5

[1]施朝建,張明銘.Logistic回歸模型分析[J].計(jì)算機(jī)輔助工程,2005,14(3):74-78.

[2]廖國(guó)民,涂穩(wěn)華,寧?kù)o.基于Logistic模型的個(gè)人消費(fèi)信貸風(fēng)險(xiǎn)評(píng)估[J].廣東外語(yǔ)外貿(mào)大學(xué)學(xué)報(bào),2013,(5):27-33.

李哲瑜(1993-),女,廣東廣州人,碩士研究生,助理工程師,研究方向?yàn)橛?jì)算機(jī)軟件和信息服務(wù)領(lǐng)域

簡(jiǎn)宋全(1971-),男,廣東廣州人,碩士研究生,工程師,研究方向?yàn)橛?jì)算機(jī)軟件和信息服務(wù)領(lǐng)域

李青海(1980-),男,廣東廣州人,碩士研究生,工程師,研究方向?yàn)橛?jì)算機(jī)軟件和信息服務(wù)領(lǐng)域

2017-07-19

2017-09-26

Individual Consumer Loans;Logistic Regression Model;ROC Curve and AUC

Prediction of Personal Consumption Loan Based on Logistic Regression

LI Zhe-yu,JIAN Song-quan,LI Qing-hai

(Guangdong Fine Point Data Polytron Technologies Inc,Guangzhou 510630)

Digs into the relationship between housing loads and individual consumer loans,builds a logistic regression model to predict customers'willingness to apply for consumer loans.The dependent variable is customers'account information,which is gained from the housing loan business.Using the model,we can locate customer groups precisely and realize precision marketing.

個(gè)人消費(fèi)貸款;Logistic回歸;ROC曲線(xiàn)和AUC值

天河區(qū)科技計(jì)劃項(xiàng)目(No.201502YH019)

1007-1423(2017)29-0009-04

10.3969/j.issn.1007-1423.2017.29.002

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線(xiàn)三等角』
重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 青青草国产一区二区三区| 九色91在线视频| 婷婷六月天激情| 亚洲黄网在线| 国产精品真实对白精彩久久| 毛片久久久| 国产精品人莉莉成在线播放| 一级香蕉人体视频| 一级毛片免费不卡在线| 亚洲无码A视频在线| 久久免费看片| 亚洲视频影院| 精品国产成人三级在线观看| 欧美色99| 久久青草视频| 亚洲精品在线影院| 又爽又大又黄a级毛片在线视频| 无码中文字幕精品推荐| 福利在线不卡一区| 亚洲VA中文字幕| 99久久成人国产精品免费| 日韩毛片免费观看| 国产精品视频公开费视频| 丝袜亚洲综合| 国产主播福利在线观看| 国产精品永久在线| 伊人久久久久久久| 久久久噜噜噜| 中文字幕在线看视频一区二区三区| 色婷婷综合激情视频免费看| 67194在线午夜亚洲 | 精品国产一区二区三区在线观看 | 久草国产在线观看| 四虎永久免费地址在线网站| 免费毛片在线| 亚洲乱码精品久久久久..| 99在线视频免费观看| 毛片久久网站小视频| 老熟妇喷水一区二区三区| 免费va国产在线观看| 无码专区在线观看| 久久a毛片| 欧美yw精品日本国产精品| 欧美怡红院视频一区二区三区| 免费一级毛片在线播放傲雪网| 色偷偷综合网| 性做久久久久久久免费看| a级毛片免费在线观看| 久久美女精品| 久久伊人久久亚洲综合| 97人妻精品专区久久久久| 精品国产99久久| 亚欧乱色视频网站大全| 99久久成人国产精品免费| 国产又粗又猛又爽视频| 国产AV毛片| 老司国产精品视频91| 国精品91人妻无码一区二区三区| 深爱婷婷激情网| 国产精品太粉嫩高中在线观看| 最新精品国偷自产在线| 国产成人精品视频一区二区电影 | 狠狠色成人综合首页| 久久青青草原亚洲av无码| 精品国产自在在线在线观看| 91小视频在线观看免费版高清| 5388国产亚洲欧美在线观看| 亚洲综合一区国产精品| 高h视频在线| 国产亚洲精品无码专| 国产国拍精品视频免费看| 伦精品一区二区三区视频| 一级成人a做片免费| 国产99免费视频| 亚洲成人精品在线| 91小视频在线| 国产成人AV大片大片在线播放 | 国产欧美性爱网| 粗大猛烈进出高潮视频无码| 亚洲欧美精品日韩欧美| 综合色在线| 欧美一级高清视频在线播放|