999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python的貸款違約預測

2020-01-16 07:39:46周瑞珍
電子技術與軟件工程 2019年22期
關鍵詞:特征模型

文/周瑞珍

金融機構審批貸款時會收集客戶個人信息,包括年齡、收入、學歷、職業(yè)、家庭狀況、借貸歷史等,在對各項信息綜合考量的基礎上決定是否批準貸款。過去該項工作主要依靠人工審核,隨著人工智能技術的發(fā)展,數(shù)據(jù)分析和機器學習成為金融風控領域的重要工具。本文嘗試使用python 構建模型,利用模型預測貸款人的違約情況。通過貸款數(shù)據(jù)(包括用戶個人信息和貸款狀態(tài)是否違約)來訓練模型,通過模型分析貸款人的償還能力,預測貸款申請人是否會發(fā)生違約。因為已知貸款狀態(tài)是否違約以及各特征變量的值,判定貸款申請人會不會違約是一個二元分類問題,是一個監(jiān)督學習的場景,可以通過分類算法來處理。

本文采用數(shù)據(jù)科學競賽平臺kaggle 提供的貸款違約預測數(shù)據(jù)集,其中包含150000 個用戶的貸款信息,具體如表1。

SeriousDlqin2yrs 是要預測的對象(因變量),即根據(jù)其他變量判斷用戶會不會發(fā)生違約。其他10 個變量為自變量,分為兩類:客戶自身屬性(年齡,月收入,家屬數(shù)目),客戶信貸歷史(負債比率,循環(huán)貸款使用率,信用卡和貸款數(shù)量)。自變量較少,而且它們對是否發(fā)生違約都有不同程度的影響,在此不進行特征工程。

1 數(shù)據(jù)處理

df = pd.read_csv("cs-training.csv") # 讀入數(shù)據(jù)

在對數(shù)據(jù)處理之前,首先查看數(shù)據(jù)的缺失值和異常值情況進行。用df.describe()查看基本信息,包括每個特征的均值、各分位數(shù)等。SeriousDlqin2yrs 的均值為0.06684,說明違約率是6.684%(發(fā)生違約的客戶,該值為1,把所有值加起來就是違約客戶的個數(shù),除以客戶總數(shù)也就相當于該列的均值)。age 的最小值為0,存在異常值,銀行不可能給18 歲以下客戶貸款。

df=df.drop(df.columns[0],axis=1) # 刪除Unnamed 列

df=df[df.age>=18]#只保留年齡大于18 的客戶

df.isnull().sum() # 計算每個列的空值數(shù)目,MonthlyIncome 和NumberOfDependents的缺失值分別為29731 和3924。采用均值插補的方法,用pandas.fillna()處理文本變量缺失值。

df['MonthlyIncome'].fillna(df['Monthly Income'].mean(),inplace=True)

df['NumberOfDependents'].fillna(df ['NumberOfDependents'].mode()[0],inplace =True)

表1

2 建立邏輯回歸模型

按照80%的比例,把兩個數(shù)據(jù)集分為訓練集和測試集(X_1,Y_1 是訓練集,X_2,Y_2是測試集)。

X_1,X_2,Y_1,Y_2 = cross_validation.train_test_split(x_features,y_feature,test_size=0.8,random_state=0)

logic_clf = LogisticRegression() #生成一個邏輯回歸模型

logic_clf.fit(X_1,Y_1) #用訓練集進行擬合,獲得模型

score = logic_clf.score(X_2,Y_2) # 用模型對X_2 進行測試,并與Y_2 比較,獲得準確率

matrix = confusion_matrix(predictions,Y_2) #顯示混淆矩陣

準確率和混淆矩陣如下:

accuracy: 0.933141666667

[[111803 7854]

[169 174]]

3 建立樸素貝葉斯模型

樸素貝葉斯法屬于有監(jiān)督學習的方法,是數(shù)據(jù)分析十大算法之一,由于其易于理解、實現(xiàn)相對簡單,性能良好,因此被廣泛用于解決分類和排序問題。該算法原理如下:假設X 是n 維隨機向量(X(1),X(2),...,X(n))T,其中X(j)是X 的第j 個分量,即第j 個特征,Y 是標簽變量,有K 個取值,取值集合為{C1,C2,…,Ck},訓練數(shù)據(jù)集為包含N 個樣本{(x1,y1),(x2,y2),...(xN,yN)},根據(jù)貝葉斯定理,可得后驗概率

其中P(Y=Ck)是先驗概率,P(X=x|Y=Ck)是條件概率,假設各特征之間條件獨立,可得后驗概率

從公式中可知,所有分類的后驗概率的分母都是一樣的,因此只需比較各后驗概率的分子即可,從而得到預測模型

使用scikit-learn 提供的樸素貝葉斯分類算法GaussianNB,該算法假設特征的先驗概率為正態(tài)分布,主要用于連續(xù)變量中。本數(shù)據(jù)集中各特征接近于連續(xù)型隨機變量,適合本算法。

fromsklearn.naive_bayesGaussianNB

gnb_clf = GaussianNB()

gnb_clf.fit(X_1,Y_1)

gnb_prediction = gnb_clf.predict(X_2)

gnb_matrix = confusion_matrix(gnb_prediction,Y_2)

gnb_score = gnb_clf.score(X_2,Y_2)

準確率和混淆矩陣如下:

accuracy: 0.9314

[[111589 7849]

[383 179]]

以上兩個模型的準確率均為93%左右。在后續(xù)的工作中,將嘗試采用其他算法例如神經(jīng)網(wǎng)絡的方法構建模型,進一步提高模型準確度。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 另类欧美日韩| 午夜激情福利视频| 日韩无码视频专区| 国产高潮流白浆视频| 毛片网站在线播放| 野花国产精品入口| 久久熟女AV| 另类综合视频| 91九色视频网| 啦啦啦网站在线观看a毛片| 在线视频亚洲欧美| 国产99精品久久| 亚洲人成在线精品| 久久成人国产精品免费软件| 国产精品3p视频| 无码福利视频| 精品福利一区二区免费视频| 欧美日韩中文字幕在线| 国产麻豆精品在线观看| 国产高清免费午夜在线视频| 久热精品免费| 3p叠罗汉国产精品久久| 亚洲第一黄片大全| a级毛片视频免费观看| 丝袜无码一区二区三区| 亚洲天堂精品视频| 国产欧美日韩va| 日本一本正道综合久久dvd| 国产精品自在在线午夜区app| 亚洲人成网站日本片| 国产成人乱无码视频| 国产欧美日韩综合在线第一| 色婷婷在线影院| 国产福利影院在线观看| 视频在线观看一区二区| 999精品色在线观看| 激情乱人伦| 国产在线日本| www.国产福利| 国产美女无遮挡免费视频| 欧美在线天堂| 国产99在线观看| 国产福利一区在线| 亚洲国产中文精品va在线播放 | 精品视频一区二区观看| 亚洲区欧美区| 中文字幕 欧美日韩| 日韩高清一区 | 中文字幕 欧美日韩| 国产不卡一级毛片视频| 丁香亚洲综合五月天婷婷| 亚洲国产日韩一区| 国产成人高清精品免费软件| 国产成人免费| 亚洲制服丝袜第一页| 99视频在线免费| 五月天久久婷婷| 亚洲国模精品一区| 亚洲欧洲国产成人综合不卡| 色婷婷电影网| 在线观看免费人成视频色快速| 国产一二三区在线| 国产精品久久久精品三级| 亚洲一区精品视频在线| 精品一区二区无码av| 67194成是人免费无码| 99在线观看视频免费| 亚洲国产精品日韩av专区| 园内精品自拍视频在线播放| 青青草国产精品久久久久| 欧美精品一区在线看| 亚洲成人精品久久| 综合社区亚洲熟妇p| 91成人在线观看视频| 国产成人福利在线视老湿机| 亚洲成人一区二区三区| 久久国产亚洲欧美日韩精品| 国产在线视频二区| 91在线高清视频| 久久免费精品琪琪| 国产视频a| 国产高颜值露脸在线观看|