999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習算法的信用風險預測模型研究

2021-06-15 17:55:51李麗趙陸亮陳軍
企業科技與發展 2021年3期
關鍵詞:機器學習

李麗 趙陸亮 陳軍

【摘 要】為了解決西南財經大學“新網銀行杯”競賽數據中存在的高維稀疏數據、無標簽數據、多產品客群來源及好壞樣本不平衡等問題,采用機器學習方法,如Logistic回歸、決策樹、Adaboost、GradientBoosting和LGB模型對數據進行訓練,得出LGB模型的性能評價指標AUC數值最大的結論。

【關鍵詞】信用風險預測;機器學習;性能評價指標

【中圖分類號】F830.589 【文獻標識碼】A 【文章編號】1674-0688(2021)03-0046-03

1 研究背景

銀行信用風險評估一直是學術研究和商業銀行管理領域重要的研究話題。信貸信用風險是銀行所面臨的信用風險中最重要的一個部分,又由于銀行是整個金融系統的核心,銀行的主要資產業務是銀行對企業發放的貸款,若企業由于破產或資金流動性等原因無法按期償還貸款甚至造成違約會給商業銀行帶來巨大的損失。此外,商業銀行不良貸款率的不斷提升也會導致整個金融市場風險的提升。因此,商業銀行能否獲得性能極好又切實可行的信用風險預測模型,對于銀行金融機構乃至整個金融市場至關重要。

早期的預測模型大多使用傳統計量和統計方法,例如多元判別分析方法、Logistic回歸分析方法等。近年來,隨著人工智能的興起、機器學習和數據挖掘在世界范圍內的推廣,幫助商業銀行風險預測獲得了新的、更有效的預測方法,也預示著在商業銀行信用風險預測領域,人工智能方法會逐漸取代傳統統計方法,成為預測商業銀行信用風險的首選方法。

2 文獻回顧

Ekinci & Erdal(2011)[1]對土耳其的35家私人商業銀行進行分析,比較了SVM方法和神經網絡方法的預測精度。余晨曦等人(2008)[2]運用支持向量機技術(SVM),構建了基于支持向量機的我國商業銀行信貸信用風險度量模型,將支持向量機的非線性分類器應用到貸款違約的判別中,研究發現SVM可以處理非線性分類問題,但不能很好地估計違約概率。李佳等人(2018)[3]將SVM、BP神經網絡和PCA變量降維處理結合使用,對2015—2016年我國的144家滬深上市公司開展研究和預測,最后得出了良好的預測能力。

3 數據來源及解析

3.1 數據來源

本文數據是來自DC競賽網中的西南財經大學“新網銀行杯”數據科學競賽,四川新網銀行已經開發出了國內第一款全在線辦理的銀行大額云授信產品——“好人貸”。比賽提供真實業務場景下的脫敏數據,在“好人貸”的量化風控實踐中,四川新網銀行面臨多個維度的挑戰:高維數據、稀疏數據、無標簽樣本、多產品客群好壞樣本不平衡等。其中,對于包含多產品(客群)的高維特征數據和表現數據(部分有標簽,部分無標簽),邀請參賽者對數據進行探索分析,綜合利用監督和半監督機器學習算法、遷移學習算法等設計區分能力高、穩定性強的信用風險預測模型,對客戶信用風險進行預測。

通過初步的數據分析,我們發現數據的特征缺失嚴重,可能會對模型的預測帶來干擾,并且雖然特征維度僅有157維,但是由于是匿名特征,因此很難確定數據的具體含義。脫敏數據不能使用相關性分析方法,也不能構造新的特征,所以在數據清洗中對缺失值的處理與分析和模型的訓練與評估都是需要我們解決的關鍵問題。

3.2 數據解析

此次競賽提供的數據包括用戶id,157項脫敏的屬性/行為特征,以及是否屬高風險用戶的標簽項。一共有3個文件,數據描述如下。

(1)train_xy.csv,帶標簽的訓練集數據,共15 000條。

(2)train_x.csv,不帶標簽的訓練集數據,除無標簽字段‘y外,其余字段與train_xy.csv相同,共10 000條。

(3)test_all.csv,測試集數據,除無標簽字段‘y外,其余字段與train_xy.csv相同,共10 000條。

train_xy數據節選如圖1所示。

那么,根據賽題任務與數據,可以將問題轉化為“二分類”問題,0代表低風險客戶,1代表高風險客戶,賦值為0的個數有14 309,為1的個數為691,0和1的數量比值為21∶1,不同cust_group的樣本分布也不平衡(見表1)。

評估指標為AUC=0.3×AUC1+0.3×AUC2+0.4×AUC3,并且提供有/無標簽數據樣本,可以使用監督與半監督方法綜合預測用戶的信用風險概率。

4 數據清洗與處理

4.1 缺失值分析

根據數據介紹,x變量的缺失值統一以-99表示,我們首先對每個x特征變量,在列方向上進行缺失值的個數統計,從而轉化為缺失率。缺失率的大小可以表明某個特征缺失是否嚴重及嚴重程度。以train_set為例,從圖2中可以更加直觀地看出,有較多的特征缺失率高達100%,說明這些特征缺失嚴重,可能會對模型預測帶來干擾。

4.2 缺失值處理

根據上面的分析,幾乎所有數據都存在缺失值-99。一般處理缺失值的方法有中位數、平均數、眾數填充等操作。在對變量進行填充之前,根據每個樣本的缺失值的個數,對缺失值進行離散化并劃分成7個區間引入虛擬變量。

在這里我們針對數值型的數據利用均值進行填充,對類別型的數據引入啞元變量,并對填充完的數據進行歸一化處理。圖3以x_81為例,可以看到均值填充后進行歸一化的結果。

5 特征選取

一般而言,常見的特征選擇方法有如下3種:一是過濾式選擇,即通過相關系數、卡方檢驗、信息增益等篩選特征;二是包裹式選擇,是通過迭代特征,利用學習器的性能評估進行選擇;三是嵌入式選擇,特點是利用學習器自動選擇特征,包括正則化、基于樹模型選擇。

通過運用隨機森林的方法對157個特征進行了重要性的排序,我們從中選取TOP25作為模型的特征,各個特征的重要性如圖4所示。

6 模型選擇與評估

6.1 降維與不降維結果比較分析

本文的數據建模方法主要有Logistic回歸、決策樹、Adaboost、GradientBoosting 4個模型。這兩種方式的保留信息會有所不同,那么通過模型做出的預測結果肯定有區別。通過對兩者的結果進行比較與分析,如圖5所示,我們發現不降維的結果要優于降維之后的結果,所以我們最后決定不刪除任何原始特征,而是使用模型自動選擇。這樣做有兩個考慮,一是特征維度并不高(157維),而且是匿名特征,很難確定具體含義;二是模型自身具有選擇特征的特性,可以更好地表現數據。

6.2 模型存在的問題

在上述模型中,會存在不同程度的過擬合現象(如圖5所示)。

6.3 解決方法

我們將采用5折分層交叉驗證及將模型升級為LGB模型的方法減輕過擬合的現象,并且得到的結果AUC1=0.744 82、AUC2=0.765 77、AUC3=0.842 87、AUC=0.788 7。LGB訓練的AUC值明顯高于其他幾個模型。所以,最終我們選取LGB作為我們的最終模型。

出現過擬合的原因:一是數據可能過小,容易產生過擬合;二是模型本身性能可能不理想,那么增加訓練數據是沒有效果的。但是相較這兩種原因,我們認為前者的可能性更大。

7 結語

本文將數據集隨機選取70%作為訓練集,剩下的30%的數據作為驗證集,并對缺失數據進行均值填充,運用多種機器學習方法,以AUC為模型的性能評價指標,由于決策樹、邏輯斯蒂回歸等模型出現過擬合現象,所以我們采取五折交叉驗證,并改進模型引入LGB模型,得到的結果也是最優的,選取LGB模型作為我們最終的模型。

參 考 文 獻

[1] Ekinci A,Erdal H I.An Application on Prediction of Bank Failure in Turkey[J].Iktisat Isletme ve Fi-nans Dergisi,2011,26(298):21-44.

[2]余晨曦,梁瀟.基于支持向量機的商業銀行信用風險度量模型[J].計算機與數字工程,2008,36(11):10-14.

[3] 李佳,黃之豪.銀行信用風險預測——基于SVM和BP神經網絡的比較研究[J].上海立信會計金融學院學報,2018(6):40-48.

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 久久久久夜色精品波多野结衣| 91在线无码精品秘九色APP| 91免费国产高清观看| 国产毛片高清一级国语| 欧美国产成人在线| 在线观看欧美国产| 一区二区三区高清视频国产女人| 久久综合丝袜日本网| 午夜精品久久久久久久99热下载 | 国产麻豆aⅴ精品无码| yjizz国产在线视频网| 亚洲欧美极品| 九色免费视频| 国产18在线播放| 狠狠色婷婷丁香综合久久韩国| 久久国产精品国产自线拍| 亚洲首页国产精品丝袜| 毛片大全免费观看| 久久无码免费束人妻| 狠狠色婷婷丁香综合久久韩国| 91色国产在线| 97se亚洲| 毛片网站观看| 91成人在线观看视频| 亚洲色图在线观看| 精品99在线观看| 欧美性久久久久| 日韩精品一区二区三区免费在线观看| 日本伊人色综合网| 欧美a在线视频| 一区二区三区在线不卡免费| 香蕉国产精品视频| igao国产精品| 国产SUV精品一区二区6| 久久综合伊人77777| 欧美精品另类| 亚洲人成在线精品| 九九九精品视频| 国产欧美日韩另类| 九九视频免费在线观看| 成人一级免费视频| 国产在线第二页| 国产色爱av资源综合区| 中文字幕在线观| 69综合网| 日韩天堂在线观看| 欧美午夜视频| 国产高清在线观看91精品| 日韩亚洲综合在线| 久久久久久久97| 久久不卡精品| 99青青青精品视频在线| a毛片基地免费大全| 亚洲系列无码专区偷窥无码| 日本三级欧美三级| av无码一区二区三区在线| 99re免费视频| 2020精品极品国产色在线观看| 免费一级大毛片a一观看不卡 | 91久久国产热精品免费| www.日韩三级| 亚洲一级毛片在线播放| 波多野结衣的av一区二区三区| 国产又爽又黄无遮挡免费观看| 在线观看精品国产入口| 亚洲精品国产自在现线最新| 原味小视频在线www国产| 风韵丰满熟妇啪啪区老熟熟女| 麻豆国产精品| 国内丰满少妇猛烈精品播| 亚洲综合精品第一页| 国产精品网址你懂的| 国产99热| 亚洲无码免费黄色网址| 中文字幕资源站| 婷婷色狠狠干| 午夜天堂视频| 亚洲—日韩aV在线| 在线观看亚洲天堂| 国产第一福利影院| 亚洲精品午夜无码电影网| a亚洲视频|