999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?
500 Internal Server Error

500 Internal Server Error


nginx

基于機器學習的信貸違約預測研究

2023-04-06 22:14:58趙川鞠紅梅王美玲
電腦知識與技術 2023年5期
關鍵詞:風險預測機器學習大數據

趙川 鞠紅梅 王美玲

關鍵詞:大數據;風險預測;機器學習;信貸違約;投票算法

0 引言

為了響應國家穩經濟的政策,金融機構對資金困難的企業和個人進行信貸支持,幫助供企業打通供應鏈資金需求,鼓勵個人進行創業創新、開展副業、互聯網辦公等多種靈活就業方式,共渡難關,起到穩定市場經濟作用。面對如此龐大的資金需求,金融機構需要依托機器學習模型,輔助進行風險評估和風險預測。

1 文獻回顧

隨著計算機技術在金融領域的應用,許多學者加入信貸風險的研究,其中Linwei Hu等人在相關文獻中分析了監督學習算法在銀行中的應用場景[1];XiaojunMa等人使用多觀測數據清洗的LightGBM算法,表明該算法在預測違約方面具有較高的準確性[2];馬海花針對性地在個人信用風險評估中,使用隨機森林和XG?Boost模型進行對比分析,指出XGBoost模型更加適合處理大量高緯度的噪音和非線性信用風險的數據[3];陳紅在文獻中構建邏輯回歸模型、樸素貝葉斯、支持向量機、決策樹、組合模型進行綜合對比,同時對違約客戶進行客戶畫像分析,給出合理化建議和應用方向[4]。

國內外學者對于信貸風險預測的相關問題進行了大量的可行性分析與研究,不同學者選取的研究數據、評價指標和模型有所不同,最終得出不同的研究結果,這些研究具有重要的參考和借鑒意義。本文將結合銀行數據集,以機器學習算法中XGBoost、Light?GBM模型、邏輯回歸模型和隨機森林模型為基礎,結合Voting投票算法,進行個貸違約預測方面的研究。

2 算法及方案簡介

2.1 算法簡介與預備知識

1) 邏輯回歸

邏輯回歸是在線性回歸的基礎上進行改進的,增加了sigmoid激活函數[5]。線性回歸模型為輸入,f (x)為預測值,W T 為截線,b 為真實值和預測值的差值,具體公式為:

邏輯回歸把預測值映射到0-1區間。當預測值y > 0.5時,判斷為正例,y < 0.5時,判斷為反例,以此進行分類。

2) 隨機森林

隨機森林的特點在于隨機性和集成學習,通過隨機采取樣本,隨機挑選特征,形成多棵決策樹,每棵決策樹都有自己判斷權力,隨機森林收集每一棵樹投票結果,以少數服從多數的原理,進行最終分類判斷[6]。

3) XGBoost

XGBoost的預測模型通過設定損失函數,并根據參數進行一階、二階導數計算,以提高泛化能力[7]。令k 表示全部樹的數量,t 表示預測輪數,fk 是第k 顆預測結果,ft (xi )為第t 輪改善參數,Y ti 表示基于xi 樣本第t輪預測結果,預測公式為

4) LightGBM

LightGBM由微軟研究院研究開發,基于不犧牲速度的情況下,盡可能使用更多的數據運算,具有準確率高、區分能力強的特點[8]。基于直方圖(Histogram)算法、基于梯度的單邊采樣算法(GOSS)和互斥特征捆綁算法(EFB),這3個算法的引入下,降低了葉子生成的復雜度,從而節約了大量的運行計算時間和存儲空間。

5) Voting投票算法

Voting投票算法是集成算法中的一種,該算法又分為硬投票(Hard Voting) 和軟投票(Soft Voting) 兩種使用方式。其中硬投票是基于少數服從多數的原則,將不同分類器的結果分別進行統計,看最終哪個投票多來確定分類結果;而軟投票可以為不同分類器設置不同權重,由于每個分類器都有獨立估算分類的概率,軟投票法將所有概率再進行平均,最后平均概率最大的作為分類結果。

6) 淆矩陣(confusion matrix)

假如收到一些樣本,倘若該樣本集中只存在兩種類別,即正例和反例。而當預測值為正例時,本文將其記為positive(P),而當預測值為反例的時候,本文將其記為negative(N)。此時如果預測值與真實值相同的時候,本文記為true(T),而當預測值和真實值相反不一樣的時候,則記為false(F)。從而有了以下的混淆矩陣(confusion matrix),如表1所示。

7) ROC曲線

ROC曲線以假正例率(FPR)為X軸,以真正例率(TPR)為Y軸,進行圖形的繪制。由于ROC曲線能夠反映出分類效果,但從表現程度上還是不夠直觀,對此,通過AUC來直觀地凸顯出分類能力,即該指標實際為ROC曲線下的面積。

2.2 方案流程

本文研究的方案流程主要包括7個步驟:數據導入、數據預處理、模型訓練、擇優選擇、集成、對比評估、總結,如圖1所示。

3 數據處理及模型訓練

3.1 數據描述

本文采用天池公開銀行貸款數據集,該數據總量有47類指標信息,80萬條用戶數據。47類指標信息具體描述如表2所示。

3.2 數據處理

數據處理是模型訓練的前提,圍繞關鍵指標進行數據處理,通過對數據缺失值占比、數據異常值篩查進行多次降維,缺失部分采取為向上填充法的方式進行空值填充,特殊字符進行數字化處理。表3 為Grade指標數字化處理前后對比。

3.3 繪制相關性熱力矩陣圖

經過數據處理,最終將數據集降維至23項指標,并制作成相關性矩陣熱力圖,觀察各個指標與關鍵指標之間的相關性。呈現如圖2所示。

由相關性熱力矩陣圖可以看出,與isDefault關鍵性指標相關度較高的為loanAmnt、term、interestRate、installment、grade和dti,而其他指標起到相關性較小,用于提供輔助性作用。

3.4 模型訓練及評分結果

數據集采取8:2的分配比例,即訓練集為640000 條,測試集160000條,進行數據集的拆分,分別帶入到模型中訓練和測試,并記錄邏輯回歸、隨機森林、XG?Boost、LightGBM這四種單一模型的AUC評分。單一模型評分結果如表4所示。

3.5 模型集成及對比結果

本文選擇AUC評分較高的模型,即邏輯回歸模型、LightGBM模型和隨機森林模型,使用Voting硬投票算法進行模型融合,發現Voting模型融合后的AUC 評分有較大提升。對比數據如表5所示。

4 總結

通過對數據集的清洗篩選,選出部分相關聯的特征值進行多種模型的訓練,以數學原理闡述了不同模型的處理方式,本文測試中以最優的模型進行Voting 投票算法的融合,其結果表明十分優異,能夠起到提升預測準確度的作用,具體得出以下結論。

1) 在進行數據集處理時,將數據字符類型進行定量數值化,能夠更好地形成圖像,進行指標的選擇,比如在等級劃分時,采用數值的形式,進行數據集優化。

2) 不同模型在處理同一數據集的處理效果差異性很大,如在XGBoost模型處理與隨機森林模型在處理同一數據集時,AUC評分差距很大。

3) 作為Voting投票融合算法,將三種有效的單一模型進行融合,能夠有效提升AUC評分,證明融合算法相較于單一的模型,能夠發揮融合算法的強化性,提高準確度。

猜你喜歡
風險預測機器學習大數據
電費回收風險預測及規避策略
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
新舊高校會計制度比較實施建議
基于支持向量機的金融數據分析研究
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
統計學在證券投資中的應用研究
商(2016年6期)2016-04-20 17:54:08
我國企業資金管理存在的問題及對策分析
科技與創新(2015年8期)2015-05-06 23:08:15
500 Internal Server Error

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx
主站蜘蛛池模板: 久久久久青草线综合超碰| 欧美中文字幕无线码视频| 亚洲欧美人成人让影院| 热热久久狠狠偷偷色男同 | 国产综合另类小说色区色噜噜| 国产欧美另类| 欧美色图久久| 欧美精品伊人久久| 国产一在线观看| 亚洲第一成年人网站| 免费网站成人亚洲| 国产精品女同一区三区五区| 欧美亚洲综合免费精品高清在线观看| 亚洲精品在线91| 视频一本大道香蕉久在线播放| 精品伊人久久久大香线蕉欧美| 久久国产精品电影| 亚洲国产黄色| 国产区免费| 亚洲成人网在线播放| 色妞永久免费视频| 露脸一二三区国语对白| 亚洲首页在线观看| 永久毛片在线播| 久久久久亚洲AV成人网站软件| 婷婷六月天激情| 国产91高跟丝袜| 亚洲区一区| 久久99国产综合精品女同| 亚洲资源站av无码网址| 中文字幕亚洲乱码熟女1区2区| h视频在线观看网站| 国产在线精彩视频二区| 久久毛片免费基地| 天天做天天爱夜夜爽毛片毛片| 成人免费午夜视频| 又爽又大又黄a级毛片在线视频| 国产精品专区第1页| 亚洲av综合网| 日韩欧美国产成人| 久久香蕉国产线看观看式| 国产视频入口| 精品福利国产| av在线5g无码天天| 婷婷亚洲天堂| 18黑白丝水手服自慰喷水网站| 91最新精品视频发布页| 亚洲国产综合第一精品小说| 国产国产人成免费视频77777| 国产91精品久久| 在线观看国产精美视频| 在线精品欧美日韩| 美女国产在线| 国产激爽大片高清在线观看| 91精品伊人久久大香线蕉| 午夜福利在线观看成人| 99精品福利视频| 国产小视频免费观看| 热九九精品| 成人免费网站久久久| 亚洲bt欧美bt精品| 久久久久亚洲av成人网人人软件| 波多野结衣久久高清免费| 久久久久亚洲av成人网人人软件| 成人在线不卡视频| 精品亚洲麻豆1区2区3区| 成人在线不卡视频| 精品国产毛片| 毛片一级在线| 久草中文网| 波多野结衣第一页| 国产成人三级| 99青青青精品视频在线| 久久精品这里只有精99品| 思思热精品在线8| 午夜小视频在线| 亚洲第一福利视频导航| 黄片一区二区三区| 色婷婷综合激情视频免费看| 久久无码av三级| 欧美一级视频免费| a级毛片毛片免费观看久潮|