999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的個人信用風險預測研究

2024-09-13 00:00:00仝清艷
管理學家 2024年16期

[摘 要]在大數據時代,數據量的爆發式增長使得傳統風控方法難以滿足銀行業信貸業務的發展需求。文章提出了基于機器學習的個人信用風險預測方法,利用UCI德國信用數據集和Kaggle的lending club數據集,通過構建邏輯回歸、隨機森林、K近鄰和極限梯度提升模型,驗證了機器學習技術在信用風險評估中的有效性。實驗結果表明,極限梯度提升模型在兩個數據集上均表現最佳,顯示了機器學習在信用風險評估中的應用前景。

[關鍵詞]個人信用風險;機器學習;XGboost

中圖分類號:F275;TP39 文獻標識碼:A 文章編號:1674-1722(2024)16-0019-03

《巴塞爾新資本協議》將信用風險定義為商業銀行面臨的八大風險之一。近年來,隨著我國經濟下行壓力的增加,商業銀行面臨的信用風險不斷擴大。截至2 0 2 3年年末,國內銀行業的不良貸款總額已經攀升至3.8萬億元,不良貸款比率達到1.86%。隨著數據量的爆發式增長,傳統的風控方法已無法滿足當下銀行業信貸業務的發展需要。在大數據風控體系下,如何借鑒已有成熟的信息技術,依托商業銀行現有的海量客戶數據,實現風險預測,成為值得進一步深入研究的問題。因此,基于機器學習的個人信用風險預測研究應運而生。

機器學習方法能夠從大規模、復雜的征信數據中提取有價值的信息,通過算法識別數據與信用風險之間的潛在聯系。利用訓練數據驅動的模型,機器學習可以精準刻畫借貸對象的信用風險行為,從而綜合評定其信用水平。常用的機器學習算法包括邏輯回歸、決策樹[ 1 ]、隨機森林等。通過選擇和組合不同的機器學習算法,金融機構可以構建強大的信用風險評估模型,提高風險管理能力。在大數據時代,這些基于機器學習的方法將幫助金融機構更準確地評估和管理信用風險,提高金融服務的效率和安全性。

一、關于機器學習算法的文獻評述

機器學習算法在個人信用風險預測的應用上取得了顯著的進展和豐富的成果。顧洲一、胡麗娟利用國內商業銀行的客戶信貸記錄,采用非平衡數據集處理技術與機器學習分類模型,識別出影響客戶違約的關鍵因素,構建了Logistic回歸模型以預測客戶的違約可能性[ 2 ]。邱澤國、賀百艷提出了基于Lasso和隨機森林的兩階段特征選擇方法,有效提高了分類模型的準確率[ 3 ]。嚴晴、徐海燕結合Borderline-SMOTE和隨機森林,評估小額貸款中的個人信用風險,提高了對高違約風險客戶的識別準確率[ 4 ]。張俊麗等基于邏輯回歸構建了個人信用評分卡模型,幫助決策者制定科學的授信和定價策略[ 5 ]。陳鞏等提出了一種結合多尺度卷積和注意力機制的深度特征融合提取器,運用XGBoost分類器進行信用風險評估,取得了較好的預測結果[ 6 ]。

二、研究方法

K近鄰算法基于“相似的樣本具有相似的輸出”的假設,通過計算樣本之間的距離進行預測。對于一個待預測的樣本,KNN算法會在訓練數據集中找到距離其最近的K個樣本,根據這些鄰居的類別或值,決定該樣本的類別或預測值。具體而言,對給定的測試樣本,計算它與訓練數據集中每個樣本的距離,再根據距離從小到大排序,選擇距離最近的K個鄰居。對K個鄰居所屬的類別進行投票,票數最多的類別即為測試樣本的預測類別。

隨機森林是一種集成學習方法,核心原理是“集思廣益”,即通過組合多個弱預測模型(決策樹)的預測結果,提高整體模型的準確性和魯棒性。在隨機森林中,每棵決策樹的訓練過程都涉及兩個關鍵的隨機性因素。一是自助采樣(Bootstrap Sampling),對于每棵決策樹,隨機森林從原始訓練集中有放回地隨機抽取數據點,形成多個不同的訓練子集。二是特征隨機選擇,對于每棵樹的每個分裂節點,隨機森林從所有特征中隨機選擇一個子集,然后從這個子集中選擇最佳分裂特征。自助采樣和隨機選擇特征的方式增加了模型的多樣性,有助于降低過擬合的風險。在最終輸出中,對于分類任務,隨機森林通過多數投票機制來確定最終的預測類別。

hBkKRcPxheackhqcSlCBer/3saTaRzFsBb3QyJnETDM=

極端梯度提升(XGBoost)是基于梯度提升框架的算法,其核心思想是通過迭代地構建新的決策樹,糾正先前模型的偏差。每棵樹都是為了最小化損失函數構建的。在每次迭代中,XGBoost利用當前模型的梯度信息構建新的樹,然后將新樹的預測結果與之前模型的預測結果相加,以逐步減小預測誤差,提升模型的預測性能。這種迭代的過程使得XGBoost能夠有效處理復雜的數據關系,在許多數據科學問題中取得了優異的成績。它主要優化以下目標函數,該目標函數包含了損失函數和用于防止過擬合的正則化項:

三、模型評估

(一)數據來源

文章使用來自UCI的德國信用數據集和來自Kaggle的lending club數據集。UCI德國數據集包含1000條記錄,即700條未違約記錄和300條違約記錄。每條記錄有20個特征,用于描述個人的銀行貸款信息和申請客戶的信用情況,這些屬性包括賬戶狀態、信用歷史、貸款目的等。Lending club數據集包含396030條記錄,318357條未違約記錄和77673條違約記錄。該數據集有26個特征,描述了貸款人的基本信息、財務狀況、信用記錄、房產情況等。

(二)相關性分析

計算數值型特征之間的皮爾森相關系數,進行相關性分析,如圖1所示。相關性過高的特征可能會導致模型復雜度不必要地增加,去除相關性過高的特征有助于減少計算量,提高模型的運行速度。相關系數的絕對值一般在0.8以上,認為變量之間有強的相關性。在德國信用數據集中,不存在具有強相關性的變量;在lending club數據集中,每月還款金額(installment)和貸款金額(loan_amt)的相關性為0.95,意味著這兩個變量提供的信息高度重疊,刪除其中一個變量。

(三)評估指標

準確率是衡量模型正確預測的樣本數占總樣本數的比例,它反映了模型在整體數據集上的表現,其計算公式如下:

其中,TP(真正例)是正確預測為正類的樣本數,TN(真負例)是正確預測為負類的樣本數,FP(假正例)是錯誤預測為正類的樣本數,FN(假負例)是錯誤預測為負類的樣本數。

精確度是衡量模型預測為正類、實際為正類的比例,即預測為正類的樣本中有多少是正確的,高精確度意味著模型的假正例較少,公式為:

41d6fc4f64411132cc3f040515ef694826161aeb97ee6f9aa7b6739923190873

召回率衡量的是所有實際為正類的樣本中有多少被模型正確預測,高召回率意味著模型能夠捕捉到更多的正類樣本,但可能會增加假正例,其計算公式為:

F 1分數是精確度和召回率的調和平均值,它在兩者之間取得平衡,特別適用于類別不平衡的情況。

(四)結果分析

對兩個數據集劃分訓練集和測試集,對于德國信用數據集,75%作為訓練集,25%作為測試集,lending club數據集按照7∶3的比例劃分訓練集和測試集。將訓練集輸入到四個模型中進行訓練,在測試集上預測,結果如表1、表2所示。

對于德國信用數據集,極限梯度提升在準確率上表現最佳,表明它在整體上能夠正確分類更多的樣本。邏輯回歸的準確率略低于極限梯度提升,但仍然表現出較高的整體正確性。隨機森林和K近鄰的準確率相同,相對較低。在精確率上,極限梯度提升同樣表現最佳,表明該模型在預測違約樣本時更為準確。在召回率上,極限梯度提升得分最高,說明它能更好地識別出違約樣本。 K近鄰和隨機森林的分數則較低,模型在識別違約樣本方面存在不足。就F 1而言,極限梯度提升表現最佳,說明它在精確率和召回率之間取得了最佳的平衡。綜上所述,極限梯度提升模型在所有四個指標上均表現出色,是整體性能最優的模型。

在lending club數據集上,邏輯回歸、隨機森林和極限梯度提升的準確率相同,K近鄰的準確率稍低,但仍表現出較高的準確率。隨機森林的精確度最高,為0.9419402c0b1cbf92f366b2a7431f9bf9f6b2bc1150388864806a03126dfa0dad757,意味著當模型預測樣本為正類時,有95.7%的概率這些預測是正確的。在精確率上,邏輯回歸得分略低于隨機森林,但仍然顯示出較高的精確度。極限梯度提升為0.911,雖然低于前兩者,但仍然顯示出很高的精確度。K近鄰則比較低,表明在預測為正類的樣本中,其正確預測的比例較低。在召回率上,極限梯度提升是所有模型中最高的,在識別實際違約樣本方面表現最佳。邏輯回歸和隨機森林相對較低,意味著模型錯過了較多的違約樣本。對于F 1分數,極限梯度提升同樣取得了最高的分數,模型既減少了違約樣本的誤報,又提高了對違約樣本的識別率。同樣地,極限梯度提升在lending club上取得了最好的效果。

四、結語

文章針對商業銀行在信用風險管理中面臨的挑戰,探索了基于機器學習的方法進行個人信用風險預測的有效途徑。通過應用UCI德國信用數據集和Kaggle的lending club數據集,文章構建并評估了邏輯回歸、隨機森林、K近鄰和極限梯度提升四種機器學習模型。實驗結果顯示,極限梯度提升模型在準確率、精確度、召回率和F 1分數這些關鍵評估指標上均表現卓越,證明了其在信用風險預測中的高效性和準確性。機器學習方法為商業銀行提供了一個高效的信用風險評估工具,有助于金融機構優化信貸政策,提升風險管理能力,為金融科技領域的進一步研究和應用奠定了堅實的基礎。

參考文獻:

[1]何姿嬌,歐陽浩,劉智琦,等.基于決策樹的個人信用風險評估模型[J].信息技術與信息化,2021(07):122-124.

[2]顧洲一,胡麗娟.機器學習視角下商業銀行客戶信用風險評估研究[J].金融發展研究,2022(01):79-84.

[3]邱澤國,賀百艷.機器學習算法下信用風險評估體系構建研究——基于中國銀聯數據的個人信用風險評價分析[J].價格理論與實踐,2021(10):89-92+194.

[4]嚴晴,徐海燕.基于混合式SMOTE和RF模型的小額貸款公司客戶信用風險研究[J].運籌與管理,2024(01):191-197.

[5]張俊麗,郭雙顏,任翠萍,等.基于邏輯回歸的個人信用評分卡模型研究[J].現代信息科技,2024(05):12-16.

[6]陳鞏,李占利,朱莉.多尺度深度特征融合的個人信用風險預測[J].計算機工程與科學,2023(12):2265-2273.

主站蜘蛛池模板: 国产精品99久久久久久董美香| 四虎国产永久在线观看| 国产产在线精品亚洲aavv| 亚洲欧美色中文字幕| 潮喷在线无码白浆| 无遮挡国产高潮视频免费观看| 亚洲综合一区国产精品| 欧美三级日韩三级| 亚洲色图另类| 国产微拍一区二区三区四区| JIZZ亚洲国产| 国产人人干| 亚洲人成网站观看在线观看| 亚洲国产天堂在线观看| 97av视频在线观看| 99在线视频免费| 国产麻豆精品在线观看| 色爽网免费视频| 亚洲V日韩V无码一区二区| 国产免费黄| 97在线免费| 美女无遮挡拍拍拍免费视频| 极品性荡少妇一区二区色欲| 国产精品短篇二区| 青青青视频91在线 | 国产亚洲美日韩AV中文字幕无码成人 | 欧美午夜在线观看| 中文字幕在线永久在线视频2020| 亚洲国产成熟视频在线多多| 日本免费精品| 91精品情国产情侣高潮对白蜜| 国产一区二区福利| 欧美成人一区午夜福利在线| 天堂成人av| 国产精品lululu在线观看| 国产精品欧美在线观看| 日本一区二区三区精品国产| 农村乱人伦一区二区| 成人免费一级片| 一区二区偷拍美女撒尿视频| 中国美女**毛片录像在线| 中文字幕亚洲第一| 久久99国产综合精品1| 日韩东京热无码人妻| 国产精品无码在线看| 国产欧美视频综合二区| 国产精品免费露脸视频| 国产日本一区二区三区| 久热99这里只有精品视频6| 欧美精品亚洲精品日韩专区| 91人妻日韩人妻无码专区精品| 伊在人亚洲香蕉精品播放| 欧美国产中文| 亚洲国产亚洲综合在线尤物| 精品五夜婷香蕉国产线看观看| 欧美成人免费午夜全| 无码人妻热线精品视频| 免费激情网址| 亚洲日本www| 免费在线国产一区二区三区精品 | 在线a网站| 九九热精品免费视频| 爆乳熟妇一区二区三区| 国产成人精品第一区二区| 国产原创演绎剧情有字幕的| 午夜毛片免费看| 伊人久久婷婷| 国产成人一区| 狠狠v日韩v欧美v| 成人在线观看不卡| 色哟哟国产精品一区二区| 亚洲黄色视频在线观看一区| а∨天堂一区中文字幕| 精品视频第一页| 99精品久久精品| 久久精品电影| 婷婷伊人五月| 亚洲美女一区| 免费jizz在线播放| 欧美精品在线免费| 67194成是人免费无码| 亚洲av日韩综合一区尤物|