999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據背景下互聯網金融信貸風險預測研究

2022-08-08 02:56:12
現代營銷(創富信息版) 2022年7期
關鍵詞:特征模型

李 鑫

(首都經濟貿易大學 北京 100026)

一、引言

隨著移動互聯網及大數據、人工智能產業浪潮的逐漸蓬勃興起,“數字經濟”業務模式隨之走向深入發展,金融行業開始推進“數字化”業務轉型,市場上已經不再是“一手交錢,一手交貨”的單一運營管理模式,銀行、互聯網金融、小額貸款等企業開始利用大數據技術,為消費者提供個性化的信用服務。然而,在消費者享受借貸所帶來的便利的同時,這些企業也承受著巨大的違約風險,借貸人如果不能按照協議償還債務,將會給這些金融機構帶來嚴重的經濟損失,風險管理與控制依舊是金融行業需要解決的重大問題。在大數據時代,互金平臺自身已經擁有了海量級數據,將風險控制與大數據結合,充分利用數據挖掘技術探索貸款人背后的信息規律。機器學習理論是一門為了模擬出人的大腦學習的活動,或是一種為了可以實現模擬人類大腦學習的活動過程,而可以使用高性能計算機系統進行仿真研究活動的一種方法,是當代人工智能主要的基礎研究熱點領域方向之一。為了快速應對目前一些相對復雜領域的未來預測方法和風險評價技術問題,基于機器學習原理的未來預測計算方法可利用模擬人類腦的學習思考活動特性,在金融風險的投資行為預測、股票市場價格預測、投標效果評價方法等多個相關領域內被應用。從研究互聯網金融平臺行為的角度來看,機器學習理論對于深度研究基于用戶特性的貸款違約問題具有重要學術意義。構建信貸風險評估模型,及時精準發現危險用戶,可以高效地對消費者進行信用評估,提高貸款違約預測能力,有效控制違約損失。

目前國內外針對小額信貸風險的預測及模型建立的實證研究,主要學者有廖絢等人首次用邏輯回歸模型預測借款人是否逾期還款,并對貸款違約發生的相關影響風險因素也進行了預測分析研究;劉紅生等人第一次利用邏輯回歸預測模型構建我國中小企業銀行短期綜合貸款利率風險的預測分析模型;沈玉溪等人第一次用決策樹方法對P2P對信貸數據質量進行定量預測,分析結果指出借款人收入、借款歸還期限、信用等級均是未來影響借款人發生違約情況的三項主要決定因素;李進利用隨機森林建立綠色信貸風控模型,結果表明該模型效果要好于邏輯回歸,但面對大規模不平衡信貸數據時,模型性能有待提升;胡緒華等人利用BP神經網絡可以解決非線性問題的特點,建立基于BP神經網絡的商業銀行信貸風控模型。機器學習目前已經在整個風控領域得到了廣泛深入的商業應用,其中,logistic回歸模型由于擁有較高的算法可解釋性常用在風控研究領域,但是因為該領域算法學習能力十分有限,對特征處理方法的性能要求較高。近年來,由于集成學習結合了各個單一模型各自的特點,具有更好的準確性,成為風控建模的主流。本文旨在使用基于集成學習理論的模型RandomForest、XGboost和LightGBM模型進行金融信貸行為預測的建模,并將與傳統預測的邏輯回歸法進行簡單對比,探尋預測模型性能,以實現幫助中小企業金融及借貸相關機構更有效避免各類潛在金融風險,更好地持續進行合規管理運營。

二、模型理論基礎

Bagging和Boosting都是集成算法,即將多個泛化能力較弱的基學習器合成一個泛化能力強的強學習器。Bagging采用并行的方法,從原始樣本集中隨機抽取訓練集并進行模型的訓練建立基分類器,對于分類問題采用多數人投票決定的方式,對于回歸的問題則取其所有基分類器的平均值,代表算法為隨機森林。Boosting方法訓練基分類器時采用串行的方式,各個基分類器之間有依賴。它的基本思路是將基分類器層層疊加,每一層在訓練的時候,對前一層基分類器分錯的樣本,給予更高的權重。在測試時,根據各層分類器的結果的加權得到最終結果。其代表算法為AdaBoost、GBDT、XGBoost。梯度提升函數中的另外一種Boosting方式也是指通過計算使用代價函對上下一輪訓練計算出的模型函數f的偏導率系數來計算擬合函數的殘差。梯度提升決策樹,其核心思想是通過采用加法模型(即基函數的線性組合),以及不斷減小訓練過程產生的殘差來達到將數據分類或者回歸的算法,這個殘差量是每一個數加到其預測結果值上后所能獲得到的真實結果值之間的一個累加后的量。本文使用Bagging和Boosting族算法中的RandomForest、XGBoost、Light-GBM三種集成算法建立信貸違約預測模型,并嘗試模型融合對比模型效果,對比傳統的信貸違約預測模型。下面對幾種機器學習分類算法各自的功能特點分別進行簡單介紹。

隨機森林(RandomForest)算法是一種以決策樹模型為核心實現的一種集成算法,通過將隨機組合成多棵樹,并根據隨機取投票結果或隨機取均值結果樹的計算的方式從而最終得到可預測的樹模型,它比隨機單棵樹具有相對更高的算法準確率和相對更強的系統穩定性。隨機森林相比決策樹擁有著更為出色且穩定持續的算法性能,主要取決于其抽取樣本的隨機性及對多棵樹的高度集成,樣本選擇的隨機性能夠讓它具有相對更穩定的抗過擬合能力,多棵樹的集成能夠讓到它具有更高的準確率。隨機森林本質上來講是一種高度集成性的樹算法,由數目眾多的樹基分類器等數據結構組成。其中組成一棵隨機森林樹算法的基分類器都是一個隨機CART樹,單棵隨機森林決策樹可獨立生成樹算法也可以實現完全獨立的樹分裂,既可以解決分類問題又可以解決回歸問題。行抽樣方法和列抽樣算法之間交叉引入可以保證讓隨機森林模型同時具有高抗過擬合的能力和高維抗噪聲能力。但是對低維數據集分類隨機森林算法不一定可以得到一個很好的效果,其計算速度遠遠比單個的隨機決策樹還要慢,如果我們僅僅需要推斷一些超出計算范圍內的獨立變量或其他非獨立的變量,隨機森林做得也許并不好。

XGBoost以GBDT為參照,在常規的分布式梯度提升算法上進行了一系列優化。XGBoost算法采用集成學習方式,在其成本函數中采用了泰勒公式的兩階展開,引入正則化項,通過參數調整優化,可以有效地避免欠擬合與過擬合。它在GBDT的基礎上,使用正則化項的限制,降低過擬合的可能;在對計算目標函數方差時,XGBoost引入二階泰勒展開式,GBDT只用了一階導數信息,XGboost支持自定義損失函數;在基分類的選擇上,XGBoost不僅支持樹模型,還支持線性模型,此時XGBoost相當于帶正則項的線性回歸模型;并行化是XGBoost的特色之一,它預先將每個特征按照特征值進行排序,并將其存儲為塊結構,分裂節點時采用多線程并行的方式查找每個特征值的最佳分割點,極大地提高了訓練速度。XGBoost的基本算法思想就是不斷地增加樹,從最開始先建立一棵CART分類回歸樹并逐漸迭代,在每次迭代的過程中都增加一棵樹,每增加一棵樹本質上就是學習一個新的函數去擬合上一次預測的殘差,最后將得到的樹進行集成,形成一個由眾多CART數所集成的高效高性能的強評估器。當我們預測到第K棵樹時,要預測一個樣本的分數,其實就是將該樣本的特征在每棵樹上對應的節點分數相加所得到的該樣本的預測值。

LightGBM(Light Gradient Boosting Machine)是針對GBDT在數據量較大或者特征數量較高時,存在的難以避免的拓展性和效率問題提出的。而LightGBM主要從以下幾個方面進行了優化:基于直方圖的決策樹算法,通過把連續型數值特征進行離散化,使用“分箱”的思想將變量原來的取值范圍均化為若干個區間,將分箱后每個區間的值作為直方圖中的累計統計量表示出來,遍歷數據后,根據離散化后的值,找到最優的分割點。這種算法可以有效減小內存占用和計算代價。同時,還使用了直方圖做差加速,在計算每個葉子的直方圖時,直接使用其父節點的直方圖減去其同級的直方圖得到,可以提高加倍計算速度;單邊梯度采樣技術(Gradient-based One-Side Sampling,GOSS)使用GOSS保留具有大梯度的且更直接影響信息增益的數據樣本,相比XGBoost的全量遍歷,減輕了空間消耗和時間使用;互斥特征捆綁(Exclusive Feature Bundling,EFB)通過對一些特征間很少同時非零的互斥特征進行強制結合,來減少特征數量,達到降維的目的,通過犧牲少量準確率來加速訓練過程,達到了和GBDT近乎相同的精度;帶深度限制的Leaf-wise的葉子生長策略,在GBDT原來的使用level-wise的產生決策樹方法上提出每次僅在左側葉子結點進行分裂,區分對待各層葉子,快速找到分裂時信息增益最大的葉子,使得當相同分裂次數條件下,最大限度降低誤差,提高精度。

三、實證分析

在信貸領域的風險主要分為兩種,其中一種是信用風險,另一種是欺詐風險。信用風險指借款人原本不打算違約,但在借款后因為某些主觀和客觀的原因沒有能力償還貸款的現象;而欺詐風險指的是借款人蓄意為之,在申請貸款前就不打算還。隨著大數據和人工智能的發展,商業銀行等可以依靠金融科技主動收集各類金融數據,從而為不同的用戶群體提供更精確的服務。通常,收集到的借款人信息是高維且稀疏的,產生違約風險的各因素之間的關系也錯綜復雜,且違約用戶的數量遠少于正常用戶,即數據往往是不平衡的,這使得準確預測違約風險十分困難。為有效識別出有違約風險的用戶,本文研究基于機器學習的信貸違約風險預測模型的性能,使用天池的貸款違約預測數據進行研究。樣本量共有80萬條,45個特征,包括貸款等級、就業年限(年)、貸款期限(年)、就業職稱、年收入、借款人在貸款申請時的貸款用途類別、貸款的初始列表狀態、貶損公共記錄的數量、借貸人的貸款總額占授信總額的比率、過去兩年逾期30至59天的次數、過去兩年逾期超過90天的次數、借貸人的年齡、過去兩年內出現35至59天逾期但是沒有發展得更壞的次數、過去兩年內出現60至89天逾期但是沒有發展得更壞的次數,過去兩年內出現90天逾期的次數等,其中定性變量有5個,定量變量40個。選擇“isDefault(是否違約)”為因變量,取值1表示借款人違約,0表示借款人未違約。違約樣本有159610個,未違約樣本有640390個,存在樣本不平衡現象。

(一)數據預處理

本文對數據進行重復值、缺失值、異常值等方面的數據預處理。該數據集中,共有2條重復樣本,直接對其進行刪除處理。金融行業不同于其他相關領域,客戶數據存在可能故意被隱瞞或者有意謊報信息的特定情況,因此我們更需要積極配合其他業務場景,對客戶缺失值數據和業務異常數據值信息進行甄別處理。對于定性變量,由于缺失值較少,直接用眾數進行填充;對于定量變量,觀察其分布,根據其分布進行中位數或均值進行填充,如果數據分布為偏態分布,用中位數進行填充,若分布近似正態分布,用平均數進行填充。對于異常值,常用的異常值檢測方法有箱線圖、三倍標準差方法等,對于異常值的處理,本文將大于90%的值用中位數替換。其中關于逾期次數的指標:例如“過去兩年內出現35至59天逾期但是沒有發展得更壞的次數”“過去兩年內出現60至89天逾期但是沒有發展得更壞的次數”“過去兩年內出現90天逾期的次數”等,這幾個指標在出現99%以上次數分布的平均值是2,而最大值卻是98,顯然是符合實際的,通過計算這三個指標大于90的記錄共225條,且標簽并非都為1,故視為異常值,可做刪除處理。

(二)模型建立

當數據預處理完成后,在進行模型訓練之前需要進行特征選擇,選擇有意義的特征輸入機器學習的算法進行訓練。特征選擇的方法通常分為三種:過濾法(Filter)、包裹法(Wrapper)和嵌入法(Embedded)。過濾式特征選擇按照發散性或者相關性對各個特征進行評分,設定閾值或者待選擇閾值的個數來選擇特征,如果一個特征不發散,例如方差接近于0,那么樣本在這個特征上基本上沒有差異,說明這個特征對于樣本的區分作用不大。另一方面,考察特征與目標的相關性,與目標相關性高的特征,應當優先選擇。包裹法特征選擇法依賴于目標函數(通常是預測效果評分),每次選擇若干特征,或者排除若干特征,包裹式特征選擇算法與分類器結合,直接把最終將要使用的分類器作為特征子集評價準則,這種方法選擇的特征相比過濾法更為準確,但需要不斷訓練以找到最優特征組合,計算代價相對更大。嵌入法特征選擇先使用某些機器學習的算法和模型進行訓練,得到各個特征的權值系數,根據系數從大到小選擇特征,類似于過濾式特征選擇法,但是它通過模型訓練來確定特征的優劣。基于此,本文首先使用過濾法,對定性變量進行卡方過濾,對定量變量進行方差過濾。其次利用相關系數和VIF方差擴大因子共同剔除一部分變量,再篩選掉Ⅳ值小于0.01的變量,最后納入模型的有16個。選擇75%的數據集作為訓練集,剩余樣本用作測試集。在訓練集的600000條借款人歷史數據中,違約樣本有119628條,占樣本總量的6.684%,貸款違約率為19.938%,未違約樣本480372條,占樣本總量的80.062%。可以看出該數據集是一個不平衡的數據集。

本文研究問題貸款是否違約為二分類問題,分別用邏輯回歸、隨機森林、XGBoost、LightGBM建立模型并進行參數調優,用AUC、KS值進行模型評估。由建模結果可以看出,三個集成學習模型(RandomForest、XGBoost、LightGBM)比邏輯回歸的AUC值和KS值都大,可見集成學習在風控領域也有良好的應用效果,三種集成模型對比來看,XGBoost效果最好,AUC和KS值最大,分別為0.721、0.322。

表1 模型評估結果

四個模型進行對比,XGBoost的AUC值和KS值最大,模型性能更好,通過sklearn的xgboost的plot_importance方法,得到每個特征變量的重要性程度,對于違約預測的重要性程度排在前面四位的分別是“借貸人的貸款總額占授信總額的比率”“過去兩年逾期30至59天的次數”“過去兩年逾期超過90天的次數”“借貸人的年齡”等。這四個特征對最終是否違約影響較大,因此在處理貸款申請時,可以重點對借貸人的這些特征進行關注。

四、研究結論與政策建議

互聯網金融的發展加快了資金流動,但同時也伴隨著信貸違約事件的頻繁發生,準確預測違約風險用戶是亟待解決的問題。機器學習越來越多地應用在風控領域,同時面臨著有用信息篩選和各種數據挖掘算法模型的選擇。信貸違約預測問題是二分類問題,本文首先利用常用的特征選擇方法對特征進行過濾,利用方差過濾法、卡方過濾法、相關系數、VIF、IV值等值篩選出15個重要變量,然后利用基于機器學習的RandomForest、XGBoost和LightGBM算法建立個人信貸違約預測模型,并與常見的邏輯回歸信用風險模型比較,從AUC、KS值等各項指標數據可以看出相比邏輯回歸,基于集成學習的模型效果在信貸違約預測場景具有更好的效果,且XGBoost相比RandomForest、LightGBM在信貸違約預測場景具有更好性能。本文實證研究可有助于傳統金融機構管理者更加科學、精確、快速地正確識別傳統信貸客戶業務的各種風險特征,幫助互聯網信貸機構有效建設在金融信貸業務監管中應有的評級指標體系,完善對互聯網金融機構產品的信用審批體系,優化信用額度及分配監管流程。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 午夜精品久久久久久久99热下载| 国产女人综合久久精品视| 成人在线观看不卡| 国产毛片基地| 久久久久久尹人网香蕉 | 77777亚洲午夜久久多人| 国产精品流白浆在线观看| 久久精品日日躁夜夜躁欧美| 国产成人综合在线观看| 免费在线观看av| 亚洲专区一区二区在线观看| 99热亚洲精品6码| 久久精品只有这里有| 91小视频版在线观看www| 国产又粗又爽视频| 国产原创演绎剧情有字幕的| 四虎永久免费地址| www.亚洲天堂| 欧美亚洲国产日韩电影在线| 欧美一区日韩一区中文字幕页| 91国内外精品自在线播放| 国产成人亚洲精品无码电影| 国产亚洲欧美在线人成aaaa| 欧美不卡视频一区发布| 亚洲人成网站观看在线观看| 91激情视频| 欧美啪啪网| 久久精品这里只有国产中文精品 | 欧类av怡春院| 国产区免费精品视频| 亚洲av无码久久无遮挡| 亚洲精品综合一二三区在线| 91福利免费| 九九热免费在线视频| 九九九精品成人免费视频7| 国产精选小视频在线观看| 欧美国产在线一区| 手机在线看片不卡中文字幕| 欧美成人精品高清在线下载| 欧美日一级片| 欧美亚洲国产精品久久蜜芽| 亚洲第一成年网| 国产在线自在拍91精品黑人| 国产福利在线免费观看| 欧美一区国产| 91在线精品麻豆欧美在线| 欧美在线视频不卡第一页| 狠狠色狠狠色综合久久第一次| 白浆视频在线观看| 国产91视频观看| 熟妇丰满人妻| 亚洲天堂日韩av电影| 国产成人91精品免费网址在线| 亚洲成人黄色在线观看| 污网站在线观看视频| 婷婷综合在线观看丁香| 欧美精品亚洲精品日韩专| 国产人免费人成免费视频| 国产欧美日韩精品第二区| 精品国产www| 国产精品视频猛进猛出| 亚洲欧美成人在线视频| 日本午夜影院| 一本大道香蕉高清久久| 国产精品手机在线观看你懂的| 中文字幕亚洲精品2页| 免费在线一区| 精品国产污污免费网站| 无码aaa视频| 日本尹人综合香蕉在线观看 | 97se亚洲综合在线韩国专区福利| 亚洲精品无码高潮喷水A| 天堂成人在线| 久热这里只有精品6| 欧美区在线播放| 国产玖玖视频| 不卡国产视频第一页| 精品久久综合1区2区3区激情| 国产主播一区二区三区| 国产亚洲精品va在线| 亚洲黄网在线| 久久精品aⅴ无码中文字幕 |