999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

互聯(lián)網(wǎng)小額信貸違約風(fēng)險(xiǎn)識(shí)別模型研究:基于集成學(xué)習(xí)方法

2025-03-05 00:00:00趙健郭青

摘" 要:隨著互聯(lián)網(wǎng)信貸規(guī)模快速擴(kuò)大,風(fēng)險(xiǎn)管理問題日益突出。為更準(zhǔn)確預(yù)測用戶違約概率,提升信貸風(fēng)險(xiǎn)控制能力,本研究將傳統(tǒng)評分卡模型和機(jī)器學(xué)習(xí)模型相結(jié)合,提出一種新的違約風(fēng)險(xiǎn)識(shí)別模型。以LendingClub小額貸款業(yè)務(wù)數(shù)據(jù)為樣本,在對數(shù)據(jù)進(jìn)行預(yù)處理、變量篩選和不平衡數(shù)據(jù)處理后,將LightGBM和NGBoost的預(yù)測概率通過評分卡模型轉(zhuǎn)化為信用評分,并將其作為新的特征,運(yùn)用Logistic得到最終結(jié)果。結(jié)果表明:與單一模型相比,引入傳統(tǒng)評分卡模型的組合模型具有更優(yōu)的識(shí)別效果。該研究將為增強(qiáng)對借款人的動(dòng)態(tài)管理提供有效理論依據(jù)。

關(guān)鍵詞:違約風(fēng)險(xiǎn)識(shí)別;集成學(xué)習(xí);評分卡模型;組合模型

中圖分類號(hào): F830.5;TP181" 文獻(xiàn)標(biāo)識(shí)碼:" A" 文章編號(hào):" 2096-7055(2025)02-0054-09

收稿日期:" 2023-04-12

基金項(xiàng)目:" 教育部人文社科青年項(xiàng)目(24YJC860013);河南省高校人文社會(huì)科學(xué)研究一般項(xiàng)目(2025-ZZJH-155);河南省高校哲學(xué)社會(huì)科學(xué)應(yīng)用研究重大項(xiàng)目(2025-YYZD-07)

作者簡介:" 趙健,女,教授,博士,碩士生導(dǎo)師,研究方向?yàn)榭萍冀鹑冢还啵T士,研究方向?yàn)榻鹑诮y(tǒng)計(jì)。

DOI:10.13790/j.ncwu.sk.2025.018" 投稿網(wǎng)址:https://publish.cnki.net/slsb

引用格式:趙健,郭青.互聯(lián)網(wǎng)小額信貸違約風(fēng)險(xiǎn)識(shí)別模型研究:基于集成學(xué)習(xí)方法[J].華北水利水電大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2025,41(2):54-62.

互聯(lián)網(wǎng)小額信貸因其投放速度快、利率定價(jià)機(jī)制靈活以及較強(qiáng)的普惠性,在增進(jìn)社會(huì)福利方面發(fā)揮了重要作用。在互聯(lián)網(wǎng)技術(shù)快速發(fā)展、市場競爭日趨激烈的背景下,互聯(lián)網(wǎng)小額信貸規(guī)模快速擴(kuò)大,其痛點(diǎn)和難點(diǎn)也日漸凸顯,尤其是違約風(fēng)險(xiǎn)和欺詐風(fēng)險(xiǎn)。2018年以來,大量P2P公司由于資金鏈斷裂而跑路,更是引起理論界和實(shí)務(wù)界對互聯(lián)網(wǎng)小額信貸風(fēng)險(xiǎn)的關(guān)注。

互聯(lián)網(wǎng)小額信貸沒有實(shí)物抵押,是通過評判借款申請人個(gè)人信用高低來確定授信額度,對客戶信用要求極高。因此,如何利用客戶過往信息,分析和研究其信用特征,有效識(shí)別貸款人信用,對防范信貸違約風(fēng)險(xiǎn)至關(guān)重要。對客戶進(jìn)行信用評估,數(shù)據(jù)和模型是基石,但目前尚未有成熟的識(shí)別機(jī)制:一方面,網(wǎng)絡(luò)平臺(tái)中有關(guān)用戶信用的數(shù)據(jù)較少,且沒有統(tǒng)一完善的信用評估系統(tǒng),用戶在平臺(tái)填寫的自身行為數(shù)據(jù)在完整性和真實(shí)性方面存在不足;另一方面,隨著大數(shù)據(jù)時(shí)代的來臨,用戶的個(gè)人信息特征維度也會(huì)逐漸變多,數(shù)據(jù)信息量大且冗余。傳統(tǒng)的審批模式已經(jīng)不足以滿足互聯(lián)網(wǎng)信貸實(shí)時(shí)、準(zhǔn)確和高效的風(fēng)險(xiǎn)管理需求。因此,建立更加高效且準(zhǔn)確的違約風(fēng)險(xiǎn)識(shí)別模型,量化貸款申請人可能存在的違約風(fēng)險(xiǎn),對于進(jìn)一步提高互聯(lián)網(wǎng)信貸平臺(tái)的風(fēng)險(xiǎn)控制能力、創(chuàng)建良好的信貸環(huán)境從而促進(jìn)互聯(lián)網(wǎng)金融行業(yè)的健康發(fā)展具有重要意義。

一、問題的提出

無論是在傳統(tǒng)的金融領(lǐng)域還是互聯(lián)網(wǎng)金融領(lǐng)域,通過數(shù)據(jù)構(gòu)建風(fēng)險(xiǎn)識(shí)別模型,并且不斷改進(jìn)和優(yōu)化風(fēng)險(xiǎn)管理制度,都具有重要意義。為有效防范信貸風(fēng)險(xiǎn),自20世紀(jì)40年代開始,美國就開始探究信用評估方式。1956年,Bill Fair和Earl Isaac建立了用于個(gè)人信用信貸評級的FICO方法,為美國信用評級的深入發(fā)展奠定了基石,也是沿用至今的評分卡模型的基礎(chǔ)。FICO評分卡模型根據(jù)客戶過往的信用、行為和消費(fèi)能力等多個(gè)維度,將其分割為多個(gè)區(qū)間并給出得分,對用戶不同維度的評分進(jìn)行加權(quán)求和得到總評分結(jié)果,通過總體得分情況判斷用戶信用情況,分?jǐn)?shù)越高表明用戶信用越好,從而為金融公司提供是否對用戶申請借款審批通過的依據(jù),輔助金融機(jī)構(gòu)進(jìn)行決策。

隨著回歸模型的發(fā)展,Wiginton首次將Logistic模型應(yīng)用到個(gè)人信用評估領(lǐng)域[1],提出將Logistic結(jié)果作為替代方案應(yīng)用到評分概念中,這使得以Logistic為核心的個(gè)人信用評級成為國內(nèi)外貸前風(fēng)險(xiǎn)控制的主要方式。

隨著大數(shù)據(jù)技術(shù)和互聯(lián)網(wǎng)金融的發(fā)展,用戶信息規(guī)模越來越大,相關(guān)的數(shù)據(jù)挖掘算法也越來越成熟。Logistic模型不再適用于對維度較多的數(shù)據(jù)特征進(jìn)行預(yù)測,越來越多的人將目光放在了機(jī)器學(xué)習(xí)模型上。段翀結(jié)合K-S檢驗(yàn)與距離相關(guān)分析,構(gòu)建了評價(jià)客戶違約概率的互聯(lián)網(wǎng)信貸信用指標(biāo)體系[2]。基于統(tǒng)計(jì)方法的評估模型往往對數(shù)據(jù)有嚴(yán)格的假設(shè)條件,而非統(tǒng)計(jì)方法則主要是依托計(jì)算機(jī)技術(shù)的人工智能方法。閆春等將支持向量機(jī)和卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到宏觀經(jīng)濟(jì)監(jiān)測中[3],結(jié)果顯示,相對于單獨(dú)CNN模型預(yù)警,該預(yù)警方法的準(zhǔn)確率得到了明顯提高。Kruppa等則通過對比決策樹、廣義線性模型、樸素貝葉斯和支持向量機(jī)四種算法,證明了廣義線性模型相比于其他三種模型,其預(yù)測準(zhǔn)確性最佳,并且說明了數(shù)據(jù)預(yù)處理過程對模型預(yù)測性能有顯著影響[4]。涂艷等將Logistic模型與支持向量機(jī)、決策樹模型和BP神經(jīng)網(wǎng)絡(luò)進(jìn)行比較,結(jié)果顯示,相比于Logistic模型,機(jī)器學(xué)習(xí)模型對借款人的違約概率預(yù)測更準(zhǔn)確[5]。Niu等為檢驗(yàn)社交網(wǎng)絡(luò)信息在預(yù)測貸款違約上的有效性,構(gòu)建了AdaBoost、隨機(jī)森林和LightGBM三種機(jī)器學(xué)習(xí)算法,證明了社交網(wǎng)絡(luò)信息能夠顯著提高用戶貸款違約預(yù)測的準(zhǔn)確性[6]。

若僅僅使用單一模型進(jìn)行預(yù)測,效果具有一定的局限性。于是眾多學(xué)者嘗試將模型進(jìn)行融合和改進(jìn),以期將各模型的優(yōu)點(diǎn)結(jié)合起來。章彤等根據(jù)最優(yōu)信用特征建立了違約識(shí)別模型,并以我國A股上市公司為例,對模型精度進(jìn)行了實(shí)證研究[7]。結(jié)果顯示,經(jīng)過特征劃分的線性判別分析、K近鄰、支持向量機(jī)等模型的精度整體高于沒有經(jīng)過特征劃分的模型精度。白鵬飛等在針對互聯(lián)網(wǎng)信貸信用評估時(shí),分別建立支持向量機(jī)、隨機(jī)森林和XGBoost模型進(jìn)行預(yù)測,并對模型進(jìn)行了融合[8]。

結(jié)果顯示,多模型融合的效果要明顯優(yōu)于單一模型的預(yù)測效果。Tanoue等提出了基于Boosting和SVR模型使用兩階段預(yù)測用戶違約概率的預(yù)測模型,通過實(shí)驗(yàn)證明boosting模型的預(yù)測性能更好[9]。Zhou將GBDT、XGBoost和LightGBM作為個(gè)體分類器,基于信貸信用數(shù)據(jù)建立了決策樹的異構(gòu)集成學(xué)習(xí)模型[10]。相比于基準(zhǔn)模型,該模型取得了更理想的預(yù)測結(jié)果。周永圣等引入XGBoost算法篩選個(gè)人信用風(fēng)險(xiǎn)評估指標(biāo),從而改進(jìn)隨機(jī)森林算法[11]。從預(yù)測效果來看,改進(jìn)的隨機(jī)森林算法展示出了較好的優(yōu)越性。同時(shí),針對大數(shù)據(jù)時(shí)代信用數(shù)據(jù)中存在高維稀疏和不平衡數(shù)據(jù)的問題,張麗穎等在利用隨機(jī)森林對特征進(jìn)行提取后,采用了SMOTE算法對樣本進(jìn)行了過采樣處理,再通過粒子群優(yōu)化算法對XGBoost進(jìn)行調(diào)參,從而優(yōu)化了模型預(yù)測精度和收斂性[12]。

二、基于評分模型計(jì)算方式的組合模型構(gòu)建原理

(一)基礎(chǔ)模型

常見的基礎(chǔ)模型主要有Logistic模型、LightGBM模型和NGBoost模型。其中,Logistic回歸模型是以線性回歸為理論基礎(chǔ),通過Sigmoid函數(shù)將線性回歸輸出的結(jié)果轉(zhuǎn)換到0到1范圍內(nèi),保證了Logistic模型的非線性,該方法主要用于解決二分類問題,用于估計(jì)某種事情發(fā)生的可能性。LightGBM模型是在GBDT算法上進(jìn)行改進(jìn)的梯度提升算法,基于決策樹實(shí)現(xiàn),運(yùn)用直方圖算法的基本思想,對每個(gè)特征進(jìn)行分箱,再將樣本數(shù)據(jù)更新為箱子的值,通過直方圖作差來獲得葉子節(jié)點(diǎn),減少計(jì)算信息增益的次數(shù),大大提高運(yùn)算速度。LightGBM另一優(yōu)勢是按葉生長和運(yùn)用GOSS算法。按層生長的策略是指對同一層的葉子不區(qū)別對待,但是可能使許多葉子節(jié)點(diǎn)分裂之后產(chǎn)生的信息增益較小;按葉生長能夠從所有葉子中找到使得分裂后信息增益最大的葉子,然后選擇增益效果最大的葉子進(jìn)行分裂,因此,按葉生長策略能夠在分裂次數(shù)相同的時(shí)候得到更好的精度。NGBoost則是通過梯度提升來進(jìn)行概率性預(yù)測的機(jī)器學(xué)習(xí)算法,在梯度提升算法中引入了自然梯度概念,填補(bǔ)了梯度提升難以進(jìn)行概率預(yù)測的空缺,可以很好地解決預(yù)測結(jié)果的不確定度問題。

(二)基于評分模型計(jì)算方式的組合模型

在傳統(tǒng)金融領(lǐng)域?qū)τ脩粜庞迷u估的方法中,最便捷且有效的方法就是通過構(gòu)建評分卡模型來評估。根據(jù)用戶的過往數(shù)據(jù),得到其個(gè)人信用評分,從而判斷用戶的信用情況。為進(jìn)一步提升模型對違約風(fēng)險(xiǎn)的識(shí)別能力,將傳統(tǒng)金融風(fēng)控領(lǐng)域的評分卡模型與機(jī)器學(xué)習(xí)模型相結(jié)合。

1.評分卡模型原理

評分卡模型是目前商業(yè)銀行中使用最多的模型之一,主要用于貸前審批和貸中管理,具有較強(qiáng)的解釋性。該模型主要是運(yùn)用模型輸出的預(yù)測概率,將其轉(zhuǎn)化為信用評分。若把用戶違約概率記為p,用戶沒有違約的概率記為1-p,兩者之比記為Podds,即:

Podds=p1-p。 (1)

則信用評分可以用以下公式進(jìn)行計(jì)算:

Fscore=A-Bln(Podds)。 (2)

若Podds為θ0時(shí)信用評分為P0,Podds為2θ0時(shí)信用評分增加了Ppdo,此時(shí)可以得到如下公式:

P0=A-Bln(θ0);P0+Ppdo=A-Bln(2θ0)。(3)

對式(3)進(jìn)行求解,可以得到A和B的值分別為:

B=Ppdoln2;A=P0+Bln(θ0)。" (4)

此時(shí)通過定義P0、Podds、θ0就可以將模型的概率輸出轉(zhuǎn)化為信用評分,其背后的邏輯是將Podds映射為信用評分,以信用評分來反映Podds。

2.組合模型原理

借鑒Stacking集成學(xué)習(xí)思想,在對模型進(jìn)行組合時(shí),將初始模型稱為初級學(xué)習(xí)器,用于結(jié)合的最終預(yù)測模型稱為次級學(xué)習(xí)器。為防止過度擬合,使用交叉驗(yàn)證法預(yù)測各樣本的違約概率,將其中兩個(gè)模型作為初級學(xué)習(xí)器,通過評分卡模型分別將各樣本在不同模型下得到違約概率轉(zhuǎn)化為信用評分后,把其信用評分結(jié)果作為新的特征放入原始數(shù)據(jù)中,用第三個(gè)模型作為次級學(xué)習(xí)器進(jìn)行訓(xùn)練,得到最終的模型識(shí)別結(jié)果,組合原理如圖1所示。運(yùn)用暴力搜索法遍歷所有的可能性,以Logistic、LightGBM和NGBoost為基礎(chǔ)模型,通過對比不同方式的組合模型效果,選擇效果最好的組合方式。

(三)評價(jià)指標(biāo)的選擇

在評價(jià)模型效果的優(yōu)劣性時(shí),通常需要使用各種指標(biāo)來對模型進(jìn)行綜合評價(jià)分析,本研究選用精確率Rprecision、F1、RAUC和RKS為模型的評價(jià)指標(biāo),這些指標(biāo)都是基于混淆矩陣來進(jìn)行計(jì)算的,混淆矩陣具體形式如表1所示。

STP代表被預(yù)測為正的正樣本,SFP代表被預(yù)測為負(fù)的正樣本,STN代表被預(yù)測為負(fù)的負(fù)樣本,SFN代表被預(yù)測為正的負(fù)樣本。通過混淆矩陣計(jì)算各評價(jià)指標(biāo),如式(5)—(8)所示。可以看出,F(xiàn)1是一個(gè)綜合評價(jià)指標(biāo),調(diào)和評價(jià)了精確率和召回率, F1分?jǐn)?shù)越大,說明模型的效果越好,反之則說明模型效果越差。

精確率: Rprecision=STPSTP+SFP;""" (5)

召回率: Rrecall=STPSTP+SFN;"""" (6)

假正率: RFPR=SFPSFP+STN;"" (7)

F1-Fscore=2RprecisionRrecallRprecision+Rrecall。" (8)

以不同的概率閾值作為劃分正樣本和負(fù)樣本的分界線,可以分別計(jì)算出一系列Rrecall和假正率RFPR值,以RFPR為橫坐標(biāo),以Rrecall為縱坐標(biāo),可以繪制出ROC曲線。ROC曲線與橫坐標(biāo)所圍成的面積記為RAUC,可用于判斷分類模型優(yōu)劣,該值越大,ROC曲線越靠近坐標(biāo)軸的左上方,說明模型的預(yù)測能力越好。RAUC也可以理解為取任意樣本,樣本為正樣本的概率大于為負(fù)樣本概率。

RKS評價(jià)指標(biāo)是風(fēng)控領(lǐng)域使用頻率較高的指標(biāo)之一,它是以概率閾值為橫坐標(biāo),分別以RFPR和Rrecall為縱坐標(biāo)繪制的隨著概率閾值變化的曲線, RKS值就是取Rrecall和RFPR這兩條曲線之間差異最大的數(shù)值。它衡量了模型對于正負(fù)樣本的區(qū)分能力,RKS值越大表明模型的樣本區(qū)分能力越強(qiáng)。

三、數(shù)據(jù)介紹與描述性統(tǒng)計(jì)

(一)數(shù)據(jù)介紹與預(yù)處理

本研究樣本數(shù)據(jù)集來自全球最大的信貸平臺(tái)之一LendingClub在2017—2020年第二季度的小額貸款交易信息。該數(shù)據(jù)集包括了1 659 594條記錄,一共有150個(gè)自變量,1個(gè)因變量loan_status,其中自變量包括借款人的申請信息、風(fēng)險(xiǎn)評估、個(gè)人信息、歷史信貸信息、貸后還款記錄等方面的信息,因變量可以根據(jù)各個(gè)值的具體含義劃分為是否違約,對于借款用戶是否違約的預(yù)測轉(zhuǎn)化為一個(gè)二分類問題。

數(shù)據(jù)集中有大量非數(shù)值型變量和缺失值,如果輸入的數(shù)據(jù)存在缺失、噪聲等問題,會(huì)影響模型的輸出結(jié)果。因此,需要對數(shù)據(jù)進(jìn)行預(yù)處理。對于數(shù)據(jù)集中缺失率大于80%的變量進(jìn)行剔除,其余缺失值用-1代替。對于分類變量,將二分類變量和具有明顯等級關(guān)系的變量直接轉(zhuǎn)化為連續(xù)性數(shù)值變量;若變量的各類別之間不存在明顯的大小關(guān)系,則對變量進(jìn)行one-hot編碼。

(二)數(shù)據(jù)的重采樣與數(shù)據(jù)劃分

在對數(shù)據(jù)進(jìn)行清洗后共有1 659 594個(gè)樣本,其中違約的數(shù)據(jù)只有140 423個(gè),僅占全部樣本的8.46%,數(shù)據(jù)存在嚴(yán)重的不平衡現(xiàn)象,因此,在分類器學(xué)習(xí)樣本的過程中,會(huì)更多地學(xué)習(xí)到大類樣本的特征而忽略了少類樣本;而在對信貸違約風(fēng)險(xiǎn)進(jìn)行識(shí)別時(shí),少類樣本是更需要關(guān)注的,如果不進(jìn)行不平衡數(shù)據(jù)處理將會(huì)導(dǎo)致模型預(yù)測偏差,影響總體準(zhǔn)確率,這樣會(huì)帶來嚴(yán)重的后果。對于不平衡數(shù)據(jù)處理主要有欠采樣和重采樣方法,欠采樣會(huì)在一定程度上損失數(shù)據(jù)所蘊(yùn)含的信息,因此,在訓(xùn)練模型前本研究對數(shù)據(jù)BorderlineSMOTE進(jìn)行重采樣。在對樣本進(jìn)行重采樣處理后,使樣本增加到3 038 342個(gè),未違約樣本與違約樣本的比例為1∶1。

在數(shù)據(jù)預(yù)處理和平衡后,進(jìn)一步將數(shù)據(jù)集進(jìn)行劃分。在訓(xùn)練LightGBM和NGBoost模型中,將數(shù)據(jù)集以6∶2∶2的比例劃分為訓(xùn)練集、驗(yàn)證集、測試集。在Logistic模型訓(xùn)練過程中,將數(shù)據(jù)集以7∶3的比例劃分為訓(xùn)練集和測試集。

(三)描述性統(tǒng)計(jì)分析

為進(jìn)一步了解數(shù)據(jù)特征、用戶借款特征和違約特征,接下來對保留的部分變量進(jìn)行可視化描述性統(tǒng)計(jì)分析,數(shù)據(jù)在Python中運(yùn)行。

1.用戶借款特征

從申請借款金額、實(shí)際借款金額和借款利率三個(gè)方面反映用戶借款特征。樣本數(shù)據(jù)顯示,大多數(shù)用戶的借款金額分布在5 000至15 000之間,其中10 000元左右的用戶最多,這符合小額信貸的借款特征;而且隨著借款金額的增大,借款用戶數(shù)越來越少,高額度用戶通常較少;從借款利率看,借款利率大多在0.20以下,其中0.10左右的用戶居多。

2.用戶信用特征

信用等級是影響借款人是否發(fā)生違約行為的重要因素之一。分別從借款人信用等級比例、不同信用等級違約率、不同信用等級借款情況來反映借款人信用特征,其中,信用等級按照A,B,C,…,G的順序依次降低。

從借款人信用等級看,樣本中信用評級為A的高信用借款人占比最高,為29.56%;其次是信用評級為B的借款人,占比為27.86%,信用等級越低,占比越小。

圖2(a)繪制了不同信用等級違約率的條形圖,由圖2(a)整體顯示,信用評級越低,違約率越高;當(dāng)信用等級為最低的G級時(shí),違約率高達(dá)0.300;而信用等級為最高的A級時(shí),違約率大約為0.025;整體上看,違約概率不超過0.300。

圖2(b)繪制了不同信用等級平均借款的情況,由圖2(b)可以看出,信用級別越低,平均借款金額越大的趨勢;A、B、C和D級信用的借款人平均借款金額差別不大,F(xiàn)和G級信用的借款人平均借款金額有明顯增大趨勢,G級借款人平均借款金額最大。

圖2(c)繪制了平均借款利率累計(jì)折線圖,該圖顯示,信用等級越低,相應(yīng)的借款利率隨之上升,這可能是因?yàn)樾庞玫燃壴降停`約概率越大,金融機(jī)構(gòu)出于資金安全考慮,制定了較高的借款利率。

3.用戶借款目的特征

從借款目的來看,包括負(fù)債、還信用卡、大型購物、買車、醫(yī)療、教育、住房、結(jié)婚、運(yùn)動(dòng)、度假等,其中,因?yàn)樨?fù)債和還信用卡而借款的用戶最多,其次是提高住房水平的用戶。從借款目的與借款利率的關(guān)系來看,貸款用途分別為住房和小額商業(yè)的借款利率分布較高,借款用途為教育、婚禮和其他的借款利率相對集中,利率比較穩(wěn)定,其他用途的利率區(qū)間相對較大。

4.違約用戶與未違約用戶基本特征比較

從用戶年收入、資產(chǎn)負(fù)債比和工作年限比較違約用戶與未違約用戶的基本特征差異。從年收入來看,違約用戶在年收入分布上比較集中,但是相對于未違約用戶,違約用戶的收入分布相對較低,通常收入較低的人的還款能力較低,更容易出現(xiàn)違約行為。從資產(chǎn)負(fù)債比分布上也可以看出,違約用戶的資產(chǎn)負(fù)債比相對較低,證明資產(chǎn)越低的用戶違約的可能性越高。從借款人的工作年限可以看出,未違約用戶的平均工作年限高于違約用戶,可能與年輕人的還款能力偏弱有關(guān),工作年限越長可能收入越高,還款能力也就越強(qiáng)。

四、實(shí)證結(jié)果與分析

(一)特征變量的選取

對變量進(jìn)行one-hot編碼后會(huì)產(chǎn)生大量稀疏變量,從而影響預(yù)測結(jié)果,因此,選擇隨機(jī)森林對特征重要性進(jìn)行排序,篩選出重要性較高的變量,提高預(yù)測上限。隨機(jī)森林屬于Bagging集成學(xué)習(xí),它通過對特征和樣本進(jìn)行隨機(jī)采樣,然后對每個(gè)隨機(jī)樣本分別構(gòu)建決策樹,最終結(jié)果由所有決策樹投票決定,每棵決策樹之間是并行存在的,通過集成學(xué)習(xí)的思想將多棵樹集成以提高模型預(yù)測準(zhǔn)確性。由隨機(jī)森林算法訓(xùn)練出的分類器,在面對高維數(shù)據(jù)以及缺失數(shù)據(jù)時(shí)依舊能夠保持穩(wěn)健性。

對于LendingClub數(shù)據(jù)集,特征重要性主要集中在頭部變量,尾部變量的特征重要性較小,且尾部變量較多,其中借款人是否處于艱難計(jì)劃的重要性排序最高,處于艱難的自然違約的可能性會(huì)更大。因此,通過計(jì)算特征重要性累加值,保留特征重要性累加0.8之內(nèi)的所有變量,對特征重要性弱的變量進(jìn)行剔除,最終保留了

54個(gè)變量。計(jì)算保留變量之間的相關(guān)性,相關(guān)系數(shù)最大為0.12,說明各個(gè)變量之間的相關(guān)性程度不強(qiáng),并且目標(biāo)變量與各變量之間的直接相關(guān)性也不大,通過隨機(jī)森林篩選后的變量是有效的。

(二)基于組合模型的違約風(fēng)險(xiǎn)識(shí)別

1.信用評分的轉(zhuǎn)換

將6∶2∶2比例的訓(xùn)練集、驗(yàn)證集、測試集用于建立LightGBM和NGBoost模型,其中訓(xùn)練集用于訓(xùn)練模型,驗(yàn)證集用于尋找模型的最優(yōu)參數(shù),使用網(wǎng)格搜索法確定LightGBM和NGBoost的最優(yōu)參數(shù),測試集用于測試模型的泛化能力。此外,將7∶3比例的訓(xùn)練集和測試集用于訓(xùn)練 Logistic模型。對于在相關(guān)理論中介紹的評分模型,定義基礎(chǔ)分設(shè)定Po為500,Ppdo為50,將Logistic、LightGBM和NGBoost模型的預(yù)測概率值分別進(jìn)行轉(zhuǎn)化。從圖3個(gè)人信用評分分布看,由各模型得到的個(gè)人信用評分基本呈現(xiàn)類似正態(tài)分布,說明該信用評分具有一定的合理性,對于不同的貸款用戶,評分大小具有一定的可比性。

2.組合模型的構(gòu)建

在計(jì)算出個(gè)人信用評分之后,可以通過增加新的特征對模型進(jìn)行組合。對Logistic、LightGBM和NGBoost模型進(jìn)行排列組合,分別以不同的模型作為次級學(xué)習(xí)器,得到如圖4所示的三個(gè)組合模型,通過對比不同的組合方式,尋找最優(yōu)的違約風(fēng)險(xiǎn)識(shí)別模型。

(三)模型有效性對比與分析

表2報(bào)告了每一個(gè)模型未經(jīng)過采樣處理、BorderlineSMOTE重采樣和組合三種方法下的數(shù)據(jù)集在不同模型上的表現(xiàn)。表中BorderlineSMOTE-Logistic表示Logistic模型經(jīng)過BorderlineSMOTE重采樣方式后的表現(xiàn),其他模型同理。

從單一模型來看,LightGBM的效果要優(yōu)于其他兩個(gè)模型;從重采樣后的數(shù)據(jù)來看,LightGBM的精確率達(dá)到0.838,F(xiàn)1分?jǐn)?shù)為0.853,RAUC值0.927,RKS值0.706,而Logistic的精確率Rprecision僅0.692,F(xiàn)1分?jǐn)?shù)0.670,RAUC值0.735,RKS值0.358。在用戶信息維度較多的情況下,通常數(shù)據(jù)不再是線性的,此時(shí)使用Logistic模型的效果較差,機(jī)器學(xué)習(xí)模型的效果則會(huì)更優(yōu)。 并且在此數(shù)據(jù)集上LightGBM的表現(xiàn)要優(yōu)于NGBoost,但不能說明LightGBM一定好于NGBoost,不同模型在不同的數(shù)據(jù)集上的效果也會(huì)有所差異。

以任意模型為次級學(xué)習(xí),模型的各個(gè)評價(jià)指標(biāo)從上到下均依次增加,表明重采樣技術(shù)和模型組合可以進(jìn)一步提高模型的識(shí)別效果。在重采樣的基礎(chǔ)上進(jìn)行模型組合,模型的違約風(fēng)險(xiǎn)識(shí)別效果明顯有了進(jìn)一步提升,引入評分卡模型實(shí)現(xiàn)模型之間的組合后,模型的精確率Rprecision和F1分?jǐn)?shù)達(dá)到0.850以上,RAUC在0.900以上,RKS在0.700以上,且組合模型整體表現(xiàn)良好,模型效果相對穩(wěn)定。

對比使用不同初級學(xué)習(xí)器和次級學(xué)習(xí)器,LightGBM模型和NGBoost模型作為基模型的效果最好。相比于其他組合模型,這兩個(gè)模型的各評價(jià)指標(biāo)都提高了1個(gè)百分點(diǎn)。利用評分卡模型實(shí)現(xiàn)模型之間的組合后,以Logistic模型為次級學(xué)習(xí)器的精確率Rprecision和F1得分為0.880,

RAUC得分為0.945,RKS得分為0.753。相比于單一模型,各評價(jià)指標(biāo)得分都有不同程度的提高,組合后的模型效果要優(yōu)于單個(gè)模型的表現(xiàn),且以Logstic模型為最外層模型也可以進(jìn)一步防止過擬合現(xiàn)象。各模型評價(jià)指標(biāo)的比較結(jié)果如圖5所示。

由圖5可知,相比于其他組合方式,初級學(xué)習(xí)器為LightGBM和NGBoost,次級學(xué)習(xí)器為Logistic的模型識(shí)別效果最好。同時(shí),該模型的各項(xiàng)評價(jià)指標(biāo)均高于其他組合方式的模型,其中精確率Rprecision達(dá)到0.877,F(xiàn)1達(dá)到了0.876,RAUC和RKS相比其他兩個(gè)模型提高幅度超過1個(gè)百分點(diǎn)。

綜上所述,組合模型的效果遠(yuǎn)好于單一模型,各項(xiàng)評價(jià)指標(biāo)表現(xiàn)優(yōu)異,違約風(fēng)險(xiǎn)識(shí)別效果也更穩(wěn)定,說明將評分卡模型與機(jī)器學(xué)習(xí)模型相結(jié)合能有效改善模型的精確度,可以更好地對可能出現(xiàn)違約行為的借款人進(jìn)行識(shí)別,有效防范小額信貸風(fēng)險(xiǎn)。

五、研究結(jié)論

本研究以互聯(lián)網(wǎng)小額信貸客戶為研究對象,將評分卡模型和機(jī)器學(xué)習(xí)模型進(jìn)行有效組合,提出了新型的違約風(fēng)險(xiǎn)識(shí)別模型,并檢驗(yàn)該模型的識(shí)別效果。研究結(jié)果顯示:

第一,重采樣對模型的識(shí)別效果有顯著的正向影響。在對數(shù)據(jù)進(jìn)行預(yù)處理和特征篩選后,針對互聯(lián)網(wǎng)小額信貸數(shù)據(jù)不平衡的特點(diǎn),分別對未采樣數(shù)據(jù)、重采樣數(shù)據(jù)建立單一模型,結(jié)果顯示重采樣后的數(shù)據(jù)在模型上的效果都要明顯優(yōu)于未采樣的數(shù)據(jù),且對模型識(shí)別效果有顯著的正向影響。

第二,傳統(tǒng)風(fēng)控領(lǐng)域的評分卡模型和機(jī)器學(xué)習(xí)模型相結(jié)合可提升模型識(shí)別效果。組合后的模型效果顯著優(yōu)于單一模型,精確率Rprecision和F1分?jǐn)?shù)在0.800以上,RAUC在0.900以上,RKS值在0.700左右。通過調(diào)整基模型發(fā)現(xiàn),以LightGBM和NGBoostt模型為初級學(xué)習(xí)器的效果最突出,證明了將傳統(tǒng)風(fēng)控領(lǐng)域的評分卡模型和機(jī)器學(xué)習(xí)模型相結(jié)合可以進(jìn)一步提升模型效果。

第三,識(shí)別借款人信貸違約風(fēng)險(xiǎn)時(shí),需對其進(jìn)行動(dòng)態(tài)管理。研究發(fā)現(xiàn),隨著借款人數(shù)據(jù)的變化,根據(jù)評分卡模型計(jì)算的信用評分結(jié)果也會(huì)隨之變化,進(jìn)而影響預(yù)測結(jié)果,這表示需要對借款人進(jìn)行動(dòng)態(tài)管理,以提高模型識(shí)別效果。

本研究僅對小額信貸違約情況進(jìn)行了二分類識(shí)別,并沒有對用戶進(jìn)行更多層級的劃分,未來可結(jié)合業(yè)務(wù)場景對用戶進(jìn)行多級分層,更具針對性地對用戶進(jìn)行風(fēng)險(xiǎn)防范。

參考文獻(xiàn):

[1] WIGINTON J C.A note on the comparison of logit and discriminant models of consumer credit behavior[J].The Journal of Financial and Quantitative Analysis,1980,15(3):757-770.

[2] 段翀.基于K-S檢驗(yàn)與距離相關(guān)分析的網(wǎng)絡(luò)借貸信用評價(jià)指標(biāo)體系構(gòu)建[J].技術(shù)經(jīng)濟(jì),2020,39(5):35-47,59.

[3] 閆春,程悅,孫曉紅.基于卷積神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的宏觀經(jīng)濟(jì)監(jiān)測預(yù)警模型及應(yīng)用[J].統(tǒng)計(jì)與決策,2021,37(14):137-140.

[4] KRUPPA J,SCHWARZ A,ARMINGER G,et al.Consumer credit risk:individual probability estimates using machine learning[J].Expert Systems

with Applications,2013,40(13):5125-5131.

[5] 涂艷,王翔宇.基于機(jī)器學(xué)習(xí)的P2P網(wǎng)絡(luò)借貸違約風(fēng)險(xiǎn)預(yù)警研究:來自“拍拍貸”的借貸交易證據(jù)[J].統(tǒng)計(jì)與信息論壇,2018,33(6):69-76.

[6] NIU B B,REN J Z,LI X T.Credit scoring using machine learning by combing social network information:evidence from peer-to-peer lending[J].Information,2019,10(12):397.

[7] 章彤,遲國泰.基于最優(yōu)信用特征組合的違約判別模型:以中國A股上市公司為例[J].系統(tǒng)工程理論與實(shí)踐,2020,40(10):2546-2562.

[8] 白鵬飛,安琪,NICOLAAS F D R,等.基于多模型融合的互聯(lián)網(wǎng)信貸個(gè)人信用評估方法[J].華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,49(6):119-123.

[9] TANOUE Y,YAMASHITA S.Loss given default estimation:a two-stage model with classification tree-based boosting and support vector logistic regression[J].Journal of Risk,2019,21(4):19-37.

[10]" ZHOU S X C.Default prediction in P2P lending from high-dimensional data based on machine learning[J].Physica A:Statistical Mechanics and Its Applications,2019,534:122370.

[11] 周永圣,崔佳麗,周琳云,等.基于改進(jìn)的隨機(jī)森林模型的個(gè)人信用風(fēng)險(xiǎn)評估研究[J].征信,2020,38(1):28-32.

[12] 張麗穎,楊若瑾.基于機(jī)器學(xué)習(xí)的個(gè)人貸款違約預(yù)測模型的應(yīng)用研究[J].金融監(jiān)管研究,2022(6):46-59.

Default Risk Identification Model for Internet Microcredit: An Ensemble Learning Approach

ZHAO Jian1, GUO Qing2

(1.School of Economics and Trade, Henan University of Engineering, Zhengzhou 451191, China; 2.School of Statistics and Mathematics, Zhongnan University of Economics and Law, Wuhan 430000, China)

Abstract:

With the rapid expansion of the scale of Internet credit, risk management has become increasingly prominent. To more accurately predict the probability of user default and enhance credit risk control capabilities,this article proposes a new default risk identification model by combining traditional scorecard models with machine learning models. Using LendingClub’s small loan business data as a sample, after preprocessing, variable screening, and imbalanced data processing, the predicted probabilities of LightGBM and NGBoost were transformed into credit scores through a scorecard model and used as new features. Logistic regression was then applied to obtain the final results. The results show that, compared with the single model, the combination model with the traditional scorecard model has a better recognition effect. This study will provide effective theoretical basis for enhancing dynamic management of borrowers.

Key words:

default risk identification; ensemble learning; scorecard model; combined model

(編輯:王韻)

主站蜘蛛池模板: 91精品国产麻豆国产自产在线| 国内精品久久九九国产精品| 国产精品性| 亚洲欧美国产五月天综合| 毛片手机在线看| 中文字幕免费在线视频| 亚洲无码视频喷水| 久久香蕉国产线看观看精品蕉| www亚洲天堂| 色老头综合网| 欧美午夜理伦三级在线观看| 日韩在线欧美在线| 71pao成人国产永久免费视频| 久久这里只有精品2| www.99精品视频在线播放| 再看日本中文字幕在线观看| 高清不卡一区二区三区香蕉| 色成人综合| 免费A级毛片无码免费视频| 日韩中文无码av超清| 亚洲人成在线免费观看| 重口调教一区二区视频| 国产亚洲第一页| 久久综合色88| 欧美日韩一区二区三| 亚洲国产午夜精华无码福利| 不卡无码h在线观看| 国产精品欧美激情| 成人福利在线免费观看| 2021国产精品自产拍在线| 一级毛片在线播放| 99久久国产精品无码| 福利在线一区| 中国精品自拍| 国产一二三区视频| 无码中文AⅤ在线观看| 久久久久无码国产精品不卡| www.av男人.com| 国产精品亚洲综合久久小说| 亚洲日本www| 亚洲成人播放| 国产视频一区二区在线观看| 四虎在线观看视频高清无码| 99久久性生片| 国产高清色视频免费看的网址| 国产人碰人摸人爱免费视频| 91www在线观看| 国产午夜精品一区二区三区软件| 91精品视频网站| 欧美亚洲中文精品三区| 99资源在线| 国产第一页第二页| 国产精品欧美日本韩免费一区二区三区不卡 | 日韩AV无码免费一二三区| 国产00高中生在线播放| 91精品国产丝袜| 久久99国产乱子伦精品免| 在线播放国产一区| 91国语视频| 国产乱人免费视频| 久久一日本道色综合久久| 欧美影院久久| 无码免费的亚洲视频| 久久久久人妻一区精品色奶水 | 91在线一9|永久视频在线| 全午夜免费一级毛片| 日韩精品成人在线| 婷婷色中文| 欧美日韩在线亚洲国产人| 婷婷开心中文字幕| 一级一级特黄女人精品毛片| 久久永久免费人妻精品| 在线免费不卡视频| 久久综合色天堂av| 在线视频一区二区三区不卡| 97av视频在线观看| 精品久久久久久久久久久| 超碰精品无码一区二区| 国产一区二区精品高清在线观看| 伊人久久婷婷五月综合97色| 亚洲综合精品香蕉久久网| 国产导航在线|