999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大型電商平臺消費貸產品風控模型的構建

2021-11-30 04:42:24汪曉曦馬穎

摘 要: 信用評分模型的構建及應用實施是學術界及工業界不斷研究創新的重要課題。從機器學習模型的構建出發,從建模指標、模型構建、模型上線后預期表現幾個角度說明了模型應用策略。在建模指標處理方面,采用原始變量woe變換作為XGBoost等模型的輸入變量,并驗證了模型效果提升;在模型構建上,創新采用多種算法單獨建模,用XGBoost算法擬合各單模型輸出結果,證明復合模型效果有明顯提升;在模型上線后預期表現方面,提出了確定模型切分點的方法,即從授信額度、風險級別以及群體分布三個維度,預測即將進件群體的壞賬率。本研究最后結合模型表現及業務模式給出實施建議,即對于部署難度高的復合模型可采用預授信的模式,而LR評分卡模型部署可延用申請-授信的模式。

關鍵詞: 信用評分; 風控模型; XGBoost; 機器學習; 模型應用策略

中圖分類號: F832.39 文獻標識碼: A DOI: 10.3963/j.issn.1671-6477.2021.05.004

近6年來,隨著電商平臺的迅猛發展,消費金融產品層出不窮。這些產品依托電商平臺的天然流量優勢迅猛發展,從商城內擴展到商城外,不斷拓展使用場景搶占市場。在版圖的不斷擴張中,信貸審批模型、模型在具體商業模式中的應用也隨著用戶流量的擴張、業務場景的拓展不斷更新迭代[1]。目前,在信貸審批模型中,算法Logistic Regression(簡稱LR)依然是最為普及的,在一些特定的用戶群體和場景下依然有難以替代的地位,依據該算法建立的評分模型規則簡單、邏輯清晰、解釋性強,便于用戶理解。然而,LR模型并不能保證在各種場景、用戶群體中都有良好表現。比如從模型穩定性考慮,LR模型用到的變量維度一般不超過15個,在整體自變量與因變量相關性都不高的情況下,有限的變量數量難以達到較好的模型表現。模型表現不夠理想直接影響到通過率及日后壞賬風險,會對商城信貸收益產生直接影響。在本研究項目中,商城平臺主要信貸模型算法采用的就是LR模型,當前LR模型的應用在風控能力及通過率表現方面能基本達成一個平衡,但客戶仍然希望嘗試新的模型算法,通過提升模型效果達到保證壞賬率不增長的前提下提高模型通過率的目的;此外,客戶尤其強調好的模型需要應用于生產線產生實際效益,若一個模型太過復雜導致部署周期長、出錯率高而難以實施也是沒有意義的。根據用戶的上述2個要求,項目組從模型構建出發,提出確定模型切分點預測壞賬率的方法,并針對平臺實際不同業務場景及業務要求確立模型應用的方法。

首先,在信貸風控模型構建上,筆者參考了如下學者提出的方法并將該方法應用在商城平臺上,再根據平臺數據特點以及模型表現作數據特征提取及模型算法的改善。近年來,信貸風控領域較受青睞的分類算法模型包括Decision Tree(決策樹)[2]、SVM(支持向量機)[3-4]、Random Forest(隨機森林)、GBDT(梯度提升決策樹)、XGBoost(極度梯度提升算法)、神經網絡算法(Neural Networks)[5-7]等。2014年,蕭超武等在實證分析中將隨機森林組合分類算法與KNN、SVM等單分類器模型以及組合模型GBDT比較,發現前者具有更高的精確度及穩定性[8]。2017年,Bequé將神經網絡極限學習算法(ELM)用于消費信貸風險管理,通過實驗發現該算法有計算量小、精準度高的特點[9]。2017年,Luo Cuicui采用LR、SVM、深度信念網絡(DBN)算法進行信貸違約預測,發現DBN具有最好的預測效果[10]。2019年,陳秋華等探討了不同連接函數下廣義線性模型的分類問題,將線性模型評價指標與RF、SVM、XGBoost等模型進行分析比對,發現廣義線性模型中LR模型與SVM預測效果最佳[11]。2019年,黃志剛等人提出多源數據普適模型棧的概念,通過數據分類的自由選擇采用XGBoost算法生成子評分模型,再將子評分模型轉換為評分卡,通過實測證實有效[12]。在參考上述學者選用的算法并結合商城平臺數據特點,本文最終選用了LR算法、決策樹算法、XGBoost算法建立單模型。在LR模型變量交互方面,參比陳秋華[11]提出的變量相乘的交互方式,本文提出了用相關系數法尋找交互變量的方法,并驗證了該方法的有效性。受黃志剛[12]多源數據普適模型棧的想法啟發,借用不同數據特點采用不同模型算法最后用XGBoost模型整合的思路,本文采取首先用多種算法建立單模型,再用各單模型的結果輸出作為復合模型的輸入建立復合模型的方法,經驗證,復合模型效果較單模型有明顯提升。

雖然學術界對風控模型算法的討論十分熱烈,然而對于客戶提出的第二點要求,模型在生產線上的實際應用方面卻略顯單薄。本文花了大量篇幅討論模型的應用問題。首先,傳統LR模型、復雜機器學習模型在實際部署應用方面各有優劣:LR模型部署通常借用風控決策引擎[13]來完成,優勢為部署門檻低、部署時間短、結果可靠性強,但模型效果不及復雜機器學習模型;而復雜機器學習模型雖在模型效果上更有優勢,但在部署方面,由于受模型復雜程度、數據量級、部署場景、上線時間緊迫等因素制約,不是都能滿足工程上的要求成功上線。所以,目前工業界在風控模型部署上,LR仍是主流[14],復雜機器學習模型部署還在不斷嘗試發展中,不同體量的電商平臺復雜機器學習模型實施的普及程度也不一樣。對于本項目,商城平臺剛開始嘗試復雜機器學習模型的部署,文章給出了兩者并舉的保守方案。本文首先提出風控模型在應用實施中不同切分點對應的預測壞賬率,然后比較并驗證了在相同風險前提下LR模型與XGBoost復合模型實際通過率差異,并結合具體業務模式及業務需求給出模型選擇的依據及部署方式。

一、 模型效果指標評價

模型評價指標是用來評估模型對數據的擬合能力,二元分類的模型算法有很多,但無論是哪種模型算法都可以使用AUC[15]和KS這兩個指標來衡量。AUC的取值為0.5~1,AUC值越高代表該算法對模型整體擬合能力越強,AUC等于0.5代表模型沒有區辨能力,但大于0.9則模型擬合過于完美考慮異常,AUC在0.7~0.9之間的模型被視為可用。AUC在0.7與0.8之間代表模型有較好的區辨能力;AUC大于0.8代表模型有非常好的擬合能力。AUC取值與模型區辨能力對應關系如表1所示。

KS是評價模型優劣的另外一個常用指標,同樣KS值越大代表模型對數據擬合能力越強,通常KS取值在0.2~0.75之間。與AUC不同的是,AUC是反應模型整體對數據的擬合能力,而KS則指出在某一區段模型對目標變量的辨識度最高。KS取值與模型區辨能力對應關系如表2所示。

本文分析比較的4個模型:LR模型、決策樹模型、XGBoost單模型及XGBoost復合模型的效果均采用AUC值及KS值這兩個指標來進行評價。

二、 建模實證分析

(一) 建模數據構成及變量預處理

目前,該平臺信貸產品申請用戶為在平臺商城近1年內有過歷史交易記錄的用戶,該產品運營已超過1年,有充足的壞用戶積累。建模用戶群體,我們選擇授信前1年內在平臺商城內有較為活躍表現的用戶,授信后6~12個月內出賬次數大于等于6的用戶確立建模樣本。

y定義方面,通過分析逾期天數與回款率關系,以及通過逾期用戶M1~M4壞賬滾動率分析后確定的[16]。相同樣本,不同y定義,最終AUC和KS模型評價指標會有較大差異。通常y定義越嚴格,模型指標AUC及KS表現越好,比如把進入M4的用戶定義為壞用戶比把進入M2的用戶定義為壞用戶有更好的模型表現。然而,考慮到該評分卡是建立申請用戶審批模型,目的不是把最壞的用戶排除,而是把有可能進入M3或M4的用戶攔截在外。所以,y用戶定義采用進入M2或M3的用戶,但由于M3用戶數量有限,所以把多次進入M2的用戶列為壞用戶。經過多次嘗試,得到y定義為至少有2次出賬且2次出賬的逾期天數均大于30天(進入M2)的用戶為壞用戶,其余為好用戶。X變量共126個,為用戶申請消費貸前平臺商城的歷史行為數據。從分類來看,可將X變量分為用戶基本信息、用戶申請渠道、用戶信用資質、平臺活躍度、平臺交易信息、收貨方式、收貨人(地址)信息等類別。數據樣本共11180個觀測值,其中壞用戶為1118個,odds比9∶1。采用分層抽樣的方式將數據切分為7∶3兩部分,前者用作模型訓練及驗證,后者用于模型測試。

在數據預處理環節,對每個X變量作單變量分析,進行變量一致性、完整性、準確性檢驗,剔除變量缺失率高于20%的變量;對變量進行woe轉換并計算其iv值,預測每個自變量x與因變量y的相關程度。在作變量woe轉換時,對自變量排序后切分為10等分進行粗分箱,然后對變量分箱進行合并,合并時確保變量woe值為單調趨勢,各分箱觀測值數量不低于25個,且相鄰分箱的woe值有較大差異。最后計算變量iv值,結果如圖1所示。

(二) Logistic Regression單模型

篩選出iv值大于0.1的經過woe轉換的自變量作為模型輸入變量,采用stepwise逐步回歸法篩選變量,模型置信度設為95%,y變量共2個取值,“0”代表好用戶,“1”代表壞用戶,以“0”為目標構建模型。在模型變量調整上,通過計算自變量的相關性,使相關性較大的變量組合盡可能避免同時出現在模型中。根據模型輸出結果,刪除變量系數為正或者系數過小的變量,以減小共線性對模型效果的影響。檢查進入模型的x變量分類,確保模型盡可能覆蓋到每個分類。檢查模型評分確保評分均勻分布。當出現超過樣本量5%的觀測值對應同一個評分時,找到是哪個變量造成的,用別的變量加以替換。最后確認模型,入模變量及模型參數如表3所示,模型變量分別為收貨人數量、近12個月的貨到付款次數、近3個月的貨到付款次數、近12個月拒收次數、近12個月每個月都有交易的月份數、近3個月交易金額、近3個月信用卡支付金額、近3個月借記卡支付次數、近3個月使用app登錄平臺次數、用戶婚姻狀況、用戶性別以及用戶進件渠道。

1.LR變量交互。在不改變入模變量數量的前提下,將入模變量與待選變量做交互,以達到提升模型整體效果的目的。通常待選變量iv值過小難以進入模型,但待選變量與模型變量涵蓋信息不同,且與之交互的模型變量相關性低。為尋找待選變量,采用對需要交互的兩變量計算Pearson相關系數的辦法,最后發現兩組可以通過變量交互提升模型的變量。第一組,“授信渠道”、“商城卡包提取標志”進行變量交互替代原模型中“授信渠道”變量;第二組,“婚姻狀況”、“客單價”進行變量交互替代原模型中“客單價”變量;交互后模型效果提升如下表所示,可以看出交互前后AUC沒有顯著提升,但模型KS值約有6‰的提升。交互變量的加入可以小幅度提升模型效果,如表4所示。

2.決策樹單模型。在決策樹模型構建過程中使用了兩種葉節點分裂的算法,一個是熵分裂標準,另一個是Kolmogorov-Smirnov(FastCHAID)分裂標準,剪枝過程中均采用誤判率、最小葉子數作為剪枝標準[17-18]。兩模型輸入變量前者是原始變量,后者為經過woe轉換后的變量。本模型采用SAS PROC HPSPLIT完成,通過對leafsize(葉節點最小觀測數)、最小葉子數量、maxdepth(最大樹深)、maxbranch(最大分枝數)參數調整完成決策樹的構建。對每片葉子目標變量預測概率排序,通過計算每個概率分箱中累計好壞用戶的占比,得到AUC及KS值。結果如表5所示。

3.XGBoost單模型。XGBoost算法是由Chen[19]基于Friedman[20]提出的gradient boosting模型設計并對其優化。XGBoost的思想是不斷通過種樹去迭代以減少上一輪的誤差,最終達到分類的目的。每一次迭代就是增加一顆新的樹,對上次殘差進行擬合。每顆樹的葉節點對應一個分數,將每棵樹對應的分數相加得到樣本的預測值。

模型輸入變量為原始變量中定距(Interval)變量,以及定類(Nominal)、定序(Ordinal)變量經過woe變換的變量。調參過程中,首先確定eta(學習率)和num_rounds(迭代次數)進行粗調,再確定max_depth以及seed,最后采用網格搜索法對subsample、colsample進行調參,用cv交叉驗證中early_stopping_rounds尋找最好迭代次數,最后微調eta和num_rounds確定最后參數。參數結果為:{eta=0.1,max_depth=1,seed=35,subsample=0.4,colsample_bytree=0.7,num_rounds=126,lambda=0.5},此參數下對應的訓練集、測試集AUC及KS指標如表6所示。

4.XGBoost復合模型。將原變量、woe轉換后的變量作為輸入,Logistic單模型、XGBoost單模型、決策樹模型的輸出結果作為復合模型XGBoost的輸入,進行模型訓練,輸入指標如圖2所示。XGB復合模型輸入指標包括5個單模型的輸出結果、原始變量以及經過woe轉化后的變量,其中5個單模型的輸出結果包含2種算法的決策樹預測概率、邏輯回歸模型預測概率及評分、XGB單模型的預測概率。上述模型輸入用一個XGB模型整合得到最后的輸出結果。復合模型調參步驟與XGB單模型類似,參數為{eta=0.1,eval_metric=’auc’,nthread=3,min_child_weight=1,max_depth=1,seed=30,subsample=0.2,colsample_bytree=0.7,num_rounds=150,lambda=1.5}。模型重要性指標如圖3所示,重要性最高的為XGB單模型預測概率,其次為LR模型預測概率及轉換評分。模型結果如表7所示。

5.模型指標比較與評價。比較上述模型KS及AUC指標發現,所有模型區辨能力都在可接受及之上,在本數據中決策樹模型表現最差,在可接受區辨能力邊緣;LR模型和XGBoost單模型AUC有較好的表現,其中XGBoost單模型比LR模型KS高出1.7%、AUC高出1.5%,整體表現略優于LR模型;表現最好的是XGBoost復合模型,AUC達到0.80,進入非常良好的區辨能力這一檔。

模型在使用中需要確定切分分數線,即該分數線以下的用戶需要被排除。所以,在模型評估中需要比較不同分數段壞賬率及累計壞賬率。將生產實際中運用最為廣泛的LR模型、效果最優的XGBoost復合模型進行比較,對比的數據集為訓練集+測試集。對預測概率進行從小到大排序,切分為10等分,每一等分用戶數量大致相同。為便于比較,均使用預測概率表明分段范圍。兩模型結果如表8、表9所示。

從分段壞賬率來看,XGBoost復合模型比LR模型第一分段高4.2%,如果切分分數線劃在第一段,則XGBoost有明顯優勢;從累計壞賬率來看,假設壞賬率差異小于1%就認為模型效果無明顯差別,則模型切分點設在第三段時兩模型“抓壞人”能力相同,LR模型、XGBoost模型對應切分概率分別為0.886和0.903。

三、 模型選擇及部署實施探索

(一) 風險評估

評分模型在風控策略中有兩個重要作用:一個是確立拒絕分數線,即小于某一預測概率(評分)的用戶拒絕授信;另一個是根據預測概率(評分)劃分風險等級、確定授信額度。評分模型設立的目的是為了讓壞賬率在可控范圍內,那如何利用評分模型預測進件用戶的壞賬率便成了關鍵。電商平臺消費貸產品通常是分期的,根據消費貸產品設計,若用戶在某一期還款截止日10天內未還清賬款,賬戶自動凍結。賬款催收方面,逾期90天以內的賬款由平臺內部催收部門催收,逾期超過90天(進入M4)的賬戶因賬款難以回收,故采用外包形式,催回金額與外包公司按比例分成。所以這里我們把進入M4(逾期天數gt;90天)的用戶記為壞賬用戶,未還清金額(包括已出賬、未出賬)記為壞賬余額,表現時長取1年。由于使用余額、壞賬余額是一個動態平衡的過程,這里選取時點數據來定義,以賬戶成功授信之日起1年為時間節點,壞賬率定義為壞賬余額與使用余額之比。

在作風險評估方面,需要用到2個群體:已授信群體和即將進件群體。已授信群體定義為成功授信且表現期滿1年的用戶;即將進件群體定義為近一個月內申請授信的用戶。

將LR模型、XGBoost復合模型分別運用到2個群體上得到每個用戶的預測概率。根據模型壞賬率劃分風險等級,并將風險等級、用戶授信額度等級繪制成交叉表,如表10所示。單元格內bij、uij、qij分別是已授信群體的壞賬余額、使用余額以及用戶數量,其中腳標i代表授信額度等級,j代表風險等級。

將模型運用于進件用戶群體,進件用戶群體的用戶數量記為Qij,這里i、j分別為額度等級、風險等級,等級劃分方式如表10所示。風險等級1為最低,風險等級5為最高。壞賬率記為BRm,有:

假設壞賬率最高不超過某一值,記為BRrate,計算BRm≤BRrate的最大m值,大于m的風險等級用戶即為需要拒絕的用戶。以此確定模型拒絕用戶的切分點,記為Preject。

(二) 通過率評估

通過率評估是將評分模型應用到當前進件用戶模擬進件用戶通過率的方式。通常業務部門與風控部門為通過率博弈,業務部門要求更高的通過率,風控部門則通過模型優化在保證風險的前提下提高通過率,但模型評價指標越好并不意味著使用該模型就一定有更高的通過率。本文采用傳統LR單模型、XGBoost復合模型進件通過率的模擬驗證以上觀點。

設計思路為上述兩模型應用于102 787名即將進件用戶群體,并計算其預測概率。分別對兩模型預測概率進行從小到大排序,每一個預測概率對應與風控模型中累計壞用戶數對應,而預測概率在該進件用戶群體的分位數即為拒絕率,進而計算得到進件群體的通過率。本文通過作圖的方法比較LR模型與XGBoost復合模型相同風控效果對應的通過率。以累計壞用戶數作為橫軸,進件用戶通過率(1-拒絕率)作為縱軸,分別對兩模型作散點圖,結果如圖4所示。從圖4中可以看出兩模型頭尾幾乎是重合的,只在中間段看出差異。通過計算得到在“抓壞人”能力相同條件下,兩模型通過率最大差異為7.9%,對應的LR模型和XGBoost復合模型通過率分別為44.8%和52.74%;若業務部門要求75%以上的通過率(假設容差為2%),且風險在可以接受范圍內,兩模型則在風險能力控制和通過率上幾乎沒有差別。如表11所示。

(三) 模型部署實施評估與建議

對于傳統LR模型部署一般是線上實施審批,采用風控決策引擎部署。主流的風控決策引擎包括FICO公司的Blaze和Experian公司的SMG3。風控決策引擎負責入參、出參的配置,以及結果調用。風控決策引擎使操作簡單易學,門檻低,上手快,例如LR模型10~15個變量的配置,1個小時就能完成。然而,對于復雜的機器學習算法,上百個模型變量,上千次的學習迭代,以及復雜的預測概率計算,

若在決策引擎上部署就變得難以實施。當下,對于復雜機器學習模型部署方式還在探索中。目前,一般采用預測模型標準語言(PMML),該語言可以在不同數據挖掘工具和不同應用系統之間交換挖掘模型,實現模型的部署。雖然,在機器學習模型應用方面,PMML的應用實施還在發展中,除了不同的數據挖掘廠商支持的模型類型有限外,PMML在執行過程中還出現數據廠商生成的PMML與標準定義的Schema有偏差導致最終結果的偏差等問題。然而,縱有這么多問題,模型效果的優勢是不容置疑的,而且機器學習的發展已成為趨勢。

綜上所述,在模型應用選擇方面,無論是應用最為廣泛的LR模型還是上面提到的類似XGBoost復合模型的機器學習模型都是有利有弊的。前者部署門檻低,部署高效,模型本身有較好的解釋性,但模型應用效果不及后者;后者模型效果整體優于前者,但對于部署人員來說門檻較高,且部署過程中產生的各種問題還在不斷嘗試解決中。然而,模型的應用、部署實施上線并不是一個二選一的問題。本文建議模型選取要結合具體業務指標、風控指標、模型效果還有具體商業模式來確定。在線實施審批的風控模型一定要上生產線,但機器學習的模型應用不一定要上生產線,可以采用離線方式部署,其對應的商業模式為預授信。預授信模式是從待選的用戶池中篩選出優質用戶為其打上授信標簽,包括是否授信及授信額度。再將授信信息用彈窗、鏈接、短信等方式推送給可以授信的用戶,鼓勵用戶申請。

本文LR模型和XGBoost機器學習模型選擇及應用層面,要綜合考慮模型效果指標、壞賬率指標、通過率需求,及模型部署實施方面的問題,如圖5所示。紅、藍兩條曲線分別代表LR單模型和XGBoost復合模型。橫坐標(上)為模型預測概率,橫坐標(下)為模型“抓壞人”數量,模型縱坐標為進件用戶通過率。兩條縱向的黃色虛線分別表示兩模型風控能力相同條件下,進件模擬通過率差異小于2%的臨界值。左黃線通過率為75%,右黃線為20%,對應拒絕概率如灰色標注所示。結合上述敘述,模型應用方案如表12所示。

四、 結 語

本文通過真實數據從多個維度非常詳實地分析了從模型構建到模型應用實施全過程。模型特征工程方面,相比陳秋華[11]提出的自變量交互對模型指標效果的提升,本文進一步提出用相關系數法尋找交互變量的方法;在特征變量構建上,創新采用對原變量進行woe轉換的方式創建衍生變量。經驗證,該方法對于模型效果指標的提升是有效的。對于XGBoost模型,此方式相當于將分類變量轉換為可以計算的定距變量,解決了XGBoost模型矩陣不能處理字符型變量的問題,也避免了分類變量轉化為虛擬變量的麻煩。

在復合模型變量構建方面,跳出通過原變量加減乘除的方式進行變量衍生的圈子,將LR單模型的woe變量連同決策樹、XGBoost單模型的輸出結果(概率amp;評分)作為輸入變量,并使用XGBoost進行擬合,經驗證,復合模型評價指標優于各單模型。

本文創新之處在于不只對模型評價指標進行比較,更從模型應用實施角度提出了模型拒絕分數線(切分點)的確定方法[21]。該方法首先采用模型各分段壞賬率對模型進行風險等級劃分,并通過風險等級與授信額度交叉的方法模擬各單元格內壞賬率分布構成,并將模型運用于新進件的用戶,預測進件用戶預期壞賬率,以此確定拒絕用戶切分點。不僅如此,本文用模型表現與通過率之間的關系闡述了模型選用標準。以LR單模型、XGBoost復合模型為例,用數據驗證了在“抓壞人”能力相同的條件下兩模型通過率的大小及差異。并從通過率差異、業務部門通過率最低要求、模型部署實施難度及商城現有的業務模式進行綜合分析,給出模型選用建議[22]。在建議實施方面,對于選用難以部署的復合模型,建議采用預授信的模式。將模型應用在新進件用戶群體上,篩選出通過用戶,并用彈框或短信等方式通知,讓用戶選擇是否開通。與現有的申請-授信模式相比,此種方式在確保風險的同時,擴大了人群覆蓋面,提升了總體進件人數,繞開了模型部署實施難的障礙。

[參考文獻]

[1]何飛,張兵.互聯網金融的發展:大數據驅動與模式衍變[J].財經科學,2016,23(6):12-22.

[2]涂艷,王翔宇.基于機器學習的P2P網絡借貸違約風險預警研究:來自“拍拍貸”的借貸交易證據[J].統計與信息論壇,2018,33(6):69-76.

[3]Baesens B,Van Gestel T,Viaene S,Stepanova M.Benchmarking state-of-the-art classification algorithms for credit scoring[J].Journal of the Operational Research Society,2003,54(6):627-635.

[4]晏艷陽,蔣恒波.信用評分模型應用比較研究:基于個體工商戶數據的檢驗[J].統計與信息論壇,2010,25(5):30-35.

[5]石慶炎,勒云匯.多種個人信用評分模型在中國度用的比較研究[J].統計研究,2004,21(6):43-47.

[6]陳為民,馬超群,馮廣波.基于KMOD核函數的SVM方法在信用評分中的應用[J].經濟數學,2008(1):24-27.

[7]楊力,汪克亮,王建民.信用評分主要模型方法比較研究[J].經濟管理,2008 (6):37-42.

[8]蕭超武,蔡文學,黃曉字,陳康.基于隨機森林的個人信用評估模型研究及實證分析[J].管理現代化,2014,34(6):111-113.

[9]Bequé A,Lessmann S.Extreme Learning Machines for Credit Scoring:An Empirical Evaluation[J].Expert Systems with Applications,2017,86:42-53.

[10]Luo Cuicui,Wu Desheng,Wu Dexiang.A Deep Learning Approach for Credit Scoring Using Credit Default Swaps[J].Engineering Applications of Artificial Intelligence,2017,65:465-470.

[11]陳秋華,楊慧榮,崔恒建.變量篩選后的個人信貸評分模型與統計學習[J/OL].數理統計與管理,(2020-02-23)[2021-04-10].https://doi.org/10.13860/j.cnki.sltj.20200223-002.

[12]黃志剛,劉志惠,朱建林.多源數據信用評級普適模型棧框架的構建與應用[J].數量經濟技術經濟研究,2019,36(4):155-168.

[13]Sohn S Y,Dong H K,Jin H Y.Technology credit scoring model with fuzzy logistic regression[J].Applied Soft Computing,2016,43:150-158.

[14]宋捷.商業銀行信用卡數字化轉型的路徑分析[J].金融科技時代,2020,29(6):41-44.

[15]Bradley A P.The use of the area under the ROC curve in the evaluation of machine learning algorithms[J].Pattern Recognition,1997,30(7):1145-1159.

[16]周毓萍.基于機器學習方法的個人信用評價研究[J].金融理論與實踐,2019(12):1-8.

[17]Rokach,L.and Maimon,O.Data Mining with Decision Trees:Theory and Applications,volume 69 of Series in Machine Perception and Artificial Intelligence[C].London:World Scientific,2008.

[18]Soman,K.P.,Diwakar,S.,and Ajay,V.Insight into Data Mining:Theory and Practice[C]. New Delhi:PHI Learning,2010.

[19]Chen T,Guestrin C.XGBoost:A scalable tree boosting system[C]//Proc of ACM SIGKDD international Conference on Knowledge Discovery and Data Mining.San Francisco:KDD,2016.

[20]Friedman J H.Greedy function approximation:A gradient boosting machine[J].Annals of Statistics,2001,29(5):1189-1232.

[21]陳戰勇.珠聯璧合:基于機器學習的網絡借貸信用評分卡模型研究[J].武漢金融,2020(3):42-50.

[22]鄧大松.我國商業銀行小微企業申請評分卡構建及驗證研究[J].投資研究,2017(5):149-159.

(責任編輯 文 格)

Construction and Application of Risk Control Model for Consumer

Loan Products on Large E-commerce Platforms

WANG Xiao-xi1, MA Ying2

(1.School of Management,Wuxi Institute of Technology,Wuxi 214121,Jiangsu,China;

2.School of Management,Wuhan University of Technology,Wuhan 430070,Hubei,China)

Abstract:The construction and application of the credit scoring model is an important subject of continuous research and innovation in academia and industry.Starting from the construction of the machine learning model,this article explains the model application strategy from the perspectives of modeling indicators,model construction,and expected online model performance.In terms of modeling indicators processing,the original variable woe transformation is used as the input variable of XGBoost and other models,and it is verified the improvement of the model effect; in the model construction,a variety of algorithms were compared.Among those,XGBoost algorithm was used to fit the output results of each single model,which was proved that the effect of the composite model was significantly improved.The biggest innovation is that it proposes a method to determine the cut-off point of the model,and predicts the bad debt rate of the incoming group from the three dimensions of credit line,risk level and group distribution.In this paper,model selection and deployment are innovatively combined with model performance and business models to give implementation suggestions: for complex models that are difficult to deploy,the pre-credit model can be used; LR scorecard model deployment can be used to the application-credit model.

Key words:credit score; risk control model; XGBoost; machine learning; model application strategy

收稿日期:2021-03-08

作者簡介:汪曉曦(1989-),女,湖北武漢人,無錫職業技術學院管理學院助教,通信與信息系統/市場營銷雙碩士,主要從事互聯網金融、數字金融等研究。

通訊作者:馬 穎(1975-),女,山東煙臺人,武漢理工大學管理學院教授,博士生導師,博士,主要從事營銷管理、風險管理研究。

基金項目: 2021年度無錫職業技術學院校級社科類課題(SK202102) ;2020年無錫職業技術學院“青藍藍工程”青年教師培養項目

主站蜘蛛池模板: 一级做a爰片久久免费| 五月六月伊人狠狠丁香网| 国产美女91视频| 99福利视频导航| 1级黄色毛片| 老司国产精品视频| 国内精品久久久久久久久久影视 | 国产91视频免费观看| 国产色偷丝袜婷婷无码麻豆制服| 乱码国产乱码精品精在线播放| 国产成人精品男人的天堂| 曰AV在线无码| 91无码网站| 欧美成人怡春院在线激情| 精品综合久久久久久97超人| 国产成人AV大片大片在线播放 | 国产精品永久不卡免费视频| 国产精品内射视频| 黄色三级网站免费| 亚洲性色永久网址| 日韩资源站| 亚洲欧美另类日本| 男人的天堂久久精品激情| 五月婷婷激情四射| 久久久久久久久亚洲精品| 激情六月丁香婷婷| 亚亚洲乱码一二三四区| 在线观看91精品国产剧情免费| 狠狠色综合网| 欧美亚洲激情| 亚洲精品第一页不卡| 亚洲欧洲AV一区二区三区| 在线观看的黄网| 亚洲一区毛片| 亚洲国产中文欧美在线人成大黄瓜 | 久久99热这里只有精品免费看| 欧美区在线播放| 婷婷午夜天| 国产尤物jk自慰制服喷水| 国产十八禁在线观看免费| 久久久久中文字幕精品视频| 国产精品福利尤物youwu | 孕妇高潮太爽了在线观看免费| 成人午夜天| 黄色三级毛片网站| 91成人在线免费视频| 67194亚洲无码| 中文成人在线视频| 亚洲日韩日本中文在线| 国产正在播放| 狼友av永久网站免费观看| 精品国产美女福到在线不卡f| 人妻夜夜爽天天爽| 久久久噜噜噜久久中文字幕色伊伊 | 色婷婷视频在线| 五月天在线网站| 超清无码一区二区三区| www.av男人.com| 亚洲色无码专线精品观看| 特级毛片免费视频| 亚洲日本中文字幕乱码中文| www精品久久| 国产精品午夜福利麻豆| 精品一區二區久久久久久久網站| 欧美高清国产| 福利一区在线| yy6080理论大片一级久久| 日韩AV手机在线观看蜜芽| 国产99精品久久| 久久精品丝袜高跟鞋| 一级一级特黄女人精品毛片| 在线看免费无码av天堂的| 国产靠逼视频| 一级做a爰片久久毛片毛片| 东京热高清无码精品| 国产精品lululu在线观看| 成人在线观看一区| 国产成+人+综合+亚洲欧美 | 小13箩利洗澡无码视频免费网站| 亚洲精品国产乱码不卡| 欧美区一区二区三| 亚洲福利片无码最新在线播放|