999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于遷移學(xué)習(xí)的小樣本風(fēng)險用戶識別

2022-05-06 07:39:16馮強中張雨晴范文斌
中國新技術(shù)新產(chǎn)品 2022年3期
關(guān)鍵詞:特征用戶模型

李 飛 馮強中 張雨晴 范文斌

(科大國創(chuàng)云網(wǎng)科技有限公司,安徽 合肥 230000)

0 引言

近年來,金融行業(yè)普惠政策的推廣迎來了很多新用戶,同時,行業(yè)的特殊性對風(fēng)險控制提出了很高的要求,新用戶的風(fēng)控評估成了金融行業(yè)推廣普惠政策的關(guān)鍵,普惠政策作為新政策,樣本量不足的問題會給用戶風(fēng)控水平預(yù)測造成困難。隨著人工智能領(lǐng)域的飛速發(fā)展,AI已經(jīng)廣泛應(yīng)用于醫(yī)療、金融以及通信等領(lǐng)域。但是考慮到金融領(lǐng)域新政策出臺時缺乏用戶數(shù)據(jù),僅使用人工智能中的機器學(xué)習(xí)算法進行預(yù)測必將導(dǎo)致結(jié)果不準確的問題。為了豐富數(shù)據(jù)的來源,許多學(xué)者將遷移學(xué)習(xí)作為一個關(guān)鍵技術(shù)進行研究。遷移學(xué)習(xí)的思想是當目標領(lǐng)域可用數(shù)據(jù)量較少時,從不同但是相關(guān)的領(lǐng)域中尋找類似數(shù)據(jù)進行訓(xùn)練,將大樣本遷移到小樣本中,以解決小樣本中樣本量稀疏的問題。根據(jù)遷移的過程不同,現(xiàn)在主流的遷移學(xué)習(xí)方法大致分為4種:基于實例的遷移、基于特征的遷移、基于參數(shù)的遷移以及基于關(guān)系的遷移。

該文利用遷移學(xué)習(xí)的思想,將與原任務(wù)樣本類似的數(shù)據(jù)遷移至訓(xùn)練集中,以樣本量,結(jié)合訓(xùn)練速度快、準確率高的LightGBM模型進行5折交叉驗證,從而有效地提高預(yù)測的準確率。

1 相關(guān)工作

在遷移學(xué)習(xí)的數(shù)學(xué)定義中,源域是已知的、成熟的領(lǐng)域,目標域是數(shù)據(jù)量小的、新的且需要借助其他領(lǐng)域?qū)W習(xí)的領(lǐng)域,給出源域的數(shù)據(jù)和任務(wù),目標域的數(shù)據(jù)和任務(wù),使用源領(lǐng)域和任務(wù)中的知識去改進對于目標領(lǐng)域的預(yù)測函數(shù)。其中,源域數(shù)據(jù)不等于目標域數(shù)據(jù)或者源域任務(wù)不等于目標域任務(wù)。這一技術(shù)可以借助其他領(lǐng)域的知識補充樣本少的任務(wù),提升任務(wù)準確率。

采用TrAdaBoost算法解決實例遷移學(xué)習(xí)問題,假設(shè)源域和目標域使用相同特征,但是在不同的域中,該特征的值的分布情況不同,部分源域數(shù)據(jù)對目標域的學(xué)習(xí)有幫助,另一部分源域數(shù)據(jù)對目標域的學(xué)習(xí)沒有幫助甚至是負遷移,因此通過調(diào)整指定源域中數(shù)據(jù)權(quán)重的方式來降低負效果數(shù)據(jù)對訓(xùn)練的影響,增強正效果數(shù)據(jù)對訓(xùn)練的影響。宋鵬等人提出基于特征遷移學(xué)習(xí)方法的跨庫語音情感識別方法,為了解決語音情感識別中訓(xùn)練語音和預(yù)測語音語料差異導(dǎo)致預(yù)測效果差的問題,通過特征變換降維選擇源域和目標域相似性高的空間維度對數(shù)據(jù)進行分類,從而實現(xiàn)基于特征的遷移,優(yōu)化后的情感識別率比基線方法和傳統(tǒng)識別方法的識別率更高。

谷歌公司AI團隊發(fā)布的Bert模型用于自然語言處理(NLP),Bert模型已經(jīng)在大數(shù)據(jù)集上進行了預(yù)訓(xùn)練,程序員將Bert預(yù)訓(xùn)練模型作為語言表征模型對參數(shù)進行遷移學(xué)習(xí),通過微調(diào)參數(shù)后應(yīng)用于NLP模型中,不僅節(jié)省了大量人力和時間,而且還可以提高預(yù)測的準確率。

遷移學(xué)習(xí)思想被廣泛應(yīng)用于語音、文本以及圖像等非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域,但是在結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域的應(yīng)用較少,該文將遷移學(xué)習(xí)思想應(yīng)用于風(fēng)險用戶預(yù)測中,源域為網(wǎng)絡(luò)貸款用戶數(shù)據(jù),目標域為銀行貸款用戶數(shù)據(jù),把源域的數(shù)據(jù)遷移到目標域,從而提高預(yù)測的準確率。

2 基于遷移學(xué)習(xí)的風(fēng)險用戶預(yù)測方法

2.1 整體架構(gòu)

風(fēng)險用戶評估的整體架構(gòu)如圖1所示。首先,對銀行用戶貸款數(shù)據(jù)進行分析、探索和清洗,將已有特征通過類別映射、特征分解以及特征組合交叉等方法構(gòu)建為新特征。其次,基于遷移學(xué)習(xí)思想使用LightGBM模型,并采用5折交叉驗證方法構(gòu)建風(fēng)險用戶識別模型。最后,使用ROC曲線下的面積(Area under Curve,AUC)來評估模型。

圖1 風(fēng)險用戶評估整體架構(gòu)

2.2 數(shù)據(jù)分析與預(yù)處理

為了更直觀地了解數(shù)據(jù)集的分布、特征間關(guān)系以及特征類型等信息,需要對數(shù)據(jù)集的分布、特征間關(guān)系以及特征類型進行分析,為后續(xù)數(shù)據(jù)預(yù)處理和特征工程做準備。對銀行數(shù)據(jù)集統(tǒng)計存在缺失值的特征列、缺失量以及缺失率降序表(見表1)。該數(shù)據(jù)集一共有39列,7列存在缺失值,其中,f的缺失率最高,f、f、f以及f的缺失在同一條貸款記錄中(f、f、f、f以及f為脫敏后的特征,是一些貸款人行為計數(shù)特征)。

表1 缺失值分析

探索發(fā)現(xiàn)時間特征在借款人最初開立信用額度的時間中存在異常時間,例如2069年10月01日、2065年09月01日為未來時間,借款人不可能在該時間開立信用額度,把這部分數(shù)據(jù)作為臟數(shù)據(jù),根據(jù)其他正常貸款開立時間,將異常時間減100 a變?yōu)檎r間。探究銀行貸款違約記錄數(shù)據(jù)和互聯(lián)網(wǎng)貸款違約記錄數(shù)據(jù)的數(shù)據(jù)集中用戶是否有違約信息,銀行貸款違約記錄數(shù)據(jù)中共有1萬條數(shù)據(jù),其中違約用戶為1 683,占總數(shù)據(jù)的16.8%;互聯(lián)網(wǎng)貸款違約記錄數(shù)據(jù)中共有75萬條數(shù)據(jù),其中違約用戶為149 673,占總數(shù)據(jù)的19.9%。

對特征的離散或是連續(xù)的判定中設(shè)置閾值25,一個特征種類數(shù)大于25判定為連續(xù)特征,反之為離散特征。離散特征中每種類型的數(shù)量和對違約的影響表現(xiàn)為網(wǎng)絡(luò)貸款等級特征中網(wǎng)絡(luò)貸款等級為2級的數(shù)量最多,網(wǎng)絡(luò)貸款等級為7級的數(shù)量最少,網(wǎng)絡(luò)貸款等級為7級、6級以及5級的用戶更容易違約。最后探究連續(xù)特征網(wǎng)絡(luò)貸款利率取值對違約的影響,網(wǎng)絡(luò)貸款利率低于12的用戶中違約用戶少于正常用戶,網(wǎng)絡(luò)貸款利率高于12的用戶中違約用戶多于正常用戶。

2.3 銀行貸款用戶數(shù)據(jù)特征工程

經(jīng)過對數(shù)據(jù)的分析可知,數(shù)據(jù)中含有類別特征,用字典映射和LabelEncoder編碼器將類型特征網(wǎng)絡(luò)貸款等級、任職公司類型、工作領(lǐng)域以及工作年限轉(zhuǎn)換為數(shù)值類,以便后期構(gòu)建模型。為了進一步提高模型效果,對2個時間特征(貸款開戶時間和貸款發(fā)放時間)來說,首先,需要進行正則化處理使數(shù)據(jù)結(jié)構(gòu)統(tǒng)一。其次,將時間數(shù)據(jù)分解為相應(yīng)的年、月、星期以及2個日期時間差。同時,對貸款和還款相關(guān)特征進行特征交叉,例如用貸款金額除貸款年份得出年均貸款金額等。

為了提高預(yù)測的準確率,將部分特征進行交叉組合后生成新特征,新特征及其說明見表2。

表2 銀行貸款用戶數(shù)據(jù)構(gòu)建新特征

2.4 基于風(fēng)險用戶識別的模型構(gòu)建

對構(gòu)建風(fēng)險用戶識別模型來說,LightGBM算法模型的預(yù)測效果雖然優(yōu)于傳統(tǒng)的決策樹、隨機森林算法,但是當數(shù)據(jù)量較少時仍然不能達到理想的預(yù)測效果,因此該文采用遷移學(xué)習(xí)的思想提高風(fēng)險用戶預(yù)測效果。

LightGBM是一個基于決策樹的梯度Boosting算法框架,與其他算法相比,有更快的訓(xùn)練效率和更低的內(nèi)存,并且可以自動處理類別特征和自動填充缺失值。對LightGBM參數(shù)設(shè)置見表3,表3中前兩行參數(shù)影響準確率,決定模型結(jié)構(gòu),第六至第八行參數(shù)影響過擬合。

表3 LightGBM參數(shù)設(shè)置

折交叉驗證為了減小模型過擬合,從已有數(shù)據(jù)中盡量提取更多的有效信息,將原始數(shù)據(jù)等比例劃分為份,次訓(xùn)練隨機選取-1份為訓(xùn)練集,1份為測試集交叉訓(xùn)練,該文選取5折交叉驗證,基本流程如下:1) 將數(shù)據(jù)集均勻劃分為5份。2) 將前四份作為訓(xùn)練集,第五份作為測試集。3) 訓(xùn)練集訓(xùn)練模型,并使用訓(xùn)練集和測試集一起進行擬合。4) 預(yù)測測試集結(jié)果為1的概率,并計算評價指標。5) 重復(fù)第二步~第四步,依次選取1份數(shù)據(jù)作為測試集,其他4份為訓(xùn)練集。6) 將5折交叉的結(jié)果和評估指標取均值作為最終結(jié)果。

由于用戶在銀行貸款的數(shù)據(jù)較少,考慮將網(wǎng)絡(luò)貸款數(shù)據(jù)遷移至訓(xùn)練集,且網(wǎng)貸數(shù)據(jù)與銀行數(shù)據(jù)存在差異,因此該文用銀行貸款數(shù)據(jù)作為訓(xùn)練集預(yù)測網(wǎng)貸數(shù)據(jù),用畫圖工具畫出預(yù)測值的分布,選取預(yù)測值小于0.05且真實值為0的用戶數(shù)據(jù)以及預(yù)測值大于0.7且真實值為1的用戶數(shù)據(jù),以達到豐富銀行數(shù)據(jù)的效果。

將銀行數(shù)據(jù)與選取的部分網(wǎng)貸數(shù)據(jù)與預(yù)測測試集數(shù)據(jù)相結(jié)合,通過分析數(shù)據(jù)可知,貸款違約用戶的數(shù)量遠少于正常還款用戶的數(shù)量,選取預(yù)測值小于0.05的數(shù)據(jù),將該部分數(shù)據(jù)與上一步銀行數(shù)據(jù)以及部分網(wǎng)貸數(shù)據(jù)結(jié)合,并對測試集進行預(yù)測。具體樣本遷移的流程如圖2所示。

圖2 樣本遷移流程圖

3 試驗結(jié)果與分析

3.1 數(shù)據(jù)選取

風(fēng)險用戶識別的數(shù)據(jù)集選取某銀行用戶貸款記錄,包括貸款號、貸款年份、貸款利率、貸款級別、貸款額、所在公司類型、工作年限、借款人在貸款評分中所屬的下限和上限、債務(wù)收入比、18個月內(nèi)借款人逾期30 d以上違約數(shù)、未結(jié)信用額度數(shù)、信貸周轉(zhuǎn)余額、借款人信用額度開立時間、提前還款次數(shù)、近3個月內(nèi)提前還款金額以及貸款人行為計數(shù)匿名特征等字段,原始訓(xùn)練集有1萬條樣本,其中,測試集有5 000條樣本,另有75萬條來自互聯(lián)網(wǎng)貸款的數(shù)據(jù)。

3.2 模型結(jié)果與分析

該文采用LightGBM、XGBoost以及多層感知機NN對處理后的數(shù)據(jù)進行模型訓(xùn)練,使用評估指標AUC(Area Under ROC Curve,即ROC曲線下方的面積)計算對比3種算法預(yù)測結(jié)果的值,值越接近1說明預(yù)測效果越好。

圖3為在僅使用銀行貸款數(shù)據(jù)的情況下,不同模型在不同迭代次數(shù)時值的對比,LightGBM在不同迭代次數(shù)的情況下值均優(yōu)于XGBoost模型;在迭代次數(shù)為4 000次時,2種模型的值均最高,LightGBM模型的值為0.86。

圖3 銀行貸款數(shù)據(jù)不同模型在不同迭代次數(shù)下AUC值對比

表4為不同模型下選取不同數(shù)據(jù)的值評估,首先,對比LightGBM模型和神經(jīng)網(wǎng)絡(luò)模型下的效果,LightGBM效果比NN算法的略高。其次,在使用5折交叉驗證LightGBM模型情況下,僅使用銀行貸款數(shù)據(jù)的值為0.867;將所有網(wǎng)貸數(shù)據(jù)與銀行貸款數(shù)據(jù)一起作為訓(xùn)練集訓(xùn)練后預(yù)測結(jié)果的值為0.871;網(wǎng)貸數(shù)據(jù)的特征雖與銀行數(shù)據(jù)的特征大致相同,但是2種數(shù)據(jù)的數(shù)據(jù)分布有差異,該文使用銀行數(shù)據(jù)預(yù)測網(wǎng)貸數(shù)據(jù),將預(yù)測較為準確的數(shù)據(jù)提取出來,將其遷移至銀行貸款數(shù)據(jù)中進行模型訓(xùn)練,預(yù)測結(jié)果的值為0.892,效果明顯好于其他算法。

表4 不同模型下選取不同數(shù)據(jù)的AUC值評估

4 結(jié)語

隨著科學(xué)技術(shù)的快速發(fā)展,很多領(lǐng)域都有海量的數(shù)據(jù),為了能夠應(yīng)對部分領(lǐng)域數(shù)據(jù)不足的情況,將其他領(lǐng)域的海量數(shù)據(jù)知識遷移學(xué)習(xí)到數(shù)據(jù)不足的領(lǐng)域。該文在進行小樣本風(fēng)險用戶識別中為了更好地捕捉風(fēng)險用戶特征,引入遷移學(xué)習(xí)思想,將擁有海量樣本領(lǐng)域的用戶數(shù)據(jù)遷移到樣本稀疏的風(fēng)險用戶識別領(lǐng)域,通過選擇與該領(lǐng)域類似的數(shù)據(jù)擴充樣本,構(gòu)建用戶特征工程,解決了金融領(lǐng)域風(fēng)險用戶識別的冷啟動問題,并對比了LightGBM、XGBoost以及NN等算法模型的值評估模型。結(jié)果顯示該文利用數(shù)據(jù)遷移學(xué)習(xí)使用LightGBM模型5折交叉驗證的方法效果最優(yōu),值最高。

猜你喜歡
特征用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 高清无码一本到东京热| 国产一区亚洲一区| 中文字幕在线看| 日韩天堂视频| 色综合a怡红院怡红院首页| 91久久天天躁狠狠躁夜夜| 亚洲二区视频| 97se亚洲综合在线| 国产成年无码AⅤ片在线| 国产福利2021最新在线观看| 亚洲中文字幕97久久精品少妇| 久久人人97超碰人人澡爱香蕉| 久久网综合| 99这里只有精品免费视频| 中文字幕1区2区| 无码日韩精品91超碰| 99re视频在线| www精品久久| 国产免费久久精品99re不卡 | 国产成人三级在线观看视频| 毛片视频网| 欧美另类第一页| 999精品色在线观看| AV熟女乱| 亚洲日韩每日更新| 欧美国产日韩在线播放| 久久综合干| 欧美精品高清| 久久精品无码国产一区二区三区| 欧美日韩高清在线| 农村乱人伦一区二区| 国产国语一级毛片在线视频| 欧美精品1区| 亚州AV秘 一区二区三区| 欧美啪啪一区| 一级做a爰片久久毛片毛片| 国产精品30p| 国产在线第二页| 欧美成人日韩| 久久伊伊香蕉综合精品| 这里只有精品在线播放| 国产精品久久自在自线观看| 欧洲一区二区三区无码| 欧美专区在线观看| 久久国产精品国产自线拍| 激情六月丁香婷婷| 性做久久久久久久免费看| 国模极品一区二区三区| 尤物视频一区| 88国产经典欧美一区二区三区| 久久香蕉国产线看精品| a毛片基地免费大全| 国产真实乱了在线播放| 黄色网站在线观看无码| 91久久国产热精品免费| 色国产视频| 日本成人精品视频| 18黑白丝水手服自慰喷水网站| 国产在线观看第二页| 狠狠色狠狠综合久久| 自拍欧美亚洲| 亚洲首页在线观看| 亚洲91在线精品| 日韩av无码DVD| 福利一区在线| 亚洲欧美在线综合图区| 国产精品无码久久久久AV| 一本无码在线观看| 国产毛片不卡| 亚洲综合网在线观看| 国产欧美视频一区二区三区| 欧美亚洲第一页| 噜噜噜久久| 国产国语一级毛片在线视频| 青青草一区| 国产黄在线观看| 亚洲最猛黑人xxxx黑人猛交| 国产自产视频一区二区三区| 亚洲国产日韩欧美在线| 国产九九精品视频| 国产交换配偶在线视频| 四虎永久在线精品影院|