基于遷移學(xué)習(xí)的小樣本風(fēng)險用戶識別

2022-05-06 07:39:16馮強中張雨晴范文斌

中國新技術(shù)新產(chǎn)品 2022年3期

李飛馮強中張雨晴范文斌

（科大國創(chuàng)云網(wǎng)科技有限公司，安徽合肥 230000）

0 引言

近年來，金融行業(yè)普惠政策的推廣迎來了很多新用戶，同時，行業(yè)的特殊性對風(fēng)險控制提出了很高的要求，新用戶的風(fēng)控評估成了金融行業(yè)推廣普惠政策的關(guān)鍵，普惠政策作為新政策，樣本量不足的問題會給用戶風(fēng)控水平預(yù)測造成困難。隨著人工智能領(lǐng)域的飛速發(fā)展，AI已經(jīng)廣泛應(yīng)用于醫(yī)療、金融以及通信等領(lǐng)域。但是考慮到金融領(lǐng)域新政策出臺時缺乏用戶數(shù)據(jù)，僅使用人工智能中的機器學(xué)習(xí)算法進行預(yù)測必將導(dǎo)致結(jié)果不準確的問題。為了豐富數(shù)據(jù)的來源，許多學(xué)者將遷移學(xué)習(xí)作為一個關(guān)鍵技術(shù)進行研究。遷移學(xué)習(xí)的思想是當目標領(lǐng)域可用數(shù)據(jù)量較少時，從不同但是相關(guān)的領(lǐng)域中尋找類似數(shù)據(jù)進行訓(xùn)練，將大樣本遷移到小樣本中，以解決小樣本中樣本量稀疏的問題。根據(jù)遷移的過程不同，現(xiàn)在主流的遷移學(xué)習(xí)方法大致分為4種：基于實例的遷移、基于特征的遷移、基于參數(shù)的遷移以及基于關(guān)系的遷移。

該文利用遷移學(xué)習(xí)的思想，將與原任務(wù)樣本類似的數(shù)據(jù)遷移至訓(xùn)練集中，以樣本量，結(jié)合訓(xùn)練速度快、準確率高的LightGBM模型進行5折交叉驗證，從而有效地提高預(yù)測的準確率。

1 相關(guān)工作

在遷移學(xué)習(xí)的數(shù)學(xué)定義中，源域是已知的、成熟的領(lǐng)域，目標域是數(shù)據(jù)量小的、新的且需要借助其他領(lǐng)域?qū)W習(xí)的領(lǐng)域，給出源域的數(shù)據(jù)和任務(wù)，目標域的數(shù)據(jù)和任務(wù)，使用源領(lǐng)域和任務(wù)中的知識去改進對于目標領(lǐng)域的預(yù)測函數(shù)。其中，源域數(shù)據(jù)不等于目標域數(shù)據(jù)或者源域任務(wù)不等于目標域任務(wù)。這一技術(shù)可以借助其他領(lǐng)域的知識補充樣本少的任務(wù)，提升任務(wù)準確率。

采用TrAdaBoost算法解決實例遷移學(xué)習(xí)問題，假設(shè)源域和目標域使用相同特征，但是在不同的域中，該特征的值的分布情況不同，部分源域數(shù)據(jù)對目標域的學(xué)習(xí)有幫助，另一部分源域數(shù)據(jù)對目標域的學(xué)習(xí)沒有幫助甚至是負遷移，因此通過調(diào)整指定源域中數(shù)據(jù)權(quán)重的方式來降低負效果數(shù)據(jù)對訓(xùn)練的影響，增強正效果數(shù)據(jù)對訓(xùn)練的影響。宋鵬等人提出基于特征遷移學(xué)習(xí)方法的跨庫語音情感識別方法，為了解決語音情感識別中訓(xùn)練語音和預(yù)測語音語料差異導(dǎo)致預(yù)測效果差的問題，通過特征變換降維選擇源域和目標域相似性高的空間維度對數(shù)據(jù)進行分類，從而實現(xiàn)基于特征的遷移，優(yōu)化后的情感識別率比基線方法和傳統(tǒng)識別方法的識別率更高。

谷歌公司AI團隊發(fā)布的Bert模型用于自然語言處理（NLP），Bert模型已經(jīng)在大數(shù)據(jù)集上進行了預(yù)訓(xùn)練，程序員將Bert預(yù)訓(xùn)練模型作為語言表征模型對參數(shù)進行遷移學(xué)習(xí)，通過微調(diào)參數(shù)后應(yīng)用于NLP模型中，不僅節(jié)省了大量人力和時間，而且還可以提高預(yù)測的準確率。

遷移學(xué)習(xí)思想被廣泛應(yīng)用于語音、文本以及圖像等非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域，但是在結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域的應(yīng)用較少，該文將遷移學(xué)習(xí)思想應(yīng)用于風(fēng)險用戶預(yù)測中，源域為網(wǎng)絡(luò)貸款用戶數(shù)據(jù)，目標域為銀行貸款用戶數(shù)據(jù)，把源域的數(shù)據(jù)遷移到目標域，從而提高預(yù)測的準確率。

2 基于遷移學(xué)習(xí)的風(fēng)險用戶預(yù)測方法

2.1 整體架構(gòu)

風(fēng)險用戶評估的整體架構(gòu)如圖1所示。首先，對銀行用戶貸款數(shù)據(jù)進行分析、探索和清洗，將已有特征通過類別映射、特征分解以及特征組合交叉等方法構(gòu)建為新特征。其次，基于遷移學(xué)習(xí)思想使用LightGBM模型，并采用5折交叉驗證方法構(gòu)建風(fēng)險用戶識別模型。最后，使用ROC曲線下的面積（Area under Curve，AUC）來評估模型。

圖1 風(fēng)險用戶評估整體架構(gòu)

2.2 數(shù)據(jù)分析與預(yù)處理

為了更直觀地了解數(shù)據(jù)集的分布、特征間關(guān)系以及特征類型等信息，需要對數(shù)據(jù)集的分布、特征間關(guān)系以及特征類型進行分析，為后續(xù)數(shù)據(jù)預(yù)處理和特征工程做準備。對銀行數(shù)據(jù)集統(tǒng)計存在缺失值的特征列、缺失量以及缺失率降序表（見表1）。該數(shù)據(jù)集一共有39列，7列存在缺失值，其中，f的缺失率最高，f、f、f以及f的缺失在同一條貸款記錄中（f、f、f、f以及f為脫敏后的特征，是一些貸款人行為計數(shù)特征）。

表1 缺失值分析

探索發(fā)現(xiàn)時間特征在借款人最初開立信用額度的時間中存在異常時間，例如2069年10月01日、2065年09月01日為未來時間，借款人不可能在該時間開立信用額度，把這部分數(shù)據(jù)作為臟數(shù)據(jù)，根據(jù)其他正常貸款開立時間，將異常時間減100 a變?yōu)檎r間。探究銀行貸款違約記錄數(shù)據(jù)和互聯(lián)網(wǎng)貸款違約記錄數(shù)據(jù)的數(shù)據(jù)集中用戶是否有違約信息，銀行貸款違約記錄數(shù)據(jù)中共有1萬條數(shù)據(jù)，其中違約用戶為1 683，占總數(shù)據(jù)的16.8%；互聯(lián)網(wǎng)貸款違約記錄數(shù)據(jù)中共有75萬條數(shù)據(jù)，其中違約用戶為149 673，占總數(shù)據(jù)的19.9%。

對特征的離散或是連續(xù)的判定中設(shè)置閾值25，一個特征種類數(shù)大于25判定為連續(xù)特征，反之為離散特征。離散特征中每種類型的數(shù)量和對違約的影響表現(xiàn)為網(wǎng)絡(luò)貸款等級特征中網(wǎng)絡(luò)貸款等級為2級的數(shù)量最多，網(wǎng)絡(luò)貸款等級為7級的數(shù)量最少，網(wǎng)絡(luò)貸款等級為7級、6級以及5級的用戶更容易違約。最后探究連續(xù)特征網(wǎng)絡(luò)貸款利率取值對違約的影響，網(wǎng)絡(luò)貸款利率低于12的用戶中違約用戶少于正常用戶，網(wǎng)絡(luò)貸款利率高于12的用戶中違約用戶多于正常用戶。

2.3 銀行貸款用戶數(shù)據(jù)特征工程

經(jīng)過對數(shù)據(jù)的分析可知，數(shù)據(jù)中含有類別特征，用字典映射和LabelEncoder編碼器將類型特征網(wǎng)絡(luò)貸款等級、任職公司類型、工作領(lǐng)域以及工作年限轉(zhuǎn)換為數(shù)值類，以便后期構(gòu)建模型。為了進一步提高模型效果，對2個時間特征（貸款開戶時間和貸款發(fā)放時間）來說，首先，需要進行正則化處理使數(shù)據(jù)結(jié)構(gòu)統(tǒng)一。其次，將時間數(shù)據(jù)分解為相應(yīng)的年、月、星期以及2個日期時間差。同時，對貸款和還款相關(guān)特征進行特征交叉，例如用貸款金額除貸款年份得出年均貸款金額等。

為了提高預(yù)測的準確率，將部分特征進行交叉組合后生成新特征，新特征及其說明見表2。

表2 銀行貸款用戶數(shù)據(jù)構(gòu)建新特征

2.4 基于風(fēng)險用戶識別的模型構(gòu)建

對構(gòu)建風(fēng)險用戶識別模型來說，LightGBM算法模型的預(yù)測效果雖然優(yōu)于傳統(tǒng)的決策樹、隨機森林算法，但是當數(shù)據(jù)量較少時仍然不能達到理想的預(yù)測效果，因此該文采用遷移學(xué)習(xí)的思想提高風(fēng)險用戶預(yù)測效果。

LightGBM是一個基于決策樹的梯度Boosting算法框架，與其他算法相比，有更快的訓(xùn)練效率和更低的內(nèi)存，并且可以自動處理類別特征和自動填充缺失值。對LightGBM參數(shù)設(shè)置見表3，表3中前兩行參數(shù)影響準確率，決定模型結(jié)構(gòu)，第六至第八行參數(shù)影響過擬合。

表3 LightGBM參數(shù)設(shè)置

折交叉驗證為了減小模型過擬合，從已有數(shù)據(jù)中盡量提取更多的有效信息，將原始數(shù)據(jù)等比例劃分為份，次訓(xùn)練隨機選取-1份為訓(xùn)練集，1份為測試集交叉訓(xùn)練，該文選取5折交叉驗證，基本流程如下：1）將數(shù)據(jù)集均勻劃分為5份。2）將前四份作為訓(xùn)練集，第五份作為測試集。3）訓(xùn)練集訓(xùn)練模型，并使用訓(xùn)練集和測試集一起進行擬合。4）預(yù)測測試集結(jié)果為1的概率，并計算評價指標。5）重復(fù)第二步~第四步，依次選取1份數(shù)據(jù)作為測試集，其他4份為訓(xùn)練集。6）將5折交叉的結(jié)果和評估指標取均值作為最終結(jié)果。

由于用戶在銀行貸款的數(shù)據(jù)較少，考慮將網(wǎng)絡(luò)貸款數(shù)據(jù)遷移至訓(xùn)練集，且網(wǎng)貸數(shù)據(jù)與銀行數(shù)據(jù)存在差異，因此該文用銀行貸款數(shù)據(jù)作為訓(xùn)練集預(yù)測網(wǎng)貸數(shù)據(jù)，用畫圖工具畫出預(yù)測值的分布，選取預(yù)測值小于0.05且真實值為0的用戶數(shù)據(jù)以及預(yù)測值大于0.7且真實值為1的用戶數(shù)據(jù)，以達到豐富銀行數(shù)據(jù)的效果。

將銀行數(shù)據(jù)與選取的部分網(wǎng)貸數(shù)據(jù)與預(yù)測測試集數(shù)據(jù)相結(jié)合，通過分析數(shù)據(jù)可知，貸款違約用戶的數(shù)量遠少于正常還款用戶的數(shù)量，選取預(yù)測值小于0.05的數(shù)據(jù)，將該部分數(shù)據(jù)與上一步銀行數(shù)據(jù)以及部分網(wǎng)貸數(shù)據(jù)結(jié)合，并對測試集進行預(yù)測。具體樣本遷移的流程如圖2所示。

圖2 樣本遷移流程圖

3 試驗結(jié)果與分析

3.1 數(shù)據(jù)選取

風(fēng)險用戶識別的數(shù)據(jù)集選取某銀行用戶貸款記錄，包括貸款號、貸款年份、貸款利率、貸款級別、貸款額、所在公司類型、工作年限、借款人在貸款評分中所屬的下限和上限、債務(wù)收入比、18個月內(nèi)借款人逾期30 d以上違約數(shù)、未結(jié)信用額度數(shù)、信貸周轉(zhuǎn)余額、借款人信用額度開立時間、提前還款次數(shù)、近3個月內(nèi)提前還款金額以及貸款人行為計數(shù)匿名特征等字段，原始訓(xùn)練集有1萬條樣本，其中，測試集有5 000條樣本，另有75萬條來自互聯(lián)網(wǎng)貸款的數(shù)據(jù)。

3.2 模型結(jié)果與分析

該文采用LightGBM、XGBoost以及多層感知機NN對處理后的數(shù)據(jù)進行模型訓(xùn)練，使用評估指標AUC（Area Under ROC Curve，即ROC曲線下方的面積）計算對比3種算法預(yù)測結(jié)果的值，值越接近1說明預(yù)測效果越好。

圖3為在僅使用銀行貸款數(shù)據(jù)的情況下，不同模型在不同迭代次數(shù)時值的對比，LightGBM在不同迭代次數(shù)的情況下值均優(yōu)于XGBoost模型；在迭代次數(shù)為4 000次時，2種模型的值均最高，LightGBM模型的值為0.86。

圖3 銀行貸款數(shù)據(jù)不同模型在不同迭代次數(shù)下AUC值對比

表4為不同模型下選取不同數(shù)據(jù)的值評估，首先，對比LightGBM模型和神經(jīng)網(wǎng)絡(luò)模型下的效果，LightGBM效果比NN算法的略高。其次，在使用5折交叉驗證LightGBM模型情況下，僅使用銀行貸款數(shù)據(jù)的值為0.867；將所有網(wǎng)貸數(shù)據(jù)與銀行貸款數(shù)據(jù)一起作為訓(xùn)練集訓(xùn)練后預(yù)測結(jié)果的值為0.871；網(wǎng)貸數(shù)據(jù)的特征雖與銀行數(shù)據(jù)的特征大致相同，但是2種數(shù)據(jù)的數(shù)據(jù)分布有差異，該文使用銀行數(shù)據(jù)預(yù)測網(wǎng)貸數(shù)據(jù)，將預(yù)測較為準確的數(shù)據(jù)提取出來，將其遷移至銀行貸款數(shù)據(jù)中進行模型訓(xùn)練，預(yù)測結(jié)果的值為0.892，效果明顯好于其他算法。

表4 不同模型下選取不同數(shù)據(jù)的AUC值評估

4 結(jié)語

隨著科學(xué)技術(shù)的快速發(fā)展，很多領(lǐng)域都有海量的數(shù)據(jù)，為了能夠應(yīng)對部分領(lǐng)域數(shù)據(jù)不足的情況，將其他領(lǐng)域的海量數(shù)據(jù)知識遷移學(xué)習(xí)到數(shù)據(jù)不足的領(lǐng)域。該文在進行小樣本風(fēng)險用戶識別中為了更好地捕捉風(fēng)險用戶特征，引入遷移學(xué)習(xí)思想，將擁有海量樣本領(lǐng)域的用戶數(shù)據(jù)遷移到樣本稀疏的風(fēng)險用戶識別領(lǐng)域，通過選擇與該領(lǐng)域類似的數(shù)據(jù)擴充樣本，構(gòu)建用戶特征工程，解決了金融領(lǐng)域風(fēng)險用戶識別的冷啟動問題，并對比了LightGBM、XGBoost以及NN等算法模型的值評估模型。結(jié)果顯示該文利用數(shù)據(jù)遷移學(xué)習(xí)使用LightGBM模型5折交叉驗證的方法效果最優(yōu)，值最高。