李 飛 馮強中 張雨晴 范文斌
(科大國創(chuàng)云網(wǎng)科技有限公司,安徽 合肥 230000)
近年來,金融行業(yè)普惠政策的推廣迎來了很多新用戶,同時,行業(yè)的特殊性對風(fēng)險控制提出了很高的要求,新用戶的風(fēng)控評估成了金融行業(yè)推廣普惠政策的關(guān)鍵,普惠政策作為新政策,樣本量不足的問題會給用戶風(fēng)控水平預(yù)測造成困難。隨著人工智能領(lǐng)域的飛速發(fā)展,AI已經(jīng)廣泛應(yīng)用于醫(yī)療、金融以及通信等領(lǐng)域。但是考慮到金融領(lǐng)域新政策出臺時缺乏用戶數(shù)據(jù),僅使用人工智能中的機器學(xué)習(xí)算法進行預(yù)測必將導(dǎo)致結(jié)果不準確的問題。為了豐富數(shù)據(jù)的來源,許多學(xué)者將遷移學(xué)習(xí)作為一個關(guān)鍵技術(shù)進行研究。遷移學(xué)習(xí)的思想是當目標領(lǐng)域可用數(shù)據(jù)量較少時,從不同但是相關(guān)的領(lǐng)域中尋找類似數(shù)據(jù)進行訓(xùn)練,將大樣本遷移到小樣本中,以解決小樣本中樣本量稀疏的問題。根據(jù)遷移的過程不同,現(xiàn)在主流的遷移學(xué)習(xí)方法大致分為4種:基于實例的遷移、基于特征的遷移、基于參數(shù)的遷移以及基于關(guān)系的遷移。
該文利用遷移學(xué)習(xí)的思想,將與原任務(wù)樣本類似的數(shù)據(jù)遷移至訓(xùn)練集中,以樣本量,結(jié)合訓(xùn)練速度快、準確率高的LightGBM模型進行5折交叉驗證,從而有效地提高預(yù)測的準確率。
在遷移學(xué)習(xí)的數(shù)學(xué)定義中,源域是已知的、成熟的領(lǐng)域,目標域是數(shù)據(jù)量小的、新的且需要借助其他領(lǐng)域?qū)W習(xí)的領(lǐng)域,給出源域的數(shù)據(jù)和任務(wù),目標域的數(shù)據(jù)和任務(wù),使用源領(lǐng)域和任務(wù)中的知識去改進對于目標領(lǐng)域的預(yù)測函數(shù)。其中,源域數(shù)據(jù)不等于目標域數(shù)據(jù)或者源域任務(wù)不等于目標域任務(wù)。這一技術(shù)可以借助其他領(lǐng)域的知識補充樣本少的任務(wù),提升任務(wù)準確率。
采用TrAdaBoost算法解決實例遷移學(xué)習(xí)問題,假設(shè)源域和目標域使用相同特征,但是在不同的域中,該特征的值的分布情況不同,部分源域數(shù)據(jù)對目標域的學(xué)習(xí)有幫助,另一部分源域數(shù)據(jù)對目標域的學(xué)習(xí)沒有幫助甚至是負遷移,因此通過調(diào)整指定源域中數(shù)據(jù)權(quán)重的方式來降低負效果數(shù)據(jù)對訓(xùn)練的影響,增強正效果數(shù)據(jù)對訓(xùn)練的影響。宋鵬等人提出基于特征遷移學(xué)習(xí)方法的跨庫語音情感識別方法,為了解決語音情感識別中訓(xùn)練語音和預(yù)測語音語料差異導(dǎo)致預(yù)測效果差的問題,通過特征變換降維選擇源域和目標域相似性高的空間維度對數(shù)據(jù)進行分類,從而實現(xiàn)基于特征的遷移,優(yōu)化后的情感識別率比基線方法和傳統(tǒng)識別方法的識別率更高。
谷歌公司AI團隊發(fā)布的Bert模型用于自然語言處理(NLP),Bert模型已經(jīng)在大數(shù)據(jù)集上進行了預(yù)訓(xùn)練,程序員將Bert預(yù)訓(xùn)練模型作為語言表征模型對參數(shù)進行遷移學(xué)習(xí),通過微調(diào)參數(shù)后應(yīng)用于NLP模型中,不僅節(jié)省了大量人力和時間,而且還可以提高預(yù)測的準確率。
遷移學(xué)習(xí)思想被廣泛應(yīng)用于語音、文本以及圖像等非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域,但是在結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域的應(yīng)用較少,該文將遷移學(xué)習(xí)思想應(yīng)用于風(fēng)險用戶預(yù)測中,源域為網(wǎng)絡(luò)貸款用戶數(shù)據(jù),目標域為銀行貸款用戶數(shù)據(jù),把源域的數(shù)據(jù)遷移到目標域,從而提高預(yù)測的準確率。
風(fēng)險用戶評估的整體架構(gòu)如圖1所示。首先,對銀行用戶貸款數(shù)據(jù)進行分析、探索和清洗,將已有特征通過類別映射、特征分解以及特征組合交叉等方法構(gòu)建為新特征。其次,基于遷移學(xué)習(xí)思想使用LightGBM模型,并采用5折交叉驗證方法構(gòu)建風(fēng)險用戶識別模型。最后,使用ROC曲線下的面積(Area under Curve,AUC)來評估模型。

圖1 風(fēng)險用戶評估整體架構(gòu)
為了更直觀地了解數(shù)據(jù)集的分布、特征間關(guān)系以及特征類型等信息,需要對數(shù)據(jù)集的分布、特征間關(guān)系以及特征類型進行分析,為后續(xù)數(shù)據(jù)預(yù)處理和特征工程做準備。對銀行數(shù)據(jù)集統(tǒng)計存在缺失值的特征列、缺失量以及缺失率降序表(見表1)。該數(shù)據(jù)集一共有39列,7列存在缺失值,其中,f的缺失率最高,f、f、f以及f的缺失在同一條貸款記錄中(f、f、f、f以及f為脫敏后的特征,是一些貸款人行為計數(shù)特征)。

表1 缺失值分析
探索發(fā)現(xiàn)時間特征在借款人最初開立信用額度的時間中存在異常時間,例如2069年10月01日、2065年09月01日為未來時間,借款人不可能在該時間開立信用額度,把這部分數(shù)據(jù)作為臟數(shù)據(jù),根據(jù)其他正常貸款開立時間,將異常時間減100 a變?yōu)檎r間。探究銀行貸款違約記錄數(shù)據(jù)和互聯(lián)網(wǎng)貸款違約記錄數(shù)據(jù)的數(shù)據(jù)集中用戶是否有違約信息,銀行貸款違約記錄數(shù)據(jù)中共有1萬條數(shù)據(jù),其中違約用戶為1 683,占總數(shù)據(jù)的16.8%;互聯(lián)網(wǎng)貸款違約記錄數(shù)據(jù)中共有75萬條數(shù)據(jù),其中違約用戶為149 673,占總數(shù)據(jù)的19.9%。
對特征的離散或是連續(xù)的判定中設(shè)置閾值25,一個特征種類數(shù)大于25判定為連續(xù)特征,反之為離散特征。離散特征中每種類型的數(shù)量和對違約的影響表現(xiàn)為網(wǎng)絡(luò)貸款等級特征中網(wǎng)絡(luò)貸款等級為2級的數(shù)量最多,網(wǎng)絡(luò)貸款等級為7級的數(shù)量最少,網(wǎng)絡(luò)貸款等級為7級、6級以及5級的用戶更容易違約。最后探究連續(xù)特征網(wǎng)絡(luò)貸款利率取值對違約的影響,網(wǎng)絡(luò)貸款利率低于12的用戶中違約用戶少于正常用戶,網(wǎng)絡(luò)貸款利率高于12的用戶中違約用戶多于正常用戶。
經(jīng)過對數(shù)據(jù)的分析可知,數(shù)據(jù)中含有類別特征,用字典映射和LabelEncoder編碼器將類型特征網(wǎng)絡(luò)貸款等級、任職公司類型、工作領(lǐng)域以及工作年限轉(zhuǎn)換為數(shù)值類,以便后期構(gòu)建模型。為了進一步提高模型效果,對2個時間特征(貸款開戶時間和貸款發(fā)放時間)來說,首先,需要進行正則化處理使數(shù)據(jù)結(jié)構(gòu)統(tǒng)一。其次,將時間數(shù)據(jù)分解為相應(yīng)的年、月、星期以及2個日期時間差。同時,對貸款和還款相關(guān)特征進行特征交叉,例如用貸款金額除貸款年份得出年均貸款金額等。
為了提高預(yù)測的準確率,將部分特征進行交叉組合后生成新特征,新特征及其說明見表2。

表2 銀行貸款用戶數(shù)據(jù)構(gòu)建新特征
對構(gòu)建風(fēng)險用戶識別模型來說,LightGBM算法模型的預(yù)測效果雖然優(yōu)于傳統(tǒng)的決策樹、隨機森林算法,但是當數(shù)據(jù)量較少時仍然不能達到理想的預(yù)測效果,因此該文采用遷移學(xué)習(xí)的思想提高風(fēng)險用戶預(yù)測效果。
LightGBM是一個基于決策樹的梯度Boosting算法框架,與其他算法相比,有更快的訓(xùn)練效率和更低的內(nèi)存,并且可以自動處理類別特征和自動填充缺失值。對LightGBM參數(shù)設(shè)置見表3,表3中前兩行參數(shù)影響準確率,決定模型結(jié)構(gòu),第六至第八行參數(shù)影響過擬合。

表3 LightGBM參數(shù)設(shè)置
折交叉驗證為了減小模型過擬合,從已有數(shù)據(jù)中盡量提取更多的有效信息,將原始數(shù)據(jù)等比例劃分為份,次訓(xùn)練隨機選取-1份為訓(xùn)練集,1份為測試集交叉訓(xùn)練,該文選取5折交叉驗證,基本流程如下:1) 將數(shù)據(jù)集均勻劃分為5份。2) 將前四份作為訓(xùn)練集,第五份作為測試集。3) 訓(xùn)練集訓(xùn)練模型,并使用訓(xùn)練集和測試集一起進行擬合。4) 預(yù)測測試集結(jié)果為1的概率,并計算評價指標。5) 重復(fù)第二步~第四步,依次選取1份數(shù)據(jù)作為測試集,其他4份為訓(xùn)練集。6) 將5折交叉的結(jié)果和評估指標取均值作為最終結(jié)果。
由于用戶在銀行貸款的數(shù)據(jù)較少,考慮將網(wǎng)絡(luò)貸款數(shù)據(jù)遷移至訓(xùn)練集,且網(wǎng)貸數(shù)據(jù)與銀行數(shù)據(jù)存在差異,因此該文用銀行貸款數(shù)據(jù)作為訓(xùn)練集預(yù)測網(wǎng)貸數(shù)據(jù),用畫圖工具畫出預(yù)測值的分布,選取預(yù)測值小于0.05且真實值為0的用戶數(shù)據(jù)以及預(yù)測值大于0.7且真實值為1的用戶數(shù)據(jù),以達到豐富銀行數(shù)據(jù)的效果。
將銀行數(shù)據(jù)與選取的部分網(wǎng)貸數(shù)據(jù)與預(yù)測測試集數(shù)據(jù)相結(jié)合,通過分析數(shù)據(jù)可知,貸款違約用戶的數(shù)量遠少于正常還款用戶的數(shù)量,選取預(yù)測值小于0.05的數(shù)據(jù),將該部分數(shù)據(jù)與上一步銀行數(shù)據(jù)以及部分網(wǎng)貸數(shù)據(jù)結(jié)合,并對測試集進行預(yù)測。具體樣本遷移的流程如圖2所示。

圖2 樣本遷移流程圖
風(fēng)險用戶識別的數(shù)據(jù)集選取某銀行用戶貸款記錄,包括貸款號、貸款年份、貸款利率、貸款級別、貸款額、所在公司類型、工作年限、借款人在貸款評分中所屬的下限和上限、債務(wù)收入比、18個月內(nèi)借款人逾期30 d以上違約數(shù)、未結(jié)信用額度數(shù)、信貸周轉(zhuǎn)余額、借款人信用額度開立時間、提前還款次數(shù)、近3個月內(nèi)提前還款金額以及貸款人行為計數(shù)匿名特征等字段,原始訓(xùn)練集有1萬條樣本,其中,測試集有5 000條樣本,另有75萬條來自互聯(lián)網(wǎng)貸款的數(shù)據(jù)。
該文采用LightGBM、XGBoost以及多層感知機NN對處理后的數(shù)據(jù)進行模型訓(xùn)練,使用評估指標AUC(Area Under ROC Curve,即ROC曲線下方的面積)計算對比3種算法預(yù)測結(jié)果的值,值越接近1說明預(yù)測效果越好。
圖3為在僅使用銀行貸款數(shù)據(jù)的情況下,不同模型在不同迭代次數(shù)時值的對比,LightGBM在不同迭代次數(shù)的情況下值均優(yōu)于XGBoost模型;在迭代次數(shù)為4 000次時,2種模型的值均最高,LightGBM模型的值為0.86。

圖3 銀行貸款數(shù)據(jù)不同模型在不同迭代次數(shù)下AUC值對比
表4為不同模型下選取不同數(shù)據(jù)的值評估,首先,對比LightGBM模型和神經(jīng)網(wǎng)絡(luò)模型下的效果,LightGBM效果比NN算法的略高。其次,在使用5折交叉驗證LightGBM模型情況下,僅使用銀行貸款數(shù)據(jù)的值為0.867;將所有網(wǎng)貸數(shù)據(jù)與銀行貸款數(shù)據(jù)一起作為訓(xùn)練集訓(xùn)練后預(yù)測結(jié)果的值為0.871;網(wǎng)貸數(shù)據(jù)的特征雖與銀行數(shù)據(jù)的特征大致相同,但是2種數(shù)據(jù)的數(shù)據(jù)分布有差異,該文使用銀行數(shù)據(jù)預(yù)測網(wǎng)貸數(shù)據(jù),將預(yù)測較為準確的數(shù)據(jù)提取出來,將其遷移至銀行貸款數(shù)據(jù)中進行模型訓(xùn)練,預(yù)測結(jié)果的值為0.892,效果明顯好于其他算法。

表4 不同模型下選取不同數(shù)據(jù)的AUC值評估
隨著科學(xué)技術(shù)的快速發(fā)展,很多領(lǐng)域都有海量的數(shù)據(jù),為了能夠應(yīng)對部分領(lǐng)域數(shù)據(jù)不足的情況,將其他領(lǐng)域的海量數(shù)據(jù)知識遷移學(xué)習(xí)到數(shù)據(jù)不足的領(lǐng)域。該文在進行小樣本風(fēng)險用戶識別中為了更好地捕捉風(fēng)險用戶特征,引入遷移學(xué)習(xí)思想,將擁有海量樣本領(lǐng)域的用戶數(shù)據(jù)遷移到樣本稀疏的風(fēng)險用戶識別領(lǐng)域,通過選擇與該領(lǐng)域類似的數(shù)據(jù)擴充樣本,構(gòu)建用戶特征工程,解決了金融領(lǐng)域風(fēng)險用戶識別的冷啟動問題,并對比了LightGBM、XGBoost以及NN等算法模型的值評估模型。結(jié)果顯示該文利用數(shù)據(jù)遷移學(xué)習(xí)使用LightGBM模型5折交叉驗證的方法效果最優(yōu),值最高。