999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于超參數優化和集成學習的互聯網信貸個人信用評估

2019-02-28 03:33:12王重仁韓冬梅
統計與決策 2019年1期
關鍵詞:特征優化方法

王重仁,韓冬梅

(上海財經大學 信息管理與工程學院,上海 200433)

0 引言

1 理論與方法

隨著互聯網信貸行業的飛速發展,風險問題也在不斷涌現,互聯網信貸行業最大的風險是借款用戶的違約風險,即用戶信用風險,因此,個人信用評估對互聯網信貸行業至關重要。個人信用評估是指評估機構根據個體歷史記錄,對個體還款能力和還款意愿進行判斷。個人信用評估本質上是一個二分類問題,通過模型輸出個體的違約概率,通過對個人信用風險的評估,將借款申請人分為“好”客戶和“壞”客戶。

互聯網信貸個人信用評估具有變量維度高的特點,傳統的Logistic回歸只適合處理線性關系,因此,機器學習方法日益受到關注。本文從機器學習算法參數優化的視角,提出了一種新的集成學習信用評估模型。引入了一種新的Boosting技術-XGBoost,XGBoost是一種改進的GBDT算法,XGBoost包含多種超參數,這些超參數對算法效果影響很大,貝葉斯優化可以利用先驗知識來選擇下一組超參數,和傳統網格搜索和隨機搜索相比,貝葉斯超參數優化精度更高且更加高效。

目前對于信用評估的研究大部分都只側重算法的應用研究,比如王潤華[1]的研究,王磊等[2]的研究,然而基于超參數優化視角的信用評估研究還較少,Xia等[3]提出了一種基于超參數優化和XGBoost算法的個人信用評估模型,并且基于信用評估領域數據集進行了實驗,然而作者研究用的數據集變量維度較低。近年來,陳天奇[4]對GBDT算法進行改進,提出了一種設計高效、靈活并且可移植強的最優分布式決策梯度提升庫XGBoost,該算法曾經在國外數

1.1 XGBoost

梯度提升是一種Boosting方法,Boosting是一類可將弱分類器提升為強分類器的算法,屬于集成學習范疇。Boosting和Bagging是集成學習的兩種主要方法。不同于Bagging方法,Boosting方法通過分步迭代的方式來構建模型,在迭代的每一步構建的弱分類器都是為了彌補已有模型的不足。Boosting類算法的著名代表是AdaBoost,與AdaBoost算法不同,梯度提升方法在迭代的每一步構建一個能夠沿著梯度最陡的方向降低損失的分類器來彌補已有模型的不足。

基于梯度提升算法的學習器叫做GBM,GBM可以選擇各種不同的學習算法作為基分類器,而使用最多的基分類器是決策樹,以決策樹作為弱分類器的梯度提升算法稱為GBDT。

XGBoost是一種改進的GBDT算法[4],該算法與GBDT有很大的區別。GBDT在優化時只用到一階導數,XGBoost則同時用到了一階導數和二階導數。XGBoost在目標函數里加入了正則項,用以權衡目標函數的下降和模型的復雜程度,避免過擬合。

XGBoost算法可以看成是由K棵樹組成的加法模型:

其中F為所有樹組成的函數空間。上述加法模型的目標函數定義為:

其中第二項表示決策樹的復雜度。加法模型的學習可以用前向分布算法。具體地,從一個常量預測開始,每次學習一個新的函數,過程如下:

這時候目標函數可以寫為:

根據泰勒公式:

目標函數可以轉化為:

其中,gi定義為損失函數的一階導數,hi定義為損失函數的二階導數,因為函數中的常數項在目標函數優化時沒影響,所以從公式(6)中移除掉常量項,可以得到:

對于一顆生成好的決策樹,假定它的葉子節點個數為T,該決策樹是由所有葉子節點對應的值組成的向量w∈RT以及把特征向量映射到葉子節點索引的函數q∶Rd→{1,2,…,T}組成的。決策樹計算公式:

決策樹復雜度計算公式:

由上面公式可知,決策樹復雜度受到樹的葉子節點數量和葉子節點對應的值向量的L2范數的影響。

假設Ij={i|q(xi)=j}代表被劃分到葉子節點的樣本的集合,公式(7)中目標函數重新計算如下:

此時,目標函數的值為:

通常情況下,采用貪心策略來生成決策樹的每個節點。對于每次分裂的增益的計算公式:

其中,γ項表示因為增加了樹的復雜性帶來的懲罰。

XGBoost屬于基于決策樹的集成學習方法,因此可以輸出特征的相對重要度,從而便于本文進一步對預測結果有重要影響的因素進行分析。特征重要度計算方法如下:

特征j的重要度,通過其在所有單獨決策樹中的重要度的平均值來決定:

其中,M是樹的數量。特征j在單顆樹中的重要度的如下:

其中,L為樹的葉子節點數量,L-1即為樹的非葉子節點數量,vt是和節點t相關聯的特征是節點分裂之后平方損失的減少值。

1.2 貝葉斯參數優化

超參數是指模型在訓練過程中并不能直接從數據學到的參數,如何優化機器學習的超參數一直是一個難題,超參數優化的方法很多,常用方法包括:網格搜索法(GS)和隨機搜索法(RS)。

網格搜索是對參數空間一一舉例,類似枚舉,網格搜索本質上是一種手動指定一組超參數的窮舉搜索法。網格搜索最后會將獲得最佳性能的參數組作為最優超參數,但并不適用于連續型參數空間,因為無法枚舉出所有個體的參數空間,當參數組合規模較大時,則窮舉組合的規模就會爆炸性增長,時間花費較大。隨機搜索是對參數空間隨機搜索,其搜索范圍遍布整個搜索區域,但是隨機搜索并不能利用先驗知識來選擇下一組超參數,這一缺點在訓練成本較高的模型中尤為突出。

貝葉斯優化是一種近似逼近的方法,本文的假設有一系列觀察樣本,這樣訓練后的模型將顯著地服從某個函數,而該未知函數也將完全取決于它所學到的數據。因此,本文的任務就是找到一組能最大化學習效果的超參數。

貝葉斯優化從理論上概括,其實就是在函數方程未知的情況下根據已有的采樣點預估函數最大值的一個算法。該算法假設函數符合高斯過程(GP)[5]。

貝葉斯參數優化屬于一類稱為基于序列模型優化(SMBO)算法[6]的優化算法。SMBO算法使用先前觀察到的函數f,去確定f的下一個采樣點。

GP簡要表示為在某個連續空間上的觀測域的統計模型,GP的每個點的輸入空間都是高斯分布的隨機變量,確定期望和協方差函數,就可以得到一個GP。

為了計算后驗期望,需要一個來自f的樣本的似然模型,以及f上的先驗概率模型。在貝葉斯優化中,假定如下:

對于先驗分布,假設評價函數可以用GP來描述。正如高斯分布完全由其均值和方差確定,GP可以由其平均函數m(x)和協方差函數確定。

SMBO算法目前主流的優化標準是EI[7],EI定義如下:

其中X?是當前最優的一組超參數,Φ(z)和?(z)是(多元)標準正態分布的累積分布和概率密度函數。

貝葉斯優化算法具體計算過程如下:

(1)給定觀測值x,使用GP模型更新f的后驗期望值。

(2)找到最大化EI的Xnew,Xnew=armaxEI(x)。

(3)計算點Xnew的f的值。

上述過程重復固定的迭代次數,或者直到收斂為止。

2 基于貝葉斯參數優化和XGBoost的個人信用評估模型

XGBoost是一個功能強大的機器學習算法,超參數的設置對模型的效果影響很大,因此本文研究了如何使用貝葉斯優化算法來調整XGBoost中的超參數。本文提出了基于貝葉斯參數優化和XGBoost的信用評估模型,簡稱為BOA-XGBoost。該方法的流程如圖1所示,流程可以分為5個步驟:數據預處理、特征選擇、超參數優化、模型訓練、模型預測和評估。下面討論這幾個步驟:

圖1模型流程圖

步驟1:數據預處理

在數據預處理階段,將離散型變量,如性別,轉換為One-hot編碼。將連續型變量,統一使用Min-Max標準化對數據進行處理。Min-Max標準化也稱離差標準化,是對原始數據的線性變換,使結果落到[0,1]區間,假設對特征x進行變換,轉換函數如下:

則得到新特征xi′∈[0,1],公式中max和min分別為該變量的極大值和極小值。

步驟2:特征選擇

在機器學習問題上,當變量維度過高時,并不是所有的變量預測的結果都是相關的,一些不相關的變量可能對模型預測精度產生負面影響[8]。特征選擇可以提高模型精度,規避過擬合的現象。

在特征選擇階段,首先移除低方差的特征。這是特征選擇中的一項基本方法,它會移除所有方差不滿足閾值的特征,這個方法只針對離散型變量,將閾值設置為99%。布爾特征是伯努利隨機變量,該類變量的方差為:

在移除低方差特征后,使用特征遞歸消除(RFE)[9]方法繼續進行特征選擇。RFE算法在選擇特征時以遞歸方式考慮越來越小的特征集合。首先,使用分類器在初始特征集合上進行訓練,計算模型的特征重要度從而獲得每個特征的重要性,然后,將重要度較低的一部分特征從特征集合中刪除。上述過程在特征集合上重復進行,直到特征數量滿足要求為止。因此,這是一種尋找最優特征子集的貪心算法。RFE估計器設置為XGBoost,在使用RFE進行特征選擇后,得到了一組最優特征子集。

步驟3:超參數優化

如前所述,XGBoost是一個功能強大的分類器,有許多需要仔細調整的超參數。基于前文提出的貝葉斯優化算法進行超參數優化,因信用評分是一個二分類問題,同時模型需要輸出預測概率值,因此可以使用對數損失來評估不同參數下模型的性能,公式如下:

其中yi和pi分別代表真實值和預測概率值。為了更客觀的衡量參數,使用5折交叉驗證對數損失來測量相應參數下的模型性能。在使用貝葉斯優化算法進行優化后,最后確定了一組使模型5倍交叉驗證對數損失最低的最優參數。

步驟4:模型訓練

使用確定好的最優特征子集和最優超參數在訓練數據集上模型。

步驟5:模型預測和評估

在測試數據集上,首先對數據進行預處理,然后選擇跟訓練集上相同的特征子集,使用訓練好的模型對測試數據集上的樣本進行預測,最后將預測的結果和實際結果進行對比,評估模型效果。整個方法基于5折交叉驗證的框架,因此最后的評估結果為5個不同測試集下評估結果的平均值。

3 實驗設置

3.1 數據集和模型訓練

為了更全面的對本文提出的模型進行評估,本文基于Lending club公開數據集進行研究。Lending club是成立于2006年的一家P2P網絡借貸平臺,總部位于美國舊金山。本文選擇了Lending club2016年Q1的數據,數據集共計133889條數據。對初始變量進行初步篩選后,最終選擇了43個輸入變量,包含征信查詢、銀行記錄、個人資產等方面數據。數據的標簽為用戶是否違約,如果用戶違約,標簽定義為1,否則定義為0。

本文實驗采用的開發語言為Python,Python是一種解釋型、面向對象的程序設計語言,具有豐富開源庫。在經過特征選擇后,最終保留了12個變量,為了證明貝葉斯參數優化方法的有效性,本文同時使用網格搜索和隨機搜索作為超參數優化方法進行對比。使用這些超參數優化方法分別對XGBoost的超參數進行調整,參數優化方法采用Hyperopt庫來實現,XGBoost算法采用sklearn庫來實現,對于XGBoost算法本文選擇了4個對算法影響較大的超參數進行調整,分別是:決策樹數量(n_estimators)、學習速率(learning_rate)、樹的最大深度(max_depth)和決定最小葉子節點樣本權重(min_child_weight),其他參數使用sklearn默認設置。實驗中優化的參數空間如表1所示。

表1 參數空間

3.2 對比方法和評價指標

為了評估本文提出的基于XGBoost的信用評估方法,本文選擇了4個在信用評估研究中常用的機器學習算法進行對比:Logistic回歸(LR)、支持向量機(SVM),隨機森林(RF)、神經網絡(NN)。其中,神經網絡采用BP算法進行訓練,SVM采用徑向基核函數(RBF)進行訓練。這些對比方法使用跟XGBoost法相同的特征子集,同時這些對比方法的超參數使用網格搜索法確定。

為了更全面地對模型效果進行評估,同時考慮到需要對模型的輸出的用戶違約概率進行評估,最后本文使用信用評估領域常用的3個指標來評估模型,分別是ROC曲線、AUC和KS。

使用ROC曲線和AUC作為模型的評價指標。首先計算真陽性率(TPR)和假陽性率(FPR)的值,然后以FPR和TPR為坐標形成折線圖,即ROC曲線。ROC曲線越靠近左上角,模型分類的準確性就越高。AUC是ROC曲線下方的面積,AUC越大,代表模型分類性能越好。KS是信用風險評估領域常用的區分度評價指標。首先將數據樣本按照預測違約概率由低到高進行排序,然后計算每一個違約率下的累積TPR值和累積FPR值,最后求這兩個值的差值的最大值,即為KS指標。KS值越大代表模型對于違約客戶和按時還款客戶的區分能力越強。

4 結果分析

4.1 超參數優化結果

為了對比不同超參數優化方式的效率,本文將迭代次數統一設置為50,不同的參數優化方法選擇相同范圍的參數空間。不同超參數優化方式對比如圖2所示。圖中顯示了不同超參數優化方式模型結果的箱線圖,橫軸代表超參數選擇過程中不同超參數優化方式,縱軸代表XGBoost模型結果的AUC值。

圖2不同超參數優化方式對比

從圖2中可以看出,隨機搜索參數優化方式效果均優于網格搜索方法。同時貝葉斯優化參數優化方法的效果最好,優于其他方法,這跟以前一些研究的結論一致[3,5,6,10]。

4.2 模型評價結果

表2給出了5種不同模型的模型結果表現。從表2中可以看出,XGBoost達到了最高的KS(0.301)和AUC(0.689),隨機森林次之,SVM、NN和邏輯回歸效果較差,XGBoost算法的KS指標和邏輯回歸相比提升了29.74%,AUC指標和邏輯回歸相比提升了10.95%。結果說明XGBoost方法的性能不但優于常見的單一分類器,而且優于集成學習分類器(RF)。同時從下頁圖3,可以看到,XGBoost的ROC曲線始終處于最左上方,這表明XGBoost具有最好的客戶違約預測能力。

表2 模型結果

圖3模型ROC曲線

本文提出的XGBoost信用評估模型屬于基于決策樹的集成學習模型,模型重要度評分使模型具有了可解釋性,從而可以對影響模型效果的關鍵變量進行分析。訓練完畢后輸出模型特征的重要度分數,分數越高說明特征越重要。

特征重要度如圖4所示,圖中縱坐標表示具體的特征,橫坐標表示特征重要度分數,在圖中顯示了重要度前10的特征,這樣提出的個人信用評估方法就具有了一定的可解釋性,在進行信用評估時,方便決策者更好地理解信用評分模型,從而進行決策。

圖4特征重要度

5 結論

本文針對互聯網信貸行業的個人信用評估問題,提出了一種基于貝葉斯參數優化和XGBoost算法的信用評估方法。XGBoost包含多種超參數,這些超參數對算法效果影響很大,貝葉斯優化是在函數方程未知的情況下根據已有的采樣點預估函數最大值的一個算法,和傳統的網格搜索和隨機搜索相比,貝葉斯優化可以利用利用先驗知識來選擇下一組超參數,因此貝葉斯超參數優化精度更高且更加高效,并采用貝葉斯超參數優化來調參。本文提出的基于貝葉斯參數優化和XGBoost的信用評估方法包括5個步驟:數據預處理、特征選擇、超參數優化、模型訓練、模型預測和評估,在對數據進行預處理后,采用遞歸特征消除(RFE)來進行特征選擇,然后使用貝葉斯參數優化來調參,最后使用XGBoost算法來訓練模型并進行預測。

在互聯網借貸平臺真實數據集上進行了實驗,實驗結果表明,本文提出模型的預測效果優于對比算法(Logistic回歸、支持向量機,隨機森林、神經網絡),同時貝葉斯參數優化方法優于網格搜索法和隨機搜索法,最后證明了本文提出的方法也具有一定可解釋性。因此本文提出的基于貝葉斯參數優化和XGBoost的信用評估方法,可以更好地區分違約用戶,有助于互聯網行業的信用評估工作,有助于更好地識別用戶的違約風險。

猜你喜歡
特征優化方法
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲色大成网站www国产| 久久毛片网| 性欧美在线| 亚洲国产成人麻豆精品| A级全黄试看30分钟小视频| 制服丝袜在线视频香蕉| 无码区日韩专区免费系列| 国产黄色爱视频| 国产精品永久久久久| 都市激情亚洲综合久久| 国产精品美女网站| 国产福利影院在线观看| 九色综合视频网| 久久综合色天堂av| 狠狠色噜噜狠狠狠狠色综合久| 国产福利一区二区在线观看| 91久久偷偷做嫩草影院| 亚洲第一精品福利| 亚洲综合第一页| 久久不卡精品| 久久人人97超碰人人澡爱香蕉| 国产精品入口麻豆| 国产视频一二三区| 久久香蕉国产线看精品| 亚洲第一黄色网址| 人妻少妇久久久久久97人妻| 精品午夜国产福利观看| 亚洲国产欧洲精品路线久久| 尤物成AV人片在线观看| 99热这里只有精品5| 激情视频综合网| 欧美日韩一区二区在线免费观看| 少妇精品久久久一区二区三区| 久久综合干| 国产综合日韩另类一区二区| 国产成人做受免费视频| 国内精品小视频在线| 亚洲欧美日韩成人高清在线一区| 日本午夜在线视频| 一级一级一片免费| 欧美狠狠干| 成人国产精品一级毛片天堂| 精品成人免费自拍视频| 999福利激情视频 | 亚洲综合天堂网| 99久久成人国产精品免费| 在线观看网站国产| 亚洲一区二区精品无码久久久| 一级全黄毛片| 国产一区二区三区在线观看视频| 免费视频在线2021入口| 亚洲中文字幕久久无码精品A| 欧美国产综合视频| 人妻精品全国免费视频| 综合天天色| 久久这里只有精品66| 最新国产午夜精品视频成人| 91美女视频在线| 国产美女自慰在线观看| 激情无码字幕综合| 国产乱人伦偷精品视频AAA| 91精品人妻互换| 99视频在线免费| 久久96热在精品国产高清| 国产特级毛片| 欧美在线导航| 波多野结衣亚洲一区| WWW丫丫国产成人精品| 国产哺乳奶水91在线播放| 亚洲综合第一区| 久久综合九九亚洲一区| 亚洲一区二区三区麻豆| 久久香蕉国产线| www欧美在线观看| 亚洲欧洲自拍拍偷午夜色| 国产一区二区精品高清在线观看| 国产微拍一区| 成人在线不卡视频| 日韩 欧美 小说 综合网 另类| 91精品aⅴ无码中文字字幕蜜桃| 性欧美久久| 黄色网址手机国内免费在线观看|