999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

局部最優(yōu)分箱及其在評分卡模型中的應(yīng)用

2019-05-05 06:30:08夏晨琦
統(tǒng)計與決策 2019年7期
關(guān)鍵詞:方法模型

夏晨琦

(北京中關(guān)村融匯金融信息服務(wù)有限公司,北京 100089)

0 引言

信用評分卡類型眾多,從客戶業(yè)務(wù)周期角度出發(fā)有申請、行為評分卡,從產(chǎn)品對象角度有風險、收益、流失評分卡等,各評分卡既有相同的基礎(chǔ)指標,又有自身的特色變量,其目標變量各不相同。各變量數(shù)據(jù)的探索、采集、加工、衍生是建模的基礎(chǔ)和關(guān)鍵,特別地,一個優(yōu)秀的自變量往往能夠大幅提高模型效率。大數(shù)據(jù)時代,在數(shù)據(jù)處理及計算機運算能力卓越的基礎(chǔ)之上,現(xiàn)代評分卡建模前往往預(yù)收集成百上千的變量。

針對不同的變量類型,傳統(tǒng)的變量能力評測方法是對原始變量進行t檢驗(連續(xù)性變量)、F檢驗、卡方檢驗(分類變量)、列聯(lián)表分析、相關(guān)系數(shù)(Pearson,Spearman)等。由于邏輯回歸對變量數(shù)據(jù)質(zhì)量的要求高(數(shù)據(jù)無缺失,異常值對建模的最終結(jié)果影響程度大等),連續(xù)性自變量的預(yù)測能力往往無法從原始數(shù)據(jù)中充分體現(xiàn)。為此,對原始數(shù)據(jù)進行轉(zhuǎn)化后,提高建模穩(wěn)定性,挖掘變量“隱藏”的預(yù)測能力成為了現(xiàn)代評分卡模型優(yōu)化的常用方法,其中,以分箱(分段)方法最為普遍及有效。

1 模型評價方法

對于有監(jiān)督模型(分類器,包括評分卡),主要評價方法有ROC曲線、LIFT(提升度)曲線或LORENZ曲線(捕獲率)等。

1.1 ROC曲線

以ROC曲線評價方法為例,首先引入混淆矩陣的概念(見圖1)。

其中:TP代表真陽性數(shù),即預(yù)測為陽性,真實值也為陽性的樣本數(shù);FP代表假陽性數(shù),即預(yù)測為陽性,真實值則為陰性的樣本數(shù);TN代表真陰性數(shù),即預(yù)測為陰性,真實值也為陰性的樣本數(shù);FN代表假陰性數(shù),即預(yù)測為陰性,真實值則為陽性的樣本數(shù)。

因此,TP/P(真陽性數(shù)/樣本陽性數(shù))代表捕獲率(或稱召回率、靈敏度),TN/N(真陰性數(shù)/樣本陰性數(shù))則為真負率(或稱特異度)。

圖1 混淆矩陣

按預(yù)測概率對樣本排序后選取臨界百分位點(一般選取等距間隔,且間隔越小,曲線越平滑),根據(jù)每個百分位點可得到n組TP/P(TPR)和(1-TN/N)(1-TNR),將這些值對應(yīng)的點連接起來,就構(gòu)成了ROC曲線,而曲線下的面積AUC(Area Under Curve,范圍為[0.5,1))便成為評價模型的一種標準(越大越好)。

1.2 LIFT曲線

許多業(yè)務(wù)場景往往關(guān)注模型的響應(yīng)率,此時ROC曲線(捕獲率)不再是模型評價的核心,而另一種方法LIFT曲線能更清晰地展現(xiàn)模型的命中能力:

提升度即模型在選定深度(百分位)的命中率與基線概率(也稱先驗概率,即樣本概率)的比值。LIFT越高表明模型對原始概率的優(yōu)化提升能力越強。例如,在風險識別的業(yè)務(wù)場景中,樣本原始不良率為5%。現(xiàn)定義深度為10%,即取預(yù)測概率排名前10%的樣本,其不良率上升至30%,則不良樣本命中率提升至原先的6倍(LIFT=6),提高了風險識別能力。

1.3 帶懲罰的評價指標

在邏輯回歸模型中,可以使用AIC、SC等準則統(tǒng)計量來判斷方程的擬合優(yōu)度,且均考慮了模型復(fù)雜度的懲罰。設(shè)回歸模型的極大似然函數(shù)為L,值越大,擬合度越好。AIC、SC公式分別如下:

其中,K是自變量的個數(shù),n是樣本數(shù)量。模型越復(fù)雜,K值越大,即“懲罰”越大。AIC、SC的評價標準為其值越小(可為負數(shù)),模型越優(yōu),因此“懲罰”迫使模型降低變量數(shù)。

1.4 K-S檢驗

K-S檢驗主要檢驗兩個樣本分布是否存在顯著差異,在對二元分類模型進行評價時,測算各累計分組(按模型得分進行排序)中正負樣本在總體正負樣本中各自占比的差異(分布的百分位點是否存在差異),由此評價模型對正負樣本的分離程度。

2 分箱方法

分箱技術(shù)自誕生以來,形成了許多經(jīng)典方法,大致可以分為無監(jiān)督的分箱算法和有監(jiān)督的分箱算法,前者更易處理,但未提煉目標變量與解釋變量的關(guān)聯(lián)性信息。

2.1 無監(jiān)督分箱

(1)等深分箱

將樣本根據(jù)指定變量進行排序,并按照樣本個數(shù)等分成n組,每組數(shù)據(jù)的指標上下界作為之后指標分段的依據(jù)。

(2)等寬分箱

將變量的取值間距等分,使得每個箱體的區(qū)間距離相同,但箱體的樣本個數(shù)可能各不相同。

(3)聚類分箱

基于k均值聚類的分箱,首先確定分箱的數(shù)量K,然后根據(jù)K均值聚類法將觀測值聚為K類。

2.2 有監(jiān)督分箱

(1)最小熵分箱

有監(jiān)督分箱方法均要考慮目標變量的取值。

箱中的類別越純凈,熵值則越小,若因變量只有一個水平,則熵值等于0。

令wi表示第i個分箱的觀測數(shù)占比;那么總熵值為:

最小熵分箱能夠最大限度地區(qū)分因變量的各類別,即分箱具有良好的區(qū)分能力。

(2)最小GINI分箱

類似地,用GINI不純度替換熵值,同樣可以進行最優(yōu)分箱。此時,再次令表示第l個分箱內(nèi)因變量取值為j的比例,GINI不純度為:

GINI不純度越小,分箱效果越好。

綜上,最小熵分箱及最小GINI分箱均屬于決策樹分箱的方法類,存在過度分箱的問題,即最優(yōu)化指標值會使得分箱太依賴于目標變量值,導致分箱不平滑或是箱數(shù)過多。

(3)BEST K-S分箱

K-S檢驗除應(yīng)用于模型外,還可直接對變量進行分箱。將單變量作為一個特殊的二分類模型:

①K-S檢驗給出區(qū)分度最大的區(qū)間臨界值,并將數(shù)據(jù)左右分割;

②對于分為兩類的樣本數(shù)據(jù),重復(fù)K-S檢驗對數(shù)據(jù)進行分割,以此類推。

與最小熵、最小GINI系數(shù)分箱相同,BEST K-S分箱同樣屬于全局最優(yōu)分箱,但其具有計算成本低,易于調(diào)控分裂數(shù),穩(wěn)定性較強等特點。

3 變量篩選方法

實際上WOE與K-S的思想非常類似,都是對正負樣本進行分布差異的檢驗,其區(qū)別在于K-S的取值范圍是0-1,而WOE進行了對數(shù)轉(zhuǎn)換使得取值范圍擴大為(-∞,+∞ )。IV值的公式如下:

3.1 變量自身解釋能力

信息值(IV值)全稱“Information Value”,顧名思義是對變量的解釋信息的提取,IV值越大,表明變量包含的信息越多,對于建模越重要。IV值由WOE值進行加權(quán)求和,其中,WOE(Weight of Evidence)表示自變量取某個值的時候?qū)`約比率的一種影響,公式如下:

3.2 變量降維

變量降維是剔除“重復(fù)”變量的過程,“重復(fù)”指的是變量間的信息包含重合度,即變量間的相關(guān)性。對兩個變量進行相關(guān)性檢驗,若變量間相關(guān)性強,則保留對模型更重要的變量(一般用IV值的大小評判變量對模型的作用)。對于兩個連續(xù)變量,可計算其Pearson相關(guān)系數(shù);若存在一個變量為離散型變量,可采用Spearman相關(guān)系數(shù);但對于成百上千的變量,進行兩兩比較往往花費大量時間。

變量聚類是高維變量批量篩選的首選方法,基本思想是將變量的相關(guān)系數(shù)矩陣進行因子旋轉(zhuǎn),得到涉及變量互不相同的主成分,后對第二特征值大于給定閥值的變量類進行分解。聚類后的每組變量中均有最好的代表變量,評判標準為(1-R2)比:

4 局部最優(yōu)分箱及變量篩選

4.1 局部分箱算法

局部分箱思想基于Best K-S分箱,將Best K-S分箱的全局性拓展為局部性。

(1)Response加權(quán)分箱

Response加權(quán)分箱是將響應(yīng)率(準確率)考慮進分箱的算法中,考慮如下虛擬數(shù)據(jù)(見表1)。

表1 切分點比較

其中,P%代表正樣本分布,N%代表負樣本分布,|P%-N%|即區(qū)分度,Response代表響應(yīng)率(準確率)。以一次分裂為例,通過Best K-S分箱,易知切分點為2,該水平下樣本數(shù)據(jù)達到K-S值63.55%,然而其Response僅為15.81%,較變量水平<=1時(42.06%)下降了60%以上的準確率,這與區(qū)分度的提升幅度(23.25%)形成較大的差異,因此,若從切分點為1轉(zhuǎn)換至切分點為2,變量的解釋效用呈現(xiàn)衰減特征。

引進創(chuàng)新加權(quán)變量,將區(qū)分度與響應(yīng)率進行加權(quán)綜合考慮,如表1所示,將兩者的權(quán)重定為50%,相加后的得分最大值(46.81%)指向了切分水平1,雖然在全局上未形成最大的區(qū)分度,但在局部(前10%)的數(shù)據(jù)中得到了最優(yōu)切分。

不同的數(shù)據(jù)對權(quán)重的敏感性較強,因此較優(yōu)的分箱方式是對權(quán)重進行遍歷。考慮更新虛擬數(shù)據(jù)(見表2)。

當變量水平<=1時,Response達到了100%,但此時正樣本數(shù)為1,負樣本數(shù)為0,該水平下樣本本身不具規(guī)模,Response沒有代表性。將Response權(quán)重從50%降至40%,同樣得到了局部優(yōu)化。算法實現(xiàn):

第一步:對連續(xù)型變量水平進行從小到大排序,分別計算向上及向下累積正樣本量、累積負樣本量、累積分組樣本量,從自變量與目標變量概率的正負相關(guān)性考慮其解釋能力。

第二步:用加權(quán)(權(quán)重可調(diào)整)Response最高分對應(yīng)的變量水平值作為分裂點將樣本分為左右兩部分。

表2 切分點比較

第三步:對左右兩部分樣本重復(fù)第一步和第二步后停止,即一般將變量分為4個箱。

(2)K-S領(lǐng)域分箱

該分箱方法與上文相似,對變量的累計區(qū)分度和響應(yīng)率進行交互作用,但此處不使用加權(quán)求和的方法,而是通過查詢接近K-S范圍的區(qū)分度領(lǐng)域中的累積提升度(當響應(yīng)率不低于基線概率時,提升度=響應(yīng)率/基線概率;反之,提升度=基線概率/響應(yīng)率(當響應(yīng)率=0時,提升度取空值))進行評價,尋找分裂點。算法實現(xiàn):

第一步:同上文。

第二步:計算變量的K-S值(即區(qū)分度最大的值),記為ks。

第三步:計算在區(qū)分度>=α×ks(其中α為擾動參數(shù),設(shè)置范圍一般為0.95~0.99)時,最大提升度對應(yīng)的變量水平值,作為分裂點將樣本分為左右兩部分。

第四步:對左右兩部分樣本重復(fù)第一步至第三步后停止。

(3)召回設(shè)限下的最優(yōu)Response分箱

與Response加權(quán)分箱的思想有所不同,不考慮區(qū)分度,而對正樣本的召回率設(shè)定下限,以此保證分裂后的數(shù)據(jù)具有規(guī)模代表性,后以最優(yōu)Response點進行分裂。

同樣以上文中案例為例,如果設(shè)定召回率P(%)下限為30%,則其結(jié)果與Response加權(quán)分箱一致。

該方法的難點在于召回率下限設(shè)定:取值過大往往造成對優(yōu)秀響應(yīng)率的忽視(如樣本在25%召回率時達到40%響應(yīng)率,但30%召回率或更大時其響應(yīng)率衰減至10%以下);取值過小使得變量不能完全發(fā)揮效用(如樣本在20%召回率時達到60%響應(yīng)率,但在50%召回率時其響應(yīng)率也能維持在50%)。為此,采用兩維搜索法(見圖2)。

圖2 Response搜索

按圖2箭頭方向搜索,若同時滿足召回率及響應(yīng)率,則尋找最優(yōu)的Response,其中每個參數(shù)都可以進行設(shè)置算法實現(xiàn):

第一步:同上文。

第二步:用上述兩維搜索法分裂樣本。

第三步:不再對滿足兩維條件的數(shù)據(jù)集進行分裂,而對剩余一邊數(shù)據(jù)進行第二步,以此類推。

該算法存在復(fù)雜度較高,運行時間成本大,低自動化等劣勢。

(4)BEST IVi分箱

根據(jù)IV值的思想,對累積分組進行WOE與IVi值的計算,搜索使得IVi最大的水平值作為分裂點。

因WOE值是區(qū)分度的對數(shù)化,其值比RESPONSE值對極端情況更為敏感,所以BEST IVi分箱同樣存在結(jié)構(gòu)不平衡的問題。

(5)其他分箱

關(guān)于局部最優(yōu)解思想的分箱層出不窮,可以增加加權(quán)的維度,搜索區(qū)分度下降速度等,有些遍歷方法甚至可以展開探索,本文不再一一列舉。

(6)邊界調(diào)優(yōu)

原始分箱后,得到的邊界值往往不具備業(yè)務(wù)意義或業(yè)務(wù)部署效果解讀性較差(如邊界值為49.67,模型部署時調(diào)優(yōu)至50為宜),因此,分箱后需對原始分箱邊界進行調(diào)優(yōu),即有效位數(shù)的保留,使得分段數(shù)值更具業(yè)務(wù)解讀性。遍歷所有有效數(shù),并保留3位有效數(shù)字,末位為0或5。

4.2 變量篩選

在對變量進行分箱以發(fā)揮效用后,得到IV值作為對變量的最優(yōu)評價。變量篩選時,首先剔除IV值過小(一般認為<=0.02)的變量,然后進行變量聚類。

當變量數(shù)成百上千時,直接聚類會降低每類中變量相關(guān)性的解釋能力。一般地,可以對變量進行人工的初分組,將基于初始變量的衍生變量分為一組,對每組變量進行聚類。

變量聚類可以在變量分箱前完成,這樣可以降低變量數(shù),大幅減少建模時間,其缺點是通過變量聚類篩選出的變量雖有最佳的(1-R2)比,而被剔除的變量中可能存在“黃金”變量(IV值高)。因此,本文采用綜合評判標準篩選變量,將聚類后每組中變量的IV值和(1-R2)比加權(quán)綜合,選取綜合指標最高的變量。

5 模型實現(xiàn)及分箱對比

本文樣本數(shù)據(jù)來源于KAGGLE網(wǎng)站等互聯(lián)網(wǎng)現(xiàn)有的或改造后的虛擬數(shù)據(jù)。

5.1 模型實現(xiàn)

(1)將建模樣本分層抽樣為訓練集(70%)和驗證集(30%);

(2)剔除缺失率超過60%的變量;

(3)對數(shù)值型變量進行分箱(分箱方法為BEST K-S分箱及Response加權(quán)分箱(權(quán)重設(shè)為0.2)、K-S領(lǐng)域分箱(α=0.99)等,并進行了取整優(yōu)化);

(4)對字符型變量根據(jù)水平響應(yīng)率進行K-MEANS聚類(K=5),從而達到水平降維的效果;

(5)對每個變量進行WOE及IV值的計算,并剔除IV值0.02及以下的變量;

(6)利用綜合指標法對變量降維;

(7)變量WOE轉(zhuǎn)碼;

(8)邏輯回歸建模(backward選擇法);

(9)評分刻度轉(zhuǎn)換;

(10)模型評價。

5.2 分箱對比

以BEST K-S分箱、Response加權(quán)分箱、K-S領(lǐng)域分箱模型進行對比(建模其他環(huán)節(jié)完全一致):

(1)變量分箱對比

選擇某一變量進行對比,結(jié)果如表3至表5所示。

表3 Response加權(quán)分箱

表4 BEST K-S分箱

表5 K-S領(lǐng)域分箱

比較上述關(guān)于同一變量的三種不同分箱方法,發(fā)現(xiàn)Response加權(quán)分箱具有最高的IV值,同時其響應(yīng)率的區(qū)分度最為顯著;另外,K-S領(lǐng)域分箱在考慮提高區(qū)分度的同時,兼顧區(qū)間劃分的樣本規(guī)模結(jié)構(gòu),因此在第一段箱體上得到最高的IVi值,有利于最大效用地發(fā)揮變量能力。

(2)模型對比

對基于上述三種分箱方法的建模結(jié)果進行比較,情況如下:

①基本指標對比

如表6所示,通過Response加權(quán)分箱建模后的指標變量27個,與K-S領(lǐng)域分箱的模型變量相同,而BEST K-S分箱后的模型使用了篩選后的全部變量,模型復(fù)雜度較高。

表6 模型效果對比

ROC曲線面積方面,三種模型的差異極小,BEST K-S分箱及K-S領(lǐng)域分箱均為0.911,而Response加權(quán)分箱后模型的AUC為0.91,僅降低0.001。

K-S值方面,Response加權(quán)分箱后模型表現(xiàn)最佳,為0.6668,其次是K-S領(lǐng)域分箱及BEST K-S分箱模型。

Response加權(quán)分箱IV值較BEST K-S分箱高的變量數(shù)15個;反之,BEST K-S分箱較Response加權(quán)分箱IV值高的變量數(shù)有23個,表明權(quán)重對每個變量的解析力度不同。

②提升度對比

在SAS環(huán)境中分別進行Response加權(quán)分箱建模、BEST K-S分箱建模以及K-S領(lǐng)域分箱建模(見表7),并從模型提升度效果的角度出發(fā)評價其局部預(yù)測能力。根據(jù)結(jié)果對比發(fā)現(xiàn),K-S領(lǐng)域分箱模型在局部領(lǐng)域的表現(xiàn)最佳,體現(xiàn)了該分箱方法對于頭部樣本預(yù)測能力的提升。

表7 提升度效果對比

6 結(jié)束語

基于局部最優(yōu)思想的分箱方法是對傳統(tǒng)全局最優(yōu)評價的一種補充和創(chuàng)新,除了在Logistic回歸方法領(lǐng)域,決策樹的分裂規(guī)則同樣可以利用局部最優(yōu)的思想進行嘗試,特別是衍生至GBDT、隨機森林等領(lǐng)域,對于局部最優(yōu)的集成或許可以得到大幅提升的效果。目前,對局部最優(yōu)的探索尚處于初級階段,許多方法和思路有待驗證和完善,但顯然這種價值挖掘值得長期探索。

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 天堂在线视频精品| 制服丝袜一区二区三区在线| 中文无码精品a∨在线观看| 在线免费无码视频| 国产在线91在线电影| 午夜三级在线| 久青草国产高清在线视频| 在线精品亚洲一区二区古装| 极品性荡少妇一区二区色欲| 中文字幕亚洲精品2页| 亚洲国产成人久久77| 亚洲一级毛片免费观看| 国产亚洲美日韩AV中文字幕无码成人 | 特级精品毛片免费观看| 噜噜噜综合亚洲| 久久亚洲日本不卡一区二区| 一本大道视频精品人妻| 欧美a在线视频| 亚洲一区毛片| 欧美日本二区| 99爱在线| 精品色综合| 亚洲香蕉伊综合在人在线| 幺女国产一级毛片| 日韩人妻少妇一区二区| 精品国产自在在线在线观看| 蜜桃视频一区二区| 免费在线色| 亚洲无码高清视频在线观看| 日韩高清无码免费| 国产色爱av资源综合区| 婷婷伊人久久| 亚洲男人的天堂视频| 成人午夜天| 国产91九色在线播放| 久青草网站| 日韩高清中文字幕| 69视频国产| 国产激情无码一区二区APP| 国产精品免费p区| 91成人精品视频| 日本精品中文字幕在线不卡| 四虎永久免费在线| 成人精品亚洲| 这里只有精品在线| 精品小视频在线观看| 免费无码AV片在线观看中文| www.av男人.com| 操国产美女| 亚洲男人在线天堂| 最新国产精品第1页| 天天躁狠狠躁| 亚洲男女天堂| 国产精品久久久久久久久久久久| 国产91蝌蚪窝| 欧美爱爱网| 狠狠干综合| 黄色网址免费在线| 视频二区国产精品职场同事| 欧美精品成人| 亚洲伊人天堂| 日韩精品中文字幕一区三区| 欧美日韩福利| 免费不卡视频| 久久这里只有精品免费| 999国内精品久久免费视频| 欧美h在线观看| 国产成熟女人性满足视频| 欧美日韩另类在线| 国产精品自在拍首页视频8| 亚洲成在人线av品善网好看| 高清无码一本到东京热| 亚洲性日韩精品一区二区| 无码专区在线观看| 亚洲欧美自拍视频| 国产日本欧美在线观看| 播五月综合| 免费在线看黄网址| 欧美日韩在线国产| 亚洲国产日韩在线观看| 久久精品一品道久久精品| 欧美日韩国产在线观看一区二区三区|