999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于bagging算法的經(jīng)濟金融數(shù)據(jù)分析

2021-04-28 00:49:20任雪妮羅幼喜
湖北工業(yè)大學學報 2021年2期
關(guān)鍵詞:分類用戶方法

任雪妮, 羅幼喜

(湖北工業(yè)大學理學院, 湖北 武漢 430068)

單個分類的學習效果有時候并不是很理想,為了解決這個問題,集成學習算法由此產(chǎn)生。集成學習并不是單指某一種分類器,而是充分利用了群體學習思想,將一個或多個弱分類器結(jié)合成一個強分類器的一種方法,其中的弱分類器可以是各種分類算法。常使用的集成學習方法有bagging和boosting(本文主要使用bagging算法)[1]。對于集成算法是否真的比單個分類器具有更高的準確性,不少學者進行了研究。David和Richard[2]使用決策樹和神經(jīng)網(wǎng)絡(luò)分別研究了bagging和boosting兩種集成方法,還與單個分類器方法進行比較;Michiel和Rob[3]的研究包含bagging集成在內(nèi)的4種方法。這些學者發(fā)現(xiàn)集成學習算法的效果的確是好于單個分類器。

由于集成算法的優(yōu)良性,也有不少學者使用集成算法進行實際應(yīng)用,特別是在經(jīng)濟金融領(lǐng)域。Mariola等[4]采用集成方法對信用卡借款者進行了識別;Atsushi和Lutz[5]探討了bagging方法在預測經(jīng)濟時間序列中的作用;Choprab和Bhilare[6]使用集成樹學習方法對銀行貸款數(shù)據(jù)集進行分析。

經(jīng)濟金融領(lǐng)域一直以來都受到學者們的關(guān)注。本文對經(jīng)濟金融領(lǐng)域的數(shù)據(jù)集進行分析,選擇C5.0決策樹、KNN和樸素貝葉斯算法作為bagging算法的基本算法,針對每個數(shù)據(jù)集,從所構(gòu)造的幾種bagging方法中選取預測效果最好的方法對其進行實例研究。

1 算法的基本思路及原理

1.1 Bagging算法

Step1:采用Bootstraping方法從訓練集中隨機進行k次抽取,每次抽取的訓練集的樣本個數(shù)與本文設(shè)置的原始訓練集樣本數(shù)相同。

Step2:使用k個弱分類器對k個訓練集分別進行訓練,可以得到k個模型。此處的分類器可以是一個或多個分類算法。

Step3:對k個模型采用投票方式即可得到分類結(jié)果,在投票過程中,每個模型給與的權(quán)重相同。

圖1顯示了Bagging算法的具體過程。

圖1 bagging算法過程

1.2 KNN算法

Step1:計算測試集中每個樣本點與訓練集中所有樣本點的距離,并對測試集中的每個樣本點所得的距離進行排序。

Step2:測試集中的每個樣本點選擇訓練集中與其距離最小的k個點,并確定前k個點所在類別的出現(xiàn)頻率,以出現(xiàn)頻率最高的類別作為測試集樣本點的預測分類。

1.3 C5.0決策樹算法

Step1:計算各輸入變量的信息增益率,以信息增益率最大的變量為最佳分組變量。若分組變量為k類分類變量,則形成k個分枝。若為數(shù)值型,則用分箱法進行處理后再分枝。

Step2:計算各節(jié)點誤差,若子節(jié)點誤差大于其父節(jié)點誤差,則進行剪枝。

1.4 樸素貝葉斯算法

對于分類數(shù)據(jù)集,給定樣本自變量x,則該樣本屬于類別y的概率

樸素貝葉斯算法[8]的原理就是根據(jù)以上公式,計算出每個樣本屬于各分類的概率,概率最大的那個分類即為預測分類。

2 模擬分析

從UCI網(wǎng)站上獲取了4個數(shù)據(jù)集,將其簡記為credit,bank,stock,audit。數(shù)據(jù)集credit根據(jù)用戶的一些屬性來判斷用戶能否用信用卡進行貸款。在該數(shù)據(jù)集中存在缺失值,缺失值處理方法是用0填補。數(shù)據(jù)集bank主要是銀行機構(gòu)通過電話推銷的一款銀行定期存款產(chǎn)品是否會被訂購。數(shù)據(jù)集stock主要是根據(jù)以往數(shù)據(jù)預測下一周股票價格變化情況。數(shù)據(jù)集audit是印度審計辦公室收集的關(guān)于一些公司的數(shù)據(jù),主要是根據(jù)一些重要的風險因素來判斷這些公司是否有變成可疑公司的風險,bank,stock,audit數(shù)據(jù)集中無缺失值。表1為這些數(shù)據(jù)集的基本情況。

表1 數(shù)據(jù)集

為了評價預測的準確度,將使用混淆矩陣中的指標,混淆矩陣的具體形式如表2所示。

表2 混淆矩陣

TP(True Positive),表示響應(yīng)變量實際分類為1,預測分類也為1;

FN(False Negative),表示響應(yīng)變量實際分類為1,預測分類卻為2;

FP(False Positive), 表示響應(yīng)變量實際分類為2,預測分類卻為1;

TN(True Negative),表示響應(yīng)變量實際分類為2,預測分類也為2;

準確率(Accurary),表示所有分類正確的數(shù)量占總樣本量的比例,其具體公式為:

在進行評價時,使用預測誤差Err(error)來判斷模型預測的好壞,其計算公式為:

Err=1-ACU

2.1 模擬一

選取KNN、C5.0決策樹、樸素貝葉斯三種經(jīng)典的分類算法,對它們采用單類、兩兩混合、三種混合形式構(gòu)造了7種組合方法,分別簡記為bag_k,bag_c,bag_b,bag_kc,bag_kb,bag_cb,bag_kcb。為了研究弱分類器的個數(shù)對bagging算法所得到強分類器預測準確性的影響以及credit,bank,stock和audit數(shù)據(jù)集最合適的分類器的個數(shù)。設(shè)置弱分類器個數(shù)分別為R=10,R=20,R=50。各個方法中3種分類器具體設(shè)置個數(shù)見表3。

表3 分類器個數(shù)設(shè)置情況

credit,bank,stock和audit數(shù)據(jù)集重復模擬100次后得到預測誤差的結(jié)果如表4所示。從表4可以知道,在credit數(shù)據(jù)集中,使用bag_k,bag_c,bag_kc,bag_kcb方法得到的預測誤差在R=50時最小,其他三種方法在R=20時最小。

在bank數(shù)據(jù)集中,使用bag_k,bag_c,bag_b,bag_kc方法得到的預測誤差在R=20時最小,bag_kb方法在R=10時最小,而bag_cb和bag_kcb方法在R=50時最小。

在stock數(shù)據(jù)集中,bag_k和bag_cb方法得到的預測誤差在R=10時最小,bag_c,bag_b和bag_kb方法在R=50時最小,bag_kc和bag_kcb方法在R=20時最小。

在audit數(shù)據(jù)集中,bag_k方法得到的預測誤差在R=20時最小,bag_c,bag_b,bag_kb,bag_cb,bag_kcb在R=50時最小,而bag_kc方法在R=20和R=50時都最小。

從研究的幾種情況看,所使用的7種方法在預測誤差達到最小時所使用的弱分類器的個數(shù)有所區(qū)別,即弱分類器的個數(shù)對bagging算法所得到強分類器預測準確性有影響。在credit,stock和audit數(shù)據(jù)集中,R=50是7種方法中使預測誤差達最小時出現(xiàn)頻率最高的分類器個數(shù)。而在bank數(shù)據(jù)集中,出現(xiàn)頻率最高的分類器個數(shù)為R=20。綜合來看,R=50是使預測誤差達最小時出現(xiàn)頻率最高的分類器個數(shù)。

表4 分類器個數(shù)不同的模擬結(jié)果

2.2 模擬二

為了研究弱分類器的構(gòu)成種類對bagging算法所得到強分類器預測準確性的影響以及credit,bank,stock,audit數(shù)據(jù)集最合適的分類器組合方法,7種方法設(shè)置同樣的分類器個數(shù),然后對比7種方法下所得到預測誤差情況。通過模擬一的研究可以知道,在此模擬中設(shè)置分類數(shù)個數(shù)R=50是比較合適的。對4個數(shù)據(jù)集重復模擬100次后得到預測誤差的結(jié)果如圖2所示。

圖 2 四個數(shù)據(jù)集下各方法預測結(jié)果

圖2中橫坐標1-7分別對應(yīng)bag_k,bag_c,bag_b,bag_kc,bag_kb,bag_cb,bag_kcb等7種方法。在credit和stock數(shù)據(jù)集中,使用bag_c方法得到的預測誤差最小,bag_k方法預測誤差最大;在bank數(shù)據(jù)集中,bag_cb方法得到的預測誤差最小,預測誤差最大的是bag_k方法;在audit數(shù)據(jù)集中,bag_c方法得到的預測誤差最小,預測誤差最大的是bag_b方法。

弱分類器的構(gòu)成種類對bagging算法所得到強分類器預測準確性有影響而且除了bank數(shù)據(jù)集,其他3個預測結(jié)果最好的是使用bag_c方法。總的來看,bag_c方法這種弱分類器構(gòu)成種類能得到更好地預測誤差結(jié)果。從bag_k,bag_c,bag_b這3種方法的模擬結(jié)果來看,只有一種分類器構(gòu)造的bagging方法中使用C5.0決策樹的結(jié)果總是最好的。這也說明bagging算法構(gòu)成的分類器的準確性與其弱分類器的性能有較大關(guān)系。

2.3 綜合分析

通過模擬一和模擬二的分析可以看到,數(shù)據(jù)集的不同,構(gòu)成bagging算法的方法和弱分類器個數(shù)會有一些細微差別。為最終確定credit,bank,stock和audit數(shù)據(jù)集最合適的分類器組合方法所選取的4個數(shù)據(jù)集分別擁有不同的數(shù)據(jù)特點:

credit,小數(shù)據(jù)集且離散和連續(xù)型自變量個數(shù)相差不大;

bank,大數(shù)據(jù)集且離散和連續(xù)型自變量個數(shù)相差不大;

stock,小數(shù)據(jù)集且只有連續(xù)型自變量;

audit,小數(shù)據(jù)集且離散自變量個數(shù)遠多于連續(xù)型。

結(jié)合模擬一和模擬二對這4個數(shù)據(jù)集進行集中討論分析,以此來確定最適合這4個數(shù)據(jù)集的方法和分類器個數(shù)。

根據(jù)模擬一數(shù)據(jù)來分析,對于credit和stock數(shù)據(jù)集,所有情形都是使用bag_c方法得到了最小預測誤差,即這兩個數(shù)據(jù)集更適合使用bag_c方法來進行測試。對于bank和audit數(shù)據(jù)集,在分類器個數(shù)不同的3種情形中有2次使用bag_c方法得到了最小預測誤差,即這2個數(shù)據(jù)集也更適合使用bag_c方法來進行測試。

而且根據(jù)模擬一的分析知道,credit,stock,audit數(shù)據(jù)集都可以讓R=50作為預測誤差達最小時出現(xiàn)頻率最高的分類器個數(shù)。對于bank數(shù)據(jù)集,使預測誤差達最小時出現(xiàn)頻率最高的分類器個數(shù)是R=20。除了bank數(shù)據(jù)集,在模擬二中其他三個預測結(jié)果最好的是使用bag_c方法,但當bank數(shù)據(jù)集選擇分類器個數(shù)為R=20時,使用bag_c方法能夠得到最佳的預測結(jié)果。可以確定最適合這4個數(shù)據(jù)集方法和分類器個數(shù)情況如表5所示。

表5 四個數(shù)據(jù)集最佳組合

credit,bank,stock和audit這4個數(shù)據(jù)集無論數(shù)據(jù)特性如何,使用bag_c方法都可讓其預測誤差達到最小,但使用的分類器個數(shù)卻有一定差別,bank數(shù)據(jù)集樣本量最大,使預測誤差達最小時所需要的分類器個數(shù)卻比其他三個數(shù)據(jù)集在預測誤差達最小時所用的分類器個數(shù)少。

3 實例分析

bank數(shù)據(jù)集涉及的是銀行機構(gòu)推銷的一款銀行定期存款產(chǎn)品是否會被訂購。若銀行定期存款產(chǎn)品沒有被用戶訂購,此處設(shè)置為類別1,否則為類別2。自變量的變量名及其具體含義如表6所示。

對該數(shù)據(jù)集使用bag_c方法,并設(shè)置分類器個數(shù)為R=20,可以得到其測試集的混淆矩陣如表7所示。從表7可以知道,測試集中的樣本數(shù)據(jù)量為1356。實際用戶對銀行定期存款產(chǎn)品訂購情況類別為1的有1266位,但其中有66位用戶的訂購情況被誤判為類別2。對于類別1而言,其判斷正確的準確率為94.79%,即在沒有訂購銀行定期存款產(chǎn)品的用戶中,有94.79%的用戶被預測正確。可以看到其準確率比較高,這樣不會錯失過多的沒有訂購的用戶。對于沒有訂購的用戶可以繼續(xù)進行推銷,有可能會推銷成功。而實際用戶對銀行定期存款產(chǎn)品訂購情況類別為2的有90位,其中有13位用戶的訂購情況被誤判為類別2。對于類別2而言,其判斷正確的準確率為85.56%,即在已經(jīng)訂購銀行定期存款產(chǎn)品的用戶中,有85.56%的用戶被預測正確。雖然對成功訂購用戶的預測準確性一般,但是對于該次推銷活動的結(jié)果影響不大。最終計算可得到bank測試集中所有數(shù)據(jù)的預測誤差Err=0.0583。即bag_c方法對于此數(shù)據(jù)集的準確性達到94.17%,可以看到預測的準確性還是不錯的。

表6 bank數(shù)據(jù)集自變量解釋

表7 bank測試集的混淆矩陣

給出了bank數(shù)據(jù)集在用bag_c方法進行預測分類時各自變量的重要程度,具體情況如圖3所示。

圖 3 bank數(shù)據(jù)集中自變量重要性

從圖3中可以看到,previous,pdays,housing和edu這4個變量的重要程度所占比重非常小,幾乎可以忽略不計,即使用bag_c方法對bank數(shù)據(jù)集進行測試所得到的預測結(jié)果與用戶的這4個屬性無關(guān)。而month,duration,day,age和balance這5個變量的重要程度所占比重為前5,且它們的重要程度所占比重都超過了10%。由圖3可知:month和day這2個變量說明選擇聯(lián)系用戶的時間節(jié)點很重要;duration這個變量說明與用戶通話時間的長短也影響用戶是否會訂購產(chǎn)品(畢竟用戶不想訂購是不會有太多耐心長時間通電話);age這個變量說明用戶的年齡也會對產(chǎn)品的推銷結(jié)果產(chǎn)生較大影響,現(xiàn)實生活中不同年齡階段的人對于是否將錢進行理財也有不同見解;同樣balance這個變量也說明用戶每年所剩的平均余額會影響其是否會訂購銀行產(chǎn)品,畢竟用戶有多余的錢才可能考慮投入銀行理財,與事實情況也很接近。

4 結(jié)論

1)在credit,stock和audit數(shù)據(jù)集中,R=50是7種方法中使預測誤差達最小時出現(xiàn)次數(shù)最多的分類器個數(shù),而在bank數(shù)據(jù)集中,出現(xiàn)次數(shù)最多的分類器個數(shù)R=20。

2)bag_c方法這種弱分類器構(gòu)成種類能得到更好的預測誤差結(jié)果。

3)credit,stock和audit數(shù)據(jù)集最佳搭配都是使用bag_c方法,并設(shè)置分類器個數(shù)R=50。而bank數(shù)據(jù)集最佳搭配是使用bag_c方法,并設(shè)置分類器個數(shù)R=20。

4)使用bag_c方法,并設(shè)置分類器個數(shù)R=20對bank數(shù)據(jù)集進行預測,可以得到很好的準確性。

猜你喜歡
分類用戶方法
分類算一算
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 韩国v欧美v亚洲v日本v| 无码'专区第一页| 99在线视频网站| 国产在线97| 国产成人午夜福利免费无码r| 亚洲av无码久久无遮挡| 最新国产成人剧情在线播放 | 国产三级国产精品国产普男人 | 国产精品丝袜视频| 国产精品大尺度尺度视频| 亚洲人成影视在线观看| 国产精品女在线观看| 亚洲精品不卡午夜精品| 国产迷奸在线看| 爽爽影院十八禁在线观看| 免费A∨中文乱码专区| 中日无码在线观看| 制服丝袜 91视频| 四虎精品黑人视频| 亚洲欧美日韩中文字幕一区二区三区| 亚洲精品无码av中文字幕| 欧美国产菊爆免费观看 | 亚洲精品国产综合99| 亚洲国产系列| 亚洲天堂视频在线播放| 精品三级在线| 久久综合五月| 国产男女免费视频| 一级一级一片免费| 久久青草视频| 成人免费一级片| 69综合网| 国产福利免费观看| 婷婷五月在线| 国产激情无码一区二区APP| 色综合热无码热国产| 亚洲床戏一区| 亚洲全网成人资源在线观看| 四虎亚洲精品| 污视频日本| www.狠狠| 亚洲成人在线免费观看| 伊人久久久久久久| 91免费观看视频| 亚洲第一页在线观看| 狠狠亚洲五月天| 91毛片网| 国产美女在线观看| 久久这里只有精品2| 五月婷婷丁香综合| 色悠久久综合| 国产乱人伦AV在线A| 亚洲成a人片77777在线播放| 国产精品午夜福利麻豆| 91精品国产福利| 中文字幕在线观看日本| 中文字幕中文字字幕码一二区| 亚洲精品动漫在线观看| 欧美精品高清| 国产精品深爱在线| 人妻精品久久无码区| 国产精品无码翘臀在线看纯欲| 亚洲成人在线免费| 四虎影视库国产精品一区| 99无码中文字幕视频| 日韩欧美网址| 成人91在线| 久久成人免费| 国产成人精品高清不卡在线| 国产一区二区三区精品欧美日韩| 精品综合久久久久久97超人该| 日韩黄色精品| 午夜a级毛片| 日韩高清中文字幕| 久久99久久无码毛片一区二区| 国产福利一区在线| 久久精品国产国语对白| 国产老女人精品免费视频| 久久综合亚洲鲁鲁九月天 | 91精品啪在线观看国产60岁| 国产成人免费手机在线观看视频 | 美女啪啪无遮挡|