999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器學習分類方法的應用

2018-01-15 10:14:54杜春澎
科學與財富 2018年34期
關鍵詞:機器學習分類

杜春澎

摘要:本文通過對機器學習中各類分類方法的學習之后,對輸血服務中心的數(shù)據(jù)集采用決策樹(分類樹)、Adaboost、Bagging、隨機森林、支持向量機、最近鄰方法和神經(jīng)網(wǎng)絡等七類方法對其進行分類,并采用五折交叉驗證法評價預測精度,結果發(fā)現(xiàn)支持向量機的是最好的分類方法。

關鍵詞:機器學習;分類;交叉驗證

1.引言

分類就是經(jīng)典統(tǒng)計中所說的判別,當因變量有多個水平且自變量也有分類變量的情況下,判別分析就不可用,此時就要采用機器學習或數(shù)據(jù)挖掘的方法,比如決策樹的分類樹、Adaboost、Bagging、隨機森林、支持向量機、最近鄰方法和神經(jīng)網(wǎng)絡等。

2.數(shù)據(jù)實驗

本文研究的數(shù)據(jù)來源于the UC Irvine機器學習數(shù)據(jù)庫,下載地址:http://archive.ics.uci.edu/ml/datasets/Blood+Transfusion+Service+Center。該數(shù)據(jù)集有748個觀測值,5個變量,分別是: Recency - months since last donation(定量);Frequency - total number of donation(定量);Monetary - total blood donated in c.c.(定量);Time - months since first donation(定量);Class -whether he/she donated blood in March 2007(定性)。最后一個分類變量的水平為:Class(whether he/she donated blood in March 2007 )有兩個水平:1=獻血,0=沒獻血。通過對數(shù)據(jù)的查看,可以用前四個變量作為自變量來預測作為因變量C (最后一個變量)的類別。

3.機器學習

機器學習能使計算機在沒有明確編程的情況下自主學習。不同于傳統(tǒng)方法的模型驅動,機器學習是數(shù)據(jù)驅動,它探索構建了從數(shù)據(jù)中學習并對數(shù)據(jù)進行預測的算法。傳統(tǒng)的統(tǒng)計模型對數(shù)據(jù)的分布都有一定的要求或假定,但在現(xiàn)實中,真實的數(shù)據(jù)可能并不滿足那些假定或要求,若再用傳統(tǒng)方法,它們的某些優(yōu)良性質(zhì)將不能得到,甚至得出的結論都有可能錯誤。此時選擇機器學習的方法將更加合理,它不需要對數(shù)據(jù)分布做任何假定,且產(chǎn)生的結果也可用交叉驗證的方法進行評價。

3.1 決策樹分類(分類樹)

決策樹分類是通過一定的規(guī)則對數(shù)據(jù)樣本進行分類的過程,當數(shù)據(jù)結構為連續(xù)形變量時,稱為決策樹回歸。使用R軟件的程序包rpart.plot進行決策樹回歸,得出的分類結果如決策樹如表1。

其中,行是真實類,列是預測類。一共有138個觀測值被分錯,誤判率為0.184492。再利用函數(shù)Fold()所產(chǎn)生的5個隨機數(shù)據(jù)集做五折交叉驗證,給出測試集的分類平均誤判率為0.2271857。

3.2 Adaboost分類

Adaboost是Boosting的一種,是一種組合方法,這里用的程序包是adabag,分類結果如表2。

表里一共有101個觀測值被分錯,誤判率為0.135026。通過五折交叉驗證,給出測試集的分類平均誤判率為0.2592931。

3.3 Bagging分類

Bagging分類是一個最簡單的基于分類樹的組合方法,它利用了自助法放回抽樣。這里用的程序包是adabag中的函數(shù)bagging(),分類結果如表3。

表里一共有133個觀測值被分錯,誤判率為0.1778075。通過五折交叉驗證,給出測試集的分類平均誤判率為0.2271857。

3.4 隨機森林分類

隨機森林也是從原始數(shù)據(jù)抽取一定數(shù)量的自助法樣本,程序包randomForest包含了隨機森林函數(shù)randomForest(),分類結果如表4。

表里一共有63個觀測值被分錯,誤判率0.08823529。通過五折交叉驗證,給出測試集的分類平均誤判率為0.253915。

3.5 支持向量機分類

支持向量機分類是用程序包e1071中的svm()函數(shù)和程序包kernlab中的ksvm()函數(shù)來做SVM分類,兩個不同函數(shù)的分類結果分別如表5和表6。

表里一共有158個觀測值被分錯,誤判率為0.2112299 。

表里一共有138個觀測值被分錯,誤判率為0.184492。通過五折交叉驗證,給出測試集的分類平均誤判率為0.2339329和0.2151588。

3.6 最近鄰方法分類

最近鄰方法可能是所有算法中最簡單的方法,它基于訓練集對測試集進行分類。用程序包kknn中的kknn()函數(shù)來對輸血中心的全部數(shù)據(jù)做分類,程序代碼中選項的默認值為:k=7,distance=2(Minkowski距離),分類結果如表7。

表里一共有110個觀測值被分錯,誤判率為0.1470588。通過五折交叉驗證,給出測試集的分類平均誤判率為0.2526174。

3.6 神經(jīng)網(wǎng)絡分類

人工神經(jīng)網(wǎng)絡是由大量的節(jié)點構成,其相關原理是,將上層節(jié)點的值加權后傳遞給下一層,依次傳遞到最終輸出節(jié)點,再根據(jù)輸出節(jié)點的誤差大小情況給前面節(jié)點層一個激勵或者抑制的信號,從而改變權重,最后經(jīng)過反復傳遞,達到輸出誤差在某個范圍內(nèi)。利用程序包nnet的函數(shù)nnet()對輸血中心的全部數(shù)據(jù)進行擬合,得到誤判率為0.2348993,此時的size=2。

通過五折交叉驗證,給出測試集的分類平均誤判率為0.2312573,此時size=2;當size=1時,誤判率為0.2326264;當size=3時,誤判率為0.2379597。當size增大時,誤判率也隨之增大,通過比較可知,size=2時最為合適。

4.結果分析

運用以上八種方法來對輸血中心數(shù)據(jù)擬合的五折交叉驗證測試集的誤判率歸納如下表8所示。

由表可知,在八種方法的五折交叉驗證測試集誤判率中,誤判率最低的是支持向量機(ksvm)為0.2151588,其次是決策樹和bagging,誤判率最高的是adaboost為0.2592931。故針對輸血服務中心的數(shù)據(jù)而言,進行分類最好的方法就是采用支持向量機分類法。

參考文獻:

[1]吳喜之.復雜數(shù)據(jù)統(tǒng)計方法:基于R的應用[M].北京:中國人民大學出版社,2013:54-69.

[2]唐華松,姚耀文.數(shù)據(jù)挖掘中決策樹算法的探討[J].計算機應用研究,2001,18(8):18-19.

[3]宋捷,吳喜之.一種新的Boosting回歸樹方法[J].統(tǒng)計與信息論壇,2010,25(5):9-13.

[4]王鴻斌,張立毅,胡志軍.人工神經(jīng)網(wǎng)絡理論及其應用[J].山西電子技術,2006(2):41-43.

[5]王定成,方廷健,高理富,等.支持向量機回歸在線建模及應用[J].控制與決策,2003,18(1):89-91.

猜你喜歡
機器學習分類
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
基于詞典與機器學習的中文微博情感分析
基于網(wǎng)絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于支持向量機的金融數(shù)據(jù)分析研究
機器學習理論在高中自主學習中的應用
主站蜘蛛池模板: 青青草国产在线视频| 一级毛片在线播放| 亚洲无码精品在线播放| 香蕉99国内自产自拍视频| 九色免费视频| 91小视频在线| 一级毛片在线播放| 欧美一级夜夜爽| 麻豆精品在线视频| lhav亚洲精品| 无码中文AⅤ在线观看| 国产成人综合日韩精品无码不卡| av午夜福利一片免费看| 国产欧美视频综合二区| 成人伊人色一区二区三区| 国精品91人妻无码一区二区三区| 人人看人人鲁狠狠高清| 国产精品久久久久久久久kt| 久久香蕉国产线看精品| 亚洲va欧美ⅴa国产va影院| 怡红院美国分院一区二区| 久久久久国产精品熟女影院| 丰满人妻被猛烈进入无码| 国产免费好大好硬视频| 欧美午夜在线播放| 国产尤物jk自慰制服喷水| 色噜噜狠狠狠综合曰曰曰| 国产黑丝一区| 久久久久国产一级毛片高清板| 91www在线观看| 狠狠色狠狠色综合久久第一次| 亚洲欧美国产高清va在线播放| 精品国产亚洲人成在线| 国产鲁鲁视频在线观看| 中日韩欧亚无码视频| 国产人成在线观看| 亚洲最新在线| 中文字幕久久波多野结衣| 亚洲精选高清无码| 国产精女同一区二区三区久| 国产人人射| 久久毛片基地| 综合色在线| 国产Av无码精品色午夜| 色成人亚洲| a毛片在线免费观看| 中文字幕第4页| 成年人久久黄色网站| 中文无码日韩精品| 日韩精品高清自在线| 日韩无码视频专区| 小说区 亚洲 自拍 另类| 久热re国产手机在线观看| 欧美精品1区2区| 欧美一级高清片久久99| 日本久久网站| 超碰91免费人妻| 亚洲AⅤ波多系列中文字幕| 亚洲天堂久久| 高清久久精品亚洲日韩Av| 国产精品久久久精品三级| 欧美亚洲中文精品三区| 欧美综合激情| 国产精品永久免费嫩草研究院| 狠狠色噜噜狠狠狠狠色综合久| 青青草一区二区免费精品| 精品免费在线视频| 51国产偷自视频区视频手机观看| 日本国产精品一区久久久| a色毛片免费视频| 亚洲三级a| 免费高清a毛片| 91日本在线观看亚洲精品| 国产精品自在线拍国产电影 | 亚洲全网成人资源在线观看| 亚洲免费黄色网| 97精品久久久大香线焦| 美女被躁出白浆视频播放| 国产嫖妓91东北老熟女久久一| 在线五月婷婷| 日韩专区欧美| 欧美成人aⅴ|