【摘要】 實(shí)驗(yàn)中討論了在中草藥數(shù)據(jù)分類應(yīng)用中兩種分類器算法multiclassclassifier和adaboostM1的分類性能的問題,在weka平臺(tái)上實(shí)驗(yàn)可知,這兩種分類器算法中adaboostM1的分類精度比較高。
【關(guān)鍵詞】 中草藥 AdaBoostM1 weka
一、概述
AdBoostM1算法是目前一種流行的組合分類器算法,把它用在傳統(tǒng)的分類器算法上,并應(yīng)用于中草藥分類,使傳統(tǒng)的分類器性能得到進(jìn)一步提升。而在實(shí)驗(yàn)平臺(tái)WEKA上的multiclassclassifier算法也是一種分類器算法,是元學(xué)習(xí)算法中的一種。
本文在實(shí)驗(yàn)中首先在weka平臺(tái)上用兩種算法對草藥數(shù)據(jù)集進(jìn)行分類,然后再對這兩種算法的分類精度進(jìn)行對比,實(shí)驗(yàn)表明:在實(shí)驗(yàn)數(shù)據(jù)集為輸入樣本集的情況下,AdaboostM1算法的分類精度比較高。
二、平臺(tái)WEKA簡介
WEKA全稱Waikto Environlnent for Knowledge Analysis,即懷卡托智能分析環(huán)境的縮寫,是一款免費(fèi)的非商業(yè)化的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘軟件[1]。該平臺(tái)是用JAVA語言編寫,故有很好的可移植性,研究人員可以根據(jù)自己的研究對平臺(tái)里面已經(jīng)存在的傳統(tǒng)的經(jīng)典算法進(jìn)行修改,使得修改后的算法適合自己的研究領(lǐng)域。
該平臺(tái)對所有的機(jī)器學(xué)習(xí)及數(shù)據(jù)挖掘分析領(lǐng)域的研究愛好者開放,經(jīng)過這些研究者和愛好者的補(bǔ)充,WEKA平臺(tái)的內(nèi)容及里面的經(jīng)典算法在原有的基礎(chǔ)上得到了很大的擴(kuò)充,特別是優(yōu)秀的算法在Weka上基本上都能找的到,為研究者提供了良好的實(shí)驗(yàn)條件。
三、在Weka上用AdaBoost算法及幾種單分類算法對草藥數(shù)據(jù)進(jìn)行分類
本文所進(jìn)行的實(shí)驗(yàn)在Weka3-7-1平臺(tái)上完成,用三種草藥三七、人參、西洋參的指紋圖譜數(shù)據(jù)作為實(shí)驗(yàn)的數(shù)據(jù)集。
本實(shí)驗(yàn)對數(shù)據(jù)集采用5重交叉驗(yàn)證,然后取其分類精度做為最終的分類性能,則其分類精度體現(xiàn)了它的分類性能,分類精度越高表示分類性能越好。
multiclassclassifier的參數(shù)設(shè)置如下:
基分類器為decisionstump,randomwidthfactor是2.0,seed為1,其他的為默認(rèn)參數(shù)設(shè)置。
AdaboostM1的參數(shù)設(shè)置如下:
基分類器為decisionstump,numiteration為10,seed為1,weightThresold為100。
之后執(zhí)行RUN界面的START指令,再進(jìn)入ANALYSE界面載入文件選擇分析分類精度,可得到這些算法的平均分類精度如表1所示。
四、實(shí)驗(yàn)結(jié)果與分析
從表1可以看出,在實(shí)驗(yàn)的中草藥數(shù)據(jù)集中,AdaBoostM1算法的分類精度大于multiclassclassifier算法的分類精度。
五、結(jié)論
綜上所述,在中草藥分類領(lǐng)域,在與multiclassclassifier算法比較下,可以利用AdaBoostM1算法來提高傳統(tǒng)分類器算法的分類精度,使用AdaBoostM1算法來進(jìn)行草藥數(shù)據(jù)集的分類以達(dá)到高的精度。
參 考 文 獻(xiàn)
[1] Witten,1.H.and Frank,E.Data Mining practical machine leaning tool sand techniques,second edition. 北京,機(jī)械工業(yè)出版社,2006