999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

不同機(jī)器學(xué)習(xí)算法在分類問題中的應(yīng)用比較

2021-03-05 01:37:48王亞林陳忍忍
黑龍江科學(xué) 2021年4期
關(guān)鍵詞:乳腺癌分類模型

王亞林,陳忍忍

(江蘇省第二地質(zhì)工程勘察院,江蘇 徐州 221000)

0 引言

隨著大數(shù)據(jù)時(shí)代的到來,機(jī)器學(xué)習(xí)成為科學(xué)研究和實(shí)際應(yīng)用的重要工具和研究對(duì)象,使運(yùn)用機(jī)器學(xué)習(xí)算法進(jìn)行分類問題的研究也成為了熱門。分類問題可以分為二分類問題和多分類問題,其根本思想是通過一個(gè)函數(shù)(算法)來判斷輸入數(shù)據(jù)的標(biāo)簽,即類別。相較于回歸問題,分類問題的輸出是一系列離散值,并且分類問題在現(xiàn)實(shí)中的應(yīng)用更為廣泛,如人臉識(shí)別、語音識(shí)別、圖像分類、遙感等領(lǐng)域。

梯度提升樹(gradient boosting decision tree,GBDT)[1-5]、多層感知機(jī)(multi-layer perceptron,MLP)[6-9]和支持向量機(jī)(support vector machine,SVM)[10-12]均為經(jīng)典的機(jī)器學(xué)習(xí)模型。國內(nèi)外學(xué)者對(duì)這幾種模型在分類問題方面已經(jīng)有了諸多的研究。Guangzhou[13]等將特征篩選與神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯、SVM 和 GBDT等模型相互結(jié)合建立分類模型,比較幾種模型在分類問題中的表現(xiàn)。Dev[14]等人利用 DGF和HGF的數(shù)據(jù),對(duì)運(yùn)用機(jī)器學(xué)習(xí)方法進(jìn)行地層巖性分類研究,結(jié)果表明,GBDT具有良好的分類結(jié)果。羅威臻[15]利用遺傳算法和MLP模型研究了肌電和腦電的分類問題,結(jié)果表明,所提出的方法在分類準(zhǔn)確率上已經(jīng)優(yōu)于現(xiàn)有的分類方法。

以UCI機(jī)器學(xué)習(xí)數(shù)據(jù)倉庫(Machine Learning Data Repository)中提供的康斯威星乳腺癌數(shù)據(jù)為研究數(shù)據(jù),分別使用GBDT、MLP和SVM算法建立乳腺癌預(yù)測模型,比較各種模型的表現(xiàn),為進(jìn)一步研究機(jī)器學(xué)習(xí)模型在分類問題中的實(shí)際應(yīng)用提供了思路。

1 研究方法

1.1 梯度提升樹

提升(Boosting)方法是一種常用的統(tǒng)計(jì)學(xué)方法,它通過改變訓(xùn)練樣本的權(quán)重,學(xué)習(xí)多個(gè)分類器,并將這些分類器進(jìn)行線性組合,提高模型的性能,可以看成一種集成方法。Boosting方法主要采用基函數(shù)的線性組合與前向分布算法。以決策樹為基函數(shù)的提升方法稱為提升樹(booting tree,BD),而梯度提升樹(Gradient boosting decision tree,GBDT)則是結(jié)合回歸樹(Regression Decision Tree)和BT的思想并提出利用殘差梯度來優(yōu)化回歸樹的集成過程。

1.2 多層感知機(jī)

神經(jīng)網(wǎng)絡(luò)是由多個(gè)非常簡單的處理單元彼此按某種方式相互連接而形成的計(jì)算機(jī)系統(tǒng),該系統(tǒng)靠其狀態(tài)對(duì)外部輸入信息的動(dòng)態(tài)響應(yīng)來處理信息。人工神經(jīng)網(wǎng)絡(luò)是一種旨在模仿人腦結(jié)構(gòu)及其功能的信息處理系統(tǒng)。反向傳播(Back propagation,BP)是使用多層前饋網(wǎng)絡(luò)進(jìn)行監(jiān)督學(xué)習(xí)的最廣泛使用的算法。

多層感知機(jī)(Multi-Layer perceptron,MLP)是神經(jīng)網(wǎng)絡(luò)模型的擴(kuò)展,其基本思想是通過增加隱藏層的數(shù)量,構(gòu)造一種多層神經(jīng)網(wǎng)絡(luò)模型。總體而言,深度神經(jīng)網(wǎng)絡(luò)模型可以分為輸入層、隱藏層和輸出層三部分。

1.3 支持向量機(jī)

支持向量機(jī)是一種二分類模型,其基本模型是定義在特征空間上的線性分類器。SVM的學(xué)習(xí)策略是間隔最大化,可以形式化為一個(gè)求解凸二次規(guī)劃的問題,也等價(jià)于正則化的合頁損失函數(shù)的最小化問題[5]:

(1)

Lε為損失函數(shù),C為懲罰系數(shù)。一般來說,C的值設(shè)置的越大,則模型訓(xùn)練的精度越高。但是,如果C值設(shè)置的過高,則會(huì)出現(xiàn)過擬合問題。

(2)

1.4 實(shí)驗(yàn)及參數(shù)設(shè)置

基于Pycharm平臺(tái),使用Python 3.8.3進(jìn)行編程,實(shí)現(xiàn)GBDT、MLP和SVM算法。實(shí)驗(yàn)數(shù)據(jù)來自南斯拉夫盧布爾雅那大學(xué)醫(yī)療中心腫瘤研究所。對(duì)于GBDT模型,主要需要設(shè)置最大迭代次數(shù)、樹的深度、節(jié)點(diǎn)和學(xué)習(xí)速率4個(gè)參數(shù)。將最大迭代次數(shù)分別設(shè)為500、1 000和2 000,樹的深度分別設(shè)為2、3和4,節(jié)點(diǎn)均設(shè)為2,學(xué)習(xí)速率分別設(shè)為0.001、0.01和0.1。對(duì)于MLP模型的參數(shù),最大迭代次數(shù)分別設(shè)為500、1 000和2 000,Alpha分別設(shè)為0.1、0.25和1。對(duì)于SVM模型,分別采用不同的核函數(shù),參數(shù)gamma采用網(wǎng)格搜索法尋找最優(yōu)參數(shù)。

2 結(jié)果與分析

2.1 樣本數(shù)據(jù)統(tǒng)計(jì)分析

表1為部分康斯威星乳腺癌數(shù)據(jù)的統(tǒng)計(jì)信息。該數(shù)據(jù)集有兩大類、9個(gè)特征,共286個(gè)樣本。包括類別(class)分別是乳腺癌復(fù)發(fā)(recurrence-events)和未復(fù)發(fā)(no-recurrence-events)。年齡(age)有20~29、30~39、40~49、50~59、60~69和70~79六個(gè)區(qū)間。絕經(jīng)期(menopause)分為未絕經(jīng)(prememo)、40歲之后絕經(jīng)(ge40)和40歲之前絕經(jīng)(lt40)。腫瘤大小(tumor-size)、淋巴結(jié)個(gè)數(shù)(inv-nodes)、結(jié)節(jié)冒有無(node-caps)、腫瘤惡性程度(deg-malig)分為1、2、3三種,3代表惡性程度最高。breast分為left和right。breast-quad是所在象限,irradiate是是否有放射性治療經(jīng)歷。

表1 樣本基本統(tǒng)計(jì)特征(部分)Tab.1 Statistical characters of samples (parts)

2.2 GBDT分類結(jié)果分析

結(jié)果表明(表2),訓(xùn)練集中、模型精度由高至低分別為GBDT3 (預(yù)測精度=0.99)、GBDT2(預(yù)測精度=0.98)和GBDT1(預(yù)測精度=0.98)。驗(yàn)證集中、模型精度由高至低分別為GBDT3 (預(yù)測精度=0.97)、GBDT1 (預(yù)測精度=0.96)和GBDT2 (預(yù)測精度=0.95)。

表2 GBDT模型分類精度Tab.2 Classification accuracy of GBDT model

從模型解釋度來看,幾種模型中,GBDT3模型具有最高的模型解釋度,其他模型的訓(xùn)練集精度均低于該模型,且GBDT3模型的驗(yàn)證分類精度為0.97,預(yù)測精度也高于其他模型。從模型穩(wěn)定性角度,GBDT3模型訓(xùn)練集和驗(yàn)證集相差0.02,與GBDT2相同,但優(yōu)于GBDT1模型。綜合而言,GBDT3在該分類問題中的表現(xiàn)最優(yōu)。

2.3 多層感知機(jī)分類結(jié)果分析

結(jié)果表明(表3),訓(xùn)練集中、模型精度由高至低分別為MLP3 (預(yù)測精度=0.99)、MLP2(預(yù)測精度=0.98)和MLP1 (預(yù)測精度=0.91)。驗(yàn)證集中、預(yù)測精度由高至低分別為MLP3(預(yù)測精度=0.99)、MLP2(預(yù)測精度=0.99)和MLP1(預(yù)測精度=0.94)。

從模型解釋度來看,幾種模型中,MLP3模型具有最高的模型解釋度,其他模型的訓(xùn)練集精度均低于該模型,且該模型的預(yù)測精度是三種模型中最高的。但是,MLP2的精度幾乎與MLP3一致,僅在訓(xùn)練集中略低于MLP3模型。綜合而言,MLP3在該分類問題中的表現(xiàn)最優(yōu)。

表3 MLP模型分類精度Tab.3 Classification accuracy of MLP model

2.4 支持向量機(jī)分類結(jié)果分析

結(jié)果表明(表4),訓(xùn)練集中,模型精度由高至低分別為linear-svm (預(yù)測精度=0.99)、rbf-svm (預(yù)測精度=0.98)、poly-svm (預(yù)測精度=0.97)和sigmoid-svm(預(yù)測精度=0.95)。驗(yàn)證集中,模型精度由高至低分別為linear-svm (預(yù)測精度=0.98)、rbf-svm (預(yù)測精度=0.97)、poly-svm (預(yù)測精度=0.96)和sigmoid-svm(預(yù)測精度=0.96)。

表4 SVM模型分類精度Tab.4 Classification accuracy of SVM model

從模型解釋度來看,幾種模型中,GBDT3模型具有最高的模型解釋度,其他模型的訓(xùn)練集精度均低于該模型,且GBDT3模型的驗(yàn)證分類精度為0.97,預(yù)測精度也高于其他模型。從模型穩(wěn)定性角度,GBDT3模型訓(xùn)練集和驗(yàn)證集相差0.02,與GBDT2相同,但優(yōu)于GBDT1模型。綜合而言,GBDT3在該分類問題中的表現(xiàn)最優(yōu)。

2.5 不同機(jī)器學(xué)習(xí)模型最優(yōu)預(yù)測結(jié)果比較

表5為GBDT、MLP和SVM三種機(jī)器學(xué)習(xí)模型的最優(yōu)分類預(yù)測模型的結(jié)果。結(jié)果表明,三種模型對(duì)于威斯康星乳腺癌數(shù)據(jù)集均可獲得較好的分類預(yù)測結(jié)果。訓(xùn)練集中,GBDT3、MLP3和linear-svm的分類精度一致,均可達(dá)到0.99。驗(yàn)證集中,模型精度由高至低分別為MLP3、linear-svm和GBDT3。綜合而言,幾種模型均有較高的預(yù)測精度,但是MLP精度更高,所以可以將MLP3模型視為最優(yōu)的乳腺癌預(yù)測模型。

表5 不同機(jī)器學(xué)習(xí)方法預(yù)測精度分析Tab.5 Accuracy analysis of different machine learning methods

3 結(jié)論與展望

基于梯度提升樹、多層感知機(jī)和支持向量機(jī)三種機(jī)器學(xué)模型,分析幾種不同機(jī)器學(xué)習(xí)模型的預(yù)測精度,結(jié)論和展望如下:

三種模型在癌癥分類問題中均有良好的表現(xiàn),無論是建模集還是預(yù)測集均有較高的預(yù)測精度。相較而言,MLP模型預(yù)測精度更好,泛化能力更強(qiáng),且參數(shù)方面更為簡單。

相較于MLP和SVM模型,GBDT模型參數(shù)較多,需要進(jìn)行調(diào)參。綜合而言,幾種模型在分類算法中均有較好的表現(xiàn),研究如何使用兩種模型共同解決其他分類問題有一定的意義。

在今后的研究中,可以采用網(wǎng)格搜索法對(duì)GBDT和MLP進(jìn)行調(diào)參,并將這幾種模型用于更多的分類問題,以進(jìn)行更廣泛的研究。

猜你喜歡
乳腺癌分類模型
一半模型
絕經(jīng)了,是否就離乳腺癌越來越遠(yuǎn)呢?
中老年保健(2022年6期)2022-08-19 01:41:48
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
乳腺癌是吃出來的嗎
分類討論求坐標(biāo)
胸大更容易得乳腺癌嗎
數(shù)據(jù)分析中的分類討論
別逗了,乳腺癌可不分男女老少!
祝您健康(2018年5期)2018-05-16 17:10:16
主站蜘蛛池模板: 日韩无码精品人妻| 91区国产福利在线观看午夜 | 欧美va亚洲va香蕉在线| 久久亚洲美女精品国产精品| 亚洲大尺码专区影院| 欧美日本不卡| 国产十八禁在线观看免费| 亚洲a级在线观看| 国产无遮挡裸体免费视频| 1769国产精品免费视频| 成年A级毛片| 2020国产精品视频| 欧美成人综合在线| 国产精品女人呻吟在线观看| 视频一区亚洲| 色噜噜狠狠色综合网图区| lhav亚洲精品| 久久精品国产亚洲AV忘忧草18| 九九久久精品免费观看| 波多野结衣第一页| 尤物在线观看乱码| www.狠狠| 亚洲色图欧美在线| 久久五月视频| 亚洲小视频网站| jijzzizz老师出水喷水喷出| 一本视频精品中文字幕| 久久久精品久久久久三级| 久久精品国产999大香线焦| 色国产视频| 久夜色精品国产噜噜| 国产欧美高清| 精品无码国产自产野外拍在线| 亚洲欧洲日产国码无码av喷潮| 自拍亚洲欧美精品| 色婷婷久久| 久久不卡国产精品无码| 国产成人精品无码一区二| 亚洲午夜片| 视频国产精品丝袜第一页| 亚洲人成网址| 婷婷中文在线| 在线国产91| 国产探花在线视频| a毛片在线播放| 国产成人精品午夜视频'| а∨天堂一区中文字幕| 秋霞一区二区三区| 国产丝袜第一页| 国产手机在线小视频免费观看| 亚洲综合久久成人AV| 欧美三级视频网站| 九一九色国产| 日本一本正道综合久久dvd| 伊人婷婷色香五月综合缴缴情| 亚洲AV电影不卡在线观看| 亚洲经典在线中文字幕| 久久无码av三级| 精品人妻无码中字系列| 第一页亚洲| 香蕉伊思人视频| 日韩在线中文| 3D动漫精品啪啪一区二区下载| 国产成人喷潮在线观看| 呦视频在线一区二区三区| 国产高清在线丝袜精品一区| 毛片视频网址| 亚洲欧美综合精品久久成人网| 亚洲综合激情另类专区| 欧美国产综合色视频| 2020国产精品视频| 欧美精品1区| 亚洲人成网站观看在线观看| 亚洲日韩AV无码精品| 国产成人艳妇AA视频在线| 免费高清自慰一区二区三区| 在线国产毛片| 干中文字幕| 国产夜色视频| 亚洲人免费视频| 青青青亚洲精品国产| 亚洲丝袜中文字幕|