999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機(jī)森林的乳腺腫瘤診斷研究

2014-02-13 09:58:26劉永春
電視技術(shù) 2014年15期
關(guān)鍵詞:分類

劉永春,宋 弘

(四川理工學(xué)院 自動(dòng)化與電子信息學(xué)院,四川 自貢643000)

責(zé)任編輯:任健男

乳腺癌在女性癌癥病例中占據(jù)首位,近年來有不斷上升的趨勢(shì),因此開展乳腺癌的診斷和防治研究具有重要的科學(xué)意義和臨床實(shí)用價(jià)值。醫(yī)學(xué)研究發(fā)現(xiàn),乳腺腫瘤病灶組織的細(xì)胞核顯微圖像與正常組織的細(xì)胞核顯微圖像不同,臨床上,醫(yī)生主要是通過肉眼觀察圖像的特征,憑經(jīng)驗(yàn)和感性的認(rèn)識(shí)來對(duì)乳腺腫瘤進(jìn)行診斷,缺乏客觀指標(biāo),有時(shí)會(huì)造成誤診,特別是對(duì)良性腫瘤的誤檢率較高導(dǎo)致了活檢結(jié)果為良性的病例增加,給病人帶來了不必要的痛苦和經(jīng)濟(jì)負(fù)擔(dān)。因此,利用計(jì)算機(jī)智能計(jì)算方法來幫助檢測(cè)乳腺腫瘤是否為惡性具有非常重要的意義,且已成為非常熱門的研究領(lǐng)域。計(jì)算機(jī)輔助診斷能進(jìn)行定量分析,減輕醫(yī)生診斷工作量,降低活檢數(shù),提高診斷效率和客觀性。

計(jì)算機(jī)輔助檢測(cè)乳腺腫瘤的過程主要包括乳腺圖像預(yù)處理、乳腺圖像分割、提取乳腺圖像特征、訓(xùn)練分類器和利用分類器進(jìn)行分類識(shí)別。在機(jī)器分類學(xué)習(xí)算法中,傳統(tǒng)的分類器往往分類精度有限且容易出現(xiàn)過擬合情況,隨機(jī)森林以它自身固有的特點(diǎn)和優(yōu)良的分類效果在眾多的分類學(xué)習(xí)算法中脫穎而出,因此論文將重點(diǎn)討論基于隨機(jī)森林思想的組合分類器的設(shè)計(jì)和乳腺腫瘤的分類測(cè)試以及算法性能的分析[1-4]。

1 隨機(jī)森林模型

隨機(jī)森林算法是由Leo Breiman和Adele Cutler提出,結(jié)合了Breimans的Bootstrap aggregating思想和Ho的random subspace方法,其實(shí)質(zhì)是一個(gè)樹型分類器的集合{h(x,βk),k=1,2,…,n},決策樹的形成采用了隨機(jī)的方法,且樹之間是沒有關(guān)聯(lián)的。

1.1 Bootstrap法重采樣

Bootstrap的核心思想是設(shè)集合S中含有n個(gè)不同的樣本{x1,x2,…,xn},若每次有放回地從集合S中抽取一個(gè)樣本,一共抽取n次,形成新的集合S*,則集合S*中不包含某個(gè)樣本xi(i=1,2,…,n)的概率為

雖然新集合S*的樣本總數(shù)與原集合S 的樣本總數(shù)相等(都為n),但新集合S*中可能包含了重復(fù)的樣本(有放回抽取),若除去重復(fù)的樣本,新集合S*中僅包含了原集合S中約1-0.368×100%=63.2%的樣本[5]。

1.2 隨機(jī)森林算法流程

隨機(jī)森林是基于Bootstrap方法重采樣,產(chǎn)生多個(gè)訓(xùn)練集。設(shè)樣本的屬性個(gè)數(shù)為M,m為大于零且小于M的整數(shù)。隨機(jī)森林算法的流程如下:

1)利用Bootstrap方法重采樣,隨機(jī)產(chǎn)生T個(gè)訓(xùn)練集S1,S2,…,ST。

2)利用每個(gè)訓(xùn)練集,生成對(duì)應(yīng)的決策樹C1,C2,…,CT;在每個(gè)非葉子節(jié)點(diǎn)(內(nèi)部節(jié)點(diǎn))上選擇屬性前,從M個(gè)屬性中隨機(jī)抽取m個(gè)屬性作為當(dāng)前節(jié)點(diǎn)的分裂屬性集,并以這m個(gè)屬性中最好的分裂方式對(duì)該節(jié)點(diǎn)進(jìn)行分裂,在整個(gè)森林的生長過程中,m的值維持不變。

3)每棵樹都完整成長,而不進(jìn)行剪枝。對(duì)于測(cè)試集樣本X,利用每個(gè)決策樹進(jìn)行測(cè)試,得到對(duì)應(yīng)的類別C1(X),C2(X),…,CT(X)。

4)采用投票的方法,將T個(gè)決策樹中輸出最多的類別作為測(cè)試集樣本X所屬類別[6]。

2 基于隨機(jī)森林的乳腺腫瘤診斷

2.1 模型建立

基于隨機(jī)森林的乳腺腫瘤的計(jì)算機(jī)自動(dòng)診斷算法模型的設(shè)計(jì)思路為:將乳腺腫瘤病灶組織的細(xì)胞核顯微圖像的量化特征作為模型的輸入,良性乳腺腫瘤和惡性乳腺腫瘤作為模型的輸出。用訓(xùn)練集數(shù)據(jù)進(jìn)行隨機(jī)森林分類器模型的創(chuàng)建,然后對(duì)測(cè)試集數(shù)據(jù)進(jìn)行仿真測(cè)試,最后對(duì)測(cè)試結(jié)果進(jìn)行分析。其主要功能模塊包括數(shù)據(jù)采集、隨機(jī)森林分類器創(chuàng)建、仿真測(cè)試和結(jié)果分析[7]。

乳腺腫瘤數(shù)據(jù)來源于美國威斯康辛大學(xué)醫(yī)學(xué)院建立的乳腺腫瘤病灶組織的細(xì)胞核顯微圖像數(shù)據(jù)庫。數(shù)據(jù)特征包含了細(xì)胞核圖像的10個(gè)量化特征,分別為細(xì)胞核半徑、質(zhì)地、周長、面積、光滑性、緊密度、凹陷度、凹陷點(diǎn)數(shù)、對(duì)稱度、斷裂度,這些特征與腫瘤的性質(zhì)有著密切的關(guān)系。建立算法數(shù)學(xué)模型的目的就是希望用數(shù)學(xué)模型來描述數(shù)據(jù)庫中各個(gè)量化特征與腫瘤性質(zhì)的關(guān)系,從而根據(jù)細(xì)胞核顯微圖像的量化特征診斷乳腺腫瘤是良性還是惡性的。該數(shù)據(jù)庫共包括569個(gè)病例數(shù)據(jù),其中,良性為357例,惡性為212例。

數(shù)據(jù)采集完成后,利用隨機(jī)森林工具箱函數(shù)classRF_train()對(duì)基于訓(xùn)練集數(shù)據(jù)創(chuàng)建一個(gè)隨機(jī)森林分類器。隨機(jī)森林分類器創(chuàng)建好后,利用隨機(jī)森林工具箱函數(shù)class RF_predict()對(duì)測(cè)試集數(shù)據(jù)進(jìn)行仿真預(yù)測(cè)。最后,通過對(duì)隨機(jī)森林分類器的仿真結(jié)果進(jìn)行分析,可以得到乳腺腫瘤病例的分類準(zhǔn)確率,從而可以對(duì)該算法的可行性進(jìn)行評(píng)價(jià)[8]。

2.2 隨機(jī)森林工具箱

算法采用科羅拉多大學(xué)博爾德分校Abhishek Jaiantilal開發(fā)的randomforest-matlab開源隨機(jī)森林工具箱,主要函數(shù)有classRF_train()和classRF_predict()。其中classRF_train()的調(diào)用格式為:model=classRF_train(X,Y,ntree,mtry,extra_options)。其中X為訓(xùn)練集的輸入樣本矩陣,每一列表示一個(gè)變量(屬性),其每一行表示一個(gè)樣本;Y為訓(xùn)練集的輸出樣本向量,其每一行表示X中對(duì)應(yīng)的樣本所屬的類別;ntree為隨機(jī)森林中決策樹的個(gè)數(shù)(默認(rèn)為500);mtry為分裂屬性集中的屬性個(gè)數(shù);extra_options為可選的參數(shù);model為創(chuàng)建好的隨機(jī)森林分類器。函數(shù)classRF_predict()的調(diào)用格式為:[Y_hat votes]=classRF_predict(X,model,extra_options)。其中,X為待預(yù)測(cè)樣本的輸入矩陣,其每一列表示一個(gè)變量,其每一行表示一個(gè)樣本;model為創(chuàng)建好的隨機(jī)森林分類器;extra_options為可選的參數(shù);Y_hat為待預(yù)測(cè)樣本對(duì)應(yīng)的所屬類別;votes為未格式化的待預(yù)測(cè)樣本輸出類別權(quán)重,即將待預(yù)測(cè)樣本預(yù)測(cè)為各個(gè)類別的決策樹個(gè)數(shù)。

3 仿真實(shí)驗(yàn)結(jié)果及分析

3.1 仿真測(cè)試結(jié)果

系統(tǒng)采用MATLAB R2013a作為仿真測(cè)試平臺(tái),并且從569個(gè)病例數(shù)據(jù)中隨機(jī)選擇500組數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,剩余69組作為測(cè)試數(shù)據(jù)集。某次隨機(jī)測(cè)試的結(jié)果如表1所示。

表1 隨機(jī)森林仿真測(cè)試結(jié)果

從測(cè)試結(jié)果可以看出,在測(cè)試集的69個(gè)樣本中,共有1個(gè)樣本被預(yù)測(cè)錯(cuò)誤(1個(gè)惡性乳腺腫瘤樣本被錯(cuò)分為良性乳腺腫瘤),平均確診率為98.55%。為了比較隨機(jī)森林分類器的性能,分別用ELM、LVQ和決策樹對(duì)上述數(shù)據(jù)集進(jìn)行測(cè)試,預(yù)測(cè)準(zhǔn)確率分別為95.74%,91.33%和89.85%),這表明采用隨機(jī)森林模型對(duì)乳腺腫瘤進(jìn)行分類識(shí)別具有較好的性能。

3.2 隨機(jī)森林分類器性能分析

為了直觀地對(duì)隨機(jī)森林分類器的性能進(jìn)行分析,可以用圖形的方式顯示預(yù)測(cè)分類結(jié)果,其中決策樹的棵樹為默認(rèn)的500棵,其運(yùn)行結(jié)果如圖1所示。

圖1 隨機(jī)森林分類器分類結(jié)果

其中,圖的橫坐標(biāo)表示在隨機(jī)森林的所有決策樹中,輸出為類別1的決策樹棵樹,縱坐標(biāo)表示輸出為類別2的決策樹棵樹。從理論上來說,若被錯(cuò)誤分類的樣本靠近圖的中心,即直線y=x與x+y=500的交點(diǎn)P(250,250),這時(shí)在整個(gè)隨機(jī)森林中,輸出類別為1與類別2的決策樹棵樹相當(dāng),在這種情況下,樣本被錯(cuò)分,被認(rèn)為是可以接受的,也說明這時(shí)隨機(jī)森林的泛化能力是可以接受的。反之,若被錯(cuò)誤分類的樣本偏離圖的中心,如圖2所示,則表明在整個(gè)隨機(jī)森林中,輸出為類別1與類別2的決策樹棵樹存在一定的差距,但是,樣本被錯(cuò)誤分類。這種情況認(rèn)為是不合常理的,這時(shí)的隨機(jī)森林的泛化能力較差。

圖2 隨機(jī)森林分類器分類結(jié)果

3.3 決策樹棵樹對(duì)隨機(jī)森林性能的影響

隨機(jī)森林中包含的決策樹棵樹的不同,對(duì)算法的泛化性能具有一定的影響,為了減少隨機(jī)性的影響,當(dāng)決策樹棵樹確定后,建立100個(gè)隨機(jī)森林模型,然后取其準(zhǔn)確率的平均值作為當(dāng)前決策樹棵樹下的分類準(zhǔn)確率,仿真結(jié)果如圖3所示。從圖中可以看出,對(duì)乳腺腫瘤診斷數(shù)據(jù)集來說,綜合考慮隨機(jī)森林中包含的決策樹棵樹與建模的速度,選擇隨機(jī)森林中包含50~150棵決策樹比較合理。對(duì)于其他數(shù)據(jù)集,也可以采用類似的方法進(jìn)行折中選擇決策樹的數(shù)量。

4 結(jié)束語

圖3 決策樹數(shù)量對(duì)分類器性能的影響

隨機(jī)森林以其良好的泛化性能,已被廣泛應(yīng)用到許多領(lǐng)域中。隨機(jī)森林優(yōu)點(diǎn)包括:1)隨機(jī)森林由若干決策樹的集合組成,運(yùn)算本質(zhì)上相同,因此能有效處理大量的輸入數(shù)據(jù);2)訓(xùn)練過程中,會(huì)尋找合適的屬性數(shù)量,即使數(shù)據(jù)有數(shù)以千計(jì)的特征變量數(shù)都是可以接受的;3)通過統(tǒng)計(jì)每個(gè)特征在森林中所有樹上的使用率,可間接估計(jì)特征在分類上的重要性;4)隨機(jī)森林通過計(jì)算錯(cuò)誤率來達(dá)到最佳化,對(duì)訓(xùn)練數(shù)據(jù)而產(chǎn)生的偏差可被限制,因此,對(duì)未知的數(shù)據(jù)能保持較強(qiáng)的識(shí)別力;5)當(dāng)數(shù)據(jù)有缺失時(shí),可適當(dāng)拋棄部分決策樹使隨機(jī)森林能繼續(xù)正常分類;6)對(duì)于不平衡的分類數(shù)據(jù)集來說,它可以平衡誤差;7)隨機(jī)森林如同決策樹,對(duì)資料的分布和特征的相關(guān)性不需要有任何的前提假設(shè)。由于影響隨機(jī)森林分類性能的主要因素為森林中單棵樹的分類強(qiáng)度和樹之間的相關(guān)度,因此,在這個(gè)方面,可以對(duì)隨機(jī)森林進(jìn)一步深入研究。

[1]史忠植.神經(jīng)網(wǎng)絡(luò)[M].北京:高等教育出版社,2009.

[2]楊景兵,丁輝,張樹東.基于神經(jīng)網(wǎng)絡(luò)的圖像弱邊緣檢測(cè)方法研究[J].電視技術(shù),2011,35(15):54-56.

[3]KIM K H,BANG S W,KIM S R.Emotion recognition system using short-term monitoring of physiological signals[J].Medical Biology Engine Computer,2004(42):419-427.

[4]洪燕珠.基于隨機(jī)森林法的慢性疲勞證候要素特征病癥的選擇[J].中醫(yī)雜志,2010,51(1):634-638.

[5]張洪強(qiáng),劉光遠(yuǎn),賴祥偉.隨機(jī)森林算法在肌電的重要特征選擇中的應(yīng)用[J].計(jì)算機(jī)科學(xué),2013,40(1):200-202.

[6]孫超,周海英.面向語義的圖像中主要對(duì)象的提取方法[J].電視技術(shù),2013,37(5):45-48.

[7]STROBL C,BOULESTEIX A L,ZEILEIS A,et al.Bias in random forest variable importance measures:illustrations,sources and a solution[J].BMC Bioinfonnatics,2007,8(25):75-80.

[8]WANG X F,ELSTON R C,ZHU X F.The meaning of interaction[J].Hum.Hered,2010,70(4):269-277.

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準(zhǔn)備好了嗎
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
按需分類
教你一招:數(shù)的分類
主站蜘蛛池模板: 2020最新国产精品视频| 激情国产精品一区| 色一情一乱一伦一区二区三区小说| 国产丝袜无码一区二区视频| 三上悠亚一区二区| 伊人网址在线| 乱码国产乱码精品精在线播放| 国产免费精彩视频| 国产精品永久免费嫩草研究院| 日本欧美视频在线观看| 久久一级电影| 精品国产一区91在线| 亚洲色婷婷一区二区| 日韩高清中文字幕| 久久6免费视频| 婷婷丁香在线观看| 欧美日韩中文国产| 国产农村1级毛片| 无码福利视频| 久久久精品无码一区二区三区| 国产精品福利一区二区久久| 亚洲天堂网站在线| 99在线观看国产| 国产成人亚洲无码淙合青草| 国产精品视屏| 日本一区高清| 东京热一区二区三区无码视频| 日本成人一区| 国产精品香蕉在线观看不卡| 国产精品专区第1页| 日日碰狠狠添天天爽| 91蝌蚪视频在线观看| 国产你懂得| 亚洲日韩第九十九页| 亚洲一道AV无码午夜福利| 午夜无码一区二区三区在线app| 亚洲男女在线| 欧美三级视频在线播放| 自拍亚洲欧美精品| 久久中文无码精品| 国产精品视频3p| 国产精品va免费视频| 美女国内精品自产拍在线播放| 欧美色视频网站| 国产成人91精品免费网址在线| 亚洲黄色高清| 在线观看国产精品第一区免费| 亚洲无卡视频| 久久国产成人精品国产成人亚洲| 伊人久久婷婷五月综合97色| 国产女人18毛片水真多1| 欧美日韩理论| 嫩草国产在线| 国产精品欧美亚洲韩国日本不卡| 国产av剧情无码精品色午夜| 色成人亚洲| 国产av剧情无码精品色午夜| A级毛片无码久久精品免费| 中文字幕不卡免费高清视频| 国产va视频| 一级毛片在线播放免费| 97狠狠操| 97成人在线视频| 亚洲国产成人麻豆精品| 欧美成在线视频| 欧美日韩亚洲国产主播第一区| 国产成a人片在线播放| 欧美日韩午夜| 国产99精品久久| 手机精品福利在线观看| 精品视频一区在线观看| 999国产精品| 一级毛片免费高清视频| 热思思久久免费视频| 波多野结衣一区二区三区AV| 亚洲成网站| 久久亚洲综合伊人| 综合社区亚洲熟妇p| 久久综合婷婷| 这里只有精品在线播放| 人人澡人人爽欧美一区| 亚洲人精品亚洲人成在线|