999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機(jī)森林的乳腺腫瘤診斷研究

2014-02-13 09:58:26劉永春
電視技術(shù) 2014年15期
關(guān)鍵詞:分類

劉永春,宋 弘

(四川理工學(xué)院 自動(dòng)化與電子信息學(xué)院,四川 自貢643000)

責(zé)任編輯:任健男

乳腺癌在女性癌癥病例中占據(jù)首位,近年來有不斷上升的趨勢(shì),因此開展乳腺癌的診斷和防治研究具有重要的科學(xué)意義和臨床實(shí)用價(jià)值。醫(yī)學(xué)研究發(fā)現(xiàn),乳腺腫瘤病灶組織的細(xì)胞核顯微圖像與正常組織的細(xì)胞核顯微圖像不同,臨床上,醫(yī)生主要是通過肉眼觀察圖像的特征,憑經(jīng)驗(yàn)和感性的認(rèn)識(shí)來對(duì)乳腺腫瘤進(jìn)行診斷,缺乏客觀指標(biāo),有時(shí)會(huì)造成誤診,特別是對(duì)良性腫瘤的誤檢率較高導(dǎo)致了活檢結(jié)果為良性的病例增加,給病人帶來了不必要的痛苦和經(jīng)濟(jì)負(fù)擔(dān)。因此,利用計(jì)算機(jī)智能計(jì)算方法來幫助檢測(cè)乳腺腫瘤是否為惡性具有非常重要的意義,且已成為非常熱門的研究領(lǐng)域。計(jì)算機(jī)輔助診斷能進(jìn)行定量分析,減輕醫(yī)生診斷工作量,降低活檢數(shù),提高診斷效率和客觀性。

計(jì)算機(jī)輔助檢測(cè)乳腺腫瘤的過程主要包括乳腺圖像預(yù)處理、乳腺圖像分割、提取乳腺圖像特征、訓(xùn)練分類器和利用分類器進(jìn)行分類識(shí)別。在機(jī)器分類學(xué)習(xí)算法中,傳統(tǒng)的分類器往往分類精度有限且容易出現(xiàn)過擬合情況,隨機(jī)森林以它自身固有的特點(diǎn)和優(yōu)良的分類效果在眾多的分類學(xué)習(xí)算法中脫穎而出,因此論文將重點(diǎn)討論基于隨機(jī)森林思想的組合分類器的設(shè)計(jì)和乳腺腫瘤的分類測(cè)試以及算法性能的分析[1-4]。

1 隨機(jī)森林模型

隨機(jī)森林算法是由Leo Breiman和Adele Cutler提出,結(jié)合了Breimans的Bootstrap aggregating思想和Ho的random subspace方法,其實(shí)質(zhì)是一個(gè)樹型分類器的集合{h(x,βk),k=1,2,…,n},決策樹的形成采用了隨機(jī)的方法,且樹之間是沒有關(guān)聯(lián)的。

1.1 Bootstrap法重采樣

Bootstrap的核心思想是設(shè)集合S中含有n個(gè)不同的樣本{x1,x2,…,xn},若每次有放回地從集合S中抽取一個(gè)樣本,一共抽取n次,形成新的集合S*,則集合S*中不包含某個(gè)樣本xi(i=1,2,…,n)的概率為

雖然新集合S*的樣本總數(shù)與原集合S 的樣本總數(shù)相等(都為n),但新集合S*中可能包含了重復(fù)的樣本(有放回抽取),若除去重復(fù)的樣本,新集合S*中僅包含了原集合S中約1-0.368×100%=63.2%的樣本[5]。

1.2 隨機(jī)森林算法流程

隨機(jī)森林是基于Bootstrap方法重采樣,產(chǎn)生多個(gè)訓(xùn)練集。設(shè)樣本的屬性個(gè)數(shù)為M,m為大于零且小于M的整數(shù)。隨機(jī)森林算法的流程如下:

1)利用Bootstrap方法重采樣,隨機(jī)產(chǎn)生T個(gè)訓(xùn)練集S1,S2,…,ST。

2)利用每個(gè)訓(xùn)練集,生成對(duì)應(yīng)的決策樹C1,C2,…,CT;在每個(gè)非葉子節(jié)點(diǎn)(內(nèi)部節(jié)點(diǎn))上選擇屬性前,從M個(gè)屬性中隨機(jī)抽取m個(gè)屬性作為當(dāng)前節(jié)點(diǎn)的分裂屬性集,并以這m個(gè)屬性中最好的分裂方式對(duì)該節(jié)點(diǎn)進(jìn)行分裂,在整個(gè)森林的生長過程中,m的值維持不變。

3)每棵樹都完整成長,而不進(jìn)行剪枝。對(duì)于測(cè)試集樣本X,利用每個(gè)決策樹進(jìn)行測(cè)試,得到對(duì)應(yīng)的類別C1(X),C2(X),…,CT(X)。

4)采用投票的方法,將T個(gè)決策樹中輸出最多的類別作為測(cè)試集樣本X所屬類別[6]。

2 基于隨機(jī)森林的乳腺腫瘤診斷

2.1 模型建立

基于隨機(jī)森林的乳腺腫瘤的計(jì)算機(jī)自動(dòng)診斷算法模型的設(shè)計(jì)思路為:將乳腺腫瘤病灶組織的細(xì)胞核顯微圖像的量化特征作為模型的輸入,良性乳腺腫瘤和惡性乳腺腫瘤作為模型的輸出。用訓(xùn)練集數(shù)據(jù)進(jìn)行隨機(jī)森林分類器模型的創(chuàng)建,然后對(duì)測(cè)試集數(shù)據(jù)進(jìn)行仿真測(cè)試,最后對(duì)測(cè)試結(jié)果進(jìn)行分析。其主要功能模塊包括數(shù)據(jù)采集、隨機(jī)森林分類器創(chuàng)建、仿真測(cè)試和結(jié)果分析[7]。

乳腺腫瘤數(shù)據(jù)來源于美國威斯康辛大學(xué)醫(yī)學(xué)院建立的乳腺腫瘤病灶組織的細(xì)胞核顯微圖像數(shù)據(jù)庫。數(shù)據(jù)特征包含了細(xì)胞核圖像的10個(gè)量化特征,分別為細(xì)胞核半徑、質(zhì)地、周長、面積、光滑性、緊密度、凹陷度、凹陷點(diǎn)數(shù)、對(duì)稱度、斷裂度,這些特征與腫瘤的性質(zhì)有著密切的關(guān)系。建立算法數(shù)學(xué)模型的目的就是希望用數(shù)學(xué)模型來描述數(shù)據(jù)庫中各個(gè)量化特征與腫瘤性質(zhì)的關(guān)系,從而根據(jù)細(xì)胞核顯微圖像的量化特征診斷乳腺腫瘤是良性還是惡性的。該數(shù)據(jù)庫共包括569個(gè)病例數(shù)據(jù),其中,良性為357例,惡性為212例。

數(shù)據(jù)采集完成后,利用隨機(jī)森林工具箱函數(shù)classRF_train()對(duì)基于訓(xùn)練集數(shù)據(jù)創(chuàng)建一個(gè)隨機(jī)森林分類器。隨機(jī)森林分類器創(chuàng)建好后,利用隨機(jī)森林工具箱函數(shù)class RF_predict()對(duì)測(cè)試集數(shù)據(jù)進(jìn)行仿真預(yù)測(cè)。最后,通過對(duì)隨機(jī)森林分類器的仿真結(jié)果進(jìn)行分析,可以得到乳腺腫瘤病例的分類準(zhǔn)確率,從而可以對(duì)該算法的可行性進(jìn)行評(píng)價(jià)[8]。

2.2 隨機(jī)森林工具箱

算法采用科羅拉多大學(xué)博爾德分校Abhishek Jaiantilal開發(fā)的randomforest-matlab開源隨機(jī)森林工具箱,主要函數(shù)有classRF_train()和classRF_predict()。其中classRF_train()的調(diào)用格式為:model=classRF_train(X,Y,ntree,mtry,extra_options)。其中X為訓(xùn)練集的輸入樣本矩陣,每一列表示一個(gè)變量(屬性),其每一行表示一個(gè)樣本;Y為訓(xùn)練集的輸出樣本向量,其每一行表示X中對(duì)應(yīng)的樣本所屬的類別;ntree為隨機(jī)森林中決策樹的個(gè)數(shù)(默認(rèn)為500);mtry為分裂屬性集中的屬性個(gè)數(shù);extra_options為可選的參數(shù);model為創(chuàng)建好的隨機(jī)森林分類器。函數(shù)classRF_predict()的調(diào)用格式為:[Y_hat votes]=classRF_predict(X,model,extra_options)。其中,X為待預(yù)測(cè)樣本的輸入矩陣,其每一列表示一個(gè)變量,其每一行表示一個(gè)樣本;model為創(chuàng)建好的隨機(jī)森林分類器;extra_options為可選的參數(shù);Y_hat為待預(yù)測(cè)樣本對(duì)應(yīng)的所屬類別;votes為未格式化的待預(yù)測(cè)樣本輸出類別權(quán)重,即將待預(yù)測(cè)樣本預(yù)測(cè)為各個(gè)類別的決策樹個(gè)數(shù)。

3 仿真實(shí)驗(yàn)結(jié)果及分析

3.1 仿真測(cè)試結(jié)果

系統(tǒng)采用MATLAB R2013a作為仿真測(cè)試平臺(tái),并且從569個(gè)病例數(shù)據(jù)中隨機(jī)選擇500組數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,剩余69組作為測(cè)試數(shù)據(jù)集。某次隨機(jī)測(cè)試的結(jié)果如表1所示。

表1 隨機(jī)森林仿真測(cè)試結(jié)果

從測(cè)試結(jié)果可以看出,在測(cè)試集的69個(gè)樣本中,共有1個(gè)樣本被預(yù)測(cè)錯(cuò)誤(1個(gè)惡性乳腺腫瘤樣本被錯(cuò)分為良性乳腺腫瘤),平均確診率為98.55%。為了比較隨機(jī)森林分類器的性能,分別用ELM、LVQ和決策樹對(duì)上述數(shù)據(jù)集進(jìn)行測(cè)試,預(yù)測(cè)準(zhǔn)確率分別為95.74%,91.33%和89.85%),這表明采用隨機(jī)森林模型對(duì)乳腺腫瘤進(jìn)行分類識(shí)別具有較好的性能。

3.2 隨機(jī)森林分類器性能分析

為了直觀地對(duì)隨機(jī)森林分類器的性能進(jìn)行分析,可以用圖形的方式顯示預(yù)測(cè)分類結(jié)果,其中決策樹的棵樹為默認(rèn)的500棵,其運(yùn)行結(jié)果如圖1所示。

圖1 隨機(jī)森林分類器分類結(jié)果

其中,圖的橫坐標(biāo)表示在隨機(jī)森林的所有決策樹中,輸出為類別1的決策樹棵樹,縱坐標(biāo)表示輸出為類別2的決策樹棵樹。從理論上來說,若被錯(cuò)誤分類的樣本靠近圖的中心,即直線y=x與x+y=500的交點(diǎn)P(250,250),這時(shí)在整個(gè)隨機(jī)森林中,輸出類別為1與類別2的決策樹棵樹相當(dāng),在這種情況下,樣本被錯(cuò)分,被認(rèn)為是可以接受的,也說明這時(shí)隨機(jī)森林的泛化能力是可以接受的。反之,若被錯(cuò)誤分類的樣本偏離圖的中心,如圖2所示,則表明在整個(gè)隨機(jī)森林中,輸出為類別1與類別2的決策樹棵樹存在一定的差距,但是,樣本被錯(cuò)誤分類。這種情況認(rèn)為是不合常理的,這時(shí)的隨機(jī)森林的泛化能力較差。

圖2 隨機(jī)森林分類器分類結(jié)果

3.3 決策樹棵樹對(duì)隨機(jī)森林性能的影響

隨機(jī)森林中包含的決策樹棵樹的不同,對(duì)算法的泛化性能具有一定的影響,為了減少隨機(jī)性的影響,當(dāng)決策樹棵樹確定后,建立100個(gè)隨機(jī)森林模型,然后取其準(zhǔn)確率的平均值作為當(dāng)前決策樹棵樹下的分類準(zhǔn)確率,仿真結(jié)果如圖3所示。從圖中可以看出,對(duì)乳腺腫瘤診斷數(shù)據(jù)集來說,綜合考慮隨機(jī)森林中包含的決策樹棵樹與建模的速度,選擇隨機(jī)森林中包含50~150棵決策樹比較合理。對(duì)于其他數(shù)據(jù)集,也可以采用類似的方法進(jìn)行折中選擇決策樹的數(shù)量。

4 結(jié)束語

圖3 決策樹數(shù)量對(duì)分類器性能的影響

隨機(jī)森林以其良好的泛化性能,已被廣泛應(yīng)用到許多領(lǐng)域中。隨機(jī)森林優(yōu)點(diǎn)包括:1)隨機(jī)森林由若干決策樹的集合組成,運(yùn)算本質(zhì)上相同,因此能有效處理大量的輸入數(shù)據(jù);2)訓(xùn)練過程中,會(huì)尋找合適的屬性數(shù)量,即使數(shù)據(jù)有數(shù)以千計(jì)的特征變量數(shù)都是可以接受的;3)通過統(tǒng)計(jì)每個(gè)特征在森林中所有樹上的使用率,可間接估計(jì)特征在分類上的重要性;4)隨機(jī)森林通過計(jì)算錯(cuò)誤率來達(dá)到最佳化,對(duì)訓(xùn)練數(shù)據(jù)而產(chǎn)生的偏差可被限制,因此,對(duì)未知的數(shù)據(jù)能保持較強(qiáng)的識(shí)別力;5)當(dāng)數(shù)據(jù)有缺失時(shí),可適當(dāng)拋棄部分決策樹使隨機(jī)森林能繼續(xù)正常分類;6)對(duì)于不平衡的分類數(shù)據(jù)集來說,它可以平衡誤差;7)隨機(jī)森林如同決策樹,對(duì)資料的分布和特征的相關(guān)性不需要有任何的前提假設(shè)。由于影響隨機(jī)森林分類性能的主要因素為森林中單棵樹的分類強(qiáng)度和樹之間的相關(guān)度,因此,在這個(gè)方面,可以對(duì)隨機(jī)森林進(jìn)一步深入研究。

[1]史忠植.神經(jīng)網(wǎng)絡(luò)[M].北京:高等教育出版社,2009.

[2]楊景兵,丁輝,張樹東.基于神經(jīng)網(wǎng)絡(luò)的圖像弱邊緣檢測(cè)方法研究[J].電視技術(shù),2011,35(15):54-56.

[3]KIM K H,BANG S W,KIM S R.Emotion recognition system using short-term monitoring of physiological signals[J].Medical Biology Engine Computer,2004(42):419-427.

[4]洪燕珠.基于隨機(jī)森林法的慢性疲勞證候要素特征病癥的選擇[J].中醫(yī)雜志,2010,51(1):634-638.

[5]張洪強(qiáng),劉光遠(yuǎn),賴祥偉.隨機(jī)森林算法在肌電的重要特征選擇中的應(yīng)用[J].計(jì)算機(jī)科學(xué),2013,40(1):200-202.

[6]孫超,周海英.面向語義的圖像中主要對(duì)象的提取方法[J].電視技術(shù),2013,37(5):45-48.

[7]STROBL C,BOULESTEIX A L,ZEILEIS A,et al.Bias in random forest variable importance measures:illustrations,sources and a solution[J].BMC Bioinfonnatics,2007,8(25):75-80.

[8]WANG X F,ELSTON R C,ZHU X F.The meaning of interaction[J].Hum.Hered,2010,70(4):269-277.

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準(zhǔn)備好了嗎
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
按需分類
教你一招:數(shù)的分類
主站蜘蛛池模板: 91精品在线视频观看| 黄色在线网| 国产成人综合亚洲网址| 成人无码区免费视频网站蜜臀| 国产欧美亚洲精品第3页在线| 中文毛片无遮挡播放免费| 欧美日韩另类国产| 精品视频免费在线| 久久国产精品麻豆系列| 成人va亚洲va欧美天堂| av一区二区三区高清久久| AV天堂资源福利在线观看| 婷婷激情亚洲| 亚洲男人的天堂在线观看| 一级做a爰片久久毛片毛片| 国产97色在线| a色毛片免费视频| 国产啪在线91| 午夜视频免费试看| 久久精品人人做人人综合试看| 婷婷五月在线| 国产无套粉嫩白浆| 在线a视频免费观看| a毛片免费看| 亚洲一级色| 欧美国产日韩在线观看| 2021国产精品自拍| 国产在线无码一区二区三区| 色屁屁一区二区三区视频国产| 国产福利小视频在线播放观看| a天堂视频在线| 久久99热这里只有精品免费看| 无码aⅴ精品一区二区三区| 中国毛片网| 国外欧美一区另类中文字幕| 日韩欧美视频第一区在线观看| 日韩小视频网站hq| 成人在线观看一区| 99尹人香蕉国产免费天天拍| 免费va国产在线观看| 国产第一福利影院| 综合人妻久久一区二区精品 | 直接黄91麻豆网站| 精品国产一区91在线| 午夜高清国产拍精品| 免费jjzz在在线播放国产| 极品av一区二区| 91综合色区亚洲熟妇p| 国产成人亚洲综合A∨在线播放 | 国产精品久久久久久久伊一| 夜夜高潮夜夜爽国产伦精品| 91区国产福利在线观看午夜 | 国产精品第一区| 91久久国产成人免费观看| 日本在线欧美在线| 婷五月综合| 极品私人尤物在线精品首页 | 免费jizz在线播放| 国产第一页第二页| 中文字幕 日韩 欧美| 午夜爽爽视频| 亚洲无码精品在线播放| 四虎精品国产永久在线观看| 午夜啪啪网| 亚洲侵犯无码网址在线观看| 国产精品99一区不卡| 国产精品香蕉在线观看不卡| 国产va免费精品观看| 91无码人妻精品一区| 国产综合精品一区二区| 亚洲一级毛片在线播放| 日韩高清成人| A级全黄试看30分钟小视频| 少妇精品在线| 毛片在线区| 国产一级二级在线观看| 亚洲无码高清视频在线观看| 亚洲欧美h| 久久毛片免费基地| 99这里只有精品在线| 波多野结衣视频网站| 亚洲成人精品在线|