基于隨機(jī)森林的乳腺腫瘤診斷研究

2014-02-13 09:58:26劉永春

電視技術(shù) 2014年15期

關(guān)鍵詞：分類

劉永春，宋弘

(四川理工學(xué)院自動(dòng)化與電子信息學(xué)院，四川自貢643000)

責(zé)任編輯:任健男

乳腺癌在女性癌癥病例中占據(jù)首位，近年來有不斷上升的趨勢(shì)，因此開展乳腺癌的診斷和防治研究具有重要的科學(xué)意義和臨床實(shí)用價(jià)值。醫(yī)學(xué)研究發(fā)現(xiàn)，乳腺腫瘤病灶組織的細(xì)胞核顯微圖像與正常組織的細(xì)胞核顯微圖像不同，臨床上，醫(yī)生主要是通過肉眼觀察圖像的特征，憑經(jīng)驗(yàn)和感性的認(rèn)識(shí)來對(duì)乳腺腫瘤進(jìn)行診斷，缺乏客觀指標(biāo)，有時(shí)會(huì)造成誤診，特別是對(duì)良性腫瘤的誤檢率較高導(dǎo)致了活檢結(jié)果為良性的病例增加，給病人帶來了不必要的痛苦和經(jīng)濟(jì)負(fù)擔(dān)。因此，利用計(jì)算機(jī)智能計(jì)算方法來幫助檢測(cè)乳腺腫瘤是否為惡性具有非常重要的意義，且已成為非常熱門的研究領(lǐng)域。計(jì)算機(jī)輔助診斷能進(jìn)行定量分析，減輕醫(yī)生診斷工作量，降低活檢數(shù)，提高診斷效率和客觀性。

計(jì)算機(jī)輔助檢測(cè)乳腺腫瘤的過程主要包括乳腺圖像預(yù)處理、乳腺圖像分割、提取乳腺圖像特征、訓(xùn)練分類器和利用分類器進(jìn)行分類識(shí)別。在機(jī)器分類學(xué)習(xí)算法中，傳統(tǒng)的分類器往往分類精度有限且容易出現(xiàn)過擬合情況，隨機(jī)森林以它自身固有的特點(diǎn)和優(yōu)良的分類效果在眾多的分類學(xué)習(xí)算法中脫穎而出，因此論文將重點(diǎn)討論基于隨機(jī)森林思想的組合分類器的設(shè)計(jì)和乳腺腫瘤的分類測(cè)試以及算法性能的分析[1-4]。

1 隨機(jī)森林模型

隨機(jī)森林算法是由Leo Breiman和Adele Cutler提出，結(jié)合了Breimans的Bootstrap aggregating思想和Ho的random subspace方法，其實(shí)質(zhì)是一個(gè)樹型分類器的集合{h(x，βk)，k=1，2，…，n}，決策樹的形成采用了隨機(jī)的方法，且樹之間是沒有關(guān)聯(lián)的。

1.1 Bootstrap法重采樣

Bootstrap的核心思想是設(shè)集合S中含有n個(gè)不同的樣本{x1，x2，…，xn}，若每次有放回地從集合S中抽取一個(gè)樣本，一共抽取n次，形成新的集合S*，則集合S*中不包含某個(gè)樣本xi(i=1，2，…，n)的概率為

雖然新集合S*的樣本總數(shù)與原集合S 的樣本總數(shù)相等(都為n)，但新集合S*中可能包含了重復(fù)的樣本(有放回抽取)，若除去重復(fù)的樣本，新集合S*中僅包含了原集合S中約1-0.368×100%=63.2%的樣本[5]。

1.2 隨機(jī)森林算法流程

隨機(jī)森林是基于Bootstrap方法重采樣，產(chǎn)生多個(gè)訓(xùn)練集。設(shè)樣本的屬性個(gè)數(shù)為M，m為大于零且小于M的整數(shù)。隨機(jī)森林算法的流程如下:

1)利用Bootstrap方法重采樣，隨機(jī)產(chǎn)生T個(gè)訓(xùn)練集S1，S2，…，ST。

2)利用每個(gè)訓(xùn)練集，生成對(duì)應(yīng)的決策樹C1，C2，…，CT;在每個(gè)非葉子節(jié)點(diǎn)(內(nèi)部節(jié)點(diǎn))上選擇屬性前，從M個(gè)屬性中隨機(jī)抽取m個(gè)屬性作為當(dāng)前節(jié)點(diǎn)的分裂屬性集，并以這m個(gè)屬性中最好的分裂方式對(duì)該節(jié)點(diǎn)進(jìn)行分裂，在整個(gè)森林的生長過程中，m的值維持不變。

3)每棵樹都完整成長，而不進(jìn)行剪枝。對(duì)于測(cè)試集樣本X，利用每個(gè)決策樹進(jìn)行測(cè)試，得到對(duì)應(yīng)的類別C1(X)，C2(X)，…，CT(X)。

4)采用投票的方法，將T個(gè)決策樹中輸出最多的類別作為測(cè)試集樣本X所屬類別[6]。

2 基于隨機(jī)森林的乳腺腫瘤診斷

2.1 模型建立

基于隨機(jī)森林的乳腺腫瘤的計(jì)算機(jī)自動(dòng)診斷算法模型的設(shè)計(jì)思路為:將乳腺腫瘤病灶組織的細(xì)胞核顯微圖像的量化特征作為模型的輸入，良性乳腺腫瘤和惡性乳腺腫瘤作為模型的輸出。用訓(xùn)練集數(shù)據(jù)進(jìn)行隨機(jī)森林分類器模型的創(chuàng)建，然后對(duì)測(cè)試集數(shù)據(jù)進(jìn)行仿真測(cè)試，最后對(duì)測(cè)試結(jié)果進(jìn)行分析。其主要功能模塊包括數(shù)據(jù)采集、隨機(jī)森林分類器創(chuàng)建、仿真測(cè)試和結(jié)果分析[7]。

乳腺腫瘤數(shù)據(jù)來源于美國威斯康辛大學(xué)醫(yī)學(xué)院建立的乳腺腫瘤病灶組織的細(xì)胞核顯微圖像數(shù)據(jù)庫。數(shù)據(jù)特征包含了細(xì)胞核圖像的10個(gè)量化特征，分別為細(xì)胞核半徑、質(zhì)地、周長、面積、光滑性、緊密度、凹陷度、凹陷點(diǎn)數(shù)、對(duì)稱度、斷裂度，這些特征與腫瘤的性質(zhì)有著密切的關(guān)系。建立算法數(shù)學(xué)模型的目的就是希望用數(shù)學(xué)模型來描述數(shù)據(jù)庫中各個(gè)量化特征與腫瘤性質(zhì)的關(guān)系，從而根據(jù)細(xì)胞核顯微圖像的量化特征診斷乳腺腫瘤是良性還是惡性的。該數(shù)據(jù)庫共包括569個(gè)病例數(shù)據(jù)，其中，良性為357例，惡性為212例。

數(shù)據(jù)采集完成后，利用隨機(jī)森林工具箱函數(shù)classRF_train()對(duì)基于訓(xùn)練集數(shù)據(jù)創(chuàng)建一個(gè)隨機(jī)森林分類器。隨機(jī)森林分類器創(chuàng)建好后，利用隨機(jī)森林工具箱函數(shù)class RF_predict()對(duì)測(cè)試集數(shù)據(jù)進(jìn)行仿真預(yù)測(cè)。最后，通過對(duì)隨機(jī)森林分類器的仿真結(jié)果進(jìn)行分析，可以得到乳腺腫瘤病例的分類準(zhǔn)確率，從而可以對(duì)該算法的可行性進(jìn)行評(píng)價(jià)[8]。

2.2 隨機(jī)森林工具箱

算法采用科羅拉多大學(xué)博爾德分校Abhishek Jaiantilal開發(fā)的randomforest-matlab開源隨機(jī)森林工具箱，主要函數(shù)有classRF_train()和classRF_predict()。其中classRF_train()的調(diào)用格式為:model=classRF_train(X，Y，ntree，mtry，extra_options)。其中X為訓(xùn)練集的輸入樣本矩陣，每一列表示一個(gè)變量(屬性)，其每一行表示一個(gè)樣本;Y為訓(xùn)練集的輸出樣本向量，其每一行表示X中對(duì)應(yīng)的樣本所屬的類別;ntree為隨機(jī)森林中決策樹的個(gè)數(shù)(默認(rèn)為500);mtry為分裂屬性集中的屬性個(gè)數(shù);extra_options為可選的參數(shù);model為創(chuàng)建好的隨機(jī)森林分類器。函數(shù)classRF_predict()的調(diào)用格式為:[Y_hat votes]=classRF_predict(X，model，extra_options)。其中，X為待預(yù)測(cè)樣本的輸入矩陣，其每一列表示一個(gè)變量，其每一行表示一個(gè)樣本;model為創(chuàng)建好的隨機(jī)森林分類器;extra_options為可選的參數(shù);Y_hat為待預(yù)測(cè)樣本對(duì)應(yīng)的所屬類別;votes為未格式化的待預(yù)測(cè)樣本輸出類別權(quán)重，即將待預(yù)測(cè)樣本預(yù)測(cè)為各個(gè)類別的決策樹個(gè)數(shù)。

3 仿真實(shí)驗(yàn)結(jié)果及分析

3.1 仿真測(cè)試結(jié)果

系統(tǒng)采用MATLAB R2013a作為仿真測(cè)試平臺(tái)，并且從569個(gè)病例數(shù)據(jù)中隨機(jī)選擇500組數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集，剩余69組作為測(cè)試數(shù)據(jù)集。某次隨機(jī)測(cè)試的結(jié)果如表1所示。

表1 隨機(jī)森林仿真測(cè)試結(jié)果

從測(cè)試結(jié)果可以看出，在測(cè)試集的69個(gè)樣本中，共有1個(gè)樣本被預(yù)測(cè)錯(cuò)誤(1個(gè)惡性乳腺腫瘤樣本被錯(cuò)分為良性乳腺腫瘤)，平均確診率為98.55%。為了比較隨機(jī)森林分類器的性能，分別用ELM、LVQ和決策樹對(duì)上述數(shù)據(jù)集進(jìn)行測(cè)試，預(yù)測(cè)準(zhǔn)確率分別為95.74%，91.33%和89.85%)，這表明采用隨機(jī)森林模型對(duì)乳腺腫瘤進(jìn)行分類識(shí)別具有較好的性能。

3.2 隨機(jī)森林分類器性能分析

為了直觀地對(duì)隨機(jī)森林分類器的性能進(jìn)行分析，可以用圖形的方式顯示預(yù)測(cè)分類結(jié)果，其中決策樹的棵樹為默認(rèn)的500棵，其運(yùn)行結(jié)果如圖1所示。

圖1 隨機(jī)森林分類器分類結(jié)果

其中，圖的橫坐標(biāo)表示在隨機(jī)森林的所有決策樹中，輸出為類別1的決策樹棵樹，縱坐標(biāo)表示輸出為類別2的決策樹棵樹。從理論上來說，若被錯(cuò)誤分類的樣本靠近圖的中心，即直線y=x與x+y=500的交點(diǎn)P(250，250)，這時(shí)在整個(gè)隨機(jī)森林中，輸出類別為1與類別2的決策樹棵樹相當(dāng)，在這種情況下，樣本被錯(cuò)分，被認(rèn)為是可以接受的，也說明這時(shí)隨機(jī)森林的泛化能力是可以接受的。反之，若被錯(cuò)誤分類的樣本偏離圖的中心，如圖2所示，則表明在整個(gè)隨機(jī)森林中，輸出為類別1與類別2的決策樹棵樹存在一定的差距，但是，樣本被錯(cuò)誤分類。這種情況認(rèn)為是不合常理的，這時(shí)的隨機(jī)森林的泛化能力較差。

圖2 隨機(jī)森林分類器分類結(jié)果

3.3 決策樹棵樹對(duì)隨機(jī)森林性能的影響

隨機(jī)森林中包含的決策樹棵樹的不同，對(duì)算法的泛化性能具有一定的影響，為了減少隨機(jī)性的影響，當(dāng)決策樹棵樹確定后，建立100個(gè)隨機(jī)森林模型，然后取其準(zhǔn)確率的平均值作為當(dāng)前決策樹棵樹下的分類準(zhǔn)確率，仿真結(jié)果如圖3所示。從圖中可以看出，對(duì)乳腺腫瘤診斷數(shù)據(jù)集來說，綜合考慮隨機(jī)森林中包含的決策樹棵樹與建模的速度，選擇隨機(jī)森林中包含50～150棵決策樹比較合理。對(duì)于其他數(shù)據(jù)集，也可以采用類似的方法進(jìn)行折中選擇決策樹的數(shù)量。

4 結(jié)束語

圖3 決策樹數(shù)量對(duì)分類器性能的影響

隨機(jī)森林以其良好的泛化性能，已被廣泛應(yīng)用到許多領(lǐng)域中。隨機(jī)森林優(yōu)點(diǎn)包括:1)隨機(jī)森林由若干決策樹的集合組成，運(yùn)算本質(zhì)上相同，因此能有效處理大量的輸入數(shù)據(jù);2)訓(xùn)練過程中，會(huì)尋找合適的屬性數(shù)量，即使數(shù)據(jù)有數(shù)以千計(jì)的特征變量數(shù)都是可以接受的;3)通過統(tǒng)計(jì)每個(gè)特征在森林中所有樹上的使用率，可間接估計(jì)特征在分類上的重要性;4)隨機(jī)森林通過計(jì)算錯(cuò)誤率來達(dá)到最佳化，對(duì)訓(xùn)練數(shù)據(jù)而產(chǎn)生的偏差可被限制，因此，對(duì)未知的數(shù)據(jù)能保持較強(qiáng)的識(shí)別力;5)當(dāng)數(shù)據(jù)有缺失時(shí)，可適當(dāng)拋棄部分決策樹使隨機(jī)森林能繼續(xù)正常分類;6)對(duì)于不平衡的分類數(shù)據(jù)集來說，它可以平衡誤差;7)隨機(jī)森林如同決策樹，對(duì)資料的分布和特征的相關(guān)性不需要有任何的前提假設(shè)。由于影響隨機(jī)森林分類性能的主要因素為森林中單棵樹的分類強(qiáng)度和樹之間的相關(guān)度，因此，在這個(gè)方面，可以對(duì)隨機(jī)森林進(jìn)一步深入研究。

[1]史忠植.神經(jīng)網(wǎng)絡(luò)[M].北京:高等教育出版社，2009.

[2]楊景兵，丁輝，張樹東.基于神經(jīng)網(wǎng)絡(luò)的圖像弱邊緣檢測(cè)方法研究[J].電視技術(shù)，2011，35(15):54-56.

[3]KIM K H，BANG S W，KIM S R.Emotion recognition system using short-term monitoring of physiological signals[J].Medical Biology Engine Computer，2004(42):419-427.

[4]洪燕珠.基于隨機(jī)森林法的慢性疲勞證候要素特征病癥的選擇[J].中醫(yī)雜志，2010，51(1):634-638.

[5]張洪強(qiáng)，劉光遠(yuǎn)，賴祥偉.隨機(jī)森林算法在肌電的重要特征選擇中的應(yīng)用[J].計(jì)算機(jī)科學(xué)，2013，40(1):200-202.

[6]孫超，周海英.面向語義的圖像中主要對(duì)象的提取方法[J].電視技術(shù)，2013，37(5):45-48.

[7]STROBL C，BOULESTEIX A L，ZEILEIS A，et al.Bias in random forest variable importance measures:illustrations，sources and a solution[J].BMC Bioinfonnatics，2007，8(25):75-80.

[8]WANG X F，ELSTON R C，ZHU X F.The meaning of interaction[J].Hum.Hered，2010，70(4):269-277.