全雪峰
(南陽醫學高等專科學校 衛生管理系,河南 南陽 473061)
基于隨機森林的乳腺癌計算機輔助診斷
全雪峰
(南陽醫學高等專科學校 衛生管理系,河南 南陽 473061)
為提高乳腺癌診斷的準確性,該文提出了一種基于隨機森林算法的乳腺癌診斷方法。用 UCI數據集提供的683例乳腺腫瘤患者進行了分類識別,5-折交叉驗證結果表明,采用新方法檢測乳癌平均準確率達到96.93%,優于概率神經網絡識別方法,說明了其在乳腺癌計算機輔助診斷方面的可行性。
隨機森林;乳腺癌;計算機輔助診斷
乳腺癌是一種危及婦女健康和生命的惡性腫瘤,是導致女性癌癥死亡的第二大原因[1]。根據世界衛生組織的報道,每年有超過120萬女性被診斷患有乳腺癌[2]。因此早期診斷、積極預防已成為迫切需要解決的問題。隨著人工智能技術的迅速發展,運用計算機輔助診斷乳腺癌已受到越來越多的關注,并取得了不少成果。劉瓊蓀[3]等提出基于徑向基神經網絡的乳腺癌分類模型,對100個檢測樣本的平均誤識率為23.5%。毛利鋒[4]等采用決策樹方法對乳腺癌進行判別,準確率達到96%以上。劉興華[5]等人利用支持向量機進行乳腺癌識別,最佳平均分類準確率達到96.24%。徐勝舟[6]等人提出結合遺傳算法的支持向量機乳腺癌診斷新方法,AUC值達到了0.908。唐思源[7]等人利用支持向量機對癌細胞的識別,取得了較好的正確識別率。
隨機森林是一種比較新的機器學習模型,它在沒有顯著提高運算量的前提下提高了預測精度。黃衍[8]等人指出,在多分類問題上,隨機森林的泛化能力明顯優于支持向量機。文獻[9-10]指出支持向量機比BP神經網絡具有更高的泛化能力。目前,隨機森林已被應用于多個領域[11-12]。模型本文提出了一種基于隨機森林的乳腺癌識別方法,并使用UCI數據集驗證模型的性能,結果顯示該方法具有較好的分類準確率。
隨機森林是一種集成樹形分類器[13],由多個決策樹(h(x,θi), i=1,2,…)組成。其中h(x,θi)是用分類回歸樹CART算法構建的沒有剪枝的分類決策樹,θi是獨立同分布的隨機向量,決定單棵樹的生長速度。在給定輸入向量 x的情況下,每個決策樹分類器通過投票來決定最優分類結果。
隨機森林一般構造過程如下:
(1)利用自助法(bootstrap)重抽樣技術從原始樣本集中有放回地隨機抽取 k個新的自助樣本集,以此形成一個分類器。
(2)每個自助樣本集生成單棵決策樹。在樹的每個節點處M個特征中隨機抽取m(m (3)重復步驟(2),構建k棵決策樹,形成隨機森林。 (4)根據每棵決策樹的投票結果,選出票數最多的一個分類。 節點不純度的度量方法是Gini準則[14]。設P(ωj)是節點n上屬于ωj類樣本個數占訓練樣本總數的頻率,則Gini不純度表示為: 2.1 數據選取 本文所用數據來自UCI數據集[15]。該數據集是美國威斯康星州醫院用針吸細胞學方法所得到的乳腺癌樣本,共有699個。每一樣本具有9個特征,分別為:腫塊密度(Clump Thickness)、細胞大小均勻性(Uniformity of Cell Size)、細胞形狀均勻性(Uniformity of Cell Shape)、邊界粘連(Marginal Adhesion)、單個上皮細胞大小(Single Epithelial Cell Size)、裸核(Bare Nuclei)、微受激染色質(Bland Chromatin)、正常核(Normal Nucleoli)、有絲分裂(Mitoses)。所有特征的屬性值都是1~10的整數,1代表正常狀態,10代表極不正常狀態,值越大表示該患者乳腺腫瘤惡性的可能性就越大。整個數據集中,有少量屬性值缺省,以“?”表示。考慮到實驗數據的全面性,本文剔除了含有缺省屬性的病例,剩下病例中確診為良性的有444例,確診為乳腺癌惡性的有239例,共計683個樣本。 2.2 確定訓練集與測試集 實驗中采用5折交叉驗證法對數據集進行分組和測試。即將數據隨機分為容量大致相同的5組,每一組依次輪流作為測試集,其余部分作為訓練集。對每次分組得到的訓練集和測試集,用隨機森林進行訓練和測試。 2.3 分類器設計 在得到訓練集和測試集之后就可以利用分類器進行識別了。本文采用 Matlab2013a中隨機森林工具箱函數TreeBagger()創建一個隨機森林分類器,利用predict()函數對測試集數據進行預測。 3.1 決策樹個數對分類結果的影響 在隨機森林模型中,決策樹個數k影響著分類器的性能。當k值較小時,隨機森林的分類誤差大、性能也比較差。但是構建隨機森林的復雜度與 k值成正比,若 k值過大,則需要花費較多的時間來構建隨機森林。不同決策樹個數與模型誤差的關系如圖1所示。 圖1 決策樹個數與模型誤差關系 由圖 1可以看出,當決策樹個數大概大于 300以后,模型誤差趨于穩定,因此本文將模型中決策樹個數確定為300,以此來達到最優模型。 3.2 數據歸一化對算法性能的影響 為研究數據歸一化處理對算法性能的影響,使用相同的訓練集和測試集,分別在歸一化到[-1,1]和未歸一化情況下進行算法測試,結果如表1所示。 表1 數據歸一化與否對模型性能的影響 由表1可以看出,數據歸一化后的分類準確率低于未歸一化的分類準確率。這說明,數據是否需要歸一化處理,并非一個必要條件,需根據具體情況選擇。 3.3 5-折交叉驗證結果 取隨機森林模型中決策樹個數為 300,不進行數據歸一化處理,用5-折交叉驗證對剔除含有缺省屬性后的683個樣本進行測試。由于每次所選訓練集和測試集均不相同,因而其結果也不相同。某輪5-折交叉驗證結果如表2所示。 表2 5-折交叉驗證結果 由表2可以看出,基于隨機森林算法的乳腺癌分類模型平均分類準確率達到了96.93%,說明分類準確率較高。 3.4 不同算法比較 為了與其他算法進行對比分析,本文使用相同的訓練樣本和測試樣本,采用5-折交叉驗證方法,分別與文獻[5]所提支持向量機算法以及文獻[16]所提概率神經網絡算法做了性能對比,某輪5-折交叉驗證結果如表3所示。 表3 不同算法比較 由表3可以看出,本文算法的平均準確率與支持向量機的平均準確率相當,但優于概率神經網絡算法。這表明隨機森林算法同支持向量機算法一樣,不僅可以較好地識別出乳腺癌患者,還可以較好地識別出非乳腺癌病例,從而可以減少人為原因造成的漏診和誤診幾率,給病人帶來福音。 本文將隨機森林算法用于乳腺腫瘤的良性和惡性識別。從實驗結果可以看出,該算法能較好的區分開良性腫瘤和惡性腫瘤,從而為乳腺癌的計算機輔助自動診斷提供了一種新的思路。 [1]E.C.Fear, P.M.Meaney, and M.A.Stuchly, “Microwaves for breast cancer detection”, IEEE potentials, vol.22, pp.12-18, February-March 2003. [2]Akay M F.Support vector machines combined with feature selection for breast cancer diagnosis[J].Expert systems with applications, 2009, 36(2): 3240-3247. [3]劉瓊蓀, 何離慶.基于人工神經網絡的乳腺癌診斷模型[J].重慶大學學報(自然科學版), 2003, 26(4): 70-72. [4]毛利鋒, 瞿海斌.一種基于決策樹的乳腺癌計算機輔助診斷新方法[J].江南大學學報(自然科學版), 2004, 3(3): 227-229. [5]劉興華, 蔡從中, 袁前飛等.基于支持向量機的乳腺癌輔助診斷[J].重慶大學學報(自然科學版), 2007, 30(6): 140-144. [6]徐勝舟, 裴承丹.基于遺傳算法和支持向量機的乳腺腫塊識別[J].計算機仿真, 2015, 32(2): 432-435, 440. [7]唐思源, 柳原, 崔媛.利用支持向量機對癌細胞的識別[J].軟件, 2014, 35(3): 170-171. [8]黃衍, 查偉雄.隨機森林與支持向量機分類性能比較[J].軟件, 2012, 33(6): 107-110. [9]王宏濤, 孫劍偉.基于BP神經網絡和SVM的分類方法研究[J].軟件, 2015, 36(11): 96-99. [10]肖曉, 徐啟華.基于SVM與BP的分類與回歸比較研究[J].新型工業化, 2014, 4(5): 48-53. [11]全雪峰.基于奇異熵和隨機森林的人臉識別[J].軟件, 2016, 37(02): 35-38. [12]王浩.基于隨機森林的網絡攻擊檢測方法[J].軟件, 2016, (11): 60-63. [13]Breiman L.Random forests[J].Machine learning, 2001, 45(1): 5-32. [14]張洪強, 劉光遠, 賴祥偉等.隨機森林算法在肌電的重要特征選擇中的應用[J].計算機科學, 2013, 40(1): 200-202. [15]William H.Wolberg, UCI Machine Learning Repository[DB/OL].(2016-4-24).http: //archive.ics.uci.edu/ml. [16]程智輝, 陳將宏.基于概率神經網絡的乳腺癌計算機輔助診斷[J].計算機仿真, 2012, 29(9): 166-169. Computer-Aided Diagnosis of Breast Cancer Based on Random Forest QUAN Xue-feng In order to improve the accuracy of diagnosis of breast cancer, this paper proposes a method for diagnosis of breast cancer based on random forest algorithm.With 683 cases of breast cancer patients from UCI data sets for identification and classification, 5-fold cross validation results show that average accuracy rate reached 96.93% by this new method for the detection of breast cancer.This is superior to probabilistic neural network recognition method, indicating the feasibility of computer-aided breast cancer diagnosis. Random forest; Breast cancer; Computer-aided diagnosis TP391 A 10.3969/j.issn.1003-6970.2017.03.012 河南省醫學教育研究課題(Wjlx2015133) 全雪峰(1969-),男,副教授,主要研究方向為智能信息處理。 本文著錄格式:全雪峰.基于隨機森林的乳腺癌計算機輔助診斷[J].軟件,2017,38(3):57-59
2 算法設計
3 實驗結果與分析




4 結束語
(Department of Health Management, Nanyang Medical College, Nanyang 473061, China)