999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進的隨機森林算法在乳腺腫瘤診斷中的應用

2016-05-09 07:17:56單文英
計算機應用與軟件 2016年4期
關鍵詞:分類

王 平 單文英

改進的隨機森林算法在乳腺腫瘤診斷中的應用

王 平 單文英

(南昌大學信息工程學院 江西 南昌 330031)

為了解決乳腺腫瘤診斷中誤差代價敏感的不平衡分類問題,提出一種改進的隨機森林算法的乳腺腫瘤診斷模型。首先,在隨機森林算法的基礎上,將良惡乳腺腫瘤樣本的診斷性能分開考慮,利用隨機森林的泛化誤差上界相關因素推導出ROC曲線的查全率(TPR)和誤警率(FPR)的上界值。給出針對特定類別優化分類性能的基準,繪制出不同決策閾值下的TPR和FPR值的ROC曲線,調整平均關聯度,再次訓練,依據ROC曲線性能,確定最優平均關聯度的診斷模型。最后,將該改進的隨機森林算法與傳統方法的診斷性能進行對比。實驗結果證明,提出的方法模型在保證整體的診斷性能的前提下,對于提高惡性腫瘤的識別能力具有可行性和有效性。

乳腺腫瘤 診斷 代價敏感 不平衡分類 隨機森林 ROC曲線

0 引 言

近30年來,我國乳腺癌的發病率每年以3%的速度增長,而且發病的群體呈年輕化,形勢不容樂觀[1]。其中,乳腺癌就是婦女常見的、發病率最高的、危害健康最大的一種乳腺腫瘤。然而,提高惡性乳腺腫瘤的治愈率關鍵在于早期診斷與治療。近年來,利用數據挖掘技術輔助醫療診斷的研究正在發展。因此,對于數據挖掘方法的乳腺腫瘤診斷研究也就應運而生[2]。

目前,已經有學者將決策樹[3]、神經網絡[4]和支持向量機[5]等方法應用于乳腺腫瘤的診斷研究中。這些方法主要集中在研究如何提高整體的診斷率,但是惡性腫瘤樣本總是相對少數的,提高整體的診斷率不一定是最好的方法模型,容易出現過擬合,分類不平衡現象。一旦建立好了模型,很難再調整分類器的性能,更無法考慮誤差代價敏感問題。針對代價敏感問題,阮曉宏等人[6]提出了一種基于異構代價敏感決策樹分類算法,考慮了不同代價在屬性分裂中的作用,提出代價敏感的剪枝方法,解決信息特征值過小而忽視的屬性帶來的誤分類代價問題。但是,單一決策樹的本身缺陷,診斷率還是比較低,穩定性差。Wang等人[7]提出了一種重采樣的方法改變原訓練樣本的分布,降低分類的不平衡性。ThaiNghe等人[8]以支持向量機作為基分類器,賦予稀有樣本更大的權重,引入代價敏感思想優化分類器的性能,降低分類的不平衡性,但是泛化能力弱。

很明顯上述的傳統方法及其改進方法都是針對單一分類器,然而,集成分類器在很多情況下要比單一分類器的效果更好。隨機森林,作為一種由多個決策樹組成的集成分類器,它的每棵決策樹實質上是通過引入了Bagging思想隨機化訓練樣本構建出的一個的弱分類器。但是,當多個弱分類器組合在一起形成隨機“森林”時分類效果非常驚人。具體表現為:高效率,在短時間內可以并行地處理大量的待測樣本;良好的魯棒性,無需特征選擇就可以得到較高的確診率,適合高維小樣本數據;不容易出現過擬合;良好的推廣和泛化能力等優勢[9,10]。近年來,隨機森林在網頁分類、故障診斷、入侵檢測等領域都得到了應用,已經成為數據挖掘和機器學習的熱點[11]。但是,隨機森林算法也存在一些缺陷,沒有針對誤差代價不平衡問題進行考慮,其簡單的相對多數投票法有個致命的缺陷就是在兩類的投票結果非常相近時,誤診的可能性比較大。對此,Chen等人[12]提出了平衡隨機森林和加權隨機森林兩種方法解決不平衡分類問題。平衡隨機森林采用上采樣法,增加稀有類的數據,使得訓練數據達到平衡,這種改變正負類樣本的分布方式必將影響到“森林”中樹的結構。而加權隨機森林方法是在平衡隨機森林的基礎上得到的,為稀有類增加權重,該方法對噪聲數據較敏感。以上對隨機森林的改進方法在一定程度上具有很好的分類效果,無疑也增加了算法的復雜度,有違隨機森林簡化問題的初衷。如何評價某種分類模型的性能,簡單地通過正確率和錯誤率已經不足夠評價不平衡分類問題,對于具體問題還要具體分析。由于ROC曲線評價法具有簡單、直觀、對于分類的界限值不固定、可以完成不同實驗在同一個坐標下的比較等優點。Joshi[13]等人指出針對不同類別的誤差代價不同,使用ROC曲線評價分類器的性能更適合。倪俊[14]等人提出了使用ROC曲線分析常用的乳腺癌診斷方法性能。所以,ROC曲線也叫受試者工作特性曲線,是醫學診斷性能評價的重要指標。然而,ROC曲線是由查全率(TPR)和誤警率(FPR)構成的曲線,故改進隨機森林的乳腺腫瘤診斷模型的關鍵是在閾值點,盡量增大TPR,減小FPR的值。

有鑒于此,對于威斯康辛大學醫學院整理的乳腺腫瘤病灶組織的細胞核顯微圖像的量化特征數據集,其樣本數據相對不平衡,但是如果將惡性腫瘤樣本錯誤分為良性腫瘤樣本造成的誤差代價遠遠高于將良性腫瘤樣本錯誤分為惡性腫瘤樣本的誤差代價。故針對乳腺腫瘤誤差代價敏感問題,提出了一種改進的隨機森林算法的乳腺腫瘤診斷模型。首先,在CART算法、Bagging算法的基礎上,產生了隨機森林算法,分析隨機森林的決策樹棵樹和隨機分裂屬性的個數對診斷性能的影響。其次,考慮單分類器的分類性能及他們之間的關聯度對特定類別的識別影響。對隨機森林的投票評價性能的指標進行了推導及改進,簡化算法的復雜度,達到參數可調,并給出優化分類器性能的調整基準,提高對惡性腫瘤的識別能力。

1 Bagging算法

1.1 CART算法

CART模型最早是由Breiman等人提出的,采用遞歸的方式將輸入空間分割成矩形,使用Gini指標[15]最小的屬性作為分裂節點,最終以二叉樹的形式展現。這種方法構建的決策樹清晰、直觀、易于理解,而且大大減少了建模的時間。但是,由于CART樹在遞歸的過程中,需要對其進行剪枝,無疑增加了算法的復雜度,由于過度分割輸入空間,易出現過擬合現象,導致分類器具有泛化能力弱,穩定性差等缺陷。Breiman指出CART算法由于其不穩定性,通過集成得到的集成分類器可以顯著提高分類器的性能。

1.2 Bagging算法

Bagging的算法流程如下:

1) 采用Bootstrap方法進行重采樣,隨機產生k個訓練集S1,S2,…,Sk,這里構造不同的訓練集目的是為了增加分類模型間的差異,提高組合分類模型的外推預測能力。

2) 利用每個訓練集并行地生成對應的CART算法的決策樹C1,C2,…,Ck。

3) 利用測試集樣本X對每個決策樹進行測試,得到對應分類結果C1(X),C2(X),…,Ck(X)。

4) 采用相對多數投票法,根據k個決策樹輸出的類別結果,由決策樹棵數多的類別作為測試集樣本X所屬的分類結果。

Bagging算法基本思路如圖1所示。

圖1 Bagging算法基本思路

2 隨機森林算法(RFA)

隨機森林算法是由Breiman提出的一種統計學習理論[17]。實質上是一個包含多個決策樹{h(X,θk),k=1,2,…,K}的組合分類器,其中{θk}是隨機向量,服從獨立同分布的特性,決定了決策樹的形式;K表示隨機森林中決策樹棵樹。它主要利用Bagging方法產生Bootstrap訓練數據集,利用CART算法產生無剪枝的決策樹。最終采用簡單的相對多數的投票方式,根據決策票數H(x)多的類別作為最終樣本所屬類別。

(1)

2.1 隨機森林的算法流程

在Bagging算法基礎上得到的隨機森林算法的具體流程如下:

1) 原訓練集中有n個樣本,采用Bootstrap方法進行重采樣,隨機產生k個訓練集S1,S2,…,Sk。

2) 對于每個訓練樣本集,通過如下過程生成不剪枝CART樹:

(1) 假設訓練樣本的屬性個數為M,mtry為大于零且小于M的整數,從M個屬性中隨機抽取mtry個屬性作為當前節點的分裂屬性集,在森林生成過程中,保持mtry不變。

(2) 根據Gini指標從mtry個屬性中選出最好的分裂方式對該節點進行分裂。

(3) 每棵樹都完全成長,無剪枝的過程。最后根據每個訓練集生成的CART樹分別為C1,C2,…,Ck。

3) 利用測試集樣本X對每個決策樹進行測試,得到對應分類結果C1(X),C2(X),…,Ck(X)。

4) 采用相對多數投票法,根據k個決策樹輸出的類別結果,由決策樹棵數多的類別作為測試集樣本X所屬的分類結果。

2.2 隨機森林的收斂性

為構造k棵決策樹,則由相互獨立且同分布的隨機向量C1,C2,…,Ck構成的分類器為h(x,Ci),簡記為hi(x)。假設輸入向量為x,輸出類別為y,定義樣本點為(x,y)的余量函數為:

(2)

式中I(·)為示性函數,當函數I(·)的括號中等式成立時,其值為1,否則為0;avk表示取平均值。

此余量函數用于評估平均正確分類數超過平均錯誤分類的程度,該值越大,分類結果的可靠性越強。

設隨機森林的泛化誤差為PE*[17]:

PE*=Px,y(mg(x,y)<0)

(3)

在隨機森林中,如果決策樹的個數足夠多時,式(2)遵循強大數定理。

定義1 在隨機森林中,隨著決策樹的數目增加,所有序列為θ1,θ2,…,θk,PE*幾乎處處收斂于隨機森林的邊界函數:

(4)

定義1表明隨著決策樹的增加,隨機森林不會產生過擬合現象。但是可能會產生適度范圍內的泛化誤差。隨機森林中決策樹的數量是個可調的參數,對于隨機森林分類器的性能具有一定的影響。如果建立的決策樹的個數不足,則模型得不到充分訓練,分類器性能就會下降;如果建立的決策樹個數過多,不僅增加了計算量和訓練時間,而且達不到提高分類性能的目的。

定義2 基分類器的邊界函數為:

(5)

定義3 隨機森林的泛化誤差PE*范圍:

(6)

Eθvar(θ)≤Eθ(Ex,yrmg(θ,x,y))2-s2≤1-s2

(7)

由定義3可得降低泛化誤差的上界的關鍵是提高樹的分類性能和降低樹之間的相關度,進而提高了隨機森林的分類性能。

2.3 改進的隨機森林算法(IRFA)

Breiman提出的隨機森林算法的泛化誤差范圍是假設決策閾值固定,分類誤差代價相同的情況下得出的,并沒有對分類誤差代價不同的情況進行分析。針對二分類問題,可以將正負樣本分開對待,在隨機森林算法的基礎上,優化分類器性能,改進隨機森林算法。討論不同決策閾值下,樹之間的平均相關度,樹的分類性能s對不同誤差代價區域的分類性能的影響,并給出改進隨機森林算法的基準。

對于二分類問題的性能評價指標有如表1的分類情況。

表1 二分類情況表

根據表1可定義如下式子評估分類器性能。

(8)

其中,Accuracy表示整體分類的準確率;TPR表示所有1類樣本中正確分類率,簡稱為查全率;FPR表示所有0類樣本中錯誤分類率,簡稱為誤警率。

針對二分類的余量函數mg(x,y)可以表示為:

(9)

則在此改進的隨機森林算法中,當輸入樣本為x時,不僅僅通過簡單的相對多數票數的H(x)進行投票,而且通過如下評分函數進行控制評估多個投票結果:

(10)

其中,K為決策樹的總數目,為了防止評分結果相同,通常K取奇數。hk(x)為第k個決策樹所投票的類別。顯然,評分函數的值域為[-1,1],且直接與上述隨機森林的余量函數有關。將正負樣本分開對待,當樣本類屬于1類,即y=1時,評分函數值和邊緣數值相等,即score(x)=mg(x,y);當樣本類屬于0類,即y=0時,評分函數值和邊緣數值相反,即score(x)=-mg(x,y)。評分函數是根據中心極限原理,在一定條件可以漸近服從正態分布。如圖2表示在不同類別下的評分函數圖。

圖2 不同類別的評分函數

如圖2所示,根據評分函數的分布,正負樣本分開考慮后的u0和u1將該評分曲線分為三個區域。設置一個閾值t,將評分曲線分成兩部分,最大化TPR的同時還要考慮相對FPR的最小化,找到合適的閾值點是實驗的關鍵。隨著閾值的變化,通過掃描,將不同閾值t下分類器的TPR(縱坐標)和FPR(橫坐標)的值映射到隨機森林的ROC曲線上(如圖3所示)。

圖3 ROC曲線的性能

基于評分函數與邊界函數的關系,這里設不同類別的分類性能分別為s0和s1。

(11)

其中,ui為類i的評分函數的期望;ni為類i的樣本個數。由上式可知,這里將分類器的整體分類的性能s設為不同類別的分類性能的加權平均。

(12)

則針對正負樣本有:

(13)

(14)

在構建ROC曲線的過程中,在給定閾值t下,TPR表示所有1類樣本的正確率,即1類評分函數構成的評分分布曲線中超過閾值t的區域;FPR表示所有0類樣本的錯誤率,即0類評分函數構成的評分分布曲線中超過閾值t的區域(如圖2所示的陰影部分)。分別可表示為:

FPR=P(Z0≥t) TPR=P(Z1≥t)

(15)

其中,Z0和Z1分別表示0類和1類評分分布函數的變量。

利用單邊切比雪夫不等式來設置式(15)中FPR和TPR的上界值。單邊切比雪夫不等式為:

(16)

其中,u、σ2分別為變量Z的均值和方差。假設t=k+u,則式(16)可表示為:

(17)

使用1同時減去式(17)的兩邊,得t

(18)

當t∈[u0,1]由式(11)、式(12)、式(15)和式(17)可推得:

(19)

在評分函數中,u0和u1將區間[-1,1]分為三個區間[-1,u0]、[u0,u1]和[u1,1]這3個子區間,根據式(12)、式(15)和式(17)設定知閾值t所屬的區間是不同,則對應區間[-1,-s0]、[-s0,s1]和[s1,1]中FPR和TPR的上界和下界。如表2所示。

表2 ROC曲線的三個區域內FPR和TPR界限

3 構建IRFA的乳腺腫瘤診斷模型

乳腺腫瘤的診斷問題也就是一個二分類問題。本文的乳腺腫瘤診斷的數據集來源于威斯康辛大學醫學院整理的量化特征數據集,包含569個病例,其中,良性乳腺腫瘤357例,惡性乳腺腫瘤212例。數據集中包含乳腺腫瘤的細胞核圖像的10個屬性(細胞核半徑、質地、周長、面積、光滑性、緊密度、凹陷度、凹陷點數、對稱度、斷裂度)。而且每個屬性包含3個屬性值(平均值、標準差和最壞值),共有30個字段。另外,還有1個字段為病例編號,最后1個字段是確診分類結果,其中數字“0”為良性,數字“1”為惡性。該數據庫中各個量化特征與腫瘤性質都具有密切的聯系,從而根據細胞核顯微圖像的量化特征利用數據挖掘的技術可以智能的診斷乳腺腫瘤是良性還是惡性的。

該實驗的硬件環境是Windows7系統,i5-3230M CPU, 4 GB RAM,500 GB硬盤,算法運行的軟件環境為MATLAB 2010版本。根據以上推導得分類決策的評分函數為:

(20)

由評分函數分布圖(見圖2)和上節推導過程可知,如果單分類器的分類性能一定時,調整相應類別的平均相關度時,可以改變評分函數的分布,進而改變FPR和TPR的上界值。這里給出不同區域的平均關聯度的調整基準(如表3所示):

表3 不同區域的平均關聯度的調整基準

基于改進的隨機森林算法實現步驟:

Step1 采集數據。采用Bootstrap方法隨機化乳腺腫瘤訓練集S1,S2,…,Sk,將袋外數據(OOB)作為測試集T。

Step2 模型訓練。設置參數:決策樹棵樹k,隨機選擇屬性的個數mtry。

① 訓練集Sk含有M個屬性,隨機抽取mtry個屬性作為當前節點的分裂屬性集,形成新的訓練集Sn。② 利用CART算法訓練數據集Sn構建決策樹,完全成長不進行剪枝。

Step3 循環k次以上Step1和Step2步驟,構建k棵決策樹,得到一個隨機森林模型。

Step4 預測仿真。① 對測試集T每個樣本X進行預測仿真,k棵決策樹得到k個決策類別結果。② 計算評分函數score,根據評分結果得到最后樣本X所屬類別。

Step5 建立100個隨機森林模型,計算當前設置參數的隨機森林模型的平均值Accuracy、FPR和TPR的值,確定最佳k和mtry的值。

Step6 通過調用[tpr, fpr, t]=ROC(score, target, Lp, Ln)函數,分析不同閾值t的分類器的性能影響,繪制ROC曲線。根據仿真實驗對比表3的參考基準,調整不同區域的平均關聯度,再次重復以上步驟。

為了驗證改進算法的可行性,將實驗分為兩組:第一組是UCI標準數據集上的實驗;第二組是詳細分析IRFA在威斯康辛大學醫學院整理的乳腺癌數據集上的實驗應用。

4 實驗結果及分析

4.1 UCI數據集的實驗分析

為了測試改進的算法的性能,首先選擇UCI帶標簽的二類數據集進行實驗,而且選擇樣本數分布嚴重不平衡和相對不平衡各兩組數據集。四組數據集分布如表4所示。

表4 選擇的UCI數據集樣本分布

將上述數據集運用于RFA和IRFA的模型中進行驗證,最終得到的ROC曲線結果如圖4所示。

由圖4的實驗結果可得,IRFA相對RFA模型的分類性能明顯有所提高。樣本分布的不平衡性越高,可提高的幅度也就越大,雖然在負類樣本與正類樣本的不平衡比較低的情況下,TPR的值提高幅度較小,穩定性強,但是在靠近左上角的閾值點處,IRFA算法的TPR值都得到了很大提高,這也就為最大化正類樣本的識別率提供了突破點。

圖4 UCI數據集在IRFA和RFA模型中的ROC曲線

4.2 乳腺腫瘤數據集的應用實驗結果詳細分析

通過在UCI數據集上的驗證,對此詳細分析改進的隨機森林算法IRFA在本文的乳腺腫瘤數據集上的實驗,首先,分析建立決策樹的數目。這里設置決策樹的數目分別為51、75、101、151、201、251、301,得到不同的隨機森林模型。為了減少隨機性對隨機森林的性能的影響,針對不同決策樹棵樹,建立100個隨機森林模型,然后取其平均值,作為當前的分類結果。經過多次訓練,得到不同決策樹數目下的隨機森林模型的整體分類的準確率(Accuracy)、查全率(TPR)和誤警率(FPR)。記錄的實驗結果如表5所示。

表5 決策樹數目對隨機森林分類的性能影響

由表5可得,當決策樹小于201時,隨著決策樹棵樹的增加,Accuracy和TPR的值也在增大,而FPR的值在降低。當決策樹大于201時,隨著決策樹的數目增加,Accuracy的值保持不變,但是TPR和FPR的值一直在變化,當決策樹等于201時,Accuracy和TPR的值達到最大,而且FPR值也相對較小。很明顯,在隨機森林的訓練中,這里選擇決策樹的數目為201棵。

隨機選擇屬性數量的分析:對于“森林”中的CART樹,一個重要特點是通過在每個分裂節點隨機選擇屬性的方式引入了隨機性,從M個屬性中隨機抽取mtry個屬性作為當前節點的分裂屬性集。為了評價分裂屬性集的屬性個數對分類性能的影響,在隨機森林中的決策樹數目為201時,設置不同的mtry值分別為2、3、4、5、6進行訓練,構建隨機森林模型。表6記錄了不同mtry所得到的Accuracy、TPR和FPR的值。

表6 分裂屬性的個數mtry對分類性能影響

由表6可得,mtry=5時,Accuracy和TPR的值都達到最大,故這里選取mtry為5。

ROC曲線的分析:根據以上得到的結果,選擇決策樹數目為201,mtry為5。針對本文的乳腺腫瘤的診斷要求,改進隨機森林算法,由評分函數閾值的取值范圍為[-1,1],分別將決策閾值設置為1、0.8、0.7、0.5、0、-0.5、-0.8、-1。在不同閾值下,對隨機森林進行訓練,得出分類結果的Accuracy、TPR和FPR的值,并將得到的TPR和FPR的值繪制成ROC曲線(如圖5所示)。

圖5 ROC曲線

由圖5所得的八個點從左到右分別表示在決策閾值t為1、0.8、0.7、0.5、0、-0.5、-0.8、-1的情況下,所得的TPR和FPR的值。隨著決策閾值t的減小,TPR和FPR的值都在增大,當t=0.5之后,TPR的值相差不大,幾乎可以認為保持不變,但是FPR卻一直在增加。根據ROC曲線原理,越靠近左上角的點,分類性能越好,此時也就是最好的閾值點。故根據實驗結果應選擇t=0.5。此時,在滿足TPR最大時,FPR相對也比較小。

此時,RFA選擇的決策樹數目為201,mtry為5,決策閾值t為0.5。根據表3的基準調整RFA相應的平均關聯度,得到的改進隨機森林算法(IRFA)用于再次訓練。在同樣條件下,利用單一分類器(CART決策樹)、Bagging算法和隨機森林(RFA)算法訓練乳腺腫瘤數據集,得到的方法模型進行比較分析,統計Accuracy、FPR和TPR的值(如表7所示)。

表7 不同乳腺腫瘤的診斷方法的性能比較

根據表7記錄的實驗結果可得,隨機森林算法相對上述的單一分類器(CART決策樹)及Bagging算法的診斷效果明顯要更好。在RFA的基礎上,IRFA整體診斷精度也略有提高,雖然提高的幅度不大,但是相對RFA,IRFA得到了較高的TPR值,而且提高了2.853%。實驗表明,在保證整體診斷精度的前提下,IRFA明顯提高了對惡性腫瘤的診斷精度。最后,為了更加直觀地說明IRFA在RFA的基礎上具有更好的診斷性能,將兩種方法的ROC曲線繪制在一個坐標進行比較(如圖6所示)。

圖6 IRFA與RFA的ROC曲線

5 結 語

本文綜合考慮隨機森林的決策樹棵樹和隨機分裂屬性的個數對乳腺腫瘤的診斷性能的影響,在隨機森林的基礎上,將正負類樣本分開考慮,提出了改進的隨機森林算法的乳腺腫瘤診斷模型。增加了決策閾值的參數,根據隨機森林的泛化誤差推導出了FPR和TPR的上界調整基準,繪制ROC曲線,進一步優化隨機森林對惡性腫瘤的診斷性能。仿真結果證明了該方法模型相對隨機森林算法有所改進,最重要的是根據需要,參數可調。在保證整體的診斷性能的前提下,針對代價敏感問題,可以優化特定類別樣本的識別性能,為細胞核顯微圖像診斷識別乳腺腫瘤提供重要參考價值。

[1] Xu Guangwei,Hu Yongsheng,Kan Xiu.The preliminary report of breast cancer screening for 100000 women in China[J].China Cancer,2010,19(9):565-568.

[2] Chaurasia V,Pal S.Data Mining Techniques:To Predict and Resolve Breast Cancer Survivability[J].International Journal of Computer Science and Mobile Computing,2014,3(1):10-22.

[3] 毛利鋒,瞿海斌.一種基于決策樹的乳腺癌計算機輔助診斷新方法[J].江南大學學報:自然科學版,2004,3(3):227-229.

[4] 金強,髙普中.人工神經網絡在乳腺癌診斷中的應用[J].計算機仿真,2011,28(6):235-238.

[5] 章永來,史海波,尚文利,等.面向乳腺癌輔助診斷的改進支持向量機方法[J].計算機應用研究,2013,30(8):2373-2376.

[6] 阮曉宏,黃小猛,袁鼎榮,等.基于異構代價敏感決策樹的分類器算法[J].計算機科學,2013,40(11A):140-142.

[7] Wang T,Qin Z,Zhang S,et al.Cost-sensitive classifycation with inadequate labeled data[J].Information Systems,2012,37(5):508-516.

[8] ThaiNghe N,Gantner Z,SchmidtThieme L.Cost-sensitive learning methods for imbalanced data[C]//Neural Networks (IJCNN),The 2010 International Joint Conference on.IEEE,2010:1-8.

[9] 方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述[J].統計與信息論壇,2012,26(3):32-38.

[10] Kulkarni V Y,Sinha P K.Random Forest Classifiers:A Survey and Future Research Directions[J].Int Journal of Advanced Computing,2013,36(1):1144-1153.

[11] Verikas A,Gelzinis A,Bacauskiene M.Mining data with random forests:A survey and results of new tests[J].Pattern Recognition,2011,44(2):330-349.

[12] Chen C,Liaw A,Breiman L.Using random forest to learn imbalanced data[R].University of California,Berkeley,2004.

[13] Joshi M V.On evaluating performance of classifiers for rare classes[C]//Data Mining,2002.ICDM 2003.Procedings.2002 IEEE International Conference on.IEEE,2002:641-644.

[14] 倪俊,顧海峰,張杏梅,等.乳腺癌常用診斷方法的ROC曲線分析[J].中華腫瘤防治雜志,2012,19(13):1025-1028.

[15] 宋麗.基于決策樹的組合分類器的研究[D].西安:西安電子科技大學,2012.

[16] Breiman L.Bagging predictors[J].Machine learning,1996,24(2):123-140.

[17] Breiman L.Random forests[J].Machine learning,2001,45(1):5-32.

APPLICATION OF IMPROVED RANDOM FOREST ALGORITHM IN BREAST TUMOUR DIAGNOSIS

Wang Ping Shan Wenying

(SchoolofInformationEngineering,NanchangUniversity,Nanchang330031,Jiangxi,China)

To solve the problem of cost-sensitive imbalanced classification in breast tumour diagnosis, the paper proposes a breast tumour diagnosis model using the improved random forest algorithm. First, on the basis of random forest algorithm, we separately dealt with the diagnosis performances of benign and malignant breast tumour samples, made use of the corresponding factor of upper bound of random forests generalisation errors to deduce the upper bounds of recall rate (or TPR) and false alarm rate (or FPR) of ROC curve, then we gave the benchmark of optimising classification performance for specific categories, and drew the ROC curves with TPR and FPR values gained in different decision thresholds. After that we adjusted the average correlation and train the model again, and according to ROC curve performance we determined the diagnosis model with optimal average correlation. Finally, we compared the improved random forest algorithm with traditional methods in terms of diagnosis performance. Experimental results showed that the proposed model has the feasibility and effectiveness in improving the recognition ability of malignant tumour while keeping up with the overall diagnostic accuracy.

Breast tumour Diagnosis Cost-sensitive Imbalanced classification Random forest ROC curve

2014-09-14。江西省教育廳2014年度科學技術研究項目(GJJ14137)。王平,教授,主研領域:模式識別,圖像處理。單文英,碩士生。

TP391

A

10.3969/j.issn.1000-386x.2016.04.059

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 久久永久精品免费视频| 宅男噜噜噜66国产在线观看| 欧美综合区自拍亚洲综合天堂 | 久久国产精品国产自线拍| 国产亚洲精品97在线观看| 免费Aⅴ片在线观看蜜芽Tⅴ | 日本免费a视频| 亚洲免费黄色网| 亚洲无码37.| 丁香五月激情图片| 国产乱人免费视频| 久久精品嫩草研究院| 亚洲,国产,日韩,综合一区 | 二级特黄绝大片免费视频大片| 免费黄色国产视频| 国产色婷婷| 老司机久久99久久精品播放 | 91原创视频在线| 亚洲国产在一区二区三区| 一级香蕉人体视频| 国产一区二区免费播放| 久青草网站| 国产白浆一区二区三区视频在线| 国产亚洲视频免费播放| 女人18毛片久久| 国产精品一区二区无码免费看片| 中文字幕欧美日韩高清| 亚洲精品无码AV电影在线播放| 91久久精品国产| 国产另类视频| 国产午夜一级毛片| 亚洲一区二区约美女探花| 欧美日韩国产成人高清视频 | 久久天天躁狠狠躁夜夜躁| 久久午夜夜伦鲁鲁片不卡| 精品撒尿视频一区二区三区| 欧美福利在线| 成人中文在线| 久久中文字幕不卡一二区| 亚洲综合中文字幕国产精品欧美| 一区二区三区成人| 毛片网站在线播放| 久草国产在线观看| 日本五区在线不卡精品| 色吊丝av中文字幕| 91精品伊人久久大香线蕉| 亚洲午夜综合网| 1024国产在线| 亚洲国产精品久久久久秋霞影院 | 欧美成人午夜视频| 999国内精品久久免费视频| 国产精品丝袜在线| 激情综合图区| 亚洲精品少妇熟女| 永久免费无码成人网站| 亚洲三级a| 视频一区视频二区中文精品| 成人看片欧美一区二区| 国产精品制服| 99在线小视频| 美女被躁出白浆视频播放| 2020极品精品国产 | 国产欧美高清| 国产成人喷潮在线观看| 国产成人啪视频一区二区三区| 久久性妇女精品免费| 国产拍揄自揄精品视频网站| 亚洲精品视频免费| 国模私拍一区二区| 99热亚洲精品6码| 色窝窝免费一区二区三区| 91美女视频在线| 黄色网站不卡无码| 91蜜芽尤物福利在线观看| 熟妇丰满人妻| 在线免费a视频| 精品国产Av电影无码久久久| 全免费a级毛片免费看不卡| 丰满的少妇人妻无码区| 国产一区二区三区精品欧美日韩| 国产精品性| 熟女成人国产精品视频|