999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于優化隨機森林算法的乳腺癌分類診斷

2022-03-21 10:34:12劉玉航朱習軍
計算機工程與設計 2022年3期
關鍵詞:乳腺癌特征模型

王 冬,曲 媛,劉玉航,朱習軍

(青島科技大學 信息科學技術學院,山東 青島 266061)

0 引 言

在醫學上,乳腺癌診斷的常見方法有影像學檢查和病理檢查[1-3]。通過對該疾病的研究得知,越早發現治療效果越佳。然而,鑒于診斷結果可能受到醫生主觀因素干擾,會產生誤診等偏差,影響患者采取合理方案進行進一步治療,醫療工作面臨著重要挑戰。

許多學者針對乳腺癌分類問題開展相關研究。Ledley第一次在醫療領域中應用了數學建模,并將計算機相關算法用于醫療輔助[4]。隨著機器學習的發展,逐漸將機器學習與醫療結合,更多學者將機器學習技術應用在乳腺癌檢測等諸多醫學領域[5]。齊慧穎等[6]通過對TCGA數據庫中4種組學數據融合,使用隨機森林方法建立預測模型,最佳準確率為97.22%,驗證了融合多種組學數據構建的模型是有效提高預測性能的方法。李喆等[7]通過對幾種經典機器學籍分類器在乳腺腫瘤分類檢測中的比較,并從準確率等方面對其進行評估比較,驗證線性判別分析和極限學習機兩種分類器性能優良。Wakankar等[8]用熱成像技術對乳腺癌進行診斷。劉巧利等[9]提出改進的DenseNet網絡對乳腺癌的診斷,基于數據增強、遷移學習建立診斷模型,識別率達到99.2%。機器學習在醫療行業的應用,顯示了其算法的優越性,使醫療上獲得了可觀的進展[10]。

本文將隨機森林(random forest,RF)與人工魚群(artificial fish,AF)相結合,實現乳腺癌的良、惡性分類。采用smote過采樣解決數據不均衡問題,采用pearson和隨機森林進行特征選擇。通過實驗,從準確度、F1值等方面對算法性能進行比較驗證結果,為乳腺癌的治療和研究提供參考。

1 數據處理

1.1 數據集

原始數據集來自威斯康辛州的乳腺癌公開數據,所有特征值都是使用乳腺腫塊細針穿刺所得的圖像數字化結果,該結果顯示了腫瘤診斷和細胞核各特征的取值。數據集按照平均值、標準差、最大值3個方面將細胞核分為3組。其中,每組包含10個特征,總計30個特征。例如,1號代表平均半徑,4號代表平均面積。其中,標簽diagnosis代表腫瘤狀態,該標簽下存在惡性樣本212個,良性樣本357個,共569個數據。使用LabelEncoder標簽對其進行數值化,編碼為0、1,以方便進行模型訓練。數據集具體字段含義見表1。

表1 數據集特征含義簡介

1.2 數據預處理

由于數據的完整性、可用性良莠不齊,這樣的數據處理起來效率不高,得到的模型運算結果也不好,因此對數據進行預處理尤為重要[11]。本文對數據預處理分為兩方面:均衡化處理和標準化處理。由于數據集是比較完整的常用數據集,無數據缺失,直接略過數據填補步驟。

1.2.1 數據均衡化

由于數據集通常會存在正負樣本數量不平衡的情況,分類算法會更偏向多數類,從而使得模型對少數類樣本的識別率降低,難以得到較有效的模型。這是由于樣本與類別中心點的距離的不同,代表的特征相關度也不同,隨著距離的增加,代表性逐漸降低。針對上述問題,提出采用優化smote加權過采樣對數據進行均衡處理,先計算每個少數類樣本歐式距離,以分配不同權重,再根據權重生成新樣本。最后將其與隨機過采樣、隨機欠采樣進行比較。

smote加權過采樣步驟如下:

(1)計算數據中數量較少的類別里,每個樣本x到其它樣本的歐氏距離

(1)

(2)計算樣本x到其它樣本的距離之和Di,并將其進行歸一化處理,得到的數值越大,表示樣本離邊界越近,數值越小,樣本越靠近中心點。

(3)計算每個樣本x的權重,根據樣本權重,設置采樣倍率n;

(4)按照式(2)產生新樣本,其中rand()表示的是取0和1之間的隨機數

xnew=x+rand()*|x-xn|

(2)

1.2.2 數據標準化

由于數據存在不同量綱與數量級,大小相差明顯。若直接對原始數值進行分析而不加以處理,模型就會對數值較大的指標突出顯示。導致產生的結果存在相對誤差。為保證結果的有效性、可靠性,本文采用sklearn庫中的preprocessing.scale()函數,對采樣后數據進行標準化處理。

將該函數訓練集、測試集進行處理,求出均值(x_train_mean)和方差(x_train_std),在均值附近縮放至單位方差(mean為均值,std為方差)。采用公式如下

(3)

樣本在進行處理后,都變為均值是0,方差是1的數據。其中axis默認為0,表示對各個特征進行標準化。

2 特征選擇

數據集中包含連續型和離散型特征,總體樣本均呈現混合高斯分布。從數據挖掘方面進行分析,若想得到較高價值的乳腺癌分類結果,要從高維不平衡數據集的二分類問題出發,信息重疊、高維不平衡現象在所難免[12]。特征選擇是用最少的特征盡最大可能表達現有數據,又稱作降維。通過這種方法,能夠較為高效地降低數據過擬合比例,增強模型的泛化能力。由于本數據集特征較多,特征選擇能夠有效提升算法性能。

本文將隨機森林與皮爾森相關性分析相結合,隨機森林自身擁有的特征重要性評估方法,可以在一定程度上進行特征降維,并且提高模型精度,但是無法剔除冗余特征,而皮爾森相關性分析可以與該方法進行結合,彌補其存在的不足。

pearson相關系數是衡量兩個屬性的相似度主要方法,定義為協方差與標準差相除,通過對相關系數的大小計算,以得到特征之間的相關性。主要用于消除非目標特征之間的多重共線性。如果兩組特征具備較高的線性值,證明其中一組屬于冗余特征,可以刪除。對于兩個服從正態分布的連續型隨機變量x、y,其公式如下所示

(4)

式中:cov(X,Y) 代表向量X和向量Y的協方差,輸入取值范圍(-1,1),數值大于0,表示屬性正相關,小于0,表示屬性負相關,絕對值越接近于1,表示相關性最大。

在本文中,將預處理后的數據,采用pearson-RF方法進行混合選擇,最終實現最大化消除冗余特征的目的。其具體方法如下:

(1)提取預處理后的數據集,將其組成有m個特征的訓練集Si(i=1,2,…n), 設定閾值為[-1,1]。

(2)使用皮爾森相關性分析處理訓練集Si,按照數值大小排序,去除冗余特征。

(3)將訓練集Si,使用隨機森林算法進行處理,按照降序,生成Ai。

(4)將不同的p個特征,用于特征建模,獲得最優特征子集Bi。

(5)將訓練集上所得特征按權值進行加權計算,其中若Bi中不包含Ai,權值取0,生成特征子集B0。

(6)對特征進行投票處理,使用頻數最多的特征相應的取值作為最優特征子集。

3 隨機森林優化算法模型設計

3.1 模型構建流程

圖1 模型構建流程

3.2 人工魚群算法尋優原理

人工魚群算法[13]是由魚群覓食行為啟發得到的一種尋優算法,具有全局尋優能力強、速度快等特點。在現實世界中,魚群可以根據需要尾隨或自行找到營養多的地點生存,人工魚就是在這基礎上進行發展,成為一種抽象的魚的實體。在其內部封裝了一系列的行為與算法,可根據需要做出相應的改變,來模仿魚群覓食、尾隨等行為,從而達到實現最優的目的。定義人工魚個體為S=(s1,s2,…sn), 目標定義為Y,速度定義為V=(v1,v2,…vn)。

以下是魚的幾種典型行為:

(1)覓食行為pray:設置人工魚初始狀態Si,若計算后在視野范圍內發現更優狀態Sj,則向新選擇移動一步,否則繼續尋找其它狀態,直至達到最大迭代次數,則轉為執行隨機行為。更新方式如下

(5)

(2)聚群行為swarm:人工魚Si搜索視野內魚的數目和位置,進行集體覓食。若中心位Sc較優且不擁擠,則朝該方向移動一步,否則執行覓食行為。其規則如下:①避免與臨近魚過于擁擠;②與臨近魚的平均方向一致;③朝臨近個體的中心移動。更新方式如下

(6)

(3)追尾行為follow:人工魚Si發現Sj處食物較多,且不擁擠,則朝該處移動一步,否則執行覓食行為。更新方式如式(5)。

(4)隨機行為bulletin:人工魚Si在視野內隨機游動,是覓食行為的一種缺省狀態,使人工魚達到新狀態。更新方式如覓食行為。

其具體步驟如下:

(1)初始化設置。種群規模設為N,初始位置為x,視野為visual,步長為step。

(2)計算初始魚群適應值,取最優狀態及取值賦給公告牌。

(3)對每個個體進行評價,對其要執行行為進行選擇并執行,生成新魚群。

(4)評價所有個體,若有優于公告牌的,則取代更新個體。

(5)當公告牌上的取值為最優,迭代次數達到預設數值或多次所得均方差小于允許誤差,結束算法。

3.3 人工魚群優化隨機森林算法

隨機森林有訓練速度快等優點,但隨著隨機森林在分類問題上的應用,發現它無法對自身的參數進行優化。通常情況下,是通過n折交叉驗證對參數進行優化,計算誤差以取得最優值。然而基于傳統的網格搜索比較耗時。因此,本文通過人工魚群算法實現參數優化,構建模型框架如圖2所示。

圖2 優化算法流程

不難發現對其分類性能的決定性較大的參數有決策樹的數量(n_estimators)、樹最大深度(max_depth)等,其中n_estimators默認取100,max_depth默認取none。該算法中,假設每條人工魚由兩個維度向量組成,分別為(n_estimators,max_depth),記作(n,m)。

操作步驟如下:

步驟2 初始化魚群,每條人工魚由兩個維度組成,設置為(n,m),構造均勻分布總群,并設定規模數、自適應視野范圍、自適應步長、最大迭代次數、擁擠度因子等。

步驟3 通過隨機森林方法,計算每條人工魚的當下所處環境的食物濃度與位置,將最高時對應的參數數值保留在公告板上,并記錄對應值。

步驟4 根據人工魚的4種不同行為(聚類行為、追尾行為、覓食行為、隨機行為)進行尋優,通過比較,更新人工魚的位置、速度,生成全新的魚群。

步驟5 判斷是否達到魚群最大數量和最大迭代次數,若達到了設定閾值,則本輪優化結束,否則,算法跳轉到步驟4,重復執行上述步驟。

步驟6 確定新人工魚位置,輸出最終搜索到全局最優解為最佳參數。

4 實驗結果與分析

實驗數據來源于威斯康辛數據集,通過數據預處理、特征選擇,采用優化的隨機森林模型對乳腺癌數據進行分類。相關實驗基于window10系統,CPU為Intel 1.8 GHz,采用python開源第三方庫scikit-learn,在Anaconda5.1.0集成環境中運行。本文使用人工魚群算法對n_estimators與max_depth兩個參數進行優化。本文設種群規模為10,覓食最大次數為10,移動步長為0.1,擁擠度因子為0.618。

4.1 實驗數據

4.1.1 數據預處理

表2 數據劃分

對數據集的不同特征進行特征分析,總體樣本均呈現混合高斯分布。根據上文所述方法,將數據標準化,以乳腺癌數據中部分特征為例,將數據處理前后結果以圖3、圖4可視化。

圖3 標準化處理前特征可視化

圖4 標準化處理后特征可視化

從圖中可以看出,橫坐標代表數據的不同特征在數據集中的分布范圍,由于不同特征的數據性質不同,數據量綱也不同,因此差距較大。標準化處理前標準差集中在較小范圍內,數值也相對較小,均值分布廣泛且數值大。在標準化處理后,消除了特征間不同量綱的差異,讓特征分布處于相同的區間,保證了模型分類結果的可靠性。

4.1.2 特征選擇

通常情況下,特征越多分類效果就越高。但是過多的特征會嚴重降低模型的學習效率,增加運算量和運算時間。因此,本文對相關數據進行特征選擇,隨機森林按照數值大小表現出重要性程度,計算出的特征重要性如圖5所示。

圖5 特征重要性排序

通過特征分析可知,特征重要性排名前三的特征分別為凹度最大值(concave_worst),值為0.3364;凹度平均值(concave_mean),其值為0.2624;周長最大值(perimeter_worst),其值為0.1913。

通過皮爾森相關系數排名、隨機森林特征重要性排名進行結果比較,對特征進行分析可知,面積、周長、半徑能夠較為直接衡量細胞核的相關特征,與此同時,凹點、凹度也屬于最重要的特征值,有較強的區分度。特征值的3類統計數據中,平均值在一定程度上,反映出的是更加一般的情況,具有更強的可用性。

4.2 模型評估

評估指標主要包括:準確率、召回率、F1評分等,具體評估性能介紹見表3。

表3 評估指標

4.3 結果分析

通過對現有數據進行預處理與特征選擇操作,將數據特征從32減少到10個。對處理后的數據輸入進優化的模型,相關優化過程(部分)數據見表4。

表4 結果分析

由上表可知,當max_depth和n_estimators取不同值時,準確率也會隨之進行改變。調整兩個參數的取值,得到的準確率折線圖如圖6所示。

圖6 隨機森林參數與準確率相關性

圖6中橫坐標是n_estimators的取值,縱坐標是分類準確率。不同折線代表max_depth的不同取值。從圖中可知,參數取值的不同,對應的準確率的變化也是處于波動狀態,其中,當n_estimators取值為18,max_depth取值為9時,改優化的分類模型獲得最高準確率達到97.5%,驗證了該模型的可行性。

為了更好說明人工魚群優化的隨機森林算法模型具有優越性,探究不同算法對分類性能的影響,分別選擇該算法與隨機森林、支持向量機、邏輯回歸在相同數據集上的結果進行對比,從準確率、F1值等方面對算法進行評估,比較結果見表5。

表5 結果分析

準確率是檢驗算法分類結果準確性的指標,其準確率越高說明算法越好;由上表可知,在相同的數據集下,單獨使用隨機森林時,準確率只有92.5%,支持向量機與邏輯回歸的準確率分別為91.4%和95.3%。而本文優化的模型,對乳腺癌的識別準確率高于其它方法,達到了97.5%。F1值綜合了精確率與靈敏度的大小。從上表可知,在F1值方面,本文所提出的模型以97%遠超出其它模型,比隨機森林高0.42,比支持向量機高0.62,比邏輯回歸高0.25。在召回率方面,本文提出的算法達到95.2%,比隨機森林高2%,比支持向量機高5%,比邏輯回歸高1%。本文認為,通過對準確率、F1值、召回率等的對比,本文所提出模型都得到提高,因此,可以認為該模型對輔助醫生診斷乳腺癌具有較強的意義。

5 結束語

隨機森林參數較復雜、模型訓練較慢,針對上述問題,本文提出人工魚群優化的隨機森林模型。該模型能夠提升準確率與效率。實驗以乳腺腫瘤細胞核的各項數據為基礎,通過對數據集進行均衡化、標準化等預處理,對相關數據特征進行特征選擇以降低模型復雜度。通過對模型優化,本次實驗針對隨機森林參數優化提供了切實可行的方法,也對未來輔助醫生進行乳腺癌相關疾病篩查和治療,更早發現病人病情,有較重要的意義。

猜你喜歡
乳腺癌特征模型
一半模型
絕經了,是否就離乳腺癌越來越遠呢?
中老年保健(2022年6期)2022-08-19 01:41:48
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
乳腺癌是吃出來的嗎
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
胸大更容易得乳腺癌嗎
別逗了,乳腺癌可不分男女老少!
祝您健康(2018年5期)2018-05-16 17:10:16
抓住特征巧觀察
主站蜘蛛池模板: 日韩无码视频专区| 国产乱人激情H在线观看| 91久久夜色精品| 中文字幕永久在线看| 日韩 欧美 国产 精品 综合| 久久这里只有精品66| 人妻免费无码不卡视频| 亚洲精品无码av中文字幕| 国产毛片高清一级国语| 国产女人爽到高潮的免费视频| 九色91在线视频| www.亚洲色图.com| 在线免费a视频| 亚洲成在人线av品善网好看| 激情综合网址| 亚洲精品无码抽插日韩| 国产超薄肉色丝袜网站| 国产日韩欧美视频| 波多野结衣久久高清免费| 波多野结衣在线se| 精品视频第一页| 天天爽免费视频| 国产精品永久不卡免费视频| 国产成人综合日韩精品无码首页| 欧美专区在线观看| 日本精品中文字幕在线不卡| 国产美女免费| 热99精品视频| 99久视频| 中文字幕在线视频免费| 日韩视频免费| 国产精品丝袜视频| 国产精品永久在线| 一级全黄毛片| 无码中字出轨中文人妻中文中| A级毛片高清免费视频就| 人妻中文久热无码丝袜| 99热这里只有精品5| 日韩av无码DVD| 国外欧美一区另类中文字幕| 免费观看无遮挡www的小视频| 91国内在线观看| 激情国产精品一区| 国产日韩欧美一区二区三区在线| 精品夜恋影院亚洲欧洲| 啪啪国产视频| 久久综合伊人77777| 激情无码字幕综合| 最新国语自产精品视频在| 精品福利网| 欧美a级在线| 亚洲国产天堂久久综合| 亚卅精品无码久久毛片乌克兰| 国产精品区视频中文字幕| 日本亚洲最大的色成网站www| 伊人丁香五月天久久综合| 国产亚洲欧美在线人成aaaa| 亚洲综合片| 国产精品欧美激情| 亚洲bt欧美bt精品| 一级毛片在线播放| 国产精品久久自在自线观看| 91偷拍一区| 欧美日韩久久综合| 久久久久久久久亚洲精品| 国产成人亚洲无码淙合青草| 久久精品午夜视频| 国产成人福利在线| 国产在线98福利播放视频免费| 国产成年女人特黄特色大片免费| 久久久受www免费人成| 一级成人欧美一区在线观看| 日本道综合一本久久久88| 国产成人精品优优av| 欧美国产在线看| 国产精品毛片一区| 成人av专区精品无码国产| 国内熟女少妇一线天| 国产精品网址在线观看你懂的| 色噜噜久久| 在线观看国产网址你懂的| 亚洲精品国产自在现线最新|