999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Lasso特征選擇乳腺癌二分類算法研究

2023-08-04 07:21:12辛瑞昊
吉林化工學院學報 2023年1期
關鍵詞:乳腺癌分類特征

馮 欣,張 航,辛瑞昊

(1.吉林化工學院 理學院,吉林 吉林 132022;2.吉林化工學院 信息與控制工程學院,吉林 吉林 132022)

乳腺癌[1](Breast cancer)是一種新發數高的一種疾病,已然成為一種噩夢。因此,研究乳腺癌發病機理,降低乳腺癌死亡率,提高乳腺癌預后效果迫在眉睫,這也是現在醫療領域所面臨的一個巨大挑戰。

在目前研究中,已經有很多學者針對乳腺癌分類提出自己的模型去展開研究。王冬[2]等人針對乳腺癌分類診斷提出了一種基于人工魚群優化的隨機森林模型,其最終準確率能達到97.48%。章飛[3]等人針對女性乳房造影圖片的特征提取數據集進行分類診斷,使用多種機器學習算法建立分類模型對比。Lahoura[4]等人針對乳腺癌分類診斷問題提出一種基于云計算的無監督極限學習機(ELM)乳腺癌遠程診斷系統,診斷準確率達到98.68%。Wang[5]等人將ELM與卷積神經網絡(CNN)相結合針對乳腺癌分類問題進行檢測,其實驗結果效果良好。因此對乳腺癌的分類研究已然成為現在的一個研究趨勢。

本研究利用乳腺癌公開數據集,針對不平衡數據采用隨機過采樣算法,特征選擇采用了Least absolute shrinkage and selection operator(Lasso)回歸算法[6]與序列前向選擇算法。最后使用多種分類器的準確率對本研究提出的算法進行一定的評估,同時對最優臨床特征進行可視化分析,本研究將為乳腺癌的診斷研究提供一定的參考。

1 特征選擇模型及方法

1.1 Lasso回歸模型

Lasso回歸[7-9]是一種壓縮估計,該模型因為懲罰項而更加精練,它的另一個優勢在于子集收縮的同時保留了回歸系數的壓縮。在考慮一般線性問題的時候,線性函數矩陣優化目標為

(1)

其中β表示估計參數向量;y表示觀測向量;X表示變量矩陣值;觀測值是由變量值計算得到的。

Lasso的優化目標為

(2)

Lasso回歸是在線性回歸的基礎之上添加了正則化得到的,見公式(2)。由于Lasso回歸能夠將一些回歸系數歸零,這樣可以有效地解決各特征之間的多重共線性困擾,這將成為本研究中特征選擇的一個新方法。

1.2 SFS模型

序列前向選擇[10-11](SFS,Sequential Forward Selection)是一種搜索策略算法。主要思想為從空集Y0開始,每次選擇一個特征x加入最新的特征子集Y中,可以保障特征函數最優。其算法步驟如下:

1.建立空的特征子集Y0={?};

3.更新目前最優特征子集:Yk+1=Yk+x+,k=k+1;

4.轉到第2步。

1.3 評價指標

機器學習中的預測結果一般分為如下幾種結果,見表1。其中True Positive(TP):把正樣本預測為正。True Negative(TN):把負樣本預測為負。False Positive(FP):把負樣本預測為正。False Negative(FN):把正樣本預測為負。本研究的評價指標準確率[12-13](ACC),它的求解公式為

表1 分類預測結果

(3)

通過上述評價指標來評判模型是否合理,以及模型結果是否符合預期結果。

2 基于不平衡數據集分類模型構建

本研究實驗流程見圖1。首先對原始數據集進行標準差標準化處理方法,針對平衡數據集采用的隨機過采樣[14]方法。接下來是特征選擇這塊,使用Lasso回歸算法做初步的特征選擇,使用五倍交叉驗證取五次回歸系數不為0交集特征做接下來的實驗。接下來使用基于隨機森林(RF)的序列前向選擇算法,經過分類器取最優ACC結果。最終將得到的最優臨床特征進行多方面的可視化分析,具體情況見下述章節。

圖1 實驗流程圖

3 實驗結果與分析

3.1 數據集介紹

本研究使用威斯康星州的乳腺癌公開數據集[2]進行實驗,該數據集有357例輕度患者,212例重度患者。數據集中含有32個屬性,其中含有30個特征。數據集根據平均值、標準誤差以及最值將細胞核分為三組,數據集特征介紹見表2。

表2 數據集特征介紹

3.2 實驗結果

利用第2節中所述算法對乳腺癌診斷分類進行測試。首先利用標準差標準化處理完數據集之后,使用隨機過采樣算法進行數據集的平衡,平衡后的樣本個數見表3。接下來運用Lasso特征選擇算法,運用五倍交叉驗證取回歸系數不為0的特征的交集,特征由原始30個變成8個,進行接下來的實驗。

表3 數據預處理:隨機過采樣算法平衡數據集

第二步特征選擇算法使用了SFS算法,此算法結合隨機森林分類器對其進行最優特征子集評估,本研究從8個特征依次往下遞減,去尋找最優特征子集區間。為了保證實驗的穩定性,在進行分類診斷準確率評估的時候結合了十倍交叉驗證,其評價結果見表4。表4中出現的分類器依次為:支持向量機(Support Vector Machine,SVM[15])、K鄰近法[16](K-Nearest Neighbor,KNN)、決策樹(Decision Tree,DT)、樸素貝葉斯(Naive Bayes,NB)、隨機森林(Random forest,RF)、線性判別分析(Linear Discriminant Analysis,LDA)、自適應提升算法(Adaptive Boosting,AdaBoost)和極限梯度提升算法(Extreme Gradient Boosting,XBG)。根據表4得到最優特征子集以及最適用模型的分類器,最優特征子集將用于下一步分析。由表4可知,最優特征子集的特征個數為6個的時候最好,并且最優的是隨機森林分類器。最優6個特征為:平均半徑(radius mean)、平均周長(perimeter mean)、平均區域(area mean)、區域(area se)、最差周長(perimeter worst)和最差對稱性(symmetry worst)。接下來探究了6個特征對乳腺癌輕度患者與重度患者的顯著差異性,見3.3節。

表4 UCI乳腺癌二分類實驗結果

3.3 臨床特征可視化分析

本研究針對實驗最優特征子集進行單個特征分析,為了證實特征對于區分不同程度的患者樣本的效性,從最優的6個臨床特征的數據分布情況(箱線圖)、對應的student-t檢驗[17](Student's t test,T-test)的p-value[18]值以及主成分分析[19-20](Principal Component Analysis,PCA)后的降維圖等不同角度來進行驗證。見圖2,本研究通過箱線圖將最優的6個臨床特征進行數據集的分布顯示,通過不同顏色表明不同程度的患者類型,其中黑色表示重度患者,白色表示輕度患者,從圖2中可見,單個特征的數據集在區分二分類問題上有一定的區分度。圖3是介紹了每個特征的p-value值,一般p-value值小于0.05可以證明該特征在不同分類上具有顯著差異性。由于本實驗中得到的p-value值太小,為了能可視化出來,使用了“-log10(p-value)”函數(此函數為單調遞減函數)進行了變化,同時使用“-log10(0.05)”進行對比(此函數為p-value=0.5),最終結果對比見圖3,可視化圖形很好地展示6個特征的單獨p-value值均小于0.05,為顯著差性特征。PCA降維一般用于提取數據的主要特征分量,在維度壓縮的同時盡可能保留更多的變量。

圖2 特征箱線圖分布情況

圖3 特征T-test的p_value比較

本研究將針對上述6個特征進行降維分析,進一步通過可視化驗證最優特征區分重度與輕度患者的優越性。側重于三維可視化,所以特征也是壓縮到3個。如圖4所示,三維坐標分別表示壓縮后的三個特征值,能夠很好地看見不同類別的樣本經過PCA降維分析之后比較容易辨別。此處可視化展示將從另外的角度說明最優特征子集對于數據集的分類效果比較好。

圖4 PCA降維的3D圖

3.4 SEER數據庫驗證

為了證實本研究提出算法的優越性,繼而針對SEER(The Surveillance,Epidemiology,and End Results)[21]數據庫(https://seer.cancer.gov/)中乳腺癌數據集進行了進一步驗證。本研究選擇了最近的時間年份(2015年)診斷數據進行實驗探究,根據臨床常用字段加上意義取舍。最終保留下來17 636個樣本,其中2 623個死亡樣本,15 013個存活樣本數據,特征為:種族(Race recode)、性別(Sex)、原發灶部位(Primary Site)、組織學類型(Histologic Type ICD-O-3)、雙側/單側(Laterality)、腫瘤大小(CS tumor size)、腫瘤進入程度(CS extension)、淋巴結情況(CS lymph nodes)、轉移部位(CS mets at dx)、生存時間月份(Survival months)和是否有多原發癌(First malignant primary indicator)11個特征。經過對原始數據集的數據進行標準差標準化與隨機過采樣的數據預處理階段,接下來運用Lasso特征選擇算法,運用五倍交叉驗證取回歸系數不為0的特征的交集,特征由原始11個變成10個,進行SFS算法,特征從10個依次遞減,至于找到最優特征子集。結合分類器最終得到以下評價結果見表5,根據表格中內容可知,最優特征子集的特征個數為6個的時候最好,并且最優的是隨機森林分類器。如圖5所示為了使實驗結果更好地展示出來,橫坐標表示最優特征組合個數,縱坐標表示該子集下的分類準確度,結合不同分類器找到最優結果是隨機森林分類器,準確度達到97.24%,為臨床醫療診斷提供了理論支持。根據上述實驗最終得到的6個特征為:Race recode、Primary Site、Laterality、CS tumor size、Survival months和First malignant primary indicator。上述特征組成的子集對區分乳腺癌的生存與死亡分類有顯著差異性。

number圖5 不同分類器二分類準確度

表5 SRRE乳腺癌二分類實驗結果

4 結 論

本研究針對威斯康星州的乳腺癌數據集,平衡數據后,提出Lasso回歸與SFS相結合算法進行特征選擇步驟,從而減少對冗余臨床特征的研究,結合8種分類器進行模型最終評價,為乳腺癌分類診斷提供新的探究思路。通過數據可視化展示出最優特征子集的乳腺癌分類效果圖,為醫療大數據行業的臨床研究提供了理論支撐。為了驗證本研究算法的優越性,利用SEER數據庫中的乳腺癌數據集進行驗證,通過本文的算法的驗證,從最初的11個特征篩選到最后的6個特征,實驗結果表明乳腺癌的分類準確率達到97.24%。本研究提出的方法模型在威斯康星州的乳腺癌公開數據集和SEER數據庫乳腺癌數據集中體現比較好,但未在其他疾病的數據集中探究,這將成為未來的研究重點。

猜你喜歡
乳腺癌分類特征
絕經了,是否就離乳腺癌越來越遠呢?
中老年保健(2022年6期)2022-08-19 01:41:48
分類算一算
如何表達“特征”
乳腺癌是吃出來的嗎
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
胸大更容易得乳腺癌嗎
數據分析中的分類討論
別逗了,乳腺癌可不分男女老少!
祝您健康(2018年5期)2018-05-16 17:10:16
教你一招:數的分類
主站蜘蛛池模板: 国产xx在线观看| 毛片在线看网站| 亚洲成肉网| 潮喷在线无码白浆| 国产精品白浆在线播放| 亚洲三级色| 99在线观看免费视频| 亚洲天堂视频在线观看免费| 国产剧情国内精品原创| av在线人妻熟妇| 欧美精品伊人久久| 国产色爱av资源综合区| 国产成人AV大片大片在线播放 | 中文字幕有乳无码| 成色7777精品在线| 波多野结衣久久高清免费| 久久综合亚洲鲁鲁九月天| 亚洲最大情网站在线观看| 凹凸国产分类在线观看| 亚洲午夜久久久精品电影院| 国产噜噜噜视频在线观看 | 国产精品污污在线观看网站| 91丝袜乱伦| 欧美福利在线观看| 国产大片喷水在线在线视频| 午夜福利视频一区| 国产香蕉一区二区在线网站| 最新亚洲人成无码网站欣赏网| 成人无码一区二区三区视频在线观看| 99热这里只有精品在线播放| 国产熟睡乱子伦视频网站| 午夜精品影院| 日韩第九页| 国产成人91精品免费网址在线| 欧美 亚洲 日韩 国产| 亚洲国产中文精品va在线播放| 国产精品视频导航| 午夜日韩久久影院| 亚洲伊人久久精品影院| 亚洲中文字幕手机在线第一页| 日本色综合网| 亚洲天堂区| 国产免费人成视频网| 国产午夜一级淫片| 精品欧美一区二区三区久久久| 国产一级特黄aa级特黄裸毛片| 女人一级毛片| 91久久夜色精品国产网站| 亚洲青涩在线| 亚洲无码电影| 青青久久91| 欧美不卡视频在线观看| 日本久久网站| 伊在人亞洲香蕉精品區| 日韩欧美国产精品| 人妻丰满熟妇av五码区| 国产一区二区三区视频| 亚洲动漫h| 91精品国产情侣高潮露脸| 亚洲资源站av无码网址| 日本亚洲最大的色成网站www| 91蜜芽尤物福利在线观看| 国产在线精彩视频二区| 伊人91在线| 婷婷综合在线观看丁香| 欧美福利在线播放| 日韩无码视频网站| 日韩最新中文字幕| av在线5g无码天天| 99色亚洲国产精品11p| 在线a视频免费观看| 国产av色站网站| 热99精品视频| 美女潮喷出白浆在线观看视频| 特级做a爰片毛片免费69| 再看日本中文字幕在线观看| 亚洲欧美日韩精品专区| 国产综合欧美| 国产精品太粉嫩高中在线观看 | 1级黄色毛片| 99视频全部免费| 国产综合日韩另类一区二区|