999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于加權隨機森林的三陰性乳腺癌microRNA組學數據的分類預測*

2021-01-09 07:04:08郭志飛王碧玨楊海濤王菊平曹紅艷周立業
中國衛生統計 2020年6期
關鍵詞:乳腺癌分類模型

郭志飛 王碧玨 楊海濤 李 治 王菊平 曹紅艷,6△ 周立業△

【提 要】 目的 基于microRNA組學數據,探討加權隨機森林在三陰性乳腺癌分類預測中的應用,為疾病診斷提供方法學支撐。方法 以TCGA乳腺癌數據為例,采用加權隨機森林構建三陰性乳腺癌的分類預測模型,并與隨機森林、logistic回歸、支持向量機、LASSO和嶺回歸五種模型進行比較。結果 通過比較六種模型的5個評價指標,加權隨機森林模型的預測性能明顯優于其他五種模型,加權隨機森林模型的靈敏度為0.852、特異度為0.873、準確度為0.871、AUC值為0.862和G-means值為0.861。結論 加權隨機森林構建的分類預測模型較好地識別了三陰性乳腺癌患者,可為三陰性乳腺癌的診斷提供方法學上的參考。

乳腺癌是全球發病率僅次于肺癌的第二大癌癥,是45~55歲女性死亡的主要原因,嚴重危害女性的健康和生命[1]。三陰性乳腺癌(triple negative breast cancer,TNBC)是乳腺癌的一種亞型,占乳腺癌的15% ~ 23.8%[2-3]。與非 TNBC相比,TNBC具有侵襲性強、惡性程度高、五年生存率低、預后差等特點[3-4]。目前對于TNBC的診斷大多是從影像學上進行判斷,其中,核磁共振成像是診斷TNBC最精確的影像檢查技術,診斷符合率高達98.28%,但其存在檢查費用昂貴、耗時長的問題;X線攝影作為乳腺首選的影像學檢查方法,容易漏診和誤診,尤其對40歲以下患者的診斷準確性欠佳,且輻射較大,對孕婦等特殊人群不太適用[3,5-6]。因此,如何實現低成本、檢測快、無副作用的TNBC患者的分類預測非常重要。

近年來,大量研究證實microRNA(miRNA)與乳腺癌等疾病的發生、發展密切相關,其在疾病診斷中有較高的應用價值[7-8]。由于TNBC占乳腺癌的20%左右,在構建TNBC分類預測模型時存在類別不平衡的問題。傳統的機器學習算法在處理類別不平衡數據時,更關注于多數類的識別,對少數類的預測精度偏低[9]。代價敏感性學習方法結合不平衡數據的特點引入類權重概念,對傳統分類算法進行改進,提高了不平衡數據的整體分類性能[10]。

因此,本文針對TCGA(The Cancer Genome Atlas)乳腺癌數據,采用基于代價敏感性學習思想的加權隨機森林(weighted random forest,WRF),構建三陰性乳腺癌的分類預測模型。同時,將加權隨機森林與隨機森林、logistic回歸、支持向量機、LASSO和嶺回歸五種方法進行比較,為識別TNBC患者提供輔助意見。

資料與方法

1.資料來源

使用TCGA-Assembler軟件在TCGA網站下載乳腺癌數據[11-12],從中選取包含臨床和miRNA組學數據的女性患者共740例,其中TNBC患者81例,non-TNBC患者659例。

2.研究方法

(1)變量篩選

miRNA有1871個變量,刪除零表達值所占比例≥20%的變量后,剩余811個變量。為了降低預測變量中的冗余信息,篩選出與結局相關的變量,故在構建模型前需進行變量篩選。Fan J等人[13]提出了確定獨立篩選(sure independence screening,SIS),該方法根據預測變量與反應變量的邊際相關程度篩選出邊際相關強的變量。SIS可以快速有效地降低數據維度,篩選出重要變量,從而提高預測性能。因此,本文使用SIS對變量進行篩選,最終得到了67個變量。

(2)嶺回歸、LASSO和支持向量機

嶺回歸和LASSO是通過對系數進行約束或加罰來擬合模型的兩種方法[14-15]。二者都是將系數的估計值往0的方向進行壓縮。但LASSO可以將某些系數的估計值強制壓縮為0,使所得模型更易解釋。

支持向量機(support vector machine,SVM)通過非線性映射函數將低維輸入空間映射到高維特征空間中,并在特征空間構造判別函數對樣品進行分類[16]。

(3)隨機森林

隨機森林(random forest,RF)通過bootstrap重采樣技術,從乳腺癌原始數據中有放回地抽取n個樣本生成n棵分類樹,這n棵分類樹最終組成隨機森林,新數據的分類預測結果由分類樹投票決定[17-18]。

新數據的分類預測結果可用公式(1)表示:

(1)

其中,hi是單棵分類樹的基礎分類模型,Y是輸出變量(TNBC和non-TNBC),I(·)表示示性函數。

(4)加權隨機森林

在處理類別不平衡數據時,RF以錯誤率最小化為目標,傾向于將樣本劃分為多數類,導致其對少數類的預測精度偏低。因此,基于代價敏感性學習的思想,Chao C等人[19]提出了加權隨機森林的方法來解決上述問題。在二分類數據中,分布較大的稱為多數類,其他稱為少數類。兩個類別都有各自的權重,WRF給予少數類較大的權重,多數類較小的權重[20]。在設置不平衡數據權重時,將少數類的權重設置為2或3較合適[21]。

WRF在引入類權重后,選擇劃分屬性的基尼指數會發生改變:

(2)

Δi=i(N)-i(NL)-i(NR)

(3)

其中,N是根節點,NL和NR是左右兩個子節點,Wj是第j類的權重,nj是第j類的樣本量,Δi是節點降低的不純度。在構建分類樹時,通常選擇節點基尼指數最小的屬性為最優劃分屬性。

類權重也會影響每棵分類樹的終端節點。隨機森林每個終端節點的最終預測結果是通過綜合考慮每棵分類樹的加權投票(案例數×每個類的指定權重)來確定的。

(4)

WRF有三個重要的參數:類權重classwt的大小;每個節點隨機選擇特征的數目mtry;樹的棵樹ntree。經驗證,這三個參數分別設置為classwt=1∶2,mtry=3,ntree=400時,WRF模型的預測性能最佳。

(5)模型構建與比較

采用分層抽樣,從TNBC和non-TNBC樣本中分別抽取70%樣本作為訓練集,用于構建模型。將剩余的30%樣本作為測試集,用于評價模型的預測性能。將變量篩選后得到的67個預測變量作為輸入變量,將是否為TNBC作為結局變量,將WRF、RF、logistic回歸、SVM、LASSO和嶺回歸這六種方法在同一訓練集上構建分類預測模型,并利用測試集數據進行預測,通過靈敏度(Se)、特異度(Sp)、準確度(ACC)、受試者工作特征曲線下的面積(AUC)和G-means五個指標對模型的性能進行評價。為了保證預測結果的穩定性,抽樣和模型構建過程重復500次。

從研究結果可以看出,無論是語際錯誤,還是語內錯誤中的詞匯錯誤與句法錯誤,知識能力的不足都是其根本原因。

(6)統計方法實現

支持向量機選擇的核函數為高斯核函數,其帶寬使用默認值。logistic回歸是一個概率預測模型,概率大于0.5為患病,小于等于0.5為未患病。統計分析采用R軟件,screening包用于變量篩選,e1071包用于構建支持向量機模型,glmnet包用于構建LASSO和嶺回歸模型,randomForest包用于構建隨機森林和加權隨機森林模型。

結 果

1.研究對象的基本特征

本次研究共納入740例樣本,其中TNBC患者81例,占10.95%,non-TNBC患者659例,占89.05%;平均年齡為(58.16±13.18)歲,45~54歲年齡段的人數居多,占29.46%;生存狀態中生存人數675人,占91.22%,死亡人數65人,占8.78%;臨床分期共4個階段,其中處于Ⅰ~Ⅱ階段的人數居多,占75.14%。詳見表1。

表1 一般人口學資料

2.參數選擇

(1)加權隨機森林classwt的設置

WRF不設類權重,即類權重設置為1∶1時,分類效果并不理想(Se=0.305,Sp=0.973)。我們將類權重分別設置為1∶2、1∶3、1∶4和1∶5,并在測試數據集上進行驗證,不同類權重構建的各模型預測性能結果如表2所示。

(2)加權隨機森林mtry的選擇

在構建WRF模型時,ntree設定為默認值(ntree=500),逐漸增加變量建模,比較模型袋外數據的錯誤率均值。由圖1可以看出,特征數目為3時,模型的錯誤率最低。為進一步通過綜合評價指標AUC和G-means來評價模型的性能,故將mtry分別設置為2、3、4、5、6、7、8、9和10,并在測試數據集上進行驗證,不同特征數目時各模型的預測性能結果如表3所示。

圖1 模型錯誤率均值隨選擇特征數目變化曲線圖

表2 不同權重構建的加權隨機森林模型的預測性能比較

表3 不同特征數目的加權隨機森林模型的預測性能比較

從表3中可以看出,隨著mtry的逐漸增加,模型的靈敏度逐漸降低,特異度逐漸增加。當mtry取值為3時,模型的AUC和G-means最優,因此模型的參數mtry設定為3。

(3)加權隨機森林ntree的選擇

將參數ntree分別設置為200、400、500、600、800和1000,并在測試數據集上進行驗證,對不同樹棵數的加權隨機森林模型進行預測性能的比較,各模型的預測性能如表4所示。

表4 不同樹棵數的加權隨機森林模型的預測性能比較

從表4中可以看出,五個不同參數模型的分類效果相差不大,當ntree≥400時,各個加權隨機森林模型的各項評價指標均趨于平穩,因此模型的參數ntree設定為400。

(4)模型性能總結

表5展示了重復抽樣500次,六種機器學習方法的5個評價指標的結果。五種模型(RF、logistic回歸、SVM、LASSO和嶺回歸)的ACC值均高于0.87,Sp值均高于0.92,都偏向于識別non-TNBC樣本。但這五個模型的Se都較低,分別為0.309、0.466、0.012、0.122、0.105,可以看出傳統的機器學習方法對少數類(TNBC患者)的識別能力較差。

從表5RF和WRF的評價指標可得,WRF在Se、AUC和G-means指標上均明顯優于RF。尤其在Se指標上,WRF比RF高出了0.543,可見在分析不平衡數據時WRF能夠有效地識別少數類患者。

根據綜合指標AUC值和G-means值來看,WRF的分類預測性能最好,其AUC值為0.862、G-means值為0.861,其余各指標的值參見表5。綜上,WRF在多個指標上明顯優于其他五種方法,可幫助臨床醫生識別TNBC患者。

表5 六種機器學習方法在三陰性乳腺癌預測中的結果比較

討 論

構建TNBC的分類預測模型時,大多是利用圖像特征來構建分類預測模型。Wu T等人[22]利用超聲圖像特征構建了logistic回歸模型,其靈敏度和特異度分別為0.869 和0.829。Wang J等人[23]在提取核磁共振圖像的特征后,使用支持向量機構建了TNBC的分類預測模型,模型的靈敏度和特異度分別為0.570和0.947。然而,通過提取圖像特征構建的模型靈敏度或特異度較低,使就診患者存在較高的被誤診或漏診的可能性,在用于輔助臨床診斷時尚不能讓人滿意。

miRNA與人類多種疾病密切相關,其對疾病分類預測有重要的臨床意義。蔡莉等人[24]使用miRNA識別多發性骨髓瘤患者時,靈敏度達0.86。張杰銘等人[25]發現循環miRNA在鼻咽癌患者的診斷中有重要的潛在價值,模型AUC值高達0.91。本研究對乳腺癌數據進行了挖掘,探索了miRNA在篩檢TNBC患者中的臨床意義,發現使用miRNA數據對TNBC進行預測時效果良好,提示miRNA在TNBC分類預測中有潛在的生物學價值。

針對傳統機器學習在處理類別不平衡數據時不能有效識別少數類的問題,本研究在建模時運用了基于代價敏感性學習思想的WRF方法,其構建的模型有良好的分類預測性能。WRF在處理不平衡數據時,有兩大優勢:不同于重采樣技術需要將原始的不平衡數據構造為類別平衡的數據集,WRF不需要改變原始數據的結構,其在構建模型的過程中,所用的醫學數據仍能夠代表該疾病的普遍發生率;WRF通過對不同類別設置權重,讓少數類的權重增大,從而加大少數類錯分的代價,使模型對成本敏感,達到錯分代價最小化的目的,讓模型在保持了較高特異性的同時,也能夠提高對少數類預測的準確性。

綜上所述,加權隨機森林是一個良好的分類器,有助于識別三陰性乳腺癌患者,能夠為三陰性乳腺癌的診斷提供理論指導,同時加權隨機森林算法也為在運用醫學非均衡數據構建疾病分類預測模型時提供了思路。

猜你喜歡
乳腺癌分類模型
一半模型
絕經了,是否就離乳腺癌越來越遠呢?
中老年保健(2022年6期)2022-08-19 01:41:48
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
乳腺癌是吃出來的嗎
分類討論求坐標
胸大更容易得乳腺癌嗎
數據分析中的分類討論
別逗了,乳腺癌可不分男女老少!
祝您健康(2018年5期)2018-05-16 17:10:16
主站蜘蛛池模板: 亚洲综合精品香蕉久久网| 18禁高潮出水呻吟娇喘蜜芽| 51国产偷自视频区视频手机观看| 黄色三级网站免费| 欧美日韩成人在线观看| 久草美女视频| 成人在线欧美| 伊人久久福利中文字幕| 国产一区二区网站| 久久网综合| 91国内在线视频| 欧美精品一区二区三区中文字幕| 成人免费视频一区二区三区| 日韩国产黄色网站| 欧美精品不卡| 久久黄色影院| YW尤物AV无码国产在线观看| 日韩毛片在线视频| 欧美国产菊爆免费观看| 91色综合综合热五月激情| 91在线精品麻豆欧美在线| 强奷白丝美女在线观看| 久久综合干| 在线另类稀缺国产呦| 亚洲综合日韩精品| 久久国产精品影院| 久久情精品国产品免费| 成人在线亚洲| 伊人久久大香线蕉aⅴ色| 国产女人18水真多毛片18精品 | 99视频在线观看免费| 伊在人亚洲香蕉精品播放| 精品国产一区91在线| 全色黄大色大片免费久久老太| 久久精品视频亚洲| 国产日韩精品欧美一区喷| 色婷婷视频在线| 91视频青青草| 亚洲精品第一页不卡| 黄片一区二区三区| 亚洲国产黄色| 日日噜噜夜夜狠狠视频| 国产人妖视频一区在线观看| 国产色婷婷| 亚洲欧洲日产无码AV| 国产成人啪视频一区二区三区 | 伊人色婷婷| 成人综合网址| 成人午夜网址| 亚洲欧洲国产成人综合不卡| 国产成人AV综合久久| 亚洲中久无码永久在线观看软件 | 99re66精品视频在线观看| 亚洲视频影院| 日韩国产欧美精品在线| 69综合网| 国产综合色在线视频播放线视| 自拍中文字幕| 亚洲精品欧美重口| 久996视频精品免费观看| 57pao国产成视频免费播放| 婷婷亚洲最大| 欧美成人午夜视频免看| 国产成人一区在线播放| 五月天福利视频| 色亚洲激情综合精品无码视频| 国产一区二区三区夜色| 欧美日本在线观看| 国产精品xxx| 91免费国产在线观看尤物| 欧美日韩中文国产va另类| 风韵丰满熟妇啪啪区老熟熟女| 欧美精品1区2区| 国产精品美女网站| 国产女人爽到高潮的免费视频| 2020国产精品视频| 亚洲第一色网站| 国产视频自拍一区| 亚洲视频二| 中文精品久久久久国产网址 | 免费可以看的无遮挡av无码| 草逼视频国产|