郭志飛 王碧玨 楊海濤 李 治 王菊平 曹紅艷,6△ 周立業△
【提 要】 目的 基于microRNA組學數據,探討加權隨機森林在三陰性乳腺癌分類預測中的應用,為疾病診斷提供方法學支撐。方法 以TCGA乳腺癌數據為例,采用加權隨機森林構建三陰性乳腺癌的分類預測模型,并與隨機森林、logistic回歸、支持向量機、LASSO和嶺回歸五種模型進行比較。結果 通過比較六種模型的5個評價指標,加權隨機森林模型的預測性能明顯優于其他五種模型,加權隨機森林模型的靈敏度為0.852、特異度為0.873、準確度為0.871、AUC值為0.862和G-means值為0.861。結論 加權隨機森林構建的分類預測模型較好地識別了三陰性乳腺癌患者,可為三陰性乳腺癌的診斷提供方法學上的參考。
乳腺癌是全球發病率僅次于肺癌的第二大癌癥,是45~55歲女性死亡的主要原因,嚴重危害女性的健康和生命[1]。三陰性乳腺癌(triple negative breast cancer,TNBC)是乳腺癌的一種亞型,占乳腺癌的15% ~ 23.8%[2-3]。與非 TNBC相比,TNBC具有侵襲性強、惡性程度高、五年生存率低、預后差等特點[3-4]。目前對于TNBC的診斷大多是從影像學上進行判斷,其中,核磁共振成像是診斷TNBC最精確的影像檢查技術,診斷符合率高達98.28%,但其存在檢查費用昂貴、耗時長的問題;X線攝影作為乳腺首選的影像學檢查方法,容易漏診和誤診,尤其對40歲以下患者的診斷準確性欠佳,且輻射較大,對孕婦等特殊人群不太適用[3,5-6]。因此,如何實現低成本、檢測快、無副作用的TNBC患者的分類預測非常重要。
近年來,大量研究證實microRNA(miRNA)與乳腺癌等疾病的發生、發展密切相關,其在疾病診斷中有較高的應用價值[7-8]。由于TNBC占乳腺癌的20%左右,在構建TNBC分類預測模型時存在類別不平衡的問題。傳統的機器學習算法在處理類別不平衡數據時,更關注于多數類的識別,對少數類的預測精度偏低[9]。代價敏感性學習方法結合不平衡數據的特點引入類權重概念,對傳統分類算法進行改進,提高了不平衡數據的整體分類性能[10]。
因此,本文針對TCGA(The Cancer Genome Atlas)乳腺癌數據,采用基于代價敏感性學習思想的加權隨機森林(weighted random forest,WRF),構建三陰性乳腺癌的分類預測模型。同時,將加權隨機森林與隨機森林、logistic回歸、支持向量機、LASSO和嶺回歸五種方法進行比較,為識別TNBC患者提供輔助意見。
1.資料來源
使用TCGA-Assembler軟件在TCGA網站下載乳腺癌數據[11-12],從中選取包含臨床和miRNA組學數據的女性患者共740例,其中TNBC患者81例,non-TNBC患者659例。
2.研究方法
(1)變量篩選
miRNA有1871個變量,刪除零表達值所占比例≥20%的變量后,剩余811個變量。為了降低預測變量中的冗余信息,篩選出與結局相關的變量,故在構建模型前需進行變量篩選。Fan J等人[13]提出了確定獨立篩選(sure independence screening,SIS),該方法根據預測變量與反應變量的邊際相關程度篩選出邊際相關強的變量。SIS可以快速有效地降低數據維度,篩選出重要變量,從而提高預測性能。因此,本文使用SIS對變量進行篩選,最終得到了67個變量。
(2)嶺回歸、LASSO和支持向量機
嶺回歸和LASSO是通過對系數進行約束或加罰來擬合模型的兩種方法[14-15]。二者都是將系數的估計值往0的方向進行壓縮。但LASSO可以將某些系數的估計值強制壓縮為0,使所得模型更易解釋。
支持向量機(support vector machine,SVM)通過非線性映射函數將低維輸入空間映射到高維特征空間中,并在特征空間構造判別函數對樣品進行分類[16]。
(3)隨機森林
隨機森林(random forest,RF)通過bootstrap重采樣技術,從乳腺癌原始數據中有放回地抽取n個樣本生成n棵分類樹,這n棵分類樹最終組成隨機森林,新數據的分類預測結果由分類樹投票決定[17-18]。
新數據的分類預測結果可用公式(1)表示:
(1)
其中,hi是單棵分類樹的基礎分類模型,Y是輸出變量(TNBC和non-TNBC),I(·)表示示性函數。
(4)加權隨機森林
在處理類別不平衡數據時,RF以錯誤率最小化為目標,傾向于將樣本劃分為多數類,導致其對少數類的預測精度偏低。因此,基于代價敏感性學習的思想,Chao C等人[19]提出了加權隨機森林的方法來解決上述問題。在二分類數據中,分布較大的稱為多數類,其他稱為少數類。兩個類別都有各自的權重,WRF給予少數類較大的權重,多數類較小的權重[20]。在設置不平衡數據權重時,將少數類的權重設置為2或3較合適[21]。
WRF在引入類權重后,選擇劃分屬性的基尼指數會發生改變:
(2)
Δi=i(N)-i(NL)-i(NR)
(3)
其中,N是根節點,NL和NR是左右兩個子節點,Wj是第j類的權重,nj是第j類的樣本量,Δi是節點降低的不純度。在構建分類樹時,通常選擇節點基尼指數最小的屬性為最優劃分屬性。
類權重也會影響每棵分類樹的終端節點。隨機森林每個終端節點的最終預測結果是通過綜合考慮每棵分類樹的加權投票(案例數×每個類的指定權重)來確定的。
(4)
WRF有三個重要的參數:類權重classwt的大小;每個節點隨機選擇特征的數目mtry;樹的棵樹ntree。經驗證,這三個參數分別設置為classwt=1∶2,mtry=3,ntree=400時,WRF模型的預測性能最佳。
(5)模型構建與比較
采用分層抽樣,從TNBC和non-TNBC樣本中分別抽取70%樣本作為訓練集,用于構建模型。將剩余的30%樣本作為測試集,用于評價模型的預測性能。將變量篩選后得到的67個預測變量作為輸入變量,將是否為TNBC作為結局變量,將WRF、RF、logistic回歸、SVM、LASSO和嶺回歸這六種方法在同一訓練集上構建分類預測模型,并利用測試集數據進行預測,通過靈敏度(Se)、特異度(Sp)、準確度(ACC)、受試者工作特征曲線下的面積(AUC)和G-means五個指標對模型的性能進行評價。為了保證預測結果的穩定性,抽樣和模型構建過程重復500次。
從研究結果可以看出,無論是語際錯誤,還是語內錯誤中的詞匯錯誤與句法錯誤,知識能力的不足都是其根本原因。
(6)統計方法實現
支持向量機選擇的核函數為高斯核函數,其帶寬使用默認值。logistic回歸是一個概率預測模型,概率大于0.5為患病,小于等于0.5為未患病。統計分析采用R軟件,screening包用于變量篩選,e1071包用于構建支持向量機模型,glmnet包用于構建LASSO和嶺回歸模型,randomForest包用于構建隨機森林和加權隨機森林模型。
1.研究對象的基本特征
本次研究共納入740例樣本,其中TNBC患者81例,占10.95%,non-TNBC患者659例,占89.05%;平均年齡為(58.16±13.18)歲,45~54歲年齡段的人數居多,占29.46%;生存狀態中生存人數675人,占91.22%,死亡人數65人,占8.78%;臨床分期共4個階段,其中處于Ⅰ~Ⅱ階段的人數居多,占75.14%。詳見表1。

表1 一般人口學資料
2.參數選擇
(1)加權隨機森林classwt的設置
WRF不設類權重,即類權重設置為1∶1時,分類效果并不理想(Se=0.305,Sp=0.973)。我們將類權重分別設置為1∶2、1∶3、1∶4和1∶5,并在測試數據集上進行驗證,不同類權重構建的各模型預測性能結果如表2所示。
(2)加權隨機森林mtry的選擇
在構建WRF模型時,ntree設定為默認值(ntree=500),逐漸增加變量建模,比較模型袋外數據的錯誤率均值。由圖1可以看出,特征數目為3時,模型的錯誤率最低。為進一步通過綜合評價指標AUC和G-means來評價模型的性能,故將mtry分別設置為2、3、4、5、6、7、8、9和10,并在測試數據集上進行驗證,不同特征數目時各模型的預測性能結果如表3所示。

圖1 模型錯誤率均值隨選擇特征數目變化曲線圖

表2 不同權重構建的加權隨機森林模型的預測性能比較

表3 不同特征數目的加權隨機森林模型的預測性能比較
從表3中可以看出,隨著mtry的逐漸增加,模型的靈敏度逐漸降低,特異度逐漸增加。當mtry取值為3時,模型的AUC和G-means最優,因此模型的參數mtry設定為3。
(3)加權隨機森林ntree的選擇
將參數ntree分別設置為200、400、500、600、800和1000,并在測試數據集上進行驗證,對不同樹棵數的加權隨機森林模型進行預測性能的比較,各模型的預測性能如表4所示。

表4 不同樹棵數的加權隨機森林模型的預測性能比較
從表4中可以看出,五個不同參數模型的分類效果相差不大,當ntree≥400時,各個加權隨機森林模型的各項評價指標均趨于平穩,因此模型的參數ntree設定為400。
(4)模型性能總結
表5展示了重復抽樣500次,六種機器學習方法的5個評價指標的結果。五種模型(RF、logistic回歸、SVM、LASSO和嶺回歸)的ACC值均高于0.87,Sp值均高于0.92,都偏向于識別non-TNBC樣本。但這五個模型的Se都較低,分別為0.309、0.466、0.012、0.122、0.105,可以看出傳統的機器學習方法對少數類(TNBC患者)的識別能力較差。
從表5RF和WRF的評價指標可得,WRF在Se、AUC和G-means指標上均明顯優于RF。尤其在Se指標上,WRF比RF高出了0.543,可見在分析不平衡數據時WRF能夠有效地識別少數類患者。
根據綜合指標AUC值和G-means值來看,WRF的分類預測性能最好,其AUC值為0.862、G-means值為0.861,其余各指標的值參見表5。綜上,WRF在多個指標上明顯優于其他五種方法,可幫助臨床醫生識別TNBC患者。

表5 六種機器學習方法在三陰性乳腺癌預測中的結果比較
構建TNBC的分類預測模型時,大多是利用圖像特征來構建分類預測模型。Wu T等人[22]利用超聲圖像特征構建了logistic回歸模型,其靈敏度和特異度分別為0.869 和0.829。Wang J等人[23]在提取核磁共振圖像的特征后,使用支持向量機構建了TNBC的分類預測模型,模型的靈敏度和特異度分別為0.570和0.947。然而,通過提取圖像特征構建的模型靈敏度或特異度較低,使就診患者存在較高的被誤診或漏診的可能性,在用于輔助臨床診斷時尚不能讓人滿意。
miRNA與人類多種疾病密切相關,其對疾病分類預測有重要的臨床意義。蔡莉等人[24]使用miRNA識別多發性骨髓瘤患者時,靈敏度達0.86。張杰銘等人[25]發現循環miRNA在鼻咽癌患者的診斷中有重要的潛在價值,模型AUC值高達0.91。本研究對乳腺癌數據進行了挖掘,探索了miRNA在篩檢TNBC患者中的臨床意義,發現使用miRNA數據對TNBC進行預測時效果良好,提示miRNA在TNBC分類預測中有潛在的生物學價值。
針對傳統機器學習在處理類別不平衡數據時不能有效識別少數類的問題,本研究在建模時運用了基于代價敏感性學習思想的WRF方法,其構建的模型有良好的分類預測性能。WRF在處理不平衡數據時,有兩大優勢:不同于重采樣技術需要將原始的不平衡數據構造為類別平衡的數據集,WRF不需要改變原始數據的結構,其在構建模型的過程中,所用的醫學數據仍能夠代表該疾病的普遍發生率;WRF通過對不同類別設置權重,讓少數類的權重增大,從而加大少數類錯分的代價,使模型對成本敏感,達到錯分代價最小化的目的,讓模型在保持了較高特異性的同時,也能夠提高對少數類預測的準確性。
綜上所述,加權隨機森林是一個良好的分類器,有助于識別三陰性乳腺癌患者,能夠為三陰性乳腺癌的診斷提供理論指導,同時加權隨機森林算法也為在運用醫學非均衡數據構建疾病分類預測模型時提供了思路。