999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

比例優勢boosting算法在高維有序多分類數據分析中的應用*

2018-07-16 10:06:36哈爾濱醫科大學衛生統計教研室150081
中國衛生統計 2018年3期
關鍵詞:分類效果方法

哈爾濱醫科大學衛生統計教研室(150081) 

張圓圓 趙薇薇 侯 艷 李 康△

【提 要】 目的 探討比例優勢boosting算法在高維組學多分類有序數據中變量篩選和分類預測的應用。方法 通過模擬實驗和實例比較比例優勢boosting算法和其他常用的多分類boosting算法在變量篩選和分類效果中的差異。結果 模擬實驗表明,比例優勢boosting算法的變量篩選效果,尤其在小樣本情況下要明顯優于其他方式,分類效果略優于其他方式;實例數據分析結果表明,比例優勢boosting變量篩選效果要優于其他方式,在分類效果上略低于隨機梯度boosting,但優于其他boosting方式。結論 比例優勢boosting算法適用于高維有序多分類數據,具有實用價值。

臨床實際應用中,癌癥的分期對患者的治療和預后具有很大的影響,隨著檢測技術的不斷發展,高維組學數據(基因組學,蛋白質組學,代謝組學數據)大量涌現,利用組學數據尋找同癌癥分期相關的標志物,預測癌癥分期是臨床上一個重要研究內容。由于癌癥分期一般為多個類別,各類別間具有順序性,屬于有序多分類問題,且高維組學數據變量維數過高,常規方法無法處理。對于高維有序多分類數據的處理常使用隨機森林(random forest,RF)[1],多分類支持向量機(multi-class support vector machine,Multi-SVM)[2]等方法。近年來,人們開始重視boosting算法在多分類中的應用,這種算法通過加權組合多個基礎分類模型來提高預測效果。然而,boosting和RF、Multi-SVM兩種模型一樣,都忽略了數據標簽的有序信息。為此,針對高維有序數據有學者提出了比例優勢boosting(P/O Boosting)模型[3],該方法可以充分考慮數據標簽的有序信息,在預測分類和變量篩選上更為合理,如錯分相鄰兩類的損失與錯分相隔較遠兩類的結果顯然是不同的。本文將通過模擬實驗比較有序和無序兩種類型的boosting算法的分類預測和變量篩選的效果,并給出了應用實例。

方法和原理

1.常見多分類boosting

常見多分類boosting算法主要有Adaboost、SAMME、梯度boosting以及隨機梯度boosting等四種方法[4]。

(1)Adaboost:基本思想是在迭代過程中,通過改變錯分樣本的權重建立一系列弱分類器,然后進行加權集成,最終得到一個強分類器。這種方法主要用于二分類標簽數據,后將其擴展為多分類Adaboost.M1算法。

(2)SAMME算法:SAMME方法基于AdaBoost.M1算法,在損失函數誤差項的計算中添加了log(K-1)懲罰項,降低了弱分類器的精度要求,自提出之后被視為boosting算法在多分類問題中的主要算法。

(3)梯度boosting:同Adaboost算法不同,梯度boosting并不關注錯分樣本的權重,而是在上一模型殘差梯度減少的方向上建立新的模型,最終模型為多次迭代后的基礎模型加權加和。

(4)隨機梯度boosting:隨機梯度boosting則在梯度boosting基礎上增加了隨機化參數,即在每次迭代過程中隨機抽取一部分樣本擬合分類模型。

2. 比例優勢boosting

假定Y為K個有序類別的標簽變量,預測變量表示為X=(X1,…,XP),則比例優勢模型為

(1)

其中,f(x)是基于預測變量X的可加函數模型,θk為模型的常數項,與各類的比例相關,限制 -∞<θ1<…<θk-1<θk=∞。對于給定模型,樣本屬于類別K的概率則為

(2)

比例優勢Boosting模型則利用數據的有序信息,在損失函數的梯度方向上構建模型,即通過不斷迭代時,計算基分類器的負向梯度,將其作為新的反應變量建立新的分類器。具體算法如下所示[3]:

(2)進入循環m=m+1;

?計算模型損失函數L的負向梯度向量

(3)

?更新當前函數估計值(v為預設步長)

(4)

?固定函數模型,通過最小化經驗風險估計

(5)

直至M次后,循環結束;

(3)最終集成函數模型為

(6)

評價指標

1.分類效果評價

預測效果評價可以使用分類正確率和ROC曲線下面積(AUC),泛化的多分類AUC計算如下[5]:

(7)

這兩種指標主要用于二分類預測模型評價,也可用于多分類預測模型,但對于有序多分類來說,樣本被錯分至相鄰類別所付出的代價要比錯分至較遠類別的代價小,為此,本文給出一種新的評價指標—校正評分。

校正評分通過對樣本錯分至不同的類別時,依據類別的遠近進行懲罰,對分類器的分類效果做出綜合評價,懲罰函數如下

S=e-λd,d≥0

(8)

其中d為預測類別和真實類別之間的距離,λ為衰減系數,可根據實際問題進行自定義,本文選取λ=1。

2.變量篩選評價

為考察不同方式篩選變量的效果,通過重抽樣技術選擇訓練樣本進行建模,每次建模過程中將各變量按照變量的重要性進行排序,獲得各變量的秩次,取重復r次各變量的平均秩次作為變量的最終排序。根據模擬的差異變量個數m選擇對應前m個變量作為“差異變量”,然后計算所篩選變量的正確率。

模擬實驗

模擬四分類有序數據:設定6個差異變量x~N(0,1), 指定中間變量z,且

(9)

根據z的取值范圍,以P25,P50,P75等百分位數為界限定義有序四分類,如下所示

為在不同的情況下分別比較AdaBoost.M1、SAMME、GBM、SGBT以及P/O boosting五種方法在測試集的變量篩選效果和分類效果。分別設定N={240,120,40}三種不同樣本量的模擬數據作為訓練集建模,并對1000例的外部測試集進行預測,重復次數r=50。在此基礎上,通過調整各類別百分位數界限,以N=40為例,各類別的界限范圍分別為z≤P10,P30≤z≤P40,P60≤z≤P70以及z≥P90,比較類別間差異增大時對五種方法的影響。評價分類效果使用正確率(accuracy)、ROC曲線下面積(AUC)和校正得分(score)統計量。

模擬結果顯示,在三種不同樣本量下,使用P/O Boosting方法篩選變量的正確率分別為100%、100%、66.67%,明顯優于其他四種方法(表1)。固定樣本量,類間差異增大時,各方法變量篩選結果的差異減少,但P/O Boosting仍能獲得不弱于其他方法的篩選結果。由圖1可以看出,在分類效果上,P/O Boosting均略優于其他方法。上述模擬實驗結果表明,P/O Boosting方法的主要優勢在于篩選變量上有更好的結果,尤其是小樣本小差異情況下。

表1 不同情況下變量篩選結果比較

#單元格中分別為準確率(正確個數),N*為類間差異增大時的結果

圖1 不同情況下五種分類方法的比較

實例應用

為進一步在實際中驗證以上五種boosting算法的對比結果,選用TCGA中結直腸癌(COAD)的mRNA數據,篩選同結直腸癌分期相關的變量,預測患者的疾病分期。該數據總共包括358例樣本,20530個預測變量,經過單變量分析(非參數秩和檢驗,閾值為0.01)初篩獲得1373個變量,對初篩后的數據進行分析。隨機抽取100例作為訓練集,其余作為測試集進行建模預測,每次對變量重要性評分進行排秩獲得變量在該次建模過程中的秩次,重復以上步驟r(r=50)次后,計算平均秩次并重新排列,選取前m個變量作為各方法的差異變量,然后與所有358例樣本建模篩選的前m個變量相比較,觀察兩者的重合率,最后通過查閱文獻,確定五種方法所篩選變量中當前已有文獻報道同癌癥相關的基因所占的比例。

分析結果顯示,五種方法中,當m=20時,P/O Boosting的重合率為50%,文獻報道率為80%;當m=50時,P/O Boosting的重合率為48%,文獻報道率為76%,均表示該方法可靠性較高(表2)。從生物學上看,多數基因能夠得到較好的解釋,例如,篩選出的SCEL基因通過激活β-連環蛋白及其下游的原癌基因增強wnt信號通路,并通過SCEL-β-連環蛋白-E-鈣粘蛋白軸激活間充質—上皮細胞轉化(MET)過程,降低癌細胞的遷移和入侵[6]。再例如,篩選出的EFNB2可能是功能獲得性突變P53的靶基因,通過P53/ ephrin-B2軸參與結直腸癌中的上皮細胞-間充質轉化(EMT)過程,降低患者的化療敏感性[7]。從分類效果上看,五種方法在各分類指標中結果相差不大,P/O Boosting的AUC值略優于其他方法(圖2)。

表2 COAD數據不同樣本下各方式變量篩選效果比較

*重合率為100個樣本建模同全部樣本建模篩選出的變量重合比例

圖2 五種方法COAD數據分類結果

討  論

P/O Boosting是專門針對高維有序分類數據分析的一種方法,同常規的無序多分類模型相比,這種模型能夠考慮并利用數據的有序信息,其主要特點是在小樣本條件下,依然能夠較好地篩選出差異變量,可以為后續的機制研究以及臨床實際應用提供有益的信息。

P/O Boosting模型有一個重要的假定,即任意兩個不同累積有序類別的比數比相同,如果實際數據不滿足這一假定,對變量篩選影響不大,但可能會影響分類的效果,因此這種方法更適合于變量篩選。

有序和無序分類的主要差別是可以將相鄰類進行不斷合并,從而使建立的模型更為穩定;另一差別是錯分的損失與相隔距離有關,P/O Boosting模型在建模時并未對其加權,因此使用校正評分統計量進行評價時并未達到預期的效果,如何將該統計量應用于模型的建立過程中,需要進一步研究。

本研究給出的P/O Boosting算法的基礎分類器選擇的是樹模型,適合多種復雜的情況,實際中也可以選擇其他類型的分類器,如樣條函數等,不同基礎分類器得到的結果會略有差別。

猜你喜歡
分類效果方法
按摩效果確有理論依據
分類算一算
分類討論求坐標
迅速制造慢門虛化效果
數據分析中的分類討論
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
教你一招:數的分類
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产精品青青| 亚洲青涩在线| 欧美成人aⅴ| 国产h视频免费观看| 精品91视频| 亚洲人成高清| 国产福利一区视频| 亚洲精品视频免费| 亚洲日韩每日更新| 欧美有码在线观看| 国产精品亚洲片在线va| 久久亚洲AⅤ无码精品午夜麻豆| 亚洲AV无码乱码在线观看裸奔| 国产啪在线91| 波多野结衣视频网站| 精品无码专区亚洲| 97超级碰碰碰碰精品| a色毛片免费视频| 亚洲不卡无码av中文字幕| 这里只有精品在线| 亚洲午夜久久久精品电影院| 国产美女人喷水在线观看| 亚洲一区波多野结衣二区三区| 国产亚洲欧美日韩在线观看一区二区| 视频一本大道香蕉久在线播放 | 欧美日一级片| 国产情侣一区二区三区| 国产一级妓女av网站| 亚洲国产成熟视频在线多多| 潮喷在线无码白浆| 亚洲精品国产成人7777| 国产婬乱a一级毛片多女| 日韩av手机在线| 免费毛片a| 曰AV在线无码| 国产精品乱偷免费视频| 国产精品精品视频| Aⅴ无码专区在线观看| 91色老久久精品偷偷蜜臀| 亚洲欧美另类日本| 激情六月丁香婷婷| 欧美A级V片在线观看| 国产sm重味一区二区三区| 91久久偷偷做嫩草影院电| 中文字幕1区2区| 国内精品一区二区在线观看| 国产成人一区在线播放| 国产精品一老牛影视频| 国产美女在线观看| 人与鲁专区| 国产超碰一区二区三区| 亚洲视频欧美不卡| 国内精品手机在线观看视频| 亚洲美女AV免费一区| 亚洲va在线∨a天堂va欧美va| 国产午夜精品一区二区三| 天堂va亚洲va欧美va国产| 色噜噜在线观看| 精品欧美视频| 高h视频在线| 青青操国产视频| 国产福利免费在线观看| 欧美狠狠干| 91成人免费观看| 制服丝袜国产精品| 国产三级成人| 三级欧美在线| 免费一级毛片在线观看| 91色老久久精品偷偷蜜臀| 丝袜亚洲综合| 亚洲性视频网站| 欧美成人精品一级在线观看| 国产综合色在线视频播放线视| 性欧美久久| 美女一级毛片无遮挡内谢| 内射人妻无套中出无码| 久久精品日日躁夜夜躁欧美| 色135综合网| 国产高潮流白浆视频| 国产精品网址在线观看你懂的| 日韩国产综合精选| 国产精品亚洲综合久久小说|