999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Boosting算法對卵巢癌代謝組數據的應用研究*

2012-09-07 09:01:28武振宇賈慧珣
中國衛生統計 2012年6期
關鍵詞:分類方法模型

武振宇 賈慧珣 朱 驥△

Boosting算法對卵巢癌代謝組數據的應用研究*

武振宇1賈慧珣2朱 驥2△

目的 應用Boosting算法建立模型,對卵巢癌和非卵巢癌(卵巢囊腫和子宮肌瘤)患者的尿液代謝組數據進行分析,提取出具有生物學意義的代謝組分,為卵巢癌的早期診斷及疾病機理提供線索。方法 將決策樹與Boosting算法相結合,對患者的臨床樣品代謝組數據進行分析,并對代謝組分進行逐步篩選,得到鑒別卵巢癌患者的重要代謝組分。結果 由Boosting模型得到的排序靠前的10個差異代謝組分,能夠將卵巢癌與對照組患者進行較好的判別分類,其ROC曲線下面積達到了0.944。結論 Boosting模型可以有效地應用于卵巢癌代謝組數據,在保證較高的分類正確率的同時可以得到對分類起作用的重要的代謝組分。

代謝組學 Boosting 特征篩選

*:國家青年科學基金項目資助(81001286);“中央高校基本科研業務費專項資金”資助

1.復旦大學公共衛生學院衛生統計教研室(200032)

2.復旦大學附屬腫瘤醫院臨床資料統計室

△通訊作者:朱驥

卵巢癌是婦科常見的惡性腫瘤之一,大約有1.4%的女性會患病,其病死率很高,對婦女生命造成嚴重威脅,國內外臨床資料統計顯示其五年生存率僅25% ~30%。如果發現及時,90%的病人都能存活;若發現晚,癌細胞擴散到卵巢,存活率就低于30%。所以早期診斷治療對于卵巢癌患者提高5年生存率具有十分重要的意義。

代謝組學研究研究特點是采用高通量檢測技術,對生物體代謝情況進行整體的測量。圖1是一種代謝產物的總離子色譜圖和相應的量化表,上半部分是代謝組研究中檢測得到的代謝產物離子色譜圖,每一個峰代表某一保留時間上的一組代謝產物。下半部分是由色譜圖得到的代謝產物的量化結果。每一列代表一個觀測對象,每一行代表一個保留時間上測得的代謝產物。

圖1 代謝產物的總離子色譜圖和相應的量化表

利用代謝物(如尿液、血液)進行疾病的診斷,方法簡便、無創、患者易于接受。生物體的代謝物可能包含幾千甚至幾萬個生物特征的信息,但限于研究成本,樣本例數通常只有數十例。因此具有生物學意義的特征篩選對于高維代謝組學數據分析來說顯得尤為重要。Boosting方法作為集成算法中的一員,一直以其優異的性能吸引著廣大研究者。本研究的目的是對卵巢癌患者的代謝產物(尿液)的分析,其主要目的是篩選出能夠區分卵巢癌病人與非卵巢癌病人的生物標志物以及對樣本進行分類,通過比較正常和疾病狀態下代謝產物譜的差異,研究疾病的發生機理,為卵巢癌的臨床早期診斷、治療以及預后判斷提供重要依據和支持。

資料與方法

1.資料來源

本資料來源于2009年7月至2009年12月在哈爾濱醫科大學附屬腫瘤醫院收集37例首次發現并經病理確診為卵巢癌患者(病例組)的尿樣(10ml),同時收集患有卵巢囊腫和子宮肌瘤患者(對照組)共51例的尿樣。將所有尿樣(共88例)進行預處理后,應用高效液質聯用儀進行分析,得到23447個代謝組分。

2.研究目的和方法

(1)研究目的

①卵巢癌分類模型的建立,即采用機器學習的方法從已知的數據集中抽象出一個分類模型,使該模型能夠很好地擬合當前分類結果并能解釋其意義,對疾病的預測具有指導意義。② 對卵巢癌患者代謝產物的組分進行分析,即從患者尿液分離出的23447個代謝組分中篩選出對疾病分類起重要作用的重要組分,為卵巢癌的研究打下基礎,使模型能夠對臨床的診斷、治療及預后等實踐工作進行指導并具有解釋意義。

(2)研究方法—Boosting方法

Boosting算法〔2-3〕基于其他機器學習算法之上的用來提高算法精度和性能的方法。起初并不需要構造一個擬合精度高、預測能力好的算法,只要一個效果比隨機猜測略好的粗糙算法即可。通過不斷調用這個基算法來改變樣本分布和賦予判別模型不同的權重得以實現,最終獲得一個擬合和預測誤差都相當好的組合預測模型。

Boosting嚴格意義上不是一個具體的學習算法,它需要給定一個弱學習算法和一個訓練序列。初始化時給每個訓練例賦權重為1/N。然后用選定的弱學習算法進行第一次訓練,給訓練失敗的訓練例賦以更大的權重,也就意味著在后面的學習中集中對此類訓練例進行學習。經過T次訓練后得到一個訓練序列h1,h2,…,hT,其中hi有權重,預測效果好的預測函數權重較大,反之較小。最終的預測函數H采用有權重的投票方式產生。

Adaboost算法〔3-4〕

假定具有N個帶分類標簽的樣品序列<(x1,y1),…,(xn,yN)>,其中xi∈X,yi∈{-1,+1},N個樣品點權重的分布為D,基礎弱學習算法記為Weaklearner,迭代次數為T。

① 初始化:D1(i)=1/N,其中i=1,2,…,N,對t=1,…,T循環執行:

②用分布Dt訓練基礎學習器;

③得到弱分類器ht;

④計算ht訓練誤差εt,

⑥重新計算樣品的權重:

其中Zt=∑Dt(i)exp(-atyihi(xi))是歸一化因子(Dt+1為分布);

圖2 使用簡單的線性模型作為弱分類器的Boosting算法運算過程

Boosting算法進行變量重要性評價原理〔5-6〕

由于決策樹具有能預測變量的重要性的優點,可以對分類起作用的變量進行重要性評價,因此考慮使用決策樹作為基函數。對于Boosting算法,在給定訓練樣本和損失函數L(y,H)的前提下,其目的是找到一個決策樹模型的線性組合,使得該組合可以對損失函數進行極小化優化,即H(X)=argH(x)minEy,xL(y,H(x)),優化的過程一般沿著目標函數的梯度最速下降方向。最終得到的H(X)實際上是多個決策樹的線性組合。單個決策樹的變量重要性評分為由節點到分裂后的節點間誤差平方和的減少量,推廣到多個決策樹的問題上,即可以把每顆樹中該變量的重要性評分求均值。

模擬試驗

按代謝組數據的特點構造類似的數據,考察Boosting算法與決策樹結合后的判別分類模型對此類數據變量重要性度量的效果,設定5個對分類有作用的差異變量X1,X2,X3,X4,X5,兩組樣本含量設為n1=n2=30,兩類真實的區分度用ROC曲線下面積θ衡量,分別設置為θ=0.85,0.95,0.99。根據類間區分度來確定差異變量的均數,為簡單起見,方差均設為==1,其中X1與X2兩個變量的相關系數設為ρ=0.5。加入1000個無差異的正態變量作為干擾,產生混合樣本。應用Boosting方法構建的模型對變量重要性進行度量。重復上述步驟500次,表1給出的是預先設置的差異變量的頻數分布情況。結果顯示,θ=0.85在時獲得的結果不夠理想,而在兩種較高的區分度下,正確地將差異變量篩選到前10位的百分率分別達到了98.6%甚至于100.0%,結果令人滿意。

表1 設定的5個差異變量在變量重要性評價分析中的頻數分布

實例分析

病例入選標準,納入病例應為無代謝疾病(糖尿病、高血脂、甲亢、甲減等)的卵巢癌、良性卵巢囊腫和無癌癥及卵巢疾病的對照女性。

由于在Windows操作系統下,使用R語言構建BTS對變量的個數有一定的限制,因此首先應用單變量分析方法(SAM)做預處理后,然后再用BTS模型進行分析。經過SAM方法分析后,選取SAM得分排在前2000的代謝組分進行分析,應用Boosting組合模型對經過預處理的卵巢癌代謝組數據進行了分析,利用無放回的隨機抽樣方法,將樣本分成兩部分,其中2/3為訓練樣本,1/3為測試樣本,按此方法隨機組成1000個訓練樣本和1000個測試樣本,建立組合分類器,最后綜合評價分類效果。評價采用靈敏度(Se)、特異度(Sp)、和ROC曲線下面積(AUC)三種指標,其中AUC值為主要評價指標。

圖3 在保留了2000個代謝組分的情況下Boosting模型對卵巢癌數據分類的ROC曲線

預測效果的ROC曲線見圖3。可以看出,在保留了2000個代謝組分的情況下,對外部測試集獲得了較為理想的判別分類結果,其靈敏度(Se)和特異度(Sp)分別為0.733和0.724,而ROC曲線下面積(AUC)則達到0.801。判別分類效果不甚理想,可能是由于噪聲變量(或對分類無作用的代謝組分)太多引起的。

應用Boosting模型進行分類的同時,篩選出排序靠前的對分類起作用的變量。篩選標準是將1000次分類中篩選進來的變量出現的概率≥80% 的變量提取出來,共提出30個變量。將篩選出的這30個變量對卵巢癌數據的外部驗證集進行1000次分類判別,得到的分類結果(AUC值)的頻數圖如下,由圖4可以看出分類能力顯著提高。可見這30個變量中一定存在對分類起作用的信息。

圖4 應用篩選出的30個變量進行1000次分類得到的AUC值的頻數圖

為了篩選出最佳對分類起作用的變量,進行了進一步的變量提取工作。將30個變量按照變量重要性評分逐漸遞減,并用分類結果作驗證。從表2和圖5可以看出,當截取到10個變量的時候,分類判別能力達到理想的效果。可見這10個代謝組分可能是區分卵巢癌患者與對照組患者的重要標志物。

表2 隨著變量數目的減少分類結果AUC值的變化

圖5 隨著變量數目的減少分類結果AUC值的變化

討 論

1.卵巢癌的早期診斷與早期治療是改善預后的關鍵。在疾病早期腫瘤僅局限于卵巢時難以診斷,所以尋找有實用價值的診斷方法成了近年來的研究熱點。代謝組學的研究近年來蓬勃發展,如果我們僅通過患者的代謝物(血液或尿液)即能夠做出正確的診斷,不僅給臨床的診斷工作帶來極大的便利,也為患者減輕做病理所帶來的痛苦。所以運用代謝物來鑒別腫瘤的良惡性將是一件很有意義的工作。

2.本研究采用分類決策樹作為基礎算法,應用Boosting方法建模,在模擬數據和實際數據的應用中均取得了理想的結果。在對卵巢癌代謝組實際數據的分析中,該模型能夠在分類的同時給出差異表達代謝組分的變量重要性評分,并由進一步的分類驗證可以看出,該模型預測的準確性也能夠令人滿意,為臨床上對卵巢癌患者的診斷和治療提供了一定的依據。

3.此方法篩選出的10個代謝組分,通過HMDB數據庫的查詢,多數可能為磷脂類的物質,但由于大量同分異構體的存在,為了確保究竟是何種代謝組分,應該將物質打碎進一步做二級質譜以確定是何種代謝組分,這部分試驗尚在進行之中。

1.Jerome F,Trevor H,Robert T.Additive logistic regression:a statistical view of Boosting.The annals of Statistics,2000,28:337-407.

2.Schwenk H,Bengio Y.Boosting networks and neural computation,2000,12(8):1869-1887.

3.Servane Gey,Jean-Michel Poggi.Boosting and instability for regression trees.Computational Statistics& Data Analysis,2006,50:533-550.

4.Freund Y,Schapire R.Decision theoretic generalization of on-line learning and an application to boosting.Journal of Computer and System Science,1995,55(1):119-139.

5.李霞,何麗云,劉超.Boosting算法及其在中醫亞健康數據分類中的應用.中國衛生統計,2008,25(2):158-161.

6.Dao Li-li,Hu ke-yun,Lu Yu-chang.Improved stumps combined by boosting for text categorization.Journal of Software,2002,13(8):1361-1367.

The Study of Boosting Algorithm Applied to Ovarian Cancer Metabonomics Data

Wu Zhenyu,Jia Huixun,Zhu Ji.Department of Biostatistics,Fudan University(200032),Shanghai

ObjectiveBoosting model was built to analyze the metabonomics data from ovarian cancer and ovarian cyst patients urine.Some biological metabolites were also extracted from the data,which would provide some clues to the early diagnosis.MethodsBoosting and decision tress were combined to analyze the metabnomics data and the important metabolites were achieved according to their importance scores.ResultsThe top ten metabolites were extracted and the area under ROC curve was 0.944,which provided a better classification results than the original dataset.ConclusionBoosting could be effectively applied to the classification of ovarian cancer metabnomics data,important features could also be extracted at the same time.

Metabnomics data;Boosting;Feature selection

猜你喜歡
分類方法模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 女高中生自慰污污网站| 亚洲欧美国产五月天综合| 日韩国产欧美精品在线| 看你懂的巨臀中文字幕一区二区| 久久综合色视频| lhav亚洲精品| 日韩AV无码免费一二三区| 人人爽人人爽人人片| 色成人亚洲| 欧美激情综合| 亚洲天堂网在线播放| 亚洲经典在线中文字幕| 国产 在线视频无码| 亚洲乱码视频| 亚洲另类国产欧美一区二区| 日韩在线观看网站| 精品偷拍一区二区| 久久久91人妻无码精品蜜桃HD | 免费毛片网站在线观看| 亚洲香蕉在线| 亚洲最大综合网| 亚洲人妖在线| 国产区福利小视频在线观看尤物| 国产成人精品日本亚洲| 国产91高跟丝袜| 不卡视频国产| 在线观看国产精品日本不卡网| 久久久久亚洲Av片无码观看| 亚洲视频色图| 免费福利视频网站| 最新国产你懂的在线网址| 国产视频自拍一区| 午夜a视频| 91视频精品| 亚洲欧美极品| 五月婷婷综合在线视频| 中文字幕首页系列人妻| 亚洲不卡无码av中文字幕| 久久精品国产免费观看频道| 亚洲综合色区在线播放2019| 97国内精品久久久久不卡| 国产青青草视频| 国产呦视频免费视频在线观看| 午夜激情福利视频| 成年片色大黄全免费网站久久| 精品伊人久久大香线蕉网站| 蜜臀av性久久久久蜜臀aⅴ麻豆| 亚洲va欧美ⅴa国产va影院| 精品无码国产一区二区三区AV| 22sihu国产精品视频影视资讯| 欧美视频在线播放观看免费福利资源 | 97青草最新免费精品视频| 美女内射视频WWW网站午夜 | 毛片在线播放a| JIZZ亚洲国产| 97综合久久| 亚洲第一国产综合| 99re热精品视频中文字幕不卡| 日韩在线视频网站| 亚洲三级片在线看| 色偷偷av男人的天堂不卡| 九色免费视频| 在线观看精品自拍视频| 国产亚洲成AⅤ人片在线观看| yjizz国产在线视频网| 国产成人亚洲无码淙合青草| 在线网站18禁| 日本精品中文字幕在线不卡| 国产内射一区亚洲| 精品国产99久久| 国产一级毛片网站| 伊人成人在线视频| 欧美人人干| 亚洲性视频网站| 欧美天堂久久| 色悠久久综合| 激情亚洲天堂| 她的性爱视频| 2018日日摸夜夜添狠狠躁| 综合色亚洲| 四虎成人精品| 日本草草视频在线观看|