999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多步驟決策樹方法在基因表達數(shù)據(jù)上的應用研究*

2017-03-09 08:18:02哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計學教研室150081馬李冰李貞子
中國衛(wèi)生統(tǒng)計 2017年1期
關(guān)鍵詞:分析方法

哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計學教研室(150081) 馬李冰 侯 艷 李貞子 李 康

多步驟決策樹方法在基因表達數(shù)據(jù)上的應用研究*

哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計學教研室(150081) 馬李冰 侯 艷 李貞子 李 康△

基因芯片技術(shù)得到的基因表達譜數(shù)據(jù)具有維數(shù)高、噪聲大、樣本量小、非線性等特點,如何從高維數(shù)據(jù)中提取含在其中的生物學信息,是醫(yī)學和生物學研究中面臨的一個重大挑戰(zhàn)。基因表達數(shù)據(jù)分析的重要任務是篩選差異表達基因及對基因或樣品進行分類,通過比較正常和疾病狀態(tài)下基因表達的差異,研究疾病的發(fā)病機制、早期診斷和治療方法。

目前用于高維組學數(shù)據(jù)的變量篩選方法主要有單變量篩選和多變量篩選[1],常用的單變量篩選方法有Satterthwaitt檢驗、SAM(significance analysis of microarrays)法、Wilcoxon秩和檢驗等;多變量篩選方法有隨機森林(random forest,RF)、Boost方法等方法。單變量和多變量篩選各有優(yōu)缺點,單變量篩選方法簡單而快速,獨立于判別模型,但是不考慮變量之間的相關(guān)關(guān)系;多變量篩選方法則能夠考慮變量之間的交互作用。然而,任何一種多變量分析方法都有其局限性,如其適用范圍和分析重點不同,為此可以把不同的分析方法結(jié)合在一起,對數(shù)據(jù)進行分析,可以得到更為豐富和可靠的結(jié)果。

本文在ClarLynda[2]等提出的多步驟分析策略的基礎上,給出了一種新的多步驟決策樹分析方法,這種方法將不同的數(shù)據(jù)降維方法有機融合在一起,先對數(shù)據(jù)進行變量初篩,然后對篩出來的差異變量做指標聚類,對每一類做主成分分析,用幾個主成分基因進行判別分析。多步驟決策樹經(jīng)過多次降維,使數(shù)據(jù)維數(shù)災難大大降低,提高的數(shù)據(jù)分析的效能,決策樹判別分析也為疾病分型提供依據(jù),逆向?qū)ふ腋髦鞒煞窒嚓P(guān)的差異基因,可對疾病的發(fā)病機制提供有效的信息。本文在簡要介紹多步驟決策樹方法的基礎上,通過實際數(shù)據(jù)分析,探索其準確性,并與單變量篩選SAM和多變量篩選RF進行比較。

原理與方法

多步驟決策樹(multistep decision tree,MDT)是針對高維組學數(shù)據(jù)的一種篩選方法,即將變量篩選、變量聚類和主成分分析結(jié)合在一起的分析方法,主要有四個連續(xù)的步驟組成,流程如圖1所示,具體分析過程如下:

圖1 多步驟決策樹分析流程圖

1.用SAM方法篩選差異基因

首先使用SAM對原始的基因表達矩陣進行單變量篩選,得到“差異基因”。SAM變量篩選的閾值選擇q≤0.05,q≤0.05的基因即為有意義的差異基因,其中q為經(jīng)FDR(false discovery rate,錯誤發(fā)現(xiàn)率)校正后的P值。

SAM是目前被認為較好的基因篩選方法[3],其基本思想就是在傳統(tǒng)的t檢驗公式的分母上加上一個較小的正數(shù)S0(S0是能夠使變異系數(shù)最小的值),使構(gòu)建的統(tǒng)計量在分子(均數(shù)差值)較小的情況下不容易得到較大的值[4]。針對每個基因i,d(i)能夠反映基因表達強度與類別之間的關(guān)系。具體的算法如下:

(1)

(2)

(3)

2.變量聚類分析

為了對數(shù)據(jù)進一步進行降維,對上述篩選得到的差異基因做變量聚類分析。變量聚類是依據(jù)變量之間的距離,把可能相關(guān)的變量聚為一類。通常有兩種變量聚類方法:一種是用變量的相關(guān)矩陣進行聚類,另一種是用因子分析或者主成分分析得到的變量結(jié)構(gòu)進行聚類。最常用的是第一種,即先計算變量之間的距離矩陣(如,相關(guān)矩陣),然后對相關(guān)系數(shù)矩陣做聚類,最后獲得同質(zhì)的聚類[5]。

本研究采用相關(guān)矩陣進行變量聚類。首先對差異基因矩陣做相關(guān)分析,然后計算相關(guān)矩陣的歐幾里得(Euclid)距離,用最長距離法(completelinkagemethod)將相關(guān)的差異基因聚類,聚類的結(jié)果為6類,分別記為類clustA,clustB,……,clustG。

3.主成分分析

為了將不同聚類類別的基因作為整體進行判別分析,降低維數(shù)災難,本研究進一步對每個聚類類別的基因做主成分分析,構(gòu)建主成分基因。以碎石圖為依據(jù)選擇最佳主成分(PCs)個數(shù),所有能夠解釋該類基因50%方差的主成分都會被選擇,每個主成分基因(metagenes)是該聚類中的基因表達變量與其載荷的矩陣相乘。如聚類3中有2個主成分基因,分別記為clustC-1,clustC-2。

4.決策樹

決策樹是一種基于信息論的直觀快速分類方法,將對象空間劃分為若干子集。目前決策樹方法中比較流行的算法有ID3、C4.5、CART和SPRINT等[7]。其中最具有代表性的是Quinlan提出的C4.5算法[8]。C4.5算法是ID3的改進算法,該算法根據(jù)信息增益率(informationgainratio)來選擇變量,改善了ID3算法用信息增益選擇屬性的缺點,同時C4.5能對連續(xù)屬性進行離散化處理,克服了ID3只能處理離散變量的不足。

信息增益率指信息增益與初始信息量的比值[7],對于樣本集T,設樣本量為n,共有m個類別,類別i在總樣本集中出現(xiàn)的概率Pi,I(T)為樣本集T的信息熵,那么樣本集T的信息熵是:

(4)

假設根據(jù)變量A將樣本集T劃分為v個子集,其中子集Tj包含的樣本個數(shù)為nj,則劃分后的熵為

(5)

為了觀察主成分基因?qū)膊〉呢暙I大小,以及對數(shù)據(jù)分類判別的效果,可以在構(gòu)建主成分基因的基礎上研究疾病分型,并結(jié)合生物學功能數(shù)據(jù)庫研究發(fā)病機制。本研究采用C4.5算法根據(jù)研究對象狀態(tài)構(gòu)建決策樹,使用前剪枝法進行決策樹修剪,修剪規(guī)則是每個終點葉上至少包含總的研究對象的10%,即最小實例數(shù)(minNumObj)不小于總樣本數(shù)的10%。為避免過擬合,在此對層數(shù)不做限制,采用十折交叉驗證(cross-validation)的方法進行判別分析,并計算靈敏度、特異度和信息比,評價判別模型的預測效果。

實例分析

為研究多步驟決策樹方法在實際高維基因表達數(shù)據(jù)上的效果,選取3個卵巢癌基因表達數(shù)據(jù)進行分析,數(shù)據(jù)的基本情況如表1。為與單獨使用一種的變量篩選方法比較,分別對多步驟決策樹、SAM和隨機森林篩選出來的變量構(gòu)建決策樹判別模型,比較其在基因表達數(shù)據(jù)上的分析效果和預測的準確性。

表1 三個卵巢癌基因表達數(shù)據(jù)的樣本分布情況

1.GSE12470數(shù)據(jù)分析

多步驟決策樹分析:首先用SAM進行變量篩選,篩選出健康、早期、晚期差異基因256個;對這256個差異基因進行指標聚類,聚為6類,分別記為ClusterA,…,ClusterF;然后分別對這6個類別進行主成分分析,按照貢獻率大于50%,每一類最佳主成分個數(shù)分別是1,1,1,1,1,2,將各主成分載荷分別與原始變量矩陣相乘,產(chǎn)生出7個主成分基因,分別記為ClusterA-1,ClusterB-1,ClusterC-1,ClusterD-1,ClusterE-1,ClusterF-1,ClusterF-2。

SAM分析:單變量篩選用SAM方法,依然選用q≤0.05的變量,篩選出健康、早期、晚期差異基因256個。

RF分析:多變量篩選選擇隨機森林,隨機森林樹設置為500(ntree=500),每個分裂點樣本預測個數(shù)設置為(mtry=148),分別選擇前50,100,200,300個差異基因。

使用十折交叉驗正方法對決策樹模型進行評價。根據(jù)研究對象狀態(tài)共構(gòu)建了5棵決策樹,分別分析這些主成分基因?qū)】怠⒃缙凇⑼砥诘呐袆e效果,以及不同兩類的分類效果,并選擇靈敏度、特異度、信息比作為評價指標,結(jié)果如表2所示。

圖2繪出了GSE12470數(shù)據(jù)分析判別的靈敏度和特異度。結(jié)果表明,在靈敏度、特異度上,多步驟決策樹通過多步降維得到主成分基因的判別分析的效果多數(shù)情況下優(yōu)于單純的SAM分析和隨機森林分析,信息比結(jié)果也顯示,多數(shù)情況使用多步驟決策樹方法建立的模型能提供更多的預測信息。

圖3為GSE12470數(shù)據(jù)分析得到的決策樹圖。由圖可知,在區(qū)分不同疾病狀態(tài)時,不同的主成分基因?qū)膊顟B(tài)的作用不同。聚類A的主成分基因能夠區(qū)分健康對象和早期卵巢癌患者,聚類B能夠區(qū)分健康對象和晚期卵巢癌患者,聚類E能夠區(qū)分早期卵巢癌和晚期卵巢癌患者。

表2 GSE12470數(shù)據(jù)分析的判別效果比較

圖2 GSE12470數(shù)據(jù)分析判別靈敏度、特異度、信息比

圖3 GSE12470決策樹圖

為研究A、B和E這3個聚類所包含的差異基因,可以逆向?qū)ふ覙?gòu)成這些主成分基因的差異基因,如在KEGG中尋找這些差異基因的通路,并在文獻中查找該基因是否與卵巢癌相關(guān)。表3結(jié)果顯示,在能查到通路的差異基因中,聚類A有33.33%的基因在同一通路,聚類B中有45.45%的基因在同一通路,聚類E有38.46%的基因在同一通路,通過查閱文獻,上述每類中都有確定與卵巢癌發(fā)病機制相關(guān)的基因,并有一些基因與其他的癌癥相關(guān),這些基因有可能是卵巢癌的潛在標志物。

表3 聚類A,B,E中的基因通路查詢結(jié)果

2.GSE18520和GSE26712數(shù)據(jù)分析

為驗證多步驟決策樹分析數(shù)據(jù)的效果,同時分析了第二個和第三個基因表達數(shù)據(jù)。

對于數(shù)據(jù)GSE18520,SAM篩選出差異基因3206個,聚為6類,進行主成分分析后,對主成分基因進行決策樹建模。隨機森林篩選變量后,分別取前 500,

1000,2000,3000,3206,用決策樹建模。對于數(shù)據(jù)GSE26712,SAM篩選出差異基因3539個,聚為6類,用相同的方法進行分析(RF取500,1000,2000,3000,3539個基因)。模型評價用十折交叉驗證方法,并用靈敏度、特異度和信息比對判別效果進行比較,結(jié)果如表4和圖4。結(jié)果顯示,多步驟決策樹在這兩組數(shù)據(jù)中的分析效果都較單純SAM和單純隨機森林變量篩選方法更優(yōu)。

表4 GSE18520和GSE26712分析判別效果比較

討 論

分析基因組學數(shù)據(jù),多步驟決策樹方法有幾個優(yōu)點:首先,通過不同分析階段對數(shù)據(jù)降維,能更好地揭示基因組學數(shù)據(jù)結(jié)構(gòu);其次,在各個分析階段最大程度保留了數(shù)據(jù)變量的信息,使結(jié)果解釋變得更加容易;再有,分析的最后一步構(gòu)建的決策樹對數(shù)據(jù)結(jié)構(gòu)和分布無任何假定,可以較好地進行分類;最后,可以通過建立的預測模型逆向?qū)ふ覙?gòu)成主成分基因的各差異基因,并可以根據(jù)主成分基因的構(gòu)造,結(jié)合生物數(shù)據(jù)庫進一步研究基因的功能。三個實際數(shù)據(jù)分析都表明本文給出的方法較單一分析方法更為有效。多步驟決策樹方法主要的局限性是多步驟決策樹使用了不同方法,前面分析方法的效果會影響后面分析的效果。盡管如此,多步驟決策樹方法提供了一種新的分析思路,目的是提高數(shù)據(jù)挖掘和分析的效率。

圖4 GSE18520和GSE26712判別分析效果

[1]Saeys Y,Inza I,Larranaga P.A review of feature selection techniques in bioinformatics.Bioinformatic,2007,23(19):2507-2517.

[2]Williams-DeVane CR,Reif DM,Hubal EC,et al.Decision tree-based method for integrating gene expression,demographic,and clinical data to determine disease endotypes.BMC Systems Biology,2013,7:119.

[3]Tusher V G,Tibshirani R,Chu G.Significance analysis of microarrays applied to the ionizing radiation response.Proc Natl Acad Sci USA,2001,98:5116-5121.

[4]趙發(fā)林,閆曉光,李康.幾種差異基因分析方法及篩選效果比較.中國衛(wèi)生統(tǒng)計,2008,25(4):354-356.

[5]Bandyopadhyay S,Mukhopadhyay A,Maulik U.An improved algorithm for clustering gene expression data.Bioinformatics,2007,23(21):2859-2865.

[6]Wold S.Principle Component Analysis.Chemometrics and Intelligent Laboratory Systems,1987,2:37-52.

[7]陳安,陳寧,周龍驤.數(shù)據(jù)挖掘技術(shù)及應用.北京:科學出版社,2006.

[8]李楠,段隆振,陳萌.決策樹C 4.5算法在數(shù)據(jù)挖掘中的分析及應用.計算機與現(xiàn)代化,2008,12(4):160-163.

[9]Quinlan JR.Induction of Decision Tree.Machine Learning,1986,1:81-106.

[10]Kosuke Yoshihara,Atsushi Tajima,et al.Gene expression profiling of advanced-stage serous ovarian cancers distinguishes novel subclasses and implicates ZEB2 in tumor progression and prognosis.Cancer Sci,2009,10(8):1421-1428.

[11]Mok SC,Bonome T,Vathipadiekal V,et al.A Gene Signature Predictive for Outcome in Advanced Ovarian Cancer Identifies a Survival Factor:Microfibril-Associated Glycoprotein 2.Cancer Cell,2009,16(6):521-532.

[12]Bonome T,Levine DA,Shih J,et al.A Gene Signature Predicting for Survival in Suboptimally Debulked Patients with Ovarian Cancer.Cancer Res,2008,68(13):5478-5486.

(責任編輯:郭海強)

國家自然科學基金資助(81302511,81473072);黑龍江省博士后資助經(jīng)費(LBH-Z14174)

△通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn

猜你喜歡
分析方法
隱蔽失效適航要求符合性驗證分析
學習方法
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統(tǒng)及其自動化發(fā)展趨勢分析
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
中西醫(yī)結(jié)合治療抑郁癥100例分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 国产肉感大码AV无码| 综合天天色| 老司机久久99久久精品播放| 久久精品只有这里有| 免费无遮挡AV| 蜜芽国产尤物av尤物在线看| 亚洲精品成人片在线观看| 亚洲综合一区国产精品| 人妻精品久久无码区| 91色在线观看| 亚洲大学生视频在线播放| 亚洲AV成人一区二区三区AV| 亚洲欧美在线精品一区二区| 精品一区国产精品| 国产在线精彩视频论坛| 中文字幕在线看| 日韩天堂视频| 久久精品91麻豆| 日韩AV无码免费一二三区| 欧美精品啪啪一区二区三区| 午夜成人在线视频| 高清无码不卡视频| 国产一级无码不卡视频| 久久久黄色片| 97成人在线观看| 久久久91人妻无码精品蜜桃HD| 亚洲国产成人久久77| 精品無碼一區在線觀看 | 国产在线高清一级毛片| 国产成人在线小视频| 国产尹人香蕉综合在线电影| 国产一区二区三区夜色| 亚洲欧美一级一级a| 亚洲美女久久| 国产精品第一区| 一级毛片免费不卡在线视频| 美女免费精品高清毛片在线视| 狠狠亚洲婷婷综合色香| 亚洲三级成人| 青青草原国产av福利网站| 手机精品福利在线观看| 国产福利影院在线观看| 国产一级毛片高清完整视频版| 2024av在线无码中文最新| 亚洲黄网在线| 国产美女久久久久不卡| 亚洲天堂啪啪| 国产打屁股免费区网站| 国产视频欧美| 全免费a级毛片免费看不卡| 日韩天堂在线观看| 国产九九精品视频| 欧洲免费精品视频在线| 九月婷婷亚洲综合在线| 在线无码九区| 久久久久国产一区二区| 久久精品中文字幕少妇| 国产亚洲欧美在线视频| 欧美一级大片在线观看| 人人看人人鲁狠狠高清| 第一区免费在线观看| 一区二区三区四区精品视频| 国内精品视频| 国产成人亚洲综合A∨在线播放| 亚洲精品第一页不卡| 亚洲综合色吧| 一级全黄毛片| 无码人妻热线精品视频| 精品国产免费观看一区| 色妞永久免费视频| 婷婷色在线视频| 国产人成乱码视频免费观看| 亚洲美女久久| 精品视频91| 免费午夜无码18禁无码影院| 国产一区二区三区精品久久呦| 亚洲精品国产综合99久久夜夜嗨| 99久久精品免费看国产电影| 欧美日韩中文国产va另类| 国产精品人莉莉成在线播放| 亚洲欧美日韩另类在线一| 欧美日韩在线亚洲国产人|