何蘭范繼紅滕輝潘洪明
1.齊齊哈爾醫(yī)學(xué)院基礎(chǔ)醫(yī)學(xué)院數(shù)學(xué)教研室,齊齊哈爾,161006 2.齊齊哈爾醫(yī)學(xué)院現(xiàn)代教育技術(shù)中心計算機(jī)教研室,齊齊哈爾,161006 3.齊齊哈爾醫(yī)學(xué)院醫(yī)學(xué)技術(shù)學(xué)院生化教研室,齊齊哈爾,161006
基因表達(dá)譜中特征基因選擇的幾種方法比較研究
何蘭1范繼紅2滕輝1潘洪明3
1.齊齊哈爾醫(yī)學(xué)院基礎(chǔ)醫(yī)學(xué)院數(shù)學(xué)教研室,齊齊哈爾,161006 2.齊齊哈爾醫(yī)學(xué)院現(xiàn)代教育技術(shù)中心計算機(jī)教研室,齊齊哈爾,161006 3.齊齊哈爾醫(yī)學(xué)院醫(yī)學(xué)技術(shù)學(xué)院生化教研室,齊齊哈爾,161006
基因表達(dá)譜芯片技術(shù)的產(chǎn)生,為復(fù)雜疾病致病機(jī)理的研究提供了一個全方位的視角。從大量的基因表達(dá)譜芯片數(shù)據(jù)中挖掘有用的信息,特征選擇技術(shù)起到了關(guān)鍵的作用。對當(dāng)前基因芯片數(shù)據(jù)的特征選擇方法和各種學(xué)習(xí)器效能進(jìn)行了綜述,并通過說明各種特征選擇方法的具體情況來比較它們的優(yōu)劣性,最終得出從特征自身特點(diǎn)出發(fā)的特征選擇法可獲得較好的分類效能和生物醫(yī)學(xué)的應(yīng)用。
基因表達(dá)譜;特征選擇;聚類分析;t檢驗;決策樹;支持向量機(jī)
隨著人類基因組計劃的逐步實施以及分子生物學(xué)等學(xué)科的迅猛發(fā)展,越來越多的基因組序列得以測定,人類對基因組研究的重心也進(jìn)入了后基因組時代,即從基因序列的研究轉(zhuǎn)向到基因組功能的研究。基因芯片技術(shù)就是順應(yīng)這一發(fā)展要求的高科技產(chǎn)物。基因芯片是根據(jù)堿基互補(bǔ)的原理,通過檢測雜交信號的強(qiáng)度及分布來進(jìn)行分析的。基因芯片技術(shù)經(jīng)過近二十年的發(fā)展,已成為一個非常穩(wěn)定和可信度極高的實驗技術(shù)[1-2]。基因芯片技術(shù)的產(chǎn)生是功能基因組研究的一個重大突破,運(yùn)用基因芯片技術(shù)可以進(jìn)行正常和異常細(xì)胞中基因的表達(dá)檢測,基因突變檢測,分析復(fù)雜疾病的致病機(jī)理,為疾病的個性化診斷和治療提供指導(dǎo),同時在藥物篩選和開發(fā)、環(huán)境保護(hù)、司法鑒定等方面也有重要的應(yīng)用。
面對人類約3萬個基因的30億個堿基對序列,近年來,通過基因芯片技術(shù)進(jìn)行生物研究時也產(chǎn)生了浩如煙海的表達(dá)譜數(shù)據(jù),研究如此海量的基因在生命過程中所擔(dān)負(fù)的功能就成了新的課題。基因表達(dá)譜是一組表達(dá)數(shù)據(jù),通常用矩陣表示,行代表基因,列代表樣本,矩陣中的元素代表基因在特定樣本中的表達(dá)水平和豐度信息。據(jù)研究表明,并不是所有基因?qū)膊∵z傳、診斷、治療或醫(yī)學(xué)研究都有決定性作用[3]。因此,為了從大量的表達(dá)數(shù)據(jù)中挖掘有重要應(yīng)用價值和研究意義的基因,發(fā)現(xiàn)對疾病診斷、預(yù)測具有很強(qiáng)鑒別力的基因組,如何有效地提取與疾病有關(guān)的特征基因,降低特征基因的維數(shù)是基因表達(dá)譜數(shù)據(jù)分析的核心問題,也對樣本分類起到關(guān)鍵性的作用[4-6]。
目前,很多科技工作者在研究中提出了特征基因提取的方法和理論,較早獲得的有聚類分析法、人工神經(jīng)網(wǎng)絡(luò)等特征基因選擇法,近年來又有集成數(shù)據(jù)選擇法[7]、非線性降維選擇法[8],應(yīng)用t檢驗、決策樹、支持向量機(jī)等特征基因選取方法。本文針對幾種特征基因選擇方法進(jìn)行介紹,并用不同的分類器比較評價其效能。
最常用的是層次聚類法,這種方法是通過計算各數(shù)據(jù)點(diǎn)間的距離,然后把最近距離聚為一組,再計算各組之間的距離,然后把它們合并成一個更大的組,不斷重復(fù)該過程直到最后聚成一組以樹狀結(jié)構(gòu)的數(shù)據(jù)。這種做法的結(jié)果非常直觀,而且還可以根據(jù)樹狀結(jié)構(gòu)分支的長短來評價基因的相似性。
在用K-means聚類法進(jìn)行分析時,因為缺乏先驗知識,所以事先不能確定k值。把k作為一個變量處理,從2開始遞增,對每個k值都根據(jù)模式質(zhì)量對特征基因進(jìn)行評估,然后遴選出最優(yōu)的基因集作為特征基因集。不斷重復(fù)這一過程,k值遞增,直到找出一個模式質(zhì)量最大的k值為止。
數(shù)據(jù)采用美國Affymetrix(昂飛)公司的結(jié)腸癌基因表達(dá)實驗數(shù)據(jù)(www.sph.uth. tmc.edu/hgc),原實驗點(diǎn)有65000個寡聚核苷酸探針組的基因芯片,樣本包括40例結(jié)腸癌組織和22例正常結(jié)腸組織。我們僅采用U.ALON等篩選出的2000個基因表達(dá)譜數(shù)據(jù)進(jìn)行分析[9]。
這種方法主要是運(yùn)用統(tǒng)計學(xué)上的兩組獨(dú)立樣本t檢驗,此方法的零假設(shè)H0是兩總體的均值相等,備擇假設(shè)H1為均值不等。應(yīng)用檢驗結(jié)果可以尋找兩組數(shù)據(jù)間表達(dá)有差異的基因,又由于在實驗中進(jìn)行了多次假設(shè)檢驗,從而涉及多重檢驗問題,第一類錯誤會上升,所以可根據(jù)具體情況對每個基因的值進(jìn)行相應(yīng)調(diào)整,確定檢驗的顯著性水平為0.05。通過統(tǒng)計軟件SAS對兩總體做t檢驗,計算每一個基因的t值,并降序排列,分別篩選t值最大的前5至10個基因。最后引入n重交叉驗證法[10],來驗證所選特征基因的樣本識別率。
決策樹是以實例為基礎(chǔ)的歸納學(xué)習(xí)方法。它通常是利用已知類別的樣本信息,采用自上而下的方式來生成的。決策樹的內(nèi)部節(jié)點(diǎn)表示在一個屬性上的測試,通過比較不同節(jié)點(diǎn)的屬性值來判斷下一個節(jié)點(diǎn)的分支,直到找到的節(jié)點(diǎn)中包含的樣本滿足某個條件為止。這樣,當(dāng)一個決策樹生成時,它的每一個內(nèi)部節(jié)點(diǎn)的分割都對應(yīng)著一個特征屬性。
如選定一個p維樣本,將樣本集分為訓(xùn)練集和試驗集。為尋求一個最能改善分類正確率的特征屬性,從所有訓(xùn)練集的根節(jié)點(diǎn)開始,為了選擇一個最好的特征,在特征空間做一次窮盡搜索,尋找一個特征屬性和相應(yīng)的閥值,使得最大程度地減少類別節(jié)點(diǎn)的雜質(zhì)度。重復(fù)以上分支遞歸過程,可得到?jīng)Q策樹上的一套特征子集[11]。試驗證明,決策樹特征基因選擇法對支持向量機(jī)具有良好的有效性。
支持向量機(jī)分類方法是建立在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上的,在有限的樣本信息和學(xué)習(xí)能力之間尋求最佳,使復(fù)雜度和結(jié)構(gòu)風(fēng)險達(dá)到最小,以期獲得最好的推廣能力[12]。在有監(jiān)督分析獲取特征基因的過程中,不僅要使分類器的VC維低,同時也要使經(jīng)驗風(fēng)險最小。支持向量機(jī)可以這樣表述,首先將已知向量映射到一個高維空間里,使得向量在高維空間里可分,并且線性函數(shù)只需在高維空間進(jìn)行內(nèi)積運(yùn)算,這樣就避開了高維變換計算問題。然后再尋找一個最佳超平面,讓這個超平面把數(shù)據(jù)分開在兩邊,并且使每一類別數(shù)據(jù)之間的分類間隔最大,這樣可以降低結(jié)構(gòu)風(fēng)險。通過大量試驗證明,支持向量機(jī)在解決小樣本、非線性問題中表現(xiàn)出特有的優(yōu)勢,且分類精度高,抗噪能力強(qiáng)。同時支持向量機(jī)對高維模式識別具有很強(qiáng)的泛化能力[13]。
根據(jù)特征選擇技術(shù)和特征集成技術(shù)找出的特征基因分類效能如何,可用下面四種分類器進(jìn)行評價[14]。
這種方法把p維空間的樣本投影到一條直線上,形成一維空間,即把維數(shù)壓縮為一維。通過尋找最佳的投影方向,使樣本在一維空間達(dá)到較好的分離效果。
這種方法主要是運(yùn)用Logistic回歸模型,計算疾病發(fā)生的概率p及疾病不發(fā)生的概率q,通過比較p和q的大小來判別樣本所屬類型。
該方法是把均值作為各類的代表點(diǎn),用距離作為判別函數(shù)進(jìn)行分類,即通過比較檢驗樣本與代表點(diǎn)的距離來判別樣本所屬類別的一種方法。
該方法對于每個檢驗樣本都找出與之距離最近的K個鄰居,以這K個鄰居中占主導(dǎo)的類別作為檢驗樣本的類別。而對于基因表達(dá)譜數(shù)據(jù),較合理的衡量基因之間距離的方法是Pearson相關(guān)系數(shù)。鄰居數(shù)K可用交叉證實的方法確定。
基因芯片數(shù)據(jù)對疾病進(jìn)行分類診斷是生物醫(yī)學(xué)中重要的應(yīng)用領(lǐng)域,但是基因芯片的特征選擇面臨的是海量的檢測數(shù)據(jù),從成千上萬的數(shù)據(jù)中尋找特征基因的方法和效能檢驗就顯得尤為重要。
對于不同的基因芯片數(shù)據(jù)集,不同的特征選擇算法的性能優(yōu)勢也不盡相同。有的算法分類正確率高,但是所需基因數(shù)較多;有的算法需要較少的基因,但是復(fù)雜度高;有的所需基因較少,分類正確率也不低,但是結(jié)果卻和疾病的機(jī)理相關(guān)性小。因此,考慮到一個好的基因芯片數(shù)據(jù)的特征選擇法應(yīng)具有的條件,把上述多種算法有效地相結(jié)合[15],綜合每種方法的優(yōu)勢,可得到分類、性能各方面都令人滿意的結(jié)果,即從特征自身特點(diǎn)出發(fā)的特征選擇法可獲得較好的分類效能和生物醫(yī)學(xué)的應(yīng)用。
[1]李霞.生物信息學(xué)[M].北京:人民衛(wèi)生出版社,2010:110~128.
[2]孫繼勇.基因表達(dá)譜的數(shù)據(jù)分析[J].國際病理科學(xué)與臨床雜志,2005,25(5),386~389.
[3]余偉峰,王廣倫,錢夕元.基于GA/SVM的微陣列數(shù)據(jù)特征的選擇和分類[J].計算機(jī)工程,2007,33(19),204~206.
[4]張玉春,郝平波,王明宇,等.確定腫瘤基因表達(dá)譜特征基因方法的研究[J].沈陽理工大學(xué)學(xué)報,2011,30(1),34~38.
[5]A Buness, M. Ruschhaupt, and R. Kuner,Classification across gene expression microarray studies[J]. BMC Bioinformatics, 2009,(10):453.
[6]呂颯麗,汪強(qiáng)虎,李霞,等.基于決策森林特征基因的兩種識別方法[J].生物信息學(xué),2004,(3):19~22.
[7]王海鵬,楊昆.集成數(shù)據(jù)選擇特征基因[J]杭州電子科技大學(xué)學(xué)報,2010,30(6),17-20.
[8]楊廣源,付旭平,黃燕等.一種非線性降維和Procrustes分析的基因選取方法[J].復(fù)旦學(xué)報(自然科學(xué)版),2009,48(3),338~347.
[9]Alon U,Barka I , Notterman D,et al. Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon cancer tissues probed by oligonucleotide arrays[J]. Cell Biology, 1999,(96)∶6745~6750.
[10]趙肖肖,朱寧,黃云騰.Logistic回歸和T檢驗在基因特征提取中的應(yīng)用[J].桂林電子科技大學(xué)學(xué)報,2012,32(1),69~71,81.
[11]李霞,饒紹奇,張?zhí)镂模?應(yīng)用DNA芯片數(shù)據(jù)挖掘復(fù)雜疾病相關(guān)基因的集成決策方法[J].中國科學(xué) C輯 生命科學(xué),2004,34(2):195~202.
[12]. 李霞,張?zhí)镂?李麗,等.決策樹特征基因選擇方法對SVM有效性的研究[J].中國生物醫(yī)學(xué)工程學(xué)報,2004,23(1),66~23.
[13]. 楊俊麗,劉田福,李祥生.樣本類型無關(guān)的多類特征基因選擇方法[J].計算機(jī)工程與應(yīng)用(優(yōu)先出版),2012,1~5.
[14]王海蕓,李霞,郭政,等.四種模式分類方法應(yīng)用于基因表達(dá)譜分析的比研究[J].生物醫(yī)學(xué)工程雜志,2005,22(3),505~509.
[15]周!,何潔月.生物信息學(xué)中基因芯片的特征選擇技術(shù)綜述[J].計算機(jī)科學(xué),2007,34(12),143~150.
A
R311;R319
10.3969/j.issn.1001-8972.2012.14.064
齊齊哈爾市科學(xué)技術(shù)局科學(xué)技術(shù)計劃項目資助
何蘭(1970-),女,碩士,副教授,研究方向:生物信息學(xué)
范繼紅(1968-),女,碩士,副教授,研究方向:生物信息學(xué)
滕輝(1977-),女,碩士,講師,研究方向:生物信息學(xué)
潘洪明(1969-),男,碩士,教授,研究方向:表觀遺傳學(xué)和細(xì)胞信號轉(zhuǎn)導(dǎo)。