基因表達(dá)譜中特征基因選擇的幾種方法比較研究

2012-01-27 20:43:25何蘭范繼紅滕輝潘洪明

中國科技信息 2012年14期

何蘭范繼紅滕輝潘洪明

1.齊齊哈爾醫(yī)學(xué)院基礎(chǔ)醫(yī)學(xué)院數(shù)學(xué)教研室，齊齊哈爾，161006 2.齊齊哈爾醫(yī)學(xué)院現(xiàn)代教育技術(shù)中心計算機(jī)教研室，齊齊哈爾，161006 3.齊齊哈爾醫(yī)學(xué)院醫(yī)學(xué)技術(shù)學(xué)院生化教研室，齊齊哈爾，161006

何蘭1范繼紅2滕輝1潘洪明3

基因表達(dá)譜芯片技術(shù)的產(chǎn)生，為復(fù)雜疾病致病機(jī)理的研究提供了一個全方位的視角。從大量的基因表達(dá)譜芯片數(shù)據(jù)中挖掘有用的信息，特征選擇技術(shù)起到了關(guān)鍵的作用。對當(dāng)前基因芯片數(shù)據(jù)的特征選擇方法和各種學(xué)習(xí)器效能進(jìn)行了綜述，并通過說明各種特征選擇方法的具體情況來比較它們的優(yōu)劣性，最終得出從特征自身特點(diǎn)出發(fā)的特征選擇法可獲得較好的分類效能和生物醫(yī)學(xué)的應(yīng)用。

基因表達(dá)譜；特征選擇；聚類分析；t檢驗；決策樹；支持向量機(jī)

引言

隨著人類基因組計劃的逐步實施以及分子生物學(xué)等學(xué)科的迅猛發(fā)展，越來越多的基因組序列得以測定，人類對基因組研究的重心也進(jìn)入了后基因組時代，即從基因序列的研究轉(zhuǎn)向到基因組功能的研究。基因芯片技術(shù)就是順應(yīng)這一發(fā)展要求的高科技產(chǎn)物。基因芯片是根據(jù)堿基互補(bǔ)的原理，通過檢測雜交信號的強(qiáng)度及分布來進(jìn)行分析的。基因芯片技術(shù)經(jīng)過近二十年的發(fā)展，已成為一個非常穩(wěn)定和可信度極高的實驗技術(shù)[1-2]。基因芯片技術(shù)的產(chǎn)生是功能基因組研究的一個重大突破，運(yùn)用基因芯片技術(shù)可以進(jìn)行正常和異常細(xì)胞中基因的表達(dá)檢測，基因突變檢測，分析復(fù)雜疾病的致病機(jī)理，為疾病的個性化診斷和治療提供指導(dǎo)，同時在藥物篩選和開發(fā)、環(huán)境保護(hù)、司法鑒定等方面也有重要的應(yīng)用。

面對人類約3萬個基因的30億個堿基對序列，近年來，通過基因芯片技術(shù)進(jìn)行生物研究時也產(chǎn)生了浩如煙海的表達(dá)譜數(shù)據(jù)，研究如此海量的基因在生命過程中所擔(dān)負(fù)的功能就成了新的課題。基因表達(dá)譜是一組表達(dá)數(shù)據(jù)，通常用矩陣表示，行代表基因，列代表樣本，矩陣中的元素代表基因在特定樣本中的表達(dá)水平和豐度信息。據(jù)研究表明，并不是所有基因?qū)膊∵z傳、診斷、治療或醫(yī)學(xué)研究都有決定性作用[3]。因此，為了從大量的表達(dá)數(shù)據(jù)中挖掘有重要應(yīng)用價值和研究意義的基因，發(fā)現(xiàn)對疾病診斷、預(yù)測具有很強(qiáng)鑒別力的基因組，如何有效地提取與疾病有關(guān)的特征基因，降低特征基因的維數(shù)是基因表達(dá)譜數(shù)據(jù)分析的核心問題，也對樣本分類起到關(guān)鍵性的作用[4-6]。

目前，很多科技工作者在研究中提出了特征基因提取的方法和理論，較早獲得的有聚類分析法、人工神經(jīng)網(wǎng)絡(luò)等特征基因選擇法，近年來又有集成數(shù)據(jù)選擇法[7]、非線性降維選擇法[8],應(yīng)用t檢驗、決策樹、支持向量機(jī)等特征基因選取方法。本文針對幾種特征基因選擇方法進(jìn)行介紹，并用不同的分類器比較評價其效能。

1 特征基因選擇法

1.1 聚類分析法

最常用的是層次聚類法，這種方法是通過計算各數(shù)據(jù)點(diǎn)間的距離，然后把最近距離聚為一組，再計算各組之間的距離，然后把它們合并成一個更大的組，不斷重復(fù)該過程直到最后聚成一組以樹狀結(jié)構(gòu)的數(shù)據(jù)。這種做法的結(jié)果非常直觀，而且還可以根據(jù)樹狀結(jié)構(gòu)分支的長短來評價基因的相似性。

在用K-means聚類法進(jìn)行分析時，因為缺乏先驗知識，所以事先不能確定k值。把k作為一個變量處理，從2開始遞增，對每個k值都根據(jù)模式質(zhì)量對特征基因進(jìn)行評估，然后遴選出最優(yōu)的基因集作為特征基因集。不斷重復(fù)這一過程，k值遞增，直到找出一個模式質(zhì)量最大的k值為止。

1.2 t檢驗法

數(shù)據(jù)采用美國Affymetrix（昂飛）公司的結(jié)腸癌基因表達(dá)實驗數(shù)據(jù)(www.sph.uth. tmc.edu/hgc)，原實驗點(diǎn)有65000個寡聚核苷酸探針組的基因芯片，樣本包括40例結(jié)腸癌組織和22例正常結(jié)腸組織。我們僅采用U.ALON等篩選出的2000個基因表達(dá)譜數(shù)據(jù)進(jìn)行分析[9]。

這種方法主要是運(yùn)用統(tǒng)計學(xué)上的兩組獨(dú)立樣本t檢驗，此方法的零假設(shè)H0是兩總體的均值相等，備擇假設(shè)H1為均值不等。應(yīng)用檢驗結(jié)果可以尋找兩組數(shù)據(jù)間表達(dá)有差異的基因，又由于在實驗中進(jìn)行了多次假設(shè)檢驗，從而涉及多重檢驗問題，第一類錯誤會上升，所以可根據(jù)具體情況對每個基因的值進(jìn)行相應(yīng)調(diào)整，確定檢驗的顯著性水平為0.05。通過統(tǒng)計軟件SAS對兩總體做t檢驗，計算每一個基因的t值，并降序排列，分別篩選t值最大的前5至10個基因。最后引入n重交叉驗證法[10]，來驗證所選特征基因的樣本識別率。

1.3 決策樹

決策樹是以實例為基礎(chǔ)的歸納學(xué)習(xí)方法。它通常是利用已知類別的樣本信息，采用自上而下的方式來生成的。決策樹的內(nèi)部節(jié)點(diǎn)表示在一個屬性上的測試，通過比較不同節(jié)點(diǎn)的屬性值來判斷下一個節(jié)點(diǎn)的分支，直到找到的節(jié)點(diǎn)中包含的樣本滿足某個條件為止。這樣，當(dāng)一個決策樹生成時，它的每一個內(nèi)部節(jié)點(diǎn)的分割都對應(yīng)著一個特征屬性。

如選定一個p維樣本，將樣本集分為訓(xùn)練集和試驗集。為尋求一個最能改善分類正確率的特征屬性，從所有訓(xùn)練集的根節(jié)點(diǎn)開始，為了選擇一個最好的特征，在特征空間做一次窮盡搜索，尋找一個特征屬性和相應(yīng)的閥值，使得最大程度地減少類別節(jié)點(diǎn)的雜質(zhì)度。重復(fù)以上分支遞歸過程，可得到?jīng)Q策樹上的一套特征子集[11]。試驗證明，決策樹特征基因選擇法對支持向量機(jī)具有良好的有效性。

1.4 支持向量機(jī)

支持向量機(jī)分類方法是建立在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上的，在有限的樣本信息和學(xué)習(xí)能力之間尋求最佳，使復(fù)雜度和結(jié)構(gòu)風(fēng)險達(dá)到最小，以期獲得最好的推廣能力[12]。在有監(jiān)督分析獲取特征基因的過程中，不僅要使分類器的VC維低，同時也要使經(jīng)驗風(fēng)險最小。支持向量機(jī)可以這樣表述，首先將已知向量映射到一個高維空間里，使得向量在高維空間里可分，并且線性函數(shù)只需在高維空間進(jìn)行內(nèi)積運(yùn)算，這樣就避開了高維變換計算問題。然后再尋找一個最佳超平面，讓這個超平面把數(shù)據(jù)分開在兩邊，并且使每一類別數(shù)據(jù)之間的分類間隔最大，這樣可以降低結(jié)構(gòu)風(fēng)險。通過大量試驗證明，支持向量機(jī)在解決小樣本、非線性問題中表現(xiàn)出特有的優(yōu)勢，且分類精度高，抗噪能力強(qiáng)。同時支持向量機(jī)對高維模式識別具有很強(qiáng)的泛化能力[13]。

2 特征基因的分類效能評價

根據(jù)特征選擇技術(shù)和特征集成技術(shù)找出的特征基因分類效能如何，可用下面四種分類器進(jìn)行評價[14]。

2.1 Fisher線性判別分類器

這種方法把p維空間的樣本投影到一條直線上，形成一維空間，即把維數(shù)壓縮為一維。通過尋找最佳的投影方向，使樣本在一維空間達(dá)到較好的分離效果。

2.2 Logit非線性分類器

這種方法主要是運(yùn)用Logistic回歸模型，計算疾病發(fā)生的概率p及疾病不發(fā)生的概率q，通過比較p和q的大小來判別樣本所屬類型。

2.3 基于最小距離的分類器

該方法是把均值作為各類的代表點(diǎn)，用距離作為判別函數(shù)進(jìn)行分類，即通過比較檢驗樣本與代表點(diǎn)的距離來判別樣本所屬類別的一種方法。

2.4 K 最近鄰法分類器

該方法對于每個檢驗樣本都找出與之距離最近的K個鄰居，以這K個鄰居中占主導(dǎo)的類別作為檢驗樣本的類別。而對于基因表達(dá)譜數(shù)據(jù)，較合理的衡量基因之間距離的方法是Pearson相關(guān)系數(shù)。鄰居數(shù)K可用交叉證實的方法確定。

3 結(jié)語

基因芯片數(shù)據(jù)對疾病進(jìn)行分類診斷是生物醫(yī)學(xué)中重要的應(yīng)用領(lǐng)域，但是基因芯片的特征選擇面臨的是海量的檢測數(shù)據(jù)，從成千上萬的數(shù)據(jù)中尋找特征基因的方法和效能檢驗就顯得尤為重要。

對于不同的基因芯片數(shù)據(jù)集，不同的特征選擇算法的性能優(yōu)勢也不盡相同。有的算法分類正確率高，但是所需基因數(shù)較多；有的算法需要較少的基因，但是復(fù)雜度高；有的所需基因較少，分類正確率也不低，但是結(jié)果卻和疾病的機(jī)理相關(guān)性小。因此，考慮到一個好的基因芯片數(shù)據(jù)的特征選擇法應(yīng)具有的條件，把上述多種算法有效地相結(jié)合[15]，綜合每種方法的優(yōu)勢，可得到分類、性能各方面都令人滿意的結(jié)果，即從特征自身特點(diǎn)出發(fā)的特征選擇法可獲得較好的分類效能和生物醫(yī)學(xué)的應(yīng)用。

[1]李霞.生物信息學(xué)[M].北京：人民衛(wèi)生出版社，2010:110～128.

[2]孫繼勇.基因表達(dá)譜的數(shù)據(jù)分析[J].國際病理科學(xué)與臨床雜志，2005，25（5），386～389.

[3]余偉峰，王廣倫，錢夕元.基于GA/SVM的微陣列數(shù)據(jù)特征的選擇和分類[J].計算機(jī)工程，2007，33（19），204～206.

[4]張玉春，郝平波，王明宇，等.確定腫瘤基因表達(dá)譜特征基因方法的研究[J].沈陽理工大學(xué)學(xué)報，2011，30（1），34～38.

[5]A Buness, M. Ruschhaupt, and R. Kuner,Classification across gene expression microarray studies[J]. BMC Bioinformatics, 2009,(10):453.

[6]呂颯麗，汪強(qiáng)虎，李霞，等.基于決策森林特征基因的兩種識別方法[J].生物信息學(xué)，2004，（3）：19～22.

[7]王海鵬，楊昆.集成數(shù)據(jù)選擇特征基因[J]杭州電子科技大學(xué)學(xué)報，2010,30（6），17-20.

[8]楊廣源，付旭平，黃燕等.一種非線性降維和Procrustes分析的基因選取方法[J].復(fù)旦學(xué)報（自然科學(xué)版），2009,48（3），338～347.

[9]Alon U,Barka I , Notterman D,et al. Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon cancer tissues probed by oligonucleotide arrays[J]. Cell Biology, 1999,(96)∶6745～6750.

[10]趙肖肖，朱寧，黃云騰.Logistic回歸和T檢驗在基因特征提取中的應(yīng)用[J].桂林電子科技大學(xué)學(xué)報，2012,32(1),69～71,81.

[11]李霞，饒紹奇，張?zhí)镂模?應(yīng)用DNA芯片數(shù)據(jù)挖掘復(fù)雜疾病相關(guān)基因的集成決策方法[J].中國科學(xué) C輯生命科學(xué)，2004，34（2）：195～202.

[12]. 李霞,張?zhí)镂?李麗，等.決策樹特征基因選擇方法對SVM有效性的研究[J].中國生物醫(yī)學(xué)工程學(xué)報,2004,23(1),66～23.

[13]. 楊俊麗,劉田福,李祥生.樣本類型無關(guān)的多類特征基因選擇方法[J].計算機(jī)工程與應(yīng)用（優(yōu)先出版），2012,1～5.

[14]王海蕓，李霞，郭政，等.四種模式分類方法應(yīng)用于基因表達(dá)譜分析的比研究[J].生物醫(yī)學(xué)工程雜志，2005,22（3），505～509.

[15]周!，何潔月.生物信息學(xué)中基因芯片的特征選擇技術(shù)綜述[J].計算機(jī)科學(xué)，2007,34（12），143～150.

R311；R319

10.3969/j.issn.1001-8972.2012.14.064

齊齊哈爾市科學(xué)技術(shù)局科學(xué)技術(shù)計劃項目資助

何蘭（1970-），女，碩士，副教授，研究方向：生物信息學(xué)

范繼紅（1968-），女，碩士，副教授，研究方向：生物信息學(xué)

滕輝（1977-），女，碩士，講師，研究方向：生物信息學(xué)

潘洪明（1969-），男，碩士，教授，研究方向：表觀遺傳學(xué)和細(xì)胞信號轉(zhuǎn)導(dǎo)。