999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基因表達(dá)譜中特征基因選擇的幾種方法比較研究

2012-01-27 20:43:25何蘭范繼紅滕輝潘洪明
中國科技信息 2012年14期
關(guān)鍵詞:分類特征方法

何蘭范繼紅滕輝潘洪明

1.齊齊哈爾醫(yī)學(xué)院基礎(chǔ)醫(yī)學(xué)院數(shù)學(xué)教研室,齊齊哈爾,161006 2.齊齊哈爾醫(yī)學(xué)院現(xiàn)代教育技術(shù)中心計算機(jī)教研室,齊齊哈爾,161006 3.齊齊哈爾醫(yī)學(xué)院醫(yī)學(xué)技術(shù)學(xué)院生化教研室,齊齊哈爾,161006

基因表達(dá)譜中特征基因選擇的幾種方法比較研究

何蘭1范繼紅2滕輝1潘洪明3

1.齊齊哈爾醫(yī)學(xué)院基礎(chǔ)醫(yī)學(xué)院數(shù)學(xué)教研室,齊齊哈爾,161006 2.齊齊哈爾醫(yī)學(xué)院現(xiàn)代教育技術(shù)中心計算機(jī)教研室,齊齊哈爾,161006 3.齊齊哈爾醫(yī)學(xué)院醫(yī)學(xué)技術(shù)學(xué)院生化教研室,齊齊哈爾,161006

基因表達(dá)譜芯片技術(shù)的產(chǎn)生,為復(fù)雜疾病致病機(jī)理的研究提供了一個全方位的視角。從大量的基因表達(dá)譜芯片數(shù)據(jù)中挖掘有用的信息,特征選擇技術(shù)起到了關(guān)鍵的作用。對當(dāng)前基因芯片數(shù)據(jù)的特征選擇方法和各種學(xué)習(xí)器效能進(jìn)行了綜述,并通過說明各種特征選擇方法的具體情況來比較它們的優(yōu)劣性,最終得出從特征自身特點(diǎn)出發(fā)的特征選擇法可獲得較好的分類效能和生物醫(yī)學(xué)的應(yīng)用。

基因表達(dá)譜;特征選擇;聚類分析;t檢驗;決策樹;支持向量機(jī)

引言

隨著人類基因組計劃的逐步實施以及分子生物學(xué)等學(xué)科的迅猛發(fā)展,越來越多的基因組序列得以測定,人類對基因組研究的重心也進(jìn)入了后基因組時代,即從基因序列的研究轉(zhuǎn)向到基因組功能的研究。基因芯片技術(shù)就是順應(yīng)這一發(fā)展要求的高科技產(chǎn)物。基因芯片是根據(jù)堿基互補(bǔ)的原理,通過檢測雜交信號的強(qiáng)度及分布來進(jìn)行分析的。基因芯片技術(shù)經(jīng)過近二十年的發(fā)展,已成為一個非常穩(wěn)定和可信度極高的實驗技術(shù)[1-2]。基因芯片技術(shù)的產(chǎn)生是功能基因組研究的一個重大突破,運(yùn)用基因芯片技術(shù)可以進(jìn)行正常和異常細(xì)胞中基因的表達(dá)檢測,基因突變檢測,分析復(fù)雜疾病的致病機(jī)理,為疾病的個性化診斷和治療提供指導(dǎo),同時在藥物篩選和開發(fā)、環(huán)境保護(hù)、司法鑒定等方面也有重要的應(yīng)用。

面對人類約3萬個基因的30億個堿基對序列,近年來,通過基因芯片技術(shù)進(jìn)行生物研究時也產(chǎn)生了浩如煙海的表達(dá)譜數(shù)據(jù),研究如此海量的基因在生命過程中所擔(dān)負(fù)的功能就成了新的課題。基因表達(dá)譜是一組表達(dá)數(shù)據(jù),通常用矩陣表示,行代表基因,列代表樣本,矩陣中的元素代表基因在特定樣本中的表達(dá)水平和豐度信息。據(jù)研究表明,并不是所有基因?qū)膊∵z傳、診斷、治療或醫(yī)學(xué)研究都有決定性作用[3]。因此,為了從大量的表達(dá)數(shù)據(jù)中挖掘有重要應(yīng)用價值和研究意義的基因,發(fā)現(xiàn)對疾病診斷、預(yù)測具有很強(qiáng)鑒別力的基因組,如何有效地提取與疾病有關(guān)的特征基因,降低特征基因的維數(shù)是基因表達(dá)譜數(shù)據(jù)分析的核心問題,也對樣本分類起到關(guān)鍵性的作用[4-6]。

目前,很多科技工作者在研究中提出了特征基因提取的方法和理論,較早獲得的有聚類分析法、人工神經(jīng)網(wǎng)絡(luò)等特征基因選擇法,近年來又有集成數(shù)據(jù)選擇法[7]、非線性降維選擇法[8],應(yīng)用t檢驗、決策樹、支持向量機(jī)等特征基因選取方法。本文針對幾種特征基因選擇方法進(jìn)行介紹,并用不同的分類器比較評價其效能。

1 特征基因選擇法

1.1 聚類分析法

最常用的是層次聚類法,這種方法是通過計算各數(shù)據(jù)點(diǎn)間的距離,然后把最近距離聚為一組,再計算各組之間的距離,然后把它們合并成一個更大的組,不斷重復(fù)該過程直到最后聚成一組以樹狀結(jié)構(gòu)的數(shù)據(jù)。這種做法的結(jié)果非常直觀,而且還可以根據(jù)樹狀結(jié)構(gòu)分支的長短來評價基因的相似性。

在用K-means聚類法進(jìn)行分析時,因為缺乏先驗知識,所以事先不能確定k值。把k作為一個變量處理,從2開始遞增,對每個k值都根據(jù)模式質(zhì)量對特征基因進(jìn)行評估,然后遴選出最優(yōu)的基因集作為特征基因集。不斷重復(fù)這一過程,k值遞增,直到找出一個模式質(zhì)量最大的k值為止。

1.2 t檢驗法

數(shù)據(jù)采用美國Affymetrix(昂飛)公司的結(jié)腸癌基因表達(dá)實驗數(shù)據(jù)(www.sph.uth. tmc.edu/hgc),原實驗點(diǎn)有65000個寡聚核苷酸探針組的基因芯片,樣本包括40例結(jié)腸癌組織和22例正常結(jié)腸組織。我們僅采用U.ALON等篩選出的2000個基因表達(dá)譜數(shù)據(jù)進(jìn)行分析[9]。

這種方法主要是運(yùn)用統(tǒng)計學(xué)上的兩組獨(dú)立樣本t檢驗,此方法的零假設(shè)H0是兩總體的均值相等,備擇假設(shè)H1為均值不等。應(yīng)用檢驗結(jié)果可以尋找兩組數(shù)據(jù)間表達(dá)有差異的基因,又由于在實驗中進(jìn)行了多次假設(shè)檢驗,從而涉及多重檢驗問題,第一類錯誤會上升,所以可根據(jù)具體情況對每個基因的值進(jìn)行相應(yīng)調(diào)整,確定檢驗的顯著性水平為0.05。通過統(tǒng)計軟件SAS對兩總體做t檢驗,計算每一個基因的t值,并降序排列,分別篩選t值最大的前5至10個基因。最后引入n重交叉驗證法[10],來驗證所選特征基因的樣本識別率。

1.3 決策樹

決策樹是以實例為基礎(chǔ)的歸納學(xué)習(xí)方法。它通常是利用已知類別的樣本信息,采用自上而下的方式來生成的。決策樹的內(nèi)部節(jié)點(diǎn)表示在一個屬性上的測試,通過比較不同節(jié)點(diǎn)的屬性值來判斷下一個節(jié)點(diǎn)的分支,直到找到的節(jié)點(diǎn)中包含的樣本滿足某個條件為止。這樣,當(dāng)一個決策樹生成時,它的每一個內(nèi)部節(jié)點(diǎn)的分割都對應(yīng)著一個特征屬性。

如選定一個p維樣本,將樣本集分為訓(xùn)練集和試驗集。為尋求一個最能改善分類正確率的特征屬性,從所有訓(xùn)練集的根節(jié)點(diǎn)開始,為了選擇一個最好的特征,在特征空間做一次窮盡搜索,尋找一個特征屬性和相應(yīng)的閥值,使得最大程度地減少類別節(jié)點(diǎn)的雜質(zhì)度。重復(fù)以上分支遞歸過程,可得到?jīng)Q策樹上的一套特征子集[11]。試驗證明,決策樹特征基因選擇法對支持向量機(jī)具有良好的有效性。

1.4 支持向量機(jī)

支持向量機(jī)分類方法是建立在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上的,在有限的樣本信息和學(xué)習(xí)能力之間尋求最佳,使復(fù)雜度和結(jié)構(gòu)風(fēng)險達(dá)到最小,以期獲得最好的推廣能力[12]。在有監(jiān)督分析獲取特征基因的過程中,不僅要使分類器的VC維低,同時也要使經(jīng)驗風(fēng)險最小。支持向量機(jī)可以這樣表述,首先將已知向量映射到一個高維空間里,使得向量在高維空間里可分,并且線性函數(shù)只需在高維空間進(jìn)行內(nèi)積運(yùn)算,這樣就避開了高維變換計算問題。然后再尋找一個最佳超平面,讓這個超平面把數(shù)據(jù)分開在兩邊,并且使每一類別數(shù)據(jù)之間的分類間隔最大,這樣可以降低結(jié)構(gòu)風(fēng)險。通過大量試驗證明,支持向量機(jī)在解決小樣本、非線性問題中表現(xiàn)出特有的優(yōu)勢,且分類精度高,抗噪能力強(qiáng)。同時支持向量機(jī)對高維模式識別具有很強(qiáng)的泛化能力[13]。

2 特征基因的分類效能評價

根據(jù)特征選擇技術(shù)和特征集成技術(shù)找出的特征基因分類效能如何,可用下面四種分類器進(jìn)行評價[14]。

2.1 Fisher線性判別分類器

這種方法把p維空間的樣本投影到一條直線上,形成一維空間,即把維數(shù)壓縮為一維。通過尋找最佳的投影方向,使樣本在一維空間達(dá)到較好的分離效果。

2.2 Logit非線性分類器

這種方法主要是運(yùn)用Logistic回歸模型,計算疾病發(fā)生的概率p及疾病不發(fā)生的概率q,通過比較p和q的大小來判別樣本所屬類型。

2.3 基于最小距離的分類器

該方法是把均值作為各類的代表點(diǎn),用距離作為判別函數(shù)進(jìn)行分類,即通過比較檢驗樣本與代表點(diǎn)的距離來判別樣本所屬類別的一種方法。

2.4 K 最近鄰法分類器

該方法對于每個檢驗樣本都找出與之距離最近的K個鄰居,以這K個鄰居中占主導(dǎo)的類別作為檢驗樣本的類別。而對于基因表達(dá)譜數(shù)據(jù),較合理的衡量基因之間距離的方法是Pearson相關(guān)系數(shù)。鄰居數(shù)K可用交叉證實的方法確定。

3 結(jié)語

基因芯片數(shù)據(jù)對疾病進(jìn)行分類診斷是生物醫(yī)學(xué)中重要的應(yīng)用領(lǐng)域,但是基因芯片的特征選擇面臨的是海量的檢測數(shù)據(jù),從成千上萬的數(shù)據(jù)中尋找特征基因的方法和效能檢驗就顯得尤為重要。

對于不同的基因芯片數(shù)據(jù)集,不同的特征選擇算法的性能優(yōu)勢也不盡相同。有的算法分類正確率高,但是所需基因數(shù)較多;有的算法需要較少的基因,但是復(fù)雜度高;有的所需基因較少,分類正確率也不低,但是結(jié)果卻和疾病的機(jī)理相關(guān)性小。因此,考慮到一個好的基因芯片數(shù)據(jù)的特征選擇法應(yīng)具有的條件,把上述多種算法有效地相結(jié)合[15],綜合每種方法的優(yōu)勢,可得到分類、性能各方面都令人滿意的結(jié)果,即從特征自身特點(diǎn)出發(fā)的特征選擇法可獲得較好的分類效能和生物醫(yī)學(xué)的應(yīng)用。

[1]李霞.生物信息學(xué)[M].北京:人民衛(wèi)生出版社,2010:110~128.

[2]孫繼勇.基因表達(dá)譜的數(shù)據(jù)分析[J].國際病理科學(xué)與臨床雜志,2005,25(5),386~389.

[3]余偉峰,王廣倫,錢夕元.基于GA/SVM的微陣列數(shù)據(jù)特征的選擇和分類[J].計算機(jī)工程,2007,33(19),204~206.

[4]張玉春,郝平波,王明宇,等.確定腫瘤基因表達(dá)譜特征基因方法的研究[J].沈陽理工大學(xué)學(xué)報,2011,30(1),34~38.

[5]A Buness, M. Ruschhaupt, and R. Kuner,Classification across gene expression microarray studies[J]. BMC Bioinformatics, 2009,(10):453.

[6]呂颯麗,汪強(qiáng)虎,李霞,等.基于決策森林特征基因的兩種識別方法[J].生物信息學(xué),2004,(3):19~22.

[7]王海鵬,楊昆.集成數(shù)據(jù)選擇特征基因[J]杭州電子科技大學(xué)學(xué)報,2010,30(6),17-20.

[8]楊廣源,付旭平,黃燕等.一種非線性降維和Procrustes分析的基因選取方法[J].復(fù)旦學(xué)報(自然科學(xué)版),2009,48(3),338~347.

[9]Alon U,Barka I , Notterman D,et al. Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon cancer tissues probed by oligonucleotide arrays[J]. Cell Biology, 1999,(96)∶6745~6750.

[10]趙肖肖,朱寧,黃云騰.Logistic回歸和T檢驗在基因特征提取中的應(yīng)用[J].桂林電子科技大學(xué)學(xué)報,2012,32(1),69~71,81.

[11]李霞,饒紹奇,張?zhí)镂模?應(yīng)用DNA芯片數(shù)據(jù)挖掘復(fù)雜疾病相關(guān)基因的集成決策方法[J].中國科學(xué) C輯 生命科學(xué),2004,34(2):195~202.

[12]. 李霞,張?zhí)镂?李麗,等.決策樹特征基因選擇方法對SVM有效性的研究[J].中國生物醫(yī)學(xué)工程學(xué)報,2004,23(1),66~23.

[13]. 楊俊麗,劉田福,李祥生.樣本類型無關(guān)的多類特征基因選擇方法[J].計算機(jī)工程與應(yīng)用(優(yōu)先出版),2012,1~5.

[14]王海蕓,李霞,郭政,等.四種模式分類方法應(yīng)用于基因表達(dá)譜分析的比研究[J].生物醫(yī)學(xué)工程雜志,2005,22(3),505~509.

[15]周!,何潔月.生物信息學(xué)中基因芯片的特征選擇技術(shù)綜述[J].計算機(jī)科學(xué),2007,34(12),143~150.

A

R311;R319

10.3969/j.issn.1001-8972.2012.14.064

齊齊哈爾市科學(xué)技術(shù)局科學(xué)技術(shù)計劃項目資助

何蘭(1970-),女,碩士,副教授,研究方向:生物信息學(xué)

范繼紅(1968-),女,碩士,副教授,研究方向:生物信息學(xué)

滕輝(1977-),女,碩士,講師,研究方向:生物信息學(xué)

潘洪明(1969-),男,碩士,教授,研究方向:表觀遺傳學(xué)和細(xì)胞信號轉(zhuǎn)導(dǎo)。

猜你喜歡
分類特征方法
分類算一算
如何表達(dá)“特征”
不忠誠的四個特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲第一视频网| 2019年国产精品自拍不卡| 国产精品无码一区二区桃花视频| 日本a级免费| 永久在线播放| 国产成人精品免费av| 在线日韩日本国产亚洲| 欧美成人手机在线视频| 欧美精品xx| 国产香蕉一区二区在线网站| 国产91小视频在线观看| 国产乱人伦偷精品视频AAA| 久久91精品牛牛| 99ri国产在线| 一级香蕉视频在线观看| 亚洲妓女综合网995久久| 精品久久香蕉国产线看观看gif| 日韩成人在线网站| 欧美一级色视频| 蝌蚪国产精品视频第一页| 在线亚洲精品福利网址导航| 国产欧美日韩综合一区在线播放| 亚洲第一av网站| 99九九成人免费视频精品| 欧美日韩专区| 亚洲天堂视频网站| 欧美亚洲国产视频| 日韩黄色在线| 日韩无码视频播放| 久久这里只精品热免费99| 激情在线网| 高清无码手机在线观看| 免费一级毛片| 1024你懂的国产精品| 国产精品手机在线播放| 精品無碼一區在線觀看 | 亚洲福利网址| 中文字幕亚洲电影| 国产黄在线免费观看| 丝袜美女被出水视频一区| 无码aⅴ精品一区二区三区| av一区二区三区高清久久| 国产成人无码久久久久毛片| 老司机久久精品视频| 女人天堂av免费| 精品国产乱码久久久久久一区二区| 在线视频一区二区三区不卡| 手机成人午夜在线视频| 亚洲 日韩 激情 无码 中出| 日韩在线播放中文字幕| 99热最新网址| 欧美高清视频一区二区三区| 亚洲视频a| 国产高清免费午夜在线视频| 亚洲欧美天堂网| 97无码免费人妻超级碰碰碰| 99在线观看国产| 在线免费亚洲无码视频| 伊在人亚洲香蕉精品播放| 园内精品自拍视频在线播放| 青青青国产免费线在| 亚洲无码熟妇人妻AV在线| 国产精品香蕉在线观看不卡| 日韩在线欧美在线| 国产成人久久777777| 中国国产A一级毛片| 91无码视频在线观看| 久久综合成人| 伊人久久久久久久| 久草网视频在线| 日韩精品一区二区深田咏美| 国产成人高清精品免费软件| 国产在线小视频| 真实国产精品vr专区| 国产精品播放| 国产视频一区二区在线观看| 国产乱视频网站| 国产一二视频| 国产精品黑色丝袜的老师| 久久国产V一级毛多内射| 久久国产精品嫖妓| 国产精品无码影视久久久久久久 |