張燕 盧倩楠
摘 要:取合適基因表達芯片數據庫,預處理后,去掉殘缺、異質數據,采用數據挖掘技術,進行序列分析、結構預測及進化分析等。可應用于生物學和腫瘤學的研究,觀察疾病所引起的基因表達變化,找出作用重要的治病基因,揭示生命現象的本質。
關鍵詞:基因表達芯片;數據挖掘;生物學
一、背景
在TCGA、GEO等基因表達數據庫中選擇合適的基因表達芯片數據[1],做去殘缺、異質數據處理后采用數據挖掘方法應用到基因表達芯片數據中,從不同角度對數據進行挖掘,并結合以建立表示基因之間相互影響的模型,進行序列分、結構預測和進化分析。
立足基因,主要研究從基因表達芯片數據中提取有效的數據,從而可以更好地解決海量生物信息數據的存儲、處理、計算和分析等問題。通過準確對基因表達芯片數據進行測序分析并預測,及時應用到白血病、乳腺癌等疾病的臨床診斷中,可使得該技術及早造福社會,帶來經濟效益。
基因表達芯片數據有形形色色的數據庫,其中有些數據庫更新速度慢,本項目旨在研究最新發現的有代表性的數據,構建網絡模型,可廣泛應用于生物學和腫瘤學的研究,觀察疾病所引起的基因表達變化,并找出作用重要的治病基因,對揭示生命現象的本質有重要意義。
二、基因表達芯片的特點
1.數據的高維性。在生物信息學領域,基因表達芯片技術的進步已經產生了涉及數千特征的基因表達數據。具有時間分量或空間分量的數據集也通常具有很高的維度。例如,考慮包含不同地區的溫度測量結果的數據集,如果在一個相當長的時間周期內反復地測量,則維數(特征數)的增長正比于測量的次數。為低維數據開發的傳統數據分析技術通常不能很好地處理這類高維數據,如維災難問題。此外,對于某些數據分析算法,隨著維數(特征數)的增加,計算復雜度會迅速增加。
2.采用算法的可伸縮性。由于數據產生和采集技術的進步,數太字節(TB)、數拍字節(PB)甚至數艾字節(EB)的數據集越來越普遍。如果數據挖掘算法要處理這些海量數據集,則算法必須是可伸縮的。許多數據挖掘算法采用特殊的搜索策略來處理指數級的搜索問題。為實現可伸縮可能還需要實現新的數據結構,才能以有效的方式訪問每個記錄。
3.處理異構數據和復雜數據的迫切性。通常,傳統的數據分析方法只處理包含相同類型屬性的數據集,或者是連續的,或者是分類的。隨著數據挖掘在生物信息學、醫學和腫瘤學領域的作用越來越大,越來越需要能夠處理異構屬性的技術。近年來,出現了更復雜的數據對象,如具有序列和三維結構的DNA數據,這些數據迫切需要處理。
三、常用數據挖掘方法
1.決策樹法。決策樹是通過一系列的規則對數據進行分類的過程。它提供了一種在給定條件下會得到給定的值的類似規則的方法,并著眼于從一組無次序無規則的事例中推理出使用決策樹表示形式的分類規則,它通常用來形成分類器和預測模型,并可以對未知數據進行分類、預測等。它是以自頂向下的遞歸方式,使決策樹的內部結點進行屬性值的比較,根據不同的屬性值從根結點向下分支,葉結點表示的是要學習劃分的類,從根結點到葉結點的一條路徑就可以看成是一條分類規則,而整個決策樹就對應著一組吸取表達式規則。決策樹的分類方法首先要利用訓練數據集建立起決策樹的模型,并根據該模型進行輸入數據的分類。其中的關鍵問題是決策樹的構建過程,這包括建樹(Tree Building)和剪枝(Tree Pruning)。其中建樹是通過遞歸過程,最終得到一棵決策樹;剪枝則是為了降低噪聲數據對分類正確率的影響。本研究應用決策樹的建樹算法來確定各結點的順序。
決策樹方法廣泛應用在分類、預測和規則提取等領域中,尤其Quinlan JR 提出經典ID3算法以后,決策樹進一步應用在機器學習、知識發現領域并得到了巨大的發展。ID3算法是一種以信息熵為基礎的決策樹學習算法,它是決策樹方法的代表,目前大部分的決策樹算法都是在它的基礎上加以改進實現的。ID3算法把Shannon信息論應用到了決策樹算法中,并采用分治策略,使得在決策樹的各級結點上選擇屬性時檢測所有的屬性,并選擇信息增益最大的屬性作為決策樹的結點,由該屬性的不同取值建立幾個分支,再對分支的子集遞歸調用這種方法建立決策樹結點的分支,如此反復一直持續到所有子集僅包含同一類別的數據為止。最后得到一棵決策樹,這棵決策樹可以對新的樣本進行分類。ID3由于其理論比較清晰、方法簡單且學習能力較強,很適合于處理大規模的學習問題,是數據挖掘和機器學習領域中的一個較好的范例,同時也是一種知識獲取的有力工具。
Quinlan針對ID3存在的一些缺點提出了C4.5算法,它是ID3算法的繼承,同時也成為后來許多決策樹算法的基礎。在ID3的基礎上,C4.5算法融入了對連續型屬性、屬性值空缺的處理,并對樹剪枝有了比較良好的方法。C4.5使用基于信息增益率來選擇測試屬性,(信息增益率等于信息增益對分割信息量的比值)。
2.神經網絡法。神經網絡法是模擬生物神經系統的結構和功能,是一種通過訓練來學習的非線性預測模型,它將每一個連接看做一個處理單元,試圖模擬人腦神經元的功能,可完成分類、聚類、特征挖掘等多種數據挖掘任務。神經網絡的學習方法主要表現在權值的修改上。其優點是具有抗干擾、非線性學習、聯想記憶功能,對復雜情況能得到精確的預測結果;缺點首先是不適合處理高維變量,不能觀察中間的學習過程,具有“黑箱”性,輸出結果也難以解釋;其次是需要較長的學習時間。神經網絡法主要應用于數據挖掘的聚類技術中。
3.遺傳算法。遺傳算法模擬了自然選擇和遺傳中發生的繁殖、交配和基因突變現象,是一種采用遺傳結合、遺傳交叉變異及自然選擇等操作來生成實現規則的、基于進化理論的機器學習方法。它的基本觀點是“適者生存”原理,具有隱含并行性、易于和其他模型結合等性質。主要的優點是可以處理許多數據類型,同時可以并行處理各種數據;缺點是需要的參數太多,編碼困難,一般計算量比較大。遺傳算法常用于優化神經元網絡,能夠解決其他技術難以解決的問題。
4.數據離散化方法
數據的離散化過程,是指將一個連續的屬性劃分成為若干個屬性值區間后并使用一個離散型數值代表每一區間的過程。根據貝葉斯網絡的數學原理要求可知,使用連續變量構建起來的貝葉斯網絡沒有使用離散變量構建的準確性高。所以在建模之前一定要將待分析數據離散化。數據離散化的方法在機器學習中起了非常重要的作用。和連續型數據比較,離散的數據準確性高、更強的抗數據噪聲的能力和更小的存儲空間需求;更接近知識表達層次,更容易被理解、解釋、應用;從離散數據中學得的知識形式更為簡潔;相比于連續型數據,離散數據可在更廣泛的領域中使用,比如關聯規則、粗糙集分析、支持向量機等的機器學習方法,只能處理離散數據。貝葉斯網絡支持離散型數據和連續型數據,只是由于連續型數據的實際意義往往無法明確,而數據離散化可明顯提高網絡學習精度。數據離散化方法很多,基因表達芯片數據中經常使用的離散化方法有固定值法、Z值法等等。
5.構建等價類法。如果不同的有向無環圖表示了相同的聯合概率分布,可以稱這些有向無環圖構成了貝葉斯等價類。如果將有向無環圖中的有向弧視為無向弧,則這些圖有完全相同的網絡結構。
定義:馬爾科夫等價:不同的網絡之間存在等價關系,等價的網絡表示的聯合概率分布相同,這樣的等價關系稱為馬爾科夫等價。
參考文獻:
[1] Lu Yue, Qi Yao, Li Li, et al. Gene Expression of PSORI-CM01 and Yinxieling in the Treatment of Psoriasis Vulgaris[J]. Evidence-Based Complementary and Alternative Medicine, 2021.