摘 要:提出了一種新穎的方法來預測基因調控網絡,即將模糊理論引入基因網絡的構建。詳細闡述了利用模糊理論為基因調控網絡建模的機理,并初步建立了模糊基因網絡,對進一步理解腫瘤與癌癥的發生和發展機理有重要的借鑒意義。
關鍵詞:模糊控制; 基因網絡; 差異表達基因
中圖分類號:TP301.6 文獻標志碼:A
文章編號:1001-3695(2008)09-2617-03
Construction of fuzzy gene net
SUN Liang, LI Qingshuo, LI Jiangeng, DUAN Yanhua
(College of Electronic Information Control Engineering, Beijing University of Technology, Beijing 100022, China)
Abstract:This paper put forward a novel method to forecast gene net that was inducing fuzzy theory.Firstly,permutation test was used to identify differently expressed genes after eliminating noise signal. Then the importance of a gene in classifying the normal and tumor was estimated based on the gene’s entropy. In detail,negative big(NB),negative middle(NM), negative small(NS),zero(0),positive small(PS),positive middle(PM), positive big(PB)7 ranks were introduced to sort the different gene expression values. The relations between two genes were figured by seven “ifthen” rules according to genes’ expression values. In conclusion,a new method to construct fuzzy gene net model was introduced and it was useful to comprehend the occurrence and development of tumor and cancer. At last, MDM2p53 fuzzy gene net is succeeding in describing the relations between them.
Key words:fuzzy control;fuzzy gene net;different gene expression
人體中,基因調節機制是一個非常復雜的過程。從細胞生物學的觀點來看,基因表達水平影響基因調節過程。正常細胞中的基因通過多步調節機制來控制細胞生長、差異、重生和細胞凋亡過程。在不同的基因調節機制下,基因表達水平的表達水平也不盡相同。癌癥是由于許多外界因素導致基因調節機制的改變,癌癥基因的表達水平與非癌的不同。基于傳統的觀點,基因的調節狀態可以被簡化地歸為激活和抑制兩類。生物信號通過一對一的調節機制逐漸地被轉移和擴散到下游基因,從而達到調控基因表達的目的。
目前,研究者已經建立基因調節網絡模型的有貝葉斯網絡、布爾網絡、加權矩陣網絡等[1],每種方法都有各自的特點和意義。然而,基因之間的調節是一種非常復雜的生命現象,不僅僅是簡單的激活和禁止的調節機制。本文認為,基因在不同時期表達水平的差異對基因調節機制有重要的影響。因此,提出了一種新穎的生物學研究方法來預測基因調控網絡——模糊基因調節網絡。此方法把基因的表達水平分成若干個等級,以模糊語言的形式來描述基因之間的相互關系。這種新方法用于構建基因網絡取得了很好的效果。
1 前提理論與舉例
1.1 Permutation test識別差異表達基因[2]
差異表達基因是揭示正常與異常的重要線索。首先,permutation test識別差異表達基因,即比較兩基因表達水平均值是否有差異。個樣本。
a)在一定的顯著性水平下,建立原假設。
c)在H0假設條件下,通過計算機模擬得到統計量D的經驗抽樣分布。
(a)在H0假設成立的條件下,即兩樣本來自同一個總體,均為總體的隨機樣本, e)根據小概率原理作出推斷性結論:定義1-a為置信水平,若P≤a/2則說明這兩組樣本對于某一個基因,表達值有顯著差異。
1.2 利用不確定熵理論找出特征基因
利用不確定熵理論找出特征基因,即找出對分類結果影響更強的基因。根據Shannon提出的熵的概念及貝葉斯概率公式[3],定義系統的熵為
1.3 方法舉例
不失一般性,假設對于某一個癌癥有11個樣本,其中正常的有5個樣本,癌癥有6個樣本。筆者測定gene1和gene2在正常和癌癥時的表達值倍數改變如表1所示。
由于環境因素或其他客觀條件對實驗的影響,微陣列基因表達數據中可能有不確定的錯誤或噪聲。一個基因可能有多個不同的類型表達值,即在同為癌癥或正常的情況下既有上調數據又有下調數據。對于這種情況,筆者放棄這個數據。因為從理論上講,一個基因表達數據在一種情況下(正常或癌癥)只能有一種類型。
在分析差異表達和基因相關系數時,首先對基因表達數據進行了預處理。預處理過濾能提高微陣列數據的可靠性從而提高預測基因調節網絡的正確性。對于本例,經分析可以得出在癌癥時樣本11為噪聲數據,實驗時應將其剔除,如表2所示。
貢獻更大。
2 利用模糊規則建立基因網絡
2.1 模糊調節的產生
腫瘤的特征基因在正常與癌癥時的表達值是不同的。基因微陣列數據可分為上調、下調和不變。上調意味著基因表達值增加;下調意味著基因表達值減少;不變意味著基因表達恒定。基因表達可能由其他基因調節,一個基因可能被其他基因激活或禁止,反之亦然。若兩個基因之間相關性很高,則預示這兩個基因一定存在某些聯系。Liang等人[4]建立了一種布爾網絡模型,描述了基因之間的相互作用,但是,布爾網絡模型是對基因網絡模型一個相對粗糙的模擬。因為基因表達不僅是一個開關和有無的問題,也不是簡單地兩兩相互作用或相互影響。
基因之間的調節關系是多種多樣的。就整個生命體而言,基因之間的調節關系又是不確定的。基因之間不是簡單的一一對應調節問題。本文主要探討基因的表達強度對基因關系的影響,探討基因之間模糊調節關系,建立模糊基因調節網絡模型。
模糊系統是以模糊數學、模糊語言形式的知識表示和模糊邏輯的規則推理為理論基礎建立非精確表達的數學模型的系統。引入模糊規則可以將基因上調或下調的度區分開來,從而找到更確切的基因之間的調節關系。首先要進行精確量的模糊化,將基因表達值作為輸入量進行均勻劃分,如表3所示。
表3 量化等級
現實生活中,人們習慣將事物分成等級。因此,在設計時把基因表達值的變化劃分為七個模糊子集,即負大(NB)、負中(NM)、負小(NS)、不變(0)、正小(PS)、正中(PM)和正大(PB)。模糊子集的隸屬度由隸屬函數來描述。人們對事物的判斷常習慣以正態分布為思維的特點。對于模糊子集的隸屬函數采用高斯函數來表示:
高斯隸屬函數由兩個參數{u,σ}確定。這里,u確定函數的中心;σ確定函數的寬度。由隸屬函數可以得到直觀的語言變量賦值表,如表4所示。
2.2 模糊調節規則的設計
調節規則是指規則的符號化和形式化過程,其中涉及表達數據的分檔和調節規則的設計。在構架基因網絡的過程中,不同的學者有不同的思路和方法。但是如何選擇更有效、更合理的知識表示方法以便有利于知識的獲取和運用知識進行更深入的研究一直是筆者更關心的問題。采用模糊分檔和產生式“if…,then…”規則[5]可以很好地完成基因網絡的構建。
語言值。
構建基因模糊推理機的流程如圖1所示。
模糊空間范圍是基因X和Y的表達值,系統有七條模糊規則;系統的輸出模糊空間為基因X和Y之間的調節關系。可以建立如圖2所示的模型。
MDM2p53模糊基因調節網絡
在p53活化過程中,為數眾多的基因—基因相互作用參與發揮p53的控制生長和凋亡功能[6]。其中MDM2與p53關系密切。經分析,MDM2強抑制p53,p53又對MDM2有弱抑制作用。在幾乎所有的腫瘤中都可以觀察到MDM2p53網絡功能性失活。原因是MDM2的過度表達引起p53降解增加,使p53負反饋抑制MDM2的調節功能失效[7]。p53網絡的失活使帶有損傷的DNA不能被修復,加速進一步的突變,導致腫瘤產生的機會增加。
3 結束語
生命體是一個十分復雜的系統,建立基因調控網絡的模型研究目前僅處于起步階段[8]。本文首次將模糊理論應用到構建基因調控網絡中,建立了一套比較完整的建模思路和方法,對研究特征基因之間的關系有較強的借鑒意義。希望引起廣大專家和研究者的興趣和關注,并對本研究建立的模糊基因調控網絡進行多方面的擴展和生物學驗證。生物信息學正在突飛猛進地發展,必將有越來越多的基因之間的基本關系被揭示。
參考文獻:
[1]SHIH K C,CHEN R M,HU R M,et al.Prediction of gene regulatory networks using differential expression of cDNA microarray data[C]//Proc of the 6th International Symposium on Multimedia Software Engineering.Washington DC:IEEE Computer Society,2004:378-385.
[2]XUN Pengcheng,ZHAO Yang,YI Honggang,et al.The application of permutation test in the hypothesis test[J].Application of Statistics and Management,2006,25(5):616-621.
[3]ZENG Huanglin.Intelligence computing ——theory and application about rough set,fuzzy set,artificial neural networks[M].Chongqing:Chongqing University Publishing Company,2004.
[4]LIANG S,FUHRMAN S,SOMOGYI R.Reveal,a general reverse engineering algorithm for inference of genetic network architectures[C]//Proc of Pacific Symp Biocomp.Singapore:World Scientifie Publishing,1998:18-29.
[5]ROCKE D M,GOLDBER G Z,SCHWEITER T C,et al.A method for detection of differential gene expression in thepresence of interindividual variability in response[J].Bioinformatics,2005,21(21):3990-3992.
[6]LIU Jingsheng.Cell information and regulation[M].Beijing:Peking Union Medical College Publishing Company,2004.
[7]KRAUSS G.Biochemistry of sigal transduction and regulation[M].Beijing:Chemical Industry Press,2005:394-396.
[8]YI Dong,LI Huizhi,YANG Mengsu.Construction of gene regulation network and build of math[J].China Journal of Modern Medicine,2003,13(24):7478