摘 要:利用互信息理論和布爾網絡共同建立基因調控網絡模型,并且通過舉例說明該方法,用此方法相應地可推導出多個基因決定某個或多個基因的表達值的邏輯規則,根據得到的邏輯規則建立基因電路網絡,再對得到的基因邏輯電路網絡依據分析邏輯電路網絡的方法建立基因調控網絡動態轉換,從而分析基因間的調控關系。
關鍵詞:基因調控網絡;熵互信息;布爾網絡;反向工程
中圖分類號:TP393文獻標識碼:B
文章編號:1004-373X(2008)07-151-03
Reconstructing Genetic Regulatory Boolean Network and Dynamic Analysis
WANG Liqin1,2,ZHANG Ling2,LI Jiangeng1
(1.College of Computer Science and Technology,Beijing University of Technology,Beijing,100022,China;
2.Zhangjiakou Vocational College of Technology,Zhangjiakou,075000,China)
Abstract:This article first uses the method to establish the gene regulationnetwork model together by mutually the information theory and the Boolean network,and through explains with examples this method,correspondingly may infer many genes with this method to decide some or many genes expression value logical rule,according to the logicalrule establishment gene electric network which obtains,again to genelogic circuit network basis analysis logic circuit network method establishment gene regulation network dynamic transformation,thus regulative relations between analysis gene.
Keywords:genetic regulatory network;mutual information of entropy;Boolean network;opposite direction engineering
1 引 言
基因網絡的研究最初是在20世紀60年代,Rater 描述了控制原核生物的分子基因系統組織的特點。另一項研究是Kauffman通過簡單的邏輯規則研究基因網絡動力學,提出了簡單布爾網絡理論[1]。20世紀90年代實驗數據的增加,更加加速了基因網絡理論的研究。到目前為止已發展了很多研究基因網絡的方法,如隨機模型、布爾網絡、邏輯方法、門限模型以及基于微分方程的方法等[2]。全基因組測序后展現在科學家面前的是浩瀚的DNA序列信息,這就要求人們要“讀懂”他,也就是要了解基因是如何表達的,以及基因的表達是如何受到調控的,并在全基因組水平上系統闡述這些基因的表達調控規律,進而來揭示生命的奧秘。一個基因的表達受其他基因的影響,而這個基因又影響其他基因的表達,這種相互影響相互制約的關系構成了復雜的基因表達調控網絡(gene regulatory networks)。從表達譜數據出發,可以建立基因或蛋白質相互作用的網絡模型,這種方法也稱反向工程(reverse engineering)[3]。全基因組基因表達調控網絡的研究必將促進個性化醫療的發展和重大復雜疾病的預測和治療,并最終揭示出人類生老病死的奧秘。關于基因表達調控網絡目前人們做了很多研究,本文提出用熵互信息的數學理論尋求基因間關系的邏輯函數,有了基因之間的邏輯關系函數,就可以構建基因邏輯電路網絡(gene logic circuit networks),再利用基因邏輯電路網絡與邏輯函數得到基因在不同時間的基因狀態,由得到的基因狀態就可以畫出基因調控網絡的動態轉換圖,可以從基因調控網絡的動態轉換圖中研究網絡的變化,可以把此方法用在生物基因調控網絡的分析和研究中,尋找變異基因網絡與正常基因網絡動態變化的差異,試圖找到引起疾病的原因。本文提出一個新觀點,基因網絡可以分為抑制型和非抑制型兩類。提出一個新方法用邏輯電路網絡表示基因調控網絡,把邏輯電路的分析方法用到基因網絡的動態網絡分析中。
2 利用熵確定基因調控布爾網絡邏輯關系
要想構建基因調控布爾網絡,關鍵是找到基因之間的布爾邏輯關系函數,現在關于確定基因調控關系也是后基因時代的一個研究熱點,在這里考慮應用熵的互信息理論去尋找基因之間的邏輯關系函數。首先由基因表達序列(其中基因表達用1表示,基因不表達用0表示)根據下面所定義的公式得到熵與互信息熵,再由得到的熵與互信息熵確定基因之間的邏輯關系。
H(X)=-∑PXlog PX,H(Y)=-∑PYlog PY
H(X,Y)=-∑PX,Ylog PX,Y
M(X,Y)=H(X)+H(Y)-H(X,Y)
現在考慮三個基因X1,X2,X3的情況,利用熵互信息理論找到三個基因的邏輯關系函數,三個基因的基因表達序列(其中基因表達用1表示,基因不表達用0表示)如表1所示。
表1 基因表達序列
在表中X1,X2,X3為輸入基因表達,X1′, X2′,X3′為輸出基因表達,可以利用上面所提到的熵互信息公式得到基因X1,X2,X3,X3′的熵和互信息熵。
H(X1)=1.00,H(X2)=1.00,H(X3)=1.00,H(X1,X2)=2.00,H(X2,X3)=2.00,H(X1,X3)=2.00,H(X1,X2,X3)=3.00,H(X3′)=1.00
有了基因X1,X2,X3的熵和互信息熵,下面詳細介紹尋找輸入基因X1,X2,X3與輸出基因X3′的邏輯關系過程:
H(X3′,X1)=1.81, M(X3′,X1)=0.19
M(X3′,X1)/H(X3′)=0.19
H(X3′,X2)=1.81, M(X3′,X2)=0.19
M(X3′,X2)/H(X3′)=0.19
H(X3′,X3)=1.81, M(X3′,X3)=0.19
M(X3′,X3)/H(X3′)=0.19
H(X3′,[X1,X2])=2.50, M(X3′,[X1,X2])=0.50
M(X3′,[X1,X2])/H(X3′)=0.50
H(X3′,[X2,X3])=2.50, M(X3′,[X2,X3])=0.50
M(X3′,[X2,X3])/H(X3′)=0.50
H(X3′,[X1,X3])=2.50, M(X3′,[X1,X3])=0.50
M(X3′,[X1,X3])/H(X3′)=0.50
H(X3′,[X1,X2,X3])=3.00
M(X3′,[X1,X2,X3])=1.00
M(X3′,[X1,X2,X3])/H(X3′)=1.00
由以上分析可以得到其邏輯關系為:
X3′=(X1 and X2)or(X2 and X3)or(X1 and X3)
由同樣的方法可以得到:
X1′=X2
X2′=X1 or X3
其中:or為或邏輯,and為與邏輯。
上述介紹了用熵互信息理論找到基因之間邏輯關系的方法,通過用此方法編輯軟件可以對多個基因進行處理,找到基因之間的邏輯關系函數。有了基因之間的邏輯關系函數就可以構建基因布爾網絡,從而了解基因之間的關系。
3 基因布爾網絡的分析
基因布爾網絡[4,5]是一個有N個節點(基因),并且對每個節點如果給予i個輸入(用二進制0或1表示)在任意時間t被定義為xi(t),當xi(t)=0時基因沒有表達,xi(t)=1時基因被表達,全部輸入在時間t的表達水平可以用行向量表示x(t)=[x1(t),x2(t),…xn(t)],任一節點的輸出依賴于所給定的布爾函數及其輸入節點的布爾值。該網絡類似一個被控制的布爾電路網絡所有的節點。同時受輸入和布爾函數決定,然后產生下一個狀態。
對于基因調控的布爾網絡從結構上應該認為可以有兩種:基因網絡分為抑制型和非抑制型兩類。
抑制型 [HTSS]該基因網絡表示為抑制型的(見圖1)。這是一種特殊的基因布爾網絡,每個基因只是單向傳輸的。對于這樣的基因調控網絡,可以用一個簡單的邏輯電路網絡來表示(見圖2),從邏輯電路網絡可以看到該網絡有4個輸入,1個輸出。其中cdk7與cyclinlt是邏輯與,P21/WAF1是一個邏輯非,到最后Rb輸出的是一個邏輯與非,到Rb輸出時網絡被抑制(2000年被Rzhetsky等提出)[6-8]。
圖1 基因調控
非抑制型 [HTSS]該基因網絡是未被抑制的,該基因網絡在時間t+1的狀態是由時間t提供的。假設一個三個基因的未被抑制型的布爾網絡用邏輯電路網絡來表示(見圖3)。其中三個基因滿足的邏輯關系可以用以下的邏輯關系函數式表示:
x1(t+1)=x2(t)
x2(t+1)=x1(t) or x3(t)
x3(t+1)[WB]=(x1(t) and x2(t)) or (x2(t) and x3(t)) or
圖2 邏輯電路網絡
圖3 基因邏輯電路網絡
表2 邏輯真值表
依據真值表里的狀態可以繪制出邏輯狀態轉換圖(見圖4),進而就得到了基因調控網絡的動態轉換的過程。從得到的基因調控網絡的動態轉換的過程可以了解以下知識:
(1) 把系統經歷部分狀態,最后圍繞一個反復出現的狀態周而復始地進行的行為稱為狀態循環,在圖4中010,100就是一個狀態循環。
圖4 基因調控網絡動態轉換
(2)傾向于狀態循環,但又沒有處于循環之中的狀態稱為暫態,如圖4中001,101,011,110都屬于暫態。
(3) 吸引子是系統被吸引并最終固定于某一狀態的性態,在圖4中111就是一個吸引子。
(4) 流向狀態循環吸引子的狀態加上狀態循環合起來稱之為吸引子的吸引盆,在圖4中101到011到吸引子111,110到吸引子111就是一個吸引盆。如果吸引子的吸引盆區域越大,則說明吸引子有足夠的影響力,該吸引盆網絡的穩定性越強。
4 布爾基因調控網絡的進一步研究
根據給出的方法得到布爾基因調控網絡的邏輯關系函數,然后用得到的邏輯關系函數找到基因調控網絡的動態變化過程,根據動態變化找到基因的變化。可以看到任何一個基因發生變化或任何一個狀態發生變化,都會引起整個動態網絡變化。可以把此方法用于生物基因網絡的分析,可以利用通過比較正常基因網絡動態變化與變異基因網絡動態變化,在基因調控網絡中找到引起疾病的原因。布爾基因調控網絡在確定過程中有時受基因表達的不準確性,導致得到的邏輯關系有問題。邏輯關系出現問題,后邊的邏輯狀態轉換過程有誤,不容易得到準確的結論,對于疾病的研究會帶來不準確性,再者基因調控網絡是一個動態網絡,本來就具有不確定性,所以為了更好地研究基因調控網絡,進一步的研究工作是用概率布爾網絡來解決基因調控網絡的不確定性。
參 考 文 獻
[1]Kauffman S A.The Large-seale Structure and Dynamics of Gene Control Circuits[J].Anensemble Approach.Theor.,44:167-190.
[2]雷耀山,史定華,王翼飛.基因調控網絡的生物信息學研究[J].自然雜志,2004,26(1):7-12.
[3]王正華,王勇獻.后基因組時代生物信息學的新進展[J].國防科技大學學報,2003,25(1):1-6.
[4]張國偉,邵世煌,張穎.布爾基因網絡及其研究[J].東華大學學報:自然科學版,2006,32(2):127-130.
[5]Davidson E.A Genomic Regulation Network for Development[J].Science,2002,295:1 669-1 678.
[6]Shmulevich I,Dougherty E R,Kim S.Probabilistic Boolean Networks:A Rule-based Uncertainty Model for Gene Regulatory Networks[J].Bioinformatics,2002,18:261-274.
[7]Pal R.Generating Boolean Networks with a Pprescribed Attractor Structure[J].Bioinformatics,2005,21:4 021-4 025.
[8]Rzhetsky A,Koike T,Kalachikov S.A Knowledge Model for Analysis and Simulation of Regulatory Networks[J].Bioinformatics,2000,16:1 120-1 128.
作者簡介
王麗琴 女,1973年出生,河北張家口人,碩士研究生,講師。研究方向為生物信息學。
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。