董 藝,路云龍
(北華大學 數學與統計學院,吉林 吉林 132013)
隨著生物芯片技術[1]的發展,基因芯片的信息挖掘成為生物信息學的一個研究熱點,人們從研究基因測序[2-3]轉而研究基因功能.基因調控網絡是一個抽象概念,指細胞內(或特定一個基因組內)兩基因之間的相互作用關系所形成的網絡,在眾多相互作用關系之中,又特指基于基因調控所導致的基因間作用.研究基因調控網絡,建立基因調控網絡模型,就可以對一個組織或一個生物的全部基因關系進行整體的模擬、分析和探索,進一步在整體基因的框架下研究生命現象和信息流動的規律,所以研究基因調控網絡具有重要的現實意義.
目前人們對于基因調控網絡的研究處于蓬勃發展的階段.20世紀中期,Rater首先提出了控制原核生物細胞內基因之間相互影響和相互作用的系統和特征.20世紀60年代,Kauffman構建基因調控網絡.許多基因網絡模型相繼被提出,如布爾網絡模型[4]、貝葉斯網絡[5]、微分方程網絡模型[6]等.這些模型都有各自的優勢,然而也存在一些不足.如布爾網絡模型使用方便,但容易出現信息缺失問題;貝葉斯網絡在尋優的過程中已出現計算成本過大、計算困難的問題;微分方程方法易出現數據噪音不能控制的問題.相關性分析方法也是建立基因調控網絡的一個有效工具[7-8],通過確立基因間是否存在相關性來構建基因調控網絡.文章利用主成分分析法確立剪邊原則,對相關分析法得到的初始基因網絡進行修剪,建立最終的基因調控網絡,并對結果進行分析.
基因的表達在調節生命活動中充當著重要的角色,在一個生物體中,任何細胞都帶有同樣的基因,但是,一個基因在不同組織、不同細胞中的表現并不一樣,這是由基因調控機制所決定的.基因網絡是由大量的基因構成的,這些基因間又存在著復雜的相互作用,這種相互作用是通過他們所產生的蛋白質水平來呈現的,進而構成了基因調控網絡.其可以簡化成有向圖表示,如圖1所示,其中節點表示基因,邊表示基因間的調控關系.研究基因網絡就是為了探索生物或組織中基因間的相互作用關系,以此來認識生命結構,找到生命間的基本規律.
圖1 基因調控網絡
相關性分析[9]是不考慮變量之間的因果關系,而只研究分析變量之間的相關關系的一種統計分析方法,包括偏相關分析、距離分析等,這里只對于雙變量相關分析進行研究并用其解決相關問題.雙變量相關分析中主要的相關系數有皮爾遜系數、斯皮爾曼系數以及肯德爾系數.皮爾遜相關系數相比斯皮爾曼系數、歐幾里得距離、曼哈頓距離、切比雪夫距離的預測具有較高的準確率[10-11].皮爾遜相關系數主要是衡量兩個變量的依賴性的非參數指標,對于樣本容量為n的樣本,n個原始數據被轉換成等級數據,其計算公式為:
(1)
公式(1)主要是用其來判別兩基因之間的線性關系.若相關系數ρ=0,則x與y之間無線性關系;相關系數越接近-1或1,相關度越強,相關系數越接近0,相關度越弱.具體標準見表1.
表1 相關系數的判別
除上述指標外,還有ROC(Receiver Operating Characteristic)曲線和其曲線下的面積AUC(Area Under Curve)來比較不同算法構建基因網絡的能力.通過計算上述指標來判定所得到的結果是否成立及其所建立的模型是否合理.
下面給出主成分相關分析的基因調控網絡構建的基本過程.具體步驟如下:
第1步:錄入數據;
第2步:驗證數據是否服從正態分布;
第3步:對數據進行相關性分析得到相關系數表,利用公式(1)和表2畫出初始的基因調控網絡;
第4步:對數據進行主成分分析.首先確定“影響小”的結點:在任意一個主成分的評價函數中系數的絕對值小于等于一個正常數時,認為此點對該主成分的影響較小,即為“影響小”的結點;其次,假定影響小的結點引出的不顯著相關的邊需要進行剪邊,即對于與此點相關但相關性不強(表2)對應的邊進行剪邊,否則不剪邊.輸出最終剪邊后的基因調控網絡;
第5步:模型評價.
文章中用到的基因表達數據來源于DREAM項目中的challenge3(https://dreamchallenges.org/dream-3-gene-expression-prediction/),用于推斷模擬基因調控網絡.利用DREAM3網絡中的大腸桿菌(Ecoli1)基因表達數據,包含10個基因,樣本數量為10.圖2是黃金標準下Ecoli1的基因網絡,共11條邊.
圖2 黃金標準下Ecoli1的基因網絡
下面利用上述第2節的方法進行測試.
首先驗證基因數據是否服從正態分布,結果如圖3所示.
圖3 數據的柱狀圖
由圖3可以看出數據服從正態分布,接著利用SPSS軟件進行相關性分析,得到如下表2所示的相關性矩陣.
表2 相關性矩陣
利用表2的皮爾遜相關系數矩陣和表1的相關系數判別標準得到初始基因調控網絡,如圖4所示.
圖4 初始基因調控網絡
如圖4所示,只進行相關性分析后得到的基因網絡與黃金標準下的基因調控網絡相差較大,有較多多余的邊,因此考慮利用SPSS對數據進行主成分分析,得到的總方差解釋率如表3所示.
表3 總方差解釋
提取方法:主成分分析法.
從表3可以看出前兩個主成分的累計方差解釋率達到79.066%,因此在1~10基因中得到兩個主成分:
Z1=-0.737G1+0.941G2-0.954G3+0.911G4+0.955G5+0.419G6-0.856G7+0.947G8-0.032G9+0.679G10,
Z2=0.501G1-0.045G2+0.119G3+0.038G4-0.204G5+0.737G6-0.188G7-0.103G8-0.690G9+0.426G10.
參考上述主成分函數,根據算法第4步,可知G2、G3、G4、G5、G7、G8、G9前的系數有小于正常數0.25的情形出現,就認為這些結點是“影響小”的結點.結合相關系數表2和圖4進行剪邊,與“影響小”的結點G2、G3、G4、G5、G7、G8、G9相關但相關系數小于0.8的邊G1-G3、G1-G5、G1-G7、G1-G8、G2-G4、G2-G5、G2-G7、G2-G8、G3-G8、G4-G7、G4-G8、G5-G7、G7-G8均需被剪掉,從而得到一個新的基因調控網絡,如圖5所示.
圖5 剪邊后的網絡
根據圖5所示結果,經過相關性分析和主成分分析在10個基因中得到9條邊,其中有8條邊是正確的,G4-G9、G5-G9、G7-G8是缺失的邊,G4-G5是多添加的邊.相關性分析和主成分分析的實驗結果,如表4所示.
表4 實驗結果
結合表4可知該方法正確的邊較多,準確率較高.因此,相關性分析和主成分分析對于構建小規模基因網絡的能力較強、效果較好.
文章首提出相關性分析和主成分分析結合的基因網絡調控模型,對DREAM3、data10中Ecoli1的10個基因進行測試,與黃金標準網絡相比準確率較高,說明此方法對于少量基因的基因調控網絡構建的效果較好.另一方面,相關性分析和主成分分析雖然能夠顯示變量間是否相關以及相關性強弱的問題,但是相關性分析只能定性而不能定量,從而這種關系是促進還是抑制,存在怎樣的表達都無法確定,也不能給出有向的基因調控網絡圖,這是此方法存在的局限性.另外,在算法中有關閾值的設定還需進一步檢驗.因此對于基因調控網絡的研究,路途遙遠,將來還會做進一步的探索.