馬夢宇 胡春玲



關鍵詞:非齊次貝葉斯網絡;MCMC;邊緣耦合;基因調控網絡
中圖分類號:TP181 文獻標識碼:A
1 引言(Introduction)
隨著系統生物學的發展,基因調控網絡逐漸成為當下生物信息學領域研究的潮流。通過了解基因之間的轉錄關系[1]和蛋白質信號傳遞級聯研究生物體的基因調控網絡[2],能夠有效地提升基因工程藥物的作用和效果。
傳統的方法是使用基于改變點過程的非齊次動態貝葉斯網絡(Changepoints Non-homogeneous Dynamic BayesianNetwork,CPS-DBN)[3]構建基因調控網絡,CPS-DBN既能描述基因調控關系,又能描述基因調控方向,但缺點是容易導致模型過度靈活。因此,研究人員提出了具備新型分段方式的非齊次貝葉斯模型:基于隱馬爾科夫模型的非齊次動態貝葉斯網絡(Hidden Markov Model Non-homogeneousDynamic Bayesian Network, HMM-DBN)[4],HMM-DBN能將周期性實驗數據中距離較遠的時間點分配到相同的分段,克服了傳統CPS-DBN會導致模型過度靈活的問題。但是,由于HMM-DBN沒有限制基因調控效應強度的靈活性,使基因調控關系的調控效應強度隨時間推移發生較大變化,導致每個節點都要獨立推斷調控關系,忽略了基因調控關系為了適應環境變化可能經歷的復雜過程[5],因此影響了網絡重構精度。
本文結合邊緣耦合[6]的相關技術,分析了基因調控效應強度的靈活性對網絡重構精度的影響,并在酵母數據集[7]和合成RAF數據集[8]上進行測試,優化了HMM-DBN,將網絡重構精度提高到0.76以上。
2邊緣耦合的HMM-DBN(Edge-wise couplingHMM-DBN)
為了解決HMM-DBN中過度靈活的基因調控效應強度對學習基因調控關系的影響,進而提高網絡重構精度,研究人員使用參數耦合的方式將特定參數的后驗期望作為回歸參數的先驗分布條件,用不斷迭代更新的回歸參數推斷不同節點之間的基因調控效應強度。通過構建耦合超參數向量,使不同的時間段之間實現信息交互,在一定程度上可以限制基因調控效應強度的靈活性,從而改善網絡重構精度下降的問題。例如,順序耦合[9]就是用前一個時間分段的回歸參數的后驗分布數值作為求解當前時間段的回歸參數的先驗分布,使回歸參數隨時間變化保持相似,從而讓基因調控效應強度僅發生較小的變化(保持穩定),使每個基因節點可以在已知的調控關系基礎上推斷自己的調控關系,最終降低了推理過程中的不確定性,使網絡預測精度會得到顯著的改善。但是,以上方法假設所有回歸參數都隨時間變化保持相似,導致調控效應強度總是保持穩定,從生物學角度來看,基因之間的調控效應強度并不會一直保持穩定,通常會受到來自變化的實驗環境的影響。因此,順序耦合不能完全模擬基因調控關系為了適應環境變化而經歷的復雜變化過程,從而影響了網絡重構精度。
本文根據KAMALABAD等[6]對于邊緣耦合的非齊次貝葉斯網絡的研究,提出了邊緣耦合的基于隱馬爾科夫模型的非齊次動態貝葉斯網絡(Edge-wise Coupling Hidden MarkovModel Non-homogeneous Dynamic Bayesian Network,EWCHMM-DBN)。EWCHMM-DBN從數據中判斷當前時間段的回歸參數與前一時間段的回歸參數是否保持相似(耦合),并根據實際狀況在回歸參數的先驗分布里使用非耦合參數或耦合參數,從而區分穩定的調控效應強度和不穩定的調控效應強度。鑒于基因調控關系為了適應環境而經歷的復雜變化過程,適當保留調控效應強度的靈活性可能是有用的。
3.2在酵母數據
集上的實驗結果CANTONE等[7]于2009 年綜合設計了酵母基因序列中5 個基因節點之間的調控關系構成的基因調控網絡,在8 h內,用實時熒光定量PCR 在37 個時間節點測量了這些基因在酵母菌內部的表達水平,實驗條件分為半乳糖和葡萄糖。酵母數據集中五個基因節點GAL80、GAL4、CBF1、ASH1和SWIS之間的基因調控網絡如圖3所示,箭頭代表基因之間的調控關系。
圖4展示了在酵母數據集上進行實驗得到的EWCHMMDBN和HMM-DBN的網絡重構精度,橫坐標代表不同的MCMC采樣迭代次數,縱坐標代表在進行200 次獨立的實驗后,求出的平均AUC 值。黑色代表EWCHMM-DBN的平均AUC 值,灰色代表HMM-DBN的平均AUC 值,如圖4所示,與HMM-DBN相比,EWCHMM-DBN的平均AUC值有所提高,并達到0.76以上。
3.3在合成RAF數據集上的實驗結果
對于合成RAF數據集,文獻[8]綜合設計了實驗數據,完整的網絡結構如圖5(a)所示,該網絡由11 個節點,即pka、pip2、p38、raf、jnk、plcg、akt、erk、pip3、pkc和mek組成,有20 條代表蛋白質相互作用的有向邊。圖5(b)展示了在合成RAF數據集上進行實驗得到的EWCHMM-DBN和HMM-DBN的平均AUC 值,縱坐標對應經過200 次實驗后得到的平均AUC 值,橫坐標對應不同的模型,黑色代表EWCHMM-DBN的平均AUC 值,灰色代表HMM-DBN的平均AUC值,與HMM-DBN相比,EWCHMM-DBN的平均AUC 值有所提升,并達到0.76以上。
4結論(Conclusion)
本研究使用邊緣耦合的方式改進了傳統的HMM-DBN,通過區分耦合與非耦合的基因調控關系,限制了基因調控效應強度的靈活性,使基因調控網絡的推測過程更貼合生物適應環境的變化過程,提高了傳統HMM-DBN的網絡重構精度。在多個數據集上的實驗結果表明:改進后的EWCHMMDBN優于傳統的HMM-DBN,證明了過度靈活的基因調控效應強度會對網絡推測結果產生影響。由于影響網絡重構精度的方式不止一種,因此下一步的研究計劃將針對信噪比超參數和方差超參數的求解方式,盡可能地提高模型的收斂性。
作者簡介:
馬夢宇(1998-),男,碩士生.研究領域:人工智能,生物信息學.
胡春玲(1970-),女,博士,教授.研究領域:人工智能,數據挖掘,生物信息學.