梁雨欣 周忠薇 左穎 黃旭義 張賞 西北農林科技大學信息工程學院
當今,癌癥被認為是致死亡率最高的人類疾病之一,而如何治愈癌癥又是人類無法攻克的難題。研究表明,癌癥與基因突變有關。隨著人類基因組計劃測序數據日益完善,人們對癌癥認識的逐步加深。如何從大量的基因數據中找到促進癌癥發展的驅動基因,是當前的研究熱點。
高通量測序技術被廣闊的應用于解決各種生物問題以及疾病領域。計算生物學和網絡醫學選擇和癌癥密切相關的體細胞突變進行研究,對于深入理解癌癥診斷、治療具有重要醫學價值。
癌癥研究領域的重點逐漸從關注單個突變基因向突變基因集合轉變。目前計算生物學和系統生物學以體細胞突變數據為主線來研究導致癌癥發生的驅動通路。2012年,Vandin團隊在《Genome Research》上發表檢測驅動通路文章,根據基因表達譜上突變基因互斥性和高覆蓋性等特點,建立最大覆蓋互斥子矩陣,利用馬爾科夫鏈算法檢測具有互斥性、高覆蓋的基因組合。利用數據本身固有屬性解決突變異構問題。此后,Zhang等人在《生物信息學》上發表檢測驅動通路文章,提出了癌癥發生與體細胞突變、基因表達和表觀遺傳之間密切相關,并使用體細胞突變和基因表達數據通過遺傳算法來檢測具有最大覆蓋的互斥子陣列。
目前這些研究主要集中于利用基因譜中突變基因互斥性理論,通過線性規劃算法、遺傳算法或網絡聚類方法對體細胞突變數據進行研究找出導致癌癥發生的驅動通路。這為本文利用基因網絡研究癌癥發病機理提供了理論參考和技術支撐。
驅動通路具有三個方面的特征:第一,驅動通路中每個基因都具有更頻繁的突變;第二,已發現的信號通路和網絡知識分析顯示驅動通路中每個基因都可能參與相同的生物過程;第三,從基因網絡層面上的分析表明驅動通路中基因在統計普遍性和基因突變譜上具有較強的相互互斥性。
突變基因分為功能性驅動突變和隨機突變。功能性驅動突變對癌癥發生起決定性作用,而隨機突變不會導致癌癥發生、發展和惡化。由于驅動基因同時靶標多個細胞,不同癌癥病人是由不同的基因突變紊亂其機體功能。這些突變異構現象表明,僅考慮突變率判斷基因是否為驅動突變是不科學的。
首先過濾掉突變率較低的基因,本文中將MAF(最小等位基因頻率,指在人群中的不常見的等位基因發生頻率)設為2.5%,即過濾掉MAF小于2.5%的基因,這類基因常為隨機突變。然后,計算每對基因間的互斥度和權重函數值,若一對基因間的互斥度大于等于給定閾值λ,且權重函數值大于等于給定閾值γ,則認為這對基因滿足互斥關系,并建立網絡中對應的邊,構成基因網絡。
將癌癥病人的基因描述為一個m×n的矩陣A,m表示病人個數,n表示基因個數,=1則表示病人i的基因j發生突變。設基因g的覆蓋函數,表示基因g突變的病人的集合,對于矩陣A的m×k子陣列M,設其覆蓋函數表示k個基因中發生突變的病人集合,對于任意一對基因則M中的基因是互斥的。
然而在實際的計算中,可能存在一個基因覆蓋包含于另一個基因覆蓋的情況。由此,我們定義子陣列M的覆蓋重疊函數而矩陣A中任一基因對的覆蓋重疊函數對于子陣列M,考慮到覆蓋度CD(M)和覆蓋重疊的影響,其權重函數。同理,對于矩陣A,定義其非重疊比重函數在構建突變基因網絡時,使用上述非重疊比重函數可以避免部分基因覆蓋包含的情況,增加計算精確度。
對于基因突變矩陣,分別計算出任一對基因間的互斥度和非重疊比重值,若且,則連接節點以此建立基因相互作用網絡。圖中的節點代表基因,而連邊代表這對基因互斥。
在上一步構建的網絡圖中,檢測其中滿足高覆蓋的最大完全子圖,該最大完全子圖就是一個突變驅動通路。
挖掘驅動通路子圖的步驟為:找到具有最大覆蓋且相互連接的3個基因作為起始基因集合,然后查找到起始基因集合外的某一節點,該節點與集合中每個節點相連且具有最大覆蓋度,將其加入到集合中,直到不存在與集合中所有節點相連的基因為止。另外,如果刪除某個集合中的節點,使集合的權重函數值增加,則在集合中刪除該節點。
本算法在構建突變基因網絡時,利用基因互斥性描述基因間關系,降低了時間復雜度。在檢測最大完全子圖時,優先考慮互斥度和權重函數值高的節點進入完全子圖的情況,提高了檢測驅動通路的準確性。