王夙加劉云奇孫啟軒高任飛王之瓊
(1.東北大學醫學與生物信息工程學院;2.東北大學理學院;3.東北大學軟件學院)
基因本身蘊含著非常龐大且復雜的生物信息[1],通過建立基因調控網絡可以直觀地了解基因之間的相互作用機制,基因對組織細胞的調控機理等除此之外,我們通過對基因層面的研究,可以更加深入地了解疾病的發生與發展,從而可以針對疾病的診斷和治療采取更為適當且有效的手段,達到治療疾病、造福人類的目的[2]。特別是近幾年的在癌癥治療上的應用,例如靶向藥的研發與使用就達到很好的治療效果。它可以針對癌細胞特異性的給藥,相對于傳統的化療等癌癥治療手段來說可以極大地減輕患者治療時的痛苦。這種靶向藥物的研發很大程度上依賴于準確的基因調控網絡的分析與研究,因此,基因調控網絡優化的研究成為了重要的研究內容。近些年來,人們提出了許多基因調控網絡結構優化的方法,Jamshid等人[3]基于卡爾曼濾波和線性回歸方法改進了貝葉斯網絡結構學習的搜索策略,并且利用條件互信息對構建好的網絡進行了結構優化。Margolin等人[4]提出了基于信息論的ARACNE算法來構建基因調控網絡,消除了大多數由共表達方法得出的間接交互,從而推斷轉錄調控蛋白與靶點基因間的直接調控關系,Liu等人[5]提出了一種利用最小冗余網絡(MRNET)算法減少冗余邊的優化方法,通過減少基因的非調控和弱間接調控來減少基因間冗余關系進而獲取優化網絡。Xing等人[6]提出了洪水-修剪-爬坡算法(FPHC)作為一種基于貝葉斯網絡的基因調控網絡重建的新型混合方法。
以上這些優化方法雖然取得了一定的研究進展,但當前仍有待深入地研究與探索更為有效且精確性高的優化算法。想要達到高效準確地優化基因調控網絡的目的,就必須要準確地尋找出基因間的冗余關系并刪除它們。基于此,我們將弱間接調控關系的分析與判斷作為尋找冗余邊的重點并開展了相關研究。首先,利用互信息(MI)來計算任意兩個基因間的相關性,通過這種方法可以對基因間的相關程度進行量化評估。接著使用洪水—剪枝算法,把目標基因進行數據處理等級劃分(DPI),劃分出的目標基因間的弱關聯調控關系作為待刪除的邊。此外,引入了聚類算法的思想,首先采用重要程度評分(IDS)對基因間的相關聯程度進行評估,然后結合使用k-means聚類算法,其中表現較差的類也歸為待刪除的邊。最后,將兩種方式同時尋找并確定為待刪除的邊進行刪除。最終經過實驗對此優化算法的準確性等進行進一步驗證對比,發現此方法在敏感性、特異性、精確性、準確性等評估指標上均優于其他傳統方法,可提高優化效率,具有很好的應用性。
通過分析基因芯片探測基因表達數據,可以構建基因調控網絡。關聯網絡與關聯性背景相似性是基于信息論的基因調控網絡構建常用方法。然而,使用這兩種方法很容易引入由間接調控引起的假性陽邊。
面向基因調控網絡的弱關聯調控優化方法主要可以分為以下三個步驟:計算基因間的相關性,分別采用洪水—剪枝算法和K-means算法計算弱關聯調控邊,根據兩種算法綜合判斷弱關聯調控關系并刪除。步驟一,計算基因間相關性。根據輸入的基因表達數據,計算基因間的互信息值。步驟二,計算弱關聯調控邊。通過基因之間的互信息值對基因調控邊進行重要程度打分,然后利用K-means算法(類別設為4),選出重要程度打分較低的一類作為待刪邊集合A。使用洪水—剪枝算法對每個基因進行操作,找到每個基因相關的待刪邊集合B。步驟三,已經計算出洪水—剪枝算法和K-means算法分別計算出的待刪邊集合,查詢其中共同判斷為弱關聯調控的邊并刪除,更新基因的調控網絡。
查找目標基因相關基因集沿用了“關聯背景相似性方法”的思想:若某些基因的互信息呈一定的概率分布,他們之間可能會存在聯系,于是本算法首先對于每一個目標基因與其他基因的互信息進行升序排序,并且設置斷點K,將集合分為兩個部分。數據處理不等式存在一定的局限性,所以本算法可以設定數據處理級別,根據數據處理不等式對相關點集中的基因進行級別定義與閾值的設定,找出閾值以上的基因集合set 1。同一類事物往往具有相似的性質,所以本項目算法基于聚類技術選擇弱調控基因,首先對基因的重要程度進行特定的打分,再利用K-means算法對打分結果進行聚類,與目標基因同一類的被選為弱調控基因,其中與set1集合的交集為與目標基因存在假陽邊關系的基因集合set2。算法的總體框架如圖1所示。

圖1 面向基因調控網絡的弱關聯調控優化方法整體算法框圖
已知目標節點X和所有其他節點的互信息向量M={T1,T2,......,Tm},m=n-1,并將所有互信息按升序排列。根據以上分析,零假設和備選假設如下:
零假設:沒有斷點存在
備選假設:一個重要的斷點存在,即在向量M中存在一點將集合分為相關節點和其他節點兩部分。在零假設下,若所有互信息均來自相同分布,則概率為。在備選假設下,在向量中存在目標節點X的一個斷點,位于K∈[1,m]的位置,故兩類節點來自兩個不同的分布,可以定義如下式:

之后使用數據處理等級(DPI)對目標節點X的假陽性邊進行修剪。節點Ti∈Rx的數據處理級別定義如下:
如果Ti是第一個節點,定義數據處理等級為1;如果不是,對于每個在Ti前的節點定義一個三元組,Ti的數據處理等級被定義為的最大數據處理等級,如滿足數據處理等級不等式,則i+1。數據處理不等式如下:

在計算了互信息(MI)和重要程度打分(IDS)后,得到每個基因與其他基因的相關性系數,通過此系數,刪除那些相關性較差的基因關系[8]。我們使用K-means聚類算法,將每個基因與其它基因的相關系數進行聚類,經過百余次試驗發現,將結果聚為4類,能得到最好的結果。刪去4類中結果最差的一類,保留余下的3類,得到最后的網絡結構。
流程如下所述:首先,讀取通過IDS算法得到的IDS矩陣(隨機設置4個聚類中心),分配數據點,并計算數據的平均誤差,若最終仍有結果為空,則重新隨機設置4個聚類中心,再進行計算,直到結果不為空;逐步更新聚類的中心,計算平均誤差,比較前后兩次的平均誤差是否相同,直到兩次的誤差相同,得到最終的分類結果。我們選擇最差的一類,作為最終的刪邊矩陣。
實驗所選用帶金標準網絡的大腸桿菌Dream4中的基因表達微陣列數據multifactorial數據,此數據共有五個網絡,每個網絡各有100個基因數據,我們選取了其中更具代表性的網絡一進行分析。分別對本算法、ARANCNE算法和GRNInfer算法的性能進行評價,在對算法進行評價時,選用了敏感性、特異性、精確性、準確性、馬修斯相關系數5個指標,各指標說明如表1所示。

表1 各評估指標說明表
其中,TP表示真陽邊,即邊實際為陽性邊且被判斷為陽性的邊;FP表示假陽邊,即邊實際為陰性邊卻被判斷為陽性的邊;TN表示真陰邊,即邊實際為陰性邊且被判斷為陰性的邊;FN表示假陰邊,即邊實際為陽性邊卻被判斷為陰性的邊。
實驗結果顯示了三種算法的五個評估指標對比,如表2所示。

表2 各算法的五項評估指標對比
從表2中的信息我們可以得知,WRO算法五項評估指標優于ARANCNE和GRNInfer算法,在基因調控網絡中的優化效果更加優良。在準確率的方面,WRO算法的準確率可以達到98%以上,比ARANCNE和GRNInfer算法的準確率提高2%-4%。特異性水平達到99%,為進一步研究基因調控網絡的優化打下基礎。在精確性、敏感性和MCC評估指標上,相較于ARANCNE和GRNInfer算法,WRO算法提升36%-45%,假陽邊比例顯著降低,篩選掉的假陽邊數量和準確度較大幅度提升,從而使最終真陽邊所占比例明顯升高,實現了在正確刪除假陽邊的同時減少錯誤刪除真陽邊概率的目標。馬修斯相關系數MCC的評估結果提升,也表示預測的結果與實際結果之間的誤差減小,可以更加準確地預測優化結果。此外,WRO算法可操作性強,具有廣闊的應用發展前景。
為進一步提高基因調控網絡的精確度,提升優化網絡效率,本文提出了面向基因調控網絡的弱關聯調控優化方法,該方法將洪水—剪枝算法和K-means聚類算法合理有效的相互結合,準確地判斷出基因調控網絡中的弱關聯調控關系。通過實驗證明,該方法有效地提高了分析和判斷弱間接調控關系的能力,減少了錯誤刪除冗余邊的概率,同時,對比其他先進方法,本方法在五項評估指標上均較優。