哈爾濱醫科大學衛生統計學教研室(150081)
榮志煒 王文杰 李 康△
網絡既擁有簡潔的表達形式,又能夠闡釋復雜的生物分子間的關系。目前已經有多種的網絡構建方法,如基于相關系數、互信息、距離相關等相關性網絡,還有可以將調控方向納入其中的貝葉斯網絡(BN)、基于lasso線性回歸和隨機森林(RF)[1]回歸構建的網絡等。由于組學數據維數高、調控關系復雜,網絡構建過程中容易做出假陽性的調控關系,其中間接效應是主要問題。如圖1所示,其中實線代表真實調控關系,虛線代表可能產生的間接邊。變量A和變量B間存在關聯,變量B和變量C間也存在關聯,則即使變量A和變量C間無調控關系,建網時也可能會表現為兩節點之間具有一定的關聯。如圖1(b)所示,各種間接效應疊加可能使得在建網時出現許多虛假的調控邊。解卷積(network deconvolution,ND)和沉默算法(silencing)兩種網絡優化方法可用于改善間接邊的問題。本研究將結合多種網絡構建方法,對上述兩種優化方法進行研究。

圖1 原始網絡與具有間接效應的網絡
網絡解卷積(ND)方法由Feize(2013)提出[2],它是一種可用于優化高維數據網絡的方法,這種方法能夠利用網絡結構的信息推斷網絡中的直接相關,移除由于級聯效應產生的間接相關邊。設有N個變量,其基本原理:根據實際數據建立任意兩變量的關聯矩陣Gobs(如Pearson相關系數),Gobs為N×N階矩陣,將其分解為具有直接關聯和各種長度的間接關聯的矩陣之和,即

(1)
可以利用矩陣的特征值分解
Gdir=UΛdirU-1
(2)
(3)

(4)
對Gobs直接進行特征值分解
(5)
結合(4)和(5)可以有如下關系
(6)
這樣就可以由Gobs得到Gdir的特征值,進而可以得到矩陣Gdir。這里解卷積方法本身有兩個基本假設:①間接效應是級聯各直接效應的乘積;②Gobs是直接效應和所有間接效應之和。
網絡沉默方法(silencing)由Barzel(2013)提出[3],也是一種高維數據網絡優化方法。其基本原理:將網絡看做一個動力學系統,系統達到穩定狀態時各變量之間的關系
xi=fi(x1,…,xi-1,xi+1,…,xN),i=1,…,N
(7)
N為變量的數目。當xj(j≠i)產生一個小的擾動?xj時,變量xi也會產生相應變化?xi(i=1,…,N),于是變量xi與xj的Gdir可以用兩者之間的比值來衡量
(8)

在單獨考慮xj對xi的影響時,則有
(9)
根據微分學鏈式法則兩者有以下關系
(10)
對于對角線元素,有近似的關系
(11)
其中I指單位矩陣,從而得到下面的網絡沉默算法
(12)
diag(·)指取矩陣的對角線元素構成的對角矩陣。
為了真實體現基因網絡數據的特點,本研究選擇使用基因逆向工程評估與方法對話平臺(DREAM)的研究數據[4]。DREAM5主要針對于高維靜態網絡,符合本研究前述兩種方法的測試條件?,F選取其中的三個網絡數據(insilico,E.coli,S.cerevisiae)進行評價。三個網絡的基本信息如下表1所示,其中E.coli是大腸桿菌的基因調控網絡,S.cerevisiae是酵母菌的基因調控網絡,這兩個網絡都有較強的實驗證據支持,基因表達數據來自GEO。insilico則是利用E.coli和S.cerevisiae的子網絡使用微分方程模型模擬得到[5]。

表1 DREAM5網絡數據驗證平臺
為了能夠充分評價兩種優化方法的性能,選擇了7種基本方法來構建網絡。這7種方法涵蓋了靜態基因調控網絡構建的常見類型,其基本情況如表2所示。

表2 7種不同網絡構建方法得特點
多數建網方法首先得到的是一個關于邊的權重值,然后再根據權重值來決定邊的存在與否。網絡評價采用基于ROC曲線和PR曲線的評分方法[4]。具體步驟:事先隨機產生250000個隨機網絡,構建ROC曲線下面積(AUROC)和PR曲線下面積(AUPR)在零假設下的分布,由此可以計算出構建的每個網絡AUROC和AUPR的p值,再計算以下的評分
i∈{in.silico,E.coli,S.aureus}
(13)
該式綜合了ROC曲線和PR曲線來評價所構建的網絡效果。ROC曲線下面積的計算公式為

(14)
其中TPR(k)=TP(k)/P,FPR(k)=FP(k)/N。TP(k)為建網得出的k條邊在與金標準比較后正確邊的數量,P為金標準中陽性邊的數量,FP(k)為建網得出的k條邊在與金標準比較后錯誤邊的數量,N為金標準中陰性邊的數量,c為網絡邊數。PR曲線下面積為

(15)
其中PRE(k)=TP(k)/k。
另外,特定的網絡構建方法可能對網絡中的不同結構識別效果不同[4],本研究提取出網絡中三種常見的結構,分別用FFL、Core和Casc表示,結構如表3所示。其中,實線表示相應的邊存在,虛線表示相應的邊不存在,計算曲線下面積時是針對圖中的AB邊進行的,1和0分別為所用的標簽值。兩種優化方法作為去除間接邊的方法,應該提高FFL和Core的重建能力,而不降低Casc的重建能力。本研究使用三個數據中預測最好的網絡來進行網絡結構分析。

表3 網絡中常見的結構
各個網絡的得分如圖2,其中Overall表示三個網絡得分的均值。結果顯示,網絡解卷積和網絡沉默都能夠提高無方向網絡的性能,其中網絡解卷積在Pearson相關系數、Spearman相關系數、MI和ARACNE上的表現要優于網絡沉默;網絡沉默在CLR上的表現優于網絡解卷積,并且達到了無方向網的最高水平。對于RF建網,網絡解卷積優化后網絡的準確性有所提高,而網絡沉默優化后則基本沒有改變。對于TIGRESS,兩種方法都沒有能夠提高其網絡的準確性。
結構分析結果如圖3所示。因為insilico數據網絡的總體預測準確性是最好的,所以使用它做網絡結構分析??梢钥闯?對于FFL和Core兩種結構,在使用解卷積和沉默算法優化后,網絡的準確度都有一定程度的提高,特別是對Core結構,兩種優化算法對網絡準確度的提升都很明顯;但對于Casc結構則略有降低。

圖2 基于7種構建網絡方法優化前后評分

圖3 in silico網絡中三種結構網絡優化后準確度的變化

網絡解卷積雖然可對有方向網絡進行優化,但通常是將其方向去除后對網絡優化,得到的是個無方向網絡,而網絡沉默則可以保留網絡的方向性。RF和TIGRESS是七種建網方法中對方向也進行預測的方法,其中網絡沉默方法對其優化效果不明顯。
對FFL、Core和Casc三種網絡結構AUPR優化后有比較明顯的變化。對于FFL和Core,兩種優化方法都有提高,特別是對于Core,解卷積方法提高所有的網絡,而沉默方法則提高了部分建網方法的準確性。注意到對Casc的優化略有下降,說明可能存在一些真實的邊被當作間接效應給去除了,但下降不多。
總體上看,RF建網后解卷積優化(RF+ND)是最優的建網策略。但考慮到RF建網在建立大型網絡時耗費的時間較多,并且解卷積算法需要進行參數調整,在維數較高(如m>500)的情況下,CLR建網后使用沉默算法優化(CLR+Silencing)計算量小,是一種值得考慮的建網策略。