高盼



摘要:蛋白質復合物的預測對生物研究至關重要,現有的預測算法主要是基于蛋白質相互作用網絡的局部結構發現算法,其存在一定的局限性,無法利用已知復合物作為先驗知識,無法有效融合蛋白質生物關聯性數據,因此其預測結果中會存在部分不符合復合物形成規律的樣本。本文提出基于圖卷積的復合物篩選模型,該模型充分考慮了蛋白質特征,在蛋白質復合物對應的局部圖中將特征進行深度融合,從而有效地對蛋白質復合物進行評分,識別并剔除一般復合物預測算法結果中的低分復合物樣本,提高其預測的準確性。
關鍵詞:蛋白質復合物;生物信息學;圖神經網絡
中圖分類號:TP183? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)07-0186-02
1 引言
蛋白質復合物是蛋白質相互結合完成某一項生物功能的集合。生物學上蛋白質復合物的識別與研究在生物檢測、細胞分析、藥物研發等領域發揮至關重要的作用,能有效幫助研究人員發掘生命活動的規律。傳統的基于生物實驗的方法可以識別蛋白質復合物,但其成本較高、周期較長,無法滿足大規模數據時代的研究需求。現有的蛋白質復合物預測算法主要是基于計算的算法,將蛋白質之間廣泛的相互作用抽象成圖,蛋白質復合物抽象為圖中的局部結構,此時蛋白質復合物預測問題轉換為局部子圖發現問題。但是基于計算的預測算法具有一定的局限性,其無法利用已知復合物作為先驗知識,無法有效融合蛋白質生物關聯性數據,因此其預測結果中會存在部分不符合復合物形成規律的樣本。本文提出基于圖卷積的復合物篩選模型,該模型充分考慮了蛋白質特征,在蛋白質復合物對應的局部圖中將特征進行深度融合,從而有效地對蛋白質復合物進行評分,識別并剔除一般復合物預測算法結果中的低分復合物樣本,提高其預測的準確性。
2 復合物特征子圖數據集構建
已驗證蛋白質復合物數據集中每一個樣本為蛋白質集合,代表某一個復合物中蛋白質種類。但是集合數據不具有可學習性,因此本文提出了復合物特征子圖的結構化數據生成方法,將集合數據轉換為可學習的結構化數據。下面介紹具體的復合物特征子圖數據集生成過程。
基于蛋白質相互作用數據集構建蛋白質相互作用網絡(簡稱互作網絡)。迄今為止,釀酒酵母(Saccharomyces cerevisiae)相關的蛋白質領域研究較為深入,其標準復合物數據包括MIPS數據集、CYC2008數據集等等,蛋白質相互作用數據包括DIP數據集、Biogrid數據集、Gavin數據集等,因此其數據基礎是比較完備的。本文基于DIP[1]蛋白質相互作用數據集展開研究,其中包含著多對蛋白質相互作用,每一對蛋白質相互作用有相應的編號i和編號j,表示這兩個蛋白質之間存在相互作用關系。本文以數據集中的互作關系作為鄰邊構建蛋白質相互作用網絡,形成圖結構(Graph)的形式G={V,E},其中V表示所有蛋白質結點,E表示所有蛋白質相互作用鄰邊。
在互作網絡中嵌入結點特征,形成帶特征的蛋白質相互作用網絡(簡稱特征互作網絡)。圖結構是高維的復雜的數據,可能包含噪聲和冗余信息,結點特征嵌入就是將網絡數據從高維表示隱射維低維表示,其低維嵌入維度通常越小于網絡的結點數量,從而達到網絡去噪以及結點表示的目的。本文提出了兩種結點特征嵌入方法,第一種是基于圖自編碼器嵌入(Graph Auto Encoder,GAE)[2],維度16維,第二種是基于深度隨機游走嵌入(Deepwalk),維度64維。結合GAE和Deepwalk結點特征嵌入維度為80維。
從特征互作網絡中提取特征子圖。特征子圖是由蛋白質復合物的集合數據作為結點集合在特征互作網絡中提取子圖構建。按照蛋白質復合物數據來源劃分,特征子圖分為正樣本特征子圖、中間樣本特征子圖、負樣本特征子圖和待篩選特征子圖。訓練數據集中正樣本特征子圖由CYC2008標準復合物數據集[3]提取,中間樣本特征子圖由COACH算法的預測結果提取,負樣本特征子圖由隨機子圖。在訓練數據集中,子圖不同類別具有不同標簽,同時依據標準復合物鄰居相似性評分指標,子圖具有相應0~1的評分,評分越接近1表示該復合物越接近標準復合物。待篩選特征子圖由多種基于密集子圖的復合物預測算法構成,分別為Dpclus算法[4]、Clique算法和IPCA算法。
3 基于圖卷積的復合物評價模型
卷積神經網絡快速發展,其具有高效的特征提取能力,但其只能處理平移不變性的歐氏空間數據。特征子圖的結構化數據是非歐式空間數據,每個結點的局部結構由于其鄰邊和對應的鄰居結點是各不相同的,因此其是具有差異性的,圖卷積神經網絡[5](Graph Convolution Network,簡稱GCN)基于鄰居特征聚集以及特征轉換矩陣作為卷積核的思想巧妙地實現了圖結構數據上的卷積過程。在數據集構建階段本文已將復合物的集合數據轉換為特征子圖數據,特征子圖為非歐式空間高維圖結構,本文基于圖卷積的算法本文對蛋白質復合物的高維圖結構進行深度融合,從而提取復合物特征并對特征做進一步處理。
本文采用了如下的GCN的更新方法,在圖結構中,輸入為公式如下所示.:
其中H為n*m的矩陣,代表圖結構中結點特征矩陣,n為圖結構中結點數量,m為特征維度。其中(l)上標表示第l層特征,(l+1)上標表示第l+1層特征,上式即表示特征層級更新方法。A為n*n矩陣,表示圖結構鄰接矩陣,而A-hat標志表示經過拉普拉斯平滑的鄰接矩陣。圖卷積的過程本質是結點之間的信息匯總及更新過程,平滑處理使得信息流動會依據源點的度數和匯點的度數做相應的歸一化處理,對度數過大的結點進行正則化懲罰。W為m*m的矩陣,表示圖卷積的核參數,對應著特征匯聚之后的轉換。σ表示激活函數。
基于圖卷積神經網絡,本文提出了復合物評價模型,該模型將特征子圖中的結點特征進行深度融合和動態更新,提取全局子圖特征,并基于全局子圖特征進行分類與評分,其具體過程如圖1所示。
從圖中可以得出,該模型的輸入為特征子圖的初始結點特征矩陣,其特征維度為80維,由GAE和Deepwalk嵌入拼接構成。采用了兩層圖卷積神經網絡提取特征,經過第一層GCN層特征更新,80維初始結點特征轉換為64維結點隱層特征,使得結點獲取直徑3的局部特征結構數據,經過第二層GCN層特征更新,64維結點隱層特征轉換為更深層次的64維結點隱層特征,使得結點獲取直徑5內的局部特征結構數據。結點特征深度嵌入之后,將子圖所有結點特征池化,以池化特征作為復合物子圖整體特征表示,至此就完成了復合物的特征嵌入。具體的池化過程為將所有結點特征分別進行平均值池化和最大值池化,拼接起來維1*128維特征。在子圖特征基礎上,經過兩層感知器模型以及Softmax激活函數,得到子圖的分類結果,計算相應的分類損失;經過另外兩層感知器模型以及Sigmoid激活函數,得到子圖的評分結果,計算相應的評分損失。最終的損失函數為分類和損失與評分損失綜合起來。
4 實驗設計與結果
本文對比了基于隨機特征的模型和基于圖論拓撲特征的模型。基于隨機特征的模型輸入結點特征為隨機數據,基于圖論拓撲特征的模型采用度分布,結點數等統計特征直接作為子圖特征。實驗中在DIP網絡中訓練模型,在待篩選數據中保留分類結果與評分結果為達到閾值的樣本,形成篩選后數據。評價階段對比了篩選前后復合物數據的F1值指標,具體結果如圖2所示。
對比結果表明基于圖卷積的蛋白質復合物篩選模型有效地提高了F1評價指標,同時證明了結點特征的有效性以及圖卷積特征融合方法的有效性。
5 結束語
本文提出了基于圖卷積的蛋白質復合物篩選模型。提出了蛋白質復合物特征子圖的構建方法,包括蛋白質互作網絡構建,基于GAE和Deepwalk的結點特征嵌入和復合物特征子圖提取。本文將圖卷積神經網絡應用于蛋白質復合物的特征提取中,經過多層圖卷積獲得結點深入嵌入特征,池化方法獲取子圖特征,基于子圖特征獲取復合物評分結果和分類結果。通過對復合物的分類與評分篩選一般性預測算法的有效復合物,經過多個對比實驗表明,基于圖卷積的篩選模型篩選之后的復合物樣本F1評價指標在三種預測算法中均有大幅提升。
參考文獻:
[1] Salwinski L , Miller C S , Smith A J , et al. The Database of Interacting Proteins: 2004 Update[J]. Nucl Acids Res,2004(32): D449-451.
[2] Kipf T N , Welling M . Variational Graph Auto-Encoders[J]. 2016.
[3] Shuye P , Jessica W , Brian T , et al. Up-to-date catalogues of yeast protein complexes[J]. Nucleic Acids Research, 2009, 37(3):825-831.
[4] Altaf-Ul-Amin M , Shinbo Y , Mihara K , et al. Development and implementation of an algorithm for detection of protein complexes in large interaction networks[J]. Bmc Bioinformatics, 2006,7(1):1-13.
[5] Kipf T N, Welling M. Semi-Supervised Classification with Graph Convolutional Networks[A]. 5th International Conference on Learning Representations[C].Open Review.net,2017.
【通聯編輯:光文玲】