999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖卷積的蛋白質復合物篩選模型

2021-04-20 12:07:58高盼
電腦知識與技術 2021年7期

高盼

摘要:蛋白質復合物的預測對生物研究至關重要,現有的預測算法主要是基于蛋白質相互作用網絡的局部結構發現算法,其存在一定的局限性,無法利用已知復合物作為先驗知識,無法有效融合蛋白質生物關聯性數據,因此其預測結果中會存在部分不符合復合物形成規律的樣本。本文提出基于圖卷積的復合物篩選模型,該模型充分考慮了蛋白質特征,在蛋白質復合物對應的局部圖中將特征進行深度融合,從而有效地對蛋白質復合物進行評分,識別并剔除一般復合物預測算法結果中的低分復合物樣本,提高其預測的準確性。

關鍵詞:蛋白質復合物;生物信息學;圖神經網絡

中圖分類號:TP183? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)07-0186-02

1 引言

蛋白質復合物是蛋白質相互結合完成某一項生物功能的集合。生物學上蛋白質復合物的識別與研究在生物檢測、細胞分析、藥物研發等領域發揮至關重要的作用,能有效幫助研究人員發掘生命活動的規律。傳統的基于生物實驗的方法可以識別蛋白質復合物,但其成本較高、周期較長,無法滿足大規模數據時代的研究需求。現有的蛋白質復合物預測算法主要是基于計算的算法,將蛋白質之間廣泛的相互作用抽象成圖,蛋白質復合物抽象為圖中的局部結構,此時蛋白質復合物預測問題轉換為局部子圖發現問題。但是基于計算的預測算法具有一定的局限性,其無法利用已知復合物作為先驗知識,無法有效融合蛋白質生物關聯性數據,因此其預測結果中會存在部分不符合復合物形成規律的樣本。本文提出基于圖卷積的復合物篩選模型,該模型充分考慮了蛋白質特征,在蛋白質復合物對應的局部圖中將特征進行深度融合,從而有效地對蛋白質復合物進行評分,識別并剔除一般復合物預測算法結果中的低分復合物樣本,提高其預測的準確性。

2 復合物特征子圖數據集構建

已驗證蛋白質復合物數據集中每一個樣本為蛋白質集合,代表某一個復合物中蛋白質種類。但是集合數據不具有可學習性,因此本文提出了復合物特征子圖的結構化數據生成方法,將集合數據轉換為可學習的結構化數據。下面介紹具體的復合物特征子圖數據集生成過程。

基于蛋白質相互作用數據集構建蛋白質相互作用網絡(簡稱互作網絡)。迄今為止,釀酒酵母(Saccharomyces cerevisiae)相關的蛋白質領域研究較為深入,其標準復合物數據包括MIPS數據集、CYC2008數據集等等,蛋白質相互作用數據包括DIP數據集、Biogrid數據集、Gavin數據集等,因此其數據基礎是比較完備的。本文基于DIP[1]蛋白質相互作用數據集展開研究,其中包含著多對蛋白質相互作用,每一對蛋白質相互作用有相應的編號i和編號j,表示這兩個蛋白質之間存在相互作用關系。本文以數據集中的互作關系作為鄰邊構建蛋白質相互作用網絡,形成圖結構(Graph)的形式G={V,E},其中V表示所有蛋白質結點,E表示所有蛋白質相互作用鄰邊。

在互作網絡中嵌入結點特征,形成帶特征的蛋白質相互作用網絡(簡稱特征互作網絡)。圖結構是高維的復雜的數據,可能包含噪聲和冗余信息,結點特征嵌入就是將網絡數據從高維表示隱射維低維表示,其低維嵌入維度通常越小于網絡的結點數量,從而達到網絡去噪以及結點表示的目的。本文提出了兩種結點特征嵌入方法,第一種是基于圖自編碼器嵌入(Graph Auto Encoder,GAE)[2],維度16維,第二種是基于深度隨機游走嵌入(Deepwalk),維度64維。結合GAE和Deepwalk結點特征嵌入維度為80維。

從特征互作網絡中提取特征子圖。特征子圖是由蛋白質復合物的集合數據作為結點集合在特征互作網絡中提取子圖構建。按照蛋白質復合物數據來源劃分,特征子圖分為正樣本特征子圖、中間樣本特征子圖、負樣本特征子圖和待篩選特征子圖。訓練數據集中正樣本特征子圖由CYC2008標準復合物數據集[3]提取,中間樣本特征子圖由COACH算法的預測結果提取,負樣本特征子圖由隨機子圖。在訓練數據集中,子圖不同類別具有不同標簽,同時依據標準復合物鄰居相似性評分指標,子圖具有相應0~1的評分,評分越接近1表示該復合物越接近標準復合物。待篩選特征子圖由多種基于密集子圖的復合物預測算法構成,分別為Dpclus算法[4]、Clique算法和IPCA算法。

3 基于圖卷積的復合物評價模型

卷積神經網絡快速發展,其具有高效的特征提取能力,但其只能處理平移不變性的歐氏空間數據。特征子圖的結構化數據是非歐式空間數據,每個結點的局部結構由于其鄰邊和對應的鄰居結點是各不相同的,因此其是具有差異性的,圖卷積神經網絡[5](Graph Convolution Network,簡稱GCN)基于鄰居特征聚集以及特征轉換矩陣作為卷積核的思想巧妙地實現了圖結構數據上的卷積過程。在數據集構建階段本文已將復合物的集合數據轉換為特征子圖數據,特征子圖為非歐式空間高維圖結構,本文基于圖卷積的算法本文對蛋白質復合物的高維圖結構進行深度融合,從而提取復合物特征并對特征做進一步處理。

本文采用了如下的GCN的更新方法,在圖結構中,輸入為公式如下所示.:

其中H為n*m的矩陣,代表圖結構中結點特征矩陣,n為圖結構中結點數量,m為特征維度。其中(l)上標表示第l層特征,(l+1)上標表示第l+1層特征,上式即表示特征層級更新方法。A為n*n矩陣,表示圖結構鄰接矩陣,而A-hat標志表示經過拉普拉斯平滑的鄰接矩陣。圖卷積的過程本質是結點之間的信息匯總及更新過程,平滑處理使得信息流動會依據源點的度數和匯點的度數做相應的歸一化處理,對度數過大的結點進行正則化懲罰。W為m*m的矩陣,表示圖卷積的核參數,對應著特征匯聚之后的轉換。σ表示激活函數。

基于圖卷積神經網絡,本文提出了復合物評價模型,該模型將特征子圖中的結點特征進行深度融合和動態更新,提取全局子圖特征,并基于全局子圖特征進行分類與評分,其具體過程如圖1所示。

從圖中可以得出,該模型的輸入為特征子圖的初始結點特征矩陣,其特征維度為80維,由GAE和Deepwalk嵌入拼接構成。采用了兩層圖卷積神經網絡提取特征,經過第一層GCN層特征更新,80維初始結點特征轉換為64維結點隱層特征,使得結點獲取直徑3的局部特征結構數據,經過第二層GCN層特征更新,64維結點隱層特征轉換為更深層次的64維結點隱層特征,使得結點獲取直徑5內的局部特征結構數據。結點特征深度嵌入之后,將子圖所有結點特征池化,以池化特征作為復合物子圖整體特征表示,至此就完成了復合物的特征嵌入。具體的池化過程為將所有結點特征分別進行平均值池化和最大值池化,拼接起來維1*128維特征。在子圖特征基礎上,經過兩層感知器模型以及Softmax激活函數,得到子圖的分類結果,計算相應的分類損失;經過另外兩層感知器模型以及Sigmoid激活函數,得到子圖的評分結果,計算相應的評分損失。最終的損失函數為分類和損失與評分損失綜合起來。

4 實驗設計與結果

本文對比了基于隨機特征的模型和基于圖論拓撲特征的模型。基于隨機特征的模型輸入結點特征為隨機數據,基于圖論拓撲特征的模型采用度分布,結點數等統計特征直接作為子圖特征。實驗中在DIP網絡中訓練模型,在待篩選數據中保留分類結果與評分結果為達到閾值的樣本,形成篩選后數據。評價階段對比了篩選前后復合物數據的F1值指標,具體結果如圖2所示。

對比結果表明基于圖卷積的蛋白質復合物篩選模型有效地提高了F1評價指標,同時證明了結點特征的有效性以及圖卷積特征融合方法的有效性。

5 結束語

本文提出了基于圖卷積的蛋白質復合物篩選模型。提出了蛋白質復合物特征子圖的構建方法,包括蛋白質互作網絡構建,基于GAE和Deepwalk的結點特征嵌入和復合物特征子圖提取。本文將圖卷積神經網絡應用于蛋白質復合物的特征提取中,經過多層圖卷積獲得結點深入嵌入特征,池化方法獲取子圖特征,基于子圖特征獲取復合物評分結果和分類結果。通過對復合物的分類與評分篩選一般性預測算法的有效復合物,經過多個對比實驗表明,基于圖卷積的篩選模型篩選之后的復合物樣本F1評價指標在三種預測算法中均有大幅提升。

參考文獻:

[1] Salwinski L , Miller C S , Smith A J , et al. The Database of Interacting Proteins: 2004 Update[J]. Nucl Acids Res,2004(32): D449-451.

[2] Kipf T N , Welling M . Variational Graph Auto-Encoders[J]. 2016.

[3] Shuye P , Jessica W , Brian T , et al. Up-to-date catalogues of yeast protein complexes[J]. Nucleic Acids Research, 2009, 37(3):825-831.

[4] Altaf-Ul-Amin M , Shinbo Y , Mihara K , et al. Development and implementation of an algorithm for detection of protein complexes in large interaction networks[J]. Bmc Bioinformatics, 2006,7(1):1-13.

[5] Kipf T N, Welling M. Semi-Supervised Classification with Graph Convolutional Networks[A]. 5th International Conference on Learning Representations[C].Open Review.net,2017.

【通聯編輯:光文玲】

主站蜘蛛池模板: 2021精品国产自在现线看| 激情视频综合网| 欧美色图久久| 国产激情无码一区二区免费| 人妻丝袜无码视频| 中国一级特黄大片在线观看| 四虎国产精品永久一区| 亚洲精品在线影院| 欧美日韩一区二区在线播放| 日韩无码黄色网站| 最新国产在线| 精品伊人久久久久7777人| 欧美乱妇高清无乱码免费| 99久久国产自偷自偷免费一区| 亚洲中文字幕在线精品一区| 欧美成人h精品网站| 色综合天天操| 亚洲伊人电影| 一级全黄毛片| 日韩福利在线视频| 无码 在线 在线| 香蕉视频国产精品人| 精品乱码久久久久久久| 影音先锋丝袜制服| 91精品久久久久久无码人妻| 国产视频入口| 天天综合网色中文字幕| 亚洲人成网线在线播放va| 日本高清成本人视频一区| 欧美国产另类| 国产免费福利网站| 在线精品欧美日韩| 91精品啪在线观看国产| 欧美成人一区午夜福利在线| 国产欧美日韩专区发布| 在线精品亚洲国产| 中文字幕无码电影| 欧洲高清无码在线| 国产国拍精品视频免费看| 欧美日韩另类在线| 亚洲黄网在线| 亚洲男人的天堂网| 国产无遮挡裸体免费视频| 97av视频在线观看| 在线无码九区| 亚洲欧美精品一中文字幕| 亚洲首页国产精品丝袜| 九色视频最新网址| 性网站在线观看| 欧美一级在线| 亚洲精品在线91| 亚洲经典在线中文字幕| 日本午夜影院| 91年精品国产福利线观看久久| 久久狠狠色噜噜狠狠狠狠97视色 | 狠狠色成人综合首页| 特级做a爰片毛片免费69| 99ri精品视频在线观看播放| 国产第八页| 色综合成人| 亚洲综合二区| 制服丝袜一区| 亚洲精品天堂自在久久77| JIZZ亚洲国产| 99视频全部免费| 国产成人一级| 日韩av无码精品专区| 亚洲国产清纯| 国产日韩欧美精品区性色| 国产精品深爱在线| 日韩高清无码免费| 欧美综合激情| 欧美97色| AV片亚洲国产男人的天堂| 小蝌蚪亚洲精品国产| a亚洲天堂| 一区二区三区精品视频在线观看| 91精品小视频| 国禁国产you女视频网站| 欧美日韩中文字幕在线| 国产男女免费完整版视频| 国产丰满大乳无码免费播放|