999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合Doc2vec 與GCN 的多類型蛋白質相互作用預測方法

2024-01-15 14:37:38曹漢童陳璟
智能系統學報 2023年6期
關鍵詞:信息方法模型

曹漢童,陳璟,2

(1. 江南大學 人工智能與計算機學院, 江蘇 無錫 214122; 2. 江南大學 江蘇省模式識別與計算智能工程實驗室,江蘇 無錫 214122)

蛋白質-蛋白質相互作用(protein-protein interaction, PPI)在許多生物過程中都有著重要作用,在這些過程中,蛋白質通過與其他蛋白質相互作用形成特定功能。建立準確的 PPI 預測模型對于理解正常及疾病狀態下的細胞生物至關重要,推動了現代醫學的發展,如靶點治療[1]和新藥設計[2]。

生物實驗技術[3-5]雖然能夠直接發現和驗證PPI,但價格昂貴、檢測周期長,最顯著的缺點是單個實驗檢測PPI 會存在假陽性和假陰性的可能,因此其類型并不能得到完全解釋[6-7]。隨著高通量實驗技術的迅速發展,PPI 有關數據日益增多[8],這也使得通過計算方法預測其功能類型成為可能。相較生物實驗技術,計算方法速度快、成本低,可以在短時間內預測一些高置信度的PPI。利用大量的PPI 數據,可以構建蛋白質相互作用網絡,進而通過復雜網絡理論和機器學習方法預測PPI 類型。其中,網絡中的節點表示蛋白質,節點之間的連接表示對應蛋白質之間的相互作用。

針對PPI 預測問題,國內外已有大量相關研究。文獻[9]基于同源性的方法,通過計算蛋白質的BLAST 值將一對序列映射到已知的相互作用蛋白質,從而推斷出新的PPI;文獻[10]基于相鄰效應,提出結合自協方差(auto covariance,AC) 和支持向量機(support vector machine,SVM)方法,利用氨基酸與其 30 個鄰位氨基酸的相互作用表征 PPI 信息;文獻[11]采用物理化學特性響應矩陣將序列轉化為矩陣,使用局部相位量化的紋理描述符提取局部短語信息矩陣,將隨機森林(random forest, RF)模型與新特征表示相結合來檢測 PPI;文獻[12]基于檢測交互的實驗技術,采用邏輯回歸(logistic regression, LR)來預測交互類型;文獻[13]基于SVM,結合描述氨基酸的聯合三元組特征和序列信息來預測PPI。其中多類型PPI 預測是對傳統PPI 預測方法的一種擴展和改進,需要提供更全面、準確和細致的預測結果。雖然基于計算方法和機器學習提出了用于多類型PPI 預測的可行方法,但這些方法很大程度上依賴于提取和選擇更好特征的能力,因此性能受到PPI 特征表示和模型表達能力的限制。

近年來由于深度學習的發展,并在PPI 預測問題上也得到了廣泛應用。如文獻[14-16]分別使用卷積神經網絡(convolution neural network,CNN)、循環神經網絡(recurrent neural network,RNN) 以及區域卷積神經網絡(region CNN, RCNN)來提取序列中的高維信息特征,從而改進了PPI 相關任務中的模型預測性能。相較于早期機器學習方法,以上模型有了一定的深度,非線性的建模能力得到了增強,對PPI 預測這類復雜的任務表現也不斷提升。

雖然上述方法能夠高效地提取蛋白質序列信息,但忽視了PPI 網絡的結構信息,存在一定的局限性,準確性也有待提高。近年來,大量研究[17-18]表明,圖神經網絡在利用圖結構信息方面有著顯著的優勢。因此,采用圖神經網絡(graph neural networks, GNN)以利用PPI 網絡的結構信息,搭建新型多類型PPI 預測模型,對于提升預測的準確率有較好的前景。文獻[19] 考慮了PPI 的相關性,提出使用GNN 自動學習PPI 網絡中的蛋白質特征。文獻[20]將GNN 擴展到多類型PPI 分類,并提出全新的測試集訓練集劃分方法以及“新蛋白質”這一概念-即在訓練集中并沒出現過的蛋白質,實驗結果表明過往方法對“新蛋白質”的分類能力較弱。

因此,本文根據PPI 網絡中的蛋白質結點,利用其氨基酸序列信息和網絡結構信息,對其進行多類型預測,提出一種融合Doc2vec[21]文本嵌入方法和圖卷積網絡(graph convolution network,GCN)[22]的多類型蛋白質相互作用分類預測模型。該模型利用自然語言處理領域中詞袋預測任務的無監督模型,對蛋白質的氨基酸序列進行訓練,并將模型的輸出作為蛋白質序列信息的初步特征,隨后使用一維卷積神經網絡進行特征提取,并采用圖神經網絡作為下游模型,在對單個蛋白質進行表征的同時聚合它的鄰居蛋白質的信息。該方法僅利用蛋白質序列信息和PPI 網絡結構信息,在有效處理任何長度的序列信息的同時也簡化了模型深度,進而高效準確地預測蛋白質之間的相互作用,尤其是對于未曾見過的“新蛋白質”之間PPI 的多類型預測。

1 問題建模

假設存在一個蛋白質為點的集合P,蛋白質相互作用為邊的集合V(即PPIs),相互作用的類型為標簽的集合T,表達公式如下:

式中:n表示蛋白質的個數;I表示相互作用,當I(vij) =1/0 時,表明蛋白質pi和pj間存在/不存在相互作用(或它們之間的相互作用尚未發現);m表示在數據集中出現的相互作用的類別總個數。

對于每一條蛋白質相互作用vij,設其標簽為xij,且xij∈T。所有的蛋白質相互作用集合和對應的標簽集合構成了所需的數據集的集合D,所有的蛋白質相互作用集合和蛋白質集合構成了蛋白質互作網絡G,表達公式如下:

由上述可知,針對多類型PPI 分類預測任務,需要構建一個模型,并在數據集D中劃分訓練集和測試集,從訓練集中學習使得該模型預測出的不斷地接近于真實值xij。

2 GDP 預測模型

2.1 預測方法

本文提出融合Doc2vec 與GCN 的多類型蛋白質相互作用預測方法,該方法主要分為蛋白質嵌入模塊、特征提取模塊、圖卷積編碼模塊和分類器預測模塊4 個部分。蛋白質嵌入模塊通過調整Doc2vec 非監督段落向量學習模型,將不定長的蛋白質序列特征信息嵌入至低維向量空間,解決了蛋白質初步特征選取問題;特征提取模塊利用一維卷積網絡的堆疊,將蛋白質嵌入模塊獲得的特征進一步整合,利用多個卷積核,放大針對PPI 多分類預測的有效特征信息;圖卷積編碼模塊利用圖深度學習的優勢,充分結合PPI 網絡結構的信息,聚合每個蛋白質的相鄰蛋白質的信息,優化了蛋白質結點的編碼表征問題;分類器預測模塊根據PPI 網絡結構信息,找到蛋白質相互作用邊,結合兩個蛋白質節點信息,并不斷從中學習更高效且準確的分類預測;具體結構如圖1所示。

圖1 GDP 框架結構Fig. 1 GDP framework

2.2 蛋白質嵌入模塊

蛋白質序列嵌入一直是生物信息學領域的重要問題,良好的表征能力決定了蛋白質預測相關任務的上限。隨著Word2vec、Seq2vec 等自然語言處理(natural language processing, NLP)領域中詞句嵌入技術發展,憑借其強大的表征能力,近年來已被應用于蛋白質的相關表征任務中。Doc2vec 是其中嵌入方法的一種,能得到任意長度文檔的向量表示?;诖耍疚膶⒌鞍踪|序列看作文檔,以改進Doc2vec 方法對蛋白質序列進行嵌入,模塊結構如圖2 所示。由圖2 可知,本文將每個蛋白質p的氨基酸序列s作為輸入,設置超參數滑動窗口長度w和子序列數量k,其中每個子序列由若干個k-mer(k個氨基酸可以組合為一個k-mer)構成。對于每個子序列采取連續詞袋(continuous bag of words)模型訓練,即使用子序列的嵌入和滑動窗口中的上下文k-mer 的嵌入來學習預測中央k-mer 出現的概率。聚合k個子序列的嵌入信息得到當前輸入蛋白質的序列嵌入。通過該模塊可以將最終生成的低維向量作為多標簽分類任務的初步特征。

圖2 蛋白質嵌入模塊結構Fig. 2 Protein embedding framework

2.3 特征提取模塊

在針對NLP 中文本任務等序列任務時,一維卷積神經網絡有著提升網絡特征表達、高效升維與降維、跨通道信息交互等優點,故本文采用了一維卷積神經網絡來更深層地提取蛋白質的局部特征信息,該模塊將蛋白質嵌入模塊得到的特征作為輸入,經過卷積與全連接層作為輸出,公式如下:

經過兩層的卷積再連接一層全連接層,該模塊能夠全面觀測蛋白質序列信息并提取到針對多類型PPI 預測任務的有效特征,提高模型的分類效率。

2.4 圖卷積編碼模塊

GNN 是基于深度學習的處理圖域信息的方法,由于其較好的性能和可解釋性,GNN 已成為一種廣泛應用的圖分析方法[23];生物計算主要利用了蛋白質相互作用網絡,因此基于GNN 進行相關生物任務取得了高效的進展。GNN 是對圖進行特征變換和特征提取,需要盡可能多的利用圖中節點特征和拓撲信息。圖分類相關任務中,目前主要有兩種卷積方式:1) 信息傳遞式的卷積,即直接在原始圖結構中定義由鄰居聚合和迭代更新機制所組成的卷積算子,例如GCN、圖注意力網絡(graph attention network, GAT)等;2) 傳統CNN 式的卷積,先將非歐氏圖轉化為規則網格結構,再應用傳統卷積神經網絡直接進行卷積操作。

圖同構卷積網絡(GINConv)屬于GCN 中的一種,其在同構網絡上有強大的表征能力,故本文采用GINConv,圖卷積編碼結構如圖3 所示。

圖3 圖卷積編碼結構Fig. 3 Graph convolution encoding framework

GINConv將卷積過程形式化為信息傳遞和節點信息更新兩個函數,各個節點將自己鄰居的信息聚合到自身節點,節點信息更新是將該節點上一層的節點表示與聚合后的鄰居信息進行結合,具體過程如下公式:

其中ε可以是超參數或者為可學習參數。

2.5 分類器模塊

通過以上3 個模塊,每個蛋白質都學習到了自身的表征向量,利用點積運算將蛋白質pi和pj的表征向量結合起來,在后續添加一層MLP 作為分類器,來進行多類型PPI 預測。預測的結果表示為其中hi和hj為圖卷積編碼模塊對應蛋白質的輸出。

2.6 損失函數

對于該任務,本文采用多任務二元交叉熵作為損失函數,公式如下:

式中:Vtrain表示PPI 集合V中劃分出的訓練集,表示訓練集中vij對應的第k種功能類型的真實標簽,則表示模型對其預測的輸出。

3 實驗結果與分析

3.1 實驗數據和評價指標

本文使用String 數據庫[24]中的多類型PPI 數據作為其中一個數據集來評估所提出GDP 預測模型,String 數據庫收集整合了公開的蛋白質相互作用信息來源,并構建了一個全面客觀的大型PPI 網絡,包括直接(物理)和間接(功能)相互作用,其將PPI 分為7 種類型,即反應(reaction)、結合(binding)、(activation)、抑制(inhibition)、催化(catalysis)和表達(expression),任意一對PPI 至少包含其中一種類型。此外,為驗證GDP 模型的泛用性,運用了Chen 等[16]從智人子集中隨機生成的SHS27k 和SHS148k 兩個子數據集。3 個數據集的信息如表1 所示。

表1 數據集的規模信息Table 1 The size of the data set

為避免數據的極度不平衡對結果造成不良影響,采用F1,micro得分作為評價指標。公式如下:

式中:n為分類類別總數;TP,i表示第i類的真陽性數;FP,i表示第i類的假陽性數;FN,i表示第i類的假陰性數。

3.2 實驗設置

本文實驗運行環境為Win10 系統、32 GB 內存,利用Pycharm 軟件和Pytorch1.8 版本框架搭建GDP 預測模型。實驗的參數設置如表2 所示。

表2 實驗參數Table 2 Experimental parameter

3.3 實驗結果

為驗證本文提出的方法的有效性,對上述3 個數據集分別使用隨機(Random)搜索、廣度優先搜索(breadth first search, BFS)和深度優先搜索(depth first search, DFS)策略進行劃分。如圖4 所示,當分別使用3 種策略對數據集進行劃分時,在選取相同數量的PPI 情況下,BFS和DFS 劃分策略下的測試集蛋白質節點遠少于Random 劃分策略,即采用BFS 和DFS 劃分數據集時,能夠出現大量訓練集未出現過的“新蛋白質”,這些新蛋白質更能檢測模型的預測效率。因此,本文在上述3 個數據集采用Random、BFS 和DFS 3 種劃分方式,分別與當前的PPI 分類方法[11,12,14-16,20]進行了對比實驗,其中RF 與LR 分別使用隨機森林和邏輯回歸方法,DPPI、DNN-PPI 和PIPR 使用卷積網絡方法,GNN-PPI 采用圖神經網絡方法。實驗結果分別如圖5 和圖6 所示。

圖4 不同的測試集劃分策略Fig. 4 Different test sets partitioning strategies

圖6 各方法在數據集String 上的micro-F1 得分Fig. 6 Micro-F1 score of each method on String dataset

由圖5 可知,在micro-F1得分指標和3 種數據集劃分模式下,本文提出的GDP 方法在SHS27k數據集和SHS148k 數據集上的效果均優于其他方法。在數據集SHS27k 中,GDP 方法在Random、BFS 和DFS 等3 種劃分方式下的micro-F1得分指標相較于目前性能最好的GNN-PPI 方法分別提升了1.2%、9.1%和3.5%;在數據集SHS148k 中,GDP 方法在Random、BFS 和DFS 等3 種劃分方式下的micro-F1指標分別提升了0.8%、11.4%和1.9%。由此可知,GDP 方法的多類型PPI 預測結果的準確率取得了較大的提升,其原因是PPI 網絡中僅缺失部分邊緣蛋白質,而對蛋白質進行特征表示時能夠獲得大部分鄰居的特征表示。實驗結果也表明,使用圖卷積能夠較好的聚合鄰居節點特征的效果,能夠較大提升圖網絡中的預測任務結果。與此同時,在Random 和DFS 模式下,GDP 方法也取得了一定提升,這表明蛋白質序列表征在PPI 任務中有著舉足輕重的作用[25]。

由圖6 可知,在micro-F1得分指標和3 種數據集劃分模式下,GDP 方法在String 數據集上的效果優于大部分算法。但在BFS 和DFS 劃分策略下,GDP 方法略遜色于GNN-PPI 方法,而在Random 劃分策略下,傳統氨基酸特征提取的深度學習方法DPPI 和PIPR 也稍高于GDP 方法。其原因是String 數據集屬于大規模PPI 網絡,而GDP方法訓練參數小,網絡深度淺,對于大型網絡易出現過擬合的現象,這也表明GDP 方法存在一定的局限性。

為進一步驗證GDP 方法中設計的蛋白質嵌入模塊,特征提取模塊,圖卷積編碼模塊的有效性,以及這3 個模塊對于整個方法性能的提升,本文將GDP 方法轉化為3 個新的方法:GDPACID、GDP-CNN 與GDP-GNN 方法。GDP-ACID將蛋白質編碼模塊替換為傳統氨基酸One-hot 編碼方式,GDP-CNN 將特征提取模塊替換為兩層MLP 的堆疊,GDP-GNN 則刪除了圖卷積編碼模塊。實驗結果如表3 所示,由表3 可知,當替換或刪減了這3 個模塊后,在不同數據集上和不同劃分策略下,預測效果都會出現一定程度的下滑。相較于蛋白質嵌入模塊,圖卷積模塊對整個方法的影響更為明顯,這也反映了將圖深度學習應用到PPI 網絡上的必要性。為研究不同蛋白質嵌入維度與圖卷積嵌入維度對micro-F1指標的影響,在中等規模數據集SHS148K 上分別設置不同的蛋白質嵌入維度d1與圖卷積嵌入維度d2,實驗結果如表4 和5 所示。由表4 和5 可知,隨著嵌入維度的不斷增加,micro-F1指標得分略微降低,但由于增大嵌入維度,可將更多的信息編碼,故其收斂速度加快,較好地提升了方法的性能。另一方面,嵌入的維度過高時會造成過擬合的現象。因此為選擇合適的嵌入維度,本文將蛋白質嵌入維度d1與圖卷積嵌入維度d2都設置為128。

表3 GDP 方法及其相關方法在不同數據集和劃分策略上的micro-F1 得分Table 3 Micro-F1 scores of the GDP method and its relative on different data sets and partitioning strategies

表4 不同嵌入維度d1 對GDP 方法micro-F1 指標的影響Table 4 Effects of different embedding dimensions d1 on micro-F1 index of GDP method

表5 不同嵌入維度d2 對GDP 方法micro-F1 指標的影響Table 5 Effects of different embedding dimensions d2 on micro-F1 index of GDP method

4 結束語

針對多類型蛋白質相互作用預測問題,本文提出一種融合Doc2vec 與GCN 的預測方法,GDP方法改進了Doc2vec 方法,在不依賴于生物特性信息的情況下,充分地利用了其完整氨基酸序列信息,為下游模型的輸入提供了有效的特征,同時將圖深度學習運用到PPI 網絡中,通過圖卷積聚合鄰居蛋白質的特征信息,考慮了整個網絡的結構信息。在真實數據集上與多種其它類似算法進行對比,實驗結果表明本文提出的GDP 預測模型具有更高的準確性。

后續工作中,將從兩個角度進一步研究:一是選擇更高效的模型對蛋白質序列進行嵌入表征,如基于Transformer 方法,該方法能將蛋白質的GO 注釋以及二級結構結合起來表征蛋白質,信息利用全面并且能夠看見全局的序列特征;二是探究圖深度學習領域對蛋白質相互作用網絡其他相關任務的影響,如蛋白質的結構預測或者PPI網絡比對任務。

猜你喜歡
信息方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产视频你懂得| 欧美日韩动态图| 亚洲第一成人在线| 91毛片网| 国产在线观看成人91| 老司机精品99在线播放| 国产一区三区二区中文在线| www.日韩三级| 欧美国产在线一区| 中文字幕一区二区人妻电影| 亚洲日本一本dvd高清| av在线手机播放| 东京热av无码电影一区二区| 国产视频 第一页| 无码高清专区| 国产精品蜜芽在线观看| 久久久久88色偷偷| 在线国产91| 国产在线第二页| 97av视频在线观看| 亚洲国产系列| 99re热精品视频中文字幕不卡| 伊人国产无码高清视频| 污污网站在线观看| 久久综合九九亚洲一区| 精品国产毛片| 久久精品国产精品青草app| 国产jizz| 久久久久亚洲AV成人人电影软件 | 免费视频在线2021入口| 91毛片网| 天堂成人在线| 国产乱人激情H在线观看| 国产97公开成人免费视频| 日韩成人免费网站| 亚洲自偷自拍另类小说| 亚洲综合久久一本伊一区| 男女性午夜福利网站| 成年人国产视频| 国产靠逼视频| 欧美一级一级做性视频| 青青青亚洲精品国产| 91视频99| 国产福利观看| 亚洲国产成人无码AV在线影院L| 亚洲天堂精品在线观看| 亚洲人成网站在线播放2019| 日本一区二区三区精品AⅤ| 亚洲国产综合自在线另类| 2019年国产精品自拍不卡| 免费又黄又爽又猛大片午夜| 亚欧成人无码AV在线播放| 亚洲无码精彩视频在线观看| 国产在线一二三区| 久久亚洲国产一区二区| 欧美一级高清片久久99| 日本三区视频| 免费啪啪网址| 国产精品无码久久久久AV| 精品国产美女福到在线直播| 欧美一级黄色影院| 伊人久久影视| 强奷白丝美女在线观看| 国产一二三区在线| 国产69精品久久久久孕妇大杂乱 | 一本大道无码日韩精品影视| 亚洲精品免费网站| 无码中文字幕精品推荐| 人妻无码中文字幕第一区| 97在线免费| 欧美高清三区| 国产色网站| 9cao视频精品| 午夜精品福利影院| 日韩毛片视频| 国产欧美日韩视频怡春院| 日韩精品一区二区三区免费在线观看| 日韩亚洲高清一区二区| jijzzizz老师出水喷水喷出| 亚洲日产2021三区在线| 99久久无色码中文字幕| 国产成人盗摄精品|