













摘要: 針對生物實驗識別關鍵蛋白質費時費力, 使用計算方法預測關鍵蛋白質無法有效整合生物信息的問題
, 提出一個深度學習框架. 首先利用網絡拓撲結構、 基因表達數據和GO(gene ontology)注釋數據構建加權蛋白質相互作用網絡; 然后分別使用特征圖網絡和雙向長短期記憶細胞從亞細胞
定位數據、 蛋白質復合物數據和基因表達數據中提取特征向量; 最后將這些特征向量輸入到任務學習層預測關鍵蛋白質. 實驗結果表明, 相比于現有的計算方法, 該方法預測性能更好.
關鍵詞: 關鍵蛋白質; 特征圖網絡; 亞細胞定位; 基因表達; GO注釋; 蛋白質復合物
中圖分類號: TP391" 文獻標志碼: A" 文章編號: 1671-5489(2024)03-0593-13
Deep Learning Framework for Predicting Essential" Proteins Based onFeature Graph Network and Multiple Biological Information
LIU Guixia, CAO Xintian, ZHAO He
(Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education,
College of Computer Science and Technology, Jilin University, Changchun 130012, China)
Abstract: Aiming at the problem that" identifying" essential proteins in" biological experiments was time-consuming and laborious, and using
computational methods to predict essential proteins could not effectively" integrate biological information," we proposed" a deep learning framework. Firstly, a weighted protein
interaction network was constructed by using network topology structure, gene expression data and gene ontology (GO) annotated data.
Secondly, feature vectors were extracted from subcellular localization data, protein complex data and gene expression data by using feature graph network and bi-directional long short-t
erm memory cells, respectively. Finally," these feature vectors were input into the task learning layer to predict essential proteins. The experimental results show that, compared with" existing
computational methods, the proposed method has better predictive performance.
Keywords: essential protein; feature graph network; subcellular localization; gene expression; GO annotation; protein complex
收稿日期: 2023-06-06.
第一作者簡介: 劉桂霞(1963—), 女, 漢族, 博士, 教授, 博士生導師, 從事機器學習和計算生物學的研究, E-mail: liugx@jlu.edu.cn.
基金項目: 國家自然科學基金(批準號: 62372208; 61772226)和吉林省科技發展規劃重點項目(批準號: 20210204133YY).
關鍵蛋白質對許多生命過程至關重要, 預測關鍵蛋白質對理解生物功能、 識別致病基因和藥物發現有重大意義[1]. 目前, 鑒定關鍵蛋白質的生物方法主要是利用RNA
(ribonucleic acid)干擾[2]、 條件性敲除[3]和單基因敲除[4]等實驗方式, 但這些方法既費時又費力. 隨著高通量技術的快速發展, 積累了大量的生物數據, 為計算方法提供了技術支持.
目前的計算方法主要分為以下兩類: 基于復雜網絡的方法和基于機器學習的方法. 基于復雜網絡的方法起源于Jeong等[5]提出的中心性原則, 即一個蛋白質在蛋白質相互作用(
protein-protein interaction, PPI)網絡中的拓撲連接越緊密, 它就越關鍵. 受此啟發, 研究人員使用PPI網絡的拓撲結構識別關鍵蛋白質, 如度中心性(degree centrality, DC
)、 介數中心性(betweenness centrality, BC)、 局部平均連通性(local average connectivity, LAC)[6]和局部相互作用密度(local interaction density, LID)
[7]等. 但這些方法忽略了關鍵蛋白質固有的生物學特征影響, 因此研究人員考慮結合不同的生物學數據發現關鍵蛋白質. PeC[8]和WDC[9]方法將PP
I網絡與基因表達數據相結合, 以提高關鍵蛋白質的識別準確率. Lei等[10]提出了基于亞細胞定位數據、 RNA-Seq數據和GO(gene ontology)注釋數據
的關鍵蛋白預測方法RSG. 文獻[11]提出了一種基于PPI網絡的局部密度、 BC以及蛋白質復合物中的度中心性(in-degree centrality of complex, IDC)的線性組合新方法LBCC.
目前, 已提出了許多預測關鍵蛋白質的傳統機器學習方法和深度學習框架. 機器學習方法遵循以下步驟預測關鍵蛋白質: 選擇代表性特征, 構建訓練集和測試集, 選擇
合適的算法或框架, 最后評估性能. 樸素Bayes、 隨機森林、 支持向量機(support vector machine, SVM)、 Adaboost、 決策樹和邏輯回歸屬于識別關鍵蛋白質的傳統機器學習
方法. DeepEP是由Zeng等[12]提出的一個深度學習框架, 利用多尺度卷積神經網絡(convolutional neural network, CNN)從基因表達數據中提取生物特征, 采用node2ve
c[13]從PPI網絡中學習拓撲特征, 然后將它們拼接預測關鍵蛋白質. DeepEP還采用了一種抽樣策略減輕不平衡學習的影響. Zeng等[14]考慮到基因表達數據的順
序屬性, 還提出了一個深度學習的框架, 它利用雙向長短期記憶細胞(bi-directional long short-term memory, BiLSTM)[15]捕捉其特征, 也采用node2vec從PPI網絡
中學習拓撲特征, 但增加了對亞細胞定位數據的利用. Yue等[16]提出了一種深度學習方法, 將node2vec提取的PPI網絡拓撲特征、 亞細胞定位數據和基因表達數據相結合
, 該方法將深度可分離卷積的概念應用于基因表達數據, 以在不同的實驗設置中隨時間提取特征. DeepCellEss[17]是一種基于序列的可解釋性深度學習框架, 利
用CNN和BiLSTM從蛋白質序列中學習潛在信息, 使用多頭自注意力機制提供殘差級的模型
可解釋性, 用于細胞系特異性關鍵蛋白質預測. CTF[18]基于h-quasi-cliques和uv-triangle圖等邊緣特征以及多源信息識別關鍵蛋白質.
雖然上述方法效果良好, 但仍存在一些缺點: 1) 實驗數據問題, 實驗方法得到的PPI網絡數據中存在假陰性和假陽性的問題; 2) 實驗方法問題, 基于復雜網絡的方法通過設計一
個函數計算中心性指標, 用其評估一個蛋白質的重要性, 但研究人員很難設計一個好的計算函數, 因為需要大量的先驗知識. 計算函數只產生標量, 易受PPI網絡中噪聲的干擾, 并且PPI網絡非常復
雜, 標量不能充分描述PPI網絡的拓撲結構信息. 基于傳統機器學習的方法依賴于人工選擇
特征. 特征的代表性越強, 這些方法的預測效果越好. 在現有的深度學習框架中, PPI網絡中蛋白質之間的拓撲屬性沒有得到充分利用, 主要體現在node2vec提取的特征中.
為解決上述問題, 進一步提高關鍵蛋白質的預測精度, 本文提出一個基于特征圖網絡(feature graph network, FGN)和多種生物信息預測關鍵蛋白質的深度學習框架. 在酵母菌數
據集BioGRID和DIP上的對比實驗結果表明, 本文方法優于目前主流的基于復雜網絡方法和機器學習方法. 消融實驗結果表明, FGN[19]和亞細胞定位數據的使用顯著提高了關
鍵蛋白質的預測性能, 蛋白質復合物數據也有助于提高預測效果. 通過給PPI網絡加權, 能降低數據中噪聲的影響, 豐富PPI網絡的邊緣信息, 從而進一步提高本文提出的深度學習框架的性能.
1" 算法設計
本文提出一個預測關鍵蛋白質的深度學習框架, 其主要思想如下.
1) 基于PPI網絡拓撲特征、 基因表達數據和GO注釋數據構建加權PPI網絡, 以減小PPI網絡中噪聲數據的影響, 并豐富PPI網絡的邊緣信息.
2) 本文提出的網絡結構如圖1所示, 包含兩部分. 上半部分先從亞細胞定位數據和蛋白質復合物數據中分別提取一個初始特征向量, 再分別接入一個輸出維度為1 024的全連接層
和激活層, 以進一步提取特征. 將得到的兩個1 024維的特征向量拼接, 形成一個1 024×2的特征向量, 輸入到兩層的FGN中, 以學習更豐富的節點表示. 從每個FGN層輸出后,
再先后輸入到批量歸一化(batch normalization, BN)層、 激活層和Dropout(隨機失活)層, 以防止過擬合, 從而提高網絡的泛化能力. FGN通過將邊緣信息(PPI網絡中蛋白質之
間相連的邊)編碼到特征鄰接矩陣中, 從而能更好地保存利用邊緣信息.
3) 網絡結構的下半部分利用BiLSTM從基因表達數據中提取特征向量, 以捕捉蛋白質隨時間變化的表達狀態. 本文使用的基因表達數據集有3個連續的代謝周期, 一個周期中有12個時
間點, 其中每個蛋白質(例如Gi)對應一個36維的基因表達數據, Tj表示第j個時間點.
4) 拼接上述所有的特征向量, 并將其輸入到任務分類層(即一層全連接層)預測關鍵蛋白質, 是一個二分類任務. 由于關鍵蛋白質的比例較小, 因此本文采用抽樣方法緩解不平衡學習的問題.
1.1" 構建加權的PPI網絡
PPI網絡通常被抽象為無向無權圖G(V,E), 其中V表示蛋白質的集合, E表示蛋白質-蛋白質相互作用的集合. 生物實驗獲得的PPI網絡中, 蛋白質之間的相互作用通常被認為是等價的,
并被賦予相同的權重. 但現有的PPI網絡數據集中通常存在噪聲, 對預測性能產生不利影響. 根據蛋白質相互作用的強度為其分配不同的權重, 能減少噪聲數據的影響, 并豐富PP
I網絡的邊緣信息, 從而有利于發現關鍵蛋白質. 本文采用Pearson相關系數(Pearson correlation coefficient, PCC)[20]、 GO語義相似度(GO semantic similarity, G
SS)[21]和邊緣聚集系數(edge clustering coefficient, ECC)[22]衡量蛋白質之間的相互作用強度.
關鍵蛋白質常會相互作用, 因此, 本文通過計算蛋白質對應的基因表達數據的PCC評估兩個蛋白質相互作用的強度. 蛋白質i和j的PCC計算公式如下:
PCCij=∑nk=1(xk-vi)(yk-vj)∑nk=1(xk-vi
)2∑nk=1(yk-vj)2,(1)
其中vi=(x1,x2,…,xn)和vj=(y1,y2,…,yn)是蛋白質i和j在n個時間點上的基因表達值, vi和
vj分別是其平均值. 由于PCC的取值范圍是[-1,1], 所以本文用(PCC+1)/2替代上述定義的PCC, 使
其取值范圍為[0,1]. PCC值越大, 兩個蛋白質的相互作用越強.
一般使用GSS評估蛋白質對的功能相似性. 由于GO術語代表了基因的功能特征, 所以蛋白質i和j共同的GO術語越多, 它們的功能越相似. 蛋白質i和j的GSS計算公式如下:
GSSij=GOi∩GOj
2GOi×GOj,GOigt;0," GOjgt;0,0,其他,(2)
其中GOi和GOj分別表示蛋白質i和j的GO術語集合.本文使用ECC衡量兩個蛋白質在網絡結構上的相似程度. ECC值越高, 說明這兩個
蛋白質的拓撲結構越相似, 它們之間的相互作用越強. 蛋白質i和j的ECC計算公式如下:
ECCij=Ni∩Njmin{Ni-1,Nj-1},
Nigt;1," Njgt;1,0,其他,(3)
其中Ni和Nj分別表示蛋白質i和j的直接鄰居節點集, Ni∩Nj表示蛋白質i和j的公共鄰居集合. 式(3)表明, 兩個蛋白質的公共鄰居越多, ECC值越高, 表示兩個
蛋白質的拓撲結構越相似.
最后, 利用Wij=ECCij×(GSSij+PCCij)(4)
對蛋白質i和j的邊進行加權[23].
1.2" 亞細胞定位特征向量
在機器學習方法中, 亞細胞定位數據經常用于構建特征向量. 文獻[14]的方法使用11種亞細胞定位構建特征向量. 但如果在本文的PPI網絡中使用上述方法, 某些蛋白
質并不存在于11種亞細胞定位中的任何一種, 因此它們的特征向量為0. 為使更多的特征向量非0并充分利用亞細胞定位信息, 本文利用COMPARTMENTS數據庫[24]中集成
通道所提供的所有亞細胞定位.
對于蛋白質i和亞細胞定位L, COMPARTMENTS數據庫為亞細胞定位-蛋白質對L\|i提供了最終的置信度wL\|i. 置信度可表明亞細胞定位類型和來源的可靠性. 置信度越高, 亞細胞定位
-蛋白質對的關系越可靠. 一種蛋白質會出現在多種不同的亞細胞定位中, 一種亞細胞定位也會包含多種不同的蛋白質. 亞細胞定位L的分數NL定義為包含的蛋白質數量. 對NL
進行歸一化處理, 使其取值范圍為[0,1], 歸一化處理表示為
NL=NL-minmax-min,(5)
其中min和max分別表示所有亞細胞定位分數中的最小值和最大值. 本文將蛋白質i的亞細胞定位信息編碼成一個一維向量Yi=(y1\|i,y2\|i,…,
yL\|i,…), 其中yL\|i是L\|i對應的最終分數, 計算公式如下:
yL\|i=NL×wL\|i,(6)
1.3" 蛋白質復合物特征向量
蛋白質在同一時間和地點共同發揮作用形成蛋白質復合物. 在眾多復合物中發現的蛋白質可能是關鍵的, 因此蛋白質復合物有利于預測關鍵蛋白質. 在本文的深度學習框架中, 利
用蛋白質復合物構建特征向量, 以預測關鍵蛋白質.
將蛋白質i的蛋白復合物信息編碼成一個一維向量Zi=(z1,z2,…,zg,…), 其中g表示一種類型的蛋白復合物. 若蛋白質i屬于蛋白質復合物g, 則zg=1, 否則zg=0.
本文將每個蛋白質對應的亞細胞定位特征向量和蛋白質復合物特征向量分別接入一個輸出維度為1 024的全連接層和激活層, 以進一步提取特征. 將得到的兩個1 024維的特征向量拼
接, 形成一個1 024×2維的特征向量. 此時一個蛋白質對應一個1 024×2維的特征向量, 將其輸入到兩層的FGN中, 以學習更豐富的節點表示.
1.4" 特征圖網絡
文獻[19]提出了特征圖網絡, 它能直接對特征“交互”進行建模. 本文給PPI網絡中每個節點都賦予一個初始特征向量, 由于特征向量通過節點的拓撲結構進行交互, 因此對
特征“交互”進行建模能更好地保存并利用節點的邊緣信息, 從而提高關鍵蛋白質的預測性能.
1.4.1" 特征圖
在無向圖G(V,E)中, 每個節點v都對應一個特征向量X=(x1,…,xi,…,x
F)T, 其中F是維度. 特征圖Q對應于v, 將v的特征向量的分量作為節點特征, 即x1,…,xi,…,
xF分別是Q中的節點1,…,i,…,F的特征向量, 并且表示Q共有F個節點. Q可以描述為GQF=(VF,EF), 其中每個節點vFi∈VF對應于特征向量xi
, 如圖2所示." 如果X是一維向量, 則xi就是標量; 如果X是
多通道向量, 則xi就是一維向量.
PPI網絡中的每個節點都對應一個特征圖. 本文將1 024×2維的特征向量輸入到兩層FGN中, 則對于PPI網絡中的特征圖, 其節點數即為1 024, 特征維度即為2.
1.4.2" 特征鄰接矩陣
特征鄰接矩陣AFc對應于節點v的特征圖GQF, 其對應的特征向量為X=(x1,…,xi,…
,xF)T. 節點v與其直接鄰居N(v)之間的邊表明他們的特征之間存在關聯性. FGN將v和N(v)上的相關性建模為特征鄰接
矩陣, 并對多個通道中的每個通道c獨立建模, c=1,2,…,C. 特征鄰接矩陣AFc(x)定義為
AFc(x)sgnroot(Ey~N(v)[wy(x[∶,c]yT[∶
,c]+y[∶,c]xT[∶,c])]),(7)
Ey~N(v)[wy(x[∶,c]yT[∶,c]+y[∶,c]
xT[∶,c])]=∑y∈N(v)wy(x[∶,c]yT[∶,c]+y[∶,c]xT[∶,c])N(v),(8)
其中sgnroot(x)=sign(x)x, y為v的直接鄰居, y為對應的特征向量, x為節點v對應的特征向量, x[∶,c]為xc(見圖2), wy為對應邊的權重. AFc是通過式
(7)從鄰域樣本動態獨立構建的, 將PPI網絡中的連通信息(蛋白質之間的連接以及權重)編碼到特征鄰接矩陣中. 對于每個節點v, 將生成C個大小為F×F的特征鄰接矩陣.
1.4.3" 特征圖層
特征圖層會改變GQF中節點的數量, 所以需要基于轉變后的鄰居重新計算AFc(x). 特征圖網絡第l層的定義和轉換公式如下:
AF(l)(x)AF(x(l),y(l))," y∈N(v),(9)
xF(l+1)=σ(WF·F(l)(x)·xF(
l)),(10)yF(l+1)=σ(WF·
F(l)(x)·yF(l)),(11)
其中WF∈
瘙 綆 F(l+1)×F(l)為可學習參數, σ(·)為非線性激活函數, F(l)(x)
∈
瘙 綆 F(l)×F(l)為AF(l)(x)的歸一化. 在式(9)~式(11)中省略了通道c, 每個通道獨立轉換.
上述內容每個節點v只考慮了直接鄰居, 為使節點v考慮的節點更豐富, 使特征圖網絡能更好地學習節點表示, 本文將引入top-k intimacy.
1.4.4" top-k intimacy
對于圖親密度矩陣S∈
瘙 綆 V×V, 其中V表示無向圖的節點個數, S(i,j)表示節
點vi和vj之間的親密度[25]. 目前, 存在不同的指標衡量圖中節點之間的親密度, 如Pagerank算法,Adamic/Adar,Katz等. Jaccard系數[26]是一種衡量兩個集合之間相似
度的方法, 本文定義基于Jaccard系數的圖親密度矩陣S. 節點vi和vj之間的Jaccard系數, 即S(i,j)定義為
S(i,j)=Ni∩NjNi∪Nj,(12)
其中Ni和Nj分別表示節點vi和vj的鄰居節點集合. 對于節點vi, 定義親密節點集合為Γ(vi)={vj
vj∈V\{vi}∧S(i,j)≥θi}, 對S(i,∶)從大到小排序, 第k個值為θi. 對于節點v, 用Γ(v)∪N(v)代替1.4.2中的N(v
). 本文中k=10, 表示特征圖網絡將從節點v的直接鄰居和前10個親密節點中學習節點v的特征向量, 從而預測關鍵蛋白質.
1.5" 基因表達特征向量
蛋白質是基因表達的產物, 文獻[8]研究表明, 利用基因表達數據可提高識別關鍵蛋白質的準確率. 本文采用的基因表達數據存在時間上的順序關系, 考慮到BiLSTM
應用在序列數據中效果較好, 所以采用BiLSTM從基因表達數據中捕捉蛋白質隨時間變化的表達狀態, 得到基因表達特征向量.
BiLSTM網絡結構模型由兩個獨立的LSTM構成, 基因表達數據分別以正序和逆序輸入到兩個LSTM網絡中進行特征提取, 輸出向量拼接后形成最終的特征向量. 因此, BiLSTM模型中每
個時間步的輸出都取決于過去和未來的數據.
2" 實驗結果與分析
2.1" 實驗數據
實驗采用酵母菌數據集, 包括PPI網絡數據集、 關鍵蛋白質數據集、 基因表達數據集、 亞細胞定位數據集、 GO注釋數據集和蛋白質復合物數據集.
為評估本文方法在預測關鍵蛋白質方面的性能, 選擇兩種不同的PPI網絡: BioGRID和DIP. 關鍵蛋白質數據是從MIPS,SGD,DEG和SGDP數據庫中收集的, 預處理后包含1 285種關鍵蛋白質.
基因表達數據集來自數據庫GEO(登錄號: GSE3431). 該數據集包含了7 134個基因表達數據, 每個基因表達數據有3個連續的代謝周期, 每個周期有12個時間點. 亞細胞定位數據和G
O注釋數據是從數據庫COMPARTMENT的集成通道中提取的. 蛋白質復合物數據是從MIPS,SGD,ALOY和CYC2008數據集中收集的, 經過預處理后共包含745種蛋白質復合物.
數據集BioGRID和DIP的詳細信息列于表1. 對于沒有基因表達數據的蛋白質, 本文將采用基因表達數據的均值作為其基因表達數據.
2.2" 不平衡學習
現有數據集中存在樣本不平衡的問題, 例如: 數據集BioGRID中非關鍵蛋白質和關鍵蛋白質的數量之比為3.73∶1, 數據集DIP中非關鍵蛋白質和關鍵蛋白質的數量之比為3.23∶
1. 為減小樣本不平衡的影響, 本文將采用文獻[12]提出的抽樣方法緩解訓練過程中的不平衡學習問題.
對于原始數據集, 首先進行隨機打亂, 然后將關鍵蛋白質的20%和非關鍵蛋白質的20%組合在一起作為獨立的測試集, 余下的作為訓練集. 用M和N分別表示訓練集中關鍵蛋白質的數量
和非關鍵蛋白質的數量. 在每輪訓練中, 先從訓練集的非關鍵蛋白質中采樣M個蛋白質, 然后將其與訓練集中的所有關鍵蛋白質(M個)組合為一個集合訓練網絡, 該集合共有2M個
蛋白質, 從而可保證訓練過程中結果不偏向任何類別(關鍵蛋白質類和非關鍵蛋白質類).
2.3" 評價指標
對于不平衡學習, 通過比較AP(average precision)值和AUC(area under curve)值評估本文提出的方法與其他方法的性能, 這兩個值分別表示PR(precision-recall)曲線
下方的面積和ROC(receiver operating characteristic)曲線下方的面積. PR 曲線和ROC曲線都是在各種閾值設置下繪制的關系圖. PR曲線是召回值(Recall)與精度值(Precision)
的關系圖, ROC曲線是真陽性率(true postive rate)與假陽性率(1 postive rate)的關系圖. 此外, 本文還使用其他指標評估模型性能, 計算公式分別為
Precision=TPTP+FP,(13)
Recall=TPTP+FN,(14)
Accuracy=TP+TNTP+TN+FP+FN,(15)
F1_score=2×Precision×RecallPrecision+Recall,(16)
其中: TP,TN,FP和FN分別表示真陽性、 真陰性、 假陽性和假陰性的蛋白質數量; Precision表示預測為正的樣本中正確預測的比率, 表示模型對正預測判斷的可信度; R
ecall表示所有正樣本中被正確預測的比率; Accuracy表示正確預測的樣本在所有樣本中的比率; F1_score是精確率和召回率的調和平均值, F1_score越接近1, 說明
模型在Precision和Recall這兩個指標上的綜合表現越好. 在不平衡學習中綜合評估分類器性能方面, AP值、 AUC值和F1_score比其他指標更重要.
由于在數據集BioGRID和DIP上的參數實驗和消融實驗結論類似, 所以下面僅在BioGRID數據集上討論問題.
2.4" 輸入特征的不同維度
本文提出的深度學習框架, 首先從亞細胞定位數據和蛋白質復合物數據中分別提取一個初始特征向量, 再分別接入一個輸出維度為λ的全連接層, 然后將得到的兩個λ維的特征向量
拼接, 形成一個λ×2維的特征向量, 做為FGN的輸入. 下面在數據集BioGRID上討論λ分別取1 024,512,256,128,64,32時的實驗結果, 從而選取最佳值, 實驗結果列于表2.
由表2可見, 在λ從256增加到1 024的過程中, 隨著λ的增加, AP,AUC和F1_score值也不
斷增加, 綜合可見, 實驗結果越來越好; 在λ從32增加到128的過程中, 隨著λ的增加, AP,F1_score和Recall值也不斷增加, 但λ=256時, AP,AUC,F1_sco
re和Recall指標不如λ=128的效果好. 因此λ在一定范圍內增加, 能使模型獲取更多的信息, 從而提升預測效果, 但λ并不是越大越好, 因為本文使用的生物數據含有噪聲, λ越大, 模型
獲取的有用信息增加, 但同時噪聲信息也會增加. 對比λ=128和λ=1 024, 在AUC,F1_score和Accuracy指標上, λ=1 024的實驗結果大于λ=128的實驗結果; λ=1 024的AP值
略小于λ=128的AP值; λ=1 024的Recall值比λ=128小0.0708, λ=1 024的Precision值比λ=128大0.115 8. 綜合可見, λ=1 024時實驗結果更好. 圖3為
輸入不同維度特征的ROC和PR曲線. 由圖3可見, 不同λ對應的ROC和PR曲線沒有顯著差異, 這主要是由于數據噪聲問題導致的.
2.5" 鄰居節點的不同組合
在最初的FGN中, 對于每個節點v只考慮了它的直接鄰居, 并且設置一個閾值γ, 表示每個節點v最多考慮γ個直接領居. 為使節點v通過FGN能學習更豐富的節點表示, 本文
利用圖親密度矩陣為節點v增加了η個親密節點, γ+η=60. 本文在數據集BioGRID上討論γ和η的不同組合, 實驗結果列于表3.
由表3可見, γ∶η=50∶10在AP,AUC,F1_score和Accuracy 4個指標上都取得了最佳結果. 雖然γ∶η=50∶10對應的Recall和Precision不是最優值, 但最佳Recall值
對應的Precision值過小, 最佳Precision值對應的Recall值也過小, 又考慮到前4個指標在不平衡學習中更重要, 所以認為γ∶η=50∶10時, 實驗結果最佳. 表3中γ∶η=50∶0
表示只有直接鄰居節點, 對比第一行數據可見, 在指標AP,AUC,F1_score和Accuracy上, 第一行均大于第二行數據. 雖然第一行的Recall值比第二行小0.108 3, 但第一行的Precisi
on值比第二行大0.166 3, 綜合認為第一行數據的實驗結果更好, 因此增加η個親密節點有意義. γ對應于直接鄰居節點, η對應于親密節點, 從兩個不同的角度豐富了節點v的特
征向量, 從而提高了模型性能. 觀察表3中第二行到第六行對應的Recall和Precision數據可見, η的值與Recall值大致呈負相關, 與Precision值大致呈正相關. 從γ
∶η=50∶0變化到γ∶η=50∶10, η增加了10, 由表3可見, 對應的Recall值下降, 而Precision值上升了, 從而驗證了上述結論.
圖4" 鄰居節點不同組合的ROC和PR曲線Fig.4" ROC and PR curves of different combinations of neighbors
圖4為鄰居節點不同組合的ROC和PR曲線. 由圖4可見, γ∶η=50∶10對應的ROC曲線和PR曲線大致包圍了γ∶η=50∶0對應的曲線,
再次驗證了增加η個親密節點有利于提升模型性能.
總體上看, 鄰居節點的不同組合對應的ROC和PR曲線沒有顯著差異. 本文認為是因為γ+η=60, 無論γ和η的哪種組合, FGN都能學習到一個較好的節點表示.
2.6" 消融實驗
下面進行一系列的消融實驗以驗證每個部分都是必不可少的, 并總結各部分對模型的貢獻. 本文依次進行以下6個消融實驗: 實驗1是本文提出的深度學習框架的完整實驗, 用作
對照組, 實驗2~6都是實驗組. 實驗2沒有對PPI網絡進行加權; 實驗3缺少基因表達數據, 因此輸入到任務分類層的特征向量只有從FGN中輸出的部分; 實驗4缺少FGN層, 因此將得到的1 0
24×2維的特征向量展開成2 048維的特征向量, 依次與輸出維度為512和輸出維度為128的全連接層相連, 再與基因表達特征向量拼接得到最終的特征向量; 實驗5,6分別缺少了亞細胞
定位數據和蛋白質復合物數據, 因此都只能得到一個1 024×1維的特征向量送入FGN層. 由于生物信息的減少, 相應地將第一個FGN層的輸出由128×4改為128×2, 第二個FGN層的輸出由12
8×1改為64×1. 消融實驗在數據集BioGRID上進行, 實驗結果列于表4.
由表4可見, 本文提出的深度學習框架(即實驗1), 在除Recall外的所有指標上都取得了最好的結果. 雖然實驗1的Recall值比最佳Recall值(實驗5)小, 但實驗1
遠大于實驗5的Precision值, 因此實驗1的效果最佳. 實驗1是對照組并且結果最好, 實驗2~6都是實驗組, 所以可以證明實驗1中的每個部分都是必不可少的. 雖然實驗2,3的結果略遜于實驗1
, 但仍能說明給PPI網絡加權、 利用基因表達數據對關鍵蛋白質的預測效果有提升作用. 實驗6在關鍵指標AP和F1_score上明顯低于實驗1, Precision值也遠小于實驗1, 指
標AUC和Accuracy值也低于實驗1, 因此可認為蛋白質復合物信息有助于提升預測性能. 實驗4,5在關鍵指標AP,AUC和Accuracy上都顯著低于實驗1, 表明FGN的使用可
以顯著提高預測效果, 亞細胞定位數據在關鍵蛋白質的預測中有至關重要的作用.
圖5為消融實驗的ROC和PR曲線. 由圖5可見, 實驗1的ROC曲線和PR曲線明顯包圍了實驗4,5, 再次驗證了FGN和亞細胞定位數據的使用能顯著提升關鍵蛋白質的預測效果. 實驗1的PR曲線明顯包圍了其他
實驗的曲線. 而ROC曲線圖中除實驗4,5外, 其他曲線沒有顯著差異.
2.7" 與基于復雜網絡方法的對比
為證明本文提出的深度學習框架的有效性, 本文在數據集BioGRID和DIP上將其與目前幾種流行的基于復雜網絡的關鍵蛋白質預測方法進行比較, 其中DC,BC,CC,EC,NC和LAC是基于PPI網絡
的拓撲結構識別關鍵蛋白質的方法, 而WDC和PeC則將PPI網絡的拓撲結構與基因表達數據相結合.
首先, 本文使用每種方法計算PPI網絡中蛋白質對應的分數; 其次, 按降序排列蛋白質的分數, 對數據集BioGRID和DIP分別選擇前1 200和前1 146個蛋白質作為候選關鍵蛋白質; 最
后, 根據蛋白質的真實標簽計算F1_score,Recall,Accuracy和Precision. 數據集BioGRID和DIP上的實驗結果分別列于表5和表6. 由表5和表6可見, 本文方法在兩個數據集上都
遠優于其他方法, 這是由于上述方法主要基于PPI網絡的拓撲結構預測關鍵蛋白質, 并且結果
是一個標量. 隨著網絡規模和數據噪聲的增加, 標量不能充分捕捉有效信息. 實驗結果證明了本文方法在識別關鍵蛋白質方面的有效性.
2.8" 與基于機器學習方法的對比
基于機器學習方法已廣泛應用于預測關鍵蛋白質. 為證明本文方法的優越性, 本文采用6種傳統機器學習方法和3種深度學習框架(DeepEP, 文獻[14]框架和文獻[16]框架)
進行對比實驗. 實驗中傳統機器學習方法SVM、 AdaBoost、 邏輯回歸、 樸素Bayes、 隨機森林和決策樹是由帶有默認
參數的scikit-learn庫實現的. DeepEP和文獻[16]中提供了源代碼. 本文根據文獻[14]實現了該模型.
傳統機器學習算法將每個蛋白質對應的亞細胞定位特征向量、 蛋白質復合物特征向量和基因表達數據拼接成一個長的一維向量作為輸入. DeepEP僅使用PPI 網絡和基因表達數據.
文獻[14]方法使用了PPI網絡、 基因表達數據和亞細胞定位數據. 亞細胞定位通常分為11個類別, 文獻[14]的方法使用11維向量編碼亞細胞定位數據, 然
后作為深度學習框架的輸入. 文獻[16]方法使用了本文中的 PPI 網絡和亞細胞定位數據, 但基因表達數據與本文不同, 來自數據庫GEO(登錄號: GSE7645). 本文
按文獻[16]的方式對亞細胞定位數據進行處理, 然后作為其框架的輸入. 為確保不同方法比較的公平性, 本文在BioGRID和DIP的相同測試數據集上進行對比實驗, 實驗結果列于表7和表8.
由表7和表8可見, 在酵母菌數據集BioGRID和DIP上, 本文提出的框架在除Recall指標外的各指標上都明顯高于其他方法. 雖然邏緝回歸的Recall值
略高于本文方法, 但其他指標遠低于本文方法的值, 綜上表明本文方法優于目前主流基于機器學習的關鍵蛋白質預測方法. 4種深度學習方法在大多數指標上優于其他傳統機器
學習方法, 表明在數據集BioGRID和DIP上深度學習方法比傳統機器學習方法能學習到更多信息. 隨機森林的效果在數據集BioGRID上略差于DeepEP, 但是在數據集DIP上高于DeepEP. DeepE
P是深度學習框架, 隨機森林是傳統機器學習, 但DeepEP只利用了PPI網絡和基因表達數據, 而隨機森林比DeepEP多利用了亞細胞定位數據和蛋白質復合物數據, 生物信
息更豐富, 因此豐富的生物信息彌補了結構上的缺陷, 使得隨機森林和DeepEP取得了相似的結果, 甚至在數據集DIP上超越了DeepEP. 文獻[14]方法比DeepEP多
了一種亞細胞定位數據, 除指標Recall外, 所有指標都比DeepEP更好. 進一步表明融合更多有效生物信息有利于提高關鍵蛋白質的預測準確率.
如圖6和圖7所示, 本文方法在數據集DIP上的ROC曲線和PR曲線明顯包圍了其他方法的曲線, 在數據集BioGRID上的ROC曲線也明顯包圍了其他方法的曲線. 雖然本文方法在數據集BioGRI
D數據集上的PR曲線與文獻[16]方法的曲線略有交叉, 但本文方法的AP值大于文獻[16]方法的AP值, 因此本文方法總體上優于目前主流基于機器學習的關鍵蛋白質預測方法.
綜上所述, 針對生物實驗識別關鍵蛋白質費時費力, 使用計算方法預測關鍵蛋白質無法有效整合生物信息的問題, 本文提出了一個基于特征圖網絡和多種生物信息預測關鍵蛋白質的深度學習框架
. 該框架考慮如何更好利用PPI網絡中的邊緣信息, 從而更好地提取特征向量, 最終提高關鍵蛋白質的預測準確率. 首先, 利用基因表達數據、 GO注釋數據和PPI網絡拓撲特
征對PPI網絡進行加權, 使PPI網絡中的邊緣信息更豐富; 其次, 通過使用FGN將邊緣信息編碼到特征鄰接矩陣中, 從而能更好地保存并利用邊緣信息.
在酵母菌數據集BioGRID和DIP上的實驗結果表明, 本文方法優于目前主流的復雜網絡方法和機器學習方法. 消融實驗結果表明, 本文框架中的每部分都是必不可少的, 其中FGN和亞細
胞定位數據的使用顯著提高了關鍵蛋白質的預測性能, 蛋白質復合物數據也有助于提高預測效果. 通過給PPI網絡加權, 能減少數據中噪聲的影響, 從而進一步提高對關鍵蛋白質的預測性能.
參考文獻
[1]" WINZELER E A, SHOEMAKER D D, ASTROMOFF A, et al. Functional Characterizat
ion of the S.cerevisiae Genome by Gene Deletion and Parallel Analysis [J]. Science, 1999, 285: 901-906.
[2]" CULLEN L M, ARNDT G M. Genome-Wide Screening for Ge
ne Function Using RNAi in Mammalian Cells [J]. Immunology and Cell Biology, 2005, 83(3): 217-223.
[3]" ROEMER T, JIANG B, DAVISON J, et al. Large-Scale Es
sential Gene Identification in Candida Albicans and Applications to Antifungal Drug Discovery [J]. Molecular Microbiology, 2003, 50(1): 167-181.
[4]" GIAEVER G, CHU A M, NI L, et al. Functional Profiling of the Saccharomyces cer
evisiae Genome [J]. Nature, 2002, 418: 387-391.
[5]" JEONG H, MASON S P, BARABSI A L, et al. Lethality and Centrality in Protein
Networks [J]. Nature, 2001, 411: 41-42.
[6]" LI M, WANG J X, CHEN X, et al. A Local Average Connectivity-Based Method for Id
entifying Essential Proteins from the Network Level [J]. Computational Biology and Chemistry, 2011, 35(3): 143-150.
[7]" QI Y, LUO J W. Prediction of Essential Proteins Base
d on Local Interaction Density [J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2015, 13(6): 1170-1182.
[8]" LI M, ZHANG H H, WANG J X, et al. A New Essential Pr
otein Discovery Method Based on the Integration of Protein-Protein Interaction and Gene Expression Data [J]. BMC Systems Biology, 2012, 6: 1-9.
[9]" TANG X W, WANG J X, ZHONG J C, et al. Predicting Ess
ential Proteins Based on Weighted Degree Centrality [J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2013, 11(2): 407-418.
[10]" LEI X J, ZHAO J, FUJITA H, et al. Predicting Essential Proteins Based on RNA-Se
q, Subcellular Localization and GO Annotation Datasets [J]. Knowledge-Based Systems, 2018, 151: 136-148.
[11]" QIN C, SUN Y Q, DONG Y D. A New Method for Identify
ing Essential Proteins Based on Network Topology Properties and Protein Complexes [J]. PloS One, 2016, 11(8): e0161042-1-e0161042-30.
[12]" ZENG M, LI M, WU F X, et al. DeepEP: A Deep Learning Framework for Identifying
Essential Proteins [J]. BMC Bioinformatics, 2019, 20: 1-10.
[13]" GROVER A, LESKOVEC J. Node2vec: Scalable Feature Le
arning for Networks [C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2016: 855-864.
[14]" ZENG M, LI M, FEI Z H, et al. A Deep Learning Framework for Identifying Essential Proteins by Integrating Multiple Types of Biologi
cal Information [J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2019, 18(1): 296-305.
[15]" HUANG Z H, XU W, YU K. Bidirectional LSTM-CRF Models for Sequence Tagging
[EB/OL]. (2015-08-15)[2023-02-11]. https://arxiv.org/abs/1508.01991.
[16]" YUE Y, YE C, PENG P Y, et al. A Deep Learning Framework for Identifying Essent
ial Proteins Based on Multiple Biological Information [J]. BMC Bioinformatics, 2022, 23(1): 318-1-318-27.
[17]" LI Y M, ZENG M, ZHANG F H, et al. DeepCellEss: Cell Line-Specific Essential P
rotein Prediction with Attention-Based Interpretable Deep Learning [J]. Bioinformatics, 2023, 39(1): btac779-1-btac779-9.
[18]" LIU P Q, LIU C, MAO Y Y, et al. Identification of Essential Proteins Based on Edge
Features and the Fusion of Multiple-source Biological Information [J]. BMC Bioinformatics, 2023, 24(1): 203-1-203-24.
[19]" WANG C, QIU Y H, GAO D S, et al. Lifelong Graph Learning [C]//Proceedings of
the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2022: 13719-13728.
[20]" KERETSU S, SARMAH R. Weighted Edge Based Clustering to Identify Protein Comple
xes in Protein-Protein Interaction Networks Incorporating Gene Expression Profile [J]. Computational Biology and Chemistry, 2016, 65: 69-79.
[21]" LEI X J, ZHANG Y C, CHENG S, et al. Topology Potential Based Seed-Growth Method to
Identify Protein Complexes on Dynamic PPI Data [J]. Information Sciences, 2018, 425: 140-153.
[22]" RADICCHI F, CASTELLANO C, CECCONI F, et al. Defining and Identifying Communiti
es in Networks [J]. Proceedings of the National Academy of Sciences, 2004, 101(9): 2658-2663.
[23]" LEI X J, YANG X Q, FUJITA H. Random Walk Based Method to Identify Essential Proteins
by Integrating Network Topology and Biological Characteristics [J]. Knowledge-Based Systems, 2019, 167: 53-67.
[24]" BINDER J X, PLETSCHER-FRANKILD S, TSAFOU K, et al. COMPARTMENTS: Unification
and Visualization of Protein Subcellular Localization Evidence [J]. Database, 2014, 2014: bau012-1-bau012-9.
[25]" ZHANG J W, ZHANG H P, XIA C Y, et al. Graph-BERT: Only Attention Is Needed fo
r Learning Graph Representations [EB/OL]. (2020-01-15)[2023-01-15]. https://arxiv.org/abs/2001.05140.
[26]" JACCARD P. tude Comparative de la Distribution Florale Dans une Portion
des Alpes et des Jura [J]. Bulletin de la Societe Vaudoise des Sciences Naturelles, 1901, 37: 547-579.
(責任編輯: 韓" 嘯)