





摘要:
針對現(xiàn)有關聯(lián)數(shù)據(jù)不完整和利用多源組學數(shù)據(jù)不充分等問題,設計基于三跳局部拓撲相似性的計算指標,識別具有生物學意義但尚未映射的蛋白質(zhì)相互作用(Protein-Protein Interactions, PPI),提出了一種基于圖數(shù)據(jù)增強的新型圖神經(jīng)網(wǎng)絡方法(GDaEPred)用于疾病與基因關聯(lián)挖掘。實驗結果表明,GDaEPred的平均精確率提升了4.1%,精確率、召回率和F1score也均有提升。
關鍵詞:
圖神經(jīng)網(wǎng)絡;圖數(shù)據(jù)增強;致病基因預測
中圖分類號:TP391
文獻標志碼:A
收稿日期:2023-08-13
基金項目:
山東省自然科學基金(批準號:ZR2019PF012)資助;山東省高等學校科技計劃項目(批準號:J18KA356)資助。
通信作者:
吳舜堯,男,博士,講師,主要研究方向數(shù)據(jù)挖掘與復雜網(wǎng)絡。E-mail: wushunyao@qdu.edu.cn
基因突變或基因異常是導致許多疾病發(fā)生的關鍵因素[1],與特定疾病或疾病風險相關的基因稱之為致病基因[2]。研究和預測致病基因可更好地了解疾病的發(fā)生機制和風險因素,為疾病的預防、早期治療和個體化治療提供科學依據(jù)[3]。致病基因研究也有助于揭示基因與疾病之間的關聯(lián),推動醫(yī)學科學的發(fā)展和進步。近幾十年,高通量測序技術快速發(fā)展,生物分子之間已識別的相互作用數(shù)量呈現(xiàn)指數(shù)級增長,涌現(xiàn)出大量的疾病基因關聯(lián)[4],這使得通過現(xiàn)有的疾病基因關聯(lián)推斷疾病和基因之間是否存在關聯(lián)成為可能。目前,基于分子網(wǎng)絡的計算方法尋找疾病相關基因成為了重點研究領域[5-7],根據(jù)致病基因預測的方法和原理,現(xiàn)有研究可分為基于結構和功能、基于網(wǎng)絡和基于機器學習三類方法。基于結構和功能[8-9]的方法主要通過分析蛋白質(zhì)的結構和分析基因或者蛋白質(zhì)的功能注釋、互作關系、代謝途徑等,預測蛋白質(zhì)和基因是否具有致病性。基于網(wǎng)絡的方法主要利用生物分子網(wǎng)絡的拓撲結構和關系信息預測致病基因,例如基于蛋白質(zhì)相互作用網(wǎng)絡[10]、基因共表達網(wǎng)絡[11]等。基于機器學習的方法主要是利用機器學習算法從大規(guī)模的基因或蛋白質(zhì)數(shù)據(jù)中學習致病基因的特征和模式,如支持向量機、隨機森林等[12-13]。然而,現(xiàn)有關聯(lián)的記錄仍然不足,缺失的人類蛋白質(zhì)相互作用的數(shù)量超過了實驗記錄的相互作用[14-15],識別潛在的蛋白質(zhì)相互作用仍然是一項昂貴且耗時的任務[2]。為此,本文基于三跳局部拓撲相似性(Three-hop local topological similarity, 3LTS)的網(wǎng)絡路徑方法[16]獲取了具有生物學意義但尚未映射的蛋白質(zhì)相互作用(Protein-Protein Interactions PPI),提出了基于圖數(shù)據(jù)增強的圖神經(jīng)網(wǎng)絡方法,將融合PPI的生物分子網(wǎng)絡模塊引入圖神經(jīng)網(wǎng)絡,通過聚合鄰居節(jié)點的特征信息,不斷地訓練模型,從而挖掘疾病與基因之間的關聯(lián)。
1 基于3LTS的圖數(shù)據(jù)增強
本文設計了3種基于3LTS(P=M*3)的計算指標,用于獲取PPI(圖1)。
目前,最先進的基于網(wǎng)絡的鏈路預測方法依賴于三元閉合原理(Ternary Closure Principle,TCP)[17-18]。如圖1所示,根據(jù)TCP原理,蛋白質(zhì)X和蛋白質(zhì)Y共享多個相互作用伙伴(A、B、C),那么X和Y很可能相互作用。然而,蛋白質(zhì)之間相互作用通常需要互補的界面[17]。因此,具有相似界面(圖1中的灰色標識)的X和Y不能保證直接相互作用。相反,X的一個額外相互作用伙伴(蛋白質(zhì)D)可能與Y相互作用。這樣的鏈路可以通過3LTS來獲取。
最簡單的相似性指標是公共鄰居(Common Neighbor,CN)[19],用于衡量兩個節(jié)點在網(wǎng)絡中共享的鄰居數(shù)量。基于CN指標,本文設計了CN_3LTS指標、AA(Adamic-Adar,AA)_3LTS指標和RA(Resource Allocation,RA)_3LTS指標,作用于PPI網(wǎng)絡,計算兩個節(jié)點的途徑鄰居(Path Neighbor,PN)信息。
CN_3LTS指標衡量兩個節(jié)點的PN數(shù)量,PN越多,相互作用的可能性越大。CN_3LTS指標定義為
CN_3LTSuv={z|z∈τu∪τv,z∈Len3}(1)
其中,τ(u)和τ(v)分別表示節(jié)點u和v的一階鄰居節(jié)點集合,u和v的最短路徑長度為3,Len3代表長度為3的路徑,z包含u和v的一階鄰居節(jié)點,均在Len3上,即z代表PN集合。
AA_3LTS指標考慮兩個節(jié)點PN的度信息,節(jié)點的度數(shù)越大,與其相關的信息共享越普遍,對相似性的貢獻越小。AA_3LTS指標為
AA_3LTSuv=∑z∈τ(u)∪τ(v),z∈Len31lg |r(z)|(2)
其中,|r(z)|代表的是每個PN的度數(shù),分值較高表示節(jié)點間相互作用的可能性較大。
RA_3LTS指標基于一個假設,即節(jié)點作為傳輸者,通過PN相互傳遞資源,資源均勻分布給所有PN,因此,節(jié)點間的相似性可以通過傳輸?shù)馁Y源量衡量[20]。指標為節(jié)點分配的權重值等于該節(jié)點度的倒數(shù)(即1/度數(shù)),指標數(shù)值越大,表示兩個節(jié)點之間的資源分配越高,相互作用的概率越大。RA_3LTS指標為
RA_3LTSuv=∑z∈τ(u)∪τ(v),z∈Len31|r(z)|(3)
2 基于圖卷積神經(jīng)網(wǎng)絡的致病基因預測模型
本文研究框架包括生成圖嵌入表示向量、圖卷積神經(jīng)網(wǎng)絡(Graph Convolutional Neural Network,GCN)和解碼預測3部分(圖2)。
2.1 生成圖嵌入表示向量
使用Deep Graph Library(DGL)將疾病基因關聯(lián)網(wǎng)絡和PPI網(wǎng)絡轉(zhuǎn)化為圖結構,構建異構生物分子網(wǎng)絡G,G=(V,E),其中,V代表包含疾病和蛋白質(zhì)(基因)兩種類型的節(jié)點集合,E代表疾病基因關聯(lián)和PPI的集合。然后,利用Node2vec學習網(wǎng)絡中節(jié)點的低維表示[21],并引入兩個非常重要的超參數(shù):p和q,分別控制隨機游走的返回概率和進一步探索的概率。通過調(diào)整p和q值,可以生成節(jié)點的隨機游走序列,利用隨機游走序列為節(jié)點生成初始特征向量。
2.2 圖卷積神經(jīng)網(wǎng)絡
GCN是圖神經(jīng)網(wǎng)絡(Graph Neural Networks,GNN)最經(jīng)典的一種模型,輸入是由節(jié)點和邊組成的圖,節(jié)點代表實體,包含屬性,邊則描述實體之間的關系。傳統(tǒng)的GNN通常基于鄰接矩陣更新節(jié)點特征
Hl+1i=σ(Q-12M*GQ12HliWl+bl)(4)
其中,σ表示激活函數(shù)RELU,Q為圖的度矩陣,M*G為圖G的鄰接矩陣,Hli代表節(jié)點i在第l層的低維特征向量表示,l=0時,H0i代表節(jié)點i的初始特征向量表示,Wl和bl代表可訓練的權重矩陣和偏置矩陣。
GCN基于卷積操作,通過圖的鄰接關系傳播節(jié)點信息。圖卷積操作時,利用DGL計算鄰接矩陣,可以節(jié)省內(nèi)存空間,減少計算量,使用兩層圖卷積可以最佳地捕捉節(jié)點的局部和全局特征[22-23]。圖卷積層[22]的定義為
cj,i= Sj Si(5)
Hl+1i=σ∑j∈Si1cj,iHliWl+bl(6)
其中,Si為節(jié)點i的鄰居節(jié)點集合,cj,i為節(jié)點度的平方根的乘積,用來描述節(jié)點i和節(jié)點j之間連接強度的度量值。
在圖神經(jīng)網(wǎng)絡中添加注意力機制可以提高模型性能和表達能力,注意力機制為每個節(jié)點賦予不同的重要性權重,使模型能夠更加關注對任務重要的節(jié)點。圖注意力層更新節(jié)點的方式為
Hl+1i=∑j∈Siαi,jWlHli(7)
其中,αi,j是節(jié)點i和節(jié)點j之間的注意力得分。
2.3 解碼預測
拼接節(jié)點的初始特征向量和經(jīng)過GNN更新后的特征向量,生成節(jié)點的輸出特征向量
Hi=Hold,Hnew(8)
其中,Hold為節(jié)點i的初始特征向量,Hnew為節(jié)點i經(jīng)過GNN處理后的特征向量。
對于給定的樣本(基因疾病對),計算基因節(jié)點g和疾病節(jié)點d的輸出特征向量內(nèi)積dot_scoreg,d以及L2范數(shù),將內(nèi)積和范數(shù)乘積L2_scoreg,d相除,得到的分數(shù)Z︿g,d作為評估的關聯(lián)強度,得分越高,樣本對之間的關聯(lián)性就越強
dot_scoreg,d=Hg×Hd(9)
L2_scoreg,d= ∑mn=1an2 ∑mn=1bn2(10)
Z︿g,d=dot_scoreg,dL2_scoreg,d(11)
其中,an和bn代表基因和疾病節(jié)點的輸出特征向量中第n個元素,m是節(jié)點的向量維度。
訓練過程中,使用間隔損失函數(shù)Loss優(yōu)化學習參數(shù)
Loss=max0,1-Zg,d·Z︿g,d(12)
其中,Zg,d代表基因節(jié)點和疾病節(jié)點之間的真實關系,Zg,d=1時,表示樣本對之間存在連邊關系,否則Zg,d=0。
3 實驗設置與結果分析
3.1 數(shù)據(jù)集與預處理
實驗所用數(shù)據(jù)集來源于HerGePred[24]和DisGeNet數(shù)據(jù)庫[25],遵循HerGePred數(shù)據(jù)設置。其中,HerGePred中含有15 964個蛋白質(zhì)節(jié)點和213 888條PPI。根據(jù)PPI數(shù)據(jù),使用DGL構建初始PPI網(wǎng)絡,基于3LTS生成63 766 068條潛在PPI,通過設置不同的關聯(lián)度閾值進行過濾,保留具有一定強度的PPI關聯(lián),獲取243 379條PPI。457 267條PPI共同組成了基于3LTS的PPI網(wǎng)絡。由于基因編碼蛋白質(zhì)的關系,PPI網(wǎng)絡實質(zhì)是基因關聯(lián)網(wǎng)絡,蛋白質(zhì)節(jié)點代表對應的基因。從DisGeNet數(shù)據(jù)庫整理出130 820條疾病基因關聯(lián),包含13 074種疾病和8 947個致病基因。使用10折交叉驗證,將數(shù)據(jù)劃分為10個大小相等的子集,每次選取其中一個子集作為測試集,其余9個子集作為訓練集。訓練集訓練預測模型,測試集評估模型性能。DisGeNet的其余數(shù)據(jù)用于外部驗證[24],經(jīng)過去重和篩選,整理出包含1 186種疾病和2 552個基因的10 066條關聯(lián)。
3.2 參數(shù)設置與評估指標
本文優(yōu)化所有超參數(shù),調(diào)整主要超參數(shù)設置:隨機游走的長度設為50,游走次數(shù)設為10,p和q設為1,初始特征向量的大小為128,Skip-gram的窗口大小為20,激活函數(shù)為RELU,采用Adam優(yōu)化方法,學習率為0.000 9,GCN和解碼器通過20次的迭代訓練。
在實驗中,Precision、Recall、F1score和AP用于評估基因優(yōu)先排序的性能。將T(d)定義為測試集中疾病d真實相關的基因,F(xiàn)x(d)定義為Top-x中d的預測基因,N代表測試集中涉及的疾病種類的總數(shù)量。Precision、Recall、F1score和AP定義為
Precisionx=1N∑d∈NTd∩FxdFxd,"" x=1,2,3,…,10(13)
Recallx=1N∑d∈NTd∩FxdTd, x=1,2,3,…,10(14)
F1scorex=2×precision×recallprecision+recall, x=1,2,3,…,10(15)
AP=1N∑d∈NTd∩FkdFkd, k=Td(16)
3.3 性能展示和結果分析
為了說明GDaEPred的優(yōu)越性,與3種經(jīng)典的方法進行比較:DADA[26]、PageRank[27]和HerGePred[24],添加了獲取PPI的方法用*標識。
(1)DADA:基于網(wǎng)絡的疾病基因排序方法,通過分析基因之間的相互作用網(wǎng)絡,為與特定疾病相關的基因提供排序和優(yōu)先級。
(2)PageRank:基于隨機游走的思想,用于評估網(wǎng)頁重要性的方法。基因之間的相互關系相當于網(wǎng)頁之間的鏈接關系,基因的權重類似于網(wǎng)頁的PageRank值。通過計算得到基因權重,生成基因排序列表。
(3)HerGePred:基于隨機游走的方法,利用節(jié)點的特征向量計算樣本對的余弦相似性,評估基因的優(yōu)先級。
(4)GDaEPred:基于圖數(shù)據(jù)增強和深度學習的方法,G代表“Graph”;DaE代表“Data Enhancement”;Pred代表“Prediction”。GDaEPred使用DGL創(chuàng)建圖對象,根據(jù)3.1節(jié)的數(shù)據(jù)設置,將節(jié)點、邊和初始特征向量添加到圖對象中,再將圖和標簽數(shù)據(jù)輸入到圖神經(jīng)網(wǎng)絡模型中,通過反向傳播和優(yōu)化算法進行模型訓練,獲得候選基因排序結果。
內(nèi)部數(shù)據(jù)集上十折交叉驗證結果見表1,添加PPI的方法在預測基因和疾病之間的關聯(lián)強度時,所有評估指標優(yōu)于未添加PPI的方法,說明添加PPI起到了一定的積極作用,提高了致病基因預測的準確性。GDaEPred獲得了0.280的AP,顯著高于其他對比方法獲取的值,在Top-3和Top-10基因的精確率和F1score取得最優(yōu),主要原因是GDaEPred方法在更新節(jié)點信息時,添加了注意力機制,靈活的捕捉了不同節(jié)點的重要特征。
實驗使用DisGeNet的外部數(shù)據(jù)集進一步評估這些方法,結果見表2。GDaEPred在Top-3和Top-10基因取得了最優(yōu)的召回率和F1score,外部數(shù)據(jù)集的驗證結果證明了添加PPI以及GDaEPred方法的有效性。在外部數(shù)據(jù)集得到的所有指標的結果均低于表1中的結果,原因是外部數(shù)據(jù)集包含了許多未知的基因,并且與訓練集和測試集中的重疊關聯(lián)全部被去除。
圖3展示的是使用GDaEPred預測Top-x基因的評估指標條形圖,其中x的取值范圍從1到10,隨著x取值的不斷增大,精確率逐漸降低。x=1時,精確率達到了最大值0.321,即Top-1中的預測基因是真實關聯(lián)基因的平均概率是32.1%;同時,召回率隨著x取值的增大而上升,x=10時,召回率達到了最大值0.384,即Top-10的預測基因中包含38.4%的真實關聯(lián)基因;x=2時,F(xiàn)1score達到了最大值0.201。
4 結論
本文設計3種計算指標獲取PPI,并在生物分子網(wǎng)絡中添加生成的PPI,以增強圖數(shù)據(jù)的表達能力。相較于經(jīng)典的方法,在添加PPI后,評估指標均有顯著提升,表明通過豐富網(wǎng)絡結構,可以提高預測的準確性,從而達到了圖數(shù)據(jù)增強的效果。對比傳統(tǒng)的GNN模型,GDaEPred可學習節(jié)點的最優(yōu)特征,提高預測的性能。后續(xù)工作考慮利用節(jié)點的度分布、多種生物分子之間的相互作用等網(wǎng)絡拓撲結構信息,繼續(xù)豐富節(jié)點的特征信息,增強預測的可信度和精確性。
參考文獻
[1]SCHULTE-SASSE R, BUDACH S, HNISZ D, et al. Integration of multiomics data with graph convolutional networks to identify new cancer genes and their associated molecular mechanisms[J]. Nature Machine Intelligence, 2021, 3(6): 513-526.
[2]AWADA Z, BOUAOUN L, NASR R, et al. LINE-1 methylation mediates the inverse association between bodymass index and breast cancer risk: A pilot study in the Lebanese population[J]. Environmental Research, 2021, 197: 111094.
[3]LUO P, TIAN L P, RUAN J, et al. Disease gene prediction by integrating PPI networks, clinical rna-seq data and omim data[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2017, 16(1): 222-232.
[4]MANOLIO T A.Genomewide association studies and assessment of the risk of disease[J]. New England Journal of Medicine, 2010, 363(2): 166-76.
[5]GHIASSIAN S D, MENCHE J, BARABSI A L. A DIseAse MOdule Detection(DIAMOnD) algorithm derived from a systematic analysis of connectivity patterns of disease proteins in the human interactome[J]. PLOS Computational Biology, 2015, 11(4): e1004120.
[6]WANG L X, WU M X, WU Y L, et al. Prediction of the disease causal genes based on heterogeneous network and multi-feature combination method[J]. Computational Biology and Chemistry, 2022, 97: 107639.
[7]LIN C H, KONECKI D M, LIU M, et al. Multimodal network diffusion predicts future disease-gene-chemical associations[J]. Bioinformatics, 2019, 35(9): 1536-1543.
[8]EDUARD P, VICTORIA R, SAMUEL V, et al. The structural coverage of the human proteome before and after alphafold[J]. PLoS Computational Biology, 2022, 18(1): e1009818.
[9]JIAN Y Y, IVAN A, HAHNBEOM P, et al. Improved protein structure prediction using predicted inter-residue orientations[J]. Cold Spring Harbor Laboratory, 2019. DOI:10.1101/846279.
[10] EMRE G, BALDO O. Exploiting protein-protein interaction networks for genome-wide disease-gene prioritization[J]. Plos One, 2012, 7(9): e43557.
[11] ZHOU H Y, SKOLNICK J. A knowledge-based approach for predicting gene-disease associations[J]. Bioinformatics, 2016, 32(18): 2831-2838.
[12] JOWKAR G H, MANSOORI E G. Perceptron ensemble of graph-based positive-unlabeled learning for disease gene identification[J]. Computational Biology and Chemistry, 2016, 64:263-270.
[13] LUO P, LI Y Y, TIAN L P, et al. Enhancing the prediction of disease-gene associations with multimodal deep learning[J]. Bioinformatics, 2019, 35(19): 3735-3742.
[14] LUCK K, SHEYNKMAN G M, ZHANG I, et al. Proteome-scale humaninteractomics[J]. Trends in Biochemical Sciences, 2017, 42(5): 342-354.
[15] GABRIEL V. The landscape of virus-host protein-protein interaction databases[J]. Frontiers in Microbiology. 2022, 13: 827742.
[16] KOVCS I A, LUCK K, SPIROHN K, et al. Network-based prediction of protein interactions[J]. Nature Communications, 2019, 10(1): 1240.
[17] KESKIN O, TUNCBAG N, GURSOY A. Predicting protein-protein interactions from the molecular to the proteome level[J]. Chemical Reviews, 2016, 116(8): 4884-909.
[18] BASS J I F, DIALLO A, NELSON J, et al. Using networks to measure similarity between genes: Association index selection[J]. Nature Methods, 2013, 10(12): 1169-1176.
[19] LIN Y, LU N W, L P, et al. Link prediction based on common-neighbors for dynamic social network[J]. Procedia Computer Science, 2016, 83:82-89.
[20] ALI B.Dynamic resource allocation in cloud computing: analysis and taxonomies[J]. Computing, 2022, 104(3):681-710.
[21] GROVER A, LESKOVEC J.Node2vec: Scalable feature learning for networks[C]// 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Sar Francisco, 2016: 855-864.
[22] KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks[DB/OL].[2023-08-02]. https://arxiv.org/pdt/1609.02907.pdf.
[23] AHMED N K, ROSSI R A, ZHOU R, et al. Inductive representation learning in large attributed graphs[DB/OL].[2023-08-02]. https://arxiv.org/abs/1710.09471.
[24] YANG K, WANG R Y, LIU G M, et al.HerGePred: Heterogeneous network embedding representation for disease gene prediction[J]. IEEE Journal of Biomedical and Health Informatics, 2019, 23(4): 1805-1815.
[25] PIERO J, BRAVO A, QUERALT-ROSINACH N, et al.DisGeNET: A comprehensive platform integrating information on human disease-associated genes and variants[J]. Nucleic Acids Research, 2017, 45(D1): D833-D839.
[26] ERTEN S, BEBEK G, EWING R M, et al. DADA:Degree-aware algorithms for network-based disease gene prioritization[J]. Biodata Mining, 2011, 4(1):19.
[27] ZHAO L S, TING Z H, BRUNO C, et al. An efficient elimination strategy for solving pagerank problems[J]. Applied Mathematics amp; Computation, 2017, 298: 111-122.
Disease and Gene Association Mining Based on Graph Data Enhancement
JIA Xiang-hu, WU Shun-yao
(School of Computer Science and Technology, Qingdao University, Qingdao 266071, China)
Abstract:
In view of the incompleteness of existing association data and the inadequacy of multi-source omics data, computational indexes based on three-hop local topological similarity were designed to identify biologically significant but unmapped Protein-Protein Interactions (PPI). A novel graph neural network method (GDaEPred) based on graph data enhancement was proposed for mining disease-gene associations. Experimental results showed that the average accuracy of GDaEPred was improved by 4.1%, and the precision, recall and F1 score were also improved.
Keywords: graph neural networks; graph data enhancement; disease gene prediction