杜曉昕 羅金琦 金梅 王振飛 周薇





摘? 要:針對當前長鏈非編碼RNA(lncRNA)與疾病關聯預測研究中存在的異質網絡構建不完善、網絡節點信息挖掘不充分問題,提出一種基于關系圖卷積網絡(Relational Graph Convolutional Network, R-GCN)的方法(RGCNLDA)。首先,構建lncRNA-miRNA-疾病異質圖,隨后在異質圖上訓練R-GCN獲取節點嵌入向量,最后使用多層感知機預測lncRNA-疾病關聯。5折交叉驗證結果顯示,RGCNLDA的受試者工作特征曲線下面積(AUROC)為0.934,表明其具有良好的預測性能。
關鍵詞:lncRNA;關系圖卷積網絡;異質圖;關聯預測
中圖分類號:TP311? 文獻標識碼:A? 文章編號:2096-4706(2023)07-0086-04
Abstract: Aiming at the problems of imperfect heterogeneous network construction and insufficient network node information mining in the current research on association prediction of long non-coding RNA (lncRNA) and disease, a method based on Relational Graph Convolutional Network (R-GCN) is proposed (RGCNLDA). Firstly, a lncRNA-miRNA-disease heterogeneous graph is constructed, and then R-GCN is trained on the heterogeneous graph to obtain node embedding vectors. Finally, a multi-layer perceptron is used to get lncRNA-disease associations. The results of 5-fold cross validation show that the Area Under Receiver Operating Characteristic curve (AUROC) of RGCNLDA is 0.934, indicating a good predictive performance.
Keywords: lncRNA; R-GCN; heterogeneous graph; association prediction
0? 引? 言
長鏈非編碼RNA(lncRNA)是一種含有200多個核苷酸的非編碼RNA[1]。越來越多的研究表明,lncRNA的突變和調控異常與各種復雜人類疾病的發生和發展密切相關,如糖尿病、心血管疾病、神經系統疾病和包括肺癌、乳腺癌和前列腺癌在內的癌癥[2]。因此,急需開發高效、準確的計算模型來預測潛在的lncRNA-疾病關聯。
預測lncRNA-疾病關聯的方法大致可以分為兩類:基于機器學習的方法和基于網絡隨機游走的方法。在基于機器學習的方法中,Chen等人[3]提出了一種稱為LRLSLDA的半監督學習方法,該方法使用拉普拉斯正則化最小二乘來識別lncRNA與疾病之間的潛在關聯。近年來興起的深度學習技術也被廣泛應用于lncRNA-疾病關聯預測中,如Yang等人[4]提出了一個名為BiGAN的雙向生成對抗網絡模型,由一個編碼器、一個生成器和一個鑒別器組成,通過編碼器和生成器學習高級特征,并通過鑒別器預測lncRNA-疾病關聯。在基于網絡隨機游走的方法中,Wang等人[5]構建與疾病關聯的lncRNA功能網絡,進行重啟隨機游走(Random Walk with Restart, RWR),從而預測與疾病關聯的lncRNA;Hu等人[6]提出一種BiWalkLDA方法,在lncRNA-疾病網絡上進行雙隨機游走,整合相互作用譜和基因本體信息,預測lncRNA-疾病關聯。
上述方法雖然在lncRNA-疾病關聯預測中取得了一定的成果,但也存在一些弊端。例如,沒有充分考慮到多源數據整合對于提取節點信息的重要性,著重于提取節點的線性特征而忽略了節點在網絡中的拓撲結構信息。因此,本文提出一種基于關系圖卷積網絡的方法RGCNLDA,整合lncRNA、miRNA以及疾病信息構建異質圖,并根據節點與節點之間的不同關系分別提取節點的非線性特征,從而充分挖掘節點信息,提高預測性能。
1? 相關概念
1.1? 異質圖
異質圖是指圖中節點類型與邊類型之和大于1的圖。將一個無向異質圖定義為G=(V,E,R)。其中,V表示節點集合,任意節點vi ∈ V。E表示邊的集合,節點vi與vj之間的邊(vi,r,vj) ∈ E。r表示節點vi與vj之間的關系,r ∈ R。
1.2? 關系圖卷積網絡R-GCN
圖卷積網絡(Graph Convolutional Network, GCN)只能作用于同質圖,即圖中只有一種類型的節點或邊。對于具有多種類型的節點和邊的圖,GCN將節點和邊都視作同一種類型,無法挖掘不同節點類型和邊類型的節點之間的信息。關系圖卷積網絡(R-GCN)能夠克服這種弊端。R-GCN根據節點之間的不同關系,分別聚合鄰居節點信息。
R-GCN通過式(1)計算節點vi在第l+1層神經網絡上的向量表示:
其中,W表示權重矩陣,cir表示歸一化常數,Nir表示與節點vi具有r關系的鄰居節點的集合。
1.3? 鏈接預測
異質圖上的鏈接預測是指判斷給定類型的節點之間是否存在邊。計算兩兩節點之間存在鏈接可能性的得分如式(2)所示:
其中,hi(k)與hj(k)表示節點vi與vj經過多層圖神經網絡的向量表示,?表示計算節點vi與vj之間鏈接可能性得分的函數。
2? 基于R-GCN的lncRNA-疾病關聯預測
2.1? LMD異質圖構建
構建LncRNA-MiRNA-Disease異質圖,簡稱LMD異質圖。LMD異質圖由lncRNA、miRNA和疾病三種類型的節點和描述這三種類型節點之間相似關系、關聯關系和相互作用關系的六種類型的邊組成。
2.1.1? 數據準備
為構建LMD異質圖,從LncRNADisease v2.0數據庫[7]和Lnc2Cancer v3.0數據庫[8]下載了實驗證實的lncRNA-疾病關聯數據。將所有疾病名稱轉換為標準MESH疾病術語,過濾重復數據,刪除只有一個或沒有關聯的lncRNA以避免可能的噪聲。已知的lncRNA-miRNA關聯數據來自Encori數據庫[9]和NPInter v4.0數據庫[10]。類似地,從lncRNA-miRNA關聯中消除冗余數據,僅保留lncRNA -疾病關聯數據中的lncRNA和miRNA-疾病關聯數據中的miRNA。從HMDD v3.2數據庫[11]中獲得了miRNA-疾病關聯數據,篩選出了在生物學研究中更有價值的與疾病有因果關系的miRNA。
2.1.2? 相似性計算
構建LMD異質圖時,計算了相同類型節點之間的相似性分數,從而確定相同類型節點在LMD異質圖中是否有邊。首先,計算疾病節點之間的語義相似性。根據Wang等人[12]提出的方法,任何疾病都可以用唯一的有向無環圖(DAG)來表示。DAG中的節點代表疾病術語,具有層次關系。通過計算疾病術語的語義值,以及兩個DAG中常見術語的語義值,可以計算疾病節點之間的相似性分數。計算疾病術語t對疾病A的貢獻值如式(3)所示:
其中,Δ表示語義衰減因子,表明在疾病di的DAG圖中,當疾病di的某個祖先疾病節點距離di越遠時,其對di的語義貢獻值越小。隨后,由式(4)計算出疾病di的語義貢獻值,式(5)根據疾病di和疾病dj的DAG圖,計算出di與dj的語義相似性:
對于疾病di與dj,如果通過上述方法計算出的語義相似度大于0,則在LMD異質圖中為它們添加一條邊。
基于功能相似的lncRNA通常與相似的疾病相關的理論,Chen等人[13]計算了lncRNA之間的功能相似性。將D(li)和D(lj)分別定義為與lncRNAli和lncRNAlj相互關聯的疾病組,計算D(li)和D(lj)之間的相似性,作為lncRNAli和lncRNAlj之間的功能相似性。假設疾病d與li關聯,則d與疾病組D(lj)之間的相似性計算如式(6)所示,由此,lncRNAli和lncRNAlj之間的功能相似性計算如式(7)所示:
如果兩兩lncRNA的相似性分數大于0,則在LMD異質圖中添加一條li與lj之間的邊。
按照上述類似的方法,可以計算出兩兩miRNA之間的功能相似性。假設miRNAmi與miRNAmj分別與疾病組D(mi)、D(mj)關聯,則mi與mj的功能相似性可由式(8)和式(9)計算得到:
類似地,如果兩個miRNA之間的相似性大于0,則在LMD異質圖添加一條(mi,mj)無向邊。
2.1.3? 數據整合
整合從數據庫中下載的已知lncRNA-疾病關聯、lncRNA-miRNA相互作用、miRNA-疾病關聯,以及計算出的lncRNA-lncRNA相似性、miRNA-miRNA相似性、疾病-疾病相似性,構建LMD異質圖。圖中各類型節點的數量如表1所示,各類型的邊的數量如表2所示。
2.2? LMD異質圖節點特征獲取
將構建的LMD異質圖輸入利用R-GCN模型,從而獲取的節點表示向量。如圖1所示,以節點lncRNAl1為例,根據lncRNA-lncRNA相似關系,聚合節點l2和l3的表示向量;根據lncRNA-疾病關聯關系,聚合節點d2和d3的表示向量;根據lncRNA-miRNA的相互作用關系,聚合節點m2和m3的表示向量;最后,將節點自連接作為一種特殊的關系,整合l1自身的表示向量。將上述l1的鄰居節點以及l1自身的表示向量經過激活函數得到更新后的表示向量。同理,在LMD異質圖上更新其他lncRNA節點、miRNA節點、疾病節點的表示向量。
2.3? lncRNA-疾病關聯預測
將R-GCN獲取的LMD異質圖中的lncRNA節點、疾病節點拼接形成lncRNA-疾病節點對向量;同時,根據已知的lncRNA-疾病關聯進行負采樣(如:隨機采樣k個不與lncRN l1關聯的疾病節點),將負采樣得到的節點繪制成子圖,由R-GCN獲取節點表示向量后,拼接形成lncRNA-疾病節點對向量。分別將正負樣本的lncRNA-疾病節點對向量輸入多層感知機,得到lncRNA-疾病關聯的得分。
3? 實驗結果與分析
3.1? 評價指標與評估方法
以受試者工作特征曲線下面積(Area Under Receiver Operating Characteristic curve, AUROC)和PR曲線下面積(Area Under Precision–Recall curve, AUPR)作為評估指標,采用五折交叉驗證方法對RGCNLDA模型的性能進行評估。將樣本集平均分為5份,依次選取一份樣本集用于驗證,剩余4份樣本集用于訓練,取5次實驗的平均結果作為該分類器的性能指標。
3.2? 參數設置
本文基于PyTorch框架實現RGCNLDA模型,訓練節點維度為64維,使用Adam優化器,R-GCN網絡的層數為2層,負采樣節點數為5,學習率為0.001,訓練150輪次。
3.3? 對比實驗
將RGCNLDA模型與其他3種預測lncRNA-疾病關聯的先進模型MFLDA[14]、TPGLDA[15]、SDLDA[16]在同一數據集上進行對比實驗,五折交叉驗證下的ROC曲線和AUC值如圖2所示。
由圖2可知,RGCNLDA模型在4種方法中具有最優的預測性能。五折交叉驗證下的平均AUC值對比TPGLDA模型、MFLDA模型、SDLDA模型分別提升了7.11%、16.31%、5.06%。MFLDA模型和TPGLDA模型雖然整合了異構生物源的數據,但沒有充分挖掘lncRNA節點和疾病節點的非線性特征;SDLDA模型雖然利用了矩陣分解和深度學習提取節點非線性特征,但沒有考慮到多源數據整合。由此可見,RGCNLDA模型具有良好的預測性能。
4? 結? 論
研究表明,lncRNA在疾病的產生和發展過程中發揮著至關重要的作用,因此,設計高效的預測模型研究潛在的lncRNA-疾病關聯有助于理解疾病的產生原理并輔助醫護人員有針對性地開展疾病預防和治療工作。本文提出RGCNLDA模型,首先整合lncRNA、疾病、miRNA多源數據構建異質圖,并根據節點類型不同以及節點之間的不同關系訓練R-GCN網絡,充分挖掘異質圖中節點特征,最后使用多層感知機為lncRNA-疾病節點對進行打分,得到潛在的lncRNA-疾病關聯。五折交叉驗證的AUC值表明本模型具有良好的預測性能。
參考文獻:
[1] TAFT R J,PANG K C,MERCER T R, et al. Non-coding RNAs: regulators of disease [J]. J Pathol,2010,220(2):126-139.
[2] JOHNSON R. Long non-coding RNAs in Huntington's disease neurodegeneration [J] Neurobiol Dis,2012,46:245-254.
[3] CHEN X,YAN G Y. Novel human lncRNA-disease association inference based on lncRNA expression profiles [J].Bioinformatics,2013,29(20):2617-2624.
[4] YANG Q,LI X K. BiGAN: LncRNA-disease association prediction based on bidirectional generative adversarial network [J/OL].BMC Bioinformatics,2021,22[2022-11-26].https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-021-04273-7.
[5] WANG Y T,JUAN L R,PENG J J,et al. LncDisAP: a computation model for LncRNA-disease association prediction based on multiple biological datasets [J/OL].BMC Bioinformatics,2019,20[2022-11-22].https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-3081-1.
[6] HU J L,GAO Y Q,LI J, et al. A novel algorithm based on bi-random walks to identify disease-related lncRNAs [J/OL].BMC Bioinformatics,2019,20[2022-11-22].https://pubmed.ncbi.nlm.nih.gov/31760932/.
[7] BAO Z Y,YANG Z,HUANG Z,et al. LncRNADisease 2.0: an updated database of long non-coding RNA-associated disease [J].Nucleic Acids Res,2019,47(D1):D1034-D1037.
[8] GAO Y,SHANG S P,GUO S,et al. Lnc2Cancer 3.0: an updated resource for experimentally supported lncRNA/circRNA cancer associations and web tools based on RNA-seq and scRNA-seq data[J]. Nucleic Acids Res,2021,49(D1):D1251-D1258.
[9] LI J H,LIU S,ZHOU H,et al. starBase v2.0: decoding miRNA-ceRNA, miRNA-ncRNA and protein-RNA interaction networks from large-scale CLIP-Seq data [J]. Nucleic Acids Res,2014,42(Database issue):D92-D97.
[10] TENG X Y,CHEN X M,XUE H,et al. NPInter v4.0: an integrated database of ncRNA interactions [J].Nucleic Acids Res,2020,48(D1):D160–D165.
[11] HUANG Z,SHI J C,GAO Y X,et al. HMDD v3.0: a database for experimentally supported human microRNA-disease associations [J].Nucleic Acids Res,2019,47(D1):D1013-D1017.
[12] WANG D,WANG J,LU M,et al. Inferring the human microRNA functional similarity and functional network based on microRNA-associated diseases [J].Bioinformatics,2010,26:1644-1650.
[13] CHEN X,YAN C C,LUO C,et al. Constructing lncRNA functional similarity network based on lncRNA-disease associations and disease semantic similarity [J/OL]. Scientific Reports, 2015, 5[2022-11-22].https://www.nature.com/articles/srep11338.
[14] Fu GY, Wang J, LUO C, et al. Matrix factorization-based data fusion for the prediction of lncRNA–disease associations [J]. Bioinformatics,2018,34(9):1529-1537.
[15] FU G Y,WANG J,LUO C,et al. TPGLDA: Novel prediction of associations between lncRNAs and diseases via lncRNA-disease-gene tripartite graph [J].Scientific Reports,2018,8(1):1-11.
[16] ZENG M,LU C Q,ZHANG F H,et al. SDLDA: lncRNA-disease association prediction based on singular value decomposition and deep learning [J].Methods,2020,179:73-80.
作者簡介:杜曉昕(1983—),女,漢族,江蘇徐州人,教授,碩士研究生,研究方向:生物醫學大數據分析與處理;羅金琦(1997—),女,漢族,四川綿陽人,碩士在讀,研究方向:臨床醫學大數據挖掘;金梅(1977—),女,漢族,遼寧鞍山人,講師,碩士研究生,研究方向:機器學習;王振飛(1999—),男,漢族,山東省濰坊人,碩士在讀,研究方向:機器學習與群智能優化算法;周薇(1999—),女,漢族,河北定州人,碩士在讀,研究方向:群智能優化算法。