楊宵月 李建偉

摘要:人類疾病與長鏈非編碼RNA(LncRNA)的調控功能異常具有密切關系。近年來,出現了許多LncRNA-人類疾病關聯數據庫,為識別LncRNA調控人類疾病的功能提供了極大便利。本文對多個主流LncRNA調控人類疾病關聯數據庫作一綜述,為該領域的進一步研究提供參考。
關鍵詞:長鏈非編碼RNA;LncRNA-疾病關聯關系;生物信息學
中圖分類號:TP311.131 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? DOI:10.3969/j.issn.1006-1959.2019.12.010
文章編號:1006-1959(2019)12-0028-03
Abstract:Human diseases are closely related to the abnormal regulation of long-chain non-coding RNA (LncRNA). In recent years, many LncRNA-human disease association databases have emerged, which have greatly facilitated the recognition of LncRNA regulation of human disease. This article reviews a number of mainstream LncRNA regulatory human disease association databases and provides a reference for further research in this field.
Key words:Long-chain non-coding RNA;LncRNA-disease association;Bioinformatics
長鏈非編碼RNA(long non-coding RNA,LncRNA)是一類核苷酸長度大于200的非編碼RNA分子。由于其不能編碼蛋白質,LncRNA一直被認為是基因轉錄過程中的副產物[1]。隨著對LncRNA的不斷研究,發現LncRNA雖不編碼蛋白,但可參與細胞凋亡、分化、自噬、代謝以及腫瘤發生的各個階段等多種重要的調控過程[2]。LncRNA的研究發展迅速,但絕大部分LncRNA在疾病中的調控功能仍不明確。大量研究表明[3,4],人類疾病與LncRNAs的調控功能異常具有密切關系,明確LncRNAs在疾病中的調控作用,對在分子水平上理解疾病的產生、發展機制,對于復雜疾病的診斷、治療均具有重要意義。目前,研究LncRNA調控功能的方法主要包括傳統生物實驗方法和現代的生物信息學計算方法。傳統的生物實驗方法鑒定LncRNAs功能,結果雖然準確、可靠,但存在實驗周期時間長、費用較高等問題[5]。隨著高通量測序技術的不斷發展,越來越多的LncRNAs被發現,大量的LncRNAs功能需要被明確。傳統的生物實驗方法顯然不能勝任,必須采用快速、高效的計算方法對已發現的LncRNAs調控人類疾病關系進行數據挖掘,進而推測LncRNAs功能[6]。本文對多個主流LncRNA調控人類疾病關聯數據庫作一綜述,旨在為該領域的進一步研究提供參考。
1常見LncRNA調控人類疾病關系數據庫
近年來,相繼出現了一些收集、整理LncRNA調控人類疾病關聯數據庫,為識別LncRNA調控人類疾病的功能提供了極大便利。常見LncRNA調控人類疾病關系數據庫(按發布時間排序)見表1,包括軟件名稱、發布時間、數據庫優缺點等,為研究者選擇LncRNA調控人類疾病關聯數據庫提供便利,同時有助于研究者快速了解該領域的研究進展。
2常見LncRNA調控人類疾病關系數據庫具體介紹
2.1 LncRNADisease ?2012年,Chen G等[7]收集PubMed數據庫中文獻報道的LncRNA調控人類疾病關系,開發了首個LncRNA調控人類疾病關系數據庫——LncRNADisease。該數據庫收集了480個有實驗支持的LncRNA調控疾病關系條目,以及478個LncRNA與其他生物分子相互作用的條目,涉及128個人類LncRNAs。LncRNADisease對每個LncRNA-疾病關聯數據都給出了原始文章的PubMed超鏈接,并標注了LncRNA-疾病關聯的詳細信息,包括基因組信息、序列信息、功能失調類型等。LncRNADisease數據庫規范了LncRNA和疾病的名稱,共涉及166種疾病。LncRNADisease還收集了LncRNA在各種分析分子水平上的調控對象。此外,還提出一種預測新LncRNA-疾病關聯關系的生物信息學方法,并將預測的1564個LncRNA-疾病關聯關系整合到數據庫中。
2.2 Lnc2Cancer ?Ning S等[8]于2015年建立了專門收集LncRNA-癌癥關聯關系的、且有實驗支持的LncRNA數據庫——Lnc2Cancer。該庫中的LncRNA數據來源于PubMed數據庫中已發表的1500余篇相關文獻。通過手工檢索和整理的方式,該數據庫在531種LncRNAs和86種人類癌癥范圍內,共收集了1057個LncRNA-癌癥關聯關系數據。庫中每個關聯數據包括LncRNA與癌癥的名稱、LncRNA序列及位置信息、LncRNA表達模式、實驗技術、LncRNA功能描述、PubMed數據庫超鏈接和其他注釋信息等。Lnc2Cancer的用戶界面友好,方便用戶檢索和下載數據,并允許用戶在線提交新驗證的LncRNA-癌癥關聯關系數據。用戶通過分析來自Lnc2Cancer的數據,可進一步挖掘這些數據中隱藏的一些重要信息,構建LncRNA-癌癥二分網絡,更加系統地分析LncRNAs對癌癥的調控作用。
2.3 TANRIC ?TANRIC是2015年由Li J等[9]開發的研究LncRNAs在癌癥中調控功能及臨床診療價值的數據分析和可視化平臺。它收集并分析了20種癌癥患者中LncRNA表達譜數據,共包含8000多個來自于TCGA和其它數據集的樣本。TANRIC包括6個模塊:摘要、可視化、下載、My LncRNA、分析所有LncRNA和細胞系中的LncRNA。TANRIC將LncRNAs表達數據與臨床和基因組數據相結合,使得研究人員能夠在臨床和其他分子數據背景下,快速、直觀地分析癌癥的LncRNA特征。TANRIC的開發者還鑒定了大量具有潛在生物醫學標記的LncRNAs,其中許多顯示與已明確的治療靶標和跨腫瘤類型的生物標記,或者跨細胞系的藥物敏感性強烈相關。TANRIC極大地促進了與LncRNA相關的生物學發現和臨床應用。
2.4 LnCaNet ?2016年1月,Liu Y等[10]在對LncRNA和非鄰近癌基因之間相互作用進行搜索和分析的基礎上,開發了一個收錄LncRNA共表達數據的數據庫——LnCaNet。LnCaNet共收集了2922個匹配的癌癥基因組圖譜TCGA樣品,包含了來源于9641個LncRNAs和2544個癌癥基因的8494907個有意義的共表達對。LnCaNet整合了來自公共數據庫的10個癌癥基因列表,分別計算了11種TCGA癌癥類型中所有LncRNA的共表達。基于110個共表達網絡的分析結果,LnCaNet確定了17個與11種癌癥細胞外空間相關的常見調節對。LnCaNet致力于為LncRNA和癌癥基因建立全面的網絡資源,包括綜合癌癥基因列表、預先計算的LncRNA與癌基因之間的共表達、泛癌LncRNA表達網、LncRNA-癌癥基因相互作用對。LnCaNet為研究者深入分析LncRNA調控功能提供了重要參考。
2.5 LincSNP 2.0 ?LincSNP 2.0是2016年5月由Ning S等[11]開發的一個數據庫,它是首個專門用于存儲和注釋人類LncRNA與其轉錄因子結合位點(TFBSs)中的與疾病關聯的單核苷酸多態性(SNP)數據,以期幫助用戶確認新的與疾病關聯的SNP數據。LincSNP 1.0[14]創建于2014年5月,LincSNP 2.0是其更新版。LincSNP 2.0中的LncRNA來源于5個數據庫,包括Ensembl[15]、LncRBase[16]、NONCODE[17]、LNCipedia[18]和GENCODE[19]。LincSNP 2.0中,含有809451個與疾病相關的SNP和244545個人類LncRNA,涉及9種類型的LncRNA,包含58個具有實驗支持的SNP-LncRNA-疾病關聯。為了方便用戶更好地使用LincSNP 2.0中的數據,該數據庫還為用戶提供了3種在線檢索和分析數據的工具,分別為Linc-Mart、Linc-Browse和Linc-Score。
2.6 Lnc2Catlas ?Lnc2Catlas是一個從不同方面收集并且定量化表示LncRNA-癌癥關聯關系的數據庫[12]。該數據庫從LncRNA二級結構擾動、LncRNA-蛋白質相互作用和共表達網絡三個方面數值化評價LncRNA對癌癥的調控作用。Lnc2Catlas共收錄27670個具有明確注釋的LncRNAs,包含了247124個LncRNA-SNP關聯關系、超過200萬個LncRNA-蛋白質相互作用關系和6902個共表達簇數據。Lnc2Catlas構建相關LncRNA、SNP和蛋白質的調控關系網絡,從多角度分析LncRNA與癌癥之間的定量關系,這使得最終分析結果更加準確、可信。
2.7 LncRNADisease2.0 ?LncRNADisease2.0是LncRNADisease的更新版,由Bao Z等[13]在2018年7月建立。LncRNADisease 2.0記錄了20多萬個LncRNA-疾病關聯關系數據。它共收集了來自PubMed的12000余篇文獻,包含10564個實驗支持的LncRNA-疾病關聯關系數據和1004個實驗支持的circRNA-疾病關聯關系數據。數據庫中還包含195395個預測的LncRNA-疾病關聯關系,其中23102個關聯關系至少可被2種算法預測。相對于第一個版本的LncRNADisease,LncRNADisease 2.0具有明顯的改進:①實驗支持和/或計算支持的LncRNA-疾病關聯關系數量超過第一版40倍;②提供了LncRNA,mRNA和miRNA之間的轉錄調控關系;③將疾病名稱映射到MeSH數據庫[20],為每個LncRNA-疾病關聯關系提供數量化的置信度分數;④增加了環狀RNA(circRNAs)與疾病之間的關聯關系數據。LncRNADisease 2.0是收集LncRNA-疾病關聯關系數據較全的數據庫之一。
3總結
本文介紹了7個LncRNA調控人類疾病關聯數據庫,每個數據庫都有其特點和適用范圍。研究人員需要根據自己的需求和想法,選擇適合的數據庫,才能有助于分析和研究。該類數據庫還有很多需要改進和完善發展的方面:①研究人員搜集了大量的LncRNA-疾病關聯數據,但目前還沒有一個權威、統一和系統的數據庫包含已有的全部LncRNA-疾病關聯關系數據,大部分數據庫都在按照自己的組織方式不斷的維護和更新,用戶常常需要分析多個數據庫才能得到比較準確、權威的結果;②LncRNA與人類疾病的關系是一個計較系統復雜的問題,尚有許多新的LncRNA-疾病關聯關系數據屬性沒有被發現,這需要研究人員持續地探索和研究,不斷更新數據的組織方式,并在大量相關數據中發現新的LncRNA調控疾病的規律;③目前建立的LncRNA數據庫一般包括LncRNA-miRNA、蛋白質結合互作、相鄰基因共表達、疾病上下調等功能分析,但LncRNA的其他多種重要調節功能仍沒有被收集,如作為增強子參與調控基因的表達、通過修飾染色體參與表觀調節等。目前還沒有類似數據庫收集LncRNA的這方面數據,這在一定程度上限制了對LncRNA調控功能的深入分析。
隨著越來越多的研究者關注并且投身到LncRNA調控人類疾病關系數據庫的研究中,我們相信未來會有更加全面、高效、易用的數據庫出現,服務于LncRNA調控功能研究。
參考文獻:
[1]Clark MB,Mattick JS.Long noncoding RNAs in cell biology[J].Semin Cell Dev Biol,2011,22(4):366-376.
[2]Mercer TR,Dinger ME,Mattick JS.Long non-coding RNAs:insights into functions[J].Nat Rev Genet,2009,10(3):155-159.
[3]周眾.LncRNA-基因調控關系的生物信息學數據庫構建及分析預測[D].中國科學技術大學,2016.
[4]林陳勝,阮寧生,張彥定.長鏈非編碼RNA數據庫資源[J].中國生物化學與分子生物學報,2016,32(6):599-606.
[5]Moran VA,Perera RJ,Khalil AM.Emerging functional and mechanistic paradigms of mammalian long non-coding RNAs[J].Nucleic Acids Res,2012,40(14):6391-6400.
[6]夏天,肖丙秀,郭俊明.長鏈非編碼RNA的作用機制及其研究方法[J].遺傳,2013,35(3):269-280.
[7]Chen G,Wang Z,Wang D,et al.LncRNADisease:a database for long-non-coding RNA-associated diseases[J].Nucleic Acids Res,2013,41(D1):D983-D986.
[8]Ning S,Zhang J,Wang P,et al.Lnc2Cancer:a manually curated database of experimentally supported LncRNAs associated with various human cancers[J].Nucleic Acids Res,2016,44(D1):D980-D985.
[9]Li J,Han L,Roebuck P,et al.TANRIC:an interactive open platform to explore the function of LncRNAs in cancer[J].Cancer Res,2015,75(18):3728-3737.
[10]Liu Y,Zhao M.LnCaNet:pan-cancer co-expression network for human LncRNA and cancer genes[J].Bioinformatics,2016,32(10):1595-1597.
[11]Ning S,Yue M,Wang P,et al.LincSNP 2.0:an updated database for linking disease-associated SNPs to human long non-coding RNAs and their TFBSs[J].Nucleic Acids Res,2017,45(D1):D74-D78.
[12]Ren C,An G,Zhao C,et al.Lnc2Catlas:an atlas of long noncoding RNAs associated with risk of cancers[J].Sci Rep,2018,8(1):1909.
[13]Bao Z,Yang Z,Huang Z,et al.LncRNADisease 2.0:an updated database of long non-coding RNA-associated diseases[J].Nucleic Acids Res,2019,47(D1):D1034-D1037.
[14]Ning S,Zhao Z,Ye J,et al.LincSNP:a database of linking disease-associated SNPs to human large intergenic non-coding RNAs[J].BMC Bioinformatics,2014,15(1):152.
[15]Flicek P,Ahmed I,AmodeMR,et al.Ensembl 2013[J].Nucleic Acids Res,2013,41(D1):D48-D55.
[16]Chakraborty S,Deb A,Maji RK,et al.LncRBase:an enriched resource for LncRNA information[J].PLoS One,2014,9(9):e108010.
[17]Fang S,Zhang L,Guo J,et al.NONCODEV5:a comprehensive annotation database for long non-coding RNAs[J].Nucleic Acids Res,2018,46(D1):D308-D314.
[18]Volders PJ,Helsens K,Wang X,et al.LNCipedia:a database for annotated human LncRNA transcript sequences and structures[J].Nucleic Acids Res,2013,41(D1):D246-D251.
[19]Harrow J,Frankish A,Gonzalez JM,et al.GENCODE:the reference human genome annotation for The ENCODE Project[J].Genome Res,2012,22(9):1760-1774.
[20]Lipscomb CE.Medical Subject Headings(MeSH)[J].Bull Med Libr Assoc,2000,88(3):265-266.
收稿日期:2019-3-12;修回日期:2019-3-22
編輯/杜帆