劉立偉,劉鐵暉
(大連交通大學理學院,遼寧 大連 116028)
一種新的RNA二級結構三維圖形表示及其應用
劉立偉*,劉鐵暉
(大連交通大學理學院,遼寧 大連 116028)
本研究提出了一種新的RNA二級結構的圖形表示方法,這種方法不同于以往的表示方式。根據所提出的RNA二級結構的圖形表示,將對9種病毒的RNA二級結構進行圖形表示,構建系統進化樹,進行序列間相似性的比較和分析。根據最終結果,可以很清晰地發現,AVII與LRMV兩種病毒是最為相似的,另外,較大的距離值出現在了APMV與ALMV;PDV與AVII中,這說明這幾種RNA二級結構明顯不相似。這一研究結果與前人相似性分析的結果是十分相似的,同時,所采取的方法更加簡單易于區分觀察且得到的結果又是十分可靠的,因此,這些更加證明了該方法是有效的。
RNA二級結構;圖形表示;系統進化樹;相似性
近期,隨著生命科學和計算機科學的快速發展,生物信息學作為一個新興的交叉學科非常活躍。它通過綜合利用生物學,計算機科學,應用數學和信息技術而揭示大量而復雜的生物數據所賦有的生物學奧秘。RNA在生命過程中起著非常重要的作用。許多實驗已證實RNA的功能依賴于它本身的結構,從RNA結構的角度探索RNA的功能是一個十分重要的研究課題,因此RNA二級結構的相似性比較成為了這個課題的熱點問題。隨著基因組學和表觀遺傳學的發展,RNA在生命活動中所扮演的角色更加被科學家重視。通過對RNA結構相似性的分析,進而能夠幫助我們了解RNA一些新的生物功能。同時,廖波、張屹和曹志等[1-3]在RNA二級結構比較上都做出了相應的貢獻。
Liao等[1]給出了一種RNA二級結構的二元編碼方法。文獻[1]的做法是減少一個RNA二級結構分為三個二進制數字,并根據RNA二級結構的理化性質將編碼的堿基分為三類,在提出編碼規則的基礎上進行操作,將X1異或X2用X1⊕X2表示。結合所提出的編碼規則,得到兩個特征序列所對應的兩個RNA公共子序列二級結構,最終得到最優的對齊方式,通過這種方式可以判斷堿基之間或者堿基對和堿基對之間的突變,并容易進行序列比對。Zhang等[2]比較RNA二級結構相似性并進行分類,提出了一種三維(3D)的RNA二級結構的圖形表示,基于核酸的化學性質,把其中一個RNA二級結構首先轉化為一個特征序列,然后構造一個動態的三維圖的特征序列,最后用三維圖的數值特征化代表RNA二級結構。進行RNA二級結構相似性分析。還有Cao等[3]提出了一種有效的方法。在突變分析的基礎上進行引入的表示,減少一個二級結構為三個二進制數字序列,根據所提出的三維立方體表示,將介紹一個擴展的二進制編碼方法的RNA二級結構進行調整,通過轉換的結構比對到序列比對。之前,Yao等[4]在不同病毒圖形表示的基礎上,將RNA二級結構的相似性進行了一系列定量的比較。通過之前一些學者的經驗理論,提出了一種新的表示方法。
本文主要介紹的是RNA二級結構的圖形表示,并詳細分析了RNA結構的表示方法,利用其特點提出了RNA結構的表示方法---距離矩陣表示法,在此基礎上提出了基于距離矩陣表示法的相似性比對算法。主要內容包括如下幾個方面:
(1)介紹了生物信息學中一些最基本和最熱點的問題。初步對RNA二級結構相似性問題有個大概的了解,同時對現階段生物信息學的研究進展進行簡單的分析。
(2)提出一種新的RNA二級結構三維的圖形表示方法。
(3)根據定義的圖形表示的性質,提取了九維特征向量代表選取的RNA二級結構序列。然后將算法運用到RNA相似性分析上,同時進行進化樹分析,比較其相似性。
RNA二級結構是一組單堿基和堿基對通過氫鍵之間A-U,G-C的相互配對,相互作用形成一條RNA序列。根據RNA二級結構的特點,可以將一條RNA序列用堿基表示出來。圖1所示為本研究選取的九種病毒的RNA二級結構[5]。
以其中一條為例,表示方法如下:
ALMV:AUGCUC’A’U’G’C’A’AAACU’G’C’A’U’G’A’AUGC’C’C’CUAAG’G’G’AUGC
從5’開始,A表示5’端開始,U為第二個堿基,依次類推,U’表示配對的堿基。根據這種規則可以得到一條用字母表示的RNA二級結構序列[6]。
RNA序列片段用這種方式表示后,選擇三種表示方法將每一個堿基放在三維結構里進行定義,將每個堿基給予它一個點坐標。

圖1 九種病毒的RNA二級結構 Fig.1 RNA secondary structures of 9 viruses
根據以往Qi等[7]所提出的DNA序列三維圖形表示,也相類似的進行RNA序列三維圖形表示:將A,A’, C,C’, G,G’, U,U’分別置于+X軸、-X軸、+Y軸和-Y軸上,而特征曲線也是沿著+Z軸延伸。因此,依照以上分類方法,每條RNA序列都會得到三種不同的表示形式,用數學形式表示如下:設Y=y1y2...yn為任意的RNA序列,則存在三個映射fj,j=1,2,3,fj(Y)=fj(y1)fj(y2)…fj(yn).因此:
(1)
(ⅱ
(2)
(ⅲ
(3)
按照以上映射原則應用數學軟件所畫出的ALMV三維圖(見圖2).

圖2 RNA二級結構三維表示圖(以ALMV的子結構為例)Fig.2 3-D graphical representation of RNA secondary structures (Substructure of ALMV.)
將RNA二級結構圖形表示結束以后,進行相似性比較。通過上述方法得到這些點坐標之后,下一步,將計算這些點之間的距離。同時,當在計算各點之間的距離時也選取了三種方法,分別是:E矩陣,M/M矩陣和L/L矩陣[8]。計算方法如下:
(1)E矩陣:E中的元素eij即為曲線中的點i與點j之間的歐氏距離。
(4)
(2)M/M矩陣:其中(i,j)元由曲線上兩個基對應點的歐式距離與它們之間存在的圖論距離之比(即|i-j|)得到。
(5)
(3)L/L矩陣:其中(i,j)元由曲線上兩個基對應點的歐式距離與兩點之間的距離總和之比得到。
(6)
通過這三種方法,會得到三個最大特征值。因為開始進行RNA序列表示時就選取了三種表示方法,此時又選取了三種計算點之間距離的方法,所以,此刻會得到九個距離矩陣,因此就會有九個距離矩陣的最大特征值。
其中一個計算結果如下:
ALMV:E矩陣向量(533.4072,533.5630,533.2587)
M/M矩陣向量(40.2139,40.5043,40.2078)
L/L矩陣向量(9.9845,8.6573,9.9938)
之后,將這些最大特征值組成一個向量,計算各向量間距離。向量之間的相似性,通過向量間的歐式距離進行計算,很明顯,距離值越小,RNA二級結構序列的相似性就越高。計算結果見表1。

表1 E矩陣的上三角矩陣Table 1 Upper triangular matrix of E matrix
根據以上的結果,如果兩條序列片段距離越小則越相似。最小距離法是在最小進化原理的基礎上,構造一個距離矩陣來表示物種之間的進化距離。然后,通過這個距離矩陣,采用有效的方法將物種進行分類。然后進行系統進化樹的構建,觀察結果是否一致。在構建系統進化樹時選取的是Neighbor-Joining方法。綜上所述得出以下的結果,利用Phylip及MEGA軟件描繪出系統進化樹。三種方法得到三棵進化樹如圖3所示。
通過以上得到的三棵系統進化樹之后,發現這三棵進化樹并不完全一致,因此,有必要從這三棵進化樹中提取它們的公共部分,也就是構建這三棵系統進化樹的最大一致樹(見圖4),這樣能綜合三種圖形表示方法的信息。Jansson等[9-10]在這方面開發出了很多算法,在這里應用多數一致樹(Majority consensus tree)建立最大一致樹。
從這個系統進化樹的圖形表示中可以很清晰地看出,LRMV與AVII距離最近,說明這2種病毒RNA二級結構最為相似;同理,AVII與CVV相似性次之,等等。反之,APMV與ALMV的距離最遠,則這兩條序列相似性最弱。由此可見這九種病毒RNA二級結構的相似性程度。所采用的方法更為簡便且直觀。且與以往Liao等[11-12]的研究成果相似。文獻[11-12]的研究結果表明:AVII,LRMV,EMV是最為相似的;同時,APMV,PDV與其他RNA二級結構之間是存在差異性的。由此可見,這一結果與本研究所得到的結果是相類似的。

圖3 根據進化距離所構建的系統進化樹Fig.3 Phylogenetic trees constructed according to the distance

圖4 根據三棵系統進化樹構建的最大一致樹Fig.4 Maximum agreement tree is constructed by the three phylogenetic trees
對RNA二級結構與功能地研究是如今生物信息學一個十分重要的研究課題,但是對RNA結構相似性的預測分析仍然是很困難的。隨著RNA結構相似性預測方法的日益發展,RNA數據庫的不斷增多,RNA結構預測的軟件也日益增多。本文提出了一種新的RNA二級結構的圖形表示方法。重點介紹了圖形表示的構造,系統進化樹的構建方法以及RNA二級結構序列間相似性的比較。根據所選取的圖形表示方法,可以得到關于距離的特征值。隨后,在這些距離特征值的基礎上再利用預測軟件構建系統進化樹,基于這種方法,成功地提取了RNA二級結構相似性的一些基本信息。可見所選取的這種方法是可行的。
References)
[1]LIAO B, CHEN W, SUN X, et al. A binary coding method of RNA secondary structure and its application[J]. Journal of Computational Chemistry, 2009, 30(14):2205-2212.DOI: 10.1002/jcc.21227.
[2]ZHANG Y, HUANG H, DONG X, et al. A dynamic 3D graphical representation for RNA structure analysis and its application in non-coding RNA classification[J]. Plos One, 2016, 11(5):e0152238.DOI: 10.1371/journal.pone.0152238.
[3]CAO Z, LIAO B, LI R, et al. RNA secondary structure alignment based on an extended binary coding method[J]. International Journal of Quantum Chemistry,2011,111(5):978-982.DOI: 10.1002/qua.22464.
[4]YAO Y, NAN X, WANG T. A class of 2D graphical representations of RNA secondary structures and the analysis of similarity based on them[J]. Journal of Computational Chemistry, 2005, 26(13):1339-1346.DOI: 10.1002/jcc.20271.
[5]LI Ying, DUAN Ming, LIANG Yanchun.Multi-scale RNA comparison based on RNA triple vector curve representation[J]. BMC Bioinformatics, 2012,13(1):280.DOI:10.1186/1471-2105-13-280.
[6]LIU Liwei, WANG Tianming. On 3D graphical representation of RNA secondary structures and their applications[J]. Journal of Mathematical Chemistry, 2007, 42(3):595-602.DOI: 10.1007/s10910-006-9135-4.
[7]QI Zhaohui, FAN Tongrang. PN-curve: A 3D graphical representation of DNA sequences and their numerical characterization[J]. Chemical Physics Letters, 2007, 442(4-6):434-440.DOI:10.1016/j.cplett.2007.06.029.
[8]袁春欣. 核酸序列的圖形表示理論及應用[D]. 大連:大連理工大學, 2007.
YUAN Chunxin.Theory and application of graphical representation of nucleic acid sequences[D]. Dalian:Dalian University of Technology,2007.
[9]JANSSON J , SHEN C, SUNG W. Improved algorithms for constructing consensus trees[J]. Journal of the ACM, 2013, 63(3):1800-1813.
[10]JANSSON J, SHEN C, SUNG W. Algorithms for the majority rule (+) consensus tree and the frequency difference consensus tree[J]. Algorithms in Bioinformatics. Springer Berlin Heidelberg, 2013(8126):141-155.DOI:10.1007/978-3-642-40453-5_12.
[11]LIAO B, WANG T M. A 3D graphical representation of RNA secondary structures[J]. Journal of Biomolecular Structure & Dynamics, 2004, 21(6):827-32.DOI: 10.1080/07391102.2004.10506972.
[12]LIAO B, WANG T , DING K. On a six-dimensional representation of RNA secondary structures[J]. Journal of Biomolecular Structure & Dynamics, 2005, 22(4):1063-1071.DOI:10.1080/08927020500371332.
A new 3-D graphical representation of RNA secondary structure and its application
LIU Liwei*,LIU Tiehui
(Dalianjiaotonguniversityschoolofscience,DalianLiaoning116028,China)
Recently, we propose a new 3D graphical representation of RNA secondary structures. Based on this graph representation, we will construct the phylogenetic tree of the 9 viruses, and compare and analyze the similarity between the RNA secondary structures.According to the final results, we clearly find that Pair AVII and LRMV are the most similar。In addition, the larger distance values appear in the APMV and ALMV, PDV and AVII, indicating that these RNA secondary structure sequence has obvious difference. The results of this study are very similar to previous published results one. At the same time,the used method is more simple and easy to identify what we see, while the results is very reliable. Therefore, these results demonstrate the effectivity of our methed.
RNA secondary structure;Graphical representation;Phylogenetic trees;Similarity
2016-08-13;
2016-09-25.
遼寧省教育廳科學研究一般項目(No.L 2015093)。
10.3969/j.issn.1672-5565.2017.01.201608001
Q522
A
1672-5565(2017)01-055-04
*通信作者:劉立偉,男,副教授,研究方向:計算數學;E-mail:liutree80@163.com.