周立前,李瑞,溫在義
(1.湖南工業大學計算機與通信學院,湖南株洲412007;2.湖南工業大學理學院,湖南株洲412007)
基于堿基間隔距離模型的多瘤病毒系統發育關系分析
周立前1,李瑞1,溫在義2
(1.湖南工業大學計算機與通信學院,湖南株洲412007;2.湖南工業大學理學院,湖南株洲412007)
DNA序列的堿基間隔距離分析方法可以對完全基因組序列進行較好地分析,但是對短基因序列分析的效果不佳。因此,在堿基間隔距離的基礎上,提出了一種改進的DNA序列堿基間隔距離模型,并結合歐式距離,構建了70種多瘤病毒基因組的系統發育樹。通過將所得系統發育樹的拓撲結構與已有文獻中的結果進行對比與分析,發現所獲得的結果同傳統方法計算的結果基本一致,驗證了所提方法的有效性。
完全基因組;堿基間隔距離;歐氏距離;系統發育樹
基因組系統發育分析是生物信息學中基因組數據處理的一個重要方面。通過對基因組系統發育的分析,可以得出物種之間的親緣關系與進化歷程。系統發育分析方法很多,一般根據對堿基序列轉換為數值序列方式的不同而將其分為序列比對方法和非序列比對方法。傳統的序列比對方法主要有:基因序列重排方法[1]、編碼蛋白的出現與不出現方法[2]、基因組分與完全相似性方法[3],折疊的出現與直系同源基因方法[4]等。但是隨著完全基因組數據的使用,這些序列比對方法對于大批量數據的比對不再適用[5-6],其空間和時間復雜度一直沒能達到令人滿意的效果。因此,生物信息學專家們致力于非序列比對方面的研究,提出許多作為補充系統發育樹構建方法的新方法,如信息論方法[7-8]、主成分分析方法[9]、奇異值分解方法[5-6]、馬爾科夫模型方法[10-11]、分型方法[12-15]、動力學語言方法[16-17]等。
2005年,印度學者A.S. S. Nair等人基于序列中堿基的位置分布情況,提出了一種新的DNA序列數值化表示方法。該方法將DNA序列轉換成一個與原序列等長的數字序列,數字序列中,每個數字表示兩個相同的相鄰堿基的位置差,這種位置差稱為堿基間隔距離,因此,數值序列也稱為堿基間隔距離序列[18]。同時,他們通過傅里葉變換對堿基間隔序列進行了分析,得到了堿基間隔距離序列能很好地識別基因組序列中啟動子區域的結論。然而,M. Akhtar等人于2008年證實,采用堿基間隔距離序列分析序列外顯子時,其精確度并不高[19]。2009年,葡萄牙學者V. Afreixo等人對堿基間隔距離序列提出了一種新的分析方法,他們認為堿基間隔服從幾何分布,通過計算幾何分布的理論值與實際值的相對誤差向量,可以獲取DNA序列的生物信息,并且構建系統發育樹[20]。這種方法沒有采用多重比對算法,可以方便地進行全基因組計算。2011年,V. Afreixo等人又提出了以連續核苷酸距離描述DNA序列的方法[21],即通過計算連續核苷酸的長度,構建出一個與原序列等長的數字序列,然后結合堿基間隔距離序列,對DNA序列進行數值化分析。但試驗證實,V. Afreixo等提出的方法[20-21]只適用于對較長全基因組序列進行分析計算,而對于短基因組序列,如病毒序列等,則無法正確表示。
多瘤病毒(polyomavirus)是一種無包膜的雙鏈DNA病毒,這類病毒會引發腫瘤,其中有些種類會感染人的呼吸系統,它們廣泛地分布在脊椎動物中。多瘤病毒的系統發育分析是了解、分析多瘤病毒間的親緣與進化關系的一種重要方式。通過對多瘤病毒親緣關系的了解,不僅有助于多瘤病毒引發疾病的治療,而且對疫苗藥物的研制也有著重要的指導作用;同時,對于新的未知病毒性疾病的分析也有著重要的參考價值[22]。
本文通過對堿基間隔距離的進一步分析研究,提出了一種改進的堿基間隔距離分析方法。即通過統計相鄰的同堿基間其余3種堿基的分布,以更好地描述基因組序列,該法可包含更多DNA序列的生物信息。同時,使用此方法并結合歐式距離方法,構建了70種多瘤病毒完全基因組的系統發育樹,通過對比所獲結果與已知系統發育關系判斷所提方法的有效性,以期通過這種新方法的嘗試為分析和處理分類與進化問題提供一種新工具。
2.1 基因組數據集
M. Pé rez-Losada等人[22]用極大似然法與貝葉斯方法分析了72種多瘤病毒的進化關系,這些病毒包括9類哺乳動物病毒(共67種鏈)和2類鳥類病毒(共5種鏈)。因其中有2種病毒(NC_001536和K02737)現無法從GenBank中找到,所以本文主要分析余下的70種多瘤病毒基因組的系統發育關系,基因組的數據集與文獻[22]一致,數據來源于NCBI(National Center of Biotechnology Information)數據庫(http:// www.ncbi.nlm.nih.gov/nuccore),其具體名稱見圖1。
2.2方法
2.2.1 DNA序列的間隔數值表示
DNA序列的堿基間隔距離由DNA序列中鄰近相同堿基的位置差構成。設由A, C, G, T堿基組成的集合為R, S=S1, S2, …, SN是長度為N的一條DNA序列。設dx是堿基x(x∈R)的間隔距離序列,若k是滿足條件Sm=Sm+k和m+k≤N的最小值,則dx(m)=k;否則dx(m)=N-m(m為堿基x所在DNA序列中的位置,N為DNA序列長度)。例如,對于一條短DNA序列ACACGTCTTGATACG:

式中,dA, dC, dG, dT分別表示堿基A, C,G, T的間隔序列。由DNA序列可知,第1個堿基A的位置為1,第2個堿基A的位置為3,第3個堿基A的位置為11,第4個堿基A的位置為13。所以在dA序列中,第1個間隔值為2,第2個間隔值為8,第3個間隔值為2,最后一個間隔值為位置與序列長度之差,為2。同樣,可以計算得到其余3個堿基(C,G,T)的堿基間隔序列。如果將4種堿基的間隔距離序列按每個堿基的具體位置組合到一起,可以得到與原序列對應等長度的堿基間隔距離序列d:

根據堿基集合R的順序依次恢復,每組堿基間隔序列依次按照間隔距離恢復,最后一個距離作為驗證,具體過程如下:

以上結果表明,采用堿基間隔距離表示DNA序列的數值方法,沒有丟失DNA字符序列的生物信息,可以用作DNA序列的計算。
2.2.2 DNA序列的堿基間隔距離模型
V. Afreixo等人[20]研究了堿基間隔序列的幾何分布特征,認為堿基間隔距離符合幾何分布中的n重伯努利實驗模型,堿基是獨立同分布的隨機變量。通過計算不同間隔距離K的理論值與實際觀測值的相對誤差,構建一組1~Kmax長度的序列,用于描述DNA序列特性。該方法對于堿基平均間隔距離大于20的DNA序列,可以較好地進行描述,但當DNA序列的堿基平均間隔距離小于10時(如細小病毒全基因序列),由于包含的信息較少,不能很好地描述。
通過對DNA序列的間隔數值表示研究,統計間隔距離間其余3種堿基的分布,可以更好地描述序列的生物學特性,特別是對于長度相對較短的基因序列。基于相同堿基間其余3種堿基的分布,此處提出一種新的堿基間隔序列模型。對于不同間隔長度K,其間3種堿基存在N=3K-1種可能的組合,將每一種組合數值化,定義R集合中A,C,G,T堿基對應的值分別為{1, 2, 3, 4},則每一種分布模式的各堿基數值之和為,因此,各分布的觀察頻率可以定義為:

上式表明,觀察頻率p是一種分布模式的值占所有分布模式值的比例。由于DNA序列編碼區由多段序列組成,此處用m表示每個完全基因組中編碼序列的個數。因此,整個DNA編碼區序列K距離的觀察頻率定義為:


依次計算堿基的間隔距離序列如dA中不同長度距離K(K>2)的組合向量,并按順序拼接起來,得到組合向量。將4個堿基對應的組合向量QX按字母順序依次排列,即可得到新的描述模型向量,即。
2.2.3 歐氏距離
歐氏距離是系統發育分析中的常用距離。設兩個基因組A和B的所得向量分別為

則兩個向量的歐氏距離定義為:

結合堿基間隔距離序列模型與歐氏距離計算方法,分別計算完全基因組DNA序列與編碼DNA序列物種間的距離,可獲得距離矩陣,然后運用Splits Tree V4.0中的NJ(neighbor-joining)方法[23]構建系統發育樹。
結合堿基間隔距離模型與歐氏距離,計算了70種多瘤病毒完全的編碼DNA序列。70種多瘤病毒編碼DNA序列的平均長度為5 000 bp,平均堿基間隔距離為3.9,具體的堿基分布情況如表1所示。

表170 種多瘤病毒的編碼DNA序列平均堿基間隔距離出現的頻率分布Table 1Frequency distribution of the inter-nucleotide distances of 70 polyomavirus coding DNA sequences
由于多瘤病毒序列的長度較短,堿基間隔距離大于10出現的頻率均小于1%,故不再統計,僅計算堿基間隔距離模型K取值為2~9的所有系統發育樹。通過將所得系統發育樹與文獻[22]中的樹進行對比,發現當最大距離K=7時的樹是最好的,其拓撲結構與文獻[22]中的樹基本相同,如圖1所示。

圖1 基于堿基間隔距離模型結合歐氏距離方法構建的70種多瘤病毒系統發育樹Fig.1The phylogenetic tree of 70 polyomavirus based on the inter-nucleotide distance model combining with Euclidean distance method
由圖1所示的系統發育樹可見,本實驗的70種多瘤病毒大體可分為兩類:哺乳類和鳥類多瘤病毒。4種鳥類多瘤病毒(avian polyv,APV)鏈聚集在一個分枝,鵝出血性多瘤病毒(goose hemorrhagic polyoma virus,GHPV)靠近這個分枝,而APV和GHPV與其它的哺乳動物多瘤病毒是分開的。換言之,所得樹中鳥類多瘤病毒(包括APV與GHPV)與哺乳動物多瘤病毒分離的現象,支持文獻[22]中多瘤病毒類分為兩個子類的觀點。這種分離與每個生物群體的不同濾過性病毒生命策略有關。在哺乳動物多瘤病毒類,老鼠多瘤病毒(mouse parvovirus,MPV)、猿猴病毒 40(simian virus 40,SV40)、BK 病毒(BK virus,BKV)、JC 病毒(JC virus,JCV)分別聚集在所期望的不同分枝上。牛乳頭病毒(bovine polyoma virus,BPV)、倉鼠多瘤病毒(hamster papovavirus,HaPV)、鼠科親肺多瘤病毒(murine pncumotropic,MPtV)和非洲綠猴多瘤病毒(African Green monkey polyomavirus,LPV)4種多瘤病毒相鄰,其結構與文獻[22]和文獻[17]中的有些不一致,說明這4種病毒的親緣關系不太確定,但又有相近的親緣關系。BKV鏈聚成一個分枝,此分枝與 SA12組合形成一個有親緣關系的大分枝;同時,這個大分枝與JCV分枝組合在一起,形成一個有親緣關系的更大分枝:這也與文獻[22]和文獻[17]中的結果一致。
從以上分析可以看出,所得結果基本上能反映多瘤病毒和它們的宿主之間存在一些系統發育的共同關系。
在本研究中,運用基于堿基間隔距離模型的方法,并結合歐氏距離方法對多瘤病毒序列進行建模處理,構建并分析了70種多瘤病毒的系統發育樹,通過與已有文獻結果對比,可知所得樹的拓撲結構與當前已知的用傳統方法計算的樹的結構基本一致,從而進一步驗證了以前方法的可靠性。
對70種多瘤病毒進行系統發育關系分析,既可以根據多瘤病毒的特點預測出一些新的多瘤病毒,也能夠更全面地學習多瘤病毒的進化關系。所構建的方法通過構建簡單的數學模型實現,與V. Afreixo等人[20]所提出的堿基間隔距離模型方法相比,本文所提方法可以處理長度較短的生物序列,能較好地建立短堿基序列的數學模型;與傳統的序列比對方法相比,其思路更簡單直接,速度更快。且所提方法不需要復雜的去噪步驟,結果顯示,堿基間隔距離模型方法能實現這種功能。
可見,通過這種新方法的嘗試,能提供一個分析和處理分類與進化問題的新工具。
[1]Sankoff D, Leaduc G, Antoine N, et al. Gene Order Comparisons for Phylogenetic Inference:Evolution of the Mitochondrial Genome[J]. Proceedings of the National Academy of Sciences,1992,89(14):6575-6579.
[2]Gibbon S T F, House C H. Whole Genome-Based Phylogenetic Analysis of Free-Living Microorganisms[J]. Nucleic Acids Research,1999,27(21):4218-4222.
[3]Tekaia F,Lazcano A,Dujon B. The Genome Tree as Revealed from Whole Proteome Comparisons[J]. Genome Research,1999,9(6):550-557.
[4]Lin J, Gerstein M. Whole Genome Tree Based on the Occurrence of Folds and Orthologs:Implications for Comparing Genomes at Different Levels[J]. Genome Research,2000,10(6): 808-818.
[5]Stuart G W, Moffet K, Baker S. Integrated Gene Species Phylogenies from Unaligned Whole Genome Protein Sequences[J]. Bioinformatics,2002,18(1):100-108.
[6]Stuart G W, Moffett K, Leader J J. A Comprehensive Vertebrate Phylogeny Using Vector Representations of Protein Sequences from Whole Genomes[J]. Molecular Biology and Evolution,2002,19(4):554-562.
[7]Li Ming, Badgeb J H, Chen Xin, et al. An Information-Based Sequence Distance and Its Application to Whole Mitochondrial Genome Phylogeny[J]. Bioinformatics,2001,17(2):149-154.
[8]Yu Zuguo,Jiang Po. Distance, Correlation and Mutual Information Among Portraits of Organisms Based on Complete Genomes[J]. Physics Letters A,2001,286(1):34-46.
[9]Edwards S V,Fertil B,Giron A,et al. A Genomic Schism in Birds Revealed by Phylogenetic Analysis of DNA Strings [J]. Systems Biology,2002,51(4):599-613.
[10]Qi Ji, Luo Hong,Hao Bailin. CVTree:A Phylogenetic-Tree Reconstruction Tool Based on Whole Genomes[J]. Nucleic Acids Research,2004,32(2):45-47.
[11]Qi Ji, Wang Bin, Hao Bailin. Whole Proteome Prokaryote Phylogeny Without Sequence Alignment:A K-String Composition Approach[J]. Journal Molecular Evolution,2004, 58(1):1-11.
[12]Yu Z G, Anh V, Lau K S. Multifractal and Correlation Analysis of Protein Sequences from Complete Genomes[J]. Physical Review E,2003,68(2):021913.
[13]Yu Z G, Anh V, Lau K S. Chaos Game Representation of Protein Sequences Based on the Detailed HP Model and Their Multifractal and Correlation Analyses[J]. Journal of Theoretical Biology,2004,226(3):341-348.
[14]Yu Z G,Anh V,Lau K S,et al. The Genomic Tree of Living Organisms Based on a Fractal Model[J]. Physics Letters A,2003,317(3):293-302.
[15]Chu K H, Qi J, Yu Z G, et al. Origin and Phylogeny of Chloroplasts:A Simple Correlation Analysis of Complete Genomes[J]. Molecular Biology and Evolution,2004,21 (1): 200-206
[16]Yu Z G,Zhou L Q,Anh V,et al. Phylogeny of Prokaryotes and Chloroplasts Revealed by a Simple Composition Approach on All Protein Sequences from Whole Genome Without Sequence Alignment[J]. Journal of Molecular Evolution,2005, 60(4):538-545.
[17]Yu Z G,Zhou L Q,Chu K H,et al. Phylogenetic Analysis of Polyomaviruses Based on Their Complete Genomes[C]// The 4th International Conference on Natural Computation. Jinan:Conference Publication,2008:80-84.
[18]Nair A S S, Mahalashmi T. Visualization of Genomic Data Using Inter-Nucleotide Distance Signals[C]//Processing of IEEE Genomic Signal Processing. Bucharest:Conference Publication, 2005:11-13.
[19]Akhtar M,Epps J,Ambikairajah E. Signal Processing in Sequence Analysis:Advances in Eukaryotic Gene Prediction[J]. IEEE Journal of Selected Topics in Signal Processing,2008,2(3):310-321.
[20]Afreixo V, Bastos C A C, Pinho A, et al. Genome Analysis with Inter-Nucleotide Distance[J]. Bioinformatics,2009,25(23): 3064-3070.
[21]Afreixo V, Bastos C A C, Pinho A, et al. Genome Analysis with Distance to the Nearest Dissimilar Nucleotide[J]. Journal of Theoretical Biology, 2011, 275(1):52-58.
[22]Pé rez-Losada M, Christensen R G, Mcclellan D A, et al. Comparing Phylogenetic Codivergence Between Polyomaviruses and Their Hosts[J]. Journal of Virology, 2006, 80 (12):5663-5669.
[23]Saitou N, Nei M. The Neighbor-Joining Method:a New Method for Reconstructing Phylogenetic Trees[J]. Molecular Biology and Evolution,1987,4(4):406-425.
(責任編輯:廖友媛)
The Phylogenetic Analysis of Polyomavirus Based on the Inter-Nucleotide Distance Model
Zhou Liqian1,Li Rui1,Wen Zaiyi2
(1. School of Computer and Communication, Hunan University of Technology, Zhuzhou Hunan 412007, China;2. School of Science, Hunan University of Technology, Zhuzhou Hunan 412007, China)
The DNA sequence inter-nucleotide distance analysis method can better analyze the complete genome sequence, but it is not ideal for short genome sequence. Therefore based on inter-nucleotide distance, proposes an improved DNA sequence inter-nucleotide distance model, and combined with Euclidean distance, constructs phylogenetic tree of 70 kinds of polyoma virus genome. Through the comparison of topological structure of the obtained phylogenetic tree with results in the existing literature, finds that the obtained results are basically the same with the results computed by traditional method, and verifies the effectiveness of the proposed method.
complete genomes; inter-nucleotide distances;Euclidean distance;phylogeny tree
Q19
A
1673-9833(2014)03-0094-05
10.3969/j.issn.1673-9833.2014.03.019
2014-02-12
湖南省自然科學基金資助項目(13JJ3109),湖南省教育廳基金資助重點項目(13A004)
周立前(1970-),男,湖南漣源人,湖南工業大學教授,博士,主要從事生物信息學方面的教學與研究,E-mail:zhoulq11@163.com