摘要:提取4個不同來源的煙草馬鈴薯Y病毒完整基因組的統(tǒng)計特征,并對它們進(jìn)行聚類分析。在煙草馬鈴薯Y病毒完整基因組的堿基序列上,用每個堿基及其隨后兩個堿基所構(gòu)成的三堿基組,排列成一個新的序列S,計算所有64種不同三堿基組在S上出現(xiàn)的概率,得到一個64維向量L;比較各個基因組的L向量,得到4個三堿基組(CAA、GAT、GTA、GAC),它們的概率有明顯的差異。這4個三堿基組的出現(xiàn)概率與煙草馬鈴薯Y病毒基因組的遺傳變異有著重要關(guān)聯(lián);4個不同來源的煙草馬鈴薯Y病毒完整基因組,按其遺傳變異結(jié)果,形成兩個大類。
關(guān)鍵詞:煙草馬鈴薯Y病毒;三堿基組;概率;K-M聚類;
中圖分類號:S435.72;Q78 文獻(xiàn)標(biāo)識碼:A 文章編號:0439-8114(2011)09-1821-02
The Statistical Characteristics of Potato Virus Y Complete Genome
YANG Shuo,LI Jian-xue
(Xiangcheng Tobacco Monopoly Bureau, Xiangyang 441000,Hubei,China)
Abstract: The statistical characteristics of the complete genome of 4 potato virus Y(PVY) with different resources were extracted and cluster analyzed. A new sequence S was arranged by the three-base groups composing every base and its following two bases in PVY complete genome. And then a 64-dimensional vector L was obtained by caculating the appearance probability of each of the 64 three-base-groups. 4-three-base-groups(CAA,GAT,GTA,GAC) whose appearance probability was great different was identified by comparingL vector of every genome. The appearance probability of these four three-base-groups has great ralations with genetic variation of PVY. And the 4 complete genome of PVY was clustered into two groups according to the result of genetic variation.
Key words: potato virus Y; three-base-groups; probability; K-M clustering
煙草馬鈴薯Y病毒(PVY)侵染煙草引起的病害,又稱作脈壞死病、褐脈病、黃斑壞死病等。系統(tǒng)分析和研究煙草馬鈴薯Y病毒基因組的統(tǒng)計特性、結(jié)構(gòu)特征和遺傳變異規(guī)律,進(jìn)而采用基因工程技術(shù)對煙草馬鈴薯Y病毒病進(jìn)行防治,是一個有重要理論意義和實用價值的課題。本文提取4個不同來源的煙草馬鈴薯Y病毒完整基因組的統(tǒng)計特征,并對它們進(jìn)行聚類分析。
1材料與方法
1.1材料
4個不同來源的煙草馬鈴薯Y病毒的完整基因組GenBank X12456.1(G1)、GenBank EF026074.1(G2)、GenBank FJ643477.1(G3)、GenBank FJ643478.1
(G4)來自NCBI數(shù)據(jù)庫[1];采用MATLAB 7.0軟件計算64種三堿基組出現(xiàn)的概率和K-M聚類分析。
1.2方法
在第i個煙草馬鈴薯Y病毒完整基因組的堿基序列上,用每個堿基及其隨后兩個堿基所構(gòu)成的三堿基組,排列成一個新的序列S;計算64種不同三堿基組在S上出現(xiàn)的概率,得到一個64維向量L;比較各個基因組的L向量,得到一些三堿基組,它們的概率有明顯的差異。
依照如下的規(guī)律,給三堿基組賦予數(shù)字代碼:
1.AAA;2.AAT;3.AAC;4.AAG;5.ATA;6.ATT;…;64.GGG。
最后,對4個不同來源的煙草馬鈴薯Y病毒完整基因組按照L向量進(jìn)行K-M聚類分析。
2結(jié)果與分析
2.1L向量和各L向量之間的差向量
L向量是一個概率值向量(64種不同三堿基組在基因組上出現(xiàn)的概率)。4個不同來源的煙草馬鈴薯Y病毒基因組的L向量分布如圖1所示,它們的差如圖2所示。通過圖1和圖2可以了解煙草馬鈴薯Y病毒基因組遺傳變異過程中最活躍的10個三堿基組(表1)及最保守的10個三堿基組(表2)。
大部分三堿基組在4種不同來源的煙草馬鈴薯Y病毒基因組上出現(xiàn)的概率差別不大,只有若干個三堿基組在基因組上出現(xiàn)的概率差別較大(表1和表2)。
2.2K-M聚類
對不同來源的煙草馬鈴薯Y病毒完整基因組,按照其L向量進(jìn)行K-M聚類分析,得到聚類樹狀圖(圖3)。由聚類樹狀圖可以看出各基因組的遺傳變異關(guān)系分為兩個大類。其中,4個不同來源的煙草馬鈴薯Y病毒完整基因組有著不同的演化路徑:G1、G2與G3、G4兩個演化路徑變異較大。
3小結(jié)
4個三堿基組(CAA-33號、GAT-50號、GTA-53號、GAC-51號)的出現(xiàn)概率與馬鈴薯Y病毒完整基因組的遺傳變異有著重要關(guān)聯(lián);5個三堿基組(AAT-2號、ACA-9號、CAT-34號、CGC-47號、GGC-63號)是較為保守的三堿基組;4個不同來源的煙草馬鈴薯Y病毒完整基因組,按其遺傳變異結(jié)果,分為兩個大類。本文的研究方法普遍適用于各種煙草病毒基因組序列的分析[2-4]。在遺傳變異過程中,最活躍的三堿基組(CAA、GAT、GTA、GAC)的物理、化學(xué)和生物學(xué)效應(yīng)的研究,是一個有意義的課題;而最保守的三堿基組(AAT、ACA、CAT、CGC、GGC)在基因組上的功能,與這一物種的本質(zhì)特性有著重要的關(guān)聯(lián)。在實驗室對最活躍和最保守的三堿基組進(jìn)行相關(guān)試驗,可以獲得遺傳變異的某些效應(yīng)。
參考文獻(xiàn):
[1] ALLISON R F,DOUGHERTY W G,PARKS T D, et al. Tobacco etch uirus, complete genome[EB/OL]. http://www.ncbi.nlm.nih.gov/nuccore/NC_001555.
[2] 蘭平秀,程建勇,李凡,等. 煙草扭脈病毒部分基因組特征及其分類地位分析[J]. 農(nóng)業(yè)生物技術(shù)學(xué)報,2008,16(1):177-178.
[3] 郭興啟, 溫孚江, 宋云枝,等. 翻譯和非翻譯馬鈴薯Y病毒外殼蛋白基因介導(dǎo)的抗病性比較[J]. 病毒學(xué)報,2001,17(4):360-367.
[4] 楊紀(jì)青, 楊碩, 楊莉, 等. Tomato leaf curl Bangladesh病毒完整基因組上微衛(wèi)星分布[J].中國農(nóng)學(xué)通報,2010,26(24):20-27.