摘要:為了提取并展示NCBI數據庫中煙草叢頂病毒完整基因組(NC-004366.1)上微衛星分布特性,采用MATLAB軟件和最優完全子圖算法自編了計算機程序進行。結果表明,煙草叢頂病毒完整基因組上n-堿基組(n=1~6)最大的重復出現次數隨n增加而按指數函數減少。
關鍵詞:煙草叢頂病毒;完整基因組;微衛星;分布特性;最優完全子圖算法
中圖分類號:S572;Q522+.6文獻標識碼:A文章編號:0439-8114(2011)03-0603-03
The Microsatellite Distribution in the Complete Genomes of the
Tobacco Bushy Top Virus
YANG Ji-qing,YUAN Lei,CHEN Hong-ping
(Department of Computer Science of Xiangfan University,Xiangyang 441053,Hubei,China)
Abstract: To extract and display the distribution of microsatellite in the complete genome of the tobacco bushy top virus, a computer program based on MATLAB software and optimal complete subgraph were written and performed. The repetitions number and the location of the n -base(n=1~6) group has been extracted and displayed; and the law of exponential distribution has been simulated, which was the largest repeat number of microsatellite reduced exponentially as n increased. Our approach is effective and can apply a variety of viruses.
Key words: tobacco bushy top virus; complete genomes; microsatellite; characteristic of distribution; optimal complete subgraph
微衛星是基因組上由1~6個核苷酸為單位組成的重復排列。微衛星具有普遍的多態性,是進行群體遺傳變異分析、物種起源與進化研究、基因定型、指紋鑒定、法醫科學、動植物育種等的較好的遺傳標記而受到廣泛關注。分析微衛星在基因組上的含量、分布及其相關信息,可提高微衛星應用的預見性。由于微衛星重復序列在群體間和不同個體間通常表現出很高的序列變異性,并且這些變異呈現共選性遺傳,因而微衛星重復序列廣泛應用于遺傳多樣性分析、連鎖圖譜制作、疾病連鎖分析、家系標識等方面。重復序列一方面能夠保護編碼序列相對穩定而免受破壞,另一方面是產生進化的動力,有利于形成新的基因,它是遺傳物質進化的活化石,從重復序列的大量分布,可以大致得出遺傳物質的進化途徑。微衛星在完整基因組上的分布特性,是生物信息學的基本課題之一[1]。本文是作者利用自編程序針對煙草叢頂病毒完整基因組在這方面的系列工作的結果之一。
1材料與數據
煙草叢頂病毒完整基因組(NC-004366.1)來自NCBI數據庫[2]。
2方法與工具
采用MATLAB軟件進行基因組序列的矩陣變換,運用多元統計分析法進行矩陣元素統計計算[3],借助最優完全子圖算法篩選最優的重復n-堿基組訪問路徑[4],編制了適用于多種完整基因組序列的微衛星分布分析的計算機程序,從而對煙草叢頂病毒完整基因組序列上微衛星的分布特性進行了分析。
煙草叢頂病毒完整基因組(NC-004366.1)堿基序列L=A G G T T A C G A T……每一個堿基在L上的位置由它的序號確定,例如,序列上第一個堿基A的位置由它在L上的序號1確定,第二個堿基G的位置由它在L上的序號2確定,依此類推。定義與L相應的n-堿基組(n=1~6)序列,例如3-堿基組序列M=AGG GGT GTT TTA TAC ACG CGA GAT……每一個3-堿基組在M上的位置由它的首位堿基的序號確定,3-堿基組序列上第一個3-堿基組AGG的位置由它在M上的A的序號確定,第二個3-堿基組GGT的位置由它在M上的G的序號確定;依此類推。
n-堿基組共有4n個不同形式,例如3-堿基組有AAA、AAT、AAC、AAG、ATA、ATT、ATC、ATG、ACA、ACT、ACC、ACG、AGA、AGT……共43個不同形式。為了方便計算機統計各n-堿基組(n=1~6)的重復次數及相關規律,用數字代號定義各n-堿基組(n=1~6)。例如對每一個3-堿基組的數字代號由下式定義:M(i)=16[L(i)-1]+4[L(i+1)-1]+[L(i+2)-1]+1,式中i=1,2,3……。
其中,i表示L基因組上某堿基的序號,L(i)表示L序列上第i個堿基,M(i)表示M序列上第i個3-堿基組;數字代號1定義堿基A,2定義堿基T,3定義堿基C,4定義堿基G。這樣定義n-堿基組及其數字代號,避免了由于完整基因組序列上個別堿基的變化而導致n-堿基組序列上n-堿基組分布的巨大變化。
3結果
3.1計算機運行結果
完整、細致地得到了每一個n-堿基組(n=1~6)在完整基因組序列上出現的位置(堿基序號)和重復次數。其中圖1~5是1~5堿基組在完整基因組序列上出現的位置(堿基序號)和重復次數,圖6、7分別是3-堿基組第18種3-堿基組(TAT)和第38種3-堿基組(CTT)在完整基因組序列上出現的位置(堿基序號)和重復次數。
3.2n-堿基組(n=1~6)在基因組上最大重復次數的模型模擬
對各n-堿基組(n=1~6)在基因組上最大重復次數進行數學模型模擬(見表1和圖8),得到n-堿基組在基因組上最大重復次數的數學模型模擬表達式為:P=3 978exp(-1.2n),式中n=1~6。
4結論
1)煙草叢頂病毒完整基因組(NC-004366.1)上各種n-堿基組(n=1~6)最大的重復出現次數,隨n增加而按指數函數減少,具體函數表達式為:P=
3 978exp(-1.2n),式中n=1~6。
2)本文采用的分析方法可以系統地運用到其他病毒完整基因組序列微衛星分布特性的提取和展示,從而為有效利用微衛星分布特性研究完整基因組的結構和功能、遺傳和變異規律提供完備、細致的數據支撐。
參考文獻:
[1] 高煥,孔杰. 串連重復序列的物種差異及其生物功能[J]. 動物學研究,2005,26(5):555-564.
[2] NCBI. Tobacco bushy top virus,complete genome[DB/OL]. http://www.ncbi.nlm.nih.gov/nuccore/NC_004366,2009-11-30.
[3] 王斌會. 多元統計分析[M]. 廣州:暨南大學出版社,2006.
[4] 李念祖. 關于中國郵遞員問題的最優完全子圖算法[J]. 上海師范大學學報,2006,35(4):26-28.