999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

AMI方法對HIV病毒分類

2015-03-27 12:26:52劉旻昊
山東青年 2015年1期

劉旻昊

摘要:在生物的基因序列中,蘊含了其所有的特點和規律,是大自然隱藏在生物千變萬化形態下的“密碼”。在本文中我們選取21種HIV病毒基因數據,應用基于非序列比對的平均互信息方法提取出它們的序列特征,結合相關系數和離差平方和方法(Ward法)對其進行分類。此種分類方法有別于傳統的序列對比方式,運算簡單,速度快捷且得到了合理的分類結果。

關鍵詞:平均互信息;基因組;離差平方和方法

引言

在醫學領域,從DNA分子水平來研究疾病的起因發展與分類,解讀病毒基因的“密碼”,正日益引起分子生物學者、數學、計算機以及信息網絡科學研究人員的重視。如何分析這些DNA序列數據,提取出能夠量化的“信息”來描述它們之間的聯系,是當前研究的熱門問題。HIV病毒在進化過程中形成了三種亞型分類,目前對這種進化分類常用的方法有最大簡約法、距離矩陣法和最大似然法等。相應的也有一系列軟件,如:PHYLIP、PAUP和MEGA等。通常在應用這些方法之前,都要對序列進行比對(sequence alignment),常用的軟件有CLUSTRALW等。

本文提取不同DNA序列的平均互信息(Average Mutual Information,AMI)[2]作為特征參數,構造AMI向量,通過AMI向量的相關系數定義不同DNA序列之間的距離,利用離差平方和法對距離矩陣進行聚類分析,從而得到他們的進化關系。此種方法是非序列比對方法,計算簡單且速度較快,對大量數據的處理非常方便,在醫學領域中有著廣泛的應用。

1.理論與方法

1.1平均互信息(AMI)

DNA序列是4種核苷酸A、C、G、T的集合,如果x代表在基因序列上某一位置的核苷酸,則y為在x下游方向間隔k個位置的核苷酸。n\-k(x,y)表示核苷酸x其下游間隔k個位置為y的組合的個數,這樣就P\-k(x,y)表示核苷酸x其下游間隔k個位置為y的條件概率。p(x)和p(y)分別是基因序列中核苷酸x和y的概率。

當選取k=0時,就表示了緊鄰二聯體核苷酸的關聯程度,k=1時表示次緊鄰二聯體核苷酸的關聯程度。[3]i\-k就是基因序列的平均互信息(AMI),不同的k值對應不同的i\-k,對于每一基因組,我們都能夠得到一組數據i\-0,i\-1,…,i\-k,從而構成向量I=

(i\-0,i\-1,…,i\-k),不同的基因序列,可以得到不同的向量I,J,L。

1.2 相關系數

在本文中我們使用的是線性相關系數,它反了映兩個數據集之間的線性相關程度。若相關系數為,表示兩個數據集之間呈現完美的正線性相關;若相關系數為,則表示量數據集之間是負線性相關;若相關系數為0,則表示兩組數據集之間沒有線性相關性。

1.3 聚類分析

我們通過計算不同物種兩兩之間的AMI距離,可以得到不同物種之間的距離從而得到一個距離矩陣。對于這個矩陣,本文選用離差平方和方法進行聚類。

2.基因數據與結果討論

2.1 基因數據:21種HIV 數據

21種HIV病毒基因分為三種亞型,用a、b、c分別表示,每種又各有七種,數據來自NCBI(http://www.ncbi.nlm.nih.gov)。這21種HIV數據,長度比較一致,都在10000個核苷酸上下。

2.2 數據計算

對于這21種HIV病毒,首先提取各自序列的AMI向量,每種病毒得到一個向量 。對于參數k的選取,我們選取了10、50、100、200、300、400、500、600、700等多個值,綜合各向量之間的距離和聚類分析的結果來看,k取500是比較合適的,k過小會丟失基因組的一些關聯信息,k過大對結果沒有什么影響,這樣AMI向量共有501個分量。對于這21個向量計算兩兩之間的相關系數,從而組成一個距離矩陣。我們將這個距離矩陣輸入R軟件,使用離差平方和法進行聚類分析,得到分類結果如圖1所示:

3.結果分析

在Mark等人[4]的文章中,也對這組數據做了分析,Mark等使用UPGMA tree、2維和3維圖等方法對這組數據做了分析,將這21種HIV病毒分成了三類。在本文中我們使用R軟件,應用離差平方和法更為簡單方便,計算速度更快,由圖1可以看出同樣對這21種HIV病毒做了很好的區分,將其分為a、b、c三類,達到完全區分的目的。

[參考文獻]

孫嘯,陸祖宏,謝建明.生物信息學基礎[M].北京:清華大學出版社,2005:238-239.

[2] Mark Bauer,Sheldon M Schuster and Khalid Sayood.The Average Mutual Information Profile as a Genomic Signature[J].BMC Bioinformatics 2008,9:48 doi:10.1186/1471-2105-9-48.

[3] 羅遼復.生命進化的物理觀[M].上海:上海科學技術出版社,2000,168-183.

[4] Ouyang Z,Zhu H,Wang J,et al.Multivariate entropy distance method for p rokaryotic gene identification [J]. J Bioinform ComputBiol, 2004,2(2):353-73.

(作者單位:武警山東省總隊訓練基地,山東 濟南 250000)endprint

主站蜘蛛池模板: 成人免费视频一区| 亚洲日本在线免费观看| 国产尹人香蕉综合在线电影 | 五月天婷婷网亚洲综合在线| 1级黄色毛片| 日韩a在线观看免费观看| 天天综合网色| 99精品一区二区免费视频| 激情网址在线观看| 91视频区| 亚洲欧美在线综合图区| 国产女人爽到高潮的免费视频| 一级香蕉视频在线观看| 国产成人久久综合777777麻豆| 四虎成人免费毛片| 欧美一级色视频| 国产女人爽到高潮的免费视频 | 日韩精品亚洲一区中文字幕| 亚洲欧美另类中文字幕| 小13箩利洗澡无码视频免费网站| 免费中文字幕一级毛片| 国产毛片片精品天天看视频| 人人澡人人爽欧美一区| 黄色免费在线网址| 亚洲男人天堂2020| 亚洲an第二区国产精品| 99热线精品大全在线观看| 久久午夜夜伦鲁鲁片无码免费| 亚洲AV无码精品无码久久蜜桃| 茄子视频毛片免费观看| 亚洲天堂网在线播放| 国产av一码二码三码无码| 天天躁狠狠躁| 1769国产精品视频免费观看| 美女毛片在线| 国产大片喷水在线在线视频| 欧美日本在线观看| 国产亚洲视频播放9000| 精品少妇人妻无码久久| 一区二区三区国产精品视频| 亚洲综合九九| 欧美一区国产| 男女性色大片免费网站| 激情视频综合网| 欧美亚洲国产日韩电影在线| 一级做a爰片久久毛片毛片| 亚洲中文制服丝袜欧美精品| 18禁黄无遮挡网站| 99久久国产精品无码| 久久夜色撩人精品国产| 热99re99首页精品亚洲五月天| 人妻91无码色偷偷色噜噜噜| 一级毛片在线播放免费观看| 国产成人亚洲精品色欲AV| 亚洲欧美综合在线观看| 毛片一级在线| 国产精品大白天新婚身材| 夜夜操天天摸| 免费人成网站在线观看欧美| 欧美激情综合一区二区| 精品视频一区二区观看| 无码中字出轨中文人妻中文中| 成人伊人色一区二区三区| www.日韩三级| 久久鸭综合久久国产| 免费在线国产一区二区三区精品| 97国产精品视频自在拍| 人与鲁专区| 久久亚洲国产视频| 97国产精品视频自在拍| 综合色天天| 啪啪免费视频一区二区| 天天综合网色中文字幕| 欧美精品aⅴ在线视频| 国产中文一区二区苍井空| 精品视频一区二区三区在线播 | vvvv98国产成人综合青青| 欧洲高清无码在线| 亚洲男人的天堂久久香蕉网| 欧美日韩午夜| 日韩av电影一区二区三区四区| 国产精品开放后亚洲|