999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高通量測序中拼接問題的研究現狀

2016-04-13 11:26:12徐鵬昊
山東農業(yè)工程學院學報 2016年1期

徐鵬昊

(復旦大學生命科學學院,上海200433)

高通量測序中拼接問題的研究現狀

徐鵬昊

(復旦大學生命科學學院,上海200433)

近年來,隨著第二代測序技術的普及和第三代測序技術的逐步發(fā)展,高通量測序技術在實際研究中的應用越來越廣泛。高速率、高性價比是其主要優(yōu)點。相對于傳統(tǒng)的桑格(Sanger)法測序來言,高通量測序得到的片段長度較為短小,故如何拼接得到完整的序列一直是炙手可熱的研究方向。本文總結了現階段高通量測序中拼接問題的研究結果,針對現在流行的各種算法進行了簡單介紹。

高通量測序;reads拼接;contigs組裝;OLC、De brujin圖

一、測序技術的發(fā)展過程和現狀[1]

(一)桑格法

桑格法又叫做雙脫氧鏈終止法,由Sanger在1977年提出。通過加入帶有放射標記的ddNTP(雙脫氧核苷酸)使DNA合成終止。再通過電泳,并使用放射自顯影技術讀出堿基。此方法得到的片段較長,能達到1000bp左右。

(二)第二代測序技術

隨著科學技術的發(fā)展,傳統(tǒng)的桑格法已經不能滿足研究的需要。科學家們需要更快的速度、更高的通量以及更低廉的價格,于是第二代測序技術應運而生。其核心思想是邊合成邊測序。現在主要有454 GS FLX、SOLiD和Illumina/Solexa Genome Analyzer三個平臺。第二代測序是現階段測序技術的主流,也是高通量測序的開始。

(三)第三代測序技術

第三代測序技術是指單分子測序技術。不需要經過PCR的過程即可測序,速度可以達到每秒十個堿基。通量更大,讀長更短,是現階段測序技術的發(fā)展方向。

二、高通量測序中的拼接工作

(一)高通量測序所得片段的特點

高通量測序之后所得到的序列片段稱為reads(讀取),其主要特點兩點。一是長度短,一般在200bp以下,最長的454平臺能達到的長度也不過1000bp,因此需要進行大量的拼接才能得到整條DNA序列。二是有部分重疊,由于測序位置具有隨機性,故各reads總會有一定的重疊,這些重疊是拼接工作的關鍵。

(二)拼接過程

整個拼接過程分為兩步。第一步,考察reads的重復序列,并拼接成更長的片段,稱為contigs(重疊群),這一步稱為reads的拼接;第二步,確定contigs之間的順序關系,并按此排列,形成稱為scaffolds的序列,這一步叫做contigs的組裝。

三、Reads的拼接

(一)拼接過程的難點

reads拼接過程中要克服的難點主要有兩點,一是高通量測序得到的reads長度較短,故內含信息較少,不易確認相對順序。二是遠程連接信息(Long-range linking information)的不可靠性。2這兩點制約著reads拼接過程的準確率。

(二)方法[3]

reads拼接過程中算法的基本要求是de novo(從頭測序),即不需要任何序列信息即可對原料進行測序。由此衍生出兩種主流的算法:

1.OLC

OLC,即交疊-排列-共有序列算法 (Overlaplayout-consensus),是一個比較傳統(tǒng)的算法,其基本思想為根據reads間的重復部分,確定可能性的reads連接順序。

其步驟為:構建交疊圖:對每兩個reads進行比對,計算它們的重疊度——排列reads:將reads進行排列,確定它們之間的相對位置,建立overlap圖——生成共有序列:通過多序列比對等方法,確立最后的contig。

OLC算法的計算量主要體現在交疊圖的構建,而高通量測序得到的海量短序列有大量的交疊,往往需要大量的運算時間。故OLC算法并不適合現在高通量測序的發(fā)展趨勢。現在某些拼接軟件,如Shorty、CABOG等仍在使用基于此的算法。雖然這些軟件針對OLC算法有一定的改進和優(yōu)化,但其拼接速度和準確性仍受到限制。

2.De brujin圖

基于De brujin圖(DBG)的算法是現在最流行的算法,許多常用的拼接軟件如Velvet、ABySS等都在使用這種算法。其特點為把基因序列的拼接問題轉化為了數學上的圖論問題,大大提高了拼接效率。

(1)基本思想

reads中連續(xù)的 k個堿基稱為 k-mer,作為DBG的節(jié)點,兩個k-mer如果在同一read中相鄰,則形成一條邊。故每個read都會對一些邊加權,最后形成一個含有節(jié)點、有權值的邊的DBG,由此生成最佳的contig。

(2)步驟

篩選reads:對reads進行檢測,去除掉可能錯誤的reads——確定k值:k的值直接影響速度和精度。K值較大時,精度有所提高,但更容易受覆蓋率的影響。故應該根據覆蓋率、reads長度等確定合適的k值——處理DBG:根據確定的k值,做出DBG,同時完成化簡和修正——根據DBG,拼接成contig。

(3)優(yōu)缺點

DBG算法在處理海量短reads的時候效果優(yōu)秀,與現在測序技術的發(fā)展趨勢相匹配。然而,由于k-mer的長度較短,此方法受重復序列、測序錯誤的影響較大。

(三)不同拼接軟件的效果差異

不同的拼接軟件在reads拼接過程中表現為三點:一是比起軟件來說,reads質量對拼接結果影響更大;二是與標準序列的接近度隨reads和拼接軟件的不同有很大改變;三是各軟件拼接的正確率差別很大,但與接近度的結果不一致。

四、Contigs的組裝

與reads的拼接相比,contigs的組裝的難度相對較小。這是因為contigs的長度較reads長很多,所含信息較多。故可以較為準確的組裝成scaffold

(一)組裝過程的難點[4]

Contigs組裝過程中的難點主要有二。一是contigs中含有大量的重復序列,不易確定contigs之間的相對順序;二是由于contigs由reads拼接而成,其中不免會有一些錯誤,這些錯誤也會對contigs的組裝產生干擾。

(二)方法

Contigs組裝的方法較reads拼接而言較多,一般常用的有圖論法和光學圖譜法(Optical mapping)兩種。

1.圖論法[5]

圖論法是比較傳統(tǒng)的方法,與reads拼接有相似的地方。它以contigs作為節(jié)點,由相連的讀取對(Linking reads pair)作為邊,由此形成算圖。

其一般步驟為:庫的構建:構建出含有所有reads的庫——計算相連讀取對之間的距離,并由此計算gap的長度——把長度放在邊上,作為算圖的數據。

其理想的輸出結果是一條scaffold序列,對應一條染色體,包含以正確順序排列的contigs和contigs之間gap的長度。

2.光學圖譜法[6]

光學圖譜法是一種較為新穎的方法。通過內切酶將DNA切斷,此時DNA片段的譜表現出一種特殊的指紋或是識別碼的性質。利用光學方法追蹤此信息得到相對位置,由此組裝成正確的scaffold。

主要步驟為:將 contigs放置在光學圖譜上——修正光學圖譜——做出contigs的連接圖,由此決定最佳的contigs連接順序。

光學圖譜法的組裝結果有著很高的覆蓋率,巧妙運用光學圖譜法可以獲得很高的成本效益。

有研究表明,當與454平臺獲得的實驗結果相結合的時候,光學圖譜法可以迅速、價廉的得到排列好的定向的contigs組,由此可以產生一個將近完整的基因組。

(三)發(fā)展方向

Contigs組裝過程的關鍵點在于如何得到正確的連接順序。現階段此方面研究多集中在這一方向。

五、前景與展望

隨著生物學研究向微觀、向基因領域逐步延伸,高通量測序作為獲得基因序列的主要方法,越來越受到重視,拼接技術也在不斷發(fā)展。高通量測序的基因片段會變得海量且短小,應對此變化,拼接技術也會由確定“唯一的基因序列”向確定“最可能的基因序列”完成轉變。因此,新一代的拼接技術會在準確率、覆蓋率和速度上,作出超于現在拼接技術的改進。

[1]Anderson MW,Schrijver I.Next Generation DNA Sequencing and the Future of Genomic Medicine.?Genes. 2010;1(1):38-69.doi:10.3390/genes1010038.

[2]Salzberg SL,Phillippy AM,Zimin A,et al.GAGE:A critical evaluation of genome assemblies and assembly algorithms.Genome Research.2012;22(3):557-567.doi:10.1101/gr.131383.111.

[3]Deng X,Naccache SN,Ng T,et al.An ensemble strategy that significantly improves de novo assembly of microbial genomes from metagenomic next-generation sequencing data.Nucleic Acids Research.2015;43(7):e46.doi:10.1093/ nar/gkv002.

[4]Latreille P,Norton S,Goldman BS,et al.Optical mapping as a routine tool for bacterial genome sequence finishing.BMC Genomics.2007;8:321.doi:10.1186/1471-2164-8-321.

[5]HuntM,NewboldC,BerrimanM,OttoTD.A comprehensive evaluation of assembly scaffolding tools. Genome Biology.2014;15(3):R42.doi:10.1186/gb-2014-15-3-r42.

[6]NagarajanN,ReadTD,PopM.Scaffoldingand validation of bacterial genome assemblies using optical restriction maps.Bioinformatics.2008;24(10):1229-1235. doi:10.1093/bioinformatics/btn102.

編輯:馮惟榘

The Recent Research Progress Af High-throughput Sequencing's ASsembling

XU Penghao
(School of Life Sciences Fudan University,Shanghai 200433)

In recent years,with the popularization and gradual development of the second-genaration sequencing technique,High-throughput Sequencing has been widely applied in the practical studies.Its main advantages are the high speed and cost-effectiveness.Relative to the traditional Sanger method,the High-throughput Sequencing's fragment length is fairly shorter.Therefore,how to assemble the fragments into a complete sequence has always been an attracting study field.This paper summarized the research findings of High-throughput Sequencing's assembling part at this stage,and briefly introduced the various popular algorithms.

High-throughput Sequencing;Reads Assembling;Contigs Assembling;OLC,De Brujin Graph

F326

A

2095-7327(2016)-01-0042-03

徐鵬昊,男,山東濟南人,復旦大學生命科學學院,主要研究方向為生物技術、生物信息。

主站蜘蛛池模板: 91精品国产自产在线老师啪l| 四虎永久在线精品国产免费| 国产美女久久久久不卡| 欧美色伊人| 国内精品久久九九国产精品| 国内毛片视频| 五月婷婷欧美| 亚洲精品黄| 婷婷综合在线观看丁香| 久久综合婷婷| 在线人成精品免费视频| 亚洲啪啪网| 国产丝袜无码精品| 色亚洲成人| 人妻一本久道久久综合久久鬼色| 欧美日韩国产在线播放| 91区国产福利在线观看午夜| 亚洲第一区精品日韩在线播放| 午夜视频在线观看免费网站| 中国国产A一级毛片| 国产精品专区第一页在线观看| 激情六月丁香婷婷四房播| 日本午夜精品一本在线观看 | 欧美三级日韩三级| 欧美国产日韩在线播放| 99re经典视频在线| 国产高清在线丝袜精品一区 | 呦女亚洲一区精品| 亚洲高清在线播放| 日本高清有码人妻| 一级香蕉视频在线观看| 成年午夜精品久久精品| 国产精品自在拍首页视频8| 亚洲精品视频在线观看视频| 欧美日韩综合网| 亚洲美女一区| 亚洲成人黄色在线观看| 国产一区二区免费播放| 免费精品一区二区h| 伊人福利视频| a免费毛片在线播放| 麻豆国产在线观看一区二区| 乱人伦99久久| 欧美黑人欧美精品刺激| 麻豆精品在线| 毛片网站观看| 亚欧乱色视频网站大全| 亚洲av无码成人专区| 亚洲国产成人在线| 国产杨幂丝袜av在线播放| 免费在线观看av| 国产又色又爽又黄| 第九色区aⅴ天堂久久香| 亚洲日本精品一区二区| 男女精品视频| 男女性色大片免费网站| 天天综合网色| 免费人成在线观看成人片 | 一级毛片免费高清视频| 国产高清精品在线91| 制服无码网站| 亚洲午夜天堂| 亚洲欧美日韩另类| 干中文字幕| 99在线观看精品视频| 国产aⅴ无码专区亚洲av综合网 | 国产噜噜噜视频在线观看| 精品一区二区三区水蜜桃| 四虎在线高清无码| 人妻熟妇日韩AV在线播放| 中文字幕免费在线视频| 亚洲国产高清精品线久久| 亚洲色图欧美在线| 国产精品hd在线播放| 亚洲一级毛片在线观| 伊人久久福利中文字幕| 久久午夜夜伦鲁鲁片不卡| 久久黄色一级片| 欧美亚洲激情| 青青草原国产一区二区| 中文字幕亚洲电影| 日韩高清成人|