999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

三代測序數(shù)據(jù)的糾錯(cuò)方法研究

2022-09-29 14:13:44戴道成
中阿科技論壇(中英文) 2022年9期
關(guān)鍵詞:精確度方法

戴道成

(西安歐亞學(xué)院金融學(xué)院,陜西 西安 710065)

目前,癌癥是導(dǎo)致人類死亡的主要原因之一,也是亟待解決的全球性醫(yī)學(xué)難題。癌癥基因組學(xué)的發(fā)展促使人類從基因水平上分析癌癥的發(fā)病機(jī)制,尋求解決靶向治療的依據(jù),從而在遺傳基因研究上取得新的突破。因此,通過高效的測序技術(shù)捕獲腫瘤基因組的序列信息顯得尤為重要[1-2]。

眾所周知,桑格測序法(Sanger sequencing)[3]是人類歷史上第一代DNA測序技術(shù),其測序所得的read長度可達(dá)1 000 bp,但其成本高、通量低,因而不能滿足實(shí)驗(yàn)研究和市場應(yīng)用的需求。后繼以Roche公司的454測序技術(shù)、Illumina公司的Solexa測序技術(shù)和ABI公司的SOLiD測序技術(shù)為代表的第二代測序技術(shù)[4](next-generation sequencing,NGS)得到發(fā)展,NGS相比Sanger測序的成本大大降低,同時(shí)保持了高效的測序精度,但read長度的極大縮短限制了NGS的廣泛應(yīng)用,因而人們又在探尋新一代的測序技術(shù)和方法。以Pacific Biosciences公司的SMRT技術(shù)[5]和Oxford Nanopore Technologies公司的納米孔單分子測序技術(shù)[6]為代表的第三代測序技術(shù)(third generation sequencing techniques,TGS),不僅繼承了NGS的優(yōu)點(diǎn),而且能產(chǎn)生長度大于10 kbp的長read,從而在序列組裝、基因突變鑒定以及疾病診斷等許多領(lǐng)域產(chǎn)生巨大的推動(dòng)作用。

高讀長的TGS使基因組學(xué)研究發(fā)生了革命性的變化,但是15%的測序錯(cuò)誤率和錯(cuò)誤隨機(jī)分布的特性是限制其進(jìn)一步應(yīng)用的瓶頸,由此產(chǎn)生了一系列針對(duì)三代測序數(shù)據(jù)進(jìn)行錯(cuò)誤校正的方法。

1 第三代測序技術(shù)

第三代測序技術(shù)(TGS)是指高通量、單分子測序,不需要經(jīng)過聚合酶鏈反應(yīng)(PCR)擴(kuò)增一種可使DNA片段大量增殖的技術(shù),實(shí)現(xiàn)對(duì)每一條DNA分子的單獨(dú)測序。目前的TGS主要包括PacBio公司的SMRT技術(shù)和Oxford Nanopore Technologies公司的納米孔單分子測序技術(shù)。

SMRT技術(shù)依據(jù)邊合成邊測序的思想,使用DNA聚合酶、標(biāo)記四種堿基的不同顏色的熒光、作為測序載體的SMRT芯片和DNA模板進(jìn)行測序。在進(jìn)行堿基檢測時(shí),使用零模波導(dǎo)孔原理,使得發(fā)生反應(yīng)的信號(hào)從周圍游離堿基的熒光背景中區(qū)別出來,從而根據(jù)不同熒光的波長與峰值來判斷待測基因序列的不同堿基類型。由于四種熒光分別標(biāo)記核苷酸的磷酸鏈,因此當(dāng)核苷酸進(jìn)入新生的DNA鏈中時(shí),相關(guān)標(biāo)記基團(tuán)就會(huì)自動(dòng)脫落,減少了DNA合成的空間位阻,從而使得DNA鏈持續(xù)合成并增加測序讀長。但是,由于DNA聚合酶隨機(jī)進(jìn)行堿基的選擇,使得相關(guān)核苷酸進(jìn)入DNA鏈的過程存在一定的問題,從而產(chǎn)生15%的測序錯(cuò)誤率。

納米孔單分子測序技術(shù)是實(shí)時(shí)測序的另一種方法,其基于電信號(hào)而不是光信號(hào),設(shè)計(jì)一種內(nèi)部共價(jià)結(jié)合有分子接頭的納米孔。當(dāng)DNA堿基通過納米孔時(shí),將使其中感應(yīng)到的電荷發(fā)生變化,從而使流過納米孔的電流強(qiáng)度發(fā)生短暫的變化。由于堿基的特質(zhì)性,每種堿基所影響的電流變化幅度是不一樣的,從而通過靈敏的電子設(shè)備鑒定不同的堿基類型。雖然納米孔單分子測序技術(shù)的優(yōu)點(diǎn)十分明顯,但DNA堿基通過納米孔的速度難以控制,其會(huì)誤將當(dāng)前核苷酸識(shí)別為缺失或插入,因而不可避免地產(chǎn)生一定的測序錯(cuò)誤。

綜上所述,第三代測序技術(shù)在測序速度、測序成本和測序讀長上均具有一定的優(yōu)勢,但在測序準(zhǔn)確度上亟待提高。與此同時(shí),錯(cuò)誤隨機(jī)分布的特性亦增加了三代測序數(shù)據(jù)的糾錯(cuò)成本[7]。因此,有效的三代測序數(shù)據(jù)的糾錯(cuò)方法是獲得高效基因序列的關(guān)鍵。

2 現(xiàn)有糾錯(cuò)方法

目前對(duì)于TGS的糾錯(cuò)方法主要分為兩類:第一類是自校正方法,第二類是混合校正方法。

2.1 自校正方法

自校正方法,即通過比較三代測序數(shù)據(jù)(long reads,LRs)之間的相互關(guān)系,計(jì)算每一組長reads之間的重疊片段,然后根據(jù)多個(gè)序列的一致性評(píng)估結(jié)果進(jìn)行相應(yīng)的錯(cuò)誤校正,常見的自校正方法包括HGAP[8]和LoRMA[9]等。

2.1.1 HGAP

HGAP是由DOE JGI、PacBio公司和華盛頓大學(xué)共同于2013年在Nature Methods上所發(fā)表的一種基于LRs的高質(zhì)量的分層基因組裝方法。

HGAP是PacBio公司的基因組裝pipeline,其將LRs中最長的read作為參考序列(reference),而將其他LRs作為待比對(duì)序列。首先,將reference作為種子,通過基于有向無環(huán)圖的一致性過程和其他LRs共同完成預(yù)組裝。其次,利用待比對(duì)序列比對(duì)到reference上的結(jié)果去推斷比對(duì)區(qū)域的重疊片段。最后,根據(jù)多個(gè)比對(duì)的一致性評(píng)估結(jié)果進(jìn)行LRs的校正。圖 1為HGAP的比對(duì)過程。

圖1 HGAP的比對(duì)過程

研究團(tuán)隊(duì)通過比較微生物的參考序列進(jìn)行從頭組裝后的結(jié)果發(fā)現(xiàn),HGAP的精確度大于99.99%。同時(shí),對(duì)于HGAP,其最佳校正效果的reads測序覆蓋度范圍為60×~80×。

2.1.2 LoRMA

LoRMA是由Leena Salmela等于2016年在Bioinformatics上所提出的一種基于德布魯因圖(de Brujin graph,DBG)和多重比對(duì)的LRs的自校正方法。LoRMA包括如下三個(gè)過程。

(1)構(gòu)建k=4的LRs的DBG,如圖 2所示。

圖2 k=4的LRs的DBG

(2)如圖3所示,通過逐步增加k-mer中k的大小,從超過指定頻率閾值的LRs中迭代構(gòu)造新的k-mars的DBG,并依據(jù)LoREDC中的方法來校正相應(yīng)的LRs。

圖3 lorna的校正方法

(3)考慮到LRs間的相互比對(duì),通過使用多個(gè)比對(duì)所發(fā)現(xiàn)的長距離依賴關(guān)系,對(duì)校正后的LRs進(jìn)一步優(yōu)化。

大腸桿菌和酵母菌的實(shí)驗(yàn)結(jié)果表明,與其他自校正方法相比,LoRMA的精確度更高,并且當(dāng)LRs的測序覆蓋度為75×?xí)r,此方法的測序通量將提高20%以上。

2.1.3 小結(jié)

基于以上,自校正方法在提高三代測序數(shù)據(jù)精確度的同時(shí),也需要較高水平的測序覆蓋度來確保校正質(zhì)量。當(dāng)對(duì)較小的基因進(jìn)行糾錯(cuò)時(shí),這可能不是問題,但對(duì)于較大的基因組來講,意味著將需要測序數(shù)百乃至數(shù)千個(gè)SMRT細(xì)胞,顯然這大大增加了基因組計(jì)劃的成本。

2.2 混合校正方法

混合校正方法,即在比較LRs和高精度的二代測序數(shù)據(jù)(short reads,SRs)的基礎(chǔ)上,對(duì)LRs進(jìn)行校正操作,這些算法包括Proovread[10]、LoRDEC[11]和Jabba[12]等。

2.2.1 Proovread

Proovread是由Thomas Hackl等于2014年在Bioinformatics上所提出的一種通過迭代SRs的一致性(consensus)序列來進(jìn)行大規(guī)模的LRs糾錯(cuò)的混合校正方法。

Proovread的校正過程如下。首先,將SRs比對(duì)到LRs上,由于測序數(shù)據(jù)的特點(diǎn),在生成consensus的過程中,大部分的錯(cuò)誤位點(diǎn)會(huì)被替換,潛在的嵌合位點(diǎn)也能被檢測到。其次,通過SRs-LRs間的比對(duì)信息和投票策略來計(jì)算consensus,同時(shí),新的堿基質(zhì)量分?jǐn)?shù)由SRs的測序覆蓋度以及consensus的組成得到。并且,為了減少運(yùn)行時(shí)間,采用迭代校正策略,即使用增加的SRs樣本執(zhí)行三個(gè)預(yù)校正步驟。最后,保證所有的SRs都被比對(duì)到unmask區(qū)域,從而完成LRs的校正。

在覆蓋大腸桿菌、擬南芥和人類的基因組實(shí)驗(yàn)中,Proovread的校正準(zhǔn)確度高達(dá)99.9%,優(yōu)于其他混合校正方法。此外,Proovread的校正序列更長,吞吐量更高。

2.2.2 LoRDEC

LoRDEC是由Leena Salmela等于2014年在Bioinformatics上所提出的一種基于遍歷SRs的DBG來實(shí)現(xiàn)LRs糾錯(cuò)的混合校正方法。具體的實(shí)現(xiàn)原理如下。

(1)與LoRMA類似,首先構(gòu)建SRs的DBG。

(2)參照所構(gòu)建的DBG將LRs分為準(zhǔn)確度弱(weak)的k-mer和準(zhǔn)確度強(qiáng)(SOLiD)的k-mer,在圖4中,直線代表weak部分,以矩形代表SOLiD部分。

圖4 根據(jù)準(zhǔn)確度劃分的LRs

(3)通過遍歷圖1中的路徑而尋找圖2中相鄰兩個(gè)矩形間的直線的校正序列。如圖5所示,由于s1和t1之間的橋接路徑在DBG中被找到,因此用來校正相應(yīng)的weak序列;而s2和t2之間的橋接路徑在DBG中未被找到,所以無法校正相應(yīng)的weak序列。類似地,完成LRs的整體校正過程。

圖5 LRs的校正方法

在大腸桿菌等基因序列上的實(shí)驗(yàn)表明,在實(shí)現(xiàn)相同的精確度情況下,LoRDEC比其他工具的速度快6倍,同時(shí)可以減少93%的內(nèi)存占用率。

2.2.3 Jabba

Jabba是由Giles Miclotte等于2016年在Algorithms for Molecular Biology上所提出的一種基于最大精確匹配的LRs的混合校正方法。

Jabba采用了與LoRDEC類似的策略,并且也構(gòu)建SRs的DBG,然后將LRs比對(duì)到DBG中來校正LRs。不同于LoRDEC的是,Jabba使用最大精確匹配(Maximal Exact Matches,MEMs)作為種子來加速整個(gè)比對(duì)過程,即當(dāng)LoRDEC在LRs所對(duì)應(yīng)的DBG中找到完整k-mers的匹配時(shí),Jabba繼續(xù)搜索其中的最大精確匹配。圖6為使用MEMs的LRs和DBG的一次比對(duì)過程。

圖6 使用MEMs的LRs和DBG的一次比對(duì)過程

在大腸桿菌等基因序列實(shí)驗(yàn)中,Jabba較LoRDEC具有更好的校正性能,同時(shí),Jabba使用更少的CPU時(shí)間來完成LRs的校正。

2.2.4 小結(jié)

綜上所述,現(xiàn)有的混合校正方法可以實(shí)現(xiàn)LRs的精準(zhǔn)校正,但是,將LRs與SRs進(jìn)行比對(duì)處理和構(gòu)建DBG的組裝步驟在混合校正方法中需要經(jīng)常使用。例如,對(duì)于Proovread的使用,需要計(jì)算和處理數(shù)百萬個(gè)SR到LR的比對(duì)結(jié)果,而在實(shí)際分析中,這將是一個(gè)艱巨的計(jì)算挑戰(zhàn),需要消耗較大的資源和內(nèi)存。另外,LoRDEC和Jabba算法雖然在運(yùn)行內(nèi)存上有很大的改進(jìn),但這些算法的校正精確度卻不是很高,仍存在一定的問題。

3 總結(jié)

針對(duì)測序數(shù)據(jù)進(jìn)行有效校正,是提高測序精確度從而獲得用于癌癥基因組學(xué)研究的高效基因序列的關(guān)鍵技術(shù)。隨著第三代測序技術(shù)的發(fā)展,生物信息學(xué)研究者逐漸將研究重點(diǎn)放在通過糾錯(cuò)算法來校正測序錯(cuò)誤上,并且出現(xiàn)了一系列測序校正算法。現(xiàn)有三代測序數(shù)據(jù)的兩類糾錯(cuò)方法雖然可以有效地提高測序數(shù)據(jù)的精確度,但均在測序數(shù)據(jù)損失、測序覆蓋度占用和測序內(nèi)存消耗等方面存在不足。在下一步研究中,在避免已有糾錯(cuò)方法問題的同時(shí),通過結(jié)合自身校正方法和混合校正方法的優(yōu)勢,研究提高三代測序數(shù)據(jù)的糾錯(cuò)性能的方法,從而獲取高精度的測序數(shù)據(jù),以實(shí)現(xiàn)后續(xù)的基因分析乃至疾病的精準(zhǔn)治療。

猜你喜歡
精確度方法
研究核心素養(yǎng)呈現(xiàn)特征提高復(fù)習(xí)教學(xué)精確度
“硬核”定位系統(tǒng)入駐兗礦集團(tuán),精確度以厘米計(jì)算
學(xué)習(xí)方法
放縮法在遞推數(shù)列中的再探究
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
易錯(cuò)題突破:提高語言精確度
主站蜘蛛池模板: 国产毛片不卡| 亚洲av日韩综合一区尤物| 亚洲精品在线影院| 国产精品粉嫩| 丁香五月婷婷激情基地| 无码国产偷倩在线播放老年人| 国产乱子伦视频三区| 五月婷婷导航| 欧美一级黄片一区2区| 亚洲经典在线中文字幕| 日韩精品一区二区三区中文无码| 中文字幕自拍偷拍| 波多野结衣一二三| 日本黄网在线观看| 真实国产精品vr专区| 久久先锋资源| 老司机精品久久| 国产美女一级毛片| 毛片视频网| 专干老肥熟女视频网站| 欧美中文字幕无线码视频| 老司国产精品视频| 欧美日韩第二页| 中国成人在线视频| 91在线视频福利| 毛片在线区| 中文无码精品a∨在线观看| 日韩无码白| 国产剧情国内精品原创| 亚洲天堂2014| 国产精品不卡永久免费| 国产91九色在线播放| 伊人蕉久影院| 青青国产视频| 嫩草在线视频| 丰满少妇αⅴ无码区| 中文一区二区视频| 国产一区二区在线视频观看| 在线观看免费国产| 无遮挡一级毛片呦女视频| 亚洲人在线| 视频一本大道香蕉久在线播放 | 大香网伊人久久综合网2020| 亚洲视频一区在线| 综合色天天| 国产又色又爽又黄| 97成人在线视频| 国产无码网站在线观看| 毛片免费在线视频| 精品一区二区三区中文字幕| 中文精品久久久久国产网址| 日韩精品亚洲人旧成在线| 亚洲精品国偷自产在线91正片| 婷婷色婷婷| 久久人搡人人玩人妻精品| 精品国产免费观看| www.精品视频| 欧美性爱精品一区二区三区| 一本一道波多野结衣av黑人在线| 亚洲无线国产观看| 久久久久青草大香线综合精品| 欧美第一页在线| 伊人福利视频| 玩两个丰满老熟女久久网| 国产swag在线观看| 国产色图在线观看| 国产精品大尺度尺度视频| 99成人在线观看| 国产第一页免费浮力影院| 国产91线观看| 日韩国产黄色网站| 欧美在线黄| 人妻一区二区三区无码精品一区| 欧美一级高清片久久99| 制服丝袜 91视频| 亚洲精品无码高潮喷水A| 免费在线不卡视频| 亚洲午夜综合网| 手机精品福利在线观看| 日本欧美一二三区色视频| 午夜天堂视频| 五月婷婷精品|