戴道成
(西安歐亞學(xué)院金融學(xué)院,陜西 西安 710065)
目前,癌癥是導(dǎo)致人類死亡的主要原因之一,也是亟待解決的全球性醫(yī)學(xué)難題。癌癥基因組學(xué)的發(fā)展促使人類從基因水平上分析癌癥的發(fā)病機(jī)制,尋求解決靶向治療的依據(jù),從而在遺傳基因研究上取得新的突破。因此,通過高效的測序技術(shù)捕獲腫瘤基因組的序列信息顯得尤為重要[1-2]。
眾所周知,桑格測序法(Sanger sequencing)[3]是人類歷史上第一代DNA測序技術(shù),其測序所得的read長度可達(dá)1 000 bp,但其成本高、通量低,因而不能滿足實(shí)驗(yàn)研究和市場應(yīng)用的需求。后繼以Roche公司的454測序技術(shù)、Illumina公司的Solexa測序技術(shù)和ABI公司的SOLiD測序技術(shù)為代表的第二代測序技術(shù)[4](next-generation sequencing,NGS)得到發(fā)展,NGS相比Sanger測序的成本大大降低,同時(shí)保持了高效的測序精度,但read長度的極大縮短限制了NGS的廣泛應(yīng)用,因而人們又在探尋新一代的測序技術(shù)和方法。以Pacific Biosciences公司的SMRT技術(shù)[5]和Oxford Nanopore Technologies公司的納米孔單分子測序技術(shù)[6]為代表的第三代測序技術(shù)(third generation sequencing techniques,TGS),不僅繼承了NGS的優(yōu)點(diǎn),而且能產(chǎn)生長度大于10 kbp的長read,從而在序列組裝、基因突變鑒定以及疾病診斷等許多領(lǐng)域產(chǎn)生巨大的推動(dòng)作用。
高讀長的TGS使基因組學(xué)研究發(fā)生了革命性的變化,但是15%的測序錯(cuò)誤率和錯(cuò)誤隨機(jī)分布的特性是限制其進(jìn)一步應(yīng)用的瓶頸,由此產(chǎn)生了一系列針對(duì)三代測序數(shù)據(jù)進(jìn)行錯(cuò)誤校正的方法。
第三代測序技術(shù)(TGS)是指高通量、單分子測序,不需要經(jīng)過聚合酶鏈反應(yīng)(PCR)擴(kuò)增一種可使DNA片段大量增殖的技術(shù),實(shí)現(xiàn)對(duì)每一條DNA分子的單獨(dú)測序。目前的TGS主要包括PacBio公司的SMRT技術(shù)和Oxford Nanopore Technologies公司的納米孔單分子測序技術(shù)。
SMRT技術(shù)依據(jù)邊合成邊測序的思想,使用DNA聚合酶、標(biāo)記四種堿基的不同顏色的熒光、作為測序載體的SMRT芯片和DNA模板進(jìn)行測序。在進(jìn)行堿基檢測時(shí),使用零模波導(dǎo)孔原理,使得發(fā)生反應(yīng)的信號(hào)從周圍游離堿基的熒光背景中區(qū)別出來,從而根據(jù)不同熒光的波長與峰值來判斷待測基因序列的不同堿基類型。由于四種熒光分別標(biāo)記核苷酸的磷酸鏈,因此當(dāng)核苷酸進(jìn)入新生的DNA鏈中時(shí),相關(guān)標(biāo)記基團(tuán)就會(huì)自動(dòng)脫落,減少了DNA合成的空間位阻,從而使得DNA鏈持續(xù)合成并增加測序讀長。但是,由于DNA聚合酶隨機(jī)進(jìn)行堿基的選擇,使得相關(guān)核苷酸進(jìn)入DNA鏈的過程存在一定的問題,從而產(chǎn)生15%的測序錯(cuò)誤率。
納米孔單分子測序技術(shù)是實(shí)時(shí)測序的另一種方法,其基于電信號(hào)而不是光信號(hào),設(shè)計(jì)一種內(nèi)部共價(jià)結(jié)合有分子接頭的納米孔。當(dāng)DNA堿基通過納米孔時(shí),將使其中感應(yīng)到的電荷發(fā)生變化,從而使流過納米孔的電流強(qiáng)度發(fā)生短暫的變化。由于堿基的特質(zhì)性,每種堿基所影響的電流變化幅度是不一樣的,從而通過靈敏的電子設(shè)備鑒定不同的堿基類型。雖然納米孔單分子測序技術(shù)的優(yōu)點(diǎn)十分明顯,但DNA堿基通過納米孔的速度難以控制,其會(huì)誤將當(dāng)前核苷酸識(shí)別為缺失或插入,因而不可避免地產(chǎn)生一定的測序錯(cuò)誤。
綜上所述,第三代測序技術(shù)在測序速度、測序成本和測序讀長上均具有一定的優(yōu)勢,但在測序準(zhǔn)確度上亟待提高。與此同時(shí),錯(cuò)誤隨機(jī)分布的特性亦增加了三代測序數(shù)據(jù)的糾錯(cuò)成本[7]。因此,有效的三代測序數(shù)據(jù)的糾錯(cuò)方法是獲得高效基因序列的關(guān)鍵。
目前對(duì)于TGS的糾錯(cuò)方法主要分為兩類:第一類是自校正方法,第二類是混合校正方法。
自校正方法,即通過比較三代測序數(shù)據(jù)(long reads,LRs)之間的相互關(guān)系,計(jì)算每一組長reads之間的重疊片段,然后根據(jù)多個(gè)序列的一致性評(píng)估結(jié)果進(jìn)行相應(yīng)的錯(cuò)誤校正,常見的自校正方法包括HGAP[8]和LoRMA[9]等。
2.1.1 HGAP
HGAP是由DOE JGI、PacBio公司和華盛頓大學(xué)共同于2013年在Nature Methods上所發(fā)表的一種基于LRs的高質(zhì)量的分層基因組裝方法。
HGAP是PacBio公司的基因組裝pipeline,其將LRs中最長的read作為參考序列(reference),而將其他LRs作為待比對(duì)序列。首先,將reference作為種子,通過基于有向無環(huán)圖的一致性過程和其他LRs共同完成預(yù)組裝。其次,利用待比對(duì)序列比對(duì)到reference上的結(jié)果去推斷比對(duì)區(qū)域的重疊片段。最后,根據(jù)多個(gè)比對(duì)的一致性評(píng)估結(jié)果進(jìn)行LRs的校正。圖 1為HGAP的比對(duì)過程。

圖1 HGAP的比對(duì)過程
研究團(tuán)隊(duì)通過比較微生物的參考序列進(jìn)行從頭組裝后的結(jié)果發(fā)現(xiàn),HGAP的精確度大于99.99%。同時(shí),對(duì)于HGAP,其最佳校正效果的reads測序覆蓋度范圍為60×~80×。
2.1.2 LoRMA
LoRMA是由Leena Salmela等于2016年在Bioinformatics上所提出的一種基于德布魯因圖(de Brujin graph,DBG)和多重比對(duì)的LRs的自校正方法。LoRMA包括如下三個(gè)過程。
(1)構(gòu)建k=4的LRs的DBG,如圖 2所示。

圖2 k=4的LRs的DBG
(2)如圖3所示,通過逐步增加k-mer中k的大小,從超過指定頻率閾值的LRs中迭代構(gòu)造新的k-mars的DBG,并依據(jù)LoREDC中的方法來校正相應(yīng)的LRs。

圖3 lorna的校正方法
(3)考慮到LRs間的相互比對(duì),通過使用多個(gè)比對(duì)所發(fā)現(xiàn)的長距離依賴關(guān)系,對(duì)校正后的LRs進(jìn)一步優(yōu)化。
大腸桿菌和酵母菌的實(shí)驗(yàn)結(jié)果表明,與其他自校正方法相比,LoRMA的精確度更高,并且當(dāng)LRs的測序覆蓋度為75×?xí)r,此方法的測序通量將提高20%以上。
2.1.3 小結(jié)
基于以上,自校正方法在提高三代測序數(shù)據(jù)精確度的同時(shí),也需要較高水平的測序覆蓋度來確保校正質(zhì)量。當(dāng)對(duì)較小的基因進(jìn)行糾錯(cuò)時(shí),這可能不是問題,但對(duì)于較大的基因組來講,意味著將需要測序數(shù)百乃至數(shù)千個(gè)SMRT細(xì)胞,顯然這大大增加了基因組計(jì)劃的成本。
混合校正方法,即在比較LRs和高精度的二代測序數(shù)據(jù)(short reads,SRs)的基礎(chǔ)上,對(duì)LRs進(jìn)行校正操作,這些算法包括Proovread[10]、LoRDEC[11]和Jabba[12]等。
2.2.1 Proovread
Proovread是由Thomas Hackl等于2014年在Bioinformatics上所提出的一種通過迭代SRs的一致性(consensus)序列來進(jìn)行大規(guī)模的LRs糾錯(cuò)的混合校正方法。
Proovread的校正過程如下。首先,將SRs比對(duì)到LRs上,由于測序數(shù)據(jù)的特點(diǎn),在生成consensus的過程中,大部分的錯(cuò)誤位點(diǎn)會(huì)被替換,潛在的嵌合位點(diǎn)也能被檢測到。其次,通過SRs-LRs間的比對(duì)信息和投票策略來計(jì)算consensus,同時(shí),新的堿基質(zhì)量分?jǐn)?shù)由SRs的測序覆蓋度以及consensus的組成得到。并且,為了減少運(yùn)行時(shí)間,采用迭代校正策略,即使用增加的SRs樣本執(zhí)行三個(gè)預(yù)校正步驟。最后,保證所有的SRs都被比對(duì)到unmask區(qū)域,從而完成LRs的校正。
在覆蓋大腸桿菌、擬南芥和人類的基因組實(shí)驗(yàn)中,Proovread的校正準(zhǔn)確度高達(dá)99.9%,優(yōu)于其他混合校正方法。此外,Proovread的校正序列更長,吞吐量更高。
2.2.2 LoRDEC
LoRDEC是由Leena Salmela等于2014年在Bioinformatics上所提出的一種基于遍歷SRs的DBG來實(shí)現(xiàn)LRs糾錯(cuò)的混合校正方法。具體的實(shí)現(xiàn)原理如下。
(1)與LoRMA類似,首先構(gòu)建SRs的DBG。
(2)參照所構(gòu)建的DBG將LRs分為準(zhǔn)確度弱(weak)的k-mer和準(zhǔn)確度強(qiáng)(SOLiD)的k-mer,在圖4中,直線代表weak部分,以矩形代表SOLiD部分。

圖4 根據(jù)準(zhǔn)確度劃分的LRs
(3)通過遍歷圖1中的路徑而尋找圖2中相鄰兩個(gè)矩形間的直線的校正序列。如圖5所示,由于s1和t1之間的橋接路徑在DBG中被找到,因此用來校正相應(yīng)的weak序列;而s2和t2之間的橋接路徑在DBG中未被找到,所以無法校正相應(yīng)的weak序列。類似地,完成LRs的整體校正過程。

圖5 LRs的校正方法
在大腸桿菌等基因序列上的實(shí)驗(yàn)表明,在實(shí)現(xiàn)相同的精確度情況下,LoRDEC比其他工具的速度快6倍,同時(shí)可以減少93%的內(nèi)存占用率。
2.2.3 Jabba
Jabba是由Giles Miclotte等于2016年在Algorithms for Molecular Biology上所提出的一種基于最大精確匹配的LRs的混合校正方法。
Jabba采用了與LoRDEC類似的策略,并且也構(gòu)建SRs的DBG,然后將LRs比對(duì)到DBG中來校正LRs。不同于LoRDEC的是,Jabba使用最大精確匹配(Maximal Exact Matches,MEMs)作為種子來加速整個(gè)比對(duì)過程,即當(dāng)LoRDEC在LRs所對(duì)應(yīng)的DBG中找到完整k-mers的匹配時(shí),Jabba繼續(xù)搜索其中的最大精確匹配。圖6為使用MEMs的LRs和DBG的一次比對(duì)過程。

圖6 使用MEMs的LRs和DBG的一次比對(duì)過程
在大腸桿菌等基因序列實(shí)驗(yàn)中,Jabba較LoRDEC具有更好的校正性能,同時(shí),Jabba使用更少的CPU時(shí)間來完成LRs的校正。
2.2.4 小結(jié)
綜上所述,現(xiàn)有的混合校正方法可以實(shí)現(xiàn)LRs的精準(zhǔn)校正,但是,將LRs與SRs進(jìn)行比對(duì)處理和構(gòu)建DBG的組裝步驟在混合校正方法中需要經(jīng)常使用。例如,對(duì)于Proovread的使用,需要計(jì)算和處理數(shù)百萬個(gè)SR到LR的比對(duì)結(jié)果,而在實(shí)際分析中,這將是一個(gè)艱巨的計(jì)算挑戰(zhàn),需要消耗較大的資源和內(nèi)存。另外,LoRDEC和Jabba算法雖然在運(yùn)行內(nèi)存上有很大的改進(jìn),但這些算法的校正精確度卻不是很高,仍存在一定的問題。
針對(duì)測序數(shù)據(jù)進(jìn)行有效校正,是提高測序精確度從而獲得用于癌癥基因組學(xué)研究的高效基因序列的關(guān)鍵技術(shù)。隨著第三代測序技術(shù)的發(fā)展,生物信息學(xué)研究者逐漸將研究重點(diǎn)放在通過糾錯(cuò)算法來校正測序錯(cuò)誤上,并且出現(xiàn)了一系列測序校正算法。現(xiàn)有三代測序數(shù)據(jù)的兩類糾錯(cuò)方法雖然可以有效地提高測序數(shù)據(jù)的精確度,但均在測序數(shù)據(jù)損失、測序覆蓋度占用和測序內(nèi)存消耗等方面存在不足。在下一步研究中,在避免已有糾錯(cuò)方法問題的同時(shí),通過結(jié)合自身校正方法和混合校正方法的優(yōu)勢,研究提高三代測序數(shù)據(jù)的糾錯(cuò)性能的方法,從而獲取高精度的測序數(shù)據(jù),以實(shí)現(xiàn)后續(xù)的基因分析乃至疾病的精準(zhǔn)治療。