李桂瀾, 胥傳來
(1.北京大學 生命科學學院,北京100871;2.食品科學與技術國家重點實驗室,江南大學,江蘇 無錫214122)
PCR產物的高通量測序方法及優化
李桂瀾1, 胥傳來2
(1.北京大學 生命科學學院,北京100871;2.食品科學與技術國家重點實驗室,江南大學,江蘇 無錫214122)
PCR產物的高通量測序被廣泛應用于功能基因篩選、腫瘤相關基因的突變和甲基化檢測等。在高通量測序技術中,建庫和上機測序實驗一直是決定最終DNA數據質量的關鍵。作者優化了PCR產物樣品的DNA文庫制備條件和體系,設計了適合PCR產物特點上機測序方法,將已建庫的PCR樣品中混入一定量的基因組標準品后再上機測序,由此保證了測序數據的高質量和低冗余度。為低多樣性DNA樣品高通量測序技術方法運用提供方法上的參考。
PCR產物;高通量測序技術;樣品文庫制備;上機測序
DNA測序是常用的分子生物學研究技術,通過測序分析能提供最真實可靠的基因序列信息。從1977年第一代傳統 DNA雙脫氧鏈末端終止的sanger測序法問世以來,DNA測序技術經歷了快速發展[1-2]?,F在基于邊合成邊測序(sequencing by synthesis)為主的第二代高通量測序技術逐漸被廣泛運用于基礎研究、臨床醫學診斷和腸道微生物群與營養及代謝研究領域[2-5]。二代測序以單個讀長較短、通量大為特點,實現了對單個物種的轉錄組和基因組細致全貌分析,也被稱為深度測序或高通量測序[6]。二代測序研究平臺從最初Roche公司的454焦磷酸測序和Illumina公司早先的Solexa測序技術發展到目前廣泛使用的Hiseq、Miseq系列,和Life Technoloiges的Ion PGM和Ion Proton的測序,測序技術無論從速度和通量上得到了前所未有的發展[7]。目前以Illumina為技術平臺的Hiseq X 5系統、Hiseq3000/4000最新的測序儀器也相繼發布,使二代測序樣品建庫更加高效,讀長(reads)更長,通量更高。
PCR產物測序通過設計恰當引物探針,運用各種PCR技術將待測序的目的基因片段擴增產物進行測序[8-10]。PCR產物的高通量測序技術被輔助運用于細胞文庫中功能基因的篩選,腫瘤相關基因突變及甲基化檢測和微生物菌群的營養及代謝相關探索研究[11-12]。以Illumina為平臺的高通量測序,對片段大小在150~350 bp的PCR混合物樣品,與基因組 DNA和微量的 ChIP-seq(Chromatin Immuno Precipitation,ChIP)樣品的文庫制備方法不同[13-14]。雖然目前建庫技術整體一直在被優化,測序通量和測序長度也在不斷的進行技術革新使之達到更高的測序要求,但Illumina的邊合成邊測序技術核心仍無法改變,也決定了Illumina二代測序的技術局限性。所以根據PCR產物樣品自身的特點,文庫制備和上機測序實驗都需要進行特別的設計和處理。作者主要以Illumina系列的二代測序平臺,在普通的ChIP建庫方法,基于片段已知的DNA樣品通過兩步末端修飾反應后加DNA通用接頭的實驗原理,設計建立了一種適合PCR混合物樣品性質特點的文庫制備及上機操作實驗,以確保高效低成本的建庫技術及上機測序中得到最佳的測序數據質量。作者以Illumina為代表的高通量測序技術特點及具體實驗方法,為不同的研究領域中選擇不同測序方法提供參考。
1.1 試劑與材料
1.1.1 試劑 ChIP-Seq Sample Prep Master Mix試劑盒:美國 New England Biolabs公司;NEBNext Multiplex Oligos;Agencourt AMPure XP的 DNA純化磁珠:美國BECKMAN COULTER公司;Brilliant SYBR Green QPCR試劑盒:美國Agilent公司;上機雙端測序試劑 Miseq Reagent Kit V3 (2×150 cycles): 美國 Illumina公司;100 bp plus DNA Marker相對分子質量標準品:北京全式金生物技術公司;100%乙醇、Tris、Tween20和 NaOH:美國Sigma公司。1.5 mL低DNA吸附(LoBind)微量離心管:美國Eppendorf。
1.1.2 DNA分子 New England Biolabs公司提供:接頭分子(Adaptor):5’-pGATCGGAAGAGCACACG TCTGAACTCCAGTC/ideoxyU/ACACTCTTTCCCTAC ACGACGCTCTTCCGATCT-3’;上游引物:5’-AATG ATACGGCGACCACCGAGATCTACACTCTTTCCCTA CACGACGCTCTTCCGATCT-3’;下游引物:5’-CAA GCAGAAGACGGCATACGAGATAAGCTAGTGACTG GAGTTCAGACGTGTGCTCTTCCGATCT-3’;下游引物中的下劃線加粗的6個堿基為第10號標簽(index)DNA分子。Takara合成熒光定量PCR引物:上游引物P1:5’-AATGATACGGCGACCACCGA-3’;下游引物P2:5’-CAAGCAGAAGACGGCATACG A-3’。
1.2 儀器
Miseq第二代高通量測序儀:美國Illumina公司;美國Bio-Rad核酸電泳儀、凝膠成像儀和PCR核酸擴增儀;電子天平和pH計:瑞士METTLER TOLEDO公司;NanoDrop2000超微量分光光度計:美國Thermo Scientific公司;Qubit 2.0熒光定量儀:美國Life Technologies公司;Mx300P熒光定量PCR儀:美國安捷倫公司;Fragment Analyzer全自動毛細管電泳儀及其配套試劑:美國Advanced Analytical。ThermoMixer恒溫混勻儀:美國Eppendorf。
1.3 實驗方法
1.3.1 測序樣品文庫制備 切膠純化回收后的PCR產物樣品T1、T2和T3,瓊脂糖凝膠電泳圖中條帶是分布在200~300 bp寬峰,見圖1。用NanoDrop2000測定質量濃度分別為24.2、25.2、26.2 ng/μL;A260/A280的OD值為1.68、1.59和1.76。
建庫的初始樣品用 Qubit 2.0熒光定量儀對PCR產物樣品準確定量后各取2 μL(DNA總量在10~50 ng)于1.5 mL的Lobind離心管,準備第一步的平末端修復反應:1 μL末端修復反應聚合酶和5μL的10×末端修復反應緩沖液,用RNase free H2O補足至反應終體積50 μL,恒溫混勻儀中30℃反應20 min。 結束后加入80 uL的AMPure XP磁珠純化反應后樣品,用44 uL RNase free H2O洗脫。第二步直接向樣品溶液加入1 μL Klenow片段酶和5 μL的10×反應緩沖液(含0.2 mmol/L dATP),在37℃反應30 min,完成末端加“A”修飾反應。同樣用80 μL磁珠純化,19 μL的RNase free H2O洗脫。

圖1 二代測序的PCR產物樣品T1-T3Fig.1 PCR products T1-T3 for next-generation sequencing
將DNA接頭分子稀釋到5 μmol/L后取1 μL到樣品溶液中準備連接反應,加6 μL的5×快速連接緩沖液和4 μL的快速DNA連接酶,小心混勻,室溫25℃靜置孵育15 min。結束后加入試劑盒的USER酶2 μL,在37℃反應15 min完成接頭開環剪切。最后用與樣品等倍體積30 μL的磁珠純化兩遍,檢測濃度。取10 μL(總量在5~10 ng)樣品進行PCR反應,循環數減少至15次。最后用與樣品等體積的磁珠純化兩遍,30 μL的ddH2O洗脫,檢測濃度。
1.3.2 建庫后樣品質量檢控 將建庫后樣品稀釋至0.5~2 ng/μL,分別用Fragment Analyzer全自動毛細管電泳儀進行片段分析;用Mx300Ps熒光定量PCR儀對樣品進行熒光定量檢測。選用的標準品為已準確定量并上機測序后的建庫樣品。用10 mmol/L Tris-HCl pH 8.0,0.05%Tween 20緩沖液按10倍梯度配制成0.002~20 pmol/L五個不同濃度以獲得定量標準曲線。建庫樣品再次稀釋 104倍到 0.1~ 2 pmol/L后取2 μL,2×Brilliant SYBR Green Master Mix 5 μL,10 μmol/L引物P1/P2 Mix 0.4 μL,最后ddH2O補足為10 μL的反應體系,陰性對照組NTC(No Template Control)和所有樣品及標準品做三組重復。
[Final Conc(nmol/L)]=[QPCR]×340×104×10-6/Fragm
式中,[QPCR]代表儀器根據標準曲線檢測出來的平均樣品濃度 (fM);340 bp代表選用的DNA標準品的片段大小;104代表樣品稀釋倍數;Fragm代表建庫后樣品的平均片段大小。
1.3.3 Illumina Miseq上機測序 對已建庫樣品T2準備上機測序,將T2樣品與Phix基因組標準樣品等摩爾混合,用10 mmol/L Tris-HCl pH 8.0緩沖液稀釋至終濃度2 nmol/L,取10 μL的上機混合樣品,加入10 μL 2 mol/L的NaOH充分混勻后室溫變性5 min。用雙端測序試劑盒里的雜交緩沖液將樣品稀釋到18 pmol/L,取600 μL上機測序。Illumina數據收集和分析軟件:Miseq Control Software;Real Time Analysis(RTA);Offline Basecaller(OLB);CASAVA軟件用于進一步數據分析。
2.1 建庫后樣品檢測
PCR產物樣品T1,T2和T3為同一樣本的3個平行生物組重復。建庫結束后檢測終質量濃度為:22.2、15.3、16.1 ng/μL各30 μL體系。隨機選取樣品T2的建庫及上機測序結果分析。用 Fragment Analyzer分析初始樣品和建庫后樣品片段分布,見圖2-3。樣品建庫后片段的出峰位置出現移動,增加約120 bp,滿足接頭序列成功連接后的片段分布情況。根據標準品所得的熒光定量標準曲線其相關系數為Rsq:99.9%,計算得到稀釋后的3個建庫樣品濃度12.46、6.78、7.81 nmol/L,滿足上機測序要求。T2樣品準備上機測序。

圖2 高通量測序樣品T2的DNA片段分析Fig.2 DNA fragment analysis of sample T2

圖3 測序樣品T2建庫后的DNA片段分析Fig.3 DNA fragment analysis of final library sample T2
2.2 上機測序結果
Illumina Miseq測序中最主要指標參數是數據質量Q30值和測序數據量統計結果見圖4-5。其中百分比≥Q30代表每輪測序堿基的質量不低于99.9%所占的百分比。統計T2樣品測序最終的Q值分布(橫坐標)和得到的數據量(縱坐標,單位是million)。統計得到全部測序總數據量為5.8G,數據質量≥Q30的占94.3%。最終統計得到的T2樣品原始測序數據量(Raw Data)為3.725 G。進一步生物信息過濾處理得有效可用數據(clean data)為3.705 G,數據有效率為99.46%,Q20值為94.09%,Q30值為92.85%;GC含量比例為48.19%。結果滿足后續對T2測序樣品的生物學研究分析的基本要求。

圖4 樣品T2在Miseq上機測序得到的全部數據Q值(Quality Score)分布統計Fig.4 Statistic of the QScore distribution on illumina Miseq

圖5 Hiseq2000的測序芯片 (flowcell)中第4條測序通道(lane 4)里所有樣品都只是PCR產物樣品測序時的數據Q30分布統計Fig.5 Statistic of the Qscore distribution without the phix standard mixture on lane 4 at Hiseq 2000
2.3 上機測序實驗優化分析
當前二代高通量測序正突飛猛進地不斷進行技術革新,但以Illumina為平臺的邊合成邊測序的核心技術原理保持不變[2]。在上機測序過程中前25個堿基測序循環(cycle)結果質量的統計方法無法改變,依舊決定了整個測序的數據質量。測序中監測參數Cluster PF(Pass Filter)仍是重要的上機質檢標準。當測序的前25個堿基低質量的數據有兩個以上(即PF<60%),測序儀器將判定這條讀長質檢不通過。而PCR產物樣品DNA多樣性差,在測序中極易引起兩個堿基的識別可靠性低于60%,從而減損最終測序的Q30值和判定合格測序數據總量,見圖6。圖4為Illumina Hiseq2000測序中的第5測序通道(Lane 5)標準基因組樣品測序監測的%Base正常分布情況,Cluster PF(%)為95.23±1.15,可獲得的數據量約34 G;圖7為同時測序中第4通道(Lane 4)的樣品當全為PCR產物時%Base分布情況,Cluster PF(%)為21.24±14.83。使最終得到的合格數據量和Q30的統計值降低,測序通道Lane 4里全部測序數據質量≥Q30僅為52.9%,最終獲得的測序數據量降低到4.5 G。
作者嘗試將待測的PCR產物樣品T2中混合了等摩爾的Phix基因組標準品后進行Miseq測序,監測得到的Cluster PF(%)為89.81±0.72。最終目的樣品T2占整個有效測序數據量的61.77%,大大改善了PCR混合物測序樣品的數據質量和有效數據總量。對于多樣性差的其它待測序DNA樣品,比如RRBS 樣 品 (Reduced Representation Bisulfite Sequencing,簡化的表觀亞硫酸氫鹽測序),由于含有固定的酶切位點序列降低了樣品的多樣性,但通過混入一定量比例的多樣性好的基因組標準品,實驗結果顯示得到的測序數據質量可提高約50%。

圖6 在Illumina Hiseq2000測序儀器中監測的第5條測序通道標準基因組樣品的堿基分布圖Fig.6 Base distribution of genomic DNA sequencing on lane 5 of Illumina Hiseq 2000
目前還可以嘗試降低待測序樣品上樣量的方法改善低多樣性樣品引起的低數據質量的情況。但研究表明至少要降低一半的PCR樣品量才可能達到略微的效果,也大大折損了測序數據總量,并非經濟有效的方案。而選擇將多樣性好的基因組樣品摻入到多樣性差的樣品中上機測序的方法,實驗操作簡單,能改善整個測序通道的樣品多樣性表現,從而提高測序質量,同時也能保證得到的最終有效的測序數據總量損失最少。

圖7 第4條測序通道為全部PCR產物樣品測序時的堿基分布圖Fig.7 Base distribution of all PCR samples sequencing on lane 4 of Illumina hiseq 2000
作者研究探索了一套對普通PCR產物樣品的高通量測序建庫和上機實驗方法,對低多樣性樣品的高通量測序方法做了探索研究,通過對樣品的上機測序數據監測,證實所建立的方法保證樣品制備的高效經濟和測序質量的穩定可靠。
[1]MARDIS E R.A decade’s perspective on DNA sequencing technology[J].Nature,2011,470(7333):198-203.
[2]METZKER M L.Sequencing technologies-the next generation[J].Nat Rev Genet,2010,11(1):31-46.
[3]NIEDRINGHAUS T P,Milanova D,Kerby M B,et al.Landscape of next-generation sequencing technologies[J].Anal Chem,2011,83(12):4327-4341.
[4]王興春,楊致榮,王敏,等.高通量測序技術及其應用[J].中國生物工程雜志,2012,32(1):109-114. WANG Xingchun,YANG Zhirong,WANG Min,et al.High-throughput sequencing technology and its application[J].China Biotechnology,2012,32(1):109-114.(in Chinese)
[5]MCCANN J C,WICKERSHAM T A,Loor J J,et al.High-throughput methods redefine the rumen microbiome and its relationship with nutrition and metabolism[J].Bioinformatics and Biology Insights,2014,8:109-125.
[6]MOROZOVA O,MARRA M A.Applications of next-generation sequencing technologies in functional genomics[J].Genomics,2008,92(5):255-264.
[7]MARDIS E R.Next-generation sequencing platforms[J].Annu Rev Anal Chem(Palo Alto Calif),2013(6):287-303.
[8]YU C,ZHANG Y,YAO S,et al.A PCR based protocol for detecting indel mutations induced by TALENs and CRISPR/Cas9 in Zebrafish[J].PLoS One,2014,9(6):e98282.
[9]NELSON M C,MORRISON H G,BENJAMINO J,et al.Analysis,optimization and verification of Illumina-generated 16S rRNAgene amplicon surveys[J].PLoS One,2014,9(4):e94249.
[10]BOUTIN S,SEVELLEC M,Pavey S A,et al.A fast,highly sensitive double-nested PCR-based method to screen fish immunobiomes[J].Mol Ecol Resour,2012,12(6):1027-1039.
[11]ZHOU Y,ZHU S,CAI C,et al.High-throughput screening of a CRISPR/Cas9 library for functional genomics in human cells[J]. Nature,2014,509(7501):487-491.
[12]CAPORASO J G,LAUBER C L,WALTERS W A,et al.Ultra-high-throughput microbial community analysis on the Illumina HiSeq and MiSeq platforms[J].ISME J,2012,6(8):1621-1624.
[13]AMIR A,ZEISEL A,ZUK O,et al.High-resolution microbial community reconstruction by integrating short reads from multiple 16S rRNA regions[J].Nucleic Acids Res,2013,41(22):e205.
[14]BOWMAN S K,SIMON M D,DEATON A M,et al.Multiplexed Illumina sequencing libraries from picogram quantities of DNA [J].BMC Genomics,2013,14:466.
Methods and Optimization of High Throughput Sequencing Technologies on PCR Products
LI Guilan1, XU Chuanlai2
(1.School of Life Sciences,Peking University,Beijing 100871,China;2.State Key Laboratory of Food Science &Technology,Jiangnan University,Wuxi 214122,China)
The development of the new generation sequencing technology extends the application field of gene sequencing.High throughput sequencing of PCR products has been widely used in functional gene screening,mutation and methylation detection of tumor related genes,etc.In the high throughput sequencing technology,database and computer sequencing experiments are the key factor to decide the quality of DNA data.Based on Illumina sequencing instruments,the sample preparation method and sequencing running for PCR products were optimized,the results make us clearly understand the primary features of high-throughput sequencing techniques,and provide us important references of sequencing methods for low diversity DNA samples to address biological questions of interest.
PCR products,high-throughput sequencing,sample library preparation,sequencing runs
Q 523.8
A
1673—1689(2016)12—1317—06
2015-02-03
國家“十二五”科技支撐計劃項目(2012BAC01B071)。
李桂瀾(1980—),女,重慶人,理學博士,工程師,主要從事DNA測序技術的應用及生物分子相互作用方面的研究。E-mail:liglan@pku.edu.cn