李新,劉念,白融,馮莉,阮燕菲,馬長生
二代測序法用于先天性長QT綜合征臨床基因檢測的假陰性分析
李新,劉念,白融,馮莉,阮燕菲,馬長生
目的:探討二代測序法在先天性長QT綜合征(LQTS) 臨床基因檢測中的假陰性問題。
方法:選取2個商業醫學檢驗實驗室(Lab1 和Lab2,HiSeq2000測序平臺)、1個商業科研服務實驗室(Lab3,Ion Torrnet測序平臺)和1個學術機構實驗室(Lab 4,HiSeq2000測序平臺)產生的共28例樣本數據(Lab1:6例;Lab2:8例;Lab3:8例;Lab4:6例),定量分析LQTS的三個主要致病基因KCNQ1、KCNH2和SCN5A外顯子區域測序覆蓋度以及可能漏檢的致病變異數目。
結果:采用HiSeq2000測序平臺的3個實驗室(Lab1、Lab2和Lab4)中,三個致病基因外顯子區域覆蓋度>10倍的比例均高于98%,覆蓋度>30倍的區域介于90%~95%。KCNQ1在兩個商業醫學檢驗實驗室的14例樣本中,低于10倍和30倍覆蓋的外顯子區域比例平均為3.63%和9.84%;低于10倍覆蓋區域集中在第一外顯子,平均包含約2%的已知致病或疑似致病變異。KCNH2在兩個商業醫學檢驗實驗室14個樣本中,低于10倍和30倍覆蓋的區域分別為2.64%和15.76%,低覆蓋區分布在多個外顯子中。Lab1的數據中,KCNH2低于30倍覆蓋區域最高達28.56%,其內包含已知致病或疑似致病變異113個(19.79%)。SCN5A的整體覆蓋度最好,四個實驗室的數據都不存在低于10倍覆蓋的區域,其中兩個商業醫學檢驗實驗室也不存在低于30倍覆蓋的區域。
結論:當前的LQTS基因二代測序檢測中,KCNQ1和KCNH2都存在一定程度的低覆蓋區,因此普遍存在漏檢致病變異的可能,假陰性問題值得高度重視。
QT延長綜合征;高通量核苷酸測序;基因;假陰性反應
(Chinese Circulation Journal, 2017,32:771.)
先天性長QT綜合征(LQTS)是一種遺傳性心律失常。最近的數據表明LQTS發病率達1/2500~1/2000[1]。基因檢測對于LQTS的診斷和治療有重要意義,而對兒茶酚胺性敏感性多形性室性心動過速、Brugada綜合征等心律失常基因檢測目前仍無法指導治療[2]。因此,與其他心律失常相比,基因檢測對于LQTS的臨床價值更為突出,可以說是心血管領域尤其是心律失常領域應用基因檢測的典范。由于二代測序(NGS)技術高通量的優點,當前不僅在科研領域廣泛應用,在我國臨床基因檢測領域也逐漸取代傳統一代測序(Sanger測序)。然而,NGS在臨床應用中仍缺乏統一的質控標準或共識,迫切需要大量的質量控制研究以促進相關標準的建立,從而更好的支持NGS在精準醫學中的應用。
本文選取2個商業醫學檢驗實驗室、1個商業科研服務實驗室和1個學術機構實驗室應用不同NGS平臺產生的數據,對LQTS的三個主要致病基因KCNQ1、KCNH2和SCN5A測序數據質量進行評估,分析NGS在目標基因覆蓋以及變異位點漏檢方面的特點,探討NGS用于臨床檢測LQTS的假陰性問題。
1.1 研究對象
選取歐洲離子通道和心肌病遺傳檢測專家共識中推薦的LQT1-3的3個基因(KCNQ1、KCNH2和SCN5A)為研究對象[2]。分析這3個基因的測序覆蓋度和測序未覆蓋區(“缺口”)中包含的“致病”或“可能致病”突變個數,從而評估當前NGS用于LQTS遺傳診斷帶來的假陰性問題。
1.2 數據來源
NGS數據來自2個商業醫學檢驗實驗室(Lab1、Lab2,擁有臨床細胞分子遺傳學檢驗資格)、1個商業科研服務實驗室(Lab3)和1個學術機構實驗室(Lab4)。測序樣品均為外周血提取的基因組DNA,測序目標基因都包含KCNQ1、KCNH2和SCN5A。Lab1提供了6例遺傳性心律失常基因檢測患者的數據,方法為Agilent靶向捕獲探針對213個心血管相關基因進行捕獲,用HiSeq2000平臺(Illumina公司)生成測序數據。Lab2提供了8例遺傳性心血管病基因檢測患者的數據,其中4例采用Roche探針捕獲445個基因的心血管檢測包,4例采用Agilent探針捕獲6110個基因的綜合檢測包,測序平臺也為HiSeq2000。Lab3提供了8例科研用途的心律失常患者數據,目標區域包括50個基因,測序平臺為Ion Torrent。Lab4提供了6例科研用途的健康人外顯子組測序數據(Agilent 50Mb或70Mb試劑盒),測序平臺也為HiSeq2000。需要說明的是,這些數據并不能用于比較這4個實驗室或其所用平臺的測序質量優劣,我們主要目的是從這些數據中探討假陰性問題的普遍性。
1.3 分析方法
對于NGS原始數據,首先進行基因組比對,比對前使用cutadapt軟件去除接頭和低質量序列,僅保留連續Q值>20的堿基進行比對。每測一個堿基有一個相應的質量值(Quality,Q),用來衡量測序準確度。堿基的Q值為20相當于錯誤率為1%。使用BWA(v0.7.15)軟件和人的基因組參考序列(hg19)進行比對,采用Picard(v2.5.0)軟件去除聚合酶鏈式反應(PCR)重復引入的測序片段(reads),使用Samtools(v1.3.1)軟件將sam文件轉換成bam文件并按染色體排序和建立索引。
測序覆蓋度分析采用BEDTools軟件包中的“Coverage analysis for targeted DNA capture”功能對目標區域reads覆蓋度進行統計(http://bedtools. readthedocs.io/en/latest/,美國猶他大學)。BEDTools是用于各種基因組特征比較及注釋的工具[3]。目標基因編碼區參考序列為KCNQ1(NM_000218.2)、KCNH2(NM_000238.3)和SCN5A(NM_198056.2),編碼區長度分別為2031 bp、3480 bp和6051 bp,累計長度11562 bp。軟件計算出每個堿基位置的測序覆蓋度,連續5個堿基覆蓋度低于10倍或30倍,則認為此區域為<10倍或<30倍。>10倍覆蓋的比例是絕大多數研究中都會報道的NGS數據指標;而>30倍覆蓋通常被認為是高可信度的標準,在近期發布的臨床基因檢測研究中也有應用實例[4,5]。逐個樣本記錄這3個基因上的低覆蓋區域堿基數,再按實驗室分組統計覆蓋度的平均數±標準差。
1.4 臨床變異位點參考數據庫
參考數據庫為美國國家生物技術信息中心(NCBI)的ClinVar數據庫[6,7](http://www.ncbi.nlm. nih.gov/clinvar/)。對于每個樣本數據中的低覆蓋區域,記錄其在數據庫中相應區域內包含的致病變異和疑似致病變異個數。
2.1 4組來自不同實驗室測序數據的覆蓋度評估
用HiSeq 2000測序平臺的3個實驗室KCNQ1、KCNH2和SCN5A的覆蓋度都在98%以上(至少10倍覆蓋),采用外顯子組測序的Lab4,<30倍覆蓋的比例明顯高于兩個臨床醫學檢驗實驗室。而采用Ion Torrent的Lab3,數據覆蓋度略低于其他實驗室(圖1),這與Lab3提供數據的實驗設計有關,并不意味著Ion Torrent平臺的覆蓋度不如其它平臺。實際上,所有實驗室的>10倍和>30倍覆蓋區域所占比例差異無統計學意義(P>0.05)。

圖1 KCNQ1、KCNH2和SCN5A三個基因的總體測序覆蓋情況
2.2 低覆蓋區域比例及包括的變異數
Clinvar數據庫(2016-08-10)收錄的KCNQ1、KCNH2和SCN5A中致病及可能致病的(Pathogenic / Likely pathogenic)變異個數分別為:KCNQ1中386個,KCNH2中571個,SCN5A 中442個。
KCNQ1:28例樣本中有5例樣本(Lab2的4個,Lab3的1個)此基因被完全覆蓋(>10倍),其余23例樣本低覆蓋度區域集中在第1個外顯子(表1)。以Lab1中此基因覆蓋最差的1號樣本為例,編碼區開頭的178 bp覆蓋度低于10倍(8.7%),包括7個ClinVar數據庫收錄的致病或疑似致病變異,占此基因全部386個的1.8%;<30倍區域287 bp,包含10個致病或疑似致病變異。Lab2中此基因覆蓋較差的7號樣本有192個堿基覆蓋度低于10倍,其中包括8個ClinVar數據庫收錄的致病或疑似致病變異,占此基因所有386個的2%;<30倍區域319 bp,包含15個致病或疑似致病變異。兩個臨床檢驗實驗室14個樣本(表1),KCNQ1中<10倍的外顯子區域比例平均(3.63±0.37)%,<30倍區域比例平均(9.51±0.41)%。

表1 KCNQ1在三個HiSeq平臺實驗室的測序覆蓋情況
KCNH2:4個實驗室中Lab3數據在KCNH2覆蓋度最差,在4個外顯子上存在<10倍區域,因其所用測序平臺不同于其它三個實驗室,數據未列在表2中。兩個臨床檢測實驗室中,Lab2的覆蓋情況優于Lab1,8個樣本中有5個樣本此基因存在<10倍區域。而Lab1的6個樣本均有存在<10倍區域,與采用外顯子捕獲測序的Lab4很相似,低覆蓋區域主要集中在4號和12號外顯子(表2)。兩個臨床檢驗實驗室14個樣本,KCNH2中<10倍和<30倍覆蓋度的外顯子區域比例平均值分別為2.64%和15.76%。
以Lab1中覆蓋較差的1號樣本為例,覆蓋度<10倍區域累計236 bp,占此基因編碼區的6.78%。這些低覆蓋區域中包含31個ClinVar數據庫收錄的致病或疑似致病變異,占所有571個變異的5%。此樣本<30倍覆蓋區域更是高達28.56%(表2),其中包括致病或疑似致病變異113個(19.79%)。

表2 KCNH2在三個HiSeq平臺實驗室的測序覆蓋情況
SCN5A:SCN5A是三個基因中覆蓋度最好的。4個實驗室所有樣本SCN5A各外顯子測序覆蓋度均>10倍,兩個臨床檢測實驗室的數據覆蓋度均>30倍。采用外顯子組測序的學術機構實驗室Lab4 此基因<30倍覆蓋的平均比例為2.9%。
我們通過對4個實驗室28例樣本NGS數據的分析,首次展示了國內當前采用NGS檢測LQTS基因變異將不可避免地出現低覆蓋區域,從而引起致病突變漏檢(假陰性)的可能。本研究觀察到兩個臨床檢驗實驗室的數據SCN5A測序覆蓋情況良好;而KCNQ1和KCNH2<10倍覆蓋區域平均值分別為3.38%和2.64%,在不同樣本間差異較大(0%~11.6%)。美國著名基因檢測公司Familion以1例健康個體的Ion Torrent NGS數據為例,指出僅用NGS在KCNQ1、KCNH2、SCN5A和RYR2四個重要心律失常基因上存在不容忽視的低覆蓋區,比如KCNH2<40倍覆蓋的區域達34%[8]。
NGS覆蓋度受測序數據量、目標基因序列GC含量、目標區域捕獲效率、檢測包(Panel)中基因之間序列的相似性程度等影響,不同批次送檢的同一Panel的測序結果之間也會有一定程度的差異。因此,Familion指出為提高臨床基因檢測結果的準確性,應聯合采用經典Sanger測序和NGS。一些國外著名臨床機構對遺傳性心律的基因檢測也采用Sanger測序為代表的其它方法對NGS覆蓋不滿意的區域進行補充,基本不允許存在“缺口”,但對需要補充Sanger測序或其它方法的區域并沒有統一標準(Dr. Ackerman 私人通訊2015)。對關鍵基因做到完全覆蓋,有利于提高陽性檢出率。我國最大的LQTS注冊隊列研究,通過心電圖預測指導的Sanger測序法僅對這3個基因進行順序檢測,在230例患者中突變檢出率達81%(186/230)[9]。
理論上,用于臨床檢測的NGS質量控制應比科研目的的檢測質量控制更加嚴格,但實際上,國內很多臨床基因檢測公司對于影響測序質量的很多環節的處理與科研檢測無異,質量控制還有待改善。這種情況與國內臨床基因檢測領域尚無可遵循的指南或標準也有關系。2015-12歐洲率先發表NGS臨床診斷應用指南[10],其第一條就指出“阻止NGS過早用于診斷的原因只能是其質量差,未通過驗證就進入臨床診斷對患者而言具有威脅性,同時也是不可接受的”。值得注意的是,最近一些臨床基因檢測公司對于臨床檢測樣本和科研樣本已區別對待,對臨床檢測樣本會適當提高測序數據量(測序深度),這可在很大程度上縮小低覆蓋區域的比例。但僅靠提高測序數據量還不夠,如上所述,測序的質量還受很多其它因素的影響,如建庫質量、捕獲效率以及目標基因本身的序列特征等影響。對于特定基因,比如本文關注的3個基因在同一實驗室的同一檢測包中覆蓋情況都有不同。
歐洲NGS臨床診斷應用指南提出了NGS診斷檢測的“評價系統”,將NGS診斷檢驗分為三類:A類:實驗室可保證編碼區及側翼區99%以上的測序可靠度,通過Sanger 測序或其它方法補充NGS漏洞區域的序列。B類:實驗室明確指出哪些區域的NGS測序可靠度在99%以上,選擇性的對某些NGS漏洞區域進行Sanger 測序或其它方法補充。C類:實驗室測序僅依賴NGS,無Sanger或其它測序補充。目前國內的NGS臨床診斷商業公司,絕大多數都為C類,在基因篩查階段只依賴NGS,只是在檢測到個別相關性強的位點時,才會進行此位點的Sanger測序驗證。因此,目前國內NGS臨床檢測的假陰性的問題是比較普遍且嚴重的。心血管方面尚缺乏公開報道的數據,而在眼科相關基因檢測中,我國學者通過對179個視網膜色素變性家系先證者進行NGS,50人未能檢測到相關變異。對這50人進一步用Sanger 測序法重新檢測原來NGS已包括的ORF15基因,又在7例患者中發現了致病突變,而這7例患者的致病突變都位于NGS的低覆蓋區域(<10倍)[11]。
本文的局限性在于,僅對4個實驗室測序數據比對上的部分進行了覆蓋度分析,未能具體分析低覆蓋區域產生的技術原因。但這4個實驗室的數據普遍表明了僅用二代測序進行LQTS臨床基因檢測存在不容忽視的假陰性可能,臨床醫生或診斷實驗室應謹慎下結論。
綜上,假陰性率是臨床基因檢測中的重要質量控制問題之一。對于遺傳性心律失常的臨床基因檢測,我們呼吁對于指南或共識中[12]推薦的基因應在NGS外采補充Sanger測序,以盡量減少假陰性,提高心律失常NGS臨床檢測準確率。我們也希望我國能盡快出臺NGS臨床應用相關的指南或標準,引導NGS在精準醫療事業中發揮更大價值。
[1] Schwartz PJ, Stramba-Badiale M, Crotti L, et al. Prevalence of the congenital long-QT syndrome. Circulation, 2009, 120: 1761-1767.
[2] Ackerman MJ, Priori SG, Willems S, et al. HRS/EHRA expert consensus statement on the state of genetic testing for the channelopathies and cardiomyopathies this document was developed as a partnership between the Heart Rhythm Society (HRS) and the European Heart Rhythm Association (EHRA). Heart Rhythm, 2011, 8: 1308-1339.
[3] Quinlan AR, Hall IM. Bedtools: A flexible suite of utilities for comparing genomic features. Bioinformatics, 2010, 26: 841-842.
[4] Manase D, D'Alessandro LC, Manickaraj AK, et al. High throughput exome coverage of clinically relevant cardiac genes. BMC Med Genomics, 2014, 7: 67.
[5] Megahed H, Nicouleau M, Barcia G, et al. Utility of whole exome sequencing for the early diagnosis of pediatric-onset cerebellar atrophy associated with developmental delay in an inbred population. Orphanet J Rare Dis, 2016, 11: 57.
[6] Rehm HL, Berg JS, Brooks LD, et al. ClinGen--the Clinical Genome Resource. N Engl J Med, 2015, 372: 2235-2242.
[7] Landrum MJ, Lee JM, Riley GR, et al. Clinvar: Public archive of relationships among sequence variation and human phenotype. Nucleic Acids Res, 2014, 42: D980-985.
[8] Callis TE, Hutchinson S, Lu H, et al. Complementary use of conventional and nextgeneration sequencing methods is critical for accurate mutation detection in multi-gene arrhythmia panels. Heart Rhythm, 2015, 12(Suppl): S97-S154.
[9] Gao Y, Liu W, Li C, et al. Common genotypes of long QT syndrome in China and the role of ECG prediction. Cardiology, 2016, 133: 73-78.
[10] Matthijs G, Souche E, Alders M, et al. Guidelines for diagnostic nextgeneration sequencing. Eur J Hum Genet, 2016, 24: 2-5.
[11] Huang XF, Wu J, Lv JN, et al. Identification of false-negative mutations missed by next-generation sequencing in retinitis pigmentosa patients: A complementary approach to clinical genetic diagnostic testing. Genet Med, 2015, 17: 307-311.
[12] 中華心血管病雜志編輯委員會心律失常詢證工作組. 遺傳性原發性心律失常綜合征診斷與治療中國專家共識. 中華心血管病雜志, 2015, 43: 5-20.
False-negative Possibility in Genetic Test of Congenital Long QT Syndrome by Next-generation Sequencing
LI Xin, LIU Nian, BAI Rong, FENG Li, RUAN Yan-fei, MA Chang-sheng.
Department of Cardiology, Beijing Anzhen Hospital, Capital Medical University, National Clinical Research Center for
Cardiovascular Diseases, Beijing (100029), China
MA Chang-sheng, Email: chshma@vip.sina.com
Objective: To explore the false-negative possibility in genetic test of congenital long QT syndrome (LQTS) by nextgeneration sequencing (NGS).
Methods: A total of 28 genomic DNA samples were collected from 4 laboratories including 2 commercial medical laboratories using HiSeq2000 platform as Lab1, n=6 and Lab2, n=8; 1 commercial research service laboratory using Iontorrent platform as Lab3, n=8 and 1 academic laboratory using HiSeq2000 platform as Lab 4, n=6. Sequencing coverage in the exons of protein-coding region in 3 main LQTS pathogenic genes as KCNQ1, KCNH2, SCN5A and possible pathogenic variants were quantitatively analyzed.
Results: In Lab1, Lab 2 and Lab 4 with HiSeq2000 platform, above 98% protein coding regions in 3 pathogenic genes were covered with>10-fold reads and 90%-95% were covered with>30-fold reads. In 2 commercial medical laboratories, 3.63% and 9.84% protein coding regions of KCNQ1 gene in 14 samples were covered with<10-fold reads and with<30-fold reads; lower than 10-fold covering region was focused in the 1stexon including about 2% known or likely pathogenic variants. In 2 commercial medical laboratories, 2.64% and 15.76% protein coding regions of KCNH2 gene in 14 samples were covered with<10-fold reads and with<30-fold reads; low covering region was located in multiple exons. For the data from Lab 1, ashigh as 28.56% protein coding regions of KCNH2 gene were covered with<30-fold reads including 113 (19.79%) known or likely pathogenic variants. SCN5A gene had the best coverage of protein coding region, with no<10-fold reads in all 4 Labs and no<30-fold reads in 2 commercial medical laboratories.
Conclusion: Currently, NGS has low coverage region in both KCNQ1 and KCNH2 genes, pathogenic variants could be missed and false-negative possibility should be highly alert.
Long QT syndrome; High-throughput nucleotide sequencing; Gens; False Negative Reactions
book=771,ebook=47
2016-11-03)
(編輯:漆利萍)
國家自然科學基金(81500246,81470465);北京市自然科學基金(7161003);北京市醫管局臨床醫學發展專項(ZYLX201302)
100029 北京市,首都醫科大學附屬北京安貞醫院 心內科, 國家心血管病臨床醫學研究中心
李新 副研究員 博士 主要從事心血管病遺傳與基因組學研究 Email: leexin9907@126.com 通訊作者: 馬長生 Email: chshma@vip.sina.com
R54
A
1000-3614(2017)08-0771-05
10.3969/j.issn.1000-3614.2017.08.010