盧宇++袁慧軍
利用Sanger測序技術,2001年人類基因組計劃花費13年耗資近30億美元完成了第一個人類全基因組測序;自2004年新一代測序平臺商業化以來,人類全基因組測序已經實現從2-3個月低于1萬美元下降到今天3天1千美元的大規模商業化服務。革命性的技術進步帶來了遺傳學和其他相關學科的快速發展,特別是大規模平行測序的應用,已經不局限于基礎研究,開始了臨床分子診斷領域的應用。對于遺傳性疾病,最直接的鑒定致病原因的方法是直接對已知致病基因進行測序。對于一些表型復雜的遺傳性疾病或罕見病,NGS能夠提供疾病相關的基因信息,利用測序信息集合臨床特征可對相關遺傳性疾病做出正確的診斷。Yang等人報道了對250例疑似遺傳性疾病患者進行全外顯子組測序,25%的病例通過生物信息學分析鑒定了致病基因,明確了臨床診斷[1]。
新一代測序技術簡介
由于全基因組測序的費用在短時間內很難下降到與目標區域測序相當,在數據分析方面也不及目標區域測序簡便,目標區域測序更適合以臨床應用為目的獲得高深度的測序數據;更重要的是,目前公認大部分功能變異都位于基因的外顯子序列中[2]。
目標區域測序主要包括目標區域的捕獲富集、DNA短片斷測序、生物信息學分析3個主要步驟。目標區域捕獲技術主要包括以NimbleGen為代表的固相靶向序列捕獲系統和以SureSelect為代表的液相靶向序列捕獲系統[3-4],兩種方法具有高準確性、高特異性、高覆蓋度和卓越的可重復性,而且可以按需設計、定制方便,在NGS應用中取得了廣泛的應用[5]。
大規模平行測序數據分析
測序短片段序列篩選及定位:不同的測序技術和生物信息學分析獲得的測序結果差異非常大[6-11],正確認識和理解新一代測序技術各個環節可能出現的錯誤和偏倚,才能在數據分析中獲得完整準確的結果,為臨床分子診斷提供可靠的依據。短片斷序列的定位不僅可以通過聯配為比對獲得SNV和indel提供基礎,更可以在此之前對數據進行再次質控和篩選。SAMtools或Picard等軟件可以根據短片序列在基因組中定位去除重復的測序序列,特別是在目標區域捕獲富集中PCR擴增導致的重復片段。測序平臺直接提供的堿基質量值在一定程度上提示該堿基的錯誤率,但是往往和真實的錯誤率有明顯偏差[12],短片短序列的定位同時也對質量值提供了更精確的再次校準。短片段序列通過與參考基因組序列的比對確定每個位點的基因型,從而找到樣本DNA中的變異。人類基因組之間存在約0.1%的差異,因此即使目標區域測序也會在比對后得到至少上千個SNV/indel,也無法驗證基因型是否準確,但是比對結果的統計分析可以作為質控的重要篩選標準[13]。目前序列比對方法對于indel的判斷差異較大,具體分析過程中往往依賴于定位區域內短片段序列的重復比對,而更大片段的變異,如拷貝數變異,則更依賴于樣品間的測序深度均一性比較。
候選SNV/indel注釋:通過一系列的數據分析過程,NGS獲得數以千計的候選變異,但是其中可能只有一個或幾個是真正的致病突變,生物信息學的篩選除了依賴于這些候選變異的準確性,更重要的是根據基因組學大量的數據庫信息提供每個變異詳細的注釋信息以供分類和篩選。候選SNV/indel在基因組中的位置是首先要考慮的注釋內容。人類基因組數據庫RefSeq、UCSC、Ensembl等對于已知基因位置的注釋存在差異,例如Ensembl的注釋條目是RefSeq的4倍以上,更詳細的注釋可以提高檢測的敏感度,但其中可能存在一些未被確認的信息,造成注釋特異度相對的降低,甚至是假陽性。對候選SNV/indel致病可能性進行評估是突變功能性篩選的主要依據。大多數估計變異致病性的方法是比較各個物種之間這個位點是否被自然選擇保留下來,即保守性分析。預測蛋白水平改變致病性的方法能夠提供進化和生物化學等多方面的信息。無義突變和移碼突變通常認為導致蛋白功能的缺失,因此作為致病突變的候選[14],但是其致病性并不是絕對的[15]。
候選SNV/indel篩選及樣本信息注釋:候選SNV/indel的篩選根據測序平臺、序列堿基和定位質量值、變異在群體中的頻率、注釋信息等多方面因素,考慮具體的臨床分子診斷應用,設置合理的標準。對于臨床分子遺傳學診斷,需要在測序方法的設計和數據分析的設置上對于特異性和敏感性有更高的要求,同時也對運算速度和操作的便捷性有較高的要求,因此開源的工作流管理系統Galaxy、Taverna等可能更適合于個性化整合現有的生物信息學軟件并設置專有的篩選參數進行遺傳性疾病的研究和臨床分子生物學診斷。患者的表型和遺傳背景信息是確定分子遺傳學診斷的重要依據,患者的種族等遺傳背景在變異篩選過程中也需要加以區別。在臨床分子診斷中,通過初步候選獲得疑似致病的變異與已知突變是否一致是篩選的首要標準,其次是該變異所在基因與已知致病基因的一致性。
大規模平行測序對于孟德爾遺傳疾病的臨床分子診斷應用仍然處于探索階段,目前并無統一的規范和標準,獲取大量未知信息的意義也無法全部闡明,相關的醫學倫理學也是一個全新的問題,但是不可否認,新一代測序平臺是一個劃時代的技術革新,伴隨而來的是分子診斷領域全新的時代,值得我們在這條道路上繼續探索前行。
參考文獻
[1]Yang Y,et al.Clinical whole-exome sequencing for the diagnosis of mendelian disorders.N Engl J Med,2013,369(16):1502-1511.
[2]Botstein D.and N.Risch,Discovering genotypes underlying human phenotypes:past successes for mendelian disease,future approaches for complex disease.Nat Genet,2003,33(Suppl):228-237.
[3]Kahvejian AJ.Quackenbush,and J.F.Thompson,What would you do if you could sequence everything?Nat Biotechnol,2008,26(10):1125-1133.
[4]Gnirke A,et al.Solution hybrid selection with ultra-long oligonucleotides for massively parallel targeted sequencing.Nat Biotechnol,2009,27(2):182-189.
[5]Clark MJ,et al.Performance comparison of exome DNA sequencing technologies.Nat Biotechnol,2011,29(10):908-914.
[6]Choi M,et al.Genetic diagnosis by whole exome capture and massively parallel DNA sequencing.Proc Natl Acad Sci U S A,2009,106(45):19096-19101.
[7]Erlich Y,et al.Exome sequencing and disease-network analysis of a single family implicate a mutation in KIF1A in hereditary spastic paraparesis.Genome Res,2011,21(5):658-664.
[8]Manly KFD.Nettleton,and J.T.Hwang,Genomics,prior probability,and statistical tests of multiple hypotheses.Genome Res,2004,14(6):997-1001.
[9]Morton NE.Sequential tests for the detection of linkage.Am J Hum Genet,1955,7(3):277-318.
[10]Ng SB,et al.Exome sequencing identifies the cause of a mendelian disorder.Nat Genet,2010,42(1):30-35.
[11]Ng SB,et al.Targeted capture and massively parallel sequencing of 12 human exomes.Nature,2009,461(7261):272-276.
[12]Altmann A,et al.A beginners guide to SNP calling from high-throughput DNA-sequencing data.Hum Genet,2012,131(10):1541-1554.
[13]Li HJ.Ruan,and R.Durbin,Mapping short DNA sequencing reads and calling variants using mapping quality scores.Genome Res,2008,18(11):1851-1858.
[14]Ng SB,et al.Exome sequencing identifies MLL2 mutations as a cause of Kabuki syndrome.Nat Genet,2010,42(9):790-793.
[15]MacArthur,DG.and C.Tyler-Smith,Loss-of-function variants in the genomes of healthy humans.Hum Mol Genet,2010,19(2):125-130.