蔡瑞琨,曹宗富,喻浴飛,陳翠霞,張釧,羅敏娜,李乾,馬旭*
(1.國家衛生健康委科學技術研究所,北京 100081;2.國家人類遺傳資源中心,北京 102206;3.甘肅省婦幼保健院醫學遺傳學中心,蘭州 730050)
基因組拷貝數變異(Copy number variation,CNV)是染色體結構變異的一種,通常是指在基因組上長度在1 kb以上的大片段堿基序列的增加或者減少,主要表現為亞顯微水平的缺失或者重復。它與單核苷酸多態性(Single nucleotide polymorphism,SNP)同樣在人群中普遍存在,是人類基因組水平上廣泛分布的一種變異形式[1-2]。近年來,隨著基因組學實驗技術的迅猛發展,高通量測序技術為研究基因組水平上的變異提供了強有力的工具[3]。與疾病相關的基因組水平上的變異研究,不僅僅局限在SNPs,CNVs也可以通過改變基因的倍數、打亂基因的結構等方式影響個體的表型,從而導致單基因遺傳病和復雜疾病[4]。例如,在神經發育類疾病的研究中發現CNVs是一個重要的危險因素[5],在一些散發病例中可以發現共同的新生罕見CNV[6]。CNVs在高危妊娠、自然流產以及遺傳性疾病中有比較高的檢出率,提示在此類人群中CNVs檢測的重要性[7]。在癌癥研究方面,CNVs被認為是一種潛在的腫瘤診斷生物標記物,多種癌基因都與CNVs相關,因此檢測不同腫瘤的CNV具有重要意義[8-9]。
隨著人類基因組學和疾病組學的發展,人類醫學正逐步邁入到精準醫學的時代,可以根據個體的遺傳學背景,闡明個體疾病的發病原因、預測發病風險,以及進行個性化的健康管理和治療。這對個體基因變異的檢測提出了更高的要求,不僅僅滿足于SNPs的檢測,還包括了CNVs的檢測和分析解讀。而CNVs檢測應用于精準醫學方面所面臨的挑戰在于:(1)復雜的分析流程。從原始的高通量測序數據,到分析出CNVs,中間需要若干分析步驟,運行多種分析軟件,不僅消耗大量時間,且技術門檻較高,很難為廣大非生物信息學人員所使用。(2)致病變異的鑒定和解讀。對檢測出的眾多CNVs進行篩選,評價其與表型的關聯,需要消耗大量時間、查閱大量文獻和數據庫,逐個審核和確認,效率非常低[6]。為此,我們基于已有的單基因病遺傳變異解讀系統,針對CNVs的分析流程,又開發出一套基于云的可視化自動化智能化的CNVs變異檢測分析解讀系統,以滿足單基因病和復雜疾病在CNVs檢測方面的臨床和科研需求,并通過https://www.pgenomics.cn/提供免費的分析解讀服務。
分析流程處理的原始數據來自于高通量測序技術產生的全基因組測序數據或者外顯子組測序數據。在Linux系統環境中,首先使用FastQC軟件對fastq格式的原始測序數據進行質量控制。然后,將質量過關的數據用BWA MEM軟件[10]與人類參考基因組(hg19版本)進行序列比對,并用Samtools軟件[11]得到比對后的Bam格式文件。
將輸入的與待測樣本同批次的正常樣本做對照,建立一個參考基線。分別計算每個對照樣本的目的區域內和目的區域外的測序深度,合并所有對照樣本,矯正GC含量等系統誤差,構建正常人樣本的基因組的測序分布模型;在Linux系統環境中,對于全基因組測序數據采用CNVKit軟件[12]實現,對于全外顯子測序數據采用ExomeDepth軟件實現。
將待測樣本與對照樣本建立的參考基線做比對,檢測出待測樣本中相應的變異情況。分別計算每個待測實驗樣本的目的區域內和目的區域外的測序深度,然后計算它們相對于對照樣本的log2 ratio值,再進行小片段劃分,并計算每個小片段區域的絕對拷貝數。在Linux系統環境中,對于全基因組測序數據采用CNVKit軟件實現,對于全外顯子測序數據采用ExomeDepth軟件實現。
對識別的CNVs,根據公共數據庫對變異起始/終止位置、所覆蓋的基因、具體的變異類型、在世界不同人群中的頻率,以及DGV數據庫[13]、千人數據庫、dbVar數據庫和OMIM數據庫中已知變異的致病情況等進行注釋。在Linux系統環境中采用AnnotSV軟件進行注釋,并且該軟件還使用了美國醫學遺傳學和基因組學學院(ACMG)定義的分類標準,給出了初步的致病性分類。
根據變異注釋結果中分析軟件注釋出的變異信息與用戶提交的相關信息之間的近似程度等情況對結構變異進行累計評分,最終的變異評分定義為多種注釋結果的加權評分之和,具體方法為
其中,wi為不同證據的評分權重,si為每個證據的評分;wi默認值為1,可根據情況進行調整。其中,證據評分包括以下幾項:(1)在注釋結果中給出的變異初步致病性分級;(2)用戶輸入的疾病名稱與注釋結果中分析軟件注釋出的此變異對應的疾病名稱,兩個疾病名稱之間的匹配程度;(3)疾病的已知致病基因加權評分;(4)對用戶輸入的表型和每個結構變異片段注釋的表型,兩個表型之間利用多層級聚類算法計算兩者匹配相似度分值;(5)各變異數據庫中不同人群的最大頻率MAX_AF情況;(6)變異所在位置的重要性。在Linux系統環境中使用python語言開發完成此功能模塊。
由于上述分析軟件在Linux系統下基于命令行模式下運行,用戶友好度低,因此,本研究集成了各應用軟件,采用友好的流程管理方案,使用戶可以直接使用Windows系統通過Web瀏覽器直接訪問并分析數據,實現了數據的自動化分析和結果的可視化展示。最終的分析報告及可視化頁面直接在Web瀏覽器中展示,根據變異的總評分降序和基因名稱升序對變異進行排序。變異的總評分越高,說明變異與用戶提交的疾病名稱或表型越匹配,且致病性越高,從而實現了致病變異的推薦功能;推薦頁面包括了變異的位置、覆蓋的基因名稱、變異評分分值、染色體水平上突變的位置圖,以及相關的表型信息和變異頻率信息等。
我們基于云開發了可視化自動化智能化的CNVs變異分析解讀及推薦系統,實現從新一代測序原始數據到致病CNVs推薦的自動化流程(圖1),極大降低了CNVs變異數據分析工作和人工解讀的工作量,大大提高了CNVs分析和臨床解讀的效率。通過https://www.pgenomics.cn/提供免費共享服務,用戶注冊申請后即可登錄使用。
圖1 拷貝數變異檢測自動化分析流程圖
用戶可根據自己的實驗方案和已有的測序數據選擇對應的分析流程,主要分為:基于全基因組的CNV測序(CNV-seq)數據的分析流程,和基于全外顯子組測序數據的分析流程。分析流程導入的數據可以是測序的原始fastq文件格式,也可以是分析過程中的bam文件格式。根據實驗方案,可以選擇使用用戶自己的對照樣本作為檢測CNV的參考基線,也可以使用平臺上提供的參考基線。
示例為一位有磁共振磨牙征等表型的患者的拷貝數分析結果(圖2)。在提交分析流程前,用戶需要輸入數據對應的患者的疾病名稱或者HPO標準表型。例如,此示例輸入的標準表型為“HP:0002419磁共振磨牙征;HP:0001510生長延遲;HP:0007033小腦發育不良;HP:0000639眼球震顫”。提交分析后,系統會自動進行分析,給基因和變異進行評分,與標準表型相關性高的將會賦予更高的分值。待分析結束后,即可查看報告。報告頁面的左側顯示分析的流程,中間部分則是每個基因拷貝數的分析結果,根據拷貝數評分的分值從大到小排序,展示出拷貝數、評分分值、區域范圍、范圍內覆蓋的基因名稱、相關的疾病名稱、遺傳模式和拷貝數的長度等信息。此示例推薦第一位的是TMEM237基因,基因對應的疾病為Joubert綜合征14型,變異區域為基因的1號外顯子區域到2號內含子區域,對應的OMIM編號為614423,平臺附有鏈接,可以直接點擊進入OMIM數據庫進行查看。
圖2 拷貝數分析流程報告界面
本研究基于高通量測序數據,包括全基因組測序數據和外顯子組測序數據,面向遺傳病和腫瘤兩大領域中的拷貝數變異致病性研究,可與SNV/Indel變異致病性研究相結合,共同研究疾病的發病機制、病因診斷,以及產前遺傳病診斷和篩查[14]。
在技術上,本研究采用了生物信息學技術,集成了多個CNV分析相關的應用軟件,并且開發出致病突變的推薦功能模塊,使得CNV分析流程從原始數據處理到最終的致病變異推薦功能全部一次性自動化地分析完成。本系統在功能上實現了一種全自動可視化的拷貝數變異檢測和推薦,能夠對高通量測序的原始數據進行分析,檢測出其中的拷貝數變異,并根據數據對應的臨床表型進行判讀,結合拷貝數變異公共數據庫的注釋信息,對變異進行綜合評分和致病性分級,最終推薦和報告檢測個體中的致病突變?,F有分析軟件多是Linux系統下命令行實現,本系統面向廣大無生物信息學背景的臨床醫生和科研人員,整個分析流程用Windows系統的Web瀏覽器即可訪問使用,并將分析結果進行了可視化展示,真正地實現了拷貝數變異檢測的全程自動化可視化檢測,加快了研究和診斷速度,極大地節約時間和人力成本。并且,本系統已經面向多個省市的多家臨床醫療機構和科研院所的遺傳領域臨床醫生和科研人員免費開放使用[15-16]。