王 瀟 王雅瓊 董欣然 吳冰冰 王慧君 盧宇藍 周文浩
(國家兒童醫學中心/復旦大學附屬兒科醫院兒科研究院分子醫學中心 上海 201102)
近年來,高通量測序技術(全基因組測序、臨床外顯子組測序以及基因檢測包)在遺傳病診斷中扮演著重要角色。從測序數據中識別致病遺傳變異,能幫助臨床醫師明確疾病病因,優化疾病管理方案。高通量測序數據分析的主要流程包括對測序數據的預處理及變異檢測、變異注釋、變異篩選和變異分類等[1]。其中,變異的注釋是測序數據分析的基礎。簡單來說,注釋的內容主要包括:數據質量、變異的基因組位置、所屬基因及轉錄本、基因型、人群頻率、對mRNA 及蛋白質的影響、致病性預測,以及疾病相關性;在基因層面,還包括基因名、基因功能、表達模式、參與的通路以及相關的疾病或表型等[2]。目前已開發出許多成熟的注釋工具如ANNOVAR[3]、VEP 等[4],可 以 對 變 異 進 行 自 動 注釋。這些工具依賴的數據庫包括公共疾病數據庫,如人類孟德爾遺傳疾病在線數據庫(Online Mendelian Inheritance in Man,OMIM)[5]、人類基因突變數據庫(the Human Gene Mutation Database,HGMD)[6]和ClinVar[7]等。OMIM 目前已收集了超過1.6 萬個基因和8 600 個表型信息。HGMD 通過人工收集和審核出版文獻中的遺傳變異信息,截至2020 年6 月收錄超過1 萬個基因的28 萬個與疾病相關的遺傳變異。ClinVar 是一個面向公眾免費的數據庫,一千三百多個機構向其提供了超過80 萬條條目,包含超過50 萬個與疾病相關的遺傳變異及相關注釋信息。
在人類基因組學迅猛發展的歷程中,多種基因名和基因注釋版本并行,同一個遺傳變異在基因層面和轉錄本層面有不一致表示方式,這給臨床應用和科研交流造成極大的困擾,甚至會導致疾病診斷失?。?]。目前行業內對于變異的命名主要依據人類基因組變異協會(Human Genome Variation Society,HGVS)標準[9],基因名主要依據人類基因命 名 委 員 會(HUGO Gene Nomenclature Committee,HGNC)提供的核準基因名[10-11]。然而由于疾病數據庫中收集的信息來源廣、時間長,有的甚至在人類基因組計劃開展之前,導致基因及變異的命名方式不符合最新標準。此外,注釋所參考的數據庫版本也在不斷更新。美國國家生物技術信 息 中 心(National Center for Biotechnology Information,NCBI)提供了全面且權威的基因組檢索數據庫,包含可供檢索的基因查詢號(Entrez Gene ID)[12]和參考序列查詢號(RefSeq ID)[13]。歐洲生物信息所(EMBL-EBI)維護的Ensembl 數據庫同樣記錄了所有基因及參考序列的查詢號[14]。GENCODE 是基因組功能注釋中最常用的數據庫,整合ENSEMBL 的人工和自動基因注釋信息,提供對 應 RefSeq 和 ENSEMBL 查 詢 號 信 息[15]。GENCODE 從2009 年3 月發布的v2b 開始,平均每2~3 個 月 更 新 一 版(https://www.gencodegenes.org/human/releases. html)。最近一次的更新主要完善新的蛋白質編碼基因、lncRNA 以及假基因的注釋等[16]。如此高的更新頻率也會導致注釋數據庫中存在一些尚未更新或被棄用的信息。隨著大部分注釋數據庫中的信息數量增長減緩,總體數量已趨于穩定,可以對數據庫中的基因及變異名稱的準確性進行校驗并提供符合指定參考標準版本的正確表示方式。
我們以GENCODE 2020 年4 月發布的版本v34作為參考標準,對OMIM(2020 年7 月版本)中的所有疾病相關基因名及HGMD(2020 年7 月版本)、ClinVar(2020 年7 月版本)中的變異逐一進行比對校驗。對校驗后有出入的變異提供依據指定注釋參考更新后的HGNC 基因名稱,轉錄本查詢號(RefSeq,ENSEMBL)和突變表示方式(HGVS)。該工作可以有效提高遺傳變異數據分析、解讀、驗證和交流的效率,輔助遺傳病診斷和相關科研工作的順利進行。
數據來源OMIM 基因注釋信息下載自OMIM 網站(https://omim.org/downloads,2020 年7 月);HGMD 變 異 注 釋 文 件 下 載 自HGMD 網 站(http://www.hgmd.cf.ac.uk/ac/index.php,2020 年7月);ClinVar 變異注釋文件下載自NCBI ClinVar 網站(https://www.ncbi.nlm.nih.gov/clinvar/,2020 年7 月);人基因組轉錄本注釋信息(ENSEMBL 轉錄本)以及ENSEMBL 轉錄本查詢號與NCBI RefSeq轉錄本查詢號對應列表均下載自GENCODE 網站(https://www. gencodegenes. org/human/release_34lift37.html,版本34,2020 年4 月)?;蜃⑨屝畔ⅲò珽ntrez 及ENSEMBL 基因查詢號)同樣下載自GENCODE 官 網(版 本19 和34,2020 年4 月)。HGNC 的核準基因名及對應到其他數據庫的查詢號 信 息 下 載 自HGNC 數 據 庫(https://www.genenames.org/download/custom/,2020 年7 月)。所用人基因組版本均為GRCh37。
OMIM 基因名校驗由于OMIM 對每個基因提供了OMIM 查詢號及其對應的NCBI Entrez 及ENSEMBL 查詢號,我們對OMIM 的所有基因分別給出校驗后的HGNC 和GENCODE 兩種標準基因名,校驗結果以參考列表的形式展示(表1)。具體做法如下:(1)以HGNC 為標準的校驗。從HGNC網站下載到HGNC 核準基因名與OMIM 查詢號、Entrez 基因查詢號的對應關系列表。對OMIM 中的所有基因首先按照OMIM 查詢號在HGNC 中進行檢索,給出其對應的HGNC 核準基因名;若該基因在HGNC 中未匹配到OMIM 查詢號,則進一步用OMIM 提供的Entrez 基因查詢號在HGNC 中檢索并給出對應的HGNC 核準基因名;若仍未匹配到,則認為其沒有HGNC 核準基因名,標記為noOMIM2HGNC;若OMIM 未提供某個基因的Entrez 基因查詢號,則直接標記為noEntrez。(2)以GENCODE 為標準的校驗。在GENCODE v19 和v34 兩個版本的數據庫中用ENSEBML 查詢號進行檢索,給出其對應的GENCODE 標準基因名;若該基因在GENCODE v19 或v34 的版本中未匹配到ENSEMBL 查詢號,則認為其沒有GENCODE 標準基因名,標記為noOMIM2ENSG;若OMIM 未提供某個基因的ENSEMBL 查詢號,則直接標記為noENSG。
HGMD 及ClinVar 的變異匹配校驗由于HGMD 和ClinVar 中 的 變 異 以HGVS 規 則 展 示,我們以GENECODE 數據庫版本v34 中記錄的NCBI RefSeq 和ENSEMBL 參考序列查詢號為標準,對所有變異以HGVS 規則表示時所使用的參考序列查詢號做校驗,校驗結果以參考列表的形式展示。具體做法如下:(1)查看數據庫是否提供變異的HGVS 名稱,若未提供相應的HGVS,則在HGVS DNA,HGVS protein,RefSeq 及ENSEMBL 列各標記為無轉錄本編號(noNM)、無蛋白質編號(noNP)、無 RefSeq 查 詢 號(noRefSeq)和 無ENSEMBL 查詢號(noENST)。(2)若數據庫提供了變異的HGVS,則判斷變異是否發生在外顯子上,若不在外顯子上,進一步判斷該變異HGVS 所屬RefSeq 轉錄本是否存在(在GENCODE v34 版本中是否有ENSEMBL 轉錄本與之匹配),若不存在,則將RefSeq 列和ENSEMBL 列標記為noSite2NM 和noSite2ENST;若RefSeq 轉錄本存在,則匹配當前版本RefSeq 轉錄本及ENSEMBL 轉錄本查詢號。若RefSeq 轉錄本無法匹配到ENSEMBL 轉錄本,則將ENSEMBL 列標記為noENST2NM。(3)若變異的HGVS 顯示其發生在外顯子上,同樣判斷HGVS 中的RefSeq 轉錄本是否存在。若不存在,則從變異的基因組坐標入手,利用bedtools intersect 工具將其匹配到所有可能的ENSEMBL 轉錄本上,若沒有匹配,則ENSEMBL 列標記為noENST2Site。進一步匹配到當前版本的RefSeq 轉錄本并給出查詢號,若沒有匹配,則RefSeq 列標記為noNM2 ENST。(4)若 變 異 處 于 外 顯 子 且HGVS 中 的RefSeq 轉錄本存在,則將該RefSeq 轉錄本匹配到當前版本的RefSeq 轉錄本查詢號,并匹配到ENSEMBL 轉 錄 本,若 未 匹 配,ENSEMBL 列 標 記為noENST2NM。若匹配到ENSEMBL 轉錄本,則查詢變異所處的基因組坐標是否位于該ENSEMBL 轉錄本上。若不在該轉錄本上,則按照變異的基因組坐標匹配所有可能的ENSEMBL 轉錄本,若沒有匹配,則RefSeq 列和ENSEMBL 列各標記為noNM2Site 和noENST2Site。進一步匹配到當前版本的RefSeq 轉錄本并給出查詢號,若沒有,則RefSeq 列標記為noNM2ENST。否則即校驗通過。
OMIM 基因名的校驗為了確保在基因診斷和研究交流時采用正確的基因,我們對最常用的遺傳病致病基因數據庫OMIM 中的所有基因名進行校驗?;贜CBI 的Entrez 數據庫和ENSEMBL 數據庫提供的基因唯一查詢號分別比較OMIM 基因與HGNC 和GENCODE 對應的基因名是否吻合(圖1A)。校驗結果見圖2,信息示例見表1,共有17 204 個OMIM 基 因 編 號,對 應17 201 個 基 因,其中有3 個基因是重復的,即TEC,PLCXD1和XGR。在OMIM 更 新 版 本 中(2020 年10 月),TEC和PLCXD1已保留了唯一正確的條目,而XGR(處于X 與Y 染色體同源區域)已被移除。86.7% 的OMIM 給出的基因名與HGNC 的核準基因名是相同的,但仍然存在小部分基因名缺失或錯誤的情況,其中有972 個(5.65%)OMIM 基因名與HGNC核準基因名不匹配,另外有277 個(1.61%)基因未提 供Entrez 基 因 查 詢 號(noEntrez),1 039 個(6.04%)OMIM 基因給出的Entrez 基因查詢號沒有匹配到HGNC 核準基因名(noOMIM2HGNC)。例如,STRK1(MIM:606799)沒有對應的Entrez 基因查詢號(noEntrez),DYT13(MIM:607671)沒有匹配的HGNC 核準基因名(noOMIM2HGNC)。再如,MEIR1(MIM:616848)校正后的核準基因名為MIER1,屬于拼寫錯誤。另一個例子是GLMN(MIM:601749),在OMIM 中給出了GLML,GVM,VMGLOM3 種非正式的基因名。在所有OMIM 校驗失敗的基因中,我們列出了73 個與HGNC 核準基因名不符的具有表型描述的OMIM 致病基因及其信息(附表2),需要在進行基因注釋及診斷報告時予以注意。

表1 OMIM 基因校驗情況示例Tab 1 Examples of gene validation in OMIM

圖1 基因名及變異校驗方法流程Fig 1 Validation pipeline for gene symbols and variants
OMIM 與GENCODE 數據庫比較結果顯示1 580 個OMIM 基因沒有給出ENSEMBL 的基因查詢 號(noENSG,如OMIM 基 因PTPRZ2。 ID:604008),另外有117 個OMIM 基因的ENSEMBLE基因ID 沒有匹配到GENCODE 的基因名上(noOMIM2ENSG,如OMIM 基 因MIR34A。ID:611172)。由于基因名本身在不斷更新,我們提供了GENCODE 兩個版本v19 和v34 的基因名,共有952個OMIM 基因在GENCODE 兩個版本中是不同的。 例 如OMIM 基 因GPR179(ID:614515)在GENCODE v19 中 是 缺 失 的;OMIM 基 因PRMT9(ID:616125)在v19 的名字為PRMT10。
HGMD 和ClinVar 變異的校驗基因診斷中正確描述致病基因的遺傳變異同樣至關重要。我們對變異描述遵循HGVS 規則,例如基因區的單核苷酸變異或小片段插入缺失變異需標明參考序列(轉錄本)、位置和變異類型。由于大量基因對應多個轉錄本,基因組上同一位置的變異對不同轉錄本可能造成不同影響,因此確定變異所屬的轉錄本尤為重要。由于預測方法及實驗技術的不斷更新,轉錄本本身序列及其查詢號都在不斷更新,使用錯誤或滯后的轉錄本信息會給基因診斷注釋及驗證帶來困擾。因此,對于兩個常用的致病變異注釋數據庫HGMD 和ClinVar,我 們 以GENCODE v34 作 為 參考標準,對HGMD 和ClinVar 提供的每個變異的HGVS 所屬轉錄本進行RefSeq 和ENSEMBL 轉錄本查詢號的匹配和校驗(圖1B,附表1)。
統計結果見圖2、表2。ClinVar 和HGMD 中分別有83.47%和18.78%的變異,與參考注釋完全匹配。 對于HGMD,即便忽略蛋白質注釋只看mRNA 注釋,也僅有21.33%的變異給出的mRNA轉錄本查詢號完全正確。如果從轉錄本的校驗率來看,HGMD 的變異所屬的RefSeq 轉錄本共有10 859 條,僅17.73%與參考注釋匹配,ClinVar 的變異所屬轉錄本共有12 291 條,其中98.01%與參考注釋匹配。對于HGMD 來說,有78.33%的變異屬于其所在的轉錄本版本不是標準的GENCODE v34的版本(如變異CM1613956,NM_152486.2 校驗后應為NM_152486.3),亟待更新。

表2 HGMD 和ClinVar 變異校驗數量統計Tab 2 Count summary of variants in HGMD and ClinVar [n(%)]

圖2 OMIM、HGMD 及ClinVar 校驗統計Fig 2 Validation summary of OMIM,HGMD and ClinVar
另外,兩個數據庫均存在少量變異標注的轉錄本與參考注釋不一致的情況(HGMD:0.27%,ClinVar:0.17%)。如HGMD 變異CD153139 標注轉錄本查詢號為NM_020794.2,該轉錄本由于缺乏足夠的證據而被當前RefSeq 數據庫移除(https://www. ncbi. nlm. nih. gov/nuccore/NM_020794.2)。HGMD 數據庫中703 個變異共對應47 條獨立的RefSeq 轉錄本(附表3),這些轉錄本因為缺乏明確的實驗證據、不編碼蛋白質、包含內含子序列或錯誤編碼到鄰近基因等原因已被棄用,或被其他RefSeq 轉錄本查詢號替代(如NM_001257360.1 替代 為 NM_001368809),或 是 NCBI 中 獨 有(ENSEMBL 中未找到對應記錄)的轉錄本。
其他校驗錯誤還包括(附表1):HGVS 信息缺失(如CM188806)、非外顯子區的變異、HGVS 中的RefSeq 轉錄本不存在(如HGMD 變異CS1912872所在轉錄本NM_001291381.1,該轉錄本通過預測得到,尚未經實驗證實)、外顯子區的變異HGVS 中的RefSeq 未在GENCODE v34 中收錄且根據基因組位置也無法匹配到ENSEMBL 轉錄本上(如HGMD 變 異 CM1813348 所 在 轉 錄 本 NM_001171935.1),以及未給出變異所在轉錄本預測的RefSeq 蛋白質查詢號(如HGMD 變異CR133723)。
遺傳變異的準確表示是變異數據分析的基礎,生物信息分析人員常用ANNOVAR、VEP 等綜合注釋工具對高通量測序分析數據進行一步式注釋,而這些工具底層依賴的注釋資源是HGMD 等數據庫。我們在實際的分子診斷工作中,發現常用疾病數據庫注釋出來的部分基因或變異的命名是錯誤的,例如查不到其來源,與文獻或其他來源給出的命名不一致,因此對常用注釋數據庫進行基因和變異的校驗是減少注釋錯誤必不可少的一環。我們首次對這些數據庫中所有的基因名和變異所屬轉錄本進行名稱評估,并建議相關科研及工作人員在實際過程中盡可能選用最新基因注釋版本,并在分析報告中標注基因的版本號,便于后續人工核查和追溯。本研究對3 個疾病注釋數據庫OMIM 基因名和HGMD、ClinVar 的變異進行校驗,結果顯示數據庫中大部分的基因名和變異的注釋能與參考注釋匹配。然而,在OMIM 中仍有少部分基因存在核準基因名缺失或基因名變更的情況。HGMD 中也存在大量的變異所標注RefSeq 轉錄本的版本需要更新;HGMD 及ClinVar 中均存在少量變異所標注的轉錄本已被棄用或查詢號改變。在涉及這些基因的變異解讀和研究中需要格外注意。
我們選用GENCODE 參考注釋,是由于GENCODE 注釋系統廣泛地應用于大型國際研究項目,如DNA 元件百科全書項目(Encyclopedia of DNA Elements,ENCODE)[17]、基 因 型 和 組 織 表 達關 聯 數 據 庫(Genotype-Tissue Expression,GTEx)[18]、癌癥基因圖譜計劃(The Cancer Genome Atlas,TCGA)[19]、基 因 組 集 成 聯 合(Genome Aggregation Database,gnomAD)[20]、千人基 因組項目(1000 Genomes Project)[21]和人類細胞圖譜項目(Human Cell Atlas,HCA)[22]等。采 用GENCODE注釋標注便于我們在數據分析過程中整合各大數據庫的信息,我們的工具提供新老版本的GENCODE 注釋編號,也便于相關人員在變異的解讀和后續研究過程中,在各個數據庫在線平臺進行人工檢索查詢。由于GENCODE 注釋仍在持續更新,本文展現的校驗結果具有時效性,但我們開發的方法能較為方便地提供更新的校驗結果。除了參考注釋,我們所校驗的3 個數據庫本身也在不斷更新與修正。截至2022 年1 月,OMIM 已記錄了17 857 個OMIM 條目,與舊版相比,廢除了19 個條目,新增672 個條目,在17 185 個同舊版本相同的條目中(OMIM 查詢號不變),更新了666 個基因名。新版HGMD(2021 年11 月)收錄了315 143 條變異記錄,與舊版相比,廢除了17 條記錄,新增52 017 條記錄,對于其中263 126 個查詢號未改變的變異,有247 144 個位點的轉錄本記錄發生更新(約94%),進一步證明舊版本的HGMD 中所記錄的位點所屬轉錄本號確實存在大量版本滯后的情況。新版ClinVar(2022 年1 月)所記錄的變異條目已達到907 441 條,與舊版相比,廢除了4 447 條記錄,新增291 457 條記錄,但是其剩余的615 984 個變異所屬的轉錄本均未在新版本中更新,這也說明我們工作的必要性。特別是在臨床報告解讀過程中,變異標注的基因名和轉錄本編號是重要的參考依據,也是后續實驗驗證的憑據。我們在實踐中發現,向實驗人員提供準確完整的RefSeq 轉錄本查詢號,包括版本號(如NM_152486.3 中“.3”為版本號)是必要的。因為相同的轉錄本號下不同的版本代表的mRNA序列有較大差異。
另外,在對變異進行轉錄本的校驗時,我們發現HGMD 中同一個基因組坐標上的變異會有屬于多個轉錄本的情況,這樣的變異有18 248 個。在遇到這些變異時,需要人工核查以給出盡量準確的表示方式。在實踐中,對于多個轉錄的情況,一般會優先選擇變異影響最嚴重的轉錄本,即優先考慮導致無義突變,其次是錯義突變的轉錄本。在基因區域層面上優先考慮位于外顯子、剪切位點等區域上的變異所屬的轉錄本,而后考慮位于UTR、內含子或基因間區的轉錄本。在特定情況下變異影響最嚴重的轉錄本不一定是功能最重要的轉錄本,因此可以采取其他轉錄本選擇方式,例如APPRIS 數據庫通過蛋白質結構、序列功能和保守程度為每個蛋白質編碼基因定義主要轉錄本(principal isoform)[23],NCBI 與EMBI-EBI 合作的MANE 項目(Matched Annotation from NCBI and EMBL-EBI,MANE)(https://www. ncbi. nlm. nih. gov/refseq/MANE/)通過專家審核和計算方法整合RefSeq 和ENSEMBL-GENCODE 注釋信息,為每個蛋白質編碼基因選擇高質量的代表性轉錄組。也有最新研究提出需要綜合考慮不同轉錄本在特定組織中的表達量[24],來選擇轉錄本進行變異的解讀。
本文研究了一種便捷的遺傳變異表示的校驗方法,并提供了更新的注釋參考信息,為變異數據分析、臨床解讀、遺傳咨詢及科研交流提供了有利的參考依據。
作者貢獻聲明王瀟,王雅瓊 數據采集分析,論文撰寫和修訂,圖表繪制。董欣然,吳冰冰,王慧君 可行性分析與監督指導。盧宇藍,周文浩 論文構思與設計。
利益沖突聲明所有作者均聲明不存在利益沖突。