王 瀟 王雅瓊 董欣然 吳冰冰 王慧君 盧宇藍(lán) 周文浩
(國(guó)家兒童醫(yī)學(xué)中心/復(fù)旦大學(xué)附屬兒科醫(yī)院兒科研究院分子醫(yī)學(xué)中心 上海 201102)
近年來(lái),高通量測(cè)序技術(shù)(全基因組測(cè)序、臨床外顯子組測(cè)序以及基因檢測(cè)包)在遺傳病診斷中扮演著重要角色。從測(cè)序數(shù)據(jù)中識(shí)別致病遺傳變異,能幫助臨床醫(yī)師明確疾病病因,優(yōu)化疾病管理方案。高通量測(cè)序數(shù)據(jù)分析的主要流程包括對(duì)測(cè)序數(shù)據(jù)的預(yù)處理及變異檢測(cè)、變異注釋、變異篩選和變異分類等[1]。其中,變異的注釋是測(cè)序數(shù)據(jù)分析的基礎(chǔ)。簡(jiǎn)單來(lái)說,注釋的內(nèi)容主要包括:數(shù)據(jù)質(zhì)量、變異的基因組位置、所屬基因及轉(zhuǎn)錄本、基因型、人群頻率、對(duì)mRNA 及蛋白質(zhì)的影響、致病性預(yù)測(cè),以及疾病相關(guān)性;在基因?qū)用妫€包括基因名、基因功能、表達(dá)模式、參與的通路以及相關(guān)的疾病或表型等[2]。目前已開發(fā)出許多成熟的注釋工具如ANNOVAR[3]、VEP 等[4],可 以 對(duì) 變 異 進(jìn) 行 自 動(dòng) 注釋。這些工具依賴的數(shù)據(jù)庫(kù)包括公共疾病數(shù)據(jù)庫(kù),如人類孟德爾遺傳疾病在線數(shù)據(jù)庫(kù)(Online Mendelian Inheritance in Man,OMIM)[5]、人類基因突變數(shù)據(jù)庫(kù)(the Human Gene Mutation Database,HGMD)[6]和ClinVar[7]等。OMIM 目前已收集了超過1.6 萬(wàn)個(gè)基因和8 600 個(gè)表型信息。HGMD 通過人工收集和審核出版文獻(xiàn)中的遺傳變異信息,截至2020 年6 月收錄超過1 萬(wàn)個(gè)基因的28 萬(wàn)個(gè)與疾病相關(guān)的遺傳變異。ClinVar 是一個(gè)面向公眾免費(fèi)的數(shù)據(jù)庫(kù),一千三百多個(gè)機(jī)構(gòu)向其提供了超過80 萬(wàn)條條目,包含超過50 萬(wàn)個(gè)與疾病相關(guān)的遺傳變異及相關(guān)注釋信息。
在人類基因組學(xué)迅猛發(fā)展的歷程中,多種基因名和基因注釋版本并行,同一個(gè)遺傳變異在基因?qū)用婧娃D(zhuǎn)錄本層面有不一致表示方式,這給臨床應(yīng)用和科研交流造成極大的困擾,甚至?xí)?dǎo)致疾病診斷失敗[8]。……