遺傳病注釋數(shù)據(jù)庫(kù)中基因與變異名稱的校驗(yàn)及更正

2022-08-16 15:38:04王雅瓊董欣然吳冰冰王慧君盧宇藍(lán)周文浩

復(fù)旦學(xué)報(bào)(醫(yī)學(xué)版) 2022年4期

王瀟王雅瓊董欣然吳冰冰王慧君盧宇藍(lán) 周文浩

（國(guó)家兒童醫(yī)學(xué)中心/復(fù)旦大學(xué)附屬兒科醫(yī)院兒科研究院分子醫(yī)學(xué)中心上海 201102）

近年來(lái)，高通量測(cè)序技術(shù)（全基因組測(cè)序、臨床外顯子組測(cè)序以及基因檢測(cè)包）在遺傳病診斷中扮演著重要角色。從測(cè)序數(shù)據(jù)中識(shí)別致病遺傳變異，能幫助臨床醫(yī)師明確疾病病因，優(yōu)化疾病管理方案。高通量測(cè)序數(shù)據(jù)分析的主要流程包括對(duì)測(cè)序數(shù)據(jù)的預(yù)處理及變異檢測(cè)、變異注釋、變異篩選和變異分類等［1］。其中，變異的注釋是測(cè)序數(shù)據(jù)分析的基礎(chǔ)。簡(jiǎn)單來(lái)說，注釋的內(nèi)容主要包括：數(shù)據(jù)質(zhì)量、變異的基因組位置、所屬基因及轉(zhuǎn)錄本、基因型、人群頻率、對(duì)mRNA 及蛋白質(zhì)的影響、致病性預(yù)測(cè)，以及疾病相關(guān)性；在基因?qū)用妫€包括基因名、基因功能、表達(dá)模式、參與的通路以及相關(guān)的疾病或表型等［2］。目前已開發(fā)出許多成熟的注釋工具如ANNOVAR［3］、VEP 等［4］，可以對(duì) 變異進(jìn) 行自動(dòng) 注釋。這些工具依賴的數(shù)據(jù)庫(kù)包括公共疾病數(shù)據(jù)庫(kù)，如人類孟德爾遺傳疾病在線數(shù)據(jù)庫(kù)（Online Mendelian Inheritance in Man，OMIM）［5］、人類基因突變數(shù)據(jù)庫(kù)（the Human Gene Mutation Database，HGMD）［6］和ClinVar［7］等。OMIM 目前已收集了超過1.6 萬(wàn)個(gè)基因和8 600 個(gè)表型信息。HGMD 通過人工收集和審核出版文獻(xiàn)中的遺傳變異信息，截至2020 年6 月收錄超過1 萬(wàn)個(gè)基因的28 萬(wàn)個(gè)與疾病相關(guān)的遺傳變異。ClinVar 是一個(gè)面向公眾免費(fèi)的數(shù)據(jù)庫(kù)，一千三百多個(gè)機(jī)構(gòu)向其提供了超過80 萬(wàn)條條目，包含超過50 萬(wàn)個(gè)與疾病相關(guān)的遺傳變異及相關(guān)注釋信息。

在人類基因組學(xué)迅猛發(fā)展的歷程中，多種基因名和基因注釋版本并行，同一個(gè)遺傳變異在基因?qū)用婧娃D(zhuǎn)錄本層面有不一致表示方式，這給臨床應(yīng)用和科研交流造成極大的困擾，甚至?xí)?dǎo)致疾病診斷失敗［8］。……

登錄APP查看全文