999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向精準醫學的基因突變數據分類與融合研究

2018-05-07 01:44:22
中華醫學圖書情報雜志 2018年11期
關鍵詞:基因突變分類數據庫

基因突變是指基因組DNA分子發生的突然的、可遺傳的變異現象[1],許多疾病的發生都與基因突變密切相關。如癌癥通常開始于一系列體細胞DNA變化所導致的失控的細胞增殖,其中“變化”指的是突變等特定的DNA序列變化。基于精準醫學的理念,通過鑒定疾病樣本細胞中的基因突變,實施“個體化”的治療手段可大大提高疾病治療的有效性。隨著生物醫學領域測序技術的飛速發展,越來越多面向臨床樣本的基因測序實驗產生了大量的基因突變信息,為臨床的靶向治療提供指導。面對大規模的、多樣的突變數據,如何提供統一的數據整合與表示標準,是國內外許多研究組織致力解決的問題。其中,對基因突變相關的本體、命名方式、數據庫等的研究對基因突變數據的標準化起到了很大的推動作用。

本文在充分調研現有基因突變數據標準的基礎上,制定了一套整合式的基因突變分類體系,并從ClinVar[2]和COSMIC[3]數據庫中獲取突變數據,根據不同數據庫的突變數據特征將突變數據進行標準化、融合以及分類注釋,最終構建了一套融合了多源異構突變數據的統一標準的突變分類體系和突變數據庫,旨在使臨床與科研人員能更便捷、更全面、更系統地獲取突變數據和突變類型信息,理解疾病的發生機制,從而對疾病進行精準治療。

1 研究現狀

1.1 基因突變分類體系與命名標準

由于基因突變發生的隨機性、不定向性以及基因作為一條核苷酸序列所具有的結構特性,基因突變的種類是非常多樣的。根據其分子的大小,基因突變可分為小的DNA鏈內部的突變(包括單核苷酸突變、插入、刪除、復制等)、大的染色體突變(拷貝數變異、易位、倒位等)以及基因融合等;根據其堿基突變對多肽鏈中氨基酸序列的影響,基因突變又可分為同義突變,錯義突變和無義突變等;按照突變的致病程度,2013年美國醫學遺傳學和基因組學學院(American College of Medical Genetics and Genomics, ACMG)在重新修訂的序列突變的標準和指南中將突變分為致病的、可能致病、意義不明確、可能良性和良性5個大類[4]。

基因突變相關的本體,系統地組織了突變的類型,并提供標準化的術語表示。如變異本體(Variation Ontology,VariO)從突變的大小、產生影響和作用機制等方面對突變進行描述,旨在對突變數據進行更好的注釋[5];序列本體(Sequence Ontology,SO)通過對序列特征進行定義來標注生物序列,其最初是由基因本體協會(Gene Ontology Consortium)開發;序列變異(sequence variant)作為其中一個分支,從功能上和結構上對突變類型分別進行了描述[6]。

面對多種的基因突變類型,制定一種統一的命名方式確定一個突變的名稱,對于突變數據的共享和使用都具有極大意義。人類基因組變異學會(Human Genome Variation Society,HGVS)提出了一種標準的基因突變命名法,對DNA、RNA以及蛋白序列中發現的突變進行命名,并對其進行長期維護和版本管理,目前這種命名法已經被廣泛使用并被推薦為通用的基因突變命名法[7]。

1.2 基因突變相關數據庫

隨著基因檢測中發現的突變數據的持續增長,大量相關數據庫也應運而生。臨床實驗室通過使用基因突變數據庫對突變進行分類、提交,并對相關突變數據進行檢索、分析及查閱文獻。其中,癌癥體細胞突變目錄(Catalogue Of Somatic Mutations In Cancer,COSMIC)是目前世界上最大、最全的探索體細胞突變在人類癌癥中的影響的數據資源[3];人類在線孟德爾遺傳數據庫(Online Mendelian Inheritance in Man,OMIM)是一個全面且權威的人類基因和遺傳表型數據庫[8],其中引用的全文綜述包含了所有已知孟德爾疾病和16 000多個基因以及相關的突變信息;ClinVar是美國國家生物技術信息中心(National Center of Biotechnology Information,NCBI)主辦的與疾病相關的人類基因組變異數據庫[2],它的強大在于整合了dbSNP、dbVar、PubMed和OMIM等多個數據庫在遺傳變異和臨床表型方面的數據信息,形成一個標準的、可信的臨床相關的遺傳變異數據庫。

與以上綜合性突變數據庫不同,單核苷酸多態性數據庫(The Single Nucleotide Polymorphism Database,dbSNP)[9]和基因組結構變異數據庫dbVar[10]都是對某類突變進行收錄。其中dbSNP收錄了單核苷酸變異(single nucleotide variations,SNVs)、短插入和缺失、微衛星標記等序列長度小于50bp的突變數據;dbVar則收錄序列長度大于50bp的結構變異數據,包括倒位、易位和基因組不平衡(插入和刪除),通常也稱為拷貝數變異(copy number variants,CNVs)。

綜上所述,目前的研究因尚無一套標準的、完善的突變數據分類體系和全面整合型的突變數據庫,無法實現多來源異構的突變數據的整合,不利于精準醫學領域的知識發現與突變數據的標準化融合。因此,本文分析并設計一套融合了多源異構突變數據庫的統一標準的突變分類體系和突變數據庫,旨在提供一種有效的基因突變數據分類標準和整合方案。

2 研究思路與框架

2.1 實驗流程設計

本文在充分調研相關的基因突變權威數據庫的基礎上,從ClinVar和COSMIC數據庫的官網獲取基因突變數據,并從ClinVar數據庫中獲取與dbSNP、dbVar和OMIM數據庫的映射關系。

根據所獲取的基因突變數據特征,設計數據融合過程中的元數據,對獲取的開放數據進行融合。根據已有的基因突變分類標準,結合ClinVar和COSMIC數據庫中突變的類型,制定了本文所適用的基因突變數據分類體系,并根據制定的分類標準,對融合后的突變數據進行標準化分類。具體實驗流程如圖1所示。

圖1 實驗流程圖

2.2 數據融合元數據設計

設計統一的元數據標準,以利于數據的標準化、存儲與共享。本文借鑒一體化醫學語言系統(Unified Medical Language System,UMLS)的超級敘詞表對異構數據整合的原則,對收集的基因突變數據進行融合、組織。UMLS利用以RRF和ORF格式組織的數據文件管理生物醫學和健康相關的概念、術語以及概念之間的關系[11]。遵循UMLS“概念-術語”的組織方式和保留來源數據庫信息的原則,根據本實驗數據特性簡化元數據的設計,主要保留突變數據的名稱、來源數據庫、在來源數據庫的ID和類型的信息。利用CID對融合后的突變數據進行唯一標識,利用AID對每一個原始數據庫的突變數據進行唯一標識,再利用一個CID對應多個AID的方式對多來源同一概念的突變數據進行組織。具體元數據及其釋義、數據格式和取值示例如表1所示。

表1 元數據釋義表

2.3 分類體系構建

一個完善的突變分類體系應盡可能涵蓋多種突變數據庫、突變本體中的不同突變類型。因此,本文從基因突變發生的范圍、形式等常規角度入手,通過對變異本體VariO和序列本體SO的深入分析,以及對ClinVar和COSMIC數據庫中突變類型的解析,構建了一套標準的、盡可能涵蓋已有突變類型的分類標準體系。

本分類體系整體分為6層。其中,一級類目分類體系參考VariO中“DNA variation classification”分支下的術語和分類體系,從突變發生所涉及的分子范圍進行區分,包括染色質突變、染色體突變、DNA鏈突變和基因組突變;從突變發生的具體形式進行區分,DNA鏈突變包括堿基的替換、插入、刪除等多種形式,而染色體突變包括染色體的結構突變和數量突變。

此外,補充VariO中所沒有的分類,如參考SO在“chromosomal amplification”類目下添加“copy number gain”類目,參考ClinVar數據庫補充“undetermined variation”類目,參考COSMIC數據庫補充“complex DNA variation”類目。調整“DNA substitution”類目下的分類體系,加入“SNV”這一突變數據庫常用數據類型,并對其進一步細化。詳細分類體系可視化展示如圖2所示。

圖2 基因突變分類體系

3 實驗過程與實驗結果

3.1 數據獲取

本文實驗突變數據選自ClinVar和COSMIC數據庫。ClinVar是一個可開放獲取的突變數據庫,其中收集了面向臨床的人類遺傳變異。選擇突變概要文件variant_summary.txt中基因組參考序列版本為GRCh38的突變數據,共316 629條,并篩選所在基因、突變名稱、突變ID和突變類型等信息。ClinVar突變數據中包含與dbSNP、dbVar和OMIM數據庫之間的映射關系,提取出相應字段從而獲取其映射關系。其中與dbSNP數據庫映射的突變為295 889個,與dbVar數據庫映射的突變為13 716個,與OMIM數據庫映射的突變為22 572個。COSMIC數據庫收錄了癌癥相關的人類體細胞突變信息,提供多種數據獲取方式,并且面向學術人員免費。選擇CosmicCompleteTargetedScreensMutantExport.tsv這一包含全部突變數據的文件,提取突變信息434 591條,并篩選所在基因、突變名稱、突變ID和突變類型描述等信息。

3.2 數據融合

通過分析ClinVar突變數據與COSMIC突變數據的表示方式發現,ClinVar的突變與COSMIC的突變可以通過提取出的基因信息和突變名稱信息進行融合。如ClinVar中ID為389314的突變,其名稱為“NM_005101.3(ISG15):c.248G>A (p.Ser83Asn)”。該名稱遵循HGVS關于突變的命名方式,表示ISG15這個基因的248位置發生了單核苷酸突變SNV,堿基由G突變為A,其翻譯的蛋白質的氨基酸在83位置由Ser替換為Asn。其所在基因的人類基因命名委員會(HUGO Gene Nomenclature Committee,HGNC)編碼的ID為9636。而COSMIC中ID為COSM3751464的突變,其名稱為“c.248G>A”,其所在基因的人類基因命名委員會ID同樣為9636,所以可以確定這兩個突變是一個突變,可進行融合。在融合過程中,需要對ClinVar的突變名稱進行主要信息提取,提取出DNA序列的突變名稱“c.248G>A”,便于與COSMIC的突變名稱匹配。

dbSNP、dbVar和OMIM數據庫的突變信息可利用其與ClinVar數據庫之間的映射直接獲取,然后利用之前設計的突變元數據標準和數據組織框架,將ClinVar、COSMIC、dbSNP、dbVar和OMIM等5個數據庫的突變信息進行統一融合,最終獲得突變概念為746 504個,突變術語為1 083 397個。最終獲得的融合數據示例如圖3所示。

圖3 突變數據融合示例

3.3 數據分類

解析出ClinVar數據庫的突變類型包括“single nucleotide variant”、“indel”、“deletion”和“short repeat”等12種,COSMIC數據庫的突變類型包括“Substitution-Missense”、“Substitution-coding silent”、“Insertion-In frame”和“Insertion-Frameshift”等16種。可以看出ClinVar的突變類型描述比較符合常規,COSMIC的突變類型描述加入了突變會對氨基酸序列產生的影響,包括錯義突變、無義突變和移碼突變等描述。本文所設計的突變分類體系不包含這類分類維度的描述,故在本文實驗中不做區分。

將ClinVar和COSMIC數據庫的突變類型與構建的突變分類體系進行映射,對其突變類型進行標準化。除了可以直接進行映射的突變類型外,有些突變類型的映射過程還存在一些不確定的情況,需要根據具體數據確定。如ClinVar的突變類型易位(Translocation),無法確定其是DNA易位還是染色體易位。但通過分析類型為易位突變的數據,發現其名稱都為“t(5;16)(p15.31;q23.1)”這種形式,表示5號染色體與16號染色體之間發生易位突變,因此可判斷其為染色體易位。最終確定的兩個數據庫的突變類型與標準突變分類之間的映射關系如表2和表3所示。

本文構建的基因突變分類標準體系共包括類目34個,在全面涵蓋了ClinVar和COSMIC數據庫中的突變類型的同時,參考已有突變分類體系,可對基因突變類型進行細致的梳理與合理的層級劃分。將本文分類體系與SO和VariO的突變分類體系進行對比,統計出各分類體系在不同數據庫的突變類型上的涵蓋情況(圖4)。通過對比發現本文分類體系在綜合性突變數據庫ClinVar和COSMIC中,所涵蓋的突變類型是最全面的,在特定類型突變數據庫dbSNP中也能達到很好的涵蓋程度,說明本文構建的基因突變分類體系具有更廣的涵蓋范圍和更強的適用性。同時,本文分類體系對dbVar數據庫的突變類型的涵蓋程度沒有SO的涵蓋程度好,說明本文分類體系在結構突變類型上的涵蓋程度還有待提升。

表2 ClinVar數據庫突變類型與本文實驗分類體系映射關系表

表3 COSMIC數據庫突變類型與本文實驗分類體系映射關系表

通過對融合后突變數據的突變類型進行標準化映射,為整合不同突變數據庫的突變類型提供解決辦法,為之后突變數據的管理、共享以及分析提供便利。最終統計出概念數排名前十的突變類型的概念數量(圖5),其中大部分突變數據的突變類型為單核苷酸突變,說明在癌癥等疾病中,通常發生頻率較高的突變類型為單核苷酸突變、DNA堿基替換和DNA刪除等類型。

圖4 各突變分類體系在不同數據庫中的涵蓋情況

圖5 概念數排名前10的突變類型統計

4 結論與展望

本文在充分調研現有的基因突變分類標準、命名標準以及組織標準的基礎上,構建了符合實際應用的突變分類標準體系,發現了突變數據融合的有效方案。構建的突變分類體系和融合數據庫,可為用戶提供更加全面、便捷的突變數據獲取方式和組織形式。

本文仍有許多不足之處,基因突變分類體系有待進一步完善。一是基于分類體系構建基因突變本體,更全面地整合突變分類體系中術語的定義、來源和同義詞等信息;二是整合并發現多維度的突變數據中的語義關系,包括突變與疾病之間的關系,以及突變的致病程度等;三是整合更多的突變數據庫以及文獻中挖掘出的突變數據,擴大數據的涵蓋范圍。

猜你喜歡
基因突變分類數據庫
大狗,小狗——基因突變解釋體型大小
英語世界(2023年6期)2023-06-30 06:29:10
分類算一算
管家基因突變導致面部特異性出生缺陷的原因
分類討論求坐標
基因突變的“新物種”
數據分析中的分類討論
教你一招:數的分類
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
主站蜘蛛池模板: 在线欧美国产| 91人人妻人人做人人爽男同| 2021最新国产精品网站| 国产无码制服丝袜| 福利在线不卡一区| 无码aaa视频| 国产精品成人啪精品视频| 日本一本正道综合久久dvd| 欧美在线一二区| 91精品国产无线乱码在线 | 免费高清毛片| 国产真实二区一区在线亚洲| 色视频国产| 97视频在线精品国自产拍| 九九香蕉视频| 精品久久蜜桃| 欧美无遮挡国产欧美另类| 国产久操视频| 99久久精品免费看国产电影| 久久人妻系列无码一区| 99视频在线免费| 国产精品一区在线麻豆| 亚洲天堂网在线视频| www.亚洲色图.com| 亚洲无码A视频在线| AV不卡无码免费一区二区三区| 欧美黄色网站在线看| 免费看美女毛片| 成人国产精品视频频| 国产性生交xxxxx免费| 国产视频自拍一区| AV片亚洲国产男人的天堂| 伊人国产无码高清视频| 亚洲日韩日本中文在线| 国产精品福利一区二区久久| 精品国产一区91在线| 不卡的在线视频免费观看| 99无码熟妇丰满人妻啪啪| 久久精品一卡日本电影| 人妻熟妇日韩AV在线播放| 992tv国产人成在线观看| 依依成人精品无v国产| 亚洲高清无在码在线无弹窗| 国产真实乱了在线播放| 免费不卡在线观看av| 91久久国产热精品免费| 日韩在线观看网站| 国产精品无码AV片在线观看播放| 精品人妻系列无码专区久久| 国产免费高清无需播放器| 2020精品极品国产色在线观看| аⅴ资源中文在线天堂| 97青草最新免费精品视频| 中日无码在线观看| 视频二区亚洲精品| 国产精品香蕉在线| 国产乱子伦无码精品小说| 中文字幕在线观看日本| 婷婷六月在线| 美女一区二区在线观看| 国产91精品最新在线播放| a级毛片免费看| 欧美一区二区三区国产精品| 国产一区二区丝袜高跟鞋| 992Tv视频国产精品| 亚洲性日韩精品一区二区| 久久情精品国产品免费| 天天做天天爱夜夜爽毛片毛片| 波多野衣结在线精品二区| 国产视频欧美| 亚洲第七页| 久久婷婷五月综合97色| 日韩精品毛片人妻AV不卡| 亚洲综合专区| 亚洲精品国产精品乱码不卞 | 米奇精品一区二区三区| 欧美成人精品一级在线观看| 中国精品自拍| 国产色网站| 国产无码高清视频不卡| 国产在线八区| 色婷婷天天综合在线|