999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中國人群先天性白內障突變譜的建立

2018-11-22 08:54:30曹宗富喻浴飛陳翠霞高華方陽菊華
中國計劃生育學雜志 2018年7期

曹宗富 王 雷 喻浴飛 陳翠霞 高華方 陽菊華 馬 旭*

1. 國家衛生計生委科學技術研究所(北京,100081):2. 國家人類遺傳資源中心:3.北京協和醫學院研究生院:4. 博奧生物有限公司:5. 福建醫科大學

先天性白內障是一組在出生時或兒童早期發生的白內障[1],是一種嚴重的出生缺陷,是世界兒童期可治療性致盲的首要原因[2-5]。在精準醫學時代,可通過在孕期對胎兒進行致病突變檢測,實現出生缺陷干預。然而,先天性白內障具有明顯的遺傳異質性[6]。大量研究證實,先天性白內障致病基因包括α/β/γ晶體蛋白基因[7-13]、膜蛋白基因[14-17]、調節眼球發育的基因[18-20]、細胞骨架蛋白基因[21-22]等其他基因。同時,群體遺傳學研究發現,中國人群與歐洲、非洲、美洲等世界上其他人群相比,具有典型的東亞血統。先天性白內障相關的致病基因和變異在中國人群和世界人群之間頻率分布存有差異,以及中國人群先天性白內障突變譜尚不明確。本研究基于PubMed和CNKI知識庫,利用計算機文本挖掘技術,篩選先天性白內障相關文獻,提取有關先天性白內障基因、變異和人群信息,建立中國人群先天性白內障基因變異數據庫,描繪中國人群先天性白內障突變譜。

1 資料與方法

1.1 數據來源

PubMed和CNKI文獻知識庫。

1.2 研究方法

1.2.1從PubMed文獻知識庫中提取先天性白內障相關的基因和變異PubMed E-utilities為編程接口提供了與web搜索相同的結果。以“Congenital cataract”為關鍵詞檢索文獻摘要,提取相關的表型、基因和變異信息。在文本挖掘過程中,疾病表型信息和基因名稱基于字典的方法提取。選擇人類表型標準用語(HPO)[23]作為英文疾病名稱字典,選擇人類基因命名委員會(HGNC)[24]作為基因名稱字典。以“Chinese”作為文本挖掘時中國人的標識。變異信息則根據人類基因組變異協會的命名規則以正則表達式識別提取。當存在多對基因和變異關系時,基于語句水平的共現性建立關聯規則。該過程主要基于R VarfromPDB包的函數extract_pubmed實現。

1.2.2從CNKI文獻知識庫中提取先天性白內障相關的基因和變異以“先天性白內障”為關鍵詞,在CNKI頁面中進行檢索和批量下載。選擇中文人類表型標準用語(CHPO)作為英文疾病名稱的字典。選擇HGNC作為基因名稱的字典。同時,文本挖掘字典中加入少數民族名稱。與英文文本分詞不同:①中文文本不能采用空格為分隔符進行分詞;②中文和英文需要通過兩次分詞過程。第一次分詞過程中,變異信息需要單獨作為英文進行分詞,變異信息提取出來后再加入到字典中,進行第二次中文分詞,已經加入字典的詞組將作為整體被分割,才可以把所有疾病表型、基因、變異、民族等信息一起提取出來,同時獲得每個信息的在一段文本中的位置信息。

利用jiebaR包的函數worker分割文本,以上所有表型、基因和變異字典里收錄的詞組會自動作為整體進行分割,字典里沒有出現的詞按照空格進行分割,分割完畢后利用DiGVaRCN包的函數coordinate_get獲得每個分詞的位置信息。位置信息包括該分詞在位置中的段落、段落中的句子、句子中的分詞等。利用R DiGVaRCN包的函數relation_resolve提取并解析疾病基因變異關系。根據疾病名稱、基因、變異等分詞的位置信息,基于句級共現性和分詞距離解析疾病基因變異關系。

1.2.3建立先天性白內障基因變異數據庫以人工方式對從PubMed和CNKI獲取的先天性白內障相關的表型、基因和變異進行逐個檢查,以家系或先證者為單位進行整理。在人工檢查過程中,根據表型信息,剔除合并其他表型或綜合征的先天性白內障相關文獻?;蛎Q按照HGNC進行標準化,變異采用HGVS的命名規則進行標準化,然后對兩種來源的信息進行整合,并對變異所在的外顯子或內含子信息進行注釋。

1.2.4建立中國人群先天性白內障突變譜對建立的先天性白內障基因變異數據庫,按照研究人群劃分為中國人群和非中國人群。在PubMed來源的研究中,標識了“Chinese”的研究視為中國人群,世界其他地區的研究或者沒有明確標識“Chinese”的人群則合并為非中國人群。來自于CNKI的所有研究均視為中國人群。對兩種人群在基因、外顯子或內含子、變異水平上分別計算變異頻率。

其中,i表示某個基因或者外顯子(內含子);ni表示該基因或外顯子(內含子)上發生突變的家系或先證者數目;N表示所有家系或先證者的數目。

2 結果

2.1 先天性白內障基因變異數據庫的建立

在PubMed中,從750篇檢索的文獻中挑選出280篇先天性白內障文獻,其中115篇來自于中國人群的報道;從CNKI檢索的112篇文獻中挑選出12篇,全部為中國人群的報道。因此,292篇文獻中127篇來自于中國人群研究。在對這些文獻挖掘基礎上,對提取出來的表型、基因和變異進行了逐個人工檢查,建立了先天性白內障基因突變數據庫。這些研究共涉及538個先天性白內障先證者,其中208個先證者來自于中國人群相關研究,包括179個常染色體顯性遺傳家系、5個常染色體隱性遺傳的家系、21個散發病例,有3個家系沒有明確報告遺傳模式。在中國人群中,先天性白內障相關的169個變異分布在32個基因的60個外顯子或內含子可變剪切區域上面(表1)。

表1 從PubMed和CNKI上獲取的中國人群先天性白內障相關基因

2.2 先天性白內障突變譜

根據已建立的先天性白內障基因變異數據庫,對這些變異在基因、外顯子或內含子、變異水平分別進行匯總分析,進一步獲得先天性白內障在中國人群的突變譜。在基因水平,突變頻率在10%以上的基因包括GJA8、CRYGD和GJA3(表1)。在外顯子或內含子水平,3次以上突變的外顯子或內含子共有21個,累積突變頻率達到了74.5%(表2),其中突變頻率最高的3個外顯子分別是GJA8的第二外顯子、GJA3的第二外顯子、CRYGD的第二外顯子,均在9%以上;還包含了2個內含子剪切區域,分別是CRYBA1基因的第三內含子和MIP基因的第三內含子。在突變水平,3次以上的突變共有7個,累積突變頻率僅為19.2%(表3)。

與世界上其他非中國人群比較發現,中國人群先天性白內障高頻突變的基因、高頻突變的外顯子(內含子)和高頻突變在分布上大致相似,但也存在一定的差異。而低頻突變的基因、低頻突變的外顯子(內含子)和罕見突變在分布上存在著巨大的差異(圖1)?;騀YCO1在巴基斯坦人和阿拉伯人中有報道[25],突變頻率在中國人群之外的世界其他人群中占5.18%,但在中國人群先天性白內障先證者中沒有報道。同樣,還包括LONP1[26]、LIM2[27]、SIPA1L3[28]、TMEM114[29]等基因上的突變,在中國人群先天性白內障先證者中也沒有報道。

表2 中國人群先天性白內障先證者中高頻突變的基因外顯子或內含子

表3 中國人群先天性白內障先證者中的高頻突變

圖中顏色從深到淺對應突變頻率由高到低。黑色為在中國人群先天性白內障先證者中高頻突變的基因、外顯子(內含子)或突變。每個方格表示每個基因上、外顯子(內含子)上或突變的突變頻率。 圖1 先天性白內障突變譜在中國人群與世界其他人群間差異

3 討論

本研究建立了一種計算機文本挖掘和人工檢查相結合的方法,從PubMed和CNKI中提取先天性白內障相關的基因、變異和人群信息,并建立了中國人群先天性白內障基因變異數據庫,在基因、外顯子(內含子)和變異水平上分別獲得了先天性白內障突變譜。該方法與傳統手工檢索方法相比,更加準確,效率更高[30-32]。傳統方法需要人工閱讀大量的文獻,從中提取表型和基因型相關信息進行整合,對某一種單基因病可能需要數周來完成且易出錯。計算機文本挖掘的參與,可在20min左右完成初步的信息提取工作,并建立信息間關聯;人工對提取的結構化數據進行檢查,效率也得到極大提升,最大可能地節省了人力,也減少人工數據編譯過程中出現的錯誤[33]。該研究不僅實現了基于PubMed英文文本挖掘,還實現了基于CNKI的中文文本挖掘,可以為基于單基因病臨床病歷的文本挖掘提供借鑒[34]。

本研究從127篇中國人群先天性白內障相關文獻中獲取了208個家系或先證者的樣本,盡管樣本量不夠大,但對中國人群先天性白內障仍具有一定的代表性,其突變譜可在一定程度上反映中國人群先天性白內障的遺傳基礎。同時,觀察了中國人群和世界其他人群先天性白內障突變譜之間差異,發現這些差異在基因、外顯子(內含子)和突變水平都存在,突變頻率越低差異越大。Mathieson等[35]研究發現,罕見變異在人群之間差異對突變譜有著巨大影響。精準醫學時代下,先天性白內障突變譜尤其是罕見變異的人群間差異,增加了相關遺傳檢測產品研究開發的復雜性。因此,了解到先天性白內障突變譜在中外人群之間的差異,對開發針對中國人群先天性白內障相關的遺傳檢測產品,具有較大的參考價值。如果采用全外顯子組測序或者所有致病基因靶向測序的方法,則可以完全避免差異對檢出率的影響;如果采用Sanger測序方法選擇高頻突變外顯子及兩側區域進行檢測,檢出率期望能夠達到74%以上;如果采用芯片方法對高頻突變位點進行檢測,檢出率將可能在20%以下,甚至更低。因此,前兩種方法都將是可行的,考慮到成本,可采用綜合性策略,即先基于高頻外顯子區域用Sanger測序進行初篩,未檢出病例再選擇使用新一代測序進行全外顯子組篩查。同時,該方法可為其它單基因病的中國人群突變譜獲得提供借鑒,為基于全外顯子/全基因組測序的臨床生物信息學分析流程優化[36]、變異溯源和臨床解讀提供便利,為嬰幼兒和兒童期單基因病相關的出生缺陷早期預防和干預提供必要的參考依據。

主站蜘蛛池模板: 五月综合色婷婷| 久久96热在精品国产高清| 亚洲欧美成aⅴ人在线观看| 亚洲va在线观看| 乱色熟女综合一区二区| 国产91av在线| 亚洲综合天堂网| 精品三级网站| 国产高潮视频在线观看| 国产一区二区影院| 国产一级无码不卡视频| 思思99思思久久最新精品| 午夜国产大片免费观看| 亚洲免费福利视频| 国产va在线观看| 中文字幕1区2区| 无码日韩精品91超碰| 婷婷综合色| 亚洲AV电影不卡在线观看| 国产本道久久一区二区三区| 亚洲小视频网站| 中文字幕亚洲综久久2021| 狠狠色成人综合首页| 亚洲国产中文欧美在线人成大黄瓜| 亚洲毛片网站| 色婷婷在线影院| 婷婷综合亚洲| 黄色福利在线| 国内精品久久久久久久久久影视| 99热这里只有精品5| 亚洲精品福利视频| 日本三级精品| 中文字幕无码av专区久久| 免费毛片视频| 国产免费精彩视频| 国产女人在线| 亚洲午夜18| 国产精品9| 福利国产微拍广场一区视频在线| 国产视频你懂得| 午夜视频免费试看| 全部免费毛片免费播放 | 欧美区一区二区三| 欧美性猛交一区二区三区| av免费在线观看美女叉开腿| 日韩无码视频网站| 91在线国内在线播放老师| 精品欧美一区二区三区久久久| 亚洲欧洲免费视频| 国产高清在线精品一区二区三区| 国产成人综合日韩精品无码不卡| 97精品国产高清久久久久蜜芽| 国产视频久久久久| 亚洲色图在线观看| 9cao视频精品| 黄色网址手机国内免费在线观看| 99久久精品久久久久久婷婷| 国产人人乐人人爱| 欧美国产在线看| 国内99精品激情视频精品| 免费久久一级欧美特大黄| 91 九色视频丝袜| 国产精品亚洲综合久久小说| 国产玖玖视频| 丝袜美女被出水视频一区| 久久久久国产精品嫩草影院| 久久婷婷国产综合尤物精品| 青青草国产一区二区三区| 亚洲人成人伊人成综合网无码| 国产欧美又粗又猛又爽老| 91精品网站| 色综合天天综合中文网| 国内丰满少妇猛烈精品播 | 亚洲三级影院| 91精品国产自产91精品资源| 欧美国产三级| 亚洲精品国产首次亮相| 久久久亚洲国产美女国产盗摄| 国产精品女熟高潮视频| 国产在线91在线电影| 天天综合网在线| 精品伊人久久久香线蕉|