999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關于全基因組關聯研究的自動化元分析初探

2017-06-05 15:16:31冀燃李冬果張大保
中國醫療設備 2017年5期
關鍵詞:分析信息研究

冀燃,李冬果,張大保

首都醫科大學 生物醫學工程學院,北京 100069

關于全基因組關聯研究的自動化元分析初探

冀燃,李冬果,張大保

首都醫科大學 生物醫學工程學院,北京 100069

隨著自然語言分析、文本挖掘等技術高速發展,元分析中數據提取工作逐漸從人工手動提取向計算機自動提取轉變。本文以基因關聯研究(Genome-Wide Association Study,GWAS)研究為例,通過預先對納入研究中感興趣的數據元素進行定位并明確注意事項,來制定元分析的數據自動提取策略方案,使計算機通過搜索少量文獻即可快速準確地提取完整的研究數據。以阿爾茲海默疾病的GWAS研究的元分析為例,將納入的研究按照上文提出的方法進行搜索并提取數據。結果顯示,本研究有效縮短了搜索、提取數據的時間,同時提取數據的成功率和準確度可以保持在90%以上。本文為GWAS研究自動提取數據提供了一種有效的策略和向導作用,對于元分析向大數據時代發展有著推進作用。

基因關聯研究;元分析;數據定位;數據提取;單核苷酸多態性

引言

元分析作為循證醫學的重要研究方法,是基因關聯研究(Genome-Wide Association Study,GWAS)中必不可少的一部分[1],發現并確定了成千上萬個單核苷酸多態性(Single Nucleotide Polymorphism,SNP)和疾病之間的關聯。GWAS元分析需要從上篇GWAS文獻中篩選合適的研究,通過提取、儲存、處理海量的高通量數據,得到和疾病相關聯的SNP[2]。

由于GWAS元分析需要收集所有的研究數據,數據提取需要花費大量時間和精力[3-4]。由于研究人員數量、精力和時間有限,手動提取數據常出現部分數據丟失或提取錯誤,從而導致元分析中有價值的信息減少、可信區間變寬、檢驗效能降低、假陽性率和假陰性率的上升等問題,這對于GWAS元分析的研究準確性影響較大[5]。因此,元分析的數據自動提取的研究就顯得格外重要。數據自動提取是利用深度學習、大數據分析、自然語言分析及文本挖掘等技術手段,用計算機代替人工自動檢索海量文獻并提取數據,通過處理、判斷文獻內容,來定位、提取感興趣數據[6]。GWAS數據分別來源于文獻正文,補充材料部分(Supplementary)以及特殊數據庫如基因型和表型庫(the Database of Genotypes and Phenotypes,dbGap);如果沒有提前制定好提取策略,計算機將無法提取到所需要的全部有用數據,這會導致提取數據的偏倚。因此在數據自動提取之前需要進行數據元素定位,確定提取策略及明確提取時的注意事項,可以有效避免“地毯式搜索”,大大縮短提取數據的時間并提高數據提取的準確率。

本文旨在幫助研究人員利用自然語言分析,快速準確地自動提取文獻數據,提供數據信息在GWAS文章中的定位和提取數據時的注意事項,并提出合理的自動提取數據策略,為元分析自動采集數據的發展提供參考;并以阿爾茲海默病的GWAS元數據分析描述阿爾茲海默病的GWAS數據檢索和篩選過程、提取策略及提取數據的存儲方法。

1 材料與方法

1.1 文獻檢索和篩選

在PubMed研究平臺上搜索“阿爾茲海默癥全基因關聯研究”。PubMed上的檢索策略是“((GWAS[TitleAbstract]) OR Genome-Wide Association study[TitleAbstract]) AND Alzheimer’s disease[TitleAbstract]”。

排除標準:① 非GWAS相關文獻;② 非研究阿爾茲海默癥的相關文獻;③ 單純的元分析或Replication研究;④ 非large scale研究;⑤ 沒有用回歸分析作為結果的文獻;⑥ 非case-control研究的文獻。

1.2 數據提取

以往元分析中提取數據時需要利用自然語言分析、文本挖掘等方法處理文本中的每一句話并從中判斷是否有感興趣的數據元素。在GWAS元分析中,需要提取的數據主要分為3個類型,第1類是文章信息,包括study ID和發表信息;第2類是樣本信息,包括疾病表型、樣本量以及DisRep;第3類數據是基因多態性信息,包括SNP ID、minormajor allele、casecontrol MAF、比值比、P值、置信區間。

1.2.1 文獻信息和樣本信息的自動提取策略和注意事項

(1)study ID:指的是每個研究的ID,由“第一作者的last name”+“et al.”組成。

(2)發表信息: DOI code,在文檔首頁搜索“DOI”并提取后面的代碼。

(3)疾病表型:指的是采集疾病樣本的表型,如:發病年齡、性別、嚴重程度等。計算機按照Abstract、Conclusion部分或者文獻補充材料里面的Study samples或者Subjects部分依次進行搜索。注意重點搜索包含case control信息的語句。

(4)casecontrol樣本量:指的是研究納入的case control樣本個數。搜索策略和疾病表型一樣。

(5)DisRep:用來區分樣本是用于discovery研究還是replication研究,分別用Dis和Rep表示,通常情況下我們從Abstract中獲得:如果語句中包含一個樣本信息和關鍵詞“discovery”,則這個樣本被當做Dis;如果包含“replication”,則被標記為Rep;或最先搜索到的casecontrol樣本默認為Dis,之后再搜索到的樣本都是Rep;如果文章只包含一個樣本的信息且沒有包含任何關鍵詞,則這個樣本默認為Dis。如果Abstract中搜索不到,則在正文中的Subjects或Samples部分可以得到。

1.2.2 SNP信息中各數據元素提取

SNP信息往往統一放置在正文或補充材料的表格中,計算機自動提取數據時應該直接搜索這些表格。而對于沒有表格和補充材料的文獻,則應該搜索Results中包含下列數據元素的語句。

(1)SNP ID:指的是NCBI的dpSNP提供的“reference SNP ID”,即rs#;需要注意有些文獻的SNP ID有上標,需要計算機能識別上標并剔除。

(2)minormajor allele:指的是在某一群體中具有最小最大出現頻率的等位基因(都超過5%)。

(3)casecontrol MAF:指的是casecontrol樣本中的最小等位基因頻率。

(4)比值比(Odds Ratio,OR):有些文獻提供了OR,也有些文獻提供了log(OR),本文中統一使用log(OR),此時需要計算機加以區分并計算log(OR)。

(5)P值:GWAS研究最基礎的數據。

(6)置信區間(Conf i dence Interval,CI):用于計算標準誤并分配文獻權重。

2 結果

2.1 文獻檢索和篩選

按照文獻檢索策略[7-16],從PubMed上檢索到了320篇文獻;再經過納入文獻標準的篩選,見圖1,共獲得納入文獻10篇。

2.2 數據提取

對于每一個研究,按照提取策略,從原始研究的發表文獻和Supplementary Material中搜索需要的數據元素。

圖1 納入文獻篩選流程圖

以L ambert et al研究為例,其數據提取結果見表1。在Lambert et al中,文獻信息按照策略直接得到。通過搜索Abstract中的第2句可以確定文章的第1個樣本的樣本量和表型;再搜索第3句話可以確定文章的第2個樣本的樣本量和表型;搜索完Abstract之后發現只能確定這兩個樣本且沒有關鍵詞,按照先后順序認定第1個樣本是Dis而第2個是Rep。按照SNP信息提取策略在正文中的Table 1和Table 3 以及Supplementary Material中的Table 1和Table 2提取到SNP的各項數據元素。

其他納入文獻按照相同的數據提取策略提取數據,結果見表2。10篇文獻中,Naj et al是由于正文的排版沒有區分各部分,無法按照策略定位,只能全文搜索。在Coon et al中,正文里沒有SNP信息的表格,只能從Results中搜索。其比值比數據既不在表格也不在Results中,通過全文搜索在Conclusion中找到了比值比的數據。從表2中可以看出,按照上述數據自動提取策略來搜索數據元素可以保證90%以上的成功率,不僅文獻中出現的數據能被準確地定位并提取,同時對于文獻中沒有出現的數據,按照提取策略和注意事項,提取結果也為空值,這說明本研究策略不僅能大大縮短提取數據時所花費的時間,還能保證提取數據的成功率和準確度。

在3類數據信息中,文獻信息是最容易提取的,因為在文章中的定位通常很固定;樣本信息的定位分布相對集中在Abstract和Methods中,但仍有可能需要搜索全文的每一句話。SNP信息的定位最為復雜,因為其中包括的數據元素最多,分布的特殊情況也最多,具體分布見圖3。例如比值比和P值數據,不僅在正文和Supplementary的表格中可以得到,還需要搜索Results和Conclusion中的每一句話,才能提取完整的數據。這種“藏匿數據”的情況對數據自動提取的影響最大,因為如果沒有提前考慮到所有類似的特殊情況并制定相應的策略,則很有可能會丟失這些關鍵的數據,也就失去了數據自動提取的意義,而這也是這篇文章想解決的。對于文獻根本沒有提及的數據元素,比如標準誤數據和allele數據,不會將錯誤提取其他數據。這說明上述策略不僅可以幫助計算機準確地提取既存數據,也可以對沒有報道的數據元素做出正確的操作。

表1 Lambert et al研究的數據定位及數據提取結果

表2 納入文獻數據提取的成功比例和失敗原因

3 討論

本文提出GWAS研究數據自動提取的策略,可以有效地縮短搜索、提取數據所花費的時間。但僅通過提前定位各數據元素的位置,沒有考慮數據被“藏匿”的情況,如Coon et al中,文章沒有用表格,而是把SNP信息放在Results和Conclusion中,需要逐字逐句地搜索;再比如Tan et al中的發表信息DOI code被藏匿在這篇文章的網址中,如果按照策略將無法正確提取。因此還需要進一步發現更多信息被藏匿的情況并作出更合理的數據自動提取的策略。

圖3 SNP信息在文中定位的分布

對于排版沒有區分各部分的文獻,需要首先作出判斷并直接搜索全文。因為本文提出的策略的原理就是基于提前對數據元素在文章中各部分進行定位,再按照不同的情況提取、綜合數據信息,所以對于像Naj et al這樣的文獻,需要直接搜索全文并不需要提前定位。

除此之外,對于分布相對分散的信息,尤其是SNP信息,搜索到關鍵句或關鍵詞之后,如何將多個從文章不同位置提取出的信息綜合起來得到最終的數據信息,是需要進一步考慮的重要問題。如何區分哪些數據對應著哪個樣本對我們來說至關重要,這直接影響到數據提取的準確度,因此這個問題急需解決。

4 結論

本文是一篇針對計算機自動提取GWAS研究數據用于元分析的文章。本文中提出了通過提前定位各項元分析所需要的數據元素在研究文獻中的位置來幫助計算機快速準確地提取數據的策略;之后通過阿爾茲海默癥的GWAS元分析為例,對每一篇納入研究按照提出的策略搜索并提取數據,總結了提取數據的結果;結果顯示設計的提取策略有效縮短了搜索、提取數據的時間,同時成功率和準確度也有所提高,基本保持在90%以上。本研究為自動提取數據提供有效的提取策略和向導作用,這對于元分析向大數據時代發展有著推進作用。

[1] Nakaoka H,Inoue I.Meta-analysis of genetic association studies: methodologies[J].J Hum Genet,2009,54(11):615-623.

[2] Jeck WR,Siebold AP,Sharpless NE.A meta-analysis of GWAS and age-associated diseases[J].Aging,2012,11(5):727-731.

[3] E lmar P,Diego FT,Paolo B.H igh performance solutions for bigdata GWAS[J].Parallel Comput,2014,42:75-87.

[4] Jonnalagadda SR,Goyal P,Huffman MD.Automating data extraction in systematic reviews: a systematic review[J].Syst Rev,2015,4(1):78.

[5] Zeggini E,Ioannidis JP.Meta-analysis in genome-wide association studies[J].Pharmacogenetics,2016,10(2):191-201.

[6] Nath C,Albaghdadi MS,Jonnalagadda SR.A natural language processing tool for large-scale data extraction from echocardiography reports[J].PLoS One,2016,28,11(4):e0153749.

[7] Abraham R,Moskvina V,Sims R,et al.A genome-wide association study for late-onset Alzheimer’s disease using DNA pooling[J]. BMC Med Genomics,2008,1(1):44.

[8] Beecham GW,Martin ER,Li YJ,et al.Genome-wide association study implicates a chromosome 12 Risk locus for late-onset Alzheimer disease[J].Am J Hum Genet,2009,84(1):35-43.

[9] Coon KD,Myers AJ,Craig DW,et al.A high-density whole-genome association study reveals that APOE is the major susceptibility gene for sporadic late-onset Alzheimer’s disease[J].J Clin Psychiatry, 2007,68(4):613-618.

[10] Grupe A,Abraham R,Li Y,et al.Evidence for novel susceptibility genes for late-onset Alzheimer’s disease from a genome-wide association study of putative functional variants[J].Hum Mol Genet,16(8):865-873.

[11] Hirano A,Ohara T,Takahashi A,et al.A genome-wide association study of late-onset Alzheimer’s disease in a Japanese population[J]. Psychiatr Genet,2015,25(4):139-146.

[12] Hu X,Pickering E,Liu YC,et al.Meta-analysis for genomewide association study identif i es multiple variants at the BIN1 locus associated with late-onset Alzheimer’s disease[J].PLoS One,2011,6(2):e16616.

[13] Lambert JC,Heath S,Even G,et al.Genome-wide association study identifies variants at CLU and CR1 associated with Alzheimer’s disease[J].Nat Genet,2009,41(10):1094-1099.

[14] Miyashita A,Koike A,Jun G,et al.SORL1 is genetically associated with late-onset Alzheimer’s disease in japanese, koreans and caucasians[J].PLoS One,2013,8(4):e58618.

[15] Naj AC,Jun G,Beecham GW,et al.Common variants in MS4A4/ MS4A6E, CD2uAP, CD33, and EPHA1 are associated with lateonset Alzheimer’s disease[J].Nat Genet,2011,43(5):436-441.

[16] Tan L,Yu JT,Zhang W,et al.Association of GWAS-linked loci with late-onset Alzheimer’s disease in a northern Han Chinese population[J].Alzheimers Dement,2013,9(5):546-553.

本文編輯 蘇欣

Exploring Automated Meta Analyses of Genome-Wide Association Studies

JI Ran, LI Dong-guo, ZHANG Da-bao

School of Biomedical Engineering, Capital Medical University, Beijing 100069, China

With the rapid development of natural language processing and text mining technology, the step of extracting data from literature began changing from manual extraction to automation by computer. In the past cases, researchers searched entire articles sentence by sentence to looking for key words or key sentences. But the thorough searching without focus points wasted much time. In thispaper, we took genome-wide association study (GWAS) as the example to develop the strategies of data automatics extraction for meta-analysis through clearing the positions of data elements we cared about in the included studies in advance to help computers extract the complete data quickly and accurately by searching only parts of the literature. At the same time, we used a GWAS study about Alzheimer’s disease as a case study to search and extract data from all the included studies according to the strategies that we developed. Results showed that our strategies not only shortened the time of extraction, but also kept the success rate and accuracy more than 90%. Our research provided effective strategies and a guide for the research of automatic extraction of GWAS data, which has a promoting effect on the development of meta-analysis to the big data era.

genome-wide association study; meta-analysis; data location; data automatics extraction; single nucleotide polymorphism

Q789

A

10.3969/j.issn.1674-1633.2017.05.001

1674-1633(2017)05-0001-05

2017-03-21

科技部“973”項目(2014CB744604);北京市教委科技計劃面上項目(KM201010025004;KM201410025013);北京市腦重大疾病研究院基金項目(BIBDPXM2014_014226_000016)。

張大保,教授。

通訊作者郵箱:zhangdb@purdue.edu

猜你喜歡
分析信息研究
FMS與YBT相關性的實證研究
遼代千人邑研究述論
隱蔽失效適航要求符合性驗證分析
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
電力系統及其自動化發展趨勢分析
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 欧美性久久久久| 国产麻豆va精品视频| 国产精品99在线观看| 99久久99视频| 亚洲第一极品精品无码| 欧美人与性动交a欧美精品| 国产一级毛片高清完整视频版| 亚洲第一国产综合| 毛片免费观看视频| 欧美日韩高清| 成人免费午间影院在线观看| 久久久久九九精品影院| 久一在线视频| 国禁国产you女视频网站| 亚洲天堂区| 亚洲欧美成人| 亚洲丝袜中文字幕| 国产精品久久自在自2021| 国模沟沟一区二区三区| 中文字幕1区2区| 亚洲高清无码精品| 亚洲色无码专线精品观看| 欧美不卡在线视频| 国产精品永久久久久| 亚洲天堂视频在线观看免费| 国产成人无码综合亚洲日韩不卡| 欧美综合区自拍亚洲综合天堂 | 乱色熟女综合一区二区| 久久a毛片| 99久久精品免费观看国产| 久久a毛片| 婷婷伊人久久| 99无码熟妇丰满人妻啪啪| 亚洲午夜福利精品无码不卡| 在线观看欧美精品二区| 波多野结衣中文字幕久久| 国产午夜一级淫片| 成人毛片免费观看| 区国产精品搜索视频| 亚洲中文字幕国产av| 91视频国产高清| 国产av剧情无码精品色午夜| 色悠久久综合| 久久综合色播五月男人的天堂| 91精品综合| 91福利免费视频| 成人欧美在线观看| 黄色网站不卡无码| 欧美激情成人网| 国产在线视频福利资源站| 日韩小视频在线观看| 日韩精品亚洲人旧成在线| 国产第一页屁屁影院| 亚洲AV无码久久天堂| 国产极品美女在线观看| 精品成人一区二区三区电影 | 日韩精品一区二区三区免费| 日韩激情成人| 久久亚洲欧美综合| 一级毛片在线播放| 久久中文字幕2021精品| 亚洲aaa视频| 亚洲人成人无码www| 免费无码又爽又黄又刺激网站| 国产在线视频自拍| 欧美精品v欧洲精品| 亚洲精品欧美重口| 性喷潮久久久久久久久| 亚洲一区网站| 99热6这里只有精品| 国产精品极品美女自在线看免费一区二区| 色婷婷国产精品视频| 999精品在线视频| 亚洲精品手机在线| yy6080理论大片一级久久| 久久久精品久久久久三级| 亚洲三级色| 一本大道香蕉久中文在线播放| 国产午夜精品一区二区三| 青青青视频蜜桃一区二区| 高清乱码精品福利在线视频| 亚洲午夜福利精品无码|