999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據在生物醫學信息學中的應用

2015-02-13 04:11:28羅志輝趙逸青
醫學信息學雜志 2015年5期
關鍵詞:分析研究

羅志輝 吳 民 趙逸青

(美國威斯康辛大學密爾沃基分校 密爾沃基 53201)

?

大數據在生物醫學信息學中的應用

羅志輝 吳 民 趙逸青

(美國威斯康辛大學密爾沃基分校 密爾沃基 53201)

大數據在生物醫學信息學研究中的作用日益重要,介紹大數據在生物信息學、臨床醫學信息學、影像信息學和公共衛生信息學4個領域的應用,列舉并總結一些最近的工作進展,對未來大數據在生物醫療領域的發展進行展望。

大數據; 生物醫學信息學;應用

1 引言

隨著信息技術在醫學臨床和科研中的應用,臨床醫學、生物學、信息學發生了一次交叉融合,形成了生物醫學信息學(Biomedical Informatics)。醫院信息化的建設、醫療診斷手段的進步和高通量實驗設備的利用,使得醫學數據呈現幾何級數的增長,表現出“大數據”的特征。開展大數據相關研究工作,能更好地發現新知識、提高醫療服務的效率和質量。這種研究技術的應用必將成為生物醫藥科學技術發展的趨勢,也必將是未來生物信息研究領域的核心技術。

2 大數據概述

2.1 大數據

大數據是一種新的研究模式和應用生態系統,它改變了之前以個別案例為基礎的研究方式,更多地使用大規模的數據作為研究驅動。大數據量,這是大數據的第1個特點。隨著高通量檢測技術的發展,現在已進入一個生物信息學數據量呈指數級增長的時代。例如,ProteomicsDB覆蓋了Swiss-Prot數據庫中注明已知的人類基因的92%(19 629中的18 097,具有5.17 TB的數據量[1])。在臨床方面,美國醫療信息技術經濟與臨床健康法案(Health Information Techndogy for Econmic and chinical Health Act,HITECH)的出臺并實施提高了電子病歷在醫院的采用率,2009-2012年增加了3倍[2],數以千百萬計的患者數據以電子格式被收集并存儲,而電子病歷產生的大型數據集創造了利用病人數據進行醫學研究的寶貴機會[3]。醫療影像(如MRI、CT掃描)同樣產生了巨大的數據集,其中包含復雜結構特征和多維度的成像信息。又如可視人(Visible Human Project)計劃已獲得了39 GB的女性數據集[4],在公共衛生領域,大數據被證明可以用于預測健康水平[5]。數據類型和結構的多樣性,這是大數據的第2個特點。例如,基因測序技術幾乎在細胞領域的所有層面都形成了各類“組學”數據系統,從基因組學、蛋白質組學、代謝組學,到蛋白相互作用組學[6]層出不窮。此外,很多數據都是非結構化的[7],如電子病歷記錄[8]、臨床實驗研究結果[9-10]、醫學影像[11]以及醫療傳感器數據流,它既是一個挑戰,也給醫療信息化發展留下了巨大的空間。大數據的第3個特點是其產生速度快。大數據的速度有兩方面:產生數據的速度和處理數據的速度。新一代基因測序技術能夠以相對較低的成本,每天生產數10億DNA序列,據預計其增長速度還會顯著增加[12]。在臨床領域,據估計醫師電子病歷的采用率在美國將在2019年增加至90%[13],這意味著所收集的患者數據可在未來幾年增加1倍。如今人們生活在社會化媒體的時代,當每秒數百萬計的信息、照片和帖子發布,公共健康研究人員就可以利用這些大的社交媒體數據,探索不同人群的社會新交往模式[14-15]。

2.2 大數據技術

基于大數據的特點,需要強大的新技術用以提取各類有用的信息,從而得出醫療保健解決方案。現在,已經有幾種技術被用于解決生物醫學與健康信息學領域的大數據問題。在許多情況下是多種技術被一起使用,如人工智能(Artificial Intelligence)與并行計算平臺(Hadoop和MapReduce)的聯合使用,或與一些大數據挖掘(Big Data Mining)技術聯合使用。并行計算是用于處理大數據的基礎架構之一,該技術使得計算機集群能夠同時執行并行的算法任務。最近幾年,不斷有新的計算模型被提出,例如MapReduce,以協助并行計算機集群的計算和運行。并行計算模型需要分布式數據管理系統。 Hadoop使用Hadoop分布式文件系統的數據存儲系統,支持群集計算機同時訪問數據。云計算主要用于共享使用集中的數據存儲和網絡計算服務或資源,從而利用規模效應使得工作效率和經濟效益最大化。云計算一般分為公有云計算(Public Cloud)、私有云計算(Private Cloud)和混合云計算(Hybrid Cloud)。使用云計算免除了用戶單獨購買和配置硬件和系統軟件平臺的需求,可以使用戶更加專注于應用和開發。另一方面,云計算也促進了移動應用的發展。使用云計算平臺,公司和機構能夠搭建被廣泛訪問的網絡應用。因此云計算市場有著快速、靈敏、靈活的特性,并且以每年接近50%的速度增長。

3 大數據的應用

3.1 生物信息學應用

生物信息學(Bioinformatics)研究專注于分析生物系統在分子水平上的差異和變化。目前,朝著個性化藥物方向發展[16],產生存儲分析大量個體基因組數據的需求,因而導致數據的爆炸性增長。新基因測序技術和新的微測序技術發展大大減少了獲取人類生物譜所需的時間和成本。在這個數據生產速度呈幾何級數增長的時代,大數據應用在生物信息學方面的重點將是建立有效的計算基礎設施和分析平臺,以支持生物大數據存儲和分析。Hadoop和MapReduce系統平臺的大數據技術已經在生物信息學領域有了重大應用[17]。在本節中,把大數據技術和工具在基因組學中的應用分為4類,包括數據讀寫和檢索、數據查錯、數據分析和集成工具。這4類應用互有重疊。

3.1.1 數據讀寫和檢索 在通常情況下,測序儀能夠產生數以百萬計的短DNA序列信息,它們需要被映射到特定的參考基因組才能進行進一步的數據研究和分析,如基因分型和表達變異分析等。CloudBurst是一個開放源代碼的并行讀取算法大數據模型(使用MapReduce)[18],用多個核心集群讀取并映射序列數據到人類基因組數據的速度大大提高。DistMap是在Hadoop集群上進行分布式序列片段讀取映射的一個工具包[19],旨在增加對不同數據格式的支持,覆蓋更廣泛的測序應用。目前支持的9種數據格式包括BWA、Bowtie、Bowtie2、GSNAP、SOAP、STAR、Bismark、BSMAP和TopHat。SeqWare是一個基于云計算的大規模數據存儲和查詢引擎,以幫助生物信息學研究人員獲取大規模全基因組數據集[20]。SeqWare團隊創建了一個交互界面,用以整合各種基因組瀏覽器和工具。DDBJ數據讀取注釋流水線(DDBJ Read Annotation Pipeline)是日本DNA數據庫項目(DDBJ)發起的基于云計算的流水線[21],用于新一代測序數據的高通量讀取分析。Hydra是利用Hadoop的分布式計算框架搭建的可擴展的蛋白質組學搜索引擎,可用于處理大規模的肽和光譜數據的軟件包,該系統的重點在于搭建一個分布式計算環境,支持海量光譜數據的可擴展搜索[22]。

3.1.2 數據查錯 對于識別序列數據中的錯誤,現在也有相應的大數據處理技術。SAMQA旨在幫助識別序列數據中的錯誤,以確保大規模的基因組數據符合最低標準的質量要求[23]。SMAQA最初是為癌癥基因組圖譜項目(The Cancer Genome Atlas)的數據而設計的,能自動識別并報告錯誤,它包含了數據異常性的技術測試,如格式錯誤、無效值、空數據讀取等。對于生物實驗數據,研究人員可以通過設置閾值來過濾可能是錯誤的數據,而這些可能的錯誤將被報告給專家手動評估。ART系統也提供模擬數據序列分析[24]。ART系統最初是為支持千人基因組項目的數據模擬實現而開發的,現在該系統已被廣泛使用,它支持3種測序錯誤,包括堿基的取代、插入或缺失錯誤。CloudRS是基于可擴展框架的、高通量測序的數據糾錯算法[25]。旨在為高通量測序的數據校正提供一種并行框架。

3.1.3 數據分析 在基因組學方面,研究人員已經開發了幾個被廣泛使用的大數據計算框架和工具包,例如Genome Analysis Toolkit (GATK)、CloudBurst等。這些工具通過使用諸如并行計算、云計算和MapReduce的大數據技術等方法來分析基因序列信息分析。GATK是一個基于MapReduce的編程框架,它支持大規模的DNA序列分析[26],已經應用于癌癥基因圖譜計劃(The Cancer Genome Atlas)和千人基因組項目(1 000 Genomes Project)。ArrayExpress功能基因組學數據存儲庫歸檔是一個國際合作項目,用以整合高通量的基因組數據[27],存儲庫包含30 000多個實驗數據和超過100萬的檢測數據,約80%的數據是從基因表達綜合數據庫(Gene Expression Omnibus Database)中提取的,而20%是直接由ArrayExpress用戶遞交。BlueSNP則是一個開發于統計學平臺R上面的工具包,主要用于GWAS分析[28]。這一工具包側重于統計檢驗,如計算p值,以尋找大型基因型-表型數據集之間的關聯關系。Myrna系統是一個用于分析計算大型RNA測序數據集的基因表達差異數據云計算流水線[29]。RNA-SEQ數據是從mRNA分子得到的m個序列讀取。Myrna支持多種功能,可支持RNA序列分析,包括在綜合數據流水線中進行統計建模。Eoulsan分析工具包植入了分析轉錄表達的差異的數據分析流水線,包括測序機數據的導入,將數據映射到基因組索引、排列過濾器、轉錄表達的計算,表達差異檢測[30]。SparkSeq是一種快速的可擴展的云計算工具,用于支持交互性的基因組數據分析[31]。SparkSeq的軟件包旨在為RNA / DNA研究提供互動的查詢和分析工具,因為使用Apache Spark并行計算平臺,SparkSeq提供了使用機器學習方法分析數據的可能。

3.1.4 平臺集成工具 使用大數據計算平臺往往需要很深的分布計算和系統知識。為了減少生物信息學研究的大數據應用的障礙,一些項目專注于集成現有的大數據系統和工具,開發易用的平臺為研究人員提供分析和系統集成支持。SeqPig 運算包在Hadoop分布計算平臺上集成了一系列便捷工具,用于大規模的操作、分析和訪問續寫數據[32]。虛擬機技術也被應用到工具集成中。CloVR是一個虛擬機基因測序分析包[33],該系統同時支持在本地桌面和云系統運行,以實現高吞吐量的數據處理。生物信息學的工作流/數據流水線被集成在虛擬機中,因此CloVR降低了測序分析大型數據集的技術壁壘。CloVR包括了幾個自動化數據流水線,如全基因組、宏基因組和16S rRNA基因測序分析等。同樣,Cloud BioLinux 也是一個虛擬機解決方案[34],它為研究人員提供超過135個生物信息工具進行測序分析。部署Hadoop的云平臺,對于沒有計算機科學專業知識的科學家來說是個不小的挑戰,而CloudDOE是一個軟件包,旨在提供一個友好的用戶界面來部署Hadoop云平臺[35]。CloudDOE可將復雜的生物信息學Hadoop云計算程序配置過程封裝起來,幾個包被集成在一個包中,包括CloudBurst、CloudBrush和CloudRS,而操作過程由圖形界面為向導。

3.2 臨床醫學信息學應用

臨床醫學信息學(Clinical Informatics)研究涉及信息技術在臨床醫療領域的應用,范圍包括基礎醫學研究、病人診斷和死亡原因研究、電子病歷數據研究和各種其他臨床數據等。

3.2.1 大數據電子病歷存儲優化 大數據技術在電子健康記錄存儲方面有許多應用,如用Hadoop HDFS和HBase存儲電子健康記錄[36]。大數據可以幫助實時監測臨床數據流,為此研究人員開發了針對臨床信號數據儲存的大數據系統[37]。臨床傳感器的時間序列數據將被存儲在HBase中,行變量是單一值的時間戳,列變量則是相應時間戳對應下的病人生理值,例如,使用Hadoop和HBase的數據倉庫存儲腦電圖數據[38]。Cloudwave系統采用Hadoop的數據處理模塊來存儲和查詢大型電生理數據(EEG)[39],該系統處理77GB的EEG信號數據集用1分鐘,而傳統的獨立系統則需用20分鐘。Cloudwave利用Hadoop的處理能力,提供了一個基于網絡的實時數據的可視化和檢索界面。針對實時監測數據,近年來越來越多的研究人員認為,新型NoSQL數據庫比起傳統數據庫將有更大的發展空間。新的研究方向是要使傳統的關系型、多維數據庫能夠和NoSQL數據庫聯系起來[40]。

3.2.2 大數據電子病歷新型訪問方式 隨時間增長的龐大數據量有可能使醫療保健領域的挑戰變成大數據的機會,而大數據技術的進步使人們更易操作龐大的數據量,可交互操作的電子健康記錄也會成為可能[41]。為保證用戶數據安全,MedCloud模型設計可在符合HIPAA的條例下訪問病人數據[42]。Home-Diagnosis是一個基于云框架的病歷檢索系統,解決了在病人自我護理環境下現有電子病歷系統處理大規模并發數據讀取和分析時產生的各種問題,包括病人信息安全問題[43]。該系統主要基于Lucene檢索引擎工具包,并且使用Hadoop加速系統處理時間。

健康信息的交互讀取,在醫療知識共享傳遞方面也有很大的應用前景,如用于交互式電子健康記錄[44]。研究人員提出了一個3層架構的生態系統,以改善電子健康在云社交網絡方面的不足之處[45]。基于云技術的應用程序體系架構,也可以加強研究人員在多站點臨床實驗之間的互動[46],讓人們更多地參與到云技術在交叉學科信息學中的現今使用狀況和未來發展空間的討論[47]。有人嘗試建立一個私有云平臺,用來處理大量的醫療服務需求[48]。在中國,有人設計了一個網上心臟疾病數據分析系統,采用了混合XML數據庫和Hadoop / HBase基礎架構[49]。

3.2.3 基于大數據的病歷分析 醫學數據分析對整個醫療行業具有很大的影響,而且這一領域也有很好的發展前景。基于MapReduce技術,對大量醫療數據分析可以在合理的時間內完成,使得大量基于醫療數據的科學研究得以開展。MapReduce能使訪問10 000個真實病例數據集的整體運行時間從9小時減少到幾分鐘,這對該技術的大規模應用有很大的意義。PARAMO是一個預測性建模平臺,它可用于分析電子健康數據,預測疾病風險和進展,在臨床決策支持方面將會有重要作用[50]。該系統支持MapReduce高效處理并行任務,而醫療術語,如ICD、UMLS等也被集成到該系統中。在電子健康檔案(EHRs)以及醫學影像存儲與傳輸系統(PACS)等龐大的數據庫的基礎上,泌尿科醫生可以使用大數據分析結果作為決策支持,如預測病人膀胱切除后何時重新到醫院就診[51]。此外,大數據也可以用于確定一個75歲的前列腺病人是應該使用放療還是切除術,以避免直接的前列腺癌風險[51]。有人基于MapReduce進行數據分析,以提高肥厚型心肌病的診斷率[52]。大數據在提高臨床醫療質量和病人護理方面有著積極的意義,例如,可以探究病人病癥與疾病的因果關系,發現疾病復發的潛在危險因素[53]。大數據還可以應用于男性健康問題研究[54]和腸胃病研究[55],通過搭建病人為中心的數據架構來實現個性化藥物治療[56]。大數據也可以加強藥品安全[57]。研究人員還提出了使用大數據技術評估充血性心臟衰竭病人30天風險的解決方案[58]。有人認為,利用大數據可以在新生兒重癥監護早期階段發現致死性醫學表征,這將是臨床上的一大突破[59]。如今人們已經越來越多地把大數據分析應用到智能化的醫療決策之中[60]。

3.3 影像信息學應用

影像信息學(Image Informatics)被定義為用于產生、處理、管理、提取、呈現成像(影像)信息,在許多生物和醫學應用中集成圖像的研究方法。

3.3.1 醫學影像數據存儲和檢索 醫學影像數據的迅速增加需要更高效的影像檢索系統,以減少存儲和檢索所需的時間。研究人員開發了一個基于Hadoop的大規模醫學影像檢索系統[61]。Hadoop分布式文件系統(HDFS)被用于存儲影像特征,實驗結果表明該影像檢索系統的速度非常快,大幅度減少了存儲和檢索時間。研究人員還使用Hadoop開發了基于影像內容檢索的影像系統(Content-based Image Retrieval)[62],對數據庫中大量的圖片進行更快的影像檢索。人們使用乳腺X光影像數據庫中的影像來驗證開發的影像檢索系統[63]。

3.3.2 大規模醫學影像分析 Hadoop-GIS系統使用自主研發的實時空間查詢引擎(RESQUE),并且利用MapReduce進行空間信息查詢,通過Hive進行影像特征查詢[64]。這個研究的主要目的是未來大規模(TB或者PB級)的病理學影像信息的儲存、分析和管理。針對心臟影像,研究人員開發了大數據影像系統、集成人工智能(Artificial Intelligence)技術、大規模并行計算(Parallel Computing)平臺和大數據挖掘(Big Data Mining)技術[65]。大數據挖掘技術結合下一代人工智能可以進行復雜的醫學影像分析,如病人是否有心肌梗塞等,能為醫生提供多個候選診斷。大數據技術使得醫學影像分析在更短的時間內完成,提高了效率。研究人員探索使用計算機節點集群進行影像處理,例如,使用支持向量機(SVM)對肺紋理進行分類、基于內容的醫學影像索引和三維定向小波分析、固體紋理分類參數優化[66]。

3.4 公共衛生信息學應用

大數據能加強公眾衛生的3個核心功能,即健康評估、政策制定和疾病預防。

3.4.1 監控全球傳染病 大數據技術在全球傳染病監測方面有著巨大的應用潛力。研究人員開發了一個大數據系統,提供一個時間靜態的持續風險地圖[67]。未來有望將社交網絡信息和流行病學相關信息,在空間地圖上“實時”更新。人們收集了5.5億條推特信息(Tweets),通過超過9 800條有地理定位的推特微博信息的分析,發現HIV有關的推特微博信息和HIV病例之間呈現顯著的正相關關系[68]。這說明社交媒體如Twitter提供的在線數據對疾病預防有潛在的重要應用。

3.4.2 高效的疾病管理和預測 研究人員設計了一個使用Hadoop進行文本挖掘的疾病管理系統[69],它包括醫療數據采集模塊、Hadoop文本挖掘模塊、疾病規則創建模塊和疾病管理和預測模塊。醫療數據采集模塊獲取并儲存的是原始的沒有數據結構的醫療數據,Hadoop文本挖掘模塊則是將這些原始數據轉換成有一定結構的數據。疾病規則創建模塊建立在條件概率群論的理論基礎上,通過比較疾病規則創建模塊產生的病人信息、病人健康現狀、家族病史,疾病管理和預測模塊能夠為病人提供個性化醫療服務,并且通過病人健康現狀預測未來患病的可能性。人們用大量的醫療保險數據來分析病人的主要診斷和死亡原因的獨立關聯,研究社會人口特征和醫療行政分布對此的影響[70],結果證明了大規模的數據分析可以被用來有效地分析醫療事件的關聯。

4 結語

目前已經步入大數據時代,大數據技術正在被快速地應用到生物信息和醫療保健領域之中。因為生物信息學數據存在著數量大、分析難的特性,大數據的分析方法最早被應用于生物信息學領域,所以在此領域發展得比較成熟,已有成型的平臺和工具來幫助分析生物序列數據。在其他生物醫學領域,大數據的應用還有巨大的潛力未被開發。本文列舉并總結了一些最近的工作進展,如存儲分析病人電子病歷、分析社交傳媒得以監控疾病風險等。目前,在臨床信息學、醫學影像信息學和公共衛生信息學方面,大數據的應用還處在萌芽階段,未來發展的前景廣闊,例如麥肯錫公司在最新的產業分析報告中預測,應用大數據分析將為美國節省3 000億到4 500億美元的醫療費用。未來大數據在生物醫療領域的發展,將依賴于數據標準的制定、研究和技術的進步,研究機構及企業的合作,以及政府方面的強力推動。

1 Wilhelm M, Schlegl J,Hahne H, et al.Mass-spectrometry-based Draft of the Human Proteome[J]. Nature,2014, 509(7502): 582-587.

2 Blumenthal D, Tavenner M. The “Meaningful Use” Regulation for Electronic Health Records[J]. New England Journal of Medicine,2010, 363(6): 501-504.

3 Rea S. Pathak J,Savova G, et al. Building a Robust, Scalable and Standards-driven Infrastructure for Secondary Use of EHR Data: the SHARPn project[J]. Journal of Biomedical Informatics,2012, 45(4): 763-771.

4 Ackerman M J. The Visible Human Project: a resource for education[J]. Academic Medicine,1999, 74(6): 667-670.

5 Lohr S. The Age of Big Data[N]. New York Times,2012-2-11(1).

6 Joyce A R, Palsson B O. The Model Organism as a System: integrating 'omics' data sets[J]. Nat Rev Mol Cell Biol,2006, 7(3): 198-210.

7 Feldman R, Sanger J. The Text Mining Handbook: advanced approaches in analyzing unstructured data[J]. London:Cambridge University Press,2007.

8 Rosenbloom S T, Denny J C, Xu H, et al. Data from Clinical Notes: a Perspective on the ension between structure and flexible documentation[J]. Journal of the American Medical Informatics Association, 2011, 18(2): 181-186.

9 Luo Z, Duffy R,Johnson S, et al. Corpus-based Approach to Creating a Semantic Lexicon for Clinical Research Eligibility Criteria from UMLS[C]. San Francisco:AMIA Joint Summit of Translational Informatics, 2010: 26-31.

10 Weng C, Wu X, Luo Z, et al. EliXR: an approach to eligibility criteria extraction and representation[J]. Journal of the American Medical Informatics Association,2011,(18): 116-124.

11 Reiner B I. Medical Imaging Data Reconciliation, Part 3: reconciliation of historical and current radiology report data Banks[J]. Journal of the American College of Radiology, 2011, 8(11): 768-771.

12 McKenna A, Hanna M,Banks E, et al. The Genome Analysis Toolkit: a mapReduce framework for analyzing next-generation DNA sequencing data[J].Genome Research, 2010, 20(9): 1297-1303.

13 Blavin F E, Buntin M B. Forecasting the Use of Electronic Health Records: an expert opinion approach [EB/OL].[2015-06-01]. http://www.cms.gov/mmrr/Downloads/MMRR2013_003_02_A02.pdf.

14 Carneiro H A, Mylonakis E. Google trends: a web-based tool for real-time surveillance of disease outbreaks[J]. Clinical Infectious Diseases,2009, 49(10): 1557-1564.

15 Chou W Y S, Hunt Y M, Beckjord E B, et al. Social media use in the United States: implications for health communication[J]. Journal of Medical Lnternet Research,2009,11(4):e48.

16 吳民, 羅志輝,翁春華. 個性化醫學探究[J]. 醫學信息學雜志,2013, 34(10): 2-7.

17 Taylor R. An Overview of the Hadoop/MapReduce/HBase Framework and Its Current Applications in Bioinformatics[J]. BMC Bioinformatics,2013, 11(Suppl 12): S1.

18 Schatz M C. CloudBurst: highly sensitive read mapping with MapReduce[J].Bioinformatics, 2009, 25(11): 1363-1369.

19 Pandey R V, C Schl?tterer. DistMap: a toolkit for distributed short read mapping on a Hadoop cluster[J]. PLoS ONE, 2013, 8(8): e72614.

20 D O’Connor B, B Merriman, et al. SeqWare Query Engine: storing and searching sequence data in the cloud[J]. BMC Bioinformatics,2010, 11(Suppl 12): S2.

21 Nagasaki H, T Mochizuki, et al. DDBJ Read Annotation Pipeline: a cloud computing-based pipeline for high-throughput analysis of next-generation sequencing data[J]. DNA Research,2013, 20(4): 383-390.

22 Lewis S, A Csordas, et al. Hydra: a scalable proteomic search engine which utilizes the Hadoop distributed computing framework[J]. BMC Bioinformatics, 2012, 13(1): 324.

23 Robinson T, S Killcoyne, et al. SAMQA: error classification and validation of high-throughput sequenced read data[J]. BMC Genomics, 2011, 12(1): 419.

24 Huang W, L Li, et al. ART: a next-generation sequencing read simulator[J]. Bioinformatics,2012, 28(4): 593-594.

25 Chen C-C, Y-J Chang, et al. CloudRS: an error correction algorithm of high-throughput sequencing data based on scalable framework[C]. Santa Clara, CA, US: IEEE International Conference on Big Data, 2013: 717-722.

26 McKenna A, M Hanna, et al. The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data[J]. Genome Research, 2010, 20(9): 1297-1303.

27 Brazma A, H Parkinson, et al. ArrayExpress-a public repository for microarray gene expression data at the EBI[J]. Nucleic Acids Research,2003, 31(1): 68-71.

28 Huang H, S Tata, et al. BlueSNP: R package for highly scalable genome-wide association studies using Hadoop clusters[J]. Bioinformatics, 2013, 29(1): 135-136.

29 Langmead B, K D Hansen, et al. Cloud-scale RNA-sequencing differential expression analysis with Myrna[J]. Genome Biol, 2010, 11(8): R83.

30 Jourdren L, M Bernard, et al. Eoulsan: a cloud computing-based framework facilitating high throughput sequencing analyses[J]. Bioinformatics, 2012, 28(11): 1542-1543.

31 Wiewiórka M S, A Messina, et al. SparkSeq: fast, scalable, cloud-ready tool for the interactive genomic data analysis with nucleotide precision[J]. Bioinformatics, 2014, 30(18):2652-2653.

32 Schumacher A, L Pireddu, et al. SeqPig: simple and scalable scripting for large sequencing data sets in Hadoop[J]. Bioinformatics, 2014, 30(1): 119-120.

33 Angiuoli S V, M Matalka, et al. CloVR: a virtual machine for automated and portable sequence analysis from the desktop using cloud computing[J]. BMC Bioinformatics, 2011, 12(1): 356.

34 Krampis K, T Booth, et al. Cloud BioLinux: pre-configured and on-demand bioinformatics computing for the genomics community[J]. BMC Bioinformatics, 2012, 13(1): 42.

35 Chung W-C, C-C Chen, et al. CloudDOE: a user-friendly tool for deploying hadoop clouds and analyzing high-throughput sequencing data with mapReduce[J]. PLoS ONE,2014, 9(6): e98146.

36 Jin Y, T Deyu, et al. A Distributed Storage Model for EHR Based on HBase[C].Hong Kong, China: IEEE International Conference on Information Management, Innovation Management and Industrial Engineering (ICIII), 2011:26-27.

37 Nguyen A V, R Wynden, et al. HBase, MapReduce, and Integrated Data Visualization for Processing Clinical Signal Data[C]. Standford University: AAAI Spring Symposium: Computational Physiology, 2011.

38 Dutta H, A Kamil, et al. Grid and Cloud Database Management[M]. Springer, 2011: 331-347.

39 Sahoo S S, C Jayapandian, et al. Heart Beats in the Cloud: distributed analysis of electrophysiological ‘big data’using cloud computing for epilepsy clinical research[J]. Journal of the American Medical Informatics Association, 2014, 21(2): 263-271.

40 Mazurek M. Beyond Databases, Architectures, and Structures[M]. Springer, 2014: 527-536.

41 Schultz T. Turning Healthcare Challenges into Big Data Opportunities: a use‐case review across the pharmaceutical development lifecycle[J]. Bulletin of the American Society for Information Science and Technology, 2013, 39(5): 34-40.

42 Sobhy D, Y El-Sonbaty, et al. MedCloud: healthcare cloud computing system[C]. London, UK: Proceedings of the 7th International Conference for Internet Technology and Secured Transactions, 2012:161-166.

43 Lin W, W Dou, et al. A Cloud-based Framework for Home-diagnosis Service over Big Medical Data[J]. Journal of Systems and Software, 2014,(102):192-206.

44 Bahga A, V K Madisetti. A Cloud-based Approach for Interoperable Electronic Health Records (EHRs) [J]. IEEE Journal of Biomedical and Health Informatics, 2013 17(5): 894-906.

45 Deb B, S N Srirama. Social Networks for eHealth Solutions on Cloud[J]. Frontiers in Genetics, 2013, (4):171.

46 Sharp J. An Application Architecture to Facilitate Multi-site Clinical Trial Collaboration in the Cloud[C].New York, US: Proceedings of the 2nd International Workshop on Software Engineering for Cloud Computing, ACM, 2011: 64-68.

47 Chen J, F Qian, et al. Translational Biomedical Informatics in the Cloud: present and Future[EB/OL].[2015-06-01]. http://dx.doi.org/10.1155/2013/658925.

48 He C, X Fan, et al. Toward Ubiquitous Healthcare Services with a Novel Efficient Cloud Platform[J]. IEEE Transactions on Biomedical Engineering, 2013, 60(1): 230-234.

49 Wang Y, L Wang, et al. Frontier and Future Development of Information Technology in Medicine and Education[M]. Springer, 2014: 1575-1583.

50 Ng K, A Ghoting, et al. PARAMO: a parallel predictive modeling platform for healthcare analytic research using electronic health records[J]. Journal of Biomedical Informatics, 2014, (48): 160-170.

51 Ghani K R, K Zheng, et al. Harnessing Big Data for Health Care and Research: are urologists ready?[J]. European Urology, 2014,(66):975-977.

52 Deligiannis P, H-W Loidl, et al. Improving the Diagnosis of Mild Hypertrophic Cardiomyopathy with Mapreduce[C].New York, US: Proceedings of Third International Workshop on MapReduce and Its Applications Date, 2012:41-48.

53 Wang W, E Krishnan. Big Data and Clinicians: a review on the state of the science[J]. JMIR Medical Informatics, 2014, 2(1): e1.

54 Porche D J. Men's Health Big Data[J]. American Journal of Men's Health,2014, 8(3): 189.

55 Genta R M, A Sonnenberg. Big Data in Gastroenterology Research[J]. Nat Rev Gastroenterol Hepatol,2014, 11(6): 386-390.

56 Chawla N V, D A Davis. Bringing Big Data to Personalized Healthcare: a patient-centered framework[J]. Journal of General Internal Medicine,2013, 28(3): 660-665.

57 Abbott R. Big Data and Pharmacovigilance: using health information exchanges to revolutionize drug safety[J]. Iowa L Rev, 2013, (99): 225.

58 Zolfaghar K, N Meadem, et al. Big Data Solutions for Predicting Risk-of-readmission for Congestive Heart Failure Patients[C]. Santa Clara, CA, USA: Proc IEEE International Conference on Big Data, 2013:64-71.

59 McGregor C. Big Data in Neonatal Intensive Care[J]. Computer,2013, 46(6): 54-59.

60 Raghupathi W, V Raghupathi. Big Data Analytics in Healthcare: promise and potential[J]. Health Information Science and Systems,2014, 2(1): 3.

61 Yao Q-A, H Zheng, et al. Massive Medical Images Retrieval System Based on Hadoop[J]. Journal of Multimedia, 2014, 9(2): 216-222.

62 Grace R K, R Manimegalai, et al. Medical Image Retrieval System in Grid Using Hadoop Framework[C]. Las Vegas, Nevada, USA:International Conference on Computational Science and Computational Intelligence(CSCI), 2014: 144-148.

63 Jai-Andaloussi S, A Elabdouli, et al. Medical Content Based Image Retrieval by Using the Hadoop Framework[C]. Finland: 20th International Conference on Telecommunications (ICT), 2013:1-5.

64 Wang F, R Lee, et al. Hadoop-gis: a high performance query system for analytical medical imaging with mapreduce[D]. Altlanta,USA: Emory University,2011.

65 Dilsizian S E, E L Siegel. Artificial Intelligence in Medicine and Cardiac Imaging: harnessing big data and advanced computing to provide personalized medical diagnosis and treatment[J]. Current Cardiology Reports,2014, 16(1): 1-8.

66 Markonis D, R Schaer, et al. Using MapReduce for Large-Scale Medical Image Analysis[C]. La Jolla, CA, USA:IEEE Second International Conference on Healthcare Informatics, Imaging and Systems Biology, 2012:1.

67 Hay S I, D B George, et al. Big Data Opportunities for Global Infectious Disease Surveillance[J]. PLoS Medicine, 2103, 10(4): e1001413.

68 Young S D, C Rivers, et al. Methods of Using Real-time Social Media Technologies for Detection and Remote Monitoring of HIV Outcomes[J]. Preventive Medicine,2014, (63): 112-115.

69 Lee B, E Jeong. A Design of a Patient-customized Healthcare System based on the Hadoop with Text Mining (PHSHT) for an Efficient Disease Management and Prediction[J]. International Journal of Software Engineering & Its Applications,2014, 8(8):131-150.

70 Lamarche-Vadel A, G Pavillon, et al. Automated Comparison of Last Hospital Main Diagnosis and Underlying Cause of Death ICD10 Codes, France, 2008-2009[J]. BMC Medical Informatics and Decision Making,2014, 14(1): 44.

Big Data Application in Biomedical Informatics

LUOZhi-hui,WUMin,ZHAOYi-qing,

UniversityofWisconsin-Milwaukee,Milwaukee53201,USA

Big data is becoming increasingly important for biomedical informatics research. The paper introduces big data applications in four areas: bioinformatics, clinical informatics, image informatics, and public health informatics,summarizes latest progress and prospects the future development.

Big data; Biomedical informatics; Application

2015-04-01

羅志輝,博士,助理教授,發表論文多篇。

R-058

A 〔DOI〕10.3969/j.issn.1673-6036.2015.05.001

猜你喜歡
分析研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
隱蔽失效適航要求符合性驗證分析
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
新版C-NCAP側面碰撞假人損傷研究
電力系統及其自動化發展趨勢分析
中西醫結合治療抑郁癥100例分析
主站蜘蛛池模板: 亚洲一区黄色| 99精品在线视频观看| 日本91视频| 色综合久久综合网| 日本五区在线不卡精品| 欧美一区二区福利视频| 国产又粗又爽视频| 少妇精品久久久一区二区三区| 99精品福利视频| 欧美人与性动交a欧美精品| 任我操在线视频| 高h视频在线| 日本欧美成人免费| 国产欧美精品一区二区| 欧洲欧美人成免费全部视频| 97av视频在线观看| 欧美精品在线观看视频| 天天躁日日躁狠狠躁中文字幕| 久久无码免费束人妻| 色婷婷成人网| 91一级片| 久久精品中文字幕少妇| 一本一道波多野结衣一区二区| 久久精品波多野结衣| 久久五月天综合| 国产成人精品三级| 黄色成年视频| 免费人成又黄又爽的视频网站| 国产高清在线精品一区二区三区| 伊人激情综合网| 国产在线视频欧美亚综合| 91青青视频| 欧美午夜理伦三级在线观看| 在线色国产| 国产亚洲视频中文字幕视频| 亚洲国产综合第一精品小说| 2022国产无码在线| 美女毛片在线| 欧美精品成人| 国产丝袜一区二区三区视频免下载| 无遮挡国产高潮视频免费观看| 欧美特级AAAAAA视频免费观看| 久久99蜜桃精品久久久久小说| 国产美女在线免费观看| 国产成人做受免费视频| 超薄丝袜足j国产在线视频| 亚洲乱码精品久久久久..| 天天躁夜夜躁狠狠躁躁88| 国产成人91精品免费网址在线| 久久青草免费91线频观看不卡| 亚洲国产精品日韩av专区| 成色7777精品在线| 国产成人91精品| a免费毛片在线播放| 天天色综合4| 永久免费精品视频| 欧美第一页在线| 一级毛片a女人刺激视频免费| 国禁国产you女视频网站| 婷婷色丁香综合激情| 色久综合在线| 婷婷综合色| 国产主播在线一区| 欧美日韩国产在线播放| 2020久久国产综合精品swag| 国产成人精品免费av| 青青极品在线| 亚洲国产综合自在线另类| 国内99精品激情视频精品| 亚洲乱码视频| 免费看一级毛片波多结衣| 91亚洲精品第一| 欧美日韩中文国产va另类| 国产在线自乱拍播放| 国产视频大全| 99爱在线| 亚洲国产AV无码综合原创| 亚洲九九视频| 精品欧美视频| 人妻丰满熟妇av五码区| 国产精品v欧美| 免费在线a视频|