999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的醫(yī)療大數(shù)據(jù)分析系統(tǒng)的研究與設(shè)計①

2017-05-17 09:59:58虞宏霄南華大學(xué)附屬南華醫(yī)院衡陽400南華大學(xué)計算機學(xué)院衡陽400
計算機系統(tǒng)應(yīng)用 2017年4期
關(guān)鍵詞:數(shù)據(jù)庫

廖 亮, 虞宏霄(南華大學(xué) 附屬南華醫(yī)院, 衡陽 400)(南華大學(xué) 計算機學(xué)院, 衡陽 400)

基于Hadoop的醫(yī)療大數(shù)據(jù)分析系統(tǒng)的研究與設(shè)計①

廖 亮1, 虞宏霄21(南華大學(xué) 附屬南華醫(yī)院, 衡陽 421002)2(南華大學(xué) 計算機學(xué)院, 衡陽 421001)

針對目前部分醫(yī)院對于龐大醫(yī)療數(shù)據(jù)處理能力匱乏問題, 設(shè)計了一個基于Hadoop的醫(yī)療大數(shù)據(jù)分析系統(tǒng). 該系統(tǒng)可提供輔助診斷和醫(yī)療數(shù)據(jù)統(tǒng)計兩大功能, 同時融合了多節(jié)點分布式計算技術(shù), 可以根據(jù)患者的醫(yī)檢數(shù)據(jù)快速生成初診結(jié)果, 并能夠有效地改善傳統(tǒng)醫(yī)療數(shù)據(jù)信息系統(tǒng)分析效率較低的現(xiàn)狀.

Hadoop; 智能醫(yī)療; 大數(shù)據(jù); HIS

1 引言

近年來, 計算機技術(shù)和互聯(lián)網(wǎng)技術(shù)得到了前所未有的飛速發(fā)展, 人類社會邁入了大數(shù)據(jù)時代, 醫(yī)療產(chǎn)業(yè)信息化建設(shè)也隨之不斷加速. 據(jù)衛(wèi)生部統(tǒng)計, 2014年我國投入到醫(yī)療行業(yè)信息化建設(shè)的資金為275.1億元, 2015年總計投入規(guī)模超過300億元[1]. 與此同時,各類醫(yī)療信息數(shù)據(jù)量呈現(xiàn)出了爆炸式的增長趨勢, 而傳統(tǒng)的以數(shù)據(jù)倉庫存儲模式為主體醫(yī)院信息系統(tǒng)(HIS)由于受到硬件成本的限制, 對于大量非結(jié)構(gòu)化數(shù)據(jù)處理時容易遇到性能瓶頸, 很難做到存儲能力和計算能力的雙向擴展. 因此, 本文借鑒了當前大數(shù)據(jù)處理領(lǐng)域的最新科研成果, 設(shè)計了一個基于Hadoop的醫(yī)療大數(shù)據(jù)分析系統(tǒng), 以更好地滿足醫(yī)院對于海量醫(yī)療數(shù)據(jù)的整合加工和定量分析的需求.

2 大數(shù)據(jù)及其處理技術(shù)概述

在IT系統(tǒng)和計算機網(wǎng)絡(luò)的相關(guān)基礎(chǔ)設(shè)施及應(yīng)用中時刻都在產(chǎn)生大量的數(shù)據(jù)信息, 如何在合理時間內(nèi)將各類紛繁復(fù)雜的數(shù)據(jù)進行有效地擷取管理, 并整合成為具備支持決策的實用數(shù)據(jù)源已成為現(xiàn)階段的研究熱點, 大數(shù)據(jù)的概念由此應(yīng)運而生.

大數(shù)據(jù)的概念最早由全球知名資訊公司麥肯錫提出, 所謂大數(shù)據(jù)即big data(或mega data), 是指大小超出了常規(guī)數(shù)據(jù)庫或工具軟件的分析處理能力, 被迫采用非傳統(tǒng)方式處理的數(shù)據(jù)集[2]. 大數(shù)據(jù)具備4V特征,即Volume(體量大)、Velocity(處理快)、Variety(類別多)、Veracity(可靠性高), 要求以高擴展存儲和分布式處理方式完成數(shù)據(jù)查詢及管理功能, 目前眾多機構(gòu)雖然已經(jīng)擁有了數(shù)量較大的原始積累數(shù)據(jù), 卻普遍缺乏高效的數(shù)據(jù)挖掘分析手段, 同時數(shù)據(jù)倉庫的日常維護成本也在逐年升高. 因此, 以Hadoop構(gòu)架為代表的分布式文件系統(tǒng)得到了廣泛的應(yīng)用.

Hadoop是由Apache基金會開發(fā)的適合大規(guī)模數(shù)據(jù)處理的分布式系統(tǒng)基礎(chǔ)架構(gòu), 其核心部分包括HDFS(Hadoop Distributed File System)和Map/Reduce編程模型[3]. HDFS是一種采用主/從(master/slave)式架構(gòu), 同時具備高容錯性特點, 可以通過大量部署在普通PC上實現(xiàn)多數(shù)據(jù)節(jié)點對超大數(shù)據(jù)集進行分塊存儲管理的分布式文件系統(tǒng). 另外, HDFS為文件訪問提供“一次寫入, 多次讀取”的響應(yīng)模型, 簡化了數(shù)據(jù)一致性問題,適合大數(shù)據(jù)流的高吞吐率操作應(yīng)用. Map/Reduce是由谷歌實驗室提出的一種全新的分布式程序設(shè)計模型,主要通過Map(映射)和Reduce(化簡)兩個步驟來并行處理大規(guī)模數(shù)據(jù)集. 首先, Map函數(shù)在不改變原始文件列表的情況下, 對切割后的小塊文件所形成的獨立元素組進行逐一映射操作, 并創(chuàng)建多個新的列表用于保存Map的處理結(jié)果. 然后, 再由Reduce函數(shù)對映射后輸出的中間文件依據(jù)Key-Value值進行適當?shù)暮喜⒒蚩s減. 最后, 將大量結(jié)構(gòu)不同甚至互不相關(guān)的原始數(shù)據(jù)經(jīng)由特征抽取后產(chǎn)生的結(jié)果保存至磁盤[4].

3 系統(tǒng)構(gòu)架設(shè)計

針對目前各大醫(yī)院內(nèi)部醫(yī)療數(shù)據(jù)信息化建設(shè)的實際運行情況, 本文所提出的醫(yī)療大數(shù)據(jù)分析系統(tǒng)的框架包括: 數(shù)據(jù)層、訪問控制層和應(yīng)用層三個部分, 系統(tǒng)體系結(jié)構(gòu)如圖1所示.

圖1 醫(yī)療大數(shù)據(jù)分析系統(tǒng)體系結(jié)構(gòu)

該系統(tǒng)采用層次化結(jié)構(gòu)設(shè)計原則, 最底層是數(shù)據(jù)層, 負責將現(xiàn)有的醫(yī)院信息系統(tǒng)提交的各類醫(yī)療數(shù)據(jù)文件通過切割分塊的形式保存至Hadoop集群數(shù)據(jù)節(jié)點,實現(xiàn)文件的分片管理和負載均衡控制. 訪問控制層是中間層, 由命名節(jié)點管理命名空間鏡像以及各文件塊和數(shù)據(jù)節(jié)點的對應(yīng)關(guān)系, 運算中心通過調(diào)用命名節(jié)點提供的元數(shù)據(jù)信息, 對原始數(shù)據(jù)集進行Map/Reduce處理, 指導(dǎo)文件的讀寫流程, 并將處理結(jié)果上交至應(yīng)用層.應(yīng)用層是系統(tǒng)的最高層, 為用戶提供了操作界面接口,用戶可以通過該接口向訪問控制層下達操作指令以及接收系統(tǒng)的輔助診斷報告和數(shù)據(jù)統(tǒng)計分析結(jié)果.

4 系統(tǒng)功能的設(shè)計與實現(xiàn)

該系統(tǒng)通過與傳統(tǒng)的醫(yī)院信息系統(tǒng)進行協(xié)同工作,可以對現(xiàn)有單節(jié)點醫(yī)療數(shù)據(jù)庫中存放各類醫(yī)療數(shù)據(jù)轉(zhuǎn)為分布式存儲管理; 并通過調(diào)用運算中心設(shè)計的Map/Reduce算法, 實現(xiàn)對海量數(shù)據(jù)的高效統(tǒng)計分析和醫(yī)療輔助診斷.

4.1 數(shù)據(jù)存儲功能的設(shè)計與實現(xiàn)

數(shù)據(jù)層是由一系列安裝了Linux操作系統(tǒng)的普通PC和現(xiàn)有醫(yī)院信息系統(tǒng)的醫(yī)療數(shù)據(jù)庫構(gòu)成, Hadoop分布式文件系統(tǒng)(HDFS)運行在眾多PC構(gòu)成的數(shù)據(jù)節(jié)點集群中, 主要負責對原始醫(yī)療數(shù)據(jù)進行導(dǎo)入和分布式存儲管理, 其工作原理如圖2所示[5].

目前現(xiàn)有的醫(yī)院信息系統(tǒng)(HIS)主要由電子病歷子系統(tǒng)(EMR)和影像歸檔通信子系統(tǒng)(PACS)構(gòu)成, 其中EMR用于存放病人的基本信息、醫(yī)檢結(jié)果以及診斷報告等結(jié)構(gòu)化數(shù)據(jù), PACS存放的是各類數(shù)字化醫(yī)學(xué)影像、聲音等非結(jié)構(gòu)化數(shù)據(jù). 在Hadoop項目中, 除HDFS和Map/Reduce編程模型外, 還包括了結(jié)構(gòu)化數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架Hive, 非關(guān)系型數(shù)據(jù)庫Hbase, 以及傳統(tǒng)數(shù)據(jù)倉庫與HDFS之間的數(shù)據(jù)導(dǎo)入工具Sqoop等第三方模塊.

圖2 數(shù)據(jù)分布式存儲實現(xiàn)原理

在將原始醫(yī)療數(shù)據(jù)進行分布式處理之前, 先在命名節(jié)點中安裝Hive和Hbase, 再利用Sqoop工具提供的Java API與傳統(tǒng)醫(yī)療數(shù)據(jù)庫連接. 需要導(dǎo)入的各類數(shù)據(jù), 首先判斷其是否為結(jié)構(gòu)化數(shù)據(jù), 如果是結(jié)構(gòu)化數(shù)據(jù), Sqoop工具將通過JDBC/ODBC接口連接Hive,然后查詢與該數(shù)據(jù)對應(yīng)的存儲表單是否已經(jīng)存在, 如果不存在則創(chuàng)建新表后存入Hive; 如果已經(jīng)存在, 再判斷數(shù)據(jù)量是否超過設(shè)定閥值(Threshold), 如果沒有超過, 直接存入Hive; 如果超過, 則需要增加分區(qū)后再存入Hive. 當數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù)時, Sqoop工具將通過Hbase接口連接Hbase, 并提交插入請求; 請求得到響應(yīng)后, 再對Hbase表進行掃描并定位插入位置,同時設(shè)定時間戳, 將數(shù)據(jù)插入Hbase數(shù)據(jù)庫. 數(shù)據(jù)寫入HDFS的執(zhí)行流程如下所示:

(1) 客戶端開發(fā)庫(Client)啟動數(shù)據(jù)節(jié)點, 并向上層的命名節(jié)點發(fā)起RPC請求.

(2) 命名節(jié)點會檢查需要創(chuàng)建的文件是否已經(jīng)存在以及創(chuàng)建者的操作權(quán)限, 若檢查成功, 則為文件創(chuàng)建一個記錄; 檢查失敗, 向客戶端拋出異常.

(3) 當RPC寫入請求得到響應(yīng)后, 客戶端開發(fā)庫(Client)會將需要寫入的文件切分成多個Packets, 然后向命名節(jié)點申請新的Blocks, 并將本地文件與HDFS數(shù)據(jù)塊的映射列表, 以“塊報告”的形式提交給命名節(jié)點.

(4) 命名節(jié)點向客戶端返回所管理的數(shù)據(jù)節(jié)點的配置信息, 客戶端將根據(jù)數(shù)據(jù)節(jié)點的IP地址, 以管道(Pipeline)的形式, 按順序?qū)懭氲矫恳粋€數(shù)據(jù)塊節(jié)點中.

當原始醫(yī)療數(shù)據(jù)全部寫入HDFS后, 命名節(jié)點將所有文件的元數(shù)據(jù)信息(如文件的屬性; 文件的塊列表;文件塊與數(shù)據(jù)節(jié)點的對應(yīng)關(guān)系等)提交給運算中心, 運算中心會根據(jù)設(shè)計好的Map/Reduce算法對分布式文件集進行特定的讀寫操作和分析處理.

3.2 輔助診斷和數(shù)據(jù)統(tǒng)計功能的設(shè)計與實現(xiàn)

在患者實際就醫(yī)過程中, 通常需要進行大量的醫(yī)療檢查, 由于患者的體質(zhì)差異, 同一類型疾病的醫(yī)檢項目可能會在不同患者的檢查過程中呈現(xiàn)出不同的數(shù)據(jù)結(jié)果. 因此, 部分患者在醫(yī)檢過后, 還需要經(jīng)過一段時間的入院觀察治療才能最終定性所患疾病的具體類型. 而在醫(yī)院現(xiàn)存的電子病歷中, 包含了眾多已確診病癥的醫(yī)檢數(shù)據(jù)及患者的個人信息, 基于Hadoop的醫(yī)療大數(shù)據(jù)分析系統(tǒng), 可以通過對HDFS中存放的所有電子病歷文件進行Map/Reduce處理, 將不同病癥的各類醫(yī)檢項目數(shù)據(jù)值進行區(qū)間歸納, 并生成輔助檢測模板以提高醫(yī)院的工作效率, 同時還可以對各年齡段患者的主要易發(fā)病進行高速數(shù)據(jù)統(tǒng)計. 算法實現(xiàn)如下[6]:

Mapper算法:

(1) 打開電子病歷文件, 當文件非空且文件未結(jié)束則循環(huán)讀取字符串到變量str中;

(2) 如果str=”年齡” then key1=年齡值(整數(shù)類型);當str=”診斷結(jié)果”時, value1=病癥名稱, 將(key1,value1)寫入中間文件;

(3) 如果str=”診斷結(jié)果” then key2=病癥名稱(字符串類型).

當str=”醫(yī)檢數(shù)據(jù)”時, 修改key2=病癥名稱 & 該病對應(yīng)的某種醫(yī)檢項目名稱(字符串類型);

value2=與該病對應(yīng)的某種醫(yī)檢項目的醫(yī)檢結(jié)果數(shù)據(jù)值,

將與該病對應(yīng)的每一種醫(yī)檢項目分別生成(key2, value2)寫入中間文件.

Reducer算法:

(1) 創(chuàng)建Hash表ht;

(2) 當key值為整型時, key=與key1對應(yīng)的年齡段& value1, value=value+1, 將(key, value)寫入ht;

(3) 當key值字符串類型時, 如果value > max 則max = value;

key= key2, value= max, 將(key, value)寫入ht;

如果value < min 則 min = value;

key= key2, value= min, 將(key, value)寫入ht;

(4) 將ht中的每一組(key, value)寫入最終結(jié)果文件;

由于Mapper算法所提供的(key, value)中的key與value可能為不同的數(shù)值類型, 而HashTable可以支持任何類型的key-value鍵值對, 因此需要創(chuàng)建一個Hash表用于保存Reduce處理的臨時結(jié)果.

當系統(tǒng)做數(shù)據(jù)統(tǒng)計時, 首先判斷接收到的key值是否為整型, 是整型則按照數(shù)值大小歸入對應(yīng)的年齡段, 然后將該年齡段與所患病癥組合成新的key值,并判斷該key是否已經(jīng)存在于ht中, 如果尚未存在,則在ht中加入該key; 如果已經(jīng)存在, 則將該key對應(yīng)的value值(即該年齡段患該種疾病的人數(shù))加1.

當接收到的key值為字符串類型時, 如果判斷該key對應(yīng)的value值大于現(xiàn)存的最大值max, 則將max替換成該value; 如果判斷該key對應(yīng)的value值小于現(xiàn)存的最小值min, 則將min替換成該value. 如此反復(fù)比對, 即可實現(xiàn)某種疾病不同患者的各項醫(yī)檢項目數(shù)據(jù)值的區(qū)間歸并, 最終將所有疾病的醫(yī)檢項目數(shù)據(jù)值區(qū)間進行分類提取, 形成輔助檢測模板.

5 系統(tǒng)性能測試

為了測試系統(tǒng)的實際運行效果, 作者為本系統(tǒng)配置了20個數(shù)據(jù)節(jié)點, 隨機抽取了各年齡段共計50535份電子病歷進行了數(shù)據(jù)分析, 生成的易發(fā)病統(tǒng)計表如表1所示.

表1 各年齡段易發(fā)病統(tǒng)計

最后, 將本系統(tǒng)與現(xiàn)有的醫(yī)療數(shù)據(jù)庫利用程序控制臺的Begin()和End()函數(shù)中所記錄的時間進行了工作效率比較, 兩者在數(shù)據(jù)處理過程中的時間消耗如表2(不包含數(shù)據(jù)寫入磁盤所消耗的時間)所示. 工作效率對比折線圖如圖3所示.

表2 大數(shù)據(jù)分析系統(tǒng)與傳統(tǒng)數(shù)據(jù)庫的耗時對比

圖3 工作效率對比

通過實驗結(jié)果可以看出, 隨著被處理的電子病歷的數(shù)量增加, 傳統(tǒng)的單節(jié)點數(shù)據(jù)庫耗時呈線性增長趨勢; 而基于Hadoop的醫(yī)療大數(shù)據(jù)分析系統(tǒng), 由于在數(shù)據(jù)統(tǒng)計過程中采用了分布式的處理方式, 時間消耗并未顯著增長.

6 結(jié)語

本文的主要創(chuàng)新點有兩個: (1)提出了一個基于Hadoop的大數(shù)據(jù)分析系統(tǒng)的體系結(jié)構(gòu), 并對該系統(tǒng)所提供的功能進行了詳細的分析與設(shè)計; (2)為醫(yī)療輔助診斷和數(shù)據(jù)統(tǒng)計設(shè)計了一個切實可行的Map/Reduce算法, 優(yōu)化了醫(yī)療診斷流程并實現(xiàn)了海量數(shù)據(jù)的高速統(tǒng)計. 最后, 通過具體實驗驗證了基于Hadoop的醫(yī)療大數(shù)據(jù)分析系統(tǒng)比傳統(tǒng)的單一節(jié)點數(shù)據(jù)庫具備更高的工作效率.

1 中國產(chǎn)業(yè)信息網(wǎng).2015年中國醫(yī)療信息化市場運營報告, http://www.chyxx.com, 2015.

2 馬建光,姜巍.大數(shù)據(jù)的概念特征及應(yīng)用,國防科技,2013, 34(2):10–17.

3 White T. Hadoop: The Definitive Guide. 3rd Ed. O’Reilly Media, 2012, 5.

4 Gillick D, Faria A, DeNero J. Mapreduce: Distributed computing for machine learning. Berkley, 2006, 12.

5 Shvachko K, Kuang H, Radia S, et al. The hadoop distributed file system. 2010 IEEE 26th Symposium on Mass Storage Systems and Technologies (MSST). IEEE. 2010.

6 Boyd S, Parikh N, Chu E, et al. Distributed optimization and statistical learning via the alternating direction method of multipliers. Foundations and Trends in Machine Learning, 2011, 3(1).

Research and Design of Medical Mega Data Analysis System Based on Hadoop

LIAO Liang1, YU Hong-Xiao212(The Affiliated Nanhua Hospital, University of South China, Hengyang 421002, China) (School of Computer Science and Technology, University of South China, Hengyang 421001, China)

For solving the problem of lack of large medical data computing ability in some hospitals presently, a medical mega data analysis system based on Hadoop is designed. The system can provide two functions of auxiliary diagnosis and medical data statistics, combing with the technology of multi-node distributed computing. So, the preliminary diagnosis results can be concluded immediately according to patient’s medical data. And at the same time, the proposed system also has more efficient analysis capability than the traditional hospital information system.

Hadoop; intelligent medical; mega data; HIS

2016-04-29;收到修改稿時間:2016-12-08

10.15888/j.cnki.csa.005845

猜你喜歡
數(shù)據(jù)庫
數(shù)據(jù)庫
財經(jīng)(2017年15期)2017-07-03 22:40:49
數(shù)據(jù)庫
財經(jīng)(2017年2期)2017-03-10 14:35:35
兩種新的非確定數(shù)據(jù)庫上的Top-K查詢
數(shù)據(jù)庫
財經(jīng)(2016年15期)2016-06-03 07:38:02
數(shù)據(jù)庫
財經(jīng)(2016年3期)2016-03-07 07:44:46
數(shù)據(jù)庫
財經(jīng)(2016年6期)2016-02-24 07:41:51
數(shù)據(jù)庫
財經(jīng)(2015年3期)2015-06-09 17:41:31
數(shù)據(jù)庫
財經(jīng)(2014年21期)2014-08-18 01:50:18
數(shù)據(jù)庫
財經(jīng)(2014年6期)2014-03-12 08:28:19
數(shù)據(jù)庫
財經(jīng)(2013年6期)2013-04-29 17:59:30
主站蜘蛛池模板: 国产欧美中文字幕| 亚洲精品无码av中文字幕| 亚洲一区二区黄色| 啪啪国产视频| 亚洲AV无码不卡无码| 国产尤物jk自慰制服喷水| 久青草网站| 久久99国产综合精品女同| 国产三区二区| 欧美五月婷婷| 国产精品3p视频| 少妇精品网站| 国产在线拍偷自揄拍精品| 国产午夜无码片在线观看网站| 538国产视频| 熟妇无码人妻| 无码在线激情片| 国产在线97| 伊在人亚洲香蕉精品播放| 99热线精品大全在线观看| 国产精品夜夜嗨视频免费视频| 日韩av高清无码一区二区三区| 日本高清免费不卡视频| 国产精品无码一区二区桃花视频| 国产精品男人的天堂| 日日拍夜夜嗷嗷叫国产| 色婷婷在线播放| 色妞永久免费视频| 人妻少妇久久久久久97人妻| 午夜小视频在线| 国产成人AV男人的天堂| 日韩精品亚洲精品第一页| 久久黄色影院| 日韩精品无码免费一区二区三区 | 无码久看视频| 国产精品第三页在线看| 久久亚洲AⅤ无码精品午夜麻豆| 热思思久久免费视频| 久久永久免费人妻精品| 不卡午夜视频| 亚州AV秘 一区二区三区 | 久久亚洲综合伊人| 在线无码九区| 不卡的在线视频免费观看| 国产经典三级在线| 免费人成视网站在线不卡| 国产成人精品免费视频大全五级| 亚洲国产精品不卡在线| 欧美另类精品一区二区三区| 成人在线天堂| 亚洲精品欧美日本中文字幕| 亚洲精品人成网线在线| 国产一级在线播放| 国产在线小视频| 日本久久网站| 无码AV动漫| 国产99精品视频| 欧美自拍另类欧美综合图区| 亚洲成人高清在线观看| 激情无码字幕综合| 国产麻豆va精品视频| 亚洲美女久久| 国产精品久线在线观看| 99视频有精品视频免费观看| 国产精品视频3p| 亚洲最大在线观看| 国产剧情国内精品原创| 青青久在线视频免费观看| 国产精品片在线观看手机版| 91精品国产麻豆国产自产在线| 精品一区二区无码av| 强乱中文字幕在线播放不卡| 视频一区视频二区中文精品| 亚洲bt欧美bt精品| 视频一区亚洲| 国产在线精品人成导航| 全部免费特黄特色大片视频| 国产精品久久久久婷婷五月| 偷拍久久网| 第一区免费在线观看| 国产剧情伊人| 青青热久免费精品视频6|