醫(yī)療健康大數(shù)據(jù)：概念、特點(diǎn)、平臺(tái)及數(shù)據(jù)集成問題研究

2018-12-06 09:27:16邢丹姚俊明

物聯(lián)網(wǎng)技術(shù) 2018年8期

邢丹姚俊明

摘要：從狹義和廣義角度定義了醫(yī)療健康大數(shù)據(jù)，分析并總結(jié)了醫(yī)療健康大數(shù)據(jù)區(qū)別于傳統(tǒng)大數(shù)據(jù)的海量性、復(fù)雜性、精確性、安全性、異構(gòu)性及封閉性的特點(diǎn)。同時(shí)探討了構(gòu)建醫(yī)療健康大數(shù)據(jù)平臺(tái)的相關(guān)問題，架構(gòu)技術(shù)及其關(guān)鍵問題、平臺(tái)構(gòu)建的兼容問題及其技術(shù)路線問題，最后分析了醫(yī)療大數(shù)據(jù)的數(shù)據(jù)集成所考慮的問題、難點(diǎn)及現(xiàn)有的集成方法。

關(guān)鍵詞：醫(yī)療健康；大數(shù)據(jù)；大數(shù)據(jù)平臺(tái)；數(shù)據(jù)集成；分布式計(jì)算

中圖分類號(hào)：TP274 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：2095-1302（2018）08-0-03

0 引言

目前，我國雖已具有多年醫(yī)療信息化建設(shè)的歷史，但是這些數(shù)據(jù)庫信息孤立、分散、多元、異構(gòu)、類型、標(biāo)準(zhǔn)不一，大多應(yīng)用于單獨(dú)醫(yī)院或較小范圍內(nèi)的醫(yī)院，沒有形成大范圍多學(xué)科、多標(biāo)準(zhǔn)、多類型、多模式的協(xié)同系統(tǒng)。與此同時(shí)，近年來國家提出打造以醫(yī)院、社區(qū)、平臺(tái)為主的“三位一體、相互協(xié)同”的綜合服務(wù)新模式，醫(yī)療數(shù)據(jù)的產(chǎn)生，從醫(yī)院管理系統(tǒng)的關(guān)系型數(shù)據(jù)轉(zhuǎn)變?yōu)橛蒖FID及無線傳感組成的半結(jié)構(gòu)化、非結(jié)構(gòu)化大數(shù)據(jù)。如何完成多數(shù)據(jù)源醫(yī)療健康大數(shù)據(jù)的無縫集成和融合，構(gòu)建全國范圍內(nèi)的醫(yī)療協(xié)同系統(tǒng)，是未來面向醫(yī)療行業(yè)所采取的必經(jīng)之路。

這項(xiàng)工作需在充分掌握醫(yī)療健康大數(shù)據(jù)特點(diǎn)的基礎(chǔ)上，通過構(gòu)建醫(yī)療健康大數(shù)據(jù)平臺(tái)，從數(shù)據(jù)集成問題著手，本文從不同角度探討了醫(yī)療大數(shù)據(jù)相關(guān)問題。

1 醫(yī)療健康大數(shù)據(jù)概念及其特點(diǎn)

1.1 醫(yī)療健康大數(shù)據(jù)概念

狹義上的醫(yī)療健康大數(shù)據(jù)指的是醫(yī)院的醫(yī)療機(jī)構(gòu)產(chǎn)生的大數(shù)據(jù)，這是最主要的醫(yī)療健康大數(shù)據(jù)，產(chǎn)生于醫(yī)院常規(guī)臨床診治、科研和管理過程，包括各種門急診記錄、住院記錄、影像記錄、實(shí)驗(yàn)室記錄、用藥記錄、手術(shù)記錄、隨訪記錄和醫(yī)保數(shù)據(jù)等[1]。

廣義上的醫(yī)療健康大數(shù)據(jù)涵蓋來自于區(qū)域衛(wèi)生服務(wù)平臺(tái)大數(shù)據(jù)、醫(yī)學(xué)研究或疾病監(jiān)測大數(shù)據(jù)、自我量化大數(shù)據(jù)、互聯(lián)網(wǎng)上與醫(yī)學(xué)相關(guān)的網(wǎng)絡(luò)大數(shù)據(jù)、生物標(biāo)本和基因測序的生物信息大數(shù)據(jù)。

1.2 醫(yī)療大數(shù)據(jù)的特點(diǎn)

醫(yī)療健康大數(shù)據(jù)除了具有傳統(tǒng)大數(shù)據(jù)的大量性、多樣性、快速性[1]之外，由于醫(yī)療行業(yè)的特殊性，使其還具有海量性、復(fù)雜性、精確性及安全性，同時(shí)由于醫(yī)療信息化建設(shè)的歷史導(dǎo)致了異構(gòu)性和封閉性。

（1）海量性。2011年，美國的醫(yī)療健康系統(tǒng)數(shù)據(jù)量就達(dá)到了150 EB。醫(yī)療衛(wèi)生機(jī)構(gòu)除了傳統(tǒng)臨床和檢驗(yàn)中產(chǎn)生的數(shù)據(jù)之外，隨著物聯(lián)網(wǎng)技術(shù)的發(fā)展，能夠?qū)崿F(xiàn)所有物物相連，比如便攜式醫(yī)療設(shè)備上二維碼標(biāo)簽所產(chǎn)生的數(shù)據(jù)，這些物品的數(shù)據(jù)相比傳統(tǒng)的數(shù)據(jù)量要大的多。加之各種健身、健康可穿戴設(shè)備的出現(xiàn)，使得血壓、心率、體重、血糖、心電圖（EKG）等的監(jiān)測都變?yōu)楝F(xiàn)實(shí)和可能，信息獲取和分析的速度已從原來的按“天”計(jì)算，發(fā)展到按“小時(shí)”，按“秒”計(jì)算。此外，基因數(shù)據(jù)也是龐大的存在，一次全面的基因測序，產(chǎn)生的個(gè)人數(shù)據(jù)達(dá)到300 GB。平臺(tái)數(shù)據(jù)量巨大，通常要包含1 000萬以上個(gè)人用戶的各種醫(yī)療健康數(shù)據(jù)。

（2）復(fù)雜性。一方面醫(yī)療領(lǐng)域包含了大量的醫(yī)學(xué)專業(yè)用語，僅疾病名稱就包括3萬多種，另外還有數(shù)以萬計(jì)的診斷、手術(shù)和藥物名稱，以及大量影像、醫(yī)囑等非結(jié)構(gòu)化數(shù)據(jù)[2]。由于醫(yī)療數(shù)據(jù)是不同臨床診療服務(wù)過程中的產(chǎn)物，因此數(shù)據(jù)之間關(guān)系復(fù)雜，且易受到不同因素的影響，致使某些數(shù)據(jù)帶有偏倚性。醫(yī)院之間也存在諸多差別，如病人的個(gè)體特性和疾病程度、醫(yī)院的診斷和治療水平、醫(yī)療數(shù)據(jù)的記錄和編碼水平等。即使是同一個(gè)描述形式，其語法和語義上也不盡相同，更加導(dǎo)致了數(shù)據(jù)的復(fù)雜性。

（3）精確性。醫(yī)療行業(yè)數(shù)據(jù)與人的健康、疾病和生命息息相關(guān)，任何失誤都可能導(dǎo)致錯(cuò)誤結(jié)論，并進(jìn)一步誤導(dǎo)臨床診治工作，對(duì)臨床實(shí)踐造成巨大損害。因此在數(shù)據(jù)處理時(shí)必須保證數(shù)據(jù)完整性和約束完整性。數(shù)據(jù)完整性指數(shù)據(jù)的正確性、一致性和相容性；約束完整性指數(shù)據(jù)與數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系，是表征數(shù)據(jù)間邏輯的唯一特征。保證約束完整性是數(shù)據(jù)發(fā)布和數(shù)據(jù)交換的前提，可方便數(shù)據(jù)處理過程，提高效率。

（4）安全性。醫(yī)療數(shù)據(jù)除了包含病人隱私信息，也包含了大量關(guān)于醫(yī)院運(yùn)轉(zhuǎn)、診療方法、藥物療效等信息。這些信息一般都較敏感，某些可能會(huì)涉及商業(yè)利益，因此目前存在的問題主要是醫(yī)療機(jī)構(gòu)不愿意公開數(shù)據(jù)，而某些可進(jìn)行數(shù)據(jù)處理的部門沒有數(shù)據(jù)。

（5）異構(gòu)性（多樣性）。由異構(gòu)問題導(dǎo)致了數(shù)據(jù)的多樣。主要包括數(shù)據(jù)源的異構(gòu)、管理系統(tǒng)的異構(gòu)及所采用標(biāo)準(zhǔn)的異構(gòu)。綜合健康服務(wù)平臺(tái)數(shù)據(jù)來源廣泛，包括醫(yī)院、獨(dú)立體檢機(jī)構(gòu)、社區(qū)衛(wèi)生服務(wù)機(jī)構(gòu)、區(qū)域醫(yī)療信息平臺(tái)、第三方檢測機(jī)構(gòu)、新農(nóng)合、醫(yī)保社保、個(gè)人用戶和網(wǎng)絡(luò)等，且主要產(chǎn)生自制藥企業(yè)/生命科學(xué)，臨床醫(yī)療/實(shí)驗(yàn)室數(shù)據(jù)，費(fèi)用報(bào)銷/利用率，健康管理/社交網(wǎng)絡(luò)中；平臺(tái)數(shù)據(jù)內(nèi)容多樣，包括病史、體格檢查、理化檢查、居民基本健康檔案、各類個(gè)人信息和網(wǎng)頁等，涉及到的數(shù)據(jù)源的類型多樣，有結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)；管理系統(tǒng)的異構(gòu)既有管理系統(tǒng)所運(yùn)行的操作系統(tǒng)、采取的數(shù)據(jù)庫的不同，還有不同的管理系統(tǒng)采用不同技術(shù)實(shí)現(xiàn)的異構(gòu)；所采用的標(biāo)準(zhǔn)目前主要有CDA，HL7，DCOM接口等。

（6）封閉性。由各獨(dú)立的自治系統(tǒng)導(dǎo)致了信息孤島，進(jìn)而所產(chǎn)生出的數(shù)據(jù)只適合在該系統(tǒng)內(nèi)部，每個(gè)不同的醫(yī)療機(jī)構(gòu)都自成一個(gè)體系，是一個(gè)獨(dú)立運(yùn)行的實(shí)體，導(dǎo)致數(shù)據(jù)無法共享。今后的工作需要制定統(tǒng)一的數(shù)據(jù)表示方式或是采用某種統(tǒng)一的方法對(duì)其進(jìn)行封裝，才能實(shí)現(xiàn)統(tǒng)一的處理，最終實(shí)現(xiàn)全國范圍內(nèi)系統(tǒng)之間的互聯(lián)互通。所有這些特性使得醫(yī)療大數(shù)據(jù)工作者在具體實(shí)踐中面臨巨大的挑戰(zhàn)。

2 構(gòu)建醫(yī)療大數(shù)據(jù)平臺(tái)相關(guān)問題分析

2.1 醫(yī)療大數(shù)據(jù)平臺(tái)架構(gòu)的技術(shù)及其關(guān)鍵問題

未來將建立一個(gè)“以人為中心”的綜合健康服務(wù)生態(tài)系統(tǒng)，系統(tǒng)與區(qū)域醫(yī)療信息平臺(tái)、醫(yī)療保險(xiǎn)機(jī)構(gòu)、體檢中心、第三方檢驗(yàn)/影像、主動(dòng)醫(yī)療服務(wù)以及醫(yī)保新農(nóng)合等已有醫(yī)療服務(wù)資源進(jìn)行規(guī)范化、標(biāo)準(zhǔn)化地整合與協(xié)同。其技術(shù)支撐層中完成對(duì)大數(shù)據(jù)的集成、存儲(chǔ)、處理等功能，該層對(duì)大數(shù)據(jù)的處理選用開源的分布式計(jì)算平臺(tái)，目前醫(yī)療健康大數(shù)據(jù)平臺(tái)一般基于Hadoop框架來構(gòu)建。該平臺(tái)的技術(shù)體系理論上能夠處理醫(yī)療綜合健康服務(wù)生態(tài)系統(tǒng)中各種類型的數(shù)據(jù)存儲(chǔ)和海量信息處理。而Hadoop能夠?yàn)橛脩籼峁┫到y(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)，并且以可靠、高效、可伸縮的方式處理海量數(shù)據(jù)的分布式軟件架構(gòu)，采用該技術(shù)必將節(jié)省平臺(tái)整合的時(shí)間和金錢上的效率。

現(xiàn)有Hadoop與行業(yè)應(yīng)用還存在一定差距。對(duì)于醫(yī)療應(yīng)用而言主要是兩個(gè)方面：其一缺乏面向醫(yī)療領(lǐng)域的分析和挖掘算法庫、模型庫；其二缺乏醫(yī)療知識(shí)庫支撐。在臨床決策支持等基于醫(yī)療健康大數(shù)據(jù)的應(yīng)用中，需要基于對(duì)醫(yī)生輸入數(shù)據(jù)內(nèi)容的理解，才能做出必要的決策支持。對(duì)于數(shù)據(jù)內(nèi)容的語義處理，必須基于醫(yī)療健康知識(shí)庫[3]。

醫(yī)療大數(shù)據(jù)平臺(tái)需解決的關(guān)鍵技術(shù)：醫(yī)療健康語義知識(shí)庫構(gòu)建、非結(jié)構(gòu)化數(shù)據(jù)的語義處理及傳統(tǒng)分析和挖掘技術(shù)的并行化。

2.2 醫(yī)療大數(shù)據(jù)平臺(tái)構(gòu)建的兼容性及其技術(shù)路線問題

醫(yī)療大數(shù)據(jù)平臺(tái)的構(gòu)建需要考慮如何利用現(xiàn)有數(shù)據(jù)及需要收集哪些數(shù)據(jù)[4-5]。同時(shí)要考慮原有的關(guān)系型數(shù)據(jù)和Hadoop [6]中非關(guān)系型數(shù)據(jù)的存儲(chǔ)，還有兼容業(yè)務(wù)數(shù)據(jù)和外部數(shù)據(jù)。

在技術(shù)路線上，首先研究醫(yī)療大數(shù)據(jù)應(yīng)用需求；其次研究面向醫(yī)療的大數(shù)據(jù)整合與融合技術(shù)、數(shù)據(jù)語義化處理技術(shù)和大數(shù)據(jù)分析和挖掘并行化處理技術(shù)等關(guān)鍵技術(shù)；以醫(yī)療健康業(yè)務(wù)數(shù)據(jù)為核心，融合互聯(lián)網(wǎng)數(shù)據(jù)、政府相關(guān)行業(yè)數(shù)據(jù)、第三方健康數(shù)據(jù)（PHR）、個(gè)體基因數(shù)據(jù)以及生物樣本數(shù)據(jù)，完成醫(yī)療大數(shù)據(jù)中心建設(shè)；在此基礎(chǔ)上，構(gòu)建醫(yī)療大數(shù)據(jù)平臺(tái)，開展醫(yī)療研究分析，實(shí)現(xiàn)基于大數(shù)據(jù)的健康服務(wù)應(yīng)用。

如此龐大的系統(tǒng)工程中，可采取先以某個(gè)業(yè)務(wù)為試點(diǎn)突破（如醫(yī)院），逐步完善方法，并以面向醫(yī)療健康領(lǐng)域的分析和挖掘算法庫、模型庫和缺乏醫(yī)療健康知識(shí)庫支撐作為技術(shù)突破口。

3 醫(yī)療大數(shù)據(jù)的數(shù)據(jù)集成問題分析

3.1 醫(yī)療大數(shù)據(jù)集成需考慮的問題

醫(yī)療大數(shù)據(jù)平臺(tái)構(gòu)建問題中的技術(shù)難點(diǎn)之一是首先要實(shí)現(xiàn)醫(yī)療大數(shù)據(jù)系統(tǒng)集成[7-8]問題，筆者認(rèn)為主要有以下幾個(gè)方面的問題。

（1）醫(yī)療大數(shù)據(jù)系統(tǒng)集成的范圍問題。系統(tǒng)的集成首要解決所覆蓋的范圍，是以醫(yī)院為單位、以城市為中心的區(qū)域醫(yī)療[9]還是全國范圍內(nèi)的醫(yī)療衛(wèi)生領(lǐng)域[10]的集成，這個(gè)問題決定了分布式計(jì)算中的問題規(guī)模、需要采取的技術(shù)及標(biāo)準(zhǔn)化的建設(shè)問題，同時(shí)也決定了未來我國衛(wèi)生信息化建設(shè)的水平。根據(jù)國務(wù)院“互聯(lián)網(wǎng)+”行動(dòng)的指導(dǎo)意見，未來在“十三五”期間鼓勵(lì)健康服務(wù)機(jī)構(gòu)利用云計(jì)算、大數(shù)據(jù)等技術(shù)搭建公共信息平臺(tái)，提供長期跟蹤、預(yù)測預(yù)警的個(gè)性化健康管理服務(wù)的目標(biāo)，構(gòu)建的醫(yī)療大數(shù)據(jù)系統(tǒng)集成應(yīng)是著眼于全國范圍的醫(yī)療衛(wèi)生領(lǐng)域，這就區(qū)別于以往單純的全院級(jí)的系統(tǒng)集成和區(qū)域性的集成。

（2）醫(yī)療大數(shù)據(jù)系統(tǒng)集成的架構(gòu)設(shè)計(jì)問題。系統(tǒng)的架構(gòu)應(yīng)充分利用原有的基礎(chǔ)設(shè)施，通過建立虛擬的集成系統(tǒng)，采取標(biāo)準(zhǔn)化和可實(shí)現(xiàn)互操作的技術(shù)來完成大范圍內(nèi)的信息交換和共享。

（3）醫(yī)療大數(shù)據(jù)的系統(tǒng)集成問題實(shí)質(zhì)上是一個(gè)在原有的醫(yī)療衛(wèi)生行業(yè)信息化基礎(chǔ)設(shè)施上搭建的一個(gè)大規(guī)模的分布式計(jì)算平臺(tái)。該分布式平臺(tái)的計(jì)算模式針對(duì)不同的醫(yī)療業(yè)務(wù)部門和機(jī)構(gòu)所采用的計(jì)算模式也不盡相同，應(yīng)包括解決醫(yī)療大規(guī)模數(shù)據(jù)的批量處理能力，也是我們?nèi)粘?shù)據(jù)分析工作中常見的一類數(shù)據(jù)處理需求[11]；具備處理在時(shí)間分布和數(shù)量上無限的一系列動(dòng)態(tài)數(shù)據(jù)集合體，即流數(shù)據(jù)，該類數(shù)據(jù)必須采用實(shí)時(shí)計(jì)算的方式給出秒級(jí)響應(yīng)；此外，還應(yīng)具有針對(duì)公共衛(wèi)生領(lǐng)域的傳染病途徑的處理之類的圖計(jì)算模式。該分布式計(jì)算平臺(tái)中應(yīng)能夠海量數(shù)據(jù)的高效存儲(chǔ)問題，如采用HDFS，Hbase，NewSQL，云數(shù)據(jù)庫等技術(shù)。

3.2 數(shù)據(jù)集成的難點(diǎn)

數(shù)據(jù)集成的難點(diǎn)可歸納為異構(gòu)性、分布性和自治性。現(xiàn)有構(gòu)建數(shù)據(jù)集成系統(tǒng)的方法有多層體系結(jié)構(gòu)和基于其中間層的實(shí)現(xiàn)方法。數(shù)據(jù)集成系統(tǒng)可劃分為兩類，即物化（Materialized）集成系統(tǒng)和虛擬（Virtual）集成系統(tǒng)。不斷提高數(shù)據(jù)集成系統(tǒng)的性能、可伸縮性、靈活性和適應(yīng)性，將是數(shù)據(jù)集成系統(tǒng)健壯發(fā)展的總趨勢。而融入了數(shù)據(jù)倉庫技術(shù)、移動(dòng) Agent技術(shù)、XML 技術(shù)、語義 Web 技術(shù)和 AI 技術(shù)的虛擬數(shù)據(jù)集成方案，將重新煥發(fā)生命力，并向具有分布式體系結(jié)構(gòu)、形式語義的智能知識(shí)型軟件方向發(fā)展。

3.3 數(shù)據(jù)集成

目前已有的幾種典型數(shù)據(jù)集成方法有模式集成方法、數(shù)據(jù)復(fù)制方法及在這兩種方法基礎(chǔ)上的綜合方法[12]。數(shù)據(jù)集成的數(shù)據(jù)源異構(gòu)性問題，是數(shù)據(jù)集成問題的難點(diǎn)，異構(gòu)性的難點(diǎn)主要表現(xiàn)在語法異構(gòu)和語義異構(gòu)上。

為構(gòu)建具有全國范圍內(nèi)的大數(shù)據(jù)醫(yī)療系統(tǒng)，需采用該兩種方法基礎(chǔ)上的綜合方法，想辦法采用“云計(jì)算”中的虛擬化方法，提高基于中間件系統(tǒng)的性能，同時(shí)能夠?qū)?shù)據(jù)源間常用的數(shù)據(jù)進(jìn)行復(fù)制。

4 結(jié) 語

醫(yī)療大數(shù)據(jù)平臺(tái)的建設(shè)事關(guān)國計(jì)民生，需要醫(yī)療衛(wèi)生機(jī)構(gòu)、政府、科研人員通力合作，針對(duì)醫(yī)療行業(yè)的特點(diǎn)解決標(biāo)準(zhǔn)、數(shù)據(jù)來源、數(shù)據(jù)處理的關(guān)鍵技術(shù)問題，才能真正發(fā)揮醫(yī)療健康大數(shù)據(jù)的價(jià)值。

參考文獻(xiàn)

[1] JAVIER A P. Big data for health. IEEE Journal of biomedical and health informatics，2015，19（4）：1193-1194.

[2]俞國培，包小源，黃新霆，等.醫(yī)療健康大數(shù)據(jù)的種類、性質(zhì)及有關(guān)問題[J].醫(yī)學(xué)信息學(xué)雜志，2014，35（6）：10-12.

[3]馮東雷.醫(yī)療健康大數(shù)據(jù)技術(shù)路線和方法論初探[J].中國信息

界，2014（6）：44-45.

[4] MEZGHANI E，EXPOSITO E，DRIRA K，et al. A semantic big data platform for integrating heterogeneous wearable data in healthcare[J]. Med syst，2015，39（2）：182-183.

[5] SANGWHAN C，ASHRAF A，SYED S A. Towards a ‘Big health data analytics platform[C]. Washington，DC，USA：IEEE computer society，2015. 233-234.

[6] SARA D R，VICTORIA L，JOS? M B，et al. A mapreduce approach to address big data classification problems based on the fusion of linguistic fuzzy rules[J]. International journal of computational intelligence systems，2015，8（3）：422-437.

[7] SRIVIDYA K，BANSAL，SEBASTIAN K. Integrating big data：A semantic extract-transform-load framework[J]. Computer，2015，48（3）：44-45.

[8] XIN L D，DIVESH S. Big data integration[J]. Synthesis lectures on data management，2015，6（11）：198-199.

[9] DASWIN D S，F(xiàn)RADA B，HERBERT F J，et al. Addressing the complexities of big data analytics in healthcare：The diabetes screening case[J]. Australasian journal of information systems，2015，19：102-104.

[10] CHRIS A. Translational research 2.0：a framework for accelerating collaborative discovery[J]. Personalized medicine，2014，11（3）：351-353.

[11] LAURENT S，MARC V B. Structured data fusion[J]. IEEE Journal of selected topics in signal processing，2015，9（4）：586-600.

[12]陳躍國，王京春. 數(shù)據(jù)集成綜述[J].計(jì)算機(jī)科學(xué)，2004，31（5）：48-50.