邢丹 姚俊明
摘 要:從狹義和廣義角度定義了醫療健康大數據,分析并總結了醫療健康大數據區別于傳統大數據的海量性、復雜性、精確性、安全性、異構性及封閉性的特點。同時探討了構建醫療健康大數據平臺的相關問題,架構技術及其關鍵問題、平臺構建的兼容問題及其技術路線問題,最后分析了醫療大數據的數據集成所考慮的問題、難點及現有的集成方法。
關鍵詞:醫療健康;大數據;大數據平臺;數據集成;分布式計算
中圖分類號:TP274 文獻標識碼:A 文章編號:2095-1302(2018)08-0-03
0 引 言
目前,我國雖已具有多年醫療信息化建設的歷史,但是這些數據庫信息孤立、分散、多元、異構、類型、標準不一,大多應用于單獨醫院或較小范圍內的醫院,沒有形成大范圍多學科、多標準、多類型、多模式的協同系統。與此同時,近年來國家提出打造以醫院、社區、平臺為主的“三位一體、相互協同”的綜合服務新模式,醫療數據的產生,從醫院管理系統的關系型數據轉變為由RFID及無線傳感組成的半結構化、非結構化大數據。如何完成多數據源醫療健康大數據的無縫集成和融合,構建全國范圍內的醫療協同系統,是未來面向醫療行業所采取的必經之路。
這項工作需在充分掌握醫療健康大數據特點的基礎上,通過構建醫療健康大數據平臺,從數據集成問題著手,本文從不同角度探討了醫療大數據相關問題。
1 醫療健康大數據概念及其特點
1.1 醫療健康大數據概念
狹義上的醫療健康大數據指的是醫院的醫療機構產生的大數據,這是最主要的醫療健康大數據,產生于醫院常規臨床診治、科研和管理過程,包括各種門急診記錄、住院記錄、影像記錄、實驗室記錄、用藥記錄、手術記錄、隨訪記錄和醫保數據等[1]。
廣義上的醫療健康大數據涵蓋來自于區域衛生服務平臺大數據、醫學研究或疾病監測大數據、自我量化大數據、互聯網上與醫學相關的網絡大數據、生物標本和基因測序的生物信息大數據。
1.2 醫療大數據的特點
醫療健康大數據除了具有傳統大數據的大量性、多樣性、快速性[1]之外,由于醫療行業的特殊性,使其還具有海量性、復雜性、精確性及安全性,同時由于醫療信息化建設的歷史導致了異構性和封閉性。
(1)海量性。2011年,美國的醫療健康系統數據量就達到了150 EB。醫療衛生機構除了傳統臨床和檢驗中產生的數據之外,隨著物聯網技術的發展,能夠實現所有物物相連,比如便攜式醫療設備上二維碼標簽所產生的數據,這些物品的數據相比傳統的數據量要大的多。加之各種健身、健康可穿戴設備的出現,使得血壓、心率、體重、血糖、心電圖(EKG)等的監測都變為現實和可能,信息獲取和分析的速度已從原來的按“天”計算,發展到按“小時”,按“秒”計算。此外,基因數據也是龐大的存在,一次全面的基因測序,產生的個人數據達到300 GB。平臺數據量巨大,通常要包含1 000萬以上個人用戶的各種醫療健康數據。
(2)復雜性。一方面醫療領域包含了大量的醫學專業用語,僅疾病名稱就包括3萬多種,另外還有數以萬計的診斷、手術和藥物名稱,以及大量影像、醫囑等非結構化數據[2]。由于醫療數據是不同臨床診療服務過程中的產物,因此數據之間關系復雜,且易受到不同因素的影響,致使某些數據帶有偏倚性。醫院之間也存在諸多差別,如病人的個體特性和疾病程度、醫院的診斷和治療水平、醫療數據的記錄和編碼水平等。即使是同一個描述形式,其語法和語義上也不盡相同,更加導致了數據的復雜性。
(3)精確性。醫療行業數據與人的健康、疾病和生命息息相關,任何失誤都可能導致錯誤結論,并進一步誤導臨床診治工作,對臨床實踐造成巨大損害。因此在數據處理時必須保證數據完整性和約束完整性。數據完整性指數據的正確性、一致性和相容性;約束完整性指數據與數據之間的關聯關系,是表征數據間邏輯的唯一特征。保證約束完整性是數據發布和數據交換的前提,可方便數據處理過程,提高效率。
(4)安全性。醫療數據除了包含病人隱私信息,也包含了大量關于醫院運轉、診療方法、藥物療效等信息。這些信息一般都較敏感,某些可能會涉及商業利益,因此目前存在的問題主要是醫療機構不愿意公開數據,而某些可進行數據處理的部門沒有數據。
(5)異構性(多樣性)。由異構問題導致了數據的多樣。主要包括數據源的異構、管理系統的異構及所采用標準的異構。綜合健康服務平臺數據來源廣泛,包括醫院、獨立體檢機構、社區衛生服務機構、區域醫療信息平臺、第三方檢測機構、新農合、醫保社保、個人用戶和網絡等,且主要產生自制藥企業/生命科學,臨床醫療/實驗室數據,費用報銷/利用率,健康管理/社交網絡中;平臺數據內容多樣,包括病史、體格檢查、理化檢查、居民基本健康檔案、各類個人信息和網頁等,涉及到的數據源的類型多樣,有結構化數據、半結構化和非結構化數據;管理系統的異構既有管理系統所運行的操作系統、采取的數據庫的不同,還有不同的管理系統采用不同技術實現的異構;所采用的標準目前主要有CDA,HL7,DCOM接口等。
(6)封閉性。由各獨立的自治系統導致了信息孤島,進而所產生出的數據只適合在該系統內部,每個不同的醫療機構都自成一個體系,是一個獨立運行的實體,導致數據無法共享。今后的工作需要制定統一的數據表示方式或是采用某種統一的方法對其進行封裝,才能實現統一的處理,最終實現全國范圍內系統之間的互聯互通。所有這些特性使得醫療大數據工作者在具體實踐中面臨巨大的挑戰。
2 構建醫療大數據平臺相關問題分析
2.1 醫療大數據平臺架構的技術及其關鍵問題
未來將建立一個“以人為中心”的綜合健康服務生態系統,系統與區域醫療信息平臺、醫療保險機構、體檢中心、第三方檢驗/影像、主動醫療服務以及醫保新農合等已有醫療服務資源進行規范化、標準化地整合與協同。其技術支撐層中完成對大數據的集成、存儲、處理等功能,該層對大數據的處理選用開源的分布式計算平臺,目前醫療健康大數據平臺一般基于Hadoop框架來構建。該平臺的技術體系理論上能夠處理醫療綜合健康服務生態系統中各種類型的數據存儲和海量信息處理。而Hadoop能夠為用戶提供系統底層細節透明的分布式基礎架構,并且以可靠、高效、可伸縮的方式處理海量數據的分布式軟件架構,采用該技術必將節省平臺整合的時間和金錢上的效率。
現有Hadoop與行業應用還存在一定差距。對于醫療應用而言主要是兩個方面:其一缺乏面向醫療領域的分析和挖掘算法庫、模型庫;其二缺乏醫療知識庫支撐。在臨床決策支持等基于醫療健康大數據的應用中,需要基于對醫生輸入數據內容的理解,才能做出必要的決策支持。對于數據內容的語義處理,必須基于醫療健康知識庫[3]。
醫療大數據平臺需解決的關鍵技術:醫療健康語義知識庫構建、非結構化數據的語義處理及傳統分析和挖掘技術的并行化。
2.2 醫療大數據平臺構建的兼容性及其技術路線問題
醫療大數據平臺的構建需要考慮如何利用現有數據及需要收集哪些數據[4-5]。同時要考慮原有的關系型數據和Hadoop [6]中非關系型數據的存儲,還有兼容業務數據和外部數據。
在技術路線上,首先研究醫療大數據應用需求;其次研究面向醫療的大數據整合與融合技術、數據語義化處理技術和大數據分析和挖掘并行化處理技術等關鍵技術;以醫療健康業務數據為核心,融合互聯網數據、政府相關行業數據、第三方健康數據(PHR)、個體基因數據以及生物樣本數據,完成醫療大數據中心建設;在此基礎上,構建醫療大數據平臺,開展醫療研究分析,實現基于大數據的健康服務應用。
如此龐大的系統工程中,可采取先以某個業務為試點突破(如醫院),逐步完善方法,并以面向醫療健康領域的分析和挖掘算法庫、模型庫和缺乏醫療健康知識庫支撐作為技術突破口。
3 醫療大數據的數據集成問題分析
3.1 醫療大數據集成需考慮的問題
醫療大數據平臺構建問題中的技術難點之一是首先要實現醫療大數據系統集成[7-8]問題,筆者認為主要有以下幾個方面的問題。
(1)醫療大數據系統集成的范圍問題。系統的集成首要解決所覆蓋的范圍,是以醫院為單位、以城市為中心的區域醫療[9]還是全國范圍內的醫療衛生領域[10]的集成,這個問題決定了分布式計算中的問題規模、需要采取的技術及標準化的建設問題,同時也決定了未來我國衛生信息化建設的水平。根據國務院“互聯網+”行動的指導意見,未來在“十三五”期間鼓勵健康服務機構利用云計算、大數據等技術搭建公共信息平臺,提供長期跟蹤、預測預警的個性化健康管理服務的目標,構建的醫療大數據系統集成應是著眼于全國范圍的醫療衛生領域,這就區別于以往單純的全院級的系統集成和區域性的集成。
(2)醫療大數據系統集成的架構設計問題。系統的架構應充分利用原有的基礎設施,通過建立虛擬的集成系統,采取標準化和可實現互操作的技術來完成大范圍內的信息交換和共享。
(3)醫療大數據的系統集成問題實質上是一個在原有的醫療衛生行業信息化基礎設施上搭建的一個大規模的分布式計算平臺。該分布式平臺的計算模式針對不同的醫療業務部門和機構所采用的計算模式也不盡相同,應包括解決醫療大規模數據的批量處理能力,也是我們日常數據分析工作中常見的一類數據處理需求[11];具備處理在時間分布和數量上無限的一系列動態數據集合體,即流數據,該類數據必須采用實時計算的方式給出秒級響應;此外,還應具有針對公共衛生領域的傳染病途徑的處理之類的圖計算模式。該分布式計算平臺中應能夠海量數據的高效存儲問題,如采用HDFS,Hbase,NewSQL,云數據庫等技術。
3.2 數據集成的難點
數據集成的難點可歸納為異構性、分布性和自治性。現有構建數據集成系統的方法有多層體系結構和基于其中間層的實現方法。數據集成系統可劃分為兩類,即物化(Materialized)集成系統和虛擬(Virtual)集成系統。不斷提高數據集成系統的性能、可伸縮性、靈活性和適應性,將是數據集成系統健壯發展的總趨勢。而融入了數據倉庫技術、移動 Agent技術、XML 技術、語義 Web 技術和 AI 技術的虛擬數據集成方案,將重新煥發生命力,并向具有分布式體系結構、形式語義的智能知識型軟件方向發展。
3.3 數據集成
目前已有的幾種典型數據集成方法有模式集成方法、數據復制方法及在這兩種方法基礎上的綜合方法[12]。數據集成的數據源異構性問題,是數據集成問題的難點,異構性的難點主要表現在語法異構和語義異構上。
為構建具有全國范圍內的大數據醫療系統,需采用該兩種方法基礎上的綜合方法,想辦法采用“云計算”中的虛擬化方法,提高基于中間件系統的性能,同時能夠對數據源間常用的數據進行復制。
4 結 語
醫療大數據平臺的建設事關國計民生,需要醫療衛生機構、政府、科研人員通力合作,針對醫療行業的特點解決標準、數據來源、數據處理的關鍵技術問題,才能真正發揮醫療健康大數據的價值。
參考文獻
[1] JAVIER A P. Big data for health. IEEE Journal of biomedical and health informatics,2015,19(4):1193-1194.
[2]俞國培,包小源,黃新霆,等.醫療健康大數據的種類、性質及有關問題[J].醫學信息學雜志,2014,35(6):10-12.
[3]馮東雷.醫療健康大數據技術路線和方法論初探[J].中國信息
界,2014(6):44-45.
[4] MEZGHANI E,EXPOSITO E,DRIRA K,et al. A semantic big data platform for integrating heterogeneous wearable data in healthcare[J]. Med syst,2015,39(2):182-183.
[5] SANGWHAN C,ASHRAF A,SYED S A. Towards a ‘Big health data analytics platform[C]. Washington,DC,USA:IEEE computer society,2015. 233-234.
[6] SARA D R,VICTORIA L,JOS? M B,et al. A mapreduce approach to address big data classification problems based on the fusion of linguistic fuzzy rules[J]. International journal of computational intelligence systems,2015,8(3):422-437.
[7] SRIVIDYA K,BANSAL,SEBASTIAN K. Integrating big data:A semantic extract-transform-load framework[J]. Computer,2015,48(3):44-45.
[8] XIN L D,DIVESH S. Big data integration[J]. Synthesis lectures on data management,2015,6(11):198-199.
[9] DASWIN D S,FRADA B,HERBERT F J,et al. Addressing the complexities of big data analytics in healthcare:The diabetes screening case[J]. Australasian journal of information systems,2015,19:102-104.
[10] CHRIS A. Translational research 2.0:a framework for accelerating collaborative discovery[J]. Personalized medicine,2014,11(3):351-353.
[11] LAURENT S,MARC V B. Structured data fusion[J]. IEEE Journal of selected topics in signal processing,2015,9(4):586-600.
[12]陳躍國,王京春. 數據集成綜述[J].計算機科學,2004,31(5):48-50.