1.華南理工大學 材料科學與工程學院 生物醫學工程系,廣東 廣州 510006;2.廣東省精神疾病轉化醫學工程技術研究中心,廣東 廣州 510370;3.廣州市惠愛醫院 廣州醫科大學附屬腦科醫院,廣東 廣州 510370;4.廣東省老年癡呆診斷與康復工程技術研究中心,廣東 廣州 510500;5.國家醫療保健器具工程技術研究中心,廣東 廣州 510500;6.日本東北大學加齡醫學研究所 機能畫像醫學研究室,仙臺 980-8575
隨著互聯網時代的到來以及信息技術領域的快速發展,為了滿足人們日益增長的需求,新技術不斷興起,從互聯網、物聯網、云計算再到現在的大數據。尤其是大數據的規模遠超傳統數據集合,然而由于它數據規模龐大、數據流轉迅速、數據類型多樣以及價值密度低的特點,在大數據的獲取、存儲、管理和分析上都更為困難。隨著我國科學技術和生產水平的提高,傳統醫療服務方式逐步完成了到數字醫療再到智慧醫療的轉變。通過健康醫療大數據云平臺技術,能實現更加高效、便捷的醫療服務,更大地滿足人們個性化的醫療需求,也能進一步促進醫學知識與技術的進步。
根據何非等[1]研究者的分類,大數據可以分為兩種類型:第一種大數據是指企業自身的產品和服務產生了大量的密集型“超大規模”或“海量數據”,通過對這些數據進行深入的挖掘分析,改進自身業務;改進后的業務吸引更多用戶或客戶,產生更大量的數據,形成正向的循環。第二種大數據是網絡大數據,通常是指在互聯網上發生的、蘊含有豐富的、可被發掘的具有社會價值、商業價值或科研價值的大數據。
從復雜的專業性科學/商業計算到基于互聯網的消費型計算的數據,數據已經滲透到當今行業和業務職能的各個領域,這些時刻都在爆炸性增長的龐大數據記錄著各種目標結果和可能性,成為重要的生產因素,形成了難以估價的數據資源及信息資產[2-3]。為對數據集合進行信息處理和優化,提取出其潛在的數據價值,必須使用大數據技術對所有數據進行收集并實現對數據的分析處理。
信息技術的進步也帶動了醫療行業的發展,使得醫療行業的信息化程度提高的同時,產生了龐大的健康醫療數據,近年來其數據量更是呈幾何倍數增長[4]。
結合實際分析,將醫療行業中產生的數據來源主要分為生物醫藥、臨床醫療及實驗數據、電子病歷和互聯網數據四類[5-6](圖1)。

圖1 健康醫療大數據的數據來源、特點以及應用
(1)生物醫藥:藥物研發是密集型的過程,即使是非大型企業所產生的數據容量,達到TB以上也是輕而易舉。在生命科學領域,隨著計算機技術的發展,其計算能力和基因預測能力逐漸增強,有越來越多的基因組序列文件,而一個基因組序列文件就接近1 GB。
(2)臨床醫療以及實驗數據:臨床醫療與相應的實驗所產生的數據整合在一起,使得醫療機構的數據增長非常迅速。在日常工作中,一張CT圖像所占的存儲空間已經達到了 150 MB,而一個標準的病理圖則已經達到了5 GB。根據區域的人口以及壽命來計算,一個地區的醫院所產生的結構化數據和非結構化數據就能輕松達到TB甚至PB以上。
(3)電子病歷:包含了大量的結構化與非結構化數據,如患者的個人健康信息,就診、復診的過程中對病情的描述、醫生的診斷以及用藥信息等。
(4)互聯網數據:包括用戶對健康網站的瀏覽與網絡尋醫、購藥等操作所產生的數據,以及在用戶知情情況下使用移動醫療產品與健康監控設備等便攜化的生理設備所產生的數據。
從傳統醫療開始,醫療行業一直以來就面臨著海量的數據和非結構化數據的挑戰,而近年來很多國家都在推動醫療信息化的發展,投入資金進行大數據分析[7]。
健康醫療大數據不僅擁有大數據的“4V”基本特點,即容量(Volume)、種類(Variety)、價值(Value)、速度(Velocity)[8],還包含了:① 更大的容量,醫療行業的數據增長快,保留時間長,不同于其他行業,醫療行業中患者的相關數據至少要保留50年;② 更快的生成速度,醫療信息服務的提供,需要進行大量在線或實時數據的分析處理,如臨床診斷和醫生建議等;③ 更豐富的種類,醫療數據的存儲形式多樣,包含各種結構化數據表、非結構化和半結構化文本文檔、醫療影像等;④ 更高的價值,醫療數據的價值高,小至個人的正常健康生活,大至整個國家以及全世界的疾病治療、藥物研發和持續性發展,醫療數據的價值都能得以體現(圖1)。
除此之外,醫學數據還具有明顯的多態性、不完整性、時間性、冗余性、隱私性的功能特點[9]。
健康醫療大數據的應用廣泛,通過對醫療數據的再分析利用,能獲取到數據的潛在價值,能促進醫療服務、新藥研發、醫學研究、醫院管理等各個領域的發展(圖1)。主要包括以下四個領域:① 在醫療服務方面,通過大數據平臺建立統一的個人電子檔案,將患者的所有基本數據、就診記錄等保存下來,構建便捷高效的醫療服務,有利于患者的預防、治療、康復和自我管理;② 在藥物研發方面,通過大數據分析,可以獲取更多早期的研發數據,以便改善開發流程、合理分配資源,能有效提高研發效率且降低失敗風險;③ 在醫學研究方面,通過對醫學影像、心電、腦電等數據的分析,獲取特征數據,挖掘出臨床應用的相關知識;④ 在醫院管理方面,通過大數據平臺的建立,能更好地對醫院進行精細化管理,并且通過醫院數據的挖掘,能有效提升醫院的醫療質量、藥品、設備等的管理水平,進一步提升醫護人員服務質量和患者滿意度。
基于健康醫療的海量數據以及多態性,數據挖掘有很大的難度,為了使得醫療中的數據得到有效應用,現有的醫療應用需要與時俱進,結合云計算等信息技術[10],依托于云平臺,健康醫療大數據的存儲、計算以及分析處理更為靈活、方便和快捷。
根據美國國家標準與技術研究院的定義,云計算是一種通過網絡對共享可配置的計算資源池進行無處不在的、便捷的、按需訪問的模式,它可以通過最簡化的工作和交互進行快速的配置和發布,用戶不再需要了解“云”中基礎設施的細節,不必具有相應的專業知識,也無需直接進行控制[11]。第三方云可以是組織專注其核心業務,而不是在計算機基礎架構和維護上花費資源。相較于傳統服務模式,云服務提供了更大的靈活性,使用戶能夠以最低的成本享受最優化的信息化服務[12]。
云計算服務的三個標準模型分別是基礎架構即服務(Infrastructure as a Service,IaaS)、平臺即服務(Platform as a Service,PaaS)和軟件即服務(Software as a Service,SaaS)。三者之間有一定的聯系,但沒有必須的依賴關系,例如可以在裸機上實現SaaS而無需使用底層PaaS或IaaS,也可以在IaaS上運行程序并訪問而無需包裝成SaaS。IaaS的定義是消費者能夠部署和運行任意軟件,包括操作系統和應用程序,消費者不管理或控制底層的云基礎架構,但是具有操作系統、存儲和已部署的應用程序的控制以及選定網絡組件(例如,主機防火墻)的控制權限。一般面向運營管理人員。PaaS提供給消費者的功能是消費者可以將由提供者支持的編程語言、庫、服務和工具創建或獲取的應用程序部署到云基礎設施上。主要提供平臺開發和測試環境,主要面向開發者。SaaS提供給消費者的功能是使用在云基礎架構上運行的提供商的應用程序。用戶通過一些接口從各種客戶端設備訪問應用程序,而不需要關心底層云基礎設施及軟件本身的維護。IaaS、PaaS 和SaaS 的區別如圖2所示。

圖2 IaaS、PaaS和SaaS的區別
云計算在大數據背景下應運而生,在國外,IBM推出的“藍云”計劃為用戶提供云計算平臺。谷歌公司自2008年推出App Engine云計算服務以來,一直致力于谷歌云平臺的開發,提供一系列模塊化云服務包括計算、存儲、分析和機器學習等。與之相似的還有亞馬遜的Amazon Web Services(AWS)、微軟的 Microsoft Azure、Oracle的 Oracle Cloud。根據Synergy Group的數據,截至2017年底,AWS占所有云計算的34%,接下來的三個是微軟、谷歌和IBM分別占11%、8%和6%。在醫學領域很多研究組織和研究人員也開始使用Hadoop進行醫療服務和臨床項目的研究[13]。
國內的醫療云和健康醫療大數據研究及應用起步相對發達國家要落后,但是通過外國的云計算和大數據先進技術的引用,分析國外醫療云服務的成功和失敗案例,再結合我國自身的醫療信息化特點和趨勢,國內諸多醫院聯合國內外云計算技術提供商都在進行醫療云和健康醫療大數據相關的研究和應用[14]。2018年,由中國衛生信息與健康健康醫療大數據學會家庭健康專委會、騰訊云和微醫云三方共同發布了“全國健康醫療行業云平臺”。同時,國家衛健委公開《國家健康醫療大數據標準、安全和服務管理辦法(試行)》,旨在加強健康醫療大數據服務管理,促進健康醫療大數據的相關業務發展,發揮健康醫療大數據的潛在價值。由此可見,國內的健康醫療大數據云平臺建設受到政府的大力支持,也吸引了眾多的公司和企業,發展的越來越迅速。
為了對數據進行分析處理,實現分布式計算,眾多云平臺得以開發與使用,其中以2005年開發的開源計算平臺Hadoop最為典型。
Hadoop是Apache基金會的核心項目,歷經多個版本的完善,已經成為國際上分布式計算系統的一大標準,得益于其開源特性,其技術生態圈也得以發展與豐富,涵蓋大數據處理的方方面面[15]。最基礎的Hadoop平臺根據Google三篇技術論文而來,且包括三個部分:其一采用MapReduce分布式計算框架;其二根據Google File System開發了分布式文件系統(Hadoop Distributed File System,HDFS);其三根據BigTable開發了HBase數據存儲系統。
Spark是一個開源的分布式通用集群計算框架[16]。Spark提供了一個使用隱式數據并行和容錯來編程整個集群的接口,在Hadoop的基礎上改良了架構設計。Spark理論上的運算速度遠超Hadoop,最根本的原因在于Hadoop采用硬盤存儲包括源數據以及數據的處理過程與結果等所有數據信息,而Spark直接使用內存來存儲這些數據。Spark的缺點在于,內存數據會隨斷電問題而缺失,因此不利于處理需要長期存儲的數據。
Apache Storm是一種主要以Clojure編程語言編寫的分布式流處理計算框架,也是一個開源項目。它使用自定義創建的“spouts”和“bolt”來定義信息源和操作,以允許批量分布式處理流數據。其在Hadoop的基礎上提供了對于實時運算的支持,用于實時大數據流處理。與前兩個大數據處理平臺不同的是,Strom并不收集和存儲數據,而是直接利用網絡實時接收流式數據并處理,最后通過網絡再講分析結果進行回傳。
云計算技術發展至今,Hadoop、Spark和Storm三者是當下大數據領域最熱門最重要的三大分布式計算系統。三者都有自己的特點,Hadoop適合處理離線的、復雜的數據類型,結合Spark可以更快速的處理數據,而Strom的特點就在于實時、在線處理。根據三個平臺的特點,以及醫療行業數據的復雜性,針對不同的應用場景和用途,可以構建出不同類型的健康醫療大數據云平臺或者開發部署特定用途的大數據應用。
目前大部分的健康醫療大數據平臺以及研究需要,Hadoop平臺在大數據的分布式計算上具有快速、高效、兼容、靈活等優勢。
(1)能夠高速存儲和處理各種大量的數據。由于數據的數量和多樣性,特別是來自社交媒體和互聯網的數據來源不斷增加,這種能力非常重要。
(2)計算性能強大。Hadoop的分布式計算模型可以快速處理大數據,同時通過增加計算用的節點,還可以進一步增強其處理能力。
(3)具備容錯功能。保護數據和應用程序的處理,使其免受硬件故障的損害。當節點發生故障時,作業會自動重定向到另一個節點,因此分布式計算永遠不會停止。此外,還會自動保存所有數據的多個副本。
(4)有較好的靈活性。與傳統的數據庫不同,不需要在保存之前預處理數據,可以根據需要存儲盡可能多的數據,后續再決定如何使用,并且還可以保存非結構化數據,如文本、圖像、音頻、視頻等。
(5)低成本。這個開源框架是免費的,可以使用廉價的通用硬件存儲大量數據。
(6)可伸縮性。只需添加節點即可擴展系統大小,并且可以處理更多數據。
基于Hadoop對醫療健康大數據進行分布式并行處理,Ni等[17]基于Hadoop的分布式計算方法進行醫療臨床數據的處理,將大數據技術應用于醫療保健領域;Yao等[18]提出了一個基于五節點Hadoop集群執行分布式MapReduce的算法,實現了醫療健康大數據的高效處理;IstePhan等[19]研究和實現了能夠挖掘非結構化醫療數據的可擴展框架,此框架能夠以可擴展方式準確、高效地分析非結構化醫療數據。
可以看出,健康醫療大數據的應用發展,離不開云平臺的幫助,借助于云平臺的特點,能更進一步挖掘和利用健康醫療大數據,充分發揮健康醫療大數據的價值。
圍繞著健康醫療大數據云平臺,有許多的開發研究,國內外有眾多研究都在健康醫療大數據云平臺上有所貢獻。吳宇皓等[20]設計了一個醫療大數據分析管理系統,進行面向對象的需求分析,引入了分布式存儲及分布式計算技術,提高數據處理效率并且應用于臨床科研。廖亮等[21]設計了一個基于Hadoop的健康醫療大數據分析系統,提供輔助診斷和醫療數據統計兩大功能,同時融合了多節點分布式計算技術,可以根據患者的醫檢數據快速生成初診結果,并能夠有效地改善傳統醫療數據信息系統分析效率較低的現狀。范煒瑋等[22]提出了一套基于Spark的并行計算解決方案,完成了醫療服務大數據交互式分析平臺的系統架構設計。阮潤學[23]實現了基于心電動力學圖和Storm實時流計算框架的心肌缺血早期診斷平臺,為用戶提供實時可靠的計算服務。
發達國家在健康醫療大數據平臺上的研究更成熟,并且在管理和技術上的改進不斷。Khazaei等[24]提出了Artemis醫療健康大數據處理平臺,可用于在線分析快速生成的大量臨床數據,并且可以根據需要豐富其他臨床數據,實現多患者、多流和多診斷的實時決策支持和臨床研究。Kaur等[25]提出了一種醫療保健領域的大數據架構,使用機器學習算法實時分析來自醫院的電子健康記錄,為早期預測個體健康狀況提供幫助。另外,Rahman等[26]提出了一種基于開源技術的新型大數據架構,詳細描述了系統所需的不同模塊的設計以及所使用的技術,通過修改和定制模塊以處理醫療保健數據,可以快速構建實用有效的大數據解決方案,以解決不同的醫療挑戰。
目前健康醫療大數據云平臺的建設有所成效,但不可避免地面臨著一些挑戰與問題。
身處于大數據時代,數據的安全及隱私更是重中之重,數據的保密和安全性受到重大考驗。根據相關統計顯示,僅在2018年,全球便發生了十余起10萬以上數據泄漏事件[27]。目前全國共有大約657家智慧醫療云平臺,主分布如圖3所示,然而大部分的平臺都沒有做好平臺的安全管理和防范。根據網信辦對其中79家的抽查結果顯示,57家平臺有高危漏洞,13家平臺有中危漏洞,近90%的醫療機構都存在較為嚴重的安全風險。以云平臺為基礎,會有海量的醫療數據的錄入,而這些數據涉及到個人安全與隱私,在高效利用醫療數據實現健康管理的過程同時,也要保證平臺的安全性,避免數據的損失或泄露。

圖3 智慧醫療云平臺主分布
針對云平臺的隱私安全問題,一方面要加強信息安全技術的應用,比如數據加密、數據擾亂、數據隱匿等技術,隱藏保護關鍵敏感信息,對數據進行分級保護,設置訪問權限。另一方面要加強管理制度,建立健康醫療大數據安全管理的規則、模式與流程,提高云平臺的監測預警和應對能力。Mohammed等[28]提出了一個安全和私密的醫療數據管理框架,解決了外包醫療數據庫管理中的安全和隱私問題;Wimmer等[29]研究的隱私保護技術能夠同時滿足多個醫療數據共享方的隱私保護需求。
大數據時代是一個信息膨脹期,近幾年所產生的信息量甚至超過過去幾千年,如今數據規模龐大,數據流轉非常迅速,數據類型也豐富多樣,然而如何在這海量的數據之中挖掘出有價值的信息是一個難點。健康醫療大數據云平臺不僅要對醫療數據進行收集、管理,更關鍵的是如何進行計算和分析,實現信息的有效使用,能產生實際應用的價值。若僅僅將云平臺當成一個存儲醫療數據的方式,而不對數據進行有目的的分析處理,發掘相關知識并實際應用,就喪失了意義。對于健康醫療領域來說,不僅需要揭示現有事物的聯系,最好能從大數據的分析結果提取相關醫學知識,更進一步將從數據挖掘結果中提取的醫學知識轉化為具體應用。為了提高信息利用率,一方面可以加強數據挖掘技術的應用,如Mccormick等[30]對如何從挖掘成果中提取相關知識進行了初步探索。另一方面可以拓展更多的研究主題,目前以臨床領域的研究居多,其他領域研究相對較少,充分發揮信息的價值。
醫療數據的采集和發布渠道眾多,數據的真實性和質量難以保證,醫療信息檔案不完善,醫療信息化缺乏一個統一標準,都會影響到對數據的分析,無法保證分析結果的準確性和有效性。
要提升數據質量,就需要建立健全的信息管理機制,制定信息收集的標準和規范。而對于已收集的數據,可以使用交叉驗證等技術手段進行驗證,建立雙重保險,保證數據的真實性、準確性和有效性,有效提高數據質量。
除此之外,作為一項跨學科的研究,研究過程存在一定難度,專業人才較為稀缺,傳統的醫療系統數據管制體系也導致了醫療健康大數據難以獲取、醫療信息孤島等問題,需要我們加強相關人才培養和引進,緊跟相關政策,促進健康醫療大數據的發展。
本文首先介紹了醫療行業中大數據的來源和特點,針對健康醫療大數據,對能充分發揮健康醫療大數據價值的云平臺進行了介紹,討論了Hadoop、Spark、Storm三種數據處理平臺的區別和應用,并且分析了各自的優勢,Hadoop適合處理大量離線、復雜的數據,Spark可以加快數據的處理,Strom適合實時、在線處理數據,舉例分析了國內外健康醫療大數據平臺的研究進展,最后總結了健康醫療大數據云平臺存在的一些問題以及相應的對策研究。健康醫療大數據的發展與云平臺息息相關,健康醫療大數據云平臺不僅能提供醫療數據的海量存儲,平臺的可擴展性與靈活性也能提供更高效便捷的醫療服務,優秀的計算能力更能使健康醫療大數據得到進一步的分析處理和應用,只要能結合國內相關政策的支持,保障健康醫療大數據云平臺的規范與安全,基于云平臺建立完善一個完善的健康醫療大數據管理體制,一定能有效促進臨床決策、遠程醫療、電子檔案分析與公共健康等各個方面的醫療行業的發展。