曹陽


摘 要:計算機信息技術快速的發展及醫療信息數據海量的增長,醫療衛生領域已經真正進入了“大數據時代”。數以萬計的數據被保存下來,但一個棘手的問題出現了,如何利用這些海量的數據為我們提供具有價值的信息服務?該文旨在結合處理大數據的方法,分析大數據在醫療信息服務管理方面的應用前景并提出解決相應的問題解決方案。
關鍵詞:醫療衛生 大數據 解決方案
中圖分類號:R195 文獻標識碼:A 文章編號:1672-3791(2017)05(a)-0008-03
近年來,社會正處在一個“大數據時代”,在國家財政部及衛生部門的領導下,大型醫療機構及鄉鎮醫療服務醫院都先后建立了先進的電子檔案系統(數字信息系統)傳統的看病模式已經發生了改變,過去的紙質病歷、診斷書、臨床檢驗報告、影像檢驗數據等都已經實現了電子化,這些數據也出現了快速增長及快速發展的趨勢。但當出現了云計算技術的應用與推廣時,各大醫療服務機構中大規模的醫療信息系統與大數據中心相繼建立,大量的數據將被保存下來,高效地分析這些數據為我們提供有價值的服務,利用計算模型或者是存儲模型來分析這些數據破解醫療衛生上大數據難題,設計一套處理數據系統,并且能夠應用于各大醫療服務機構中,已迫在眉睫。
1 資料背景
1.1 大數據概述
隨著云計算、物聯網、移動互聯網等新技術的出現及技術水平的提高,各行各業所累計的數據已經呈現指數級的增長,“大數據”時代已經出現,根據相關機構表明,對于大數據的處理需要一種新的模式和更高的決策能力來進行優化。大數據具有實用性強,商業價值有很大的實用空間等。目前,大數據已在很多的領域得到了廣泛的應用。比如:金融、交通、氣象、醫院、鐵路、教育等。
1.2 我國醫療數據資源現狀
1.2.1 醫療數據源的多樣性
醫療數據的采集已經與過去有了很大的不同,現在所采用的數據不再局限于某一個單一的醫療機構,主要來自于不同的醫療場所,有私人衛生所、實驗室檢驗中心、鄉政衛生院。隨著物聯網(Internet Of Things)新技術的出現,個人的醫療數據可以來自于任何的場所。
1.2.2 醫療數據的高度集中
基于區域的醫療信息系統(RHIS Regional Health Information System)將取代基于傳統的醫療信息系統。并且,它的覆蓋面更加廣泛的分布在一個區域的所有醫療機構中。對一個普通的醫療患者來說,居民個人的數據源將全周期的保存在區域的數據信息中心。醫療信息系統中所有的數據不再是為某一家醫療機構所獨享的資源,而是為整個地區的所有醫療機構共享,如果是更加廣泛的還可以實現給上級醫療機構或者甚至是區域級、省級、國家級的醫療機構中實現數據的共享與利用。
1.2.3 醫療信息系統到醫療信息服務
醫療信息系統從區域性逐步建立將更加豐富和完善現有的醫療信息系統,同時也更加進一步完善先進的醫療信息系統的設計與開發,使醫療服務變得更加優化與便捷。這些主要體現在:公共衛生事件的預測、慢性病的管理與預測、流行病的控制、臨床數據的決策與支撐、個性化的健康與服務、日常衛生的保健等。這些信息服務必須建立在大數據的分析與大數據的集中的基礎上。提供的服務也將使社會上所有群眾得到收益。
2 醫療衛生大數據分析
2.1 醫療數據是持續的、大增長的海量數據
據有關計算統計表明,在我國一個中等城市(一般以人口為1 000萬)來計算,50年所積累的數據將達到10 PB級。并且,當業務系統的不斷更新換代與時間的推移,醫療服務所積累的大數據將在數據的完整性與數據的一致性無法得到保證,并且每當有數據模式有更改的情況下,新的數據模式將更加靈活、寫入的操作也將更多,對數據的存儲能力和數據的擴展也會有新的要求。
2.2 醫療數據是復雜的、大增長的數據
醫療數據是多種數據類型的匯總,數據相互間的關系也非常復雜。例如:一個醫療機構所提供的實驗室檢查出的數據,必須記錄這條數據所在醫療信息系統中所代表的編碼值(系統中所對應的編碼、檢驗單位、檢測時間、索引號、就診科室、就診醫生的標識號、檢驗結果的正常參考值等)通常一條檢驗將在多個實體之間進行不同層次、不同程度的關聯與聯系在一起。醫療數據的多樣性為各種醫療信息系統所提供服務。提供了多角度度、多層次分析數據的可能性,也為分析這些數據帶來了很大的挑戰。主要是我們無法做到為每一種數據的信息服務提供一種優化的數據模式,也無法做到列舉每一條數據所存在的信息服務,這就要求醫生能為醫療數據的存儲提供多變的、多維的分析與統計的需求分析。
2.3 醫療數據是廣泛的、語義性的數據
為了使數據能夠在不同的數據平臺上進行應用分析、重用及共享進行多維的框架設計,通常將數據的語義定義為:多臺機器(Machines)要能讀懂維基百科(Wikipedia),數據的語義包含了數據定義的條目及各條目之間的關系。若數據采用這些條目之間多定義的組織內容,那么機器將能準確的理解這些數據的語義,并且能理解也能翻譯出各種語義所包含的知識等,所有語義網絡的關鍵手段就是能如何制作出一本類似百科全書(Ontology)的信息服務。
3 醫療大數據的解決方案
利用大數據來為醫療衛生服務行業提供服務的主要難題時,這些數據所涉及到的數據存儲及采用的挖掘技術,如圖2所示,通過大量的實驗研究與分析,給出了一種利用大數據來解決醫療衛生服務中所存在的難題的基本框架,在這個框架中,所有的醫療衛生機構將患者的個人數據源傳送到數據平臺上進行數據處理,大數據平臺將利用Hadoop技術進行數據存儲與數據的挖掘,從而為醫療服務提供技術支持。基于Hadoop生態的信息系統所采用的是構建的云數據中心,用以解決數據的擴展與數據的存儲。利用MapReduce能進行數據的批量處理事務能力,從多個數據源(主要是從醫療機構中的各個業務系統中提取所需要的關鍵數據)將數據的格式進行轉換并導入基于HBase的數據存儲模型中。在數據的存儲模型與設計上,我們將充分借鑒在數據倉庫中多維的數據模型設計思想,在數據存儲模型的設計上,創建的數據格式是星型模式和數據立方等概念,在考慮數據的應用需求上,利用的是HBase的鍵值(中行鍵、列鍵)。主要因為是HBase的鍵值具有設計的靈活性和多樣性,將多維的醫療數據能有效的結合在一起。在索引的關鍵技術上,我們將采用成熟的RDBMS技術,用以提高HBase的查詢性能。對于數據的更新,HBase特有的多種版本能進行共存同時解決了問題的關鍵所在。
為了保留醫療數據大量的語義關系,我們所采用的數據結構是結構化的數據+XML文檔混合存儲方式。在數據導入的同時,將在XML文檔中提取特定的數據源((比如:主治醫生、患者的索引信息、就診的科室等),并將XML文檔根據不同的粒度分散成大小不一的不同子文檔。對于不同的粒度所進行的查詢條件,信息系統將自動的選擇相對應的子文檔進行一一的信息解析,從而避免為了提取少量的信息而進行大量的XML文檔的問題。數據存儲的接口采用的是用Hive類查詢SQL的查詢方式。這樣更加有利于數據分析人員進行分析和設計相關的算法。同時也為醫療信息服務系統嵌入的多種數據挖掘技術提供挖掘算法,以方便提供給數據分析師使用。
4 結語
通過以上的設計與分析,要解決醫療云的大數據分析問題,我們必須利用RDBMS和NOSQL的優勢,醫療衛生行業所需要的利用相關的大數據技術,將借簽國外先進的經驗,設計與開發出醫療衛生信息系統,挖掘醫療衛生大數據所存在的價值,創造“大時代”的智慧醫療。采用的數據格式是結構化的和非結構化的混合存儲模式,相互彌補設計缺陷,已達到最高的設計原則與最靈活的設計規則。該論文所設計的基于醫療云的大數據平臺,也將擴展到其他各行業。特別是應用到如電信、能源、物聯網等公共事業等。
參考文獻
[1] 孫玉玲.大數據時代數字出版產業的發展趨勢[J].出版發行研究,2014(4):5-8.
[2] 王文超,石海明,曾華鋒.大數據時代的國家信息安全[J].國防科技,2015(2):1-5.
[3] 肖飛.大數據時代基于物聯網和云計算的地質信息化研究[M].吉林大學出版設,2016.
[4] 周楓.大數據時代檔案館的特征及發展策略[J].檔案與建設,2016(8):6-9.