黃玉蕾 孫龍華 常 安 魏云龍(西安培華學院,陜西 西安710125)
隨著我國Internet 的飛速發展,諸如“互聯網+”、大數據、數據和人工智能(AI)的技術越來越多地涉及醫療領域。智慧醫療的概念,最早是IBM 在2009 年提出的智慧地球中誕生出來的。根據IBM 的統計結果,在上海,每天能產生一百萬條數據,已經建立三千萬的電子檔案,調閱次數達到一億次每天,總的數據量達到了二十億。隨著大數據時代的到來,醫療行業也從傳統的醫療方式進入到了智慧醫療時代。
在現有的技術中,騰訊的人工智能實驗室提出了基于AI 來輔助帕金森氏病診斷。其他方面,也有很多在線的診斷服務。如丁香醫生、谷歌醫生,這些平臺技術上很專業,具有較高的準確性,但與此同時,由于其專業性太強,導致受眾面狹窄。并且,即使通過了線上的問診,后續患者還得到醫院繼續進行物理治療及手術輔助治療等。本文設計基于數據挖掘算法的智能醫療服務系統,以改善醫療環境,并提高治療服務水平。
整體的系統架構如圖1 所示,分為四層:數據采集層、數據存儲層、信息分析層、應用服務層。數據采集層,主要應用物聯網技術和移動無線技術,對醫用器械的進行信息采集,然后將數據傳輸到Hadoop 大數據存儲層。在數據存儲層,使用HDFS和HBase 完成對非關系型的數據存儲,使用MapReduce 算法,將數據處理后,部分數據轉換成結構化的數據,存儲到Greenplum 分布式數據庫中。相關的數據,經過Datax 數據集成服務,將數據整合到數據倉中,支持上面的數據挖掘和數據分析,將結果提供給應用服務。

圖1 系統架構圖
標簽信息的數據采集,主要來自RFID 的標簽數據采。通過采集RFID 數據,可以實現各種醫療器械的信息采集。醫療設備的標簽信息采集,在整個流程上必須嚴格遵守醫院的相關管理規定。從這些器材的入庫、登記、存儲、到器材的出庫、使用等,都需要完整的跟蹤。
對標簽信息的數據存儲,主要采用Hadoop 進行存儲。采用這種分布式的存儲架構,可以滿足多個院室的數據存儲需求,并可借助hadoop 的高可用架構設計,為數據的安全性提供保證。這些非關系型的數據,使用MapReduce 算法處理后,將部分的數據,轉換成關系型數據,導入到分布式計算引擎Greenplum 集群中,以便整合各個分析主題,構建出數據倉庫。
整個信息分析層分為兩個部分:第一部分是醫療數據倉庫,第二部分是數據挖掘和數據分析模塊。
本平臺采用的是星型架構設計數據倉庫,所謂的星型架構,就是多個維表圍繞著一個事實表來進行數據查詢的架構。在數據倉庫中,一個數據集市中,有多個分析主題。在此,通過績效管理的主題來說明整個數據倉庫集市的構建及數據組織,以醫院管理數據集市模型的實例:結合醫院信息作為事實表,與它們關聯的有多個維度,如:科室維度、醫生維度、時間維度、費用類別等(表1-5)。

表1 費用事實表

表2 成本事實表

表3 醫生維度表

表4 時間維度表

表5 部門維度表
名稱:最近鄰算法 輸入:預處理后的數據集
過程:(1)設定參數k。(2)建立用于存儲最近鄰訓練元組的隊列A,其大小為k 順序按距離由大到小排列。(3)從數據集中隨機地選k 個元組。(4)分別計算測試元組到這k 個元組的距離,將標號和距離存入A。(5)遍歷訓練元組集,計算與測試元組的距離,若不小于A 中的最大距離,則 舍棄:否則,刪除A 中最大距離的元組,將當前訓練元組存入A。(6)統計A 中各個分類的出現次數將最為頻繁的分類作為測試元組的分類。

整個系統的軟件環境是采用運行在Windows Server Enterprise 上的信息管理系統來支持前端的信息系統展示。智慧醫療服務系統測試所需要的硬件設備包括運行用戶終端的普通PC 機和運行服務程序的服務器。其具體配置情況如服務器:CPU 主頻3.6GHz、內存 8GB DDR4、硬盤2TB 7200r/min。用戶終端:CPU 主頻3.6GHz、內存4GB、硬盤2TB 7200r/min。在用戶檔案模塊中如圖2 所示,提供了病人的基本信息、健康信息、歷史病歷照片,為后面決策判斷病人病情提供依據。

圖2 用戶檔案管理模塊
本文設計并實現了基于大數據存儲引擎Hadoop 以及分布式計算引擎Greenplum,由經典分類挖掘算法構成的智慧醫療服務系統。實現了醫療數據的采集、存儲、計算、建模、分析、挖掘、前端交互式展示等功能。