吳蔚



[摘要] 醫院文史、宣傳等電子檔案資料十分龐大,且數據結構復雜、數據類型繁多。因此,需要“新的處理模式”對這些大數據進行高效的采集、存儲和分析等處理。在此背景下,設計一種多結構化的多模態海量數據的科學采集方法;基于Hadoop云存儲架構,構建一種安全的醫院電子檔案資料的云存儲系統架構;針對重要敏感數據,深入闡述數據脫敏方法;最后,創建面向醫院業務管理的電子檔案資料的云計算及應用技術模型。文中提出的大數據處理綜合技術方法,有利于推動大數據安全共享,可為醫院電子檔案管理決策管理提供參考。
[關鍵詞] 醫院電子檔案資料;多模態;云計算;數據脫敏
[中圖分類號] G276 [文獻標識碼] A [文章編號] 1672-5654(2018)12(c)-0057-03
為了更好地表示醫院業務數據的復雜結構特點以及語義信息,一些基于XML的半結構化數據庫開始被應用于數據管理[1]。這些研究在一定程度上保留了原始數據的結構,然而許多非結構化數據背后的復雜關系仍然沒有被完整地記錄下來,因而無法支持一些復雜的醫院電子檔案業務應用。早期的數據管理系統采用傳統的關系數據庫進行存儲,因此可以支持簡單的數據查詢[2],例如醫務人員可以通過系統快速查詢患者檔案、醫院日常管理業務的歷史數據,可減少人工查找資料的時間。然而,這些方案只是把不同數據類型分開存儲,醫務人員只能通過簡單信息查詢與分析數據之間的關系,并以此做出決策和判斷,其操作效率低下。
隨著多模態數據的產生,催生了新一代面向多模態媒體數據的統一索引與跨域檢索技術[3]。這些解決方案利用多模態數據之間的語義關聯性建立不同數據形式之間的映射關系,從而根據語義注解來實現多模態數據的統一索引與查詢處理。然而,這些方法往往只適用于數據關聯性較高的社交媒體數據等,無法直接應用于語義關系較為模糊的醫院業務管理數據[4]。還有一些方法把不同的多模態數據用不同的數據類型來表示,比如字符串、樹、高維數據、動態序列等,并設計統一的倒排索引結構把不同數據類型的數據一起存儲,以支持上層的各種查詢處理[5]。此外,隨著醫院電子檔案管理業務數據的爆炸性增長,傳統的數據庫管理系統已經無法滿足高增長的應用需求。一些醫療云服務商提出將傳統的電子資料轉移到云端進行管理,從而實現數據的遠程共享與查詢處理[6]。這些醫療云平臺解決了海量數據的存儲要求,并且可以實現簡單的數據查詢與分析功能,然而,在處理高級別的數據分析要求時仍然面臨諸多問題。
綜上所述,針對醫院電子檔案管理資料,要求實現對海量多模態數據有效管理,需要設計一個可以支持多模態數據的采集、存儲與管理方案,并結合云計算技術,滿足基于分布式的高效索引、查詢與分析需求。
1 ?醫院電子檔案資料采集、存儲技術方案
構建智能數據采集接口,快速、準確地智能化采集分布于多點的多模態異構業務管理大數據,實現數據采集的統一規范和標準;采用云模式有效存儲采集的大數據,使用Hadoop的HDFS分布式文件系統和Map/Reduce實行數據的存儲與訪問控制,保障數據安全;對云存儲的大數據進行脫敏處理,對某些敏感信息通過脫敏規則進行數據的變形,實現敏感隱私數據的可靠保護,為在開發、測試和其他非生產環境以及外包環境中可以安全地使用脫敏后的數據集;對數據做進一步的分析、切片等,深度融合數據及對其建立統一模型,最終構建出數據干凈、結構完整、耦合性好的醫院電子檔案管理資料大數據集,為數據分析提供高質量數據源。大數據采集、存儲及管理的總體技術框架如下圖1所示。
1.1 ?數據采集方案
在數據采集當中,常常要采集數量龐大,類型眾多的結構化、半結構化及非結構化的海量數據。這需要借助于高速數據解析、轉換(Transform)與轉載(Load)的大數據整合技術,以及實現數據一致性與安全性保證的大數據安全技術。大數據的收集首先基于Sqoop開發ETL模塊,實現結構化數據從MySQL等關系型數據庫到Hadoop平臺的遷移,其次基于Hadoop Common開發半結構化數據、非結構化數據的傳輸功能。在對數據源進行采集時,選用的數據庫有所區別。在數據采集方案設計時,應分別對結構化和非結構化數據進行考慮,基于Sqoop的結構化數據的采集方案比較簡單,可采用常見的基于Sqoop結構化數據的采集方案即可。在采集半結構化數據或非結構化數據時,適合用面向列存儲的HBase數據庫來進行存儲。HBase能方便地利用MapRedece框架進行數據分析,有較好的讀寫性能。在該方案中,針對醫院檔案資料的半結構和非結構特點,可采用的數據采集方案如圖2所示。
1.2 ?大數據的存儲方案
醫院電子檔案資料大數據龐大的規模對計算平臺的存儲容量、性能提出了更高的要求。而且本地的單一存儲有很大的變動性,一次硬件故障就可能使所有數據丟失,給用戶帶來巨大損失。因此,大數據的存儲很有必要引入云存儲技術,即框架圖中的計算和存儲集群。由于Hadoop云存儲平臺的諸多優點,因此,選擇Hadoop存儲集群作為數據存儲中心,并在HDFS中,基于Hive實現多類型大數據的邏輯管理和高速訪問。但是由于云存儲本身的特點是存儲即服務,為了不使大數據泄露,需要通過一定的安全策略和技術從技術層面去解決。可把該部分的內容設計為3個模塊:①安全客戶端模塊;②安全可靠傳輸模塊;③服務器端模塊。服務器端是提供云存儲服務的 Hadoop 集群,它由元數據服務器、數據節點服務器以及備份服務器三者構成。此種存儲方案可較好地解決醫院多模電子檔案數據的大容量存儲。
2 ?醫院電子檔案資料的管理應用技術方案
2.1 ?大數據管理技術方案
根據醫院電子檔案資料數據的計算要求,采用基于大數據處理平臺Hadoop,該平臺包含分布式文件系統(HDFS)和MapReduce兩大核心內容,HDFS是大數據的分布式存儲的底層支持,其采用主從式的結構模型,由一個大數據系統云服務器和若干個數據所組成,其中大數據系統云服務器管理文件系統的命名空間和用戶端對文件的訪問操作,統一調度數據塊的創建、刪除和復制工作;數據節點管理存儲的數據,大數據被分成若干個數據塊,并被放置于一組數據節點中。
圖3所示的云管理模型框架可被用于管理醫院業務管理過程積累的海量數據。下面對數據管理技術實現方案進行闡述:(1)數據索引:設計圖像及其他數據的URL,將其存儲信息設定在URL中,通過解析URL快速定位存儲的數據塊的數據節點和區域,以保證海量數據擴容和快速檢索。
(2)優化策略:采用MapReduce進行數據業務處理的編程實現,針對大數據的批量處理和存儲優化制定相應策略。
(3)讀取服務:采用Nginx的Web服務器對數據進行讀取,運用Nginx的Redis模型對緩存中的微型數據進行讀取。
(4)負載均衡:采用HAProxy的RoundRobin負載均衡算法構建負載均衡,分載前端用請求的壓力。
(5)云計算管理模式:從HDFS分布式存儲系統中獲取數據,將其劃分成等長的作業分片,每個Map任務處理一個作業分片,該任務可被并行執行,經一系列的映射、復制、排序或融合、機器學習等操作后,Map輸出結果作為Reduce輸入,最后輸出經化簡階段的算法處理結果。
(6)數據安全管理方案:由于大量數據集中在云端存儲,如果缺乏安全保障,醫院電子檔案資料一旦被外泄,會降低用戶對大數據技術的信任度和認同感。為解決云環境下的敏感大數據安全問題,可從敏感數據使用前的識別與管理、使用中的保護和使用后的審計溯源方面著手建設,具體為:①通過數據特征學習和自然語言學習等技術來進行敏感數據識別。同時,對敏感的靜態數據進行規范存儲和管理,防止靜態數據的濫用。②在存放數據時,應進行分布式數據管理操作,在存放其他臨時性要求不太高的數據時,應進行SDM操作。同時,實施敏感數據泄露預警、封堵等操作。③一旦發生敏感數據泄露事件,及時找到泄露的源頭,從而進行查缺補漏。
2.2 ?大數據應用技術方案
結合多模態數據模型,甄選機器學習算法,深度挖掘出電子檔案資料內部深藏的知識。具體的數據挖掘模型構建流程為:首先對多模態數據進行深度的數據預處理,并對數據做類型定義、過濾、缺失數據的填補等操作;接著運用機器學習算法對預處理后的數據進行關聯挖掘、分類處理等,通過模型訓練、模型測試等一系處理,建立可靠的挖掘模型。最后,運用挖掘模型進行規則挖掘,為醫院管理者提供可信的決策依據。大數據應用技術方案直觀描述如圖4所示。
3 ?結論
該文針對醫院電子檔案管理大數據的實際需求,從大數據采集、存儲技術及應用等方面提出了一套具體的技術解決方案,能夠較好地解決醫院電子檔案管理資料的采集困難、數據存儲異常、數據讀取不便利、異構多源且多模態數據難以統一表示等問題。該文提出的技術方案,對于醫院、學校等諸多領域的大數據管理策略亦有一定的借鑒意義。
[參考文獻]
[1] ?鄭琳,劉克新,趙永蘭.大數據時代的病案信息全文檢索[J].中國病案,2016,17(5):105-110.
[2] ?楊德先,孫華,于炯,等.一種基于MBRC值的關系型數據庫負載能耗預測模型[J].計算機科學,2017,19(2):159-160.
[3] ?文孟飛,劉偉榮,胡超.網絡媒體大數據流異構多模態目標識別策略[J].計算機研究與發展,2017,26(1):201-203.
[4] ?蔡正杰,劉云,景慎旗,等.醫院數據集成平臺與業務系統對接的標準流程探討建[J].中國數字醫學,2018,13(3):46-49.
[5] ?錢宇華,成紅紅,梁新彥,等.大數據關聯關系度量研究綜述[J].數據采集與處理,2015,35(4):57-61.
[6] ?徐曼,沈江,余海燕.數據驅動的醫療與健康決策支持研究綜述[J].工業工程與管理,2017,16(1):32-40.
(收稿日期:2018-09-30)