黃婧 王云光 皮冰斌
摘 要: 健康醫療大數據的發展是大數據產業驅動的結果,是國家重要的戰略部署。為了有效地推動數據開放共享,挖掘醫療行業潛在的數據價值,推動行業的發展進步,就必須加強數據安全保護技術的研究。文章從大數據平臺安全的角度入手,重點分析了健康醫療領域相關數據安全保障技術的重難點。研究表明,針對不同的應用場景使用不同的安全保障技術能夠有效地加強數據安全保護,提高數據傳輸的安全性。
關鍵詞: 健康醫療; 大數據; 數據平臺; 數據安全
中圖分類號:TP301 文獻標志碼:A 文章編號:1006-8228(2018)11-45-04
Abstract: The development of healthcare big data is the result of the big data industry, and it is an important strategic deployment of our country. In order to effectively promote the open sharing of data, tap the potential data value of the medical industry, and promoting the development of this industry, the research on data security protection technology must be strengthened. Starting from the security perspective of big data platform, this paper focuses on analyzing the key and difficult points of data security technology in the field of health care. The researches show that using different security technologies for different application scenarios can effectively enhance the data security protection and improve the security of data transmission.
Key words: healthcare; big data; data platform; data security
0 引言
步入21世紀以來,隨著社會網絡信息化的高速發展,使得物聯網、互聯網、云計算和人工智能等新一代信息技術對健康醫療事業的影響日趨顯著。美國、英國等發達國家已經將健康醫療大數據的發展作為國家公共事業發展的重要組成部分投入了大量的人力物力。2016年6月,國務院正式印發了《關于促進和規范健康醫療大數據應用發展的指導意見》,首次將健康醫療大數據定位為“國家重要的基礎性戰略資源”[1]。由此可見,國家對健康醫療大數據的重視,而大數據在健康醫療方面的應用與發展也將極大地提升醫療服務質量與效率。由此引來的醫療數據的安全問題也被提上日程。醫療數據保密性很高,數據量龐大,數據結構復雜且帶有一定的專業特殊性,這些都加大了數據安全保護的難度。因此,在進行數據的開放與共享以謀求更大的價值的同時,我們更應該從技術、法律等各方面入手,保障數據的安全。
1 健康醫療大數據研究概述
1.1 健康醫療大數據的概念與特征
健康醫療大數據是涵蓋人的全生命周期,既包括個人健康,又涉及醫藥服務、級別防控、健康保障和食品安全、養生保健等多方面數據的匯聚和聚合[2]。對改進醫療服務模式以及國家經濟社會的發展都具有一定的促進作用。大數據一般都具有數據量大、處理速度快、數據種類多,以及價值密度低的特征。健康醫療大數據在此基礎之上又具有其本身的一些特征,即時效性、不完整性、冗余性以及保密性[3]。
時效性:信息僅在一定時間內對決策具有影響。患者在就醫的不同階段產生的數據對后續的治療手段方法等都會帶來不一樣的影響。
不完整性:因為技術手段、人為因素等導致我們無法全面搜集,記錄、處理疾病的全部信息。致使數據出現偏差乃至缺失的情況,造成了數據的不完整性。
冗余性:冗余性是指數據之間的重復,或者同一數據被多次記錄的現象。例如,同一患者會因醫院不同造成同一檢查項的多次檢查,造成數據的冗余。
保密性:醫療保密即醫務人員在醫治患者的過程之中應當保守醫療秘密,不得對外泄露病人的隱私及病情。相關醫療機構不得在未經患者同意的情況下,以任何方式將患者的個人信息透露給外界。
1.2 健康醫療大數據的來源與隱私保護價值意義
1.2.1 數據來源
健康醫療大數據從數據結構上可以分為結構化、半結構化和非結構化三類。各式各樣的數據來源于不同的地方,按照數據產生的來源,可將健康醫療大數據分為臨床診療、醫院管理、醫學研究、公共衛生和個人健康五類。如表1所示。
1.2.2 健康醫療大數據安全保護價值意義
在我國,多方需求共同推動健康醫療大數據的發展,首先社會需求加快了大數據的應用。據統計,我國人口老齡化進程顯著加快。預計到2035年60歲以上人口將增至4.18億,約占人口比例的29%[4]。
我國慢性病人群龐大,已經被確診大的患者高達2.6億人且每年仍以8.9%的速度在遞增[5]。根據北京市藥監局西城分局對轄區內五個街道的過期藥品回收狀況的調查顯示,91.8%的家庭有過期藥品,70.1%的家庭存儲過期藥品超過半年。
我國醫療領域需求龐大,醫療資源分配不均衡;醫療信息不對稱、不透明、不開放、不共享,也導致了信息的冗余,患者不能參與到醫療過程之中,醫生也不能根據以往有用信息迅速的做出精準的判斷,往往會造成治療的延誤導致錯失治療的最佳時期。
大數據在健康醫療領域的有效應用將大大減少上述問題對我們的困擾。而保障數據的安全有效,杜絕信息的泄露是大數據在健康醫療領域的應用的最基本問題,也是人們最關注的一個問題。因此,保障好數據的安全,是當下我們迫切需要解決的基本問題之一。
2 健康醫療大數據平臺安全關鍵技術
醫療大數據平臺為大數據在醫療信息領域的應用和發展提供了有利的支持保障。平臺的安全體系建設則更加有利于健康醫療大數據的發展。涉及的關鍵技術有身份認證技術、數據隔離技術、訪問控制技術以及審計技術。如圖1所示。
2.1 醫療信息系統的身份認證技術
目前身份認證技術主要包括:以口令為基礎的認證技術,智能卡認證技術,密碼認證技術、多因子認證技術。
口令認證技術是最簡單方便快捷的認證技術,其優勢在于成本低,速度快,但該方式的安全性較低。智能卡認證技術中智能卡具有硬件加密功能,安全可靠性更高,但是該方法增加了成本開銷,需要在每個終端都安裝讀卡設備,且對于一些信息系統而言該方法不適用。密碼認證中較為經典的認證系統有兩個,一個是Kerberos認證系統另一個是PKIⅡCA系統。Kerberos認證系統支持分布環境下的認證服務和雙向認證服務,能夠為網絡中的實體提供一個集中的、統一的認證管理機制。該系統解決了密鑰管理的問題,也解決了執行效率的問題。PKIⅡCA系統的認證鑒別機制安全性較好,適合網上的安全認證,但是該系統也存在不足之處。例如無法驗證用戶提供信息的真實性,用戶私有密鑰保存的安全問題等。多因子安全認證技術相比于傳統的認證技術在安全憑證方面添加了多種因素,進一步的加強了安全認證的可行性,但是該方法太過復雜不便于操作。因此,在身份認證方面,需要一種可行方法,在保證安全性能的同時,提升執行效率與可行性,這方面仍有待研究。
2.2 醫療信息系統數據隔離技術
虛擬化技術的負面作用之一是削弱了數據間的物理隔離,致使數據間的邊界很模糊,每個用戶都有成為發起攻擊節點的潛在條件,對數據的安全構成了極大的威脅[6]。因此,開發數據隔離機制來保證用戶之間的數據不可見是解決問題的關鍵。在隔離技術中較為主流的有以下幾種。
⑴ 分離表架構:該方法中每個用戶都擁有屬于個人的數據庫表,系統共享時只會共享相同的數據。
⑵ 共享表架構:通過字段來確定數據之間的關系,系統共享時,共享相同的數據實例和數據庫表。此架構在降低硬件成本的同時,極大地利用了數據實例的存儲能力,缺點是復雜程度增加了,產生了高昂的容災備份成本。
⑶ 分離數據庫架構:這種架構能夠高效實現數據隔離和容災備份,但是硬件成本也相對較高。
2.3 數據訪問技術
對大規模的醫療數據資源進行管理時,為降低安全風險,可根據用戶的需求和數據的保密程度賦予用戶和數據不同的等級權限。針對普通醫療數據的訪問控制,可以通過屬性加密和角色控制兩種方法。而針對對用戶訪問需求不明確的情況,出現了一種新型的風險自適應訪問模型。
2.3.1 基于角色挖掘的訪問控制方法
角色挖掘與傳統的角色設計的根本不同之處在于角色挖掘是“自下而上”的從已有的用戶-權限分配關系中來自動化地實現角色定義和管理工作,以減小對管理員地依賴[7]。在保證系統已有用戶-權限分配關系準確的情況下,目前已有的研究方法有利用聚類進行角色挖掘的方法,用子集枚舉的角色挖掘算法等。上述方法都能夠在一定程度上降低對管理員的依賴。
2.3.2 基于屬性加密的訪問控制
基于屬性加密的訪問控制是一種利用密文機制實現客體訪問控制的方法,主要分為兩種:基于密鑰策略的屬性加密(KP-ABE)和基于密文策略的屬性加密(CP-ABE)[8]。KP-ABE主要用來訪問靜態數據,CP-ABE因為可以靈活的控制用戶訪問數據,所以被廣泛地應用于云計算地訪問控制。為解決傳統方案中,密文與密鑰長度都與屬性個數線性相關從而使得計算開銷增加的問題。Sreenivasa和Ratna提出了一種多權限分散的CP-ABE機制,利用最小授權集加密數據,因此密文大小與訪問結構中的最小屬性集呈線性關系,且在解密期間雙線性配對操作數是不變的[9]。Chen等提出了一種用于云計算的具有定長密文的多權限CP-ABE訪問控制方案,密文的長度和解密過程中的配對操作數都是不變的,與訪問結構中設計的屬性數也無關,在相對較強的安全模型中保持了高效率[10]。
2.3.3 基于風險自適應的訪問控制
研究者注意到僅僅基于風險的訪問控制的判定是不合理的,在醫療信息系統中,緊急情況發生,風險較大的訪問請求被簡單的拒絕可能會延誤治療的時期,對病人、醫院造成不可挽回的損失。一種彈性的風險判斷方式被人們所研究采納,即風險帶的概念。有研究者采用了一種風險自適應訪問控制實施辦法,在嚴格拒絕和彈性拒絕之間有著一個細分的風險容忍區域,可以根據訪問行為的風險系數在其中的位置來調整權限,從而提高了訪問控制判定的靈活性。也有研究者從算法模型的角度進行相關的研究,文獻[11] 以誠實醫生訪問行為的熵作為系統可承受風險的基準值,對所有醫生的訪問行為使用EM算法進行進一步的分析,對不同醫生的訪問行為的概率分布進行了區分,利用風險量化,監測和控制對于醫療記錄的過度訪問以及特殊情況下的訪問請求。研究證明,該方法確實能夠有效提高風險評估的準確性。
2.4 大數據審計
大數據處理平臺也采用安全審計技術來對安全事件進行跟蹤,以及時發現安全違規事件,便于進行安全事件追責[12]。安全審計首先搜集原始的系統狀態信息,然后將原始狀態信息和已有的安全記錄(包括已經發生的安全問題及其他類似系統發生的安全問題)進行匯總整理,以此為基礎通過數理統計導出相應的結論,在結論分析基礎上,制定安全等級,采取相應的安全應對措施,預防可能會發生的安全問題[13]。目前大數據平臺主要通過審計日記記錄平臺中所有數據操作。Hadoop生態的幾個常用組件都可以配置具有審計功能。
3 未來展望
未來,大數據在醫療健康領域的應用將會越來越廣泛。數據的開放共享是使數據價值利用最大化的根本途徑。在數據安全保護方面,依然是研究的重點,亟待解決的問題仍有很多。相關的法律法規和政策的制定都應該以保護數據安全,推動大數據在醫療領域的健康發展為主。其次要思考解決如何實現數據安全與數據共享的均衡問題;數據共享與數據隱私保護的均衡問題等。按需制定訪問控制策略、保障數據有效加密的同時又不影響執行效率。
4 結束語
大數據作為國家重要的戰略性基礎資源,在健康醫療領域的應用會推動該產業翻天覆地的變化。數據安全問題也得到了學術界和產業界的高度重視。本文對健康醫療領域的數據安全問題進行了研究,從大數據平臺的角度入手對目前身份認證技術、數據隔離技術、數據訪問控制技術和數據審計幾個方面所使用的較為先進的安全保障技術進行了研究,總結了每個方法的優劣性,分析得出大數據安全保障技術下一步要在數據安全與數據共享、數據共享與隱私保護等問題上做進一步的探討。
參考文獻(References):
[1] 盧朝霞,姚勇,尹新等.健康醫療大數據理論與實踐[M].電子工業出版社,2017.
[2] 盧朝霞,姚勇,尹新等.健康醫療大數據理論與實踐[M].電子工業出版社,2017.
[3] 戴明風,孟群.醫療健康大數據挖掘與分析[J].中國衛生信息管理,2017.14(2):126-130
[4] 中華人民共和國國家統計局.中華人民共和國2015年國民經濟和社會發展統計公報.中國統計,2015.
[5] 國家衛生和計劃生育委員會統計信息中心.2013中國衛生服務調查研究.中國協和醫科大學出版社,2015.
[6] 王丹,趙文兵,丁治明.大數據安全保障關鍵技術分析綜述[J].北京工業大學學報,2017.43(3):335-349
[7] 李昊,張敏,馮登國等.大數據訪問控制研究[J].計算機學報,2017.1:72-91
[8] 陳興蜀,楊露,羅永剛等.大數據安全保護技術[J]. 四川大學學報(工程科學版),2017.5:1-12
[9] Rao Y S,Dutta R.Decentralized ciphertext-policy attribute-based encryption scheme with fast decryption[C]//Proceedings of the 14th IFIP TC 6/TC 11 International Conference onInternational Conferenceon Communication and Multimedia Security.Magdevurg: Springer-Verlag,2013:66-81.
[10] Chen Yanli,Song Lingling,Yang Geng.Attribute-based access control for multi-authority systems with constant size ciphertext in cloud computing[J].China Communications,2016.13(2):146-162
[11] Hui Zhen, Li Hao, Zhang Min, Feng Deng-Guo.Risk-adaptive access control model for big data in healthcare.Journal on Communications,2015.36(12):190-199(in Chinese).
[12] BAUMGRTNER L, STRACK C, HOΒBACH B.Complex event processing for reactive security monitoring in virtualized computer systems[C]//Proceedings of the 9th ACM International Conference on Distributed EventBased Systems. Oslo: ACM,2015:2233
[13] SOOKHAK M,GANI A,TALEBIAN H,et al. Remote data auditing in cloud computing environments: a survey,taxonomy, and open issues[J]. Computing Surveys,2015.47(4):134