肖忠良 李默軒 李晶
摘 要:在國家政策的引導下和人民健康訴求的促進下,以健康醫療大數據為基礎的產業鏈將迎來巨大的發展空間和機遇,但如影隨形的安全問題,同樣也是健康醫療大數據發展過程中的一個重要制約因素。文章分析了醫療大數據的特性,提出了分級分類安全管理模型,并從數據的存儲、訪問控制及數據的管理方面探討了健康醫療大數據面臨的風險及應對策略。
關鍵詞:健康醫療大數據;分級分類;存儲安全;訪問控制;數據管理
隨著健康醫療大數據的匯聚,以及數據挖掘、數據分析、人工智能等技術的不斷革新,利用大數據進行分析、預測、科研的場景會越來越多[1]。大數據將為醫療相關行業的診療和決策提供重要的輔助依據,決策的方式也會從之前的“經驗即決策”,到現在的“數據輔助決策”,至將來的“數據即決策”[2]。盡管醫療大數據可以產生許多有用的信息和價值,但其作為醫療領域產生的數據具有數據量大、敏感性高等特點,要實現醫療大數據的融合共享,首先要警惕數據安全,因此,保證健康醫療大數據的安全是醫療行業開展大數據技術的重要前提[3]。本文提出了分級分類安全管理模型,并從存儲、訪問和管理3方面探討健康醫療大數據存在的安全隱患及對應的策略。
1 健康醫療大數據的特性
不同于一般行業的數據,醫療數據具有其特殊的敏感性和重要性。醫療數據的來源和范圍也非常廣泛和多樣,涵蓋醫院診療、醫療保險、醫學實驗、科研數據等[4]。這些數據不僅關系到數據主體的隱私、行業發展,甚至關系到國家安全。比如,2016年艾滋病感染者個人信息遭泄露的事件,讓詐騙集團有機可乘,并引起了世界衛生組織駐華代表處和聯合國艾滋病聯合規劃署駐華代表處的關注。
隨著信息化的普及和醫療數據的逐步集中,企業、研究機構及公眾對數據訪問的需求將變得迫切,如果不提升安全防護水平,大規模數據泄露的風險將會增加[5]。警惕數據安全,保護患者隱私,才能真正實現數據融合共享、開放應用。
2 健康醫療大數據面臨的挑戰及應對策略
醫療行業是數據密集型行業,IDC Digital預測截至2020年,醫療數據量將達到40萬億GB。由于健康和醫療數據的高度敏感性,對其進行集中存儲和管理后,一方面會引起惡意人員的高度關注,另一方面,一旦發生數據泄露其影響面非常廣,對于健康醫療大數據的安全和個人相關的隱私保護,必須予以高度重視。基于數據的存儲、訪問和管理方面,提出了3層的分級分類安全管理模型,如圖1所示。
2.1 數據存儲
數據存儲是否安全高效,關乎隱私性、醫療相關業務的連續性、醫療大數據的應用價值,系統一旦出現故障,首先考驗的是數據的存儲和恢復能力。為避免數據丟失問題,需對數據進行定期備份,并定期進行數據恢復驗證測試,確保備份數據的可恢復性。
在網絡架構方面,依據醫療大數據的特點,提出分級分類存儲解決方案,根據數據的時效性、訪問頻率、容量、性能等指標,將數據進行分級管理,采取不同的存儲方式分別存儲在不同性能的存儲設備上,以獲得更好的性價比。根據數據的隱私性為數據設置不同的安全標識,進行安全分類,為下一步訪問控制策略提供控制依據。此外,通過相關加密算法和密鑰對數據進行加密存儲,可以從數據源層面保護敏感信息不被泄露。
2.2 數據訪問
由于醫療健康大數據的特殊性,將多個數據池中的數據進行組合時,隱私風險也將成倍增加,這是由于人們很難從單條數據中推斷出用戶的身份,但是當對多條數據進行組合分析時,推斷出用戶身份特征的概率將大大增加,進一步可能根據獲得的信息對患者進行預測和預判,危害無可估量。
醫療大數據匯集后,需要相對開放的共享給內部不同團隊或外部機構使用,才能發揮大數據的價值。在訪問過程中存在兩種威脅:一是在信息使用傳遞過程中發生的泄露,可能包括科學研究的過程,區域性平臺數據交互等;二是基于健康醫療信息的敏感性,對訪問者的訪問權限控制和對醫療信息的隱私保護。
在傳輸過程中的加密依賴于網絡安全協議。收集到的海量數據供個人、企業或有關機構訪問時,首先通過對稱加密的方式加密傳輸的數據,然后使用非對稱加密的方式傳遞對稱加密所使用的密鑰,這樣既能保證數據傳輸的效率,也能保證數據的安全。
引入Kerberos網絡認證協議進行身份認證,可有效保證用戶身份的可靠性以及數據源的不可否認性,用戶通過身份認證后可獲得訪問大數據平臺的資格。然后以分級分類存儲的數據為基礎,通過一個多元組對ABAC(Attribute Based Access Control)訪問控制機制的屬性進行描述,包含用戶的實體屬性,如年齡、姓名等;數據安全屬性,如病歷文檔、B超圖片、CT影像等數據的安全標識;操作權限屬性,如對數據的讀、寫、刪除等;環境屬性,如用戶訪問的時間,網絡位置等,通過定義完備的屬性—權限之間的對應關系,制定細粒度的訪問限制規則,可控制到被訪問對象的字段級別,通過Kerberos身份認證和ABAC訪問控制來管理不同用戶對不同資源的訪問許可。
2.3 數據管理
要保證醫療大數據的安全,必須做好數據的管理工作,一是根據數據的敏感性、關聯風險和業務要求等對數據進行分類分級管理,如姓名、證件號、聯系方式等信息應進行嚴格的管控和保護,而對于診療過程數據、病歷信息等健康醫療數據,則可以在做好訪問控制的前提下供授權者訪問。二是從大數據特性層面對數據進行標記(例如數據源、數據類型、訪問頻率、訪問角色、處理方式等維度),了解數據流的流向、使用方式、使用對象等,這些有助于數據發現的管理,并為數據訪問控制策略提供依據。此外,掌握敏感數據在大數據平臺中分布情況,并監控其使用情況,適時地調整訪問策略,是能否做到全面保護數據安全的關鍵。
雖然通過數據保護、身份認證、授權及訪問控制等各種方式可以一定程度保證健康醫療大數據平臺的安全。但大數據平臺仍然有可能會受到非法訪問和特權用戶的訪問,因此,我們需要根據預先定義的規則對大數據平臺的一切活動進行審計和監控并生成告警信息,對其中的可疑活動進行記錄,分析和生成各種安全報告。如用戶登錄和身份驗證事件、授權錯誤、敏感數據操作等異常事件。只有全面收集在大數據平臺中的一切活動,才有機會捕捉可能會發生的安全事故及進行事后分析時有機會進行回溯分析,追蹤事故根源。
3 結語
綜上所述,隨著醫療數據的匯聚和健康產業的發展,醫療大數據可以產生許多有用的信息和價值,但其高度的隱私性和敏感性,使得數據的安全問題日益突出,一旦準備和配套不足,很有可能引發全局性安全風險,影響健康醫療大數據整體產業布局和發展。如何更好地保護敏感信息及病人隱私,成為實現數據融合共享、開放應用的一大難題。本文分析了健康醫療大數據應用中可能存在的風險,建立基于數據分級分類的安全管理模型,從數據存儲、訪問控制和數據管理方面提出了相關的安全策略。
[參考文獻]
[1]李昊,張敏,馮登國,等.大數據訪問控制研究[J].計算機學報,2017(1):72-91.
[2]王藝,任淑霞.醫療大數據可視化研究綜述[J].計算機科學與探索,2017(5):681-699.
[3]許培海,黃匡時.我國健康醫療大數據的現狀、問題及對策[J].中國數字醫學,2017(5):24-26.
[4]馬詩詩,于廣軍,崔文彬.區域衛生信息化環境下健康醫療大數據共享應用思考與建議[J].中國數字醫學,2018(4):11-13,25.
[5]代濤.健康醫療大數據發展應用的思考[J].醫學信息學雜志,2016(2):2-8.