朱勝明,朱甜甜,毛江華,巢艷萍,舒子馨
(南京中醫藥大學 人工智能與信息技術學院,江蘇 南京 210023)
隨著醫療衛生事業的快速發展,以醫院信息系統為基礎而建立的醫院大數據中心逐步開放,將已有的醫療數據資源給相關組織或者個人經互聯網遠程共享使用。在建立醫院大數據中心的基礎上,部分醫院通過嘗試大數據平臺和云計算、移動互聯網和物聯網等熱門技術的融合,探索新的信息管理模式,并且面向互聯網和物聯網開放部分醫療數據的訪問和應用。
根據國家深化醫療體制改革和發展國民健康服務體制的相關政策文件來看,國務院和國家衛生紀委大力提倡與推動開放醫療健康數據的共享,但是醫療大數據的共享應用卻面臨信息安全的挑戰。鑒于行業的特殊性,醫療數據的安全是具有高度敏感性的,其牽涉患者隱私與醫院業務流程等一系列的機密,可能包括醫保號碼、藥物清單和體檢報告等。如果發生醫療數據泄漏問題,會對社會造成極大的負面影響,阻礙醫療體制改革的步伐。
近十年來,我國先后出臺了一系列的安全信息管理制度和措施,例如:信息安全保護條例、實行信息安全等級保護制度、等級保護專項監督檢查等。在合法合規的總體要求下,信息安全已經明顯提升到醫院信息系統建設的核心地位[1]。醫療大數據匯聚面臨的主要問題是安全問題,因此,針對大數據匯聚安全機制的研究是一項巨大的挑戰,對以后醫療事業的發展具有重要意義。
作為處理大量數據時出現的固有問題的新興領域,大數據提供了重用和從信息中提取價值的新方法,并挑戰包括捕獲、數據管理、搜索、分析、查詢、共享、存儲、可視化、傳輸、信息隱私等在內的一系列問題。大數據的基本特征是速度、多樣性和容量。在中醫藥領域,大數據主要包含疾病治療患者、藥方信息以及包含舌苔、面相等在內的圖片信息,對于不同的信息顯然應該采用不同的存儲機制。
中醫藥類的文本信息包含大量的重復冗余數據,在傳輸過程中需要考兼顧重復數據的檢測壓縮。近年來,存儲數據的內存需求大量增加,因此,很多研究人員專注于避免相似和重復的數據存儲,來減少存儲空間需求。在存儲系統中,檢測和消除冗余數據的主要問題是處理開銷。所以,本團隊在存儲系統中引入了增量壓縮,以從類似的數據塊中刪除冗余數據[2]??紤]一個包含兩個數據塊A1和A2(以A1為基本塊)的示例。delta壓縮只計算和存儲數據塊之間的差值。用來確定A2和A1之間的關系,主要挑戰是如何以更少的開銷更準確地檢測相似的候選對象。據此,DARE提出了一種基于最小開銷的數據約簡方法——鄰接相似度檢測,通過驗證相鄰數據塊來識別數據的相似度。在發現數據相似度后,利用超特征技術提高相似度檢測的效率。當然,該方法產生的數據碎片會導致一些問題,因此,還有一種聚合加密[3]的方式可以更好地解決問題,但是本項目仍然采用delta壓縮進行相應的文本加密壓縮處理。
在大數據環境下,如果需要滿足合理的執行性能,并在一定程度上增加數據安全性,本團隊認為,一個比較好的方案是采用與公鑰加密相反的對稱加密方式。使用AES作為基本的密碼構建塊,稱為塊密碼,特別是AES,都可以在不同的模式下工作。當然,簡單的結構使該模式容易受到某些類型的攻擊,例如,阻止重播或碼本攻擊等。為此,可以使用密碼塊鏈接(CBC),明文塊是根據前面的密文塊進行加密的,即Ci由Pi與Ci-1異或加密得到。如果沒有對前置塊解密,就無法對之后的塊解密,當然,對于某些應用程序,限制到某個塊的大小可能并不合適。
分組密碼也可以在密碼反饋(CFB)模式下運行,以滿足對任意大小數據的加密要求。CFB使用一個隊列,根據需要將塊密碼應用到該隊列上。一開始,隊列是隨機且加密的數據;隨后,從隊列左側檢索加密的數據,并使用明文數據進行驗證。產生的密文位一方面存儲或傳輸,另一方面從右側輸入到隊列中。隊列再次加密,系統為下一個明文位做好準備。有關分組密碼模式及其優缺點的詳細信息,可以在Peter[4]的研究中獲得更詳細的信息。
在數據訪問方面,系統采用基于信任關系的證書驗證方式。信任是任何組織交易的重要特征。在Internet中,當各方和數百萬用戶之間沒有直接聯系,交換信息就有必要采取安全措施,以便在交換數據、貨物和服務之前對組織的合作者、客戶和供應商進行驗證。
公鑰基礎設施(PKI)使用稱為CAs的TTPs提供所需信任[5]。這些數字簽名的數據結構稱為PKCs,以確保特定的公鑰屬于某個用戶。因此,證書及其密鑰提供了關于其組織合作伙伴的連接信息。在信任證書的內容之前,證書的接收方必須確認其簽名和有效性。如果檢測由同一CA頒發通信方的證書,則可以輕松確認另一方證書的簽名。即使如此,要確認由另一個核證機關發出的證書的簽署,PKI當局之間也必須有一定的信任關系。
PKI是一個由人員、流程、策略、協議、硬件和軟件組成的框架,用于生成、管理、存儲、部署和撤銷公鑰證書。公開密匙基礎建設的組件包括一個或多個核證機關及一個證書儲存庫等系統組件。PKI將數字證書、公鑰密碼學和認證機構集成到整個組織范圍的網絡安全架構中。一個典型的PKI組織包括向個人用戶和服務器頒發數字證書,終端用戶注冊軟件,證書目錄集成,管理、更新和撤銷證書以及相關服務和支持的工具。基礎設施的主要組成部分包括[6]:核證機關,公開密匙基礎建設的基本組成部分,以發出和撤銷數碼證書;注冊機構,驗證頒發的證書和最終用戶身份的請求。
本文分析了中醫藥數據存儲與訪問的現狀,提出在大數據環境下相應存儲與訪問的策略,闡述了該系統具體采用的技術策略與算法方案。在數據加密壓縮存儲方面,對不同類型的數據做不同的分析與處理,使得加密效率與效果得到提升;在數據訪問方面,運用更新后的Openca庫與Openssl庫,使得數據訪問的安全性得到進一步提升??傮w而言,本研究為今后中醫藥大數據匯聚提供了一定的參考作用。