肖 璦 盧雅雯 呂智慧 吳 杰 祖立軍
1(復旦大學計算機科學技術學院 上海 200433)2(中國銀聯股份有限公司 上海 201201)
隨著現代社會高速的信息化和網絡化,各種應用、服務、網絡中產生的數據與信息都在以爆炸式的速度增長?,F在關于大數據的研究已是人們耳熟能詳的話題,大數據的收集、開發和利用,已經成為當今社會的潮流之一。事實上,大數據的分析應用對于政府或企業的決策有著非常積極的作用。
現在,生物醫療大數據給醫療衛生領域帶來了深刻的變革,其被廣泛應用在領域內的各個方面,包括電子病歷、決策支持系統、遠程醫療、個人健康管理、精準醫療[1]等,蘊藏著巨大的醫療價值和科研價值。我國對于生物醫療大數據的發展也很關注,頒布了各類文件支持生物醫療大數據的基礎建設。
生物醫療大數據在為人們提供高效、便利服務的同時,也帶來了一系列的挑戰[2]如隱私安全保障問題。相較于過去,大數據時代下的生物醫療大數據泄露的后果更為嚴重。例如,個人的身體缺陷、疾病情況,甚至是基因缺陷,都可能會使其在投保險求職時受到不公正對待。并且,隨著醫療信息系統的普及,患者就醫時被采集到的醫療信息包含了詳細的個人信息。數據泄露后,基于個人基本信息,可關聯到主體在金融、通信、交通等領域的信息,從而帶來嚴重的經濟、精神損失。
為了保障隱私安全,本文梳理了生物醫療大數據研究背景和保護現狀,并以生物醫療大數據的生命周期為基礎,對生命周期中各個階段的隱私安全保障行為進行規范。同時,基于OpenStack搭建了一個大數據云平臺來保障電子數據在云上的安全性。
醫療衛生領域每年都會產生海量的生物醫療數據,其數據規??蛇_到TB或PB級別[3]。這些生物醫療數據可被簡單地分為兩類:用于臨床醫療的醫療數據和用于科學研究的生物數據。其中用于臨床醫療的醫療數據主要為患者的診療檔案,包括了患者的個人基本信息、診療信息、影像報告、治療方案、藥物使用信息、手術記錄、住院信息等。而用于科學研究的生物數據則包含了基因數據、生物樣本、實驗記錄等。
通過對生物醫療大數據的收集、處理和分析,醫療人員的相關決策獲得了海量歷史數據的支持,疾病預防和診療的效率得到了提升。此外,生物醫療大數據還可用于疾病預防、藥物研究、基因分析、疫情監測、人體保健等領域。
但是,隨著生物醫療大數據平臺和技術的發展,相關隱私泄露事件頻發。生物醫療大數據的隱私安全問題面臨著重大的挑戰。醫療衛生行業的特殊性以及生物醫療數據的敏感性要求人們在快速發展生物醫療大數據的同時,也要加大對生物醫療信息隱私保護的重視。
我國對于生物醫療大數據的發展也是十分關注,有關生物醫療大數據的文件政策也是層出不窮。2014年,衛計委頒布了《基于電子病歷的醫院信息平臺技術規范》《基于居民健康檔案的區域衛生信息平臺技術規范》等文件。2015年,國務院頒布了《關于城市公立醫院綜合改革試點的指導意見》,并在《促進大數據發展行動綱要》中指出要在健康醫療領域全面推廣大數據應用,構建以人為本、惠及全民的民生服務新體系[4]。2016年,國務院頒布了《關于促進和規范健康醫療大數據應用發展的指導意見》;中國信息通信研究院頒布了《大數據白皮書(2016)》,并在其中描述了醫療領域大數據應用的進展情況及發展趨勢。2017年,國家開始施行《中華人民共和國網絡安全法》,將對信息安全的保護由行政法規層面逐步上升到了法律層面。2018年,國家衛健委頒布了《國家健康醫療大數據標準、安全和服務管理辦法(試行)》,對生物醫療數據的標準管理、安全管理、服務管理、管理監督四個方面進行了規范。2019年,《互聯網個人信息安全保護指南》正式發布,明確規定了個人信息的管理機制、技術措施、業務流程和應急處置辦法,進一步加強了個人信息的安全保護。這些文件內容覆蓋了醫院信息化、醫藥信息化、數據融合等領域,為生物醫療大數據的建設提供了強有力的支持。
生物醫療大數據中涵蓋了大量的個人隱私信息,為了降低隱私泄露的風險,需要對數據使用者和管理者的數據操作行為進行規范。本節以生物醫療大數據的生命周期為線索,對生命周期各個階段的數據安全保障進行研究并給出建議。
從生物醫療視角出發,基于張靜[5]對于大數據生命周期的定義,將生物醫療大數據的生命周期分為數據采集、數據存儲、數據訪問、數據應用、數據共享、數據銷毀這六個階段。
數據采集階段是大數據生命周期的第一個階段。在這一階段,個人的生物醫療數據被采集,為未來的數據處理和分析奠定了基礎。
個人生物醫療數據的采集手段繁多,包括個人資料填寫、醫生就診問詢、醫療設備收集、醫學研究志愿者自愿提供等。獲取的內容主要有個人基本信息、個人醫療信息和生物數據樣本。其中:個人基本信息包括姓名、電話號碼、家庭住址、婚姻狀況等信息;個人醫療信息包括病情、藥方、過敏史、患病史等信息;生物數據樣本包括血液樣本、基因樣本、生物組織樣本等。收集到的數據和樣本會被用于數據主體的臨床治療或醫療相關的科學研究。
收集數據時需要獲得數據主體的知情和同意。在獲取數據或生物樣本時需要以文字形式告知數據主體獲取的方式、內容和用途。若在獲取時不確定數據是否具有后續用途,需要獲得數據主體的動態知情同意,即每次數據用于新的用途之前,就要向數據主體說明,再次獲得數據主體的同意。必須要在獲得數據主體知情和同意的前提下才可以進行數據的采集工作,在數據主體不同意的情況下不應當采集數據或生物樣本。
在數據的采集過程中應當遵循最小化原則,避免收集無關目的的隱私數據,即收集的數據的類型和數量應與獲取目的有直接關聯。同時,收集隱私數據應有特別提示,在以書面或網絡形式獲取數據時需標明是否為隱私數據,以及必填/非必填項。
數據采集時也需要對數據進行簡單的處理,包括對采集到的數據進行核對與矯正。對于生物樣本,則需要及時貼好標簽,做好相應的標識以便與其記錄進行關聯。
進行數據采集的人員需要進行管理。其中涉及隱私數據采集的人員需要經過隱私數據安全培訓,并簽訂安全保密協議。接觸數據的人員不得篡改或記錄數據,不得保留數據備份、部分或全部生物樣本。
數據被采集后需要根據相應的要求進行存儲。海量的數據被集中存儲和管理,這要求我們保障數據存儲環境的安全性。
首先,需要明確存儲的對象。存儲的數據對象包括以紙質、網絡、醫療器械等方式采集到的生物數據和醫院、醫療相關研究機構獲取的生物樣本。存儲的目的是為數據主體后續治療或后續患病治療提供參考,也會為相似病例治療提供參考,部分會成為科研病例的素材。
其次,不同介質的數據會有不同的存儲手段。重要紙質材料應有專門房間妥善保存。經過采集和錄入的數據應存儲在數據庫中,存儲數據的服務器及其備份服務器等應放置在可靠安全的環境里。生物樣本應存放在適宜的環境下。
然后,存儲的數據也需要進行一定的處理。在隱私保護方面,需要對姓名、身份證號等關鍵追溯性信息做脫敏處理,對隱私數據設置隱私標記。信息安全技術個人信息安全規范中有規定:收集個人信息后,需要立即進行去標識化處理,并采取技術和管理兩方面的措施,將去標識化后的數據與可用于恢復識別個人的信息分開存儲,并確保在后續的個人信息處理中不能重新識別個人[6]。同時,數據保存應遵從時間最小化原則,即個人信息保存期限應為實現目的所必須的最短時間,超出個人信息保存期限后,應對個人信息進行刪除或匿名化處理。
另外,從數據管理的角度來看,數據存儲方應建立專門的數據管理系統來對獲取的生物數據進行管理。為數據管理系統所處網絡劃分不同的網絡區域,并按照方便管理和控制的原則為各網絡區域分配地址[7];對存儲數據的數據庫網絡進行防火墻等隔離手段,保證網絡隔離;定期進行數據備份(本地及異地),并做好容災方案。
最后,在管理人員方面,數據存儲方應為數據管理系統、存儲數據的機房、保存生物樣本的房間分配相應管理者,并明確其責任范圍。管理者需要經過隱私數據保護培訓并簽訂數據保護協議。同時需要建立數據管理制度體系,其中包括安全策略、管理制度、操作規程等[7]。
經過采集、存儲階段后,生物醫療數據已經可以支持簡單的醫療診斷行為,例如患者的醫療數據被醫護人員訪問查詢以便于治療方案的確定和實行。為了保障患者的隱私,降低信息泄露風險,訪問行為需要被約束和控制。
在訪問手段上,由于生物醫療數據在物理意義上可分為電子數據、紙質文檔、生物樣本,所以訪問手段也相對多樣。電子數據可以通過數據管理系統訪問,也可以直接訪問數據庫;紙質文檔和生物樣本則需要直接接觸和翻閱。
對于電子數據,應對訪問人員進行訪問控制和安全審計。訪問數據管理系統需要有合法身份,通過其身份對應權限進行訪問。訪問系統的合法身份在獲取其身份及對應權限前需要了解涉及隱私數據類型,并簽訂協議。非系統內人員如有正當理由需要訪問系統,需要進行審批,獲得臨時身份后訪問。
對于物理數據,訪問機房或存儲紙質文檔、生物樣本的房間需要進行審批,并對人員進出進行記錄。
應用階段是生物醫療大數據產生價值的重要階段。在這一階段,海量的數據被處理、分析和解釋,能有效地輔助醫療領域的決策制定。
應用數據的整個過程中都要獲得數據所有者的明示同意,即數據所有者對其個人數據的處理做出明確授權的行為,包括書面聲明等。在應用數據前,應獲得數據主體的明示同意。在應用數據的過程中,應用范圍不得超出數據收集過程中所聲稱的范圍,若超出上述范圍,需再次征得數據主體的明示同意。對收集的數據進行加工處理后產生的新數據應被認為是數據主體的生物數據,所以對新數據的使用也應獲得數據主體的明示同意。
在數據應用的過程中,需要對數據的操作、管理行為進行約束,有專人基于數據應用相關規章制度監管數據應用過程,負責數據使用的申請和審批。應消除數據中與研究目的無關的信息,使數據無法追溯到主體;應采取權限控制技術,使不同領域的人員僅獲取其領域所需的生物醫療數據,降低數據竊取的可能性;應保障對數據進行分析、挖掘后產生的新數據[8]的安全性;應控制數據的流動,限制數據的使用范圍,使數據不進入保險、保健等盈利行業;應保障數據可視化過程中的安全性,使個人的信息不被公開泄露。
隨著共享信息平臺的建立,各行各業都開始嘗試進行數據的共享,醫療行業也不例外。特別在臨床醫療領域內,患者通常會到不同的醫院治療疾病,這時,個人生物醫療數據就可以在不同的醫院中進行共享。此舉消除了數據的孤島,讓醫生的診斷決策有更堅實的基礎。數據共享在為醫療領域帶來便利的同時也增加了隱私泄露的可能性。 數據共享雙方都應嚴格規范自身的數據共享行為,防止惡意人員獲取共享數據。
共享的數據內容主要包括各醫療機構之間相互協作進行臨床治療所需的醫療數據和各科研機構用于醫學研究所需的生物數據。數據共享的方式主要包括線下方式的數據共享;基于共享數據庫的在線數據共享;基于請求和反饋的數據共享。
為了保障傳輸過程中的數據安全,出于研究目的傳輸的數據應進行匿名化、去標識化處理,讓數據無法追溯到個體;線下共享數據時應采取措施保證傳輸過程的安全性;線上傳輸數據時應采用文本、圖像加密等技術保證數據的完整性和保密性。
在使用共享數據時,共享數據接收方應將共享數據與接收方原有數據隔離存儲,并基于最小授權原則對接收的數據進行訪問控制、提供身份鑒別服務,也應對共享數據的操作行為進行安全審計,并保留審計記錄。
需要有第三方機構對共享數據發送方和共享數據接收方的數據共享行為進行管理。第三方機構應制定數據共享相關規章制度和文件,執行并落實相關的管理制度,監管數據共享行為。
共享數據雙方應配合第三方機構的指導和監管,遵循數據共享的相關流程規定,不應私自進行數據共享。共享數據發送方應保證發送數據的真實性,不得篡改數據;當共享時限到達后,共享數據發送方應檢驗共享數據接受方是否歸還共享樣本、是否刪除共享數據。共享數據接收方人員不得私自獲取、復制、更改、存儲共享數據;當共享時限到達時,共享數據接收方應歸還共享樣本并刪除共享數據。
數據銷毀階段是數據生命周期的最后一個階段。所有的數據都有時效性,收集到的生物數據在患者康復、研究結束或數據到達保存期限后應被銷毀。
數據的銷毀可分為數據刪除和實物銷毀。數據刪除對應于電子數據的刪除,需要采取一定的措施防止他人通過技術手段恢復存儲設備中的生物數據,例如亂碼數據覆蓋、設備格式化等。實物銷毀對應于紙質文檔、存儲設備、生物樣本的銷毀,其中:存儲設備應采取永久消磁或徹底銷毀手段進行處理;紙質報告應進行粉碎處理;樣本應按照相應規章制度進行處理。
各機構需要在數據保存期限到達后銷毀數據。其中:對生物數據進行處理、計算后的衍生數據應設有保存期限,到期后應刪除;共享數據到期后應刪除;生物樣本等實物到達保存期限或不能使用后應銷毀;數據主體在機構違反法律法規或與數據主體的約定時,要求機構銷毀個人數據時,機構應刪除數據并銷毀對應實物;機構停止運營后應刪除所有生物數據并銷毀對應實物。
各機構的數據銷毀人員也應遵循相關的規定,不應保留、復制銷毀數據,應檢查銷毀結果,若有遺漏則再次銷毀。
本文基于OpenStack初步建立了一個大數據平臺,提供了電子數據的安全保障管理環境。
本平臺為每個業務系統建立專用的虛擬資源空間,使之在相對隔離的環境中可信、高效地運行,并可按需靈活調整。具體功能包括:平臺物理資源調度和管理、虛擬運行環境的自動化配置和交付、平臺性能監測和優化等。
除此之外,為了保障平臺和平臺中各系統的信息安全,如圖 1所示,本平臺采用基礎平臺安全防護,基于虛擬化的安全隔離、安全初始化及交付、接入控制、安全審計監控、多粒度訪問控制等機制,建立安全保障體系,為平臺和系統的運行提供安全服務。

圖1 平臺安全服務部署情況
本平臺的基礎平臺安全防護采用了控制平臺和業務平臺相對分離的思路??刂破脚_完全對外隔離,僅連接平臺的物理資源;業務平臺是構筑于控制平臺之上的虛擬化平臺,可對外連接。控制平臺與業務平臺間的連接將受到嚴格控制,安全防護的重心將放在控制平臺。針對控制平臺,我們根據網絡、主機、存儲設備的具體規劃,采取相應的安全防護機制,包括外網部署防火墻、內網劃分獨立網段、采用統一身份驗證和授權管理、關鍵通道入侵檢測設施等。
基于虛擬化的安全隔離為每個虛擬機分配專用的計算、存儲和網絡資源,可防止殘余數據的利用,消除側信道。安全初始化及交付階段采用隨機化因素改變虛擬空間的缺省安全機制配置,并通過安全的通道和環節將相關的認證因子進行交付。
接入控制部分提供身份認證和授權管理服務,采用安全接入機制使授權用戶進入系統,防止非授權用戶對平臺和系統造成損害。
安全審計監控實現多層次監測數據的關聯分析,并向用戶提供對監測數據的查詢和分析服務,實現安全審計。用戶通過安全審計和監測服務,可實現對相關事件的溯源。
多粒度訪問控制機制能實現對多樣化數據資源的保護。生物醫療大數據類型駁雜、體量巨大,難以采用統一的數據訪問控制機制,因此本平臺采用了多粒度的訪問控制,對資源類型和資源實例進行權限管理。
業務系統在上線運行后會面臨各式各樣的數據安全挑戰,相應的安全防護措施是必不可少的。本平臺為電子數據安全保障提供了必要的安全服務,降低了信息安全風險。但對數據的攻擊手段是不斷變化、不斷發展的,因此,本平臺會在未來繼續完善數據保護措施,使電子數據保護方案更加完備。
當下我國醫療衛生領域在生物醫療大數據的使用方面尚未形成標準的規范,這導致數據的安全保障管理方面存在很多風險。本文則以數據的生命周期為基礎,面向數據使用者和管理者,給出在數據采集、存儲、訪問、應用、共享、銷毀等階段的隱私安全保障建議。希望能以此為基礎形成生物醫療大數據監管規范框架并撰寫數據共享的保障監管規范。
同時,本文建立了一個基于OpenStack的大數據平臺,為數據系統的運行提供了安全的防護,保障了電子數據的安全。