肖瑞珠,李磊,王孟,姜勇,郭敬鵬,朱皞罡
目的 腦血管病是我國主要的慢性非傳染性疾病之一,其診療服務形成海量的醫療數據,數據的安全應用與管理是亟待解決的問題,基于區塊鏈的數字身份技術具有去中心化、多方共識、公開透明、防篡改和可溯源等特征,給腦血管病的數據管理與應用提供了優化的工具。本研究旨在探索基于區塊鏈數字身份在腦血管病醫療數據臨床研究中的應用架構。
方法 采用區塊鏈技術,通過發行者、控制者、解析者、證明者和個人身份數據賬戶等角色,實現腦血管病醫療數字身份進行去中心化。研究選取了200個測試用戶,對建立的模式進行基于數據交換和醫療影像數據的測試。
結果 基于數據交換的測試中,對于單用戶,職責目錄的保存并返回保存頁面平均響應時間為1.261 s,職責目錄查看的平均響應時間為0.08 s,提交數據目錄并返回頁面的平均響應時間為1.269 s。基于區塊鏈及數字身份的醫療影像數據交換系統在測試期間運行穩定,在網絡中斷再通后能自動恢復對外提供服務。基于醫療影像數據場景中,寫入通量為9090次/秒,平均響應時間為14.98 s,平均每秒遍歷9012條數據。可靠性檢查結果較好,容錯能力達到1/3節點。
結論 基于區塊鏈的數字身份能夠保障數據安全、促進數據共享流通,在腦血管病的診療和管理領域有較好的應用前景。
腦血管病是嚴重威脅我國居民健康的慢性非傳染性疾病之一,2019年我國約有2800萬存活的腦血管病患者,腦血管病的年門診人次和住院人次分別達1.2億和448萬,產生了包括疾病診療、檢驗和影像等方面的海量數據信息[1-2]。這些醫護人員在醫療機構診療活動時所形成的腦血管病患者醫療健康相關數據信息,在患者知情同意后,由醫院醫護人員及相關職能科室采集、制作與存管。臨床醫療數據經系統治理后可用于評估醫療與醫院管理水平,同時成為開展臨床真實世界研究的重要數據來源,是國家基礎性戰略資源——健康醫療大數據的重要組成部分。如何配置在臨床醫療數據生產過程的不同角色,構建醫療數據并應用于臨床研究,已經成為健康醫療大數據應用的關鍵環節之一。科學系統地解決醫療數據知情、生產、管理、使用以及獲益分配等醫療與臨床研究過程中的關鍵要素,及其所對應的患者、醫師、醫療與科研管理部門和臨床研究者的身份標識,是促進臨床醫療數據高效、可溯源、公平與安全應用的關鍵[3]。
區塊鏈技術目前已逐步用于多中心醫療機構數據的互聯互通,具有去中心化、多方共識、公開透明、防篡改和可溯源等特征[4]。將區塊鏈技術與數字身份結合能夠實現醫療相關用戶信息隱私保護,為數字身份安全轉型與發展提供了可能性。數字身份是一組可驗證的屬性和證書的新型數字化身份標識,用于證明網絡中個人、機構、電子設備、應用程序等代理實體,它克服了傳統數字身份技術存在隱私泄露、使用效率低、便攜性差等問題,已在工業、互聯網、電力、金融等領域逐步開始應用。
本研究擬利用區塊鏈數字身份認證的數據可確權、文件可追蹤、隱私可保護等優勢,以腦血管病醫療數據應用于臨床研究為模板,探索區塊鏈數字身份在腦血管病醫療數據臨床研究中的應用架構和可行性。
1.1 醫療數字身份系統構架、角色劃分及屬性
1.1.1 醫療數字身份的系統構架 將醫療數據生產、管理與使用等過程利用數字身份進行角色劃分,將數字身份的生命周期進行充分解耦,使各個功能角色之間相對獨立,最小化交互界面,建立數據生產與使用流程的協同規范。各個角色根據監管、性能、安全等需求,分別設計了各自的架構,并且實現為獨立的系統與服務,支持橫向擴展,以降低系統性風險和建設與維護成本。系統技術架構見圖1。

圖1 醫療數字身份系統技術架構
1.1.2 醫療數字身份的角色劃分 醫療數字身份技術架構兼顧中心化與去中心化的優勢,通過角色劃分實現上層監管中心化以及下層應用去中心化,共由5個角色組成(圖2)。

圖2 醫療數字身份系統整體設計方案示意
發行者:發行者代表身份管理的最高權限,實現與國家網上身份認證基礎設施和醫療數字身份應用支撐系統的交互,與控制者通過載體進行認證的交互以及與個人身份數據賬戶系統進行數據同步。
控制者:控制者是醫療數字身份的控制主體,多數情況下為用戶本人及其數字身份載體。為簡化系統復雜度,醫療數字身份在用戶端采用無密鑰設計,與發行者間的交互依靠生物特征或秘密證明。控制者負責管理與發行者間交互的秘密以及數字身份使用的知情、授權。后臺采用中心化設計,前端為個人應用客戶端。
解析者:解析者是醫療數字身份驗證與應用的交互主體,負責解析應用端醫療數字身份需求(產生驗證查詢),向發行者返回身份驗證需求或向證明者返回醫療數字身份屬性證明的解析,是醫療數字身份對應用服務的界面,承載了醫療數字身份應用多樣性與擴展性的職責,對性能要求較高。
證明者:證明者是醫療數字身份數據證明的方案,采用基于密碼學的數據源證明、數據目錄索引、算法路由和安全計算環境等技術,實現可信的匿名數據源證明,構建覆蓋醫療各系統的數據協同網絡,實現異地、異主、異構數據的可信、安全協同與共享。
個人身份數據賬戶:以塊數據為基礎數據平臺,負責塊數據與外部異構數據的接入、匯集、融合、治理、同步,形成個人身份證明數據資源池。采用中心化、分布式、區塊鏈等技術對數據進行整合,提供標簽化數據目錄,將數據項與個人身份數據賬戶索引進行關聯(身份歸檔),并對相關塊數據進行身份標識,提升塊數據精準服務能力。
1.1.3 醫療數字身份的屬性 醫療數字身份包含2部分:靜態編碼與動態屬性。靜態編碼包括國家公安機關發放的法定網絡身份(cyber trusted identity,CTID)、醫療系統身份碼以及身份發放時間、數字簽名等與物理身份相關的編碼與數據,共364字節。動態屬性為應用定制部分,應用可通過醫療數字身份提供的屬性驗證語言,在個人知情授權下由數據源機構提供實時證明。
1.2 基于區塊鏈數字身份的腦血管病模型和構架 利用區塊鏈數字身份及相關技術,提出一種去中心化的腦血管病科研管理系統,應用于腦血管病醫療數據的臨床研究管理,構建腦血管病醫療數據保密、管理、使用、共享、分配的實施方案。該場景中主要研究主體有4類:①腦血管病患者。患者簽署知情同意后授權使用個人數字身份賬戶,并通過標記數據,確定患者數據來源及接診意識。②醫務工作者。醫務工作者是醫療數據的生產者,在患者數字標簽上標注醫師身份信息,通過醫師的數字身份確定數據來源,用于后續數據采集、分析與共享等臨床醫療與科研管理過程。③醫院醫務、信息、科研處和倫理等部門的管理者。管理者通過醫師和患者的數字身份管理臨床醫療數據,清理后形成的臨床研究的科研數據,確保數據可確權、文件可追蹤、隱私可保護。④臨床研究者。研究者負責臨床研究問題的提出與臨床科研數據的分析和使用。
當臨床研究者向醫院相關部門的管理者發起數據應用申請時,醫院科研管理部門向數據標注醫師申請授權。經患者、醫師雙授權的數據才能分配給臨床研究人員進行使用。醫院和科研人員需要根據醫師提供數據的數量和質量確定醫師在科研過程中的成果分配排序與比例。整體平臺部署在云平臺上,各模塊內部通訊采用電子認證下的加密信道,同時為各角色配置公私鑰,對請求與回傳信息進行簽名。面向個人用戶、數字空間應用、異構數據源、管理用戶4類服務對象,分別提供個人身份管理服務、應用支撐服務、數據證明服務以及平臺配置與總控服務。
以計算“住院期間腦梗死患者血管評價率”為例(圖3),此計算首先需要寫成符合規范的“智能合約”,合約中要明確:①醫師、患者是否授權;②計算所涉及的數據路徑(如圖3中,A=過程指標:住院期間腦梗死患者血管評價,住院期間完善頸部血管評價的例數,B=過程指標:住院期間腦梗死患者血管評價,患者住院期間完善顱內血管評價的例數);③計算公式,圖3中的C=(A∪B)/腦梗死患者數,其中C即住院期間腦梗死患者血管評價率;④合約返回值,即C。

圖3 基于區塊鏈數字身份的腦血管病應用模型和構架
合約編寫完成后,將執行合約,此時需要向個人數字身份賬戶調用數據,個人數字身份賬戶中會建立數據對象,數據對象包括數據路徑(與應用的合約達成約定)及獲取數據的應用程序編程接口(application programming interface,API),合約所需要的數據會通過調用API從不同數據源獲取。
在經過個人數字身份賬戶進行數據調用時,數字身份管理系統結合區塊鏈系統將會永久記錄數據的權益、數據的使用流程等信息,完成數據權益歸屬、數據使用追溯等功能。
數據在患者就診時產生,經過醫師的標記、整理、歸納等將數據存入院內數據庫,供應用方使用。
2.1 基于數據交換的測試結果 本研究從雄安新區區塊鏈系統選擇200名相關注冊人員進行系統的效率和可靠性測試。
2.1.1 系統架構 該系統采用B/S架構,數據平臺端服務器、智能合約服務器、Switch-Node服務器和交換節點服務器均采用CentOS 7.4操作系統,中間件采用Tomcat 8.0,數據庫采用MySQL 5.7、Redis 4.0;測試客戶端采用Windows 10版操作系統,瀏覽器采用Chrome 76.0,網絡帶寬為100 Mbps。
2.1.2 性能效率 用戶注冊數字身份,單用戶性能測試結果如下(其中平均響應時間均為事務的平均響應時間):職責目錄的保存并返回保存頁面,平均響應時間為1.261 s;職責目錄查看,平均響應時間為0.08 s;提交數據目錄并返回頁面,平均響應時間為1.269 s;8500條數據的數據目錄查詢,平均響應時間為0.104 s;數據目錄查看,平均響應時間為0.088 s;提交數據庫目錄并返回數據庫列表,平均響應時間為1.037 s;庫目錄查看,平均響應時間為0.582 s;提交表目錄返回庫表目錄列表頁,平均響應時間為0.790 s;8500條數據的表目錄查詢,平均響應時間為0.120 s;表目錄查看,平均響應時間為0.087 s;遠程源數據庫對已上鏈的庫表字段修改,操作結果同步到系統中時延為7.942 s;遠程源數據庫對已上鏈的庫表字段刪除,操作結果同步到系統中時延為7.942 s;遠程源數據庫中對已上鏈的庫表字段進新增,操作結果同步到系統中時延為3.97 s;使用可視化方式創建不帶算法的數據合約,平均響應時間為0.572 s;使用本地上傳方式創建不帶算法的數據合約,平均響應時間為0.230 s。
2.1.3 可靠性 系統在測試期間運行穩定。在斷網情況下,系統可提示網絡連接異常,恢復網絡后可自動恢復對外提供服務。各業務系統對用戶的操作順序、輸入的數據進行正確性檢查,能以醒目方式提示錯誤信息。
2.2 基于醫療影像數據的測試
2.2.1 系統架構 被測系統采用B/S架構,服務端按3個醫療區域進行了劃分,醫療區域1包含3臺影像存儲服務器,1臺影像分析服務器,1臺多專家標注服務器,1臺虛擬宿主服務器,3臺節點服務器;醫療區域2包括1臺影像存儲服務器,1臺虛擬宿主服務器,3臺節點服務器;醫療區域3包括1臺影像存儲服務器,1臺虛擬宿主服務器,3臺節點服務器。各影像存儲服務器使用CentOS 7操作系統,安裝了Hadoop 2.7.7及MySQL 5.7.25以實現數據的分布式存儲,虛擬宿主服務器使用Proxmox VE 5操作系統;節點服務器均為虛擬機,使用Ubuntu 18.04 LTS操作系統,安裝了Golang 1.10、Docker 19.03、dcm4che 5。測試機采用Ubuntu 18.04 LTS操作系統,使用Firefox 69.0.2瀏覽器通過局域網訪問被測系統。
2.2.2 性能效率 測試數據歸檔與數字身份賬戶中,向被測系統寫入5000條數據后確認建塊,平均時延為0.55 s,寫入通量為9090次/秒。在135 000條數據中進行查詢,平均響應時間為14.98 s,平均每秒遍歷9012條數據。分別為63 959個醫療影像進行特征抽取,平均時延為19 ms。進行18次單個醫療影像抽取特征向量,平均時延19 ms,對單個數據索引后進行查詢,查詢平均時延為4 ms。
2.2.3 可靠性 在部署了6個節點的系統中,將2個任意節點退出,系統可以正常運行,節點恢復連接后,可以自動同步數據,滿足部署6個節點的區塊鏈系統,容錯能力達到1/3節點。
目前,國際上主要數字身份的設計是依托于電子化載體,以提高傳統身份驗證的安全性與便捷性。而基于互聯網應用的數字身份由于得不到法定身份的支持,設計上只能假設身份服務的不可信,不得不采取高成本的用戶級別去中心化的方案。同時,在數字空間中,身份與數據體系的融合在現有技術框架下,面臨信任成本高、流通成本高以及無法規模化服務的問題。本研究中醫療數字身份兼顧了法定身份和互聯網應用的雙重需求,以中心化與去中心化結合的創新架構,融合身份與數據體系,在身份互信、數據互通、應用互聯上提出創新技術體系與解決方案。
目前,區塊鏈技術的應用已經廣泛延伸至智能制造、數字金融、物聯網等多個領域,去中心化、非對稱加密、共識機制和智能合約機制使區塊鏈技術在醫療數據安全儲存和共享等方面得到全面的發展和應用[5-6]。首先,在醫療數據領域,傳統醫療數據受到時空限制,難以迅速、大規模傳播和共享,可能延誤對患者的診療,傳統數據的傳輸方式也易造成數據泄露[7]。區塊鏈技術可實現對數據隱私的保護,提高數據的傳輸效率,保障數據的安全。其次,在醫藥和醫療器械領域,傳統物流溯源受到系統服務器、數據庫等中心化單元的限制,數據易篡改且難溯源。區塊鏈技術通過為物品添加不可篡改的驗證標簽保證供應鏈安全,從而減少假藥和劣質器械方面的漏洞,方便相關監管部門全程跟蹤監測,從而保障醫療領域的健康秩序[8-9]。再次,在醫學研究方面,傳統醫學研究中數據量大、數據共享和流動較大,區塊鏈技術可將醫學領域多中心的患者數據整合歸納,保障數據安全,降低醫學研究的成本,促進醫學成果的轉化。最后,在數字身份認證方面,區塊鏈通過信息交互完成目標身份確認,其去中心化特點可以使多個組織共同協作,為實現跨層級、跨部門的醫療領域身份認證和數據互聯互通提供了可能[10]。
數字身份經歷了集中式數字身份模型、聯邦式數字身份模型和區塊鏈數字身份模型3個發展階段。集中式數字身份模型是傳統數字身份模式,模型中每家醫院均有獨立的注冊和認證系統,數字身份簽發人和證明人均是獨立的醫院。這種模式能夠解決單一領域的身份認證問題,但是這種數字身份證明過度依賴身份簽發者,且不支持數字身份跨醫院互認。聯邦式數字身份模型中,區域中心醫院利用其業內優勢建立單點登錄的認證系統,同時支持嵌入第三方醫院系統,為第三方醫院提供代理認證服務,例如區域內醫聯體。聯邦式數字身份模型的簽發人和證明人也是同一機構,但其還作為身份代理為第三方機構的憑證持有人和服務者提供代理身份認證服務。該模式解決了傳統集中式數字身份模型身份系統建立過多、對用戶不友好等問題,但不能解決身份跨機構互認問題,難以實現服務協同。新型的區塊鏈數字身份模型利用其去中心化特性,解決了身份所有權、安全性及身份跨域互聯互信的問題。在這個模式中,身份簽發人和證明人分屬不同機構,區塊鏈技術保證流程信息一致不可篡改,實現身份跨機構互認和服務協同。醫療數字身份在實現技術與實現功能上有以下亮點:①零信任驗證。醫療數字身份可以在零信任的環境中進行驗證與應用交互,有效地降低了信任成本。與傳統應用方式收集大量用戶個人信息不同,醫療數字身份為上層應用提供可定制化的個人身份與身份屬性(如年齡、居住區域等)匿名驗證服務,在不透漏個人數據的前提下向應用提供必要的身份與屬性證明。同時向應用提供匿名個人標識,以數字身份貫穿互聯網應用。②零拷貝賬戶。醫療數字身份個人身份數據賬戶采用“零拷貝”技術,可有效降低數據流通成本。對個人身份證明數據源的接入與使用實現了在不做數據物理遷移的前提下,對計算進行路由并對數據源進行密碼學證明,實現個人數據使用的“零拷貝”,為安全隱私前提下的身份服務提供新的個人身份數據賬戶體系結構。③零賬戶應用。醫療數字身份為互聯網應用提供根賬戶服務,實現應用規模化接入。醫療數字身份為每個互聯網應用分發個人的唯一匿名標識以及相應的身份與身份屬性驗證,協助應用建立與根賬戶對應的內部賬戶體系,同時在個人用戶端實現應用的“無賬戶登錄”,為更廣泛的個人數據體系建設提供奠定基礎。
基于區塊鏈的數字身份在腦血管病醫療數據科研管理中的應用具有以下優勢。首先是能夠保障患者和醫師的隱私。既往醫療數據存在信息泄露和濫用的風險,基于區塊鏈的數字身份能夠將患者和醫師的隱私數據轉化為去身份化和碎片化的個人標記,從而避免數據泄露,保障隱私安全。隱私數據的使用在通過患者知情且授權的情況下合理、合規使用。其次可以提高腦血管病醫療質量,同時能夠保障醫師在科研活動中的權益。醫護人員及醫療機構的身份認證能夠影響醫療質量水平,基于區塊鏈的數字身份技術,能夠保證結構化的電子病案系統的真實性,能夠溯源防止篡改,從而有效地記錄并監管醫師的診療行為,認定服務責任主體。同時,由于每一條患者數據均進行了醫師身份標注,患者數據被使用時,需要患者、醫師雙授權,從而防止數據濫用。最后,可以服務于醫院管理者,優化醫院科研管理流程。基于區塊鏈的數字身份能夠應用于科研績效管理和數據共享等方面,促進信息互通共享。目前在科研績效和數據共享方面,更依賴于研究中心或區域中心的認定。基于區塊鏈的數字身份去中心化、不可篡改的特性使多中心研究中科研績效認定和數據共享有更加明確的依據,在保障數據安全的情況下,使大數據使用更加開放、流通、公平,因而能充分提高科研人員積極性。
數字身份由身份標識、身份屬性和身份交互構成。身份標識由字符構成唯一身份代碼;身份屬性是與身份標識關聯的一組斷言,如住院信息、病案信息等;身份交互是分布式通信協議,通過區塊鏈智能合約統一行動規則達成共識[6]。目前基于區塊鏈的數字身份技術在金融、政務、民生等領域已經取得良好效果,但是該技術還未深入應用到腦血管病等醫療相關領域,急需出臺相關政策規定并制定行業標準,加強技術研發和產品驗證推廣,以充分發掘基于區塊鏈的數字身份技術在保障醫療數據安全、促進數據共享流通中的應用價值。