劉 爽 馮 時 郭 昊 盧瑗瑗 弓孟春 吳開春
(中國醫學科學院北京協和醫院北京100730) (神州數碼醫療科技股份有限公司 北京100020) (空軍軍醫大學西京消化病醫院 國家消化系統疾病臨床醫學研究中心 西安710032) (中國醫學科學院罕見病研究中心 北京100730) (空軍軍醫大學西京消化病醫院 國家消化系統疾病臨床醫學研究中心 西安710032)
大數據是指因體量龐大、結構復雜而難以通過傳統方式分析及處理的數據[1],具有數量龐大、數據流高速及類型豐富3個核心特征[2]。醫療領域涉及的大數據主要是臨床、醫學影像以及包括基因組、轉錄組、蛋白組、微生物組、暴露組等在內的多組學數據,其廣泛應用是實現醫學模式轉變的必要前提和核心動力[3]。近年來生物醫學數據總量日漸龐大、結構趨于復雜,如何有效利用這些醫療大數據成為重要的機遇和挑戰。真實世界證據(Real-World Evidence, RWE)是指通過分析多種來源的現實醫療數據而獲得的證據,數據來源包括電子健康檔案(Electronic Health Records, EHR)、賬單、移動設備收集的健康信息等[4]。真實世界研究(Real-World Study, RWS)強調研究數據的獲取環境,在研究方法和實驗設計上與傳統方式并無本質區別。與隨機臨床試驗(Randomized Clinical Trials, RCT)相比,RWS來自真實臨床情景,具有證據外推性好、可用數據量大、研究易于開展的優勢,是RCT的重要補充。基于海量真實數據,RWS可能幫助研究者發現臨床實踐與現有證據之間的差距,開展人群干預研究,實現改善整體治療及預后的目的[5]。近年來大數據在醫學領域的應用逐漸深入,為真實世界研究的開展提供支持。本文旨在對當前醫療大數據在真實世界研究方面的應用現狀及前景進行綜述。
在PubMed數據庫中對醫療大數據相關文獻進行檢索,不限定檢索年限,共檢索出有價值文獻672篇。檢索策略為: (million[Title/Abstract])AND ((((((((((big data[Title/Abstract]) OR health record[Title/Abstract]) OR medical record[Title/Abstract]) OR personal health record[Title/Abstract]) OR electronic medical record[Title/Abstract]) OR personal medical record[Title/Abstract]) OR digital medical record[Title/Abstract]) OR digital health record[Title/Abstract]) OR real world evidence[Title/Abstract]) OR real world data[Title/Abstract])。通過閱讀相關領域綜述補充文獻20篇,在此基礎上篩選出利用醫療大數據進行的真實世界研究。文獻篩選流程,見圖1。醫療大數據支持真實世界研究的文章發表數目近年明顯增加,見圖2。研究方向,見表1。

圖1 文獻篩選流程

圖2 1983-2018年間醫療大數據(百萬級)相關文獻發表情況

表1 1983-2018年間醫療大數據(百萬級)相關真實世界研究用途匯總
RCT研究是建立因果關聯、評估治療手段安全性及有效性的金標準,通過隨機、對照、盲法原則構建臨床試驗的理想場景,有效控制可能干擾結果的混雜因素,從而實現結論的高度內部有效性[6]。然而真實臨床場景與RCT差異較大,RCT的結論只適用于特定人群及環境,其外推性受到很大限制,難以指導真實世界中更為復雜的醫療決策場景。與RCT相比,來源于臨床實踐的醫療大數據為研究者提供多維度、高通量的數據支持,有助于產生外部真實性高的臨床證據。
RCT研究常通過嚴格的納排標準保證研究人群的同質性,且在人群選擇方面受到預期效果、組織管理、倫理等諸多方面的限制,往往會排除年齡過小或過大、病情較重、合并其他臨床病癥的患者[7]。這部分患者長期處于臨床研究的“盲區”,缺乏有證據支持的治療方案以及接受新型治療試驗的機會。以腫瘤學研究為例,一般狀況差、既往有惡性腫瘤病史、合并器官衰竭、腦轉移的患者往往會因預期效果差而被傳統RCT拒絕[6],RWS可以將傳統研究未能納入的患者納入觀察范圍,更為全面地評估特定藥物/治療方法的有效性和安全性,從而實現拓展適應癥、指導臨床決策的目的[8]。
真實世界臨床情景的復雜性導致研究證據與臨床應用之間往往存在差距。RCT可以證明某一藥物或治療在特定情境下的有效性,但在臨床實踐中仍有諸多問題存在爭議。美國食品藥品管理局(Food and Drug Administration, FDA)在衡量新藥療效及安全性時提出證據整體性這一概念,強調任何一項研究證據都并非孤立存在,而是建立在其他知識的基礎之上[9]。RCT是藥物/治療上市的前提,而RWS則可作為RCT的有效補充,在更廣泛的人群范圍、更多樣的臨床情景和更長的時間維度上評估其有效性和安全性,優化證據的整體性。
RWS除強調數據來源于醫療機構、家庭、社區等真實醫療環境外,在研究方法和試驗設計方面并無規定[4],可以根據數據類型和研究目的設計適宜的研究方案。現有的RWS主要基于EHR或注冊數據庫,多采用回顧性研究設計,無需像RCT一樣投入大量人力、物力、財力及時間。對于臨床試驗而言,真實世界證據有助于確定可實現預期檢驗效能的最小樣本量,節約臨床試驗開展時間,提高證據獲取效率。以TRANSFORMS、FREEDOMS和FREEDOMS II 3項研究為例,將RWS證據納入分析模型后得出的樣本量,比只引入RCT證據得出的樣本量減少40%以上,可節省至少6個月的研究時長[10]。此外真實世界數據還可作為單臂研究的外部對照,有助于決策者更好地解讀已有臨床研究[6]。

表2 醫療大數據應用于真實世界研究的主要挑戰
4.1.1 信息化部署 醫療大數據的處理包括采集、標準化、存儲、調用、融合分析等多個維度[11],合理部署信息化基礎設施是應用醫療大數據的前提。高度結構化的電子病歷系統和嚴格質控下的生物樣本庫作為基礎設施,是臨床表型數據和多組學數據的基礎。在此基礎上多維度原始數據通過機器學習等方法進行融合分析,由數據集轉化為新知識,從而為臨床及基礎研究提供源源不斷的高質量數據。另一方面,由于單個中心逐漸難以滿足RWS對數據體量的要求,構建臨床研究網絡近年來應用日益廣泛。然而識別適宜的合作單位、構建高效運轉的數據存儲及共享體系較為復雜。此外隨著新生物標志物的發現和患者自報結局(Patient-Reported Outcomes, PRO)的提出,新的數據類型不斷產生,需要持續整合到現有的信息部署體系[12]。
4.1.2 大數據處理對醫學信息學技術提出更高要求 單純的數據意義有限,關鍵是要開發一套標準的提取、轉化、加載架構,使醫療大數據能夠進行整合分析[13]。首先,數據規范采集是后續共享、集成的基礎,涉及語義標準化(基于醫學本體系統)、信息互操作性(基于信息交換標準)、文本信息提取(基于自然語言處理)、多組學數據整合分析等多方面的技術要求。其次,對多維度數據進行融合分析是進一步利用的關鍵,需要在數據調用(基于搜索引擎和跨庫檢索)和整合(基于機器學習、多組學分析等)技術方面實現突破。此外信息安全和隱私保護也是醫療大數據應用中的重要問題,涉及去識別化處理和存儲安全兩個維度,要求在個體隱私保護和數據價值挖掘之間實現平衡[14]。
4.1.3 醫療大數據尤其是基因組學數據應用對倫理學提出挑戰[15]RWS相關倫理審查原則和規范仍在發展之中,但項目開展之前應接受獨立的倫理審查,將此作為整體研究質量的重要指標[16]。RWS開展過程中面臨的主要倫理問題包括:如何處理臨床實踐與科學研究之間的關系,評估患者參加研究的風險與獲益,以恰當的方式獲取患者的知情同意,保證數據獲取與傳輸過程中的信息安全等[17]。其中知情同意是多維度數據提取及分析的基礎,是RWS規范開展的關鍵,需根據具體研究設計在恰當時機使患者充分知情大數據研究的潛在倫理風險。
4.2.1 研究設計 合理開展研究是充分利用醫療大數據的關鍵。RWS開展過程中需要盡可能控制真實世界中的各種偏倚,從而提高研究結論的內部有效性。研究設計階段的關鍵在于提出具有切實臨床意義的研究問題,選擇相關性好且體量足夠大的數據集進行驗證[12]。然而真實世界數據來源于預先設計的數據采集系統,未必與待研究問題直接相關,且數據完整度及準確性難以預先核實,這為RWS的研究設計帶來困難。
4.2.2 研究實施 該階段的主要挑戰是真實臨床情景中存在復雜多樣且難以控制的偏倚,包括選擇、信息、實施、測量、失訪偏倚等[18]。如何保證研究數據質量,盡量減少偏倚,是RWS實施過程中的一大挑戰。此外如何實現不同單位間的數據共享也是研究實施過程中的切實問題。
4.2.3 研究發表 主要問題在于結果的模糊報道和選擇性發表。據報道僅有少數上市后研究得以發表[19],而大量臨床問題未經真實世界數據檢驗或是未能公之于世。未來可能需要實行更為嚴格的研究報告制度,保證研究設計、數據分析和結果解讀過程的透明度[20]。學術界有必要對RWS使用的數據及方法進行深入研究,從而發現現有研究開展過程中的潛在缺陷,更好地指導研究者利用真實世界數據[5]。
隨著大數據在醫學領域應用逐漸深入,類型豐富、用途廣泛的真實世界研究進入快速發展階段。與隨機臨床對照試驗相比,真實世界研究具有外部真實性高、目標人群廣泛、證據整體性強、獲取證據高效的優勢,是傳統研究形式的有效補充。現階段基于醫療大數據的真實世界研究在基礎架構和具體開展方面仍面臨諸多挑戰,需要在制度建設和技術手段兩個層面進一步尋求突破。