李 晨, 黃麗紅, 邱婧君, 王 陵, 秦偉棟, 汪旻暉, 趙 楊, 柏柳安寧, 夏結來*
1. 空軍軍醫大學軍事預防醫學系軍隊衛生統計學教研室,西安 710032 2. 復旦大學附屬中山醫院生物統計室,上海 200032 3. 北京復星醫藥科技開發有限公司,北京 100005 4. 皖南醫學院弋磯山醫院藥物評價中心,蕪湖 241000 5. 南京醫科大學公共衛生學院生物統計學系,南京 211166 6. 空軍軍醫大學航空航天臨床醫學,西安 710032 7. CSCO生物統計學專家委員會RWE項目組
近年來,現實世界數據(real-world data, RWD)在醫藥衛生領域的應用日益廣泛,其價值在醫療科研、公共衛生、醫藥研發、監管決策方等社會各界得到普遍共識,若干規范基于RWD開展創新藥品研發[1]、輔助監管決策[2]、完善藥品和醫療器械評價[3]的相關政策法規也逐步落地。
高質量的證據源于高質量的數據,在RWD轉化為現實世界證據(real-world evidence, RWE)的過程中也涌現了大量問題,其中RWD相關的數據來源、數據質量、數據標準及其相關評價尚無成熟、統一的法規和指導原則,不同數據來源的信息化發展不均衡,數據共享和整合面臨較大阻礙,存在大量異構的數據孤島。本文著眼于RWD來源、數據合規性,討論其質量控制與數據標準化,并對其未來可能的發展途徑作一展望。
廣義地講,在醫療健康領域RWD是指除隨機對照試驗(randomized controlled trial,RCT)數據之外的其他用于提供醫學證據,輔助臨床決策的一切數據的統稱。美國FDA在2018年發布的Framework for FDA’s Real-World Evidence Program(《現實世界證據方案的框架》)[4]以及Use of Real World Evidence to Support Regulatory Decision Marking for Medical Devices(《使用現實世界證據以支持醫療器械監管決策》)[5]中,將RWD定義為“與患者健康狀況有關的和(或)日常醫療過程中收集的各種來源的數據”和“除了傳統臨床試驗以外的數據都可作為現實世界研究(real-world study, RWS)數據”,具體包括電子健康檔案、電子病例(electronic medical record, EMR)、醫保數據、產品和疾病登記中心的數據、患者報告數據(包括居家環境)、其他健康監測(如移動設備)的數據等。
2019年5月,我國發布的《真實世界證據支持藥物研發的基本考慮(征求意見稿)》[6]中將RWD定義為與患者使用藥物以及健康狀況有關的和(或)來源于各種日常醫療過程所收集的數據。其具體包括但不限于衛生信息系統(health information system, HIS)/電子健康檔案(electronic health record, EHR),醫保系統、產品和疾病登記系統、不良反應監測系統、自然人群隊列數據庫、組學相關數據庫、死亡登記數據庫、患者自報告數據、來自移動設備端的數據、其他特殊數據源等。而醫療器械技術審評中心則提出醫療器械的數據源除此之外還可包括在醫療器械生命周期中產生的數據(如校準記錄等)[7]。
盡管各類指南規范在RWD的定義細分場景上稍有不同,但在基本內涵上保持一致。目前,RWD的數據來源已擴大至為與患者健康狀況和(或)醫療服務提供相關的數據,主要有電子病歷數據(或健康檔案);檢驗數據;影像以及檢查數據;生物遺傳學數據(基因組學、蛋白質組學數據);家族疾病史數據;公共衛生數據(如政府公開的數據庫);出生/死亡登記數據;醫療保險理賠數據;移動可穿戴設備采集的個人數據;社交媒體數據;居住環境數據;氣象數據等。隨著社會各界對RWD的認識不斷深化,未來針對其展開的數據定義及內涵闡釋也將愈加細致、規范和統一。
2021年,我國十三屆全國人大常委會分別通過并施行《中華人民共和國個人信息保護法》、《中華人民共和國數據安全法》。對于涉及到研究個體診療、行為等多種途徑的RWD數據,其收集、處理與使用等過程中涉及倫理及隱私保護的問題,其合法性、合規性值得重視。RWD應依照國家法律法規、行業監管要求等做好數據安全管理工作。
為充分保護研究個體的安全和權益,獲取和使用RWD以開展RWS,須通過倫理委員會的審查批準。RWS當中的倫理問題通常包括但不限于:(1)知情同意;(2)患者完全自主地參與;(3) 研究透明度;(4) 隱私及健康公平性問題;(5)由研究產生的資料保護權及使用權。針對不同研究類型的RWS,RWD相關的倫理審查重點可能存在差異。對于回顧性數據庫研究,由于是基于既有數據,不涉及對患者的干預,該類研究可向倫理委員會申請豁免知情同意,如何保護患者隱私是該類研究倫理審查的重點,在獲得倫理審查機構書面批準同意后方可執行;對于登記注冊研究和實效性臨床試驗(pragmatic clinical trial, PCT),在研究開始之前必須得到患者知情同意,并在方案中設計如何保護患者的個人隱私信息和診療安全,對于采集個體標本的研究,可能留置標本造成研究個體無法及時獲得相應檢查的結果,需在知情同意書上明確說明標本的歸屬權、如何保存及使用,以保證由此獲得的RWD合法、合規。
此外,參與RWD數據治理的相關人員也應嚴格遵守相關法律、法規的要求,申辦者應嚴格執行,盡到保護和管理義務。
除了對研究個體相關的健康數據進行隱私保護,更需要對承載健康醫療數據的信息系統和網絡設施以及云平臺等進行必要的安全保護。數據安全保護范圍應涵蓋包括數據收集、數據提取、數據傳輸、數據存儲、數據交換、數據銷毀等在內的各個生命周期。采用加密技術保證數據的完整性、保密性、可追溯性;使用介質傳輸的,應對介質實施管控,對訪問記錄進行審核、登記、歸檔和審計。
如果將RWD按數據獲取時間進行分類,一大類是既有的數據資源,即在開展當前研究時,數據資源已經存在,如基于管理目的生成的醫院電子病歷數據、醫保數據、健康檔案等;另一大類是以特定的臨床評價為目的,在常規健康醫療環境下主動收集,并設立明確的數據標準和數據收集模式的前瞻性數據資源,如以研究藥物為對象產生的登記數據、實效性臨床試驗等。
開展RWS時,RWD的變量收集依據研究問題而定。例如,關注發病情況,需要收集患者年齡、性別、診斷、既往史等;關注治療情況需要收集治療方案、用藥劑量、隨訪過程、合并用藥等;關注結局則需要收集治療不良反應、再入院率、生活質量、生存率等。不同于RCT數據受到嚴格控制和監測核查,RWD最關鍵的問題是數據的可信度。不同的數據來源、數據質量、測量誤差、結果/暴露的錯誤分類,以及某些變量上的缺失值,可能直接影響對干預有效性和安全性的評估。對于一些大型RWS研究,其研究價值也可能因為有偏倚的結論受到限制。
3.1 原始RWD 在使用RWD的研究中,原始數據的質量取決于完整性和準確性,關鍵是要考慮到數據缺失及其缺失機制。隨機缺失的數據會降低觀測的精度,而非隨機缺失的數據會導致結果偏倚。因此,研究者需要仔細考慮數據的有效性(數據是否反映了真正診療情況)和可靠性(數據元素的獲取是否一致)。限制RWD數據來源的一個突出問題是很多研究只采集了患病和生存結局,而缺乏關于患者預后、護理過程和結局的變量,例如患者既往史、生活狀態、治療意向或疾病負擔等信息,而這些變量對全面分析治療的有效性尤為重要。
獲取RWD,依然需要制定RWD的構建方案,以數據庫研究為例:(1)根據研究目的選擇合適的數據庫,考察數據庫的可及性,評估數據質量;(2)明確原始數據庫的數據結構、變量含義和來源;(3)確定數據提取方式及其優勢和局限。影響RWD數據質量的因素包括數據的收集方式(被動收集與主動收集)、整理數據人員的技能、數據的質控和獨立監察、以及外部可能影響數據準確性的因素(如醫生收入、醫院管理等)。捕獲到數據后,可進一步進行數據治理:(1)評估數據提取的準確性,例如從區域化醫療系統獲取數據,可以隨機抽取某單一醫療機構電子病歷數據進行準確性核對;(2)數據核查,評估數據缺失、矛盾(如不可能的出生日期)、極端值、異常值(如多次手術切除的器官)的情況;(3)數據治理:對錯誤數據進行訂正,刪除不符合數據質量要求的數據[8]。
3.2 多源數據的鏈接 多數RWS需要來自不同數據源的數據,將它們鏈接起來才能最終形成研究型數據庫。理想情況下,應該使用唯一標識符來執行數據鏈接,例如身份證號、醫保號碼等。如果沒有唯一標識符,可以采用概率鏈接,但鏈接質量可能會相應降低。
3.3 衍生變量 RWD中一項復雜又關鍵的步驟是區分那些相似但非研究目標的變量。所有關于患者、治療和結局的暴露都需要經歷這個合并和拆分的過程[9]。臨床醫生根據專業意義進行劃分,數據分析師思考如何在現有條件下實現變量的準確識別和劃分。在制定RWD構建方案時,就需要確定衍生變量的定義。如果在數據收集過程中或分析時才定義,那么預期結果可能是有偏倚的。即使沒有刻意嘗試獲得某個特定的結果,在獲取數據后再嘗試幾種不同的試驗性分組也會增加偶然獲得有統計學意義結果的概率。此外,如果沒有經過嚴謹的思考,僅僅是為了獲得預期的陽性結果而對數據嘗試不同規則的組合分析,也是很困難的。
以Booth對膀胱癌[10]和肺癌[11]治療模式的研究為例,需要定義輔助治療時間節點這個衍生變量。根據臨床專業知識的經驗與判斷,研究者將術后16周內的化療或放療定義為輔助治療,任何超過該節點的治療都被定義為因疾病進展而開展的姑息性治療。如果在手術后過早地設定時間節點(如6周),可能會排除一些接受放化療的患者;而較晚的節點(如32周)將可能納入一些因早期轉移而接受化療的患者。另一方面,從統計學的角度,研究者也分析了患者接受輔助治療時間的分布,以確定這個時間節點是否更具有統計學的邏輯性。對于這類問題,并沒有一種標準的完美的方法,關于治療意向的間接推斷始終應該保持謹慎思考。一些低質量數據集的研究會直接影響研究結論,例如因使用醫院診斷編碼記錄伴隨疾病,而被錯分為研究對象。
相較于RCT數據,RWD在大多數情況下缺乏記錄、采集、存儲等流程的嚴格質量控制,易導致數據不完整、關鍵變量缺失、記錄不準確等問題,而薄弱的數據基礎會成為RWS的最大短板。數據質量上的缺陷,會極大地影響后續的數據治理和應用,甚至會影響數據的可追溯性,研究者也難以發現其中的問題并進行核對和修正。傾向性的數據收集,特別是登記研究數據,會導致研究結果偏倚的潛在風險等;在缺乏統一標準的情況下,數據類型較為多樣,既有結構化數據,也有文本、圖片、視頻等非結構化和半結構化數據,在數據記錄、采集、存儲的過程中,也會導致數據的冗余和重復,進而造成數據處理的難度。
多數情況下,RWS需要多源數據的支持,然而,我國并未形成統一的EHR系統,不同醫院擁有著不同的EMR供應商,甚至存在同一家醫院擁有不同的EMR供應商的現實。這既造成了醫院之間存在數據多源異構標準不一的情況,又造成EMR子系統之間的數據交流障礙。從RWD的可及性、準確性上講,現存問題主要為數據標準不統一、數據表達之間難以理解和互通,數據管理與分析系統與相關信息系統難以實現數據的準確識別、理解和調用,數據語義的表達形式不統一, 導致大量異構的數據孤島。多源數據系統間溝通壁壘較高,缺乏統一的數據傳輸標準,數據共享和整合面臨較大阻礙,導致不同來源的數據連接溝通效率較低,極大地限制了RWD轉化為RWE的效率。
絕大多數RWD產生基于已有的各種信息系統,將原始RWD轉化為用于分析的研究型數據,并實現多源數據的共享和交換,需要依據一定的數據標準。為實現數據表達的統一,通常的做法是將現有的數據映射至通用數據模型。數據模型能夠直觀得展示實體及實體之間的關系,描述一組數據的概念和定義,利用數據模型可以將多種來源的RWD按照既定的模式轉化為規范的數據字段和術語,無論RWD來自哪個系統,都可以對數據進行跨站點分析和研究,并以類似的方式被各方理解。通用數據模型(common data models,CDM)是根據不同研究目的,由共享健康數據網絡(shared health data network,SHDN)根據某些共識開發的,描述特定領域內的數據及數據間的關系,以期得到可以在該領域內通用和泛化的數據模型。共享健康數據網絡可以將數據集中聚合、存儲在一個位置,可查詢每個數據位置并聚合所有數據。
建立RWD通用模型,對于模型中對象類屬性的規范化描述,需要對數據元的值域進行規范化表達,規范醫學術語概念,明確統一語義。有關醫學概念術語進行標準化表達,一般仍采用國際上通用的、較成熟的術語標準,將現有的概念或術語與其映射。常見的有臨床數據交換標準(clinical data interchange standards consortium,CDISC)、系統醫學命名法——臨床術語(systematized nomenclature of medicine-clinical terms,SNOMED CT)、觀測指標標識符邏輯命名與編碼系統(logical observation identifiers names and codes, LOINC)、國際醫學用語詞典(medical dictionary for regulatory activities,MedDRA)等。
針對RWD常見的數據質量問題,需要對其進行數據治理,將原始RWD轉化為研究型數據庫,以滿足RWS研究需求。數據治理及其適用性評價的流程圖如下。
數據治理主要內容包括但不限于以下方面。(1)數據治理計劃書:RWD治理計劃書應事先制定,說明RWD源數據、使用RWD用于監管決策的目的、使用RWD的研究設計等,并與整個項目研究計劃同步,如果治理計劃書在研究進行過程中需要修訂,應與審評機構溝通并備案。(2)個人信息保護和數據安全性處理:應遵守國家相關信息安全技術法規和指南,涉及個人屬性數據、醫療支付數據等敏感的個人健康醫療數據時,應進行去標識化處理,同時防止個人信息的泄漏、損毀、丟失、篡改。(3)數據提取:提取方法應通過驗證,符合研究方案要求,且具有準確性和可溯源性,同時進行時間戳管理和數據安全性保護。(4)數據清洗:對提取到的原始數據進行重復或冗余數據去除,進行邏輯核查、異常值和缺失值的處理。對于數據的修正應當謹慎并經過核實,任何數據的修改都應當留下完整的稽查軌跡。(5)數據轉化與傳輸存儲:經過數據清洗后原始數據還要按照分析數據庫對應標準進行統一轉化為適用RWD,尤其需注意衍生變量的算法和時間戳管理,以保障數據的準確性和可追溯性。在數據傳輸和存儲過程中都應有加密保護、權限控制策略等,保障數據收集、處理、分析的全生命周期安全。
圖1 現實世界數據的數據治理過程示意圖
RWD的適用性評價可分為2個階段:第一階段是對源數據進行適用性評價,首先源數據是可及的、具有使用權限、能被第三方評估的,且符合倫理審查法規要求和數據安全隱私保護要求的,其次源數據對于關鍵變量的覆蓋度要能夠滿足研究方案的基本分析要求和樣本量;第二階段是對經過治理的數據進行適用性評價分析,主要包括(1)相關性評價,對關鍵變量的覆蓋度、暴露/干預和結局定義的準確性、目標人群的代表性和多源異構數據的融合性;(2)可靠性評價,評價數據的完整性、準確性、透明性、質量控制和質量保證。如果RWS中研究者根據自己設計好的電子病例報告表前瞻性收集指定來源數據,則無需進行第一階段的初步適用性評價[12]。
傳統RWD的收集途徑包括臨床訪視評估、電話、郵件等,這些方法通常較為復雜、昂貴且費時[13]。隨著移動通訊工具和智能穿戴設備等生物傳染技術的發展,新穎的數據獲取方式正成為RWD的新型數據來源。移動通訊工具或智能手表可在無人監管的情況下,便捷地收集研究對象的各項預設數據[14]。在臨床場景中,借助此類工具可減少不必要的隨訪和檢測,尤其是到院隨訪,以更少的成本管理更多患者,并更高效地獲取患者結局[15]。此外,基于社交媒體等網絡爬蟲技術的發展極大地拓展了RWD的維度。
海量數據既為RWD提供了堅實豐富的來源,又引入了數據控制和質量評價的問題。基于醫學研究領域數據標準的現狀和已有成果,將CDISC標準拓展應用于RWD,無疑是RWD數據標準和質量控制的最佳選擇。當然,RWD中存在異于常規RCT的數據,如患者報告的結局信息(PRO)、藥物經濟學信息、醫保報銷數據、個人健康APP以及可穿戴設備收集的數據等,現有數據標準不能直接滿足此類RWD對數據標準的需求,亟待在已有數據標準相關的模型基礎上,進行擴展和改進,開發與已有標準兼容的RWD數據模型,以提高RWS的科學性、規范性,從而形成有效、可信的RWE。
利益沖突:所有作者聲明不存在利益沖突。