唐現策,趙二江,劉長鵬,邢文群,劉先本,鄭燕,李嬋嬋,余華瓊
1鄭州大學附屬腫瘤醫院,鄭州 450008;2零氪科技(北京)有限公司,北京 100080
近年來,使用真實世界數據(real-world data,RWD)解決無法通過臨床試驗數據回答的臨床問題、改進治療方案和支持藥物監管決策等受到了廣泛關注[1-2]。根據美國食品藥品監督管理局(FDA)給出的定義,RWD是指常規收集的、與患者健康狀況或護理服務相關的數據[3],其來源是醫院信息系統(hospital information system,HIS)、醫療保險系統、死因登記數據庫、慢病登記數據庫以及其他新興數據庫。真實世界證據(real-world evidence,RWE)是通過應用相關研究方法,分析RWD得出的有關醫療產品的使用和潛在益處或風險的臨床證據[4]。可靠的RWE取決于適用和高質量的RWD,完整的信息收集、優秀的研究設計和分析通常會將數據偏差降到最低[5]。但電子健康記錄(electronic health records,EHR)等不是基于研究目的而進行收集的數據通常不夠完整,缺失和非標準化的數據在一定程度上限制了RWE的應用。
基于生存結果的總生存期(overall survival,OS)可用于評估腫瘤臨床試驗中干預的臨床效益。生存變量包括生存狀態(死亡或生存)、死亡日期和死亡原因。在傳統的隨機對照試驗(randomized controlled trial,RCT)中,生存變量通常由現場人員進行收集、臨床醫事委員會裁定死亡類型[6],但EHR結構化數據或行政索賠中的死亡信息通常不夠完整。有研究表明,在EHR結構化數據中,約有34%的死亡記錄存在字段缺失[7]。此外,由于缺乏足夠的文獻、標準化的實踐監管指南,臨床試驗和真實世界環境中生存終點的差異尚未解決,相關研究仍具有極大的挑戰性[8]。Curtis等[7]于2018年首次評估了Flatiron Health腫瘤學數據庫中的生存數據質量,即以國家死亡指數為基準,評估數據的敏感性、特異性、陽性預測值(positive predictive value,PPV)、陰性預測值(negative predictive value,NPV)和日期一致性。結果表明,僅EHR結構化數據集中生存數據的敏感性通常在66%左右,而特異性高達97%;將河南省癌癥中心和河南省疾病預防控制中心、LinkDoc隨訪等多源融合數據庫與EHR數據集相結合后,融合生存數據集的靈敏度提高至91%。這種高質量的融合生存數據集為真實世界研究(real-world study,RWS)提供了質量保障。將融合生存數據集的評估范圍擴大到18種癌癥,結果表明,與國家死亡指數相比,靈敏度達到83.9%~91.5%,特異性高達93.5%~99.7%,18種癌癥的中位總生存期(median overall survival,mOS)估計值提高2.8%~12.7%[8]。一項關于死亡數據缺失對OS分析影響的研究[9]發現,在EHR衍生隊列中,死亡數據缺失會導致mOS的偏差從溫和偏差(0.6~0.9月)變為較低敏感度(60%~70%)產生時的大量偏差(3.3~9.7月)。遺漏死亡數量將導致持續提高mOS估計值,而死亡數據的低敏感度會導致實質性偏差。因此,生存數據質量對評估RWE的可信度具有重要意義,臨床試驗中必須對生存數據質量進行研究和描述。
RWS受到了我國醫療衛生和監管決策部門的重視。國家藥品監督管理局(NMPA)藥品審評中心于2021年發布了《用于產生真實世界證據的真實世界數據指導原則(試行)》[10],涉及RWD的管理、標準、質量保證和適用性,但臨床實踐中關于RWD中生存數據質量的驗證鮮有報道。為了填補這項空白,本研究將EHR數據源和LinkDoc隨訪數據源整合為融合生存數據集,首次開發了適用于國內的生存終點驗證方法,并以政府來源的金標準數據集為基準,對融合生存數據集的質量進行驗證,旨在開發一個高質量的融合生存數據集,用于設計回顧性或前瞻性研究。
選取2015年1月~2018年12月本院收治的晚期非小細胞肺癌(non-small cell lung cancer,NSCLC)患者數據作為研究隊列,通過LinkDoc隨訪數據處理平臺,對患者的數據進行抽象化、標準化和整合,構建融合生存數據集。基于ID號將融合生存數據集與金標準數據集中的患者進行匹配。通過與金標準數據集的比對,評估融合生存數據集中死亡數據的準確性,包括生存狀態和死亡日期。由于金標準數據集的形成時間滯后超過1年,因此隨訪的截止日期設定為2019年12月31日。
融合生存數據集包含晚期NSCLC患者的死亡數據:①EHR結構化數據,包括住院和門診病歷。②LinkDoc隨訪平臺通過電話隨訪和移動應用隨訪等方式收集到的結構化隨訪數據。在患者層面,對相關數據進行匯總、規范化和統一,見圖1。其中,當不同的數據源中患者的生存狀態或死亡日期不一致時,數據優先級是EHR、電話隨訪數據和移動應用隨訪數據;排除明顯不正確的死亡日期,如診斷或治療前的死亡日期。

圖1 融合生存數據集的數據來源
LinkDoc隨訪平臺由電話隨訪中心和移動應用隨訪組成。晚期NSCLC患者隨訪計劃是出院后每3個月隨訪1次,180個月時終止。該平臺收集的患者信息包括:生存狀態、死亡日期、最后生存日期、人口學特征、用藥情況、轉移信息、不良事件等。
金標準數據集整合了河南省疾病預防控制中心疾病監測點系統(Diseases Surveillance Point System,DSPs)和河南省癌癥中心癌癥登記系統(Henan Cancer Report Information Management System,HCRS)的晚期NSCLC患者的死亡數據,見圖2。DSPs和HCRS都有標準的工作流程和嚴格的質量控制體系以確保數據的準確性。當一個患者的死亡日期在兩個數據庫中不一致時,數據優先級是DSPs、HCRS。

圖2 金標準數據集的數據來源
DSPs是全國性的死亡監測系統,每年收集所有省份的死亡率和死亡原因等數據。2017年,DSPs覆蓋31個省,共計605個縣或區,涉及約3.23億人口,占全國總人口的24.3%[11]。由于采用了全國性的抽樣策略,DSPs可更準確地反映總死亡率、廣泛的死因分布及地理分布[12]。DSPs覆蓋了河南省的全部人口。河南省疾病預防控制中心工作流程如下:①收集居民小組長的統計報表,為所選鄉鎮/街道所有村/社區內的每個居民小組(最小行政單位)建立重點時段的死亡者名單。②通過與公安部門、民政部門、計劃生育部門和婦幼保健部門的數據對比,對名單進行核對和補充。③每個村/社區的訪談者通過對每個發生死亡的家庭進行調查,核實和完善死亡記錄的相關信息。本研究從DSPs中摘錄匹配患者的死亡日期[11]。
HCRS中的腫瘤登記平臺包含癌癥發病率、生存狀況、死亡日期、死亡原因和人口數據等內容。2018年,河南省共有39個癌癥登記處,覆蓋30.51%的人口[13]。通過該系統,河南省癌癥中心不斷收集、整理、分析和報告動態的癌癥發病率、死亡率和生存期信息。本研究從HCRS中提取了相匹配的晚期NSCLC患者的生存狀態、死亡日期和最后聯系日期。最后聯系日期用于鑒別分析融合生存數據集和金標準數據集中的最后生存日期偏移可能產生的原因。
納入標準:①2015年1月~2018年12月期間由本院病理診斷為晚期NSCLC者。②接受一線系統治療者。③有2份以上病歷或有1份病歷且隨訪1次以上者。排除標準:①無身份證號信息者。②合并其他活動性原發腫瘤者。③在一線系統治療后30天內死亡者。
初步篩選后共有4844例患者符合條件。截至2019年12月31日,排除214例于2020年1月后死亡的患者,最終納入4630例患者作為數據有效性指標分析的研究對象;排除3626例無死亡日期或僅在單一數據集中有死亡日期的患者,最終納入1218例患者用于分析死亡日期的一致性;排除1627例金標準數據集中無死亡日期或最后聯系日期的患者、932例最后聯系日期在2020年1月之前的患者、1例有多個死亡日期的患者,最終納入2284例患者作為分析OS的研究對象,見圖3。

圖3 研究隊列的選擇
截至2019年12月31日,若患者有生存狀態記錄,則被算作生存;若患者的最后生存日期記錄在隨訪截止日期之后,則被算作生存;若無法獲得生存狀態信息,則被定義為檢查;若患者有死亡日期記錄或在隨訪期間確認為“死亡”,則被定義為死亡。
對4630例患者進行生存狀態驗證,并按年齡、性別和診斷年份進行分層,記錄全部死因。與金標準數據集相比,融合生存數據集的數據質量由有效性指標評估,包括敏感性、特異性、PPV和NPV。
真陽性(A)是指患者在金標準數據集和融合生存數據集中都被記錄為死亡;假陽性(B)是指患者在金標準數據集中被記錄為生存,但在融合生存數據集中未被記錄為生存;假陰性(C)是指患者在金標準數據集中被記錄為死亡,但在融合生存數據集中未被記錄為死亡;真陰性(D)是指患者在金標準數據集和融合生存數據集中都被記錄為生存。敏感性是指真陽性患者在真陽性和假陰性患者中的占比;特異性是指真陰性患者在真陰性和假陽性患者中的占比;PPV代表真陽性患者在真陽性和假陽性患者中的占比;NPV代表真陰性患者在真陰性和假陰性患者中的占比。
數據一致性被定義為金標準數據集和融合生存數據集之間死亡日期完全相同者在所有患者中的占比[7]。本研究比較了1218例在兩個數據集中都有明確死亡日期患者的死亡日期一致性。與金標準數據集相比,融合生存數據集的死亡日期一致性是通過確切日期一致性、±15天一致性和±30天一致性來評價的。若患者在融合生存數據集中記錄的死亡日期與金標準數據集相差超過30天,則被定義為日期不一致。
對2284例患者進行OS分析。OS被定義為從患者接受一線治療的開始日期到患者死亡或在末次隨訪時間未發生終點事件的時間,其中,若未知終點事件,則按刪失數據處理。采用Kaplan-Meier生存曲線估計OS,并以mOS為指標比較金標準數據集和融合生存數據集之間的生存差異。
采用 SAS 9.4軟件對數據進行統計分析。采用Kaplan-Meier法繪制生存曲線;計數資料以n(%)表示,組間生存率的比較行Logrank檢驗。P<0.05為具有統計學差異。
共有4844例符合研究標準的患者被納入本研究,依據ID號與HCRS和DSPs中的患者進行匹配。HCRS和融合生存數據集都有死亡日期、最后生存日期、生存狀態,而DSPs僅有死亡日期,詳見表1。

表1 金標準數據集和融合生存數據集的信息 n=4844,n(%)
在DSPs和HCRS中均記錄死亡日期的769例患者被用來評估死亡日期一致性。結果顯示,DSPs和HCRS之間死亡日期的確切日期、±15天和±30天一致性分別為83.7%、89.7%和90.8%,提示金標準數據集的死亡日期一致性很高,見表2。

表2 DSPs和HCRS的死亡日期一致性比較 n=769
以金標準數據集為基準評估融合生存數據集中死亡數據的質量(表3)。結果表明,與金標準數據集比較,融合生存數據集的敏感性(82.8%,95%CI:81.1%~84.5%) 和 NPV(86.2%,95%CI:84.8%~87.6%)水平較高,而特異性(76.8%,95%CI:75.2%~78.4%) 和 PPV(71.8%,95%CI:70.0%~73.7%)較低;社會人口學特征分析結果顯示,各年齡分層、不同性別及年份的數據敏感性存在明顯差異,其中35~50歲亞組、2015年的數據敏感性低于80.0%。見表3。

表3 融合生存數據集中死亡數據的質量 n=4630,%

續表

圖4 金標準數據集和融合生存數據集的Kaplan-Meier曲線
對兩個數據集共有的1218例有死亡日期患者進行死亡日期一致性評估。結果表明,±15天、±30天的準確率均在可接受范圍,且日期不一致率占比較低(18.6%,95%CI:16.4%~20.7%)。見表 4。

表4 融合生存數據集與金標準數據集的死亡日期一致性比較 n=1218
對有確切生存時間記錄的2284例患者進行OS分析,其中金標準數據集中有4例因死亡日期早于診斷日期而被排除。結果表明,金標準數據集和融合生存數據集的mOS分別為15.2月(95%CI:14.6月~15.8月)、16.0月(95%CI:15.3月~16.8月)。
2020年,NMPA發布《真實世界證據支持藥物研發與審評的指導原則(試行)》,鼓勵應用RWD研發與評價藥物,強調RWD在我國藥物監管決策中的重要地位[14]。但鑒于目前醫療服務和相關數據收集的分散性,獲得研究所需完整、準確的RWD仍是一項巨大挑戰[15]。包括OS在內的完整、準確的生存數據是評估腫瘤進展重要結果的必要條件,不完整的生存數據會導致對生存率的不準確估計,在比較研究中也可能得出錯誤結論。在腫瘤學研究中,作為變量的生存率和作為終點的OS是重要指標,生存監測的低敏感性會使OS估計出現偏差[8],估計并確定造成偏差的敏感性閾值是RWS中的關鍵環節[9,16]。
本研究共4630例進行生存狀態驗證。結果顯示,融合生存數據集的敏感性、特異性、PPV和NPV分別為82.8%、76.8%、71.8%和86.2%。特異性和PPV較低是由于627例(13.5%)患者為假陽性,推測可能是DSPs的部分漏報導致的金標準數據集死亡數據不完整[11]和其中283例患者的失訪日期早于金標準數據集的死亡日期引起。本研究中,確切死亡日期的準確率(39.1%)低于±30天死亡日期準確率(81.4%),這可能是由于在隨訪過程中:①死亡患者家屬未提供準確的死亡日期,有時僅提供月份信息。②由于我國部分人員仍習慣于使用陰歷日期,而在報告信息時將陰歷日期誤記為陽歷日期。③家屬因記憶錯誤而報告錯誤的死亡日期。此外,金標準數據集和融合生存數據集的mOS分別為15.2月和16.0月,表明在大多數情況下,使用融合生存數據集生存變量估計的mOS偏差不大。
本研究的難點在于構建金標準數據集,該數據集中的生存數據主要以DSPs為基礎,輔以HCRS,其中DSPs含有覆蓋整個河南省的死因監測系統。人口死亡登記包括死亡證發放、死亡信息報告、死亡信息核實/修改和復核等過程[11]。現階段死亡信息報告過程有完善的法律制度保障,報告數據也設置專人負責定期進行漏報調查和質量審核。報告顯示,2009~2011年DSPs的3年平均漏報率為12.6%[11]。此外,本研究進一步從HCRS獲得了目標人群的隨訪數據。按照《河南省腫瘤登記實施方案》的要求,HCRS對生存數據進行了規范的收集、存儲和嚴格的質量控制,其數據質量的可靠性使其成為質量評估的金標準,但其數據僅覆蓋河南省 30.5% 的人口[13]。
綜上所述,基于完整性和時效性等方面的限制,臨床迫切需要一個完整、準確和最新的RWE數據源。本研究首次開發了一種適用于國內的生存終點驗證方法,并以金標準數據集為基準驗證了本院融合生存數據集的質量,提示融合生存數據集的質量較高時足以產生可靠的RWD。