路甲鵬
前幾期《臨床研究系列講座》文章針對研究設計、實施和質量控制進行了詳細的闡述,對開展臨床研究設計和實施具有重要指導作用。然而,“殘酷”的現實告訴我們,再嚴謹的設計、再嚴格的研究管理和質量控制也無法避免“錯誤”數據的出現。所以,數據清理是臨床研究的必要過程,對提高數據分析效率和研究結果可靠性具有重要意義。但數據清理的局限性在于只能針對錄入到數據庫的數據進行清理,若臨床研究中漏報不良事件,則無法通過數據清理發現。因此,臨床研究需要研究設計、實施管理、質量控制以及數據清理等環節的相輔相成,才能確保研究質量。本文擬匯總既往數據清理經驗,介紹臨床研究數據清理的流程和關鍵點,并以“冠心病醫療結果評價和臨床轉化研究(China PEACE)”數據清理過程為例說明臨床研究數據清理的邏輯順序及注意事項,為臨床研究者開展數據清理提供借鑒。
數據清理是研究過程中針對數據重復或缺失、異常值、邏輯錯誤三類數據問題進行識別、查找原因及處理的過程。其中,連續變量的異常值主要是指變量取值超出臨床所能接受的合理范圍,如收縮壓為700 mmHg(1 mmHg=0.133 kPa);分類變量的異常值是指變量取值與病例報告表(Case Report Form,CRF)編碼范圍不一致,如CRF中性別變量編碼:男性為1,女性為2,但實際可能出現性別為0或3等異常值。邏輯錯誤的范圍較廣,如日期先后順序錯誤、不同來源同一變量取值不一致、不同時間點變量取值不符合實際等問題。數據清理包括數據問題核查、確定產生數據問題的原因、以及處理問題數據三個核心過程[1]。通過這三個核心過程的反復循環,不斷提升數據質量。
數據問題核查:數據問題核查可通過人工檢查和電腦程序檢查兩種方式實現,建議通過電腦程序在CRF或人工錄入的數據庫中進行核查,能夠提高效率、避免新錯誤的產生。在正式開始數據清理前,負責數據清理的研究人員應根據研究方案、CRF以及數據清理計劃編寫和測試邏輯核查程序。對于數值變量,應在程序中定義異常值的范圍,比如收縮壓在60~250 mmHg范圍以外為異常。對于主要結局指標相關變量、日期變量以及多個來源同一變量,應在程序中定義邏輯錯誤的判定條件,比如研究記錄某受試者出院后發生結局事件,則該結局事件發生的日期應在出院日期之后,否則為邏輯錯誤。通過邏輯核查程序輸出報告,分類變量用頻數和百分比表示,連續變量用描述統計量(如均值、標準差、最大值、最小值等)表示,也可以采用箱圖、散點圖等展示數據分布,旨在便于研究人員發現“錯誤”數據。同時產生數據質疑表,應包括“錯誤數據”所對應的變量、原值、錯誤類型、對應的受試者ID、研究單位信息以及日期等,方便記錄數據質疑的整個過程。
確定產生數據問題的原因:該過程對不斷改進數據清理過程具有重要作用,應由主要研究者、負責數據清理的研究人員、數據分析人員及其他主要研究人員共同參與。基于數據核查報告和質疑表,研究人員可以結合臨床研究方案、CRF以及臨床實踐,深入剖析每個或每類“錯誤”數據的原因以及產生問題的環節,進而確定處理“錯誤”數據的策略。此外,不僅要從某個變量角度出發,還要從研究單位的角度出發,分析“錯誤”數據是否存在研究單位聚集性,有利于發現研究實施過程中存在的問題,消除系統誤差,例如經常出現數據異常的研究單位是否是因為研究人員變動,培訓不到位所致等。最后,該過程還可以幫助研究人員對已建立的邏輯核查程序進行優化,包括數值變量合理取值范圍是否需要調整,是否需要增加新的邏輯核查條件等。例如,數據質疑表中記錄某受試者收縮壓為700 mmHg,分析原因發現可能為研究者填寫錯誤,可以由研究者核對后修改。但在該過程中主要研究者和負責數據清理的研究人員應考慮如何避免在發生類似錯誤,比如在電子CRF中增加邏輯核查程序。
處理問題數據:每次數據核查完成后,研究人員應將產生的質疑表以電子或紙質文檔的形式發送給各研究單位。各研究單位工作人員對每個疑問進行認真核對,并逐一答復。負責數據清理的人員檢查返回的質疑表后,根據質疑表對數據進行處理。處理方式包括更正、刪除或保留原值。若無法找到異常值所對應的正確數值,則刪除該異常值。若研究單位對可能存在問題的數值變量進行再次測量,且兩次結果相近,可用兩次測量結果的均值替換原有數值。若質疑表有未被解決的質疑,將以新的質疑表形式再次發出。如果數據缺失為隨機缺失,在后續分析過程中可采用均值或多重填補等方法進行填補[2]。如果數據缺失超過30%,建議盡量不使用該變量。如果是結局事件出現缺失,如患者是否死亡變量缺失,則不能填補。
明確數據清理計劃:研究人員在設計階段應制定數據清理計劃,用于指導數據清理的各項工作。數據清理計劃具體內容應包括數據清理的時間安排和頻率、數據清理內容、不同類型數據問題(如缺失、異常值或邏輯錯誤等)的處理方法、數據問題的反饋糾正流程、數據庫鎖定及存儲、各環節的具體責任人以及文件管理等。根據研究需要,還包括紙質或電子CRF交接流程、數據錄入方法以及質量控制、數據庫安全等內容。
盡早開始數據清理:絕大多數數據問題是在研究實施過程中出現的,有些數據缺失或異常很難彌補。而對數據問題的處理需要各研究單位進行核實、更正,甚至需要研究受試者的配合。此外,若由于CRF設計有誤導致的數據問題,可通過修改CRF避免數據錯誤的再次出現。因此,數據清理應在數據采集開始后盡早開始,不應在研究數據采集結束后才進行數據清理。
做好數據清理記錄:首先,應記錄清理數據庫的基本信息,如數據庫產生的日期、樣本量等。數據清理過程中所產生的數據質疑表和邏輯核查報告應進行歸檔保存。數據質疑表作為數據更改的原始記錄必須由各研究單位負責回復疑問的工作人員、負責數據清理研究人員簽名確認,并進行妥善保存。在數據庫中進行問題數據處理應保留修改記錄。
數據庫和邏輯核查程序的版本管理:數據清理后可能會根據數據清理發現的問題對CRF進行修改,將導致數據庫結構、邏輯核查程序均發生相應變化。因此,無論采用紙質還是電子CRF,均應對每次數據清理的數據庫和邏輯核查程序進行版本管理,提高數據清理效率,便于跟蹤和回溯數據清理過程。
China PEACE中的前瞻性急性心肌梗死研究是一項前瞻性疾病注冊登記研究,在全國約40家二級和三級醫院連續入選超過4 000例急性心肌梗死患者并進行出院后隨訪,采集患者社會經濟學、疾病診斷、質量及其預后等信息,旨在評價各項冠心病治療措施在國人中使用的實際影響因素、安全性、有效性和效價比,建立適合國人并簡單易行的風險評估模型,以最優化的臨床實踐模式和醫療資源配置改善急性心肌梗死患者的預后[3]。
數據來源及內容:(1)調查問卷:人口學信息、社會經濟學信息、既往病史、危險因素、健康狀況評價量表以及出院后發生的結局事件。(2)病歷:疾病診斷、發病情況、心電圖、冠狀動脈造影等輔助檢查報告、院內治療措施、藥物治療、出院醫囑、院內結局事件等。(3)冠狀動脈造影影像。(4)生物樣本。由于數據來源和數據庫結構(醫囑、隨訪事件等數據庫為一對多的結構)的不同,最終形成六個數據庫:調查問卷、病歷、醫囑、隨訪事件、各研究單位實驗室檢查結果和中心性實驗室檢查結果。
數據清理邏輯順序和注意事項:該研究的主要目的是分析識別影響我國急性心肌梗死患者主要心血管事件發生的影響因素,建立風險預測模型,為改善臨床實踐提供循證支持。圍繞該研究目的,我們按照如下邏輯順序,針對數據重復或缺失、異常值和邏輯錯誤三類問題開展數據清理:
首先,關注研究的關鍵變量和主要結局指標,如受試者ID、時間變量、隨訪期間事件。結合病案號等客觀記錄信息,清理受試者ID錯誤、重復或各來源數據ID不一致等問題,確保受試者ID的唯一性。臨床研究包含多個時間變量,如發病日期、入院日期、各項檢查日期、出院日期、事件日期和死亡日期。為了遵循臨床實踐的邏輯順序,選擇入院日期和出院日期作為優先清理的時間變量,并作為清理其他時間或判定醫療服務質量的基準。例如,急性心肌梗死醫療質量研究會關注入院24小時內用藥情況,可通過比較入院具體時間和院內醫囑中記錄的首次開藥時間判斷是否給予及時藥物治療。此外,關注出院日期、事件日期、死亡日期的前后邏輯關系,對判定院內或院外死亡,院內或院外心血管事件具有決定作用。隨訪期間心血管事件的清理主要是心血管事件的類型(死亡事件或其他事件)和發生時間。心血管事件的診斷是否正確,應由臨床專業醫師判定,不在數據清理的范疇。
其次,清理心血管事件相關的醫院、醫療服務和患者水平影響因素。部分患者水平影響因素可以從病歷和調查問卷兩個來源獲取,可以相互補充。例如既往病史,通常調查問卷采集的信息比病歷記錄的更全面。如果出現病歷和調查問卷數據的不一致,需根據臨床診療實踐和研究經驗進行判斷,以更可靠的數據來源為準,比如患者職業應以調查問卷為準,醫保支付類型以病歷為準。如果數據清理時遇到沒有證據支持的數據問題,可暫時不清理,撰寫報告或科研論文寫作時,根據實際需求再單獨處理(表 1)。

表1 研究實施過程中可暫時不進行處理的數據錯誤情況
綜上所述,臨床研究數據清理貫穿研究的整個過程,對于彌補研究設計或實施過程中存在的問題、提高研究數據質量具有重要作用。臨床研究人員應高度重視數據清理的重要性,緊緊圍繞研究目的,把握關鍵環節開展數據清理工作。