趙前前 李嘉琛 梁立榮
(首都醫科大學附屬北京朝陽醫院信息中心 北京100020) (1首都醫科大學附屬北京朝陽醫院臨床流行病學研究室(煙草依賴治療研究室) 北京100020 2北京市呼吸疾病研究所 北京100020)
基于海量電子病歷數據開展真實世界研究并為臨床實踐提供真實世界研究證據,已成為現代臨床醫學研究趨勢。相比于歐美國家,我國開展此類研究具有數據資源豐富的優勢。利用專病病歷資源建立醫療大數據應用平臺有助于發揮醫院專科特色,將優勢資源轉化為學科發展的動力源。數據質量是真實世界研究數據轉化為高質量研究證據的關鍵,也是醫療大數據平臺應用所面臨的重要技術挑戰。目前醫療機構存儲的電子病歷信息存在以多源異構和非結構化數據為主、醫學術語標準不統一等問題,建立行之有效的質量控制標準和體系十分重要。國內多家醫院建立專病大數據平臺[1-4],但既往文獻對數據質控過程報告比較有限,且不同研究之間存在差異,缺少公認、系統化的質控體系。2018年北京市呼吸疾病研究所(以下簡稱呼吸所)和北京朝陽醫院共同搭建呼吸專病醫療大數據綜合應用平臺。為了充分利用醫院優勢專科電子病歷資源、促進高質量真實世界研究產出,院所聯合從技術和管理制度兩個層面構建全鏈條數據質控體系,本研究旨在分析與評價該質控體系的應用效果。
北京朝陽醫院通過整合醫院信息系統(Hospital Information System,HIS),檢驗信息系統(Laboratory Information System,LIS),醫學影像存儲與傳輸系統(Picture Archiving and Communication System,PACS)等臨床業務系統數據,于2014年建立臨床數據中心[5]。在此基礎上2018年呼吸所與朝陽醫院聯合搭建呼吸專病醫療大數據綜合應用平臺。該平臺首先從臨床數據中心提取呼吸系統疾病患者門診及住院的全部醫療數據信息,經過自然語言處理、數據轉換和數據清洗,形成面向數據使用者的綜合應用平臺,見圖1。

圖1 呼吸專病醫療大數據綜合應用平臺整體架構和數據處理過程
數據的提取和處理包括以下步驟:數據中心對各臨床業務系統數據進行整合和初步質控;平臺數據對接,采用Web Service接口從數據中心獲取數據,進入數據處理平臺;自然語言處理,對電子病歷中的非結構化文本數據采用條件隨機場(Conditional Random Fields, CRF)模型進行實體抽取[6];數據轉換,基于源數據和映射關系表將多源異構數據統一成標準的數據結構;數據清洗,包括數據格式化,基于規則表對空值、特殊符號、醫療專用名詞進行格式化;數據標準化,根據臨床專家建議、參照國內外標準,分別構建癥狀、診斷、藥品、手術、檢驗和影像檢查的醫學標準知識庫,將非標準的醫學實體名稱轉換為標準的名稱,見表1;標簽化,由醫學專業人員將標準化的醫學術語歸類打標簽,使數據顆粒度更好地滿足臨床科研應用需求,由多組人員進行交叉核驗以確保標簽的準確和規范化;形成面向呼吸專科醫護人員的結構化科研應用數據庫。

表1 醫學知識庫術語標準詞量
2.3.1 質量控制內容 參考既往文獻,本研究主要考慮完整性、正確性、一致性、時效性以及合理性5個數據質量維度[7]。在大數據平臺建立過程中可能發生提取錯誤、映射錯誤以及源數據錯誤[8],因此在數據處理的各環節采取相應質控措施,形成質控體系,見表2。

表2 呼吸專病醫療大數據綜合應用平臺全鏈條質量控制內容
2.3.2 質量控制規則 對于質控環節中的每項內容設定具體質控條目,采用基于規則的質量評價方法[9],每條規則是一個邏輯判斷和相應的閾值標準,檢查對象為數據庫、表或變量。當數據達到標準時判別為通過該項檢查,如果未達到標準則記錄問題并及時反饋,觸發程序或通過人工進行處理。
2.3.3 質量控制流程 參考觀察性健康醫療數據科學與信息學(Observational Health Data Sciences and Informatics,OHDSI)的數據質量儀表板(Data Quality Dashboard,DQD),結合前期發現的實際數據問題,構建適合呼吸專病大數據平臺的質控體系,包括5個維度、208條質控規則,覆蓋數據整合和處理全流程。在數據中心的多系統數據整合環節,主要是保證數據獲取完整、多源數據匹配正確。完整性條目是比較原始業務系統和平臺獲取的數據量;一致性條目是檢查同一患者多次住院數據之間的基本信息(姓名、年齡和性別)一致性;此外每日統計藥占比、費用和死亡人數數據與統計室比對。在數據處理平臺需要保證數據采集的時效性、完整性以及數據處理的正確性。在數據接口監控數據獲取時間;在每一個處理步驟設置數據量的完整性檢查條目;對于非結構化電子病歷的文本提取,計算精確率和召回率評價識別的正確性;對于標準化過程,通過計算處理后的名詞與標準詞之間的TF-IDF余弦夾角相似度來評價正確性。在綜合應用平臺進行統計描述,計算最終科研數據庫中變量的分布情況、缺失值和異常值比例。此外在實際使用數據前研究者還需基于特定研究目的和標準進行相應數據處理。使用Python和SQL編寫質控程序,實現大部分條目的自動化核查,少數條目需要定期進行人工核查,如自然語言處理的識別準確率。
為了確保數據質控的規范化和常態化建立規章制度。每日質控程序自動核查所采集數據,由平臺專職人員在各環節對數據質量進行實時監控,第一時間發現并記錄問題,根據問題原因向相關人員反饋、及時解決,必要時更新質控程序,納入新的質控條目;每周定期和數據中心比對數據量,確保一致;每日導出數據質控報告,匯總數據情況以及存在問題;建立數據字典,保留質控過程文檔,明確記錄數據處理方法。醫院病案科會核實病案首頁的診斷編碼并隨時更新電子病歷,數據中心每周會重新抽取數據,更新數據庫。質控團隊人員均嚴格執行上述各項制度,以保證每個環節的數據質量滿足應用需求。
北京朝陽醫院的呼吸專病醫療大數據綜合應用平臺目前已積累2013年8月-2021年4月的臨床數據,其中住院146 745人次,門診109 615人次,共有5 222個病種。數據內容包括患者基本信息、疾病史、檢查、檢驗、用藥、手術以及診斷。
數據質控系統在數據處理各環節進行不同維度和層次的檢查,檢查結果達到預先設定的閾值才被認為合格。數據中心一致性核查結果顯示,同一患者多次住院數據的姓名、出生日期、性別、民族等基本信息的一致率高,在現有住院數據中只發現1例姓名不匹配、2例出生日期不匹配。時效性檢查通過實時監控接口的數據獲取時間,確保數據中心95%以上的數據可以及時對接到平臺,見表3。

表3 部分質控條目檢查結果示例
在數據處理平臺核查變量正確性。為了評價自然語言處理對電子病歷文本的識別效果,共抽取3萬余份電子病歷進行驗證,結果總體精確率和召回率分別達到95.45%和95.3%,吸煙飲酒史、癥狀、藥品等信息的精確率和召回率均超過96%,識別比較準確。對提取的實體名稱進行標準化處理,通過計算處理后詞語與標準術語之間的TF-IDF余弦夾角相似度來評價標準化過程的正確性。結果顯示有83.2%的詞語經過處理完全轉化為標準術語(相似度=1),9.4%的詞語與標準術語相似度在0.8~1之間,沒有相似度低于0.6的詞語。在各類項目中手術、診斷和藥品名稱的標準化程度相對較高,而影像檢查結果的標準化程度略低,見表4。

表4 數據處理過程中的正確性評價
注:*表示對病歷進行實體抽取,精確率為正確的實體數量/得到的所有實體數量,召回率為正確的實體數量/標準答案的所有實體數量;**表示處理后詞語與標準術語之間的TF-IDF余弦夾角相似度,越接近1代表相似度越高。
對經過質控的科研數據庫進行描述性分析,計算主要變量缺失率:年齡、性別、住院費用、住院天數以及出院診斷等信息均無缺失;吸煙和飲酒缺失率較低,分別為0.55%和3.01%;在體格檢查指標中,血壓(0.08%)和脈搏(0.02%)等生命體征變量缺失率極低,非臨床必要變量身高(44.4%)和體重(49.6%)缺失率較高;疾病史信息沒有缺失。
近年來電子病歷等醫學信息系統被廣泛使用,醫療大數據已成為重要臨床研究資源。但常規診療數據不是針對科研問題專門收集的,需要經過嚴格數據提取、整合以及清理過程才能形成符合科研要求的數據庫。美國食品藥品監督管理局針對臨床研究數據提出了可溯源性、易讀性、同時性、原始性、準確性、完整性、一致性、持久性、可用性的要求,即ALCOA+CCEA原則[10]。我國有研究者針對利用健康醫療數據開展真實世界研究制定了通用技術規范,提出應從既有數據本身和研究型數據庫構建過程兩方面進行質量評價[11]。
隨著真實世界研究證據的快速增加,醫療大數據質量愈加受到重視。目前醫療機構通常建有數據中心,即整合各臨床業務系統形成的數據庫,但由于缺乏實際應用,往往未實施嚴格的質控措施。本研究在前期科研應用中發現許多數據質量問題,包括源自數據中心的數據缺失、關聯錯誤,以及源自原始數據的術語不標準、信息不完整等。因此醫院和呼吸所聯合構建質控體系,從數據中心質控開始,重在控制數據缺失和多源數據匹配錯誤;對呼吸專病大數據綜合應用平臺的數據對接、數據轉換和數據清洗各環節進行長期持續質控;同時建立反饋機制,根據臨床醫護人員在應用中發現的新問題,不斷查找質控漏洞、完善質控環節、細化質控條目和標準,從而構建臨床應用驅動的全鏈條、動態完善的質控體系,并以規章制度確保各項質控措施落實常態化與標準化。
為了使質控體系具有科學性,本研究參考了既往數據質量的理論框架。數據質量涵義復雜,涉及多個不同維度,而且存在不同術語和概念[12]。有研究者歸納出了完整性、正確性、一致性、時效性以及合理性這5個電子病歷數據質量維度[7]。不同維度之間可能存在一定重疊,如合理性常作為正確性的代理指標,通過檢查不合理數值識別數據錯誤。基于質量維度的理論框架產生了具體的評價指標和工具。OHDSI設計了通用數據模型(Common Data Model,CDM)[13],以統一標準對臨床數據進行抽取、轉換、加載(Extract-Transform-Load,ETL),并開發配套質量評價工具ACHILLES和DQD。但這些質控工具對原始數據的標準化程度要求較高,難以直接應用到國內[14]。本研究從實踐出發,將理論與現實數據問題相結合,探索性地在國內一家綜合醫院構建了系統化醫療大數據平臺質控體系。但國內不同醫院之間的臨床信息系統存在差異,原始數據質量參差不齊,未來還需加強國內醫院的信息化建設,統一標準,以實現醫療大數據應用的互聯互通。
專病數據庫可以有力支持醫院特長專科臨床研究,我國已有多家醫院建立了專病大數據平臺,并依托平臺數據開展研究[1,3,15]。在提取自電子病歷的數據庫中,臨床專業術語往往存在不規范、不統一的問題,因此建立通用數據標準十分重要。本研究發揮北京呼吸疾病研究所的學科優勢,參考國內外現有標準建立呼吸專科醫學知識庫,對電子病歷中的專業名詞進行了標準化,使研究者可以通過標準術語進行數據查詢和篩選,提高科研數據質量。今后可以將呼吸專科數據標準進一步完善、推廣,建立區域、國家層級的通用標準,推動不同醫院間的數據共享和科研合作。
本研究基于呼吸專病醫療大數據綜合應用平臺的科研需求,構建了從多源數據整合、平臺對接、自然語言處理、數據轉換、數據清洗直到最終綜合應用平臺的全流程質量控制體系。應用后數據庫中重要臨床相關變量缺失率降低,檢驗、檢查、藥品、診斷等醫學術語基本實現標準化,可以支持呼吸專科醫護人員開展呼吸系統疾病診治相關臨床研究。
與既往質量評價系統相比,本研究構建的大數據平臺質控體系的主要特點在于全流程動態監控。針對數據整合、對接、轉換和清理各環節存在的主要問題設置相應質控條目,在每日獲取數據的同時動態監測數據質量。考慮到數據質量問題往往產生于實踐中,本研究以制度確保質控工作常態化,在科研應用中逐漸擴充質控條目體系。但現有質控措施主要解決數據提取和轉換過程中發生的各類錯誤,而不是臨床數據質量問題,例如病歷書寫不規范導致關鍵信息缺失或不準確等。質控系統有助于識別此類問題,通過反饋促使臨床醫生提高病歷書寫質量,增強標準化程度。今后可以通過建立專科電子病歷系統,特別是完善研究型病房住院電子病歷系統,從根源上加強原始數據填寫的規范性,確保后期應用于真實世界研究的數據質量。目前本研究構建的全流程質控體系主要適用于呼吸專科疾病的住院數據資源,未來可以和更多學科專業組對接,將醫學標準知識庫進一步擴展,建立并實施適合綜合醫院的多學科住院數據資源質控體系,這對促進綜合醫院臨床數據資源的轉化應用及學術影響力的提升具有現實意義。