999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于既有醫療數據構建研究型數據庫的方法學探討及實例解讀(二):數據治理的方法

2023-09-25 06:51:32趙國楨閆世艷郭玉紅宋爽胡雅慧郭詩琪徐霄龍葉浩然朱泠霏杜元任志穎盧海天胡晶李博劉清泉
中國中醫藥信息雜志 2023年9期
關鍵詞:數據庫

趙國楨,閆世艷 ,郭玉紅 宋爽 ,胡雅慧 ,郭詩琪 ,徐霄龍 葉浩然 朱泠霏 杜元 任志穎 ,盧海天 胡晶李博劉清泉

1.首都醫科大學附屬北京中醫醫院,北京市中醫藥研究所,北京 100010;2.北京中醫藥循證醫學中心,北京 100010; 3.北京中醫藥大學,北京 100029; 4.天津中醫藥大學,天津 301617

隨機對照試驗(randomized controlled trial,RCT)一般被認為是干預措施療效和安全性評價的金標準[1]。但因其外推性較差、對于某些疾病領域難以實施、人力物力成本較高等因素,存在一定的局限性。如開展中醫藥RCT時,由于存在辨證論治的特點,若對患者證型加以限制,會增加患者招募難度,延長試驗周期;而不對證型進行限制,又可能低估中醫藥干預措施的實際療效。考慮到中醫藥在臨床實踐中被大量使用,具有較豐富的醫療數據,研究者可通過真實世界研究(real-world study,RWS),利用臨床實際產生的數據,系統性地收集、治理并分析,形成真實世界證據(realworld evidence,RWE),與RCT互補,為醫療衛生決策提供證據支持[2]。相較RCT,RWS可有較為寬泛的納排標準,但仍需科學合理的研究設計,以及完整、可靠的數據來源[3]。因此,基于真實世界數據(realworld data,RWD)開展嚴謹的數據治理工作,構建高質量的研究型數據庫,是進行RWS的關鍵基礎[4]。目前,國內已有多篇相關技術規范,指導研究型數據庫的建設[4-5]。但因中醫藥RWD的復雜等特點,數據治理過程仍面臨困難。

本文以“中西醫結合治療新型冠狀病毒感染研究型數據庫”為例,對基于既有醫療數據構建研究型數據庫中數據治理的方法進行探討。本研究經首都醫科大學附屬北京中醫醫院醫學倫理委員會審查批準(2022-BL02-033-01),并在中國臨床研究注冊中心注冊(ChiCTR2200062917)[6]。

1 相關概念和總體設計

和既有醫療數據比較,研究型數據庫具有基本明確研究目的和研究對象、確定研究變量、數據格式統一、完成數據脫敏及異常數據清理等特點。為實現這些特點,嚴謹的數據治理工作是必要的。數據治理指針對特定臨床研究問題,為達到適用于統計分析而對原始數據所進行的治理[7]。數據治理主要包括4個步驟:數據鏈接、數據提取、數據核查及數據清理,具體工作內容見表1[4]。各步驟間存在區別,但實施時易相互混淆,導致步驟遺漏,如人工數據提取后未進行數據核查及清洗。高質量研究型數據庫的每一個變量均需按照上述步驟逐一完成。

表1 數據治理各步驟的主要工作內容

2 數據鏈接

構建研究型數據庫的原始數據常多源,如電子醫療記錄、患者自行報告的中醫癥狀及舌象記錄等,且研究型數據庫通常包含多個變量集和數據模塊,因此需要通過鏈接變量實現數據鏈接。原始數據中可能存在多組鏈接變量,如以病案號鏈接病程記錄數據、以標本號鏈接實驗室檢查數據等。但在研究型數據庫中,通常以一個準確的、無重復的、唯一的患者識別碼(identification number,ID)為鏈接變量,實現各變量集和數據模塊的鏈接。

數據鏈接的工作核心是對患者ID進行治理。患者ID是既有數據的一部分,也會出現重復、矛盾、缺失等問題。錯誤的患者ID會導致數據鏈接錯誤,給其他數據的治理過程帶來困難,因此需先對患者ID進行核查及清理。課題組提出“縱向鎖定”方法,即在數據治理前需先明確既有數據中所包含的與本研究相關的全部患者及其ID,即使該患者只在一個數據集中被提及。在待建的橫截面數據集中,這些患者ID會形成一個無缺失的、無重復的縱向序列,并在全部橫截面數據集中該序列完全相同。這一縱向序列在后期數據治理過程中,無論如何調整數據庫變量都不應發生改變,成為“鎖定狀態”,故稱為“縱向鎖定”。

以本課題涉及的一家醫療中心數據為例,構建數據庫所使用的既有數據包括入院記錄數據、出院記錄數據、死亡記錄數據、病案首頁數據、病程記錄數據、醫囑單數據、實驗室檢查數據、影像學檢查數據共8個來源。首先對各來源數據集中的患者ID進行核查及清理,使其格式相同且與患者準確對應;接著在既有數據集內對ID進行去重,再將不同數據集的ID合并、數據集間去重、排序;最終形成該中心全部患者ID的縱向序列。具體流程見圖1。

圖1 患者ID縱向序列確定流程

3 數據提取

3.1 數據提取方式

原始數據通常從臨床中采集,但并非所有原始數據都被用于數據庫建設,因此需按照預設的數據提取表進行數據提取。數據提取可分為以下3種方式:計算機提取、人工提取和兩者的結合。3種數據提取方式的優缺點及舉例見表2。數據提取時,應根據待建數據庫的變量格式和既有數據庫的變量格式共同確定提取方式。對于結構化程度高的數據,如醫囑、實驗室檢查數據,可直接使用計算機提取;對于非結構化數據,或需要復雜邏輯判斷數據,如從病程中提取癥狀、生命體征數據,通常使用計算機和人工結合的提取方式,即先通過計算機技術對其預處理,如關鍵詞抽取、文本切割等,再通過人工方式進行數據提取;本課題多采用兩者結合方式提取數據。

表2 不同數據提取方式對比

數據提取期間需重點關注的是,凡涉及到人工操作,就會因知識基礎和對具體操作方法的理解不同,造成不同研究人員的提取結果存在差異的情況。減少差異的最佳方式是采用雙人背靠背獨立完成數據提取,再相互比對,但該方法較為耗時耗力,在數據量較大時難以實施。本課題根據實際情況,采取培訓、預提取、格式限定、定期討論、不定期抽查等方法,盡可能降低由于不同人員操作引起的差異。

以生命體征數據集中的血氧飽和度變量提取為例。對比多源數據可靠性后,選擇從病程記錄數據提取生命體征數據。考慮病程記錄數據為非結構化文本數據,因此選擇計算機和人工結合的提取方式。首先通過計算機對病程記錄數據預處理。通過數據對比,病程中與血氧飽和度相關的關鍵詞包括“SPO”“SPO2%”“血氧”“指氧”“脈氧”等42種。使用計算機截取各關鍵詞后的10個字符,從字符中提取數字,得到初步結果,再進行人工提取。提取前對全部參加數據提取工作的人員開展培訓,詳細講解數據提取方案和規則,并對5%的數據進行預提取。預提取后由數據核查團隊逐一核查預提取結果,總結錯誤及錯誤原因,并通過小組會議進行講解和討論。同時,課題組對數據提取格式進行限定,在電子數據提取表中僅可以填寫0~100的整數,否則系統會提示并自動清空已填寫數據。

3.2 數據提取順序

構建研究型數據庫時,各數據集的數據提取順序沒有嚴格要求。但部分數據集中的某些變量會用于其他數據集變量的衍生計算,因此需先行提取。如本課題縱向數據集中的時間變量及橫截面數據集中的“住院天數”“生存天數”“首次服用中藥時的住院天數”等變量,其衍生運算需要基于患者基本信息數據集中的“入院日期”變量,因此優先對患者基本信息數據集、醫囑單數據集和病程記錄數據集開展數據提取工作。

3.3 數據脫敏處理

數據脫敏是保障醫療數據安全的重要途徑之一[8]。需進行脫敏的數據包括且不限于患者及聯系人姓名、患者家庭及工作地址、患者及聯系人聯系方式、患者身份證及社保卡號、患者出生死亡及出入院日期、醫護人員姓名及工號、住院科室等相關信息。

數據脫敏處理應在保證數據有效性的前提下進行。數據脫敏的具體方法主要分為5種。①抑制:全部或部分刪除敏感信息;②去標識化:用“*”替換敏感信息;③替代:使用偽裝數據、假名替換原數據中的敏感信息;④數值變換:對日期類型的敏感數據,可通過加減同一個隨機天數,實現脫敏;⑤泛化:對數據進行抽象或概括性描述處理,如詳細住址可泛化為“北京市東城區”。

4 數據核查

不同提取方式得到的數據均存在數據錯誤的可能性,且與前瞻性研究收集的數據相比,既有醫療數據出現錯誤的可能性更高,因此有必要開展數據核查。數據核查的難點在于確定核查范圍,范圍過小會遺漏錯誤數據,范圍過大會消耗不必要的人力和時間。

本課題根據數據情況,采用抽樣核查和全面核查相結合方式。抽樣核查指以系統抽樣方式隨機抽取一定比例數據進行核查,多用于邏輯復雜的數據,如核查人工提取數據的準確性,通常為人工核查;全面核查是對該變量的全部數據進行核查,多用于邏輯簡單的數據,如醫囑單中各醫囑執行時間是否在入院日期及出院日期之間,通常用計算機核查。但對于非常關鍵的變量,如主要結局指標等,通常也會進行人工全面核查。在抽樣核查時可先確定一個較低的抽樣比例,以盡可能減少工作量,但核查期間若發現某個條件下多次出現問題數據,可針對這一條件的數據提高抽樣比例,甚至對該條件下的全部數據進行核查。

抽樣核查以中醫治療數據集的“連花清瘟膠囊使用情況”變量為例。該變量由計算機結合人工的方式,從醫囑單、病程記錄等多源數據中提取。核查組首先以5%比例進行抽樣核查,發現少量自備藥患者,由于醫囑單中缺少自備藥的備注數據,且病程記錄中誤寫為“蓮花清瘟膠囊”,故先前未識別出患者服用該藥物,被錯判為“未使用”。因此,對病程記錄中“蓮花”等關鍵詞補充檢索并重新提取相關數據。數據提取完成后對該變量再次核查。

全面核查以生命體征數據集為例。該數據集為縱向數據,關鍵變量包括體溫、呼吸頻率、心率、收縮壓、舒張壓和血氧飽和度,采用計算機與人工結合的方式從病程記錄數據集中提取。除抽樣核查數據提取準確性外,該數據集還采用計算機對極端值、缺失值、矛盾數據進行全面逐一核查。

5 數據清理

數據清理的重點在于對核查出的各種問題數據制定恰當的清理規則。問題數據主要包括:非標準化數據、重復數據、矛盾數據、極端值和缺失值。數據清理應保證數據的真實性和可溯源性,即在清理期間,保存原始數據,并記錄數據清理流程,以供后期使用。

5.1 非標準化數據

數據標準化也稱為數據的一致性處理,如記錄格式統一、編碼統一等[5]。如本課題中的日期類型變量,該變量在SAS9.4軟件中可有多種格式,不同格式包含的信息及表達方式存在差異。本研究統一采用“YYMMDD10.”作為日期類型數據格式。

5.2 重復數據

重復數據指多個不同來源的數據引起的變量和數據重復[5]。若變量的多源數據一致,一般不做特殊處理;但若變量的多源數據不一致,則需對比不同來源數據的質量,建立矛盾重復數據優先級,刪除重復變量。部分重復數據還會因患者ID錯誤引起,本課題已對患者ID進行“縱向鎖定”,因此不會出現該問題。

以基本信息數據集的“入院日期”變量為例。該變量共有6個數據來源:入院記錄、出院記錄、死亡記錄、病案首頁中的入院日期變量,以及首次病程記錄日期、首次醫囑單日期。經數據質量評價,以上6個變量均有較好的可靠性。課題組將同一患者的6個數據進行比對,發現以下2個問題:

首次醫囑日期與入院日期不符。根據臨床實際情況,首次醫囑日期應該是入院當天,但部分患者的首次醫囑日期是在入院日期的后1天。通過進一步查看這些患者的既有數據,發現其入院時間均在22點30分以后,首次醫囑時間均為次日凌晨,符合邏輯關系,因此仍以原有入院日期為準。

病案首頁入院日期與其他來源不符。通過多源數據對比,發現極少數患者病案首頁的入院日期比入院記錄/出院記錄的入院日期晚1天。通過查看既有數據,這些患者的首次醫囑日期與病案首頁的入院日期相同,且首次病程、主治醫師查房記錄的日期符合病案首頁入院日期的邏輯關系,最終確定以病案首頁來源的入院日期為準。

5.3 矛盾數據

矛盾數據也稱為邏輯錯誤數據,主要指變量之間不符合邏輯關系。通常需要對矛盾的各數據分別核實,找到矛盾的原因,并對數據進行修正。

如在基本信息數據集中,有個別患者既存在出院事件又存在死亡事件,2個變量矛盾。對2個變量的數據來源進行核實,發現這些患者既有出院記錄,又有死亡記錄,仍存在矛盾。進一步核實病程記錄數據集,根據末次病程記錄獲得患者真實轉歸情況,對出院事件、死亡事件的變量數據進行校正。

5.4 極端值

極端值也稱為離群值或奇異值,指某一變量中遠大于或遠小于其他數據的數據。極端值可分為人為極端值和自然極端值。自然極端值建議采用穩健的統計方法進行分析;人為極端值需經核實后進行校正[5]。

如生命體征數據集中的體溫變量(℃),觀測值出現“63.4”“364”等極端值,經課題組比對鄰日體溫、討論后認為該觀測值為人為極端值,均應為“36.4”。需注意的是,極端值不代表數據一定錯誤,但出錯的可能性較高,應對其逐一清理。

5.5 缺失值

缺失值在臨床研究中是一個不可避免的問題[9]。處理缺失值的最好方式是避免缺失值產生,如在回顧性研究中應盡可能對缺失值進行溯源,但通常情況下難以實現,因此需在統計分析階段對其進行處理。

如本課題對于非結局指標類變量,根據變量類型采用均值、中位數、眾數等簡單且保守的填補策略;對于結局指標類變量采用多重填補法,并對不同填補結果開展敏感性分析。

6 小結

在確定變量清單和數據庫架構后,應開展數據治理工作[10]。良好的數據治理,可為后續研究提供準確的、可靠的數據,是開展高質量RWS的重要基礎。數據治理的難點可概括如下:①以唯一、無重復的患者ID序列進行數據鏈接,并“縱向鎖定”;②盡可能減少不同操作人員在數據提取時的差異;③根據研究需要選擇恰當的數據核查范圍;④對不同類型的問題數據制定恰當的清理規則。

本文在數據提取部分,介紹了不同研究人員進行人工操作時存在差異的問題,以及減少這些差異的方法。在數據核查和數據清理階段,同樣會涉及人工操作的差異化問題。此時,仍可采用雙人背對背完成、培訓、數據預提取或預清理、定期討論、不定期抽查等方法,以盡可能提高操作的同質性,減少人為誤差。

中醫藥RWS在數據治理及數據衍生階段仍面臨一些困難。如中醫四診數據多從病程記錄中提取,但由于不同醫生對四診信息的記錄存在差異,且原始數據的準確性和完整性普遍不高,通常難以獲得可靠的四診信息。此外,中醫治療數據可能涉及患者服用的真實草藥處方,這些處方基本不同,難以開展下一步研究。本課題組嘗試使用其他來源數據對四診信息進行補充;采用相似度匹配算法對草藥處方進行分類[11],以“類方”的形式開展研究等方法解決上述問題。但如何建立高質量的中醫藥研究型數據庫,并在此基礎上開展高質量中醫藥RWS,仍需要臨床、方法學、信息學、統計學等多學科專家共同探索。

本文以“中西醫結合治療新型冠狀病毒感染研究型數據庫”為例,對基于既有醫療數據建立研究型數據庫中數據治理的方法及難點進行介紹。本文介紹的數據治理方法及案例可供開展RWS的研究人員參考。

猜你喜歡
數據庫
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
兩種新的非確定數據庫上的Top-K查詢
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
數據庫
財經(2015年3期)2015-06-09 17:41:31
數據庫
財經(2014年21期)2014-08-18 01:50:18
數據庫
財經(2014年6期)2014-03-12 08:28:19
數據庫
財經(2013年6期)2013-04-29 17:59:30
主站蜘蛛池模板: 国产成人乱码一区二区三区在线| 国产精品一区二区国产主播| 欧美成人午夜影院| 囯产av无码片毛片一级| 无码精品国产dvd在线观看9久 | 麻豆精品在线视频| 中文字幕 91| 久久中文字幕2021精品| 久久久久亚洲AV成人人电影软件| 国产菊爆视频在线观看| 毛片一级在线| 国产成人福利在线视老湿机| 免费 国产 无码久久久| 亚洲天堂视频网站| 992tv国产人成在线观看| 亚洲国产成人自拍| 2021国产乱人伦在线播放| 免费中文字幕在在线不卡| 国产精品专区第一页在线观看| 国产第四页| 欧美亚洲国产一区| 免费又黄又爽又猛大片午夜| 亚洲AV色香蕉一区二区| 精品1区2区3区| 亚洲国产精品无码AV| 精品少妇人妻一区二区| 风韵丰满熟妇啪啪区老熟熟女| 亚洲人成网站色7777| 国产精品主播| 午夜国产精品视频| 少妇精品久久久一区二区三区| 欧美日本在线一区二区三区| 精品一区二区三区中文字幕| 欧美一区二区三区国产精品| 国产网站免费看| 91亚洲视频下载| 99精品国产电影| 国产办公室秘书无码精品| 九色视频一区| 精品视频第一页| 全部无卡免费的毛片在线看| 好吊色妇女免费视频免费| 日韩精品免费一线在线观看| 国产乱码精品一区二区三区中文 | 日本一区高清| 91国语视频| 久久鸭综合久久国产| 秘书高跟黑色丝袜国产91在线| 亚洲国产AV无码综合原创| 国产成人三级在线观看视频| 五月婷婷伊人网| 综合五月天网| 亚洲国产精品日韩欧美一区| 久久久久夜色精品波多野结衣| 九色91在线视频| 97国产在线播放| 欧美一区二区三区国产精品| 中文字幕欧美日韩| 国产青榴视频在线观看网站| 国产综合另类小说色区色噜噜| 丁香综合在线| 欧美成人一级| 青青草一区| 任我操在线视频| 亚洲无线国产观看| 国产微拍精品| 国产内射一区亚洲| 午夜激情婷婷| 亚洲第一黄片大全| 精品小视频在线观看| 黄片在线永久| 午夜精品区| 无码网站免费观看| 超级碰免费视频91| 国产成人精品在线| 国产成人精品一区二区| 99久久亚洲综合精品TS| 亚洲经典在线中文字幕| 特黄日韩免费一区二区三区| 影音先锋丝袜制服| 国产尤物在线播放| 色综合久久88色综合天天提莫 |