□ 陳立雪CHEN Li-xue 王媛媛WANG Yuan-yuan 郝永秀HAO Yong-xiu 吳紅萍WU Hong-ping 李蓉LI Rong 遲洪濱CHI Hong-bin
隨著醫院信息化建設的快速發展,應用于醫療衛生領域的信息系統及大數據平臺不斷涌現[1],這些信息系統和數據平臺在獲取臨床診療信息和醫療衛生管理數據方面發揮著重要作用[2]。以輔助生殖技術(assisted reproductive technology,ART)為例,美國疾病預防控制中心自1995年起使用國家輔助生殖技術監測系統(national ART surveillance system,NASS)收集ART 數據,并實現與其他人口與健康監管系統進行數據匹配共享,從而對輔助生殖技術以及使用該技術生育的后代情況進行有效的監測和管理[3]。相比而言,我國相關領域的信息化建設亟需有效的技術手段支持,以實現生殖健康及重大出生缺陷防控信息化產品的快速發展[4]。
我國是出生缺陷高發國家,科技部從“七五”開始就一直對出生缺陷病因探討、臨床防治技術研發,以及部分防控出生缺陷的干預技術臨床轉化和應用相關研究提供了諸多專項資助[5]。為了整合覆蓋孕前、產前到出生后的全生命周期的出生缺陷數據集,國家衛生健康委統計信息中心牽頭,通過分布式架構的云平臺[6],建立集臨床數據庫、生物數據庫、基因數據庫等于一體的多維度出生缺陷數據庫集群。從而建立生殖健康及重大出生缺陷信息檔案[7],為我國出生缺陷防治提供科學依據和手段,推動出生缺陷防控工作統籌規劃。本研究以“生殖健康及重大出生缺陷防控研究”的大數據平臺建設為切入點,探討建立相對統一的大數據交互平臺質控管理方案,在不斷改善數據質量的同時,實現生殖健康數據共享。
重大出生缺陷大數據云平臺的應用研發是基于微服務的研發架構,通過定制化的數據對接和采集接口,實現高度解耦的功能設計、模塊建設和服務調用[6]。鑒于不同數據庫的數據格式、數據類型及數據維度上的差異,云平臺的智能接口系統通過高度自由的可配置界面,支持不同終端、不同渠道、不同規模的數據采集,結合區塊鏈技術實現上報數據的安全存儲、不可篡改與追蹤溯源。同時通過多樣式應用程序界面(API,Application Program Interface)的提供,實現不同數據庫間數據的協作與調用。基于以上系統技術構架,結合數據中心管理者和系統終端用戶的需求,建立一體化的質控管理方案。
遵循由美國著名統計學家沃特·阿曼德·休哈特(Walter A. Shewhart)提出,統計學家威廉·愛德華茲·戴明(William Edwards Deming)進一步完善的“策劃-實施-檢查-處置”循環(“Plan-Do-Check-Act”cycle,PDCA cycle),以及ISO9001 質量管理體系要求的過程、方法,建立醫療大數據交互平臺及切實可行、較為全面的質量檢查規則。
1.數據收集方案(Plan)。搭建一套穩定的大數據交互平臺,首先需要明確數據用途與需要采集的數據內容。針對涉及多學科、多病種的綜合數據平臺,設計樣本唯一、且可用于信息交互的樣本編碼。具體數據格式規范根據數據內容及特點設置為符號、語言文字、指令代碼等形式,盡量保證數據以友好的形式展示給使用者。為了保證平臺數據的自動識別和一致性,課題組提前準備好相關的培訓方案,以保證使用者能夠清楚了解數據信息含義,面對同一個事實,不會出現不同版本的數據。
1.1 數據準備方案。依照數據來源,以規范“數據上傳方”與“數據接收方”雙方數據及傳輸標準為基礎,按照數據產出和流轉的過程制定質量控制策略,詳見表1。
1.2 風險防范。(1)鏈接多學科或多病種數據的統一化處理方案。按照建設進度分類,交互平臺涉及的數據庫主要包括建設中的數據庫和已建成的數據庫。PDCA 循環可以處理平臺交互可能的風險。P 為數據庫規劃方案,對于未搭建數據平臺的學科或病種可直接以本質控方案為建設基礎,設計統一編碼、搭建數據平臺;對于已建成的數據平臺的,尤其是已經有一定數據存量的數據平臺,應該準確選擇諸如證件號、出生日期、姓名等多項備選編碼,為統一做準備。D 為不同數據庫的交互合并;需要注意平臺交互是需要使用唯一編碼,但是不能是僅一項編碼;只有多項聯合驗證與模糊匹配詳解和的方式,才能保證合并后數據庫的準確性并減少因無法合并造成的數據損失。C 為交互后的邏輯校驗,使用醫療檢查或者建病歷等日期類標識,加上年齡、性別、證件號碼提取信息等進行邏輯校正,檢查交互結果的準確性和可靠性。A 為交互結果報告與處理意見,對于可匹配的,由系統自動生成交互表(內含各數據平臺的唯一編碼及對應關系);不可匹配的給出原因,并將結果反饋至各學科或病種數據庫建設者,對系統進行漏洞修復或平臺升級;所有結果應編制生成統計報告,作為后續平臺使用和數據分析的基礎。(2)風險評估。首先,從隱私數據安全性、軟件運行環境安全性、漏洞修復機制和硬件維護4 方面進行數據收集體系的安全性評估。其次,為避免平臺正式運行后,因即時或長期的數據量限制引發的異常情況發生,制訂數據量極限值。再次,考慮到大數據平臺實際運行中各個環節可能出現的信息偏倚或錯誤,正式啟動實施之前,應對軟件中涉及的重點數據項容錯率進行合理的評估,并應用于后續的數據質控之中。(3)數據測試。在正式數據上傳之前各方應協商數據上傳測試方案;制定災難數據方案,至少2 輪的數據測試與溝通后可開始正式的數據上傳。進而評價已建立的軟件構架是否符合設計方案和實際預期。此外,標記數據風險點作為主要的質控內容在后續數據監測中使用。

表1 接收方與上傳方的數據準備方案
2.具體實施(Do)。數據平臺設計中必須涵蓋的數據結構包括:樣本的唯一編碼,數據采集時間點,計劃采集的數據項及結果;以及根據平臺的設計特點,重要指標應按照統一的標準進行歸類。數據采集與傳遞過程中,應確定數據平臺統一的樣本納入排除標準;所有負責數據采集傳遞的相關人員,經過均質化的培訓后,對數據標準的理解一致。之后按照計劃的數據上傳或接收模式進行真實樣本數據的上傳與接收;同時定期匯總數據采集情況,并反饋。
3.數據質控(Check)
3.1 完整性檢查。根據不同數據平臺的建設需要,明確設置每個樣本必填的數據項。必填數據項的完整性檢查,可優先通過軟件系統設置智能的質控檢查。系統自查時,發現存在必填項缺失的樣本,應賦予質控不合格的標志。若軟件系統不具備自動糾錯的功能,則需通過人工檢索的方式進行完整性檢查。無論用系統自查還是人工糾錯,凡是發現必填項有缺失的樣本,質控結果均為“不合格”。選填數據項可通過計算數據項完成率進行完整性檢查。計算時注意剔除因樣本自身限制而無法填寫的缺失數據。
3.2 邏輯性檢查。邏輯性檢查指相關聯的數據項中所填信息的邏輯關系是否正確。針對數據平臺中各數據項類型的不同(是否結構化),需使用不同方法進行邏輯檢查。結構化數據的邏輯檢查方法主要包括:軟件系統邏輯自查、邏輯互查和人工合理性糾錯三方面。
非結構化數據通常是數據質控的難點。針對這部分數據,應通過語言處理技術,對文本數據后結構化。根據提取到的重要信息生成新變量,之后再對所有數據項進行邏輯性檢查。不符合邏輯的數據條目再次核查,并爭取追溯原始數據。需要注意,邏輯性檢查中,可能由于邏輯規則設定欠完善,發現一些“假陽性”的錯誤。因此,有些檢查出的邏輯問題不能直接認定為數據錯誤或質控不合格,而是標記為“建議再次核查”。
3.3 準確性檢查。數據上傳方、數據接收方和平臺交互方需要做三方查驗,通常按照不低于5%的比例對數據樣本進行抽查。重點核對數據項定義內容是否有偏差、樣本的醫療邏輯是否合理。三方根據數據核查結果改進數據質控方式,校正數據庫或定義等相關內容。上傳方、接收方和交互方每年至少有1 次的溝通交流形式,交流數據相關內容,以期改進。
3.4 交互結果統計與數據導出。在完成數據質控檢查的同時,數據庫交互軟件本身的穩定性也需要質控。數據導出是把平臺中的數據導出成可供進一步分析使用的文件格式(excel 等)。軟件應該提供數據導出功能。當大數據云平臺有一定量的數據積累后,應定期通過導出的功能核查導出階段是否有數據損失。若發現異常,需聯系軟件公司處理漏洞。
4.云數據處置(Act)
4.1 數據清洗。基于不同數據平臺建設用途的不同,有的樣本數據來源是可溯源或重新核查的,而有的即使發現問題也難以重新核對原始數據。因此,數據質控后,需要根據數據情況和質控結果的不同分別進行數據清洗,包括:對缺失值和異常值的溯源填補;關鍵變量的邏輯校正;采用統計學方法根據數據缺失的機制和比例進行填補等。
4.2 交互結果處理。多數據庫平臺交互后交互成功并通過質控檢查的歸為可用數據;交互成功但是質控檢查未通過的歸為待查數據,交由平臺交互方進行二次人工核查;交互失敗的歸為不可用數據,交由數據接收方負責安排與上傳方核查原始資料并更正問題數據。
1.數據質量管理。經過一輪的“策劃—實施—檢查—處置”PDCA 循環,應該對數據平臺整體進行綜合的質量分析和評價,具體質控點見表2。

表2 數據質量管理評價節點
從微觀的角度,針對云平臺中的某一個數據樣本的質控評價,可以得出質控合格率。質控合格的,歸為可用數據;質控不合格的,返回數據收集和整理部門,確定是否重新采集。從宏觀的角度,每一次循環都能發現整個質控體系可能存在的一些問題,或提出更高效的質控流程,從而對數據庫以及質控方案整體進行新一輪的優化和提升(見圖1)。

圖1 數據庫質量優化過程解析
2.組織與制度。基于PDCA 形成的各項組織與制度的建立,能夠有效的保障數據平臺平穩運行,制度列表見表3。

表3 組織與制度清單
3.規范與技術。醫療大數據平臺的建立與運行,應該嚴格遵循各醫療學科或病種的技術規范,設計唯一的交互編碼(或交互編碼組)與交互規則。這樣才能保證數據庫的真實性和可利用性。例如在數據平臺設計或數據質控處理時,可通過國際通用的ICD-10 編碼對疾病的種類或診斷進行區分或結構化處理。數據平臺中的關鍵內容應該做到有章可循,有規范可依。
此外,醫療領域尤其注重患者信息安全與隱私保護。一方面,數據平臺軟件的設計應按照各項醫療技術的信息安全要求和患者因素保護制度,通過加密算法或個人數據的匿名化,對隱私數據進行加密處理;另一方面,質量控制過程中涉及到的諸多環節的操作,也應該遵循隱私保護的原則,建立合理的安全驗證和信息流轉制度。
1.統一的交互編碼規則是大數據交互平臺質控的關鍵。目前我國包括“出生醫學證明”等國家級出生缺陷監測數據庫在內的諸多研究型醫療數據庫,均較為分散且來源不同[8],在數據信息項和格式、疾病判斷標準及依據、觀察期限及觀察節點、數據采集和上報方法、每個數據庫各自的質控方案等均各不相同。因此,本研究基于重大出生缺陷防控大數據云平臺包括先天性心臟病、神經管缺陷疾病、唇腭裂等多個數據庫的建設,通過確定統一交互編碼(或交互編碼組)和交互規則,制定大數據交互平臺質量控制方案,為實現各類醫療大數據平臺中數據的可靠性提供有效保障。
2. PDCA 循環可持續改進醫療大數據交互平臺的質量。隨著信息化技術在各領域的廣泛應用,已有研究將PDCA 循環運用到信息化技術中[9],但尚無針對醫療大數據交互平臺的詳盡的質控方案研究。本研究以PDCA 循環和ISO9001 質量管理體系方法論為理論基礎,形成包括數據質量管理體系、組織與制度、規范與技術三位一體的大數據質控體系,確保數據的規范性、完整性、準確性和一致性。
數據平臺質量控制的很多步驟都涉及數據庫的維護與管理。在數據庫的使用過程中,使用者通常需要循環往復的補充和更新數據,修正錯誤數據,刪改過時或失效的數據等。因此,這種基于PDCA 循環的醫療數據庫管理不是一朝一夕所能完成的。只有按照一定的質量控制規則和標準,采取適當而有效的質量控制措施,才能構建起嚴密的質量控制體系,進而不斷優化數據質量、逐步建成高質量的大數據庫,持續提高醫療大數據交互平臺的數據質量與使用效率。
3.PDCA 循環是醫療信息及時共享的基礎與保障。醫療數據庫體量巨大且具有多樣性和可變性[10],PDCA 循環可以相對及時的發現數據庫中可能存在的問題,并及時對數據庫的質量或可用的數據集給出指示或判斷。已有研究提出,多方位的臨床大數據研究對于構建重大疾病的分析模型,以及解決臨床醫療和科研業務之間的矛盾有著重要的意義[11]。但是,如果想整合不同學科、臨床或科研等不同來源的醫療數據到同一個數據平臺上,幾乎是不可能的。若改換思路,以質量控制為抓手,建立相對統一的交互編碼體系與質控標準,不斷優化和統一質控要求,進而可以為實現多種類多來源的大數據共享提供可能。