龍思哲 李朵 林琳
目前,為響應國家政策及醫院自身業務發展需求,醫院已開展了多年的信息化建設工作,各信息系統在日常業務中產生的數據不斷積累形成的健康醫療大數據。健康醫療大數據優點明顯高于傳統統計數據,其除了具有獲取效率高、數量量大以及外推性好的優點外,還具有覆蓋范圍廣等優勢。但是其也存在很多問題,比如除了數據分散、數據來源多樣等問題外,還存在信息系統數據共享性低等問題,又或者是存在大量非結構化信息融合難度高等問題[1-2]。醫學大數據不僅具有傳統大數據的5V特征,也自身典型特征,對于非顯性價值信息的運用,需要建立合適的分析模型,運用相應的技術進行提取有效的信息分析,否則不能直接運用。同時,數據質量也要嚴格把關,數據出錯,極大可能引起一系列連鎖反應,造成結果的不真實性[3]。
健康醫療大數據平臺是大數據收集及分析、實現全面醫療管控的重要工具之一,其構建期間因具有各種缺點導致臨床醫學研究發展受到阻礙,其中包括健康醫療大數據價值較低,質量差,且沒有統一標準進行制約而導致,因此也限制了醫療服務。醫療機構監管、等二次利用數據的開展實施[1]。大數據醫療服務具有多項功能,具體包括能夠影響分析以及血緣分析功能,此外還能通過治理數據來賦予該平臺數據流視圖,從而使醫療數據具有一定審計跟蹤功能等[4]。本文通過借鑒真實世界數據(real world data)實現臨床數據交換標準協會(Clinical Data Interchange Standards Consortium, CDISC)的成功應用案例,探討真實世界健康醫療大數據的可追溯能力,以提升健康醫療大數據質量,為后續研究工作提供便利。
健康醫療大數據具有多項業務功能,其中包括公共衛生、計劃生育、傳統醫療服務以及綜合管理等,此外其向外可延伸至人工智能、互聯網、藥品管理等領域,應用信息網絡技術產生的與健康醫療相關的海量數據,是健康醫療行業治理、真實世界研究、衛生醫療服務提升等應用的重要資源[5]。就目前來看我國對健康醫療大數據的理解存在一定誤區,其中最主要的為兩點內容:(1)忽略了非臨床數據;(2)將健康醫療大數據與臨床數據放到同等位置。
健康醫療大數據來源在我國進行收集統計工作已經數年,其具有收集統計量工作大、來源廣泛等特征,就目前來看我國健康醫療大數據來源包括多項方面:(1)生物數據庫:其作用在于記載各類生物信息;(2)醫療結構臨床資料:一般情況下患者入院時醫生都需要對其進行居民健康檔案、電子處方、電子病歷、居民健康卡以及藥物服用等特點,這些均屬于健康醫療大數據;(3)非健康數據:包括睡眠枕、睡眠床墊以及動手環等,其作用在于能夠及時利用家用健康設備進行數據采集;(4)健康管理app、微信公眾號以及小程序均屬于網絡移動數據,該網絡平臺的作用在于記錄患者各方面數據,包括醫療、體征以及檢測等;(5)公共衛生資料,其中包括患者日常就診記錄,一般資料以及過往疾病歷史等;(6)基因庫以及基因信息;(7)包括會議論文、文獻以及醫療指南等醫學知識庫。
健康醫療大數據不僅具有傳統大數據的5V特征,即數據體量大(volume)、處理速度快(velocity)、數據類型多(variety)、低價值密度(value)、真實性強(veracity),還具有以下幾種特性。
1.3.1 復雜性 醫學術語涉及國內和國外醫學術語及中文與外文表達表述方式,其中存在多種問題,例如常見的有屬于標準存在分歧,中外文表達方式存在不同,此外還存在因更新速度過快導致醫學術語表達意思與實際語義存在不同。通常情況下患者在醫院診治過程中常常患者作為中心,醫生根據患者病情從多個維度來分析醫療數據。因數據產生的格式和要求不同,使得數據中存在大量非結構化、半結構化數據,顯著提高了健康醫療大數據的復雜性,對后期數據處理和分析有更嚴格的要求[6]。
1.3.2 時效性 每個人的健康疾病狀態均會隨時間不斷變化,并非固定、靜止的。健康醫療大數據結合相關技術在恰當時間進行數據采集和處理,可有效獲取數據的動態變化,增強數據的時效性,為后期應用提供更準確的數據信息[7]。
1.3.3 不完整性 無論是手工記錄或借助于電子化方式記錄健康醫療大數據,均會因各種原因導致數據不全或在記錄過程中出現紕漏缺失造成數據不完整。
1.3.4 隱私性 健康醫療大數據中包含著患者檢查、診斷、治療、費用等大量隱私、敏感信息,甚至涵蓋著人類遺傳資源信息,通過數據分析和挖掘使得健康醫療大數據的隱私性呈現暴露化狀態,可增加數據泄露、誤用、濫用等不良事件的風險,使得健康醫療大數據在使用時的安全和倫理問題更為凸顯[8]。
1.3.5 封閉性 醫院在信息化建設過程中缺乏全面系統的數據共享機制,且各信息系統間有相對獨立的信息標準,導致各系統間數據互聯互通程度較低,存在“孤島效應”,使得健康醫療大數據具有封閉性[9]。
1.3.6 海量性 理論上,健康醫療大數據可以具有TB甚至PB級的數據量,可涉及一個國家、地區的幾家或所有醫院的部分健康人群或所有人群,甚至僅僅是一家醫院的全部臨床醫療數據。實際上,一家中型醫院一年即可產生高達幾十TB的包括影像數據在內的醫療數據,就算去除關鍵的影響學數據,也有數百G的數據量,現如今我國大多醫院都不僅單個部門的數據,而是多個醫院數據進行聯系。
1.3.7 追蹤性 個體醫療健康大數據包括一系列內容,患者的臨床數據資料也是根據時間進行排列,其中健康大數據一系列生命過程所產生的多點數據,包括人類出生、幼兒保健、注射疫苗、入學體檢、畢業工作體檢、看病、飲食情況、睡眠情況以及住院等多種情況,其中醫院就診中心電圖數據需持續性進行觀察,通過數據觀察后來分析病人自身情況,也就是具有一定的追蹤特性。
數據標準化以及結構標準化能確保數據質量得到保證。伴隨互聯網科技發展,不同來源的醫療數據在后期應用中很難實現,為此為了解決這一問題就需要高校追溯數據來源,確保數據來源達到可視化。其目的在于方便在后期過程中能夠直接查找到相應的數據,從而達到減輕行業專家負擔的作用。因人工標注工作效率較低無法滿足醫療數據治理過程中對海量數據進行標注的需求,而半自動或自動的標注方法對海量數據進行標注可顯著提高數據治理效率,且可以為后續相關研究提供高質量數據[10]。通常臨床數據提交具有一定規則和要求,通過分析和完善相關規則能真實的反應數據情況,然后通過給予藥物治療疾病的臨床特征、有效療效評價指標等也逐漸得到重視[11-12]。真實世界數據作為CDISC項目之一,其目的是在電子健康記錄或其他衛生信息系統中收集相關數據,應用到關鍵的可拓展用途中,如疾病登記、安全報告、臨床研究及生物監測。
本研究以某省會城市某片區15家醫療機構現有醫院信息系統(hospital information system,HIS)系統數據為基礎,將所涉及的相關數據依據國家頒布的數據標準進行標準化及半自動化融合處理。通過對原始數據及數據模型的管理,賦予該數據治理平臺以下功能:(1)提取原始數據的字段、表、表間關系;(2)構成能夠對每個表和字段標注業務名稱及備注的原始數據庫數據模型;(3)提供根據業務名稱或字段和表名稱進行搜索的功能;(4)通過對字段和表的增加、刪除及修改管理數據模型的功能。
在數據采集過程中,該數據平臺對數據庫中的用戶開放賬號權限表進行數據采樣,將已存在的業務術語關聯至對應的基礎數據中,通過數據源映射至業務術語生成新的目錄。為了將不同醫療機構的信息系統產生的數據融合成統一的格式,達到數據交換的目的,該數據平臺通過自然語言處理(natural language processing,NLP)算法對數據進行去重、梳理、消歧、歸一等,將整理后的業務數據模型添加到知識庫中,在將數據依據對應的業務數據模型抽取、清晰至目標數據庫中,并對數據采集過程的目標數據庫(extract-transform-load,ETL)采取了透明化操作管理,使數據采集過程可視化,檢索效率隨之提升[13-14]。將融合整理后的數據信息按照公共衛生、藥品使用情況、慢病管理等主題進行分類,后期數據分析以業務需求為導向,不同業務部門根據其業務需要進行數據篩選,進而規劃醫療數據全景圖進一步提煉有價值數據,最終梳理出健康醫療數據集市,在數據集市中抽取某分類下所需要的數據進行可視化計算。通過對該健康醫療大數據平臺進行治理,可顯著提高數據的準確性、完整性、一致性、合理性及時效性,達到提升健康醫療大數據質量的目的。并且健康醫療大數據平臺可通過追溯數據來源達到數據質量控制的要求,通過患者、病種及科室能查看到該區域的醫療信息[15]。例如,通過搜索功能查看某一時間段該區域各醫療機構糖尿病患者就診人數,為后期醫療資源分配等提供相關信息。
現階段屬于健康醫療與互聯網相互聯系的階段,構建大數據數據庫作為全球性范圍內各個醫療機構的方向,其作用在于構建信息網、采集人物相關信息等作用,使現有的健康醫療大數據呈指數級增長。因大數據本身除了具有分散、冗雜等特征外,導致很難順應時代發展,導致其準確度較低。此外因大數據因數據質量不高,其準確度較低,一致性較差,嚴重情況時可能導致不能及時分析各種業務,一定程度也阻礙健康醫療發展。構建大數據數據庫的缺點也會影響健康醫療大數據平臺正常運營。與此同時使采集到的信息具有不確定性,導致的結果是影響數據質量,數據質量與信息的準確度、精準度及輸出的正確性密切相關。健康醫療大數據的分析、信息導出的結果對人們的身體健康產生直接影響,因此對于數據質量有極高的要求。提高數據質量的方法之一是制定標準化管理,如在各個信息系統中的主數據、元數據等規范化填寫。此外,對數據的使用進行審批流程化管理,制定各種情況下的審批流程的方案,具體詳細限定數據使用人數,并落實負責執行數據標準、數據更新和數據質量跟蹤的責任部門和人員。數據治理由信息流程秩序管理進一步發展至信息價值開發。
本文通過建立數據可追溯性全鏈的可視化平臺,使該健康醫療大數據平臺達到數據質量控制的要求,并提供數據采集、統計等功能,為數據應用提供結構映射、生命周期管理等。該健康醫療大數據平臺通過建立跨系統或機構的識別規則,在跨系統或機構數據融合過程中實現較高質量的數據整合,從而達到數據采集的時效性和一致性,以滿足后期不同數據分析和應用的需求。