侯 麗 洪 娜 李露琪
(中國醫學科學院/北京協和醫學院醫學信息研究所 北京100020 (神州數碼醫療科技股份有限公司 北京 100086) (中國醫學科學院/北京協和醫學院醫學信息研究所 北京100020)
唐靈逸 翁春華 蔣國謙 李 姣 錢 慶
(德州大學休斯敦生物醫學信息學院 美國休斯頓 77030) (哥倫比亞大學美國紐約 10027) (梅奧醫學院美國羅徹斯特 55905) (中國醫學科學院/北京協和醫學院醫學信息研究所 北京100020)
伴隨全球范圍內醫療衛生信息化建設進程不斷加快,以患者為中心的醫療健康數據迅猛增長,不僅規模巨大,且呈現出類型多樣、結構復雜、存儲分散等特征,對醫療健康數據的存取、利用、分析和臨床循證研究帶來巨大挑戰。醫療健康數據的有效利用關系到國家乃至全球在疾病防控、臨床輔助診斷、藥品監督以及精準醫療等多方面的能力,受到各國政府和醫療研究者的極大關注,多維數據采集、多源異構數據互通互聯、標準化處理以及開放賦能是促進其合理有效利用,發揮其潛在價值的關鍵步驟。
美國聯邦政府一直努力保障所有相關利益方都能夠獲得標準格式的醫療健康數據,如健康數據計劃(Health Data Initiative,HDI)通過HealthData.gov網站發布各種標準化格式的數據(包括各種聯邦數據庫、臨床服務提供者相關信息等),針對開發者提供編程訪問接口,以確保數據能夠被機器可讀及應用程序可下載或訪問;英國政府投入建立的國民醫療服務系統(National Health Service,NHS)記錄龐大而完備的標準化醫療數據,在保密準則和法律規范的保障下,分類開放以用于公共衛生服務、醫藥制造等研究中[1]。而我國在《中共中央 國務院關于深化醫藥衛生體制改革的意見》中也強調“建立實用共享的醫藥衛生信息系統。大力推進醫藥衛生信息化建設,以公共衛生、醫療、醫保、藥品、財務監管信息化建設為著力點,整合資源,加強信息標準化和公共服務信息平臺建設,逐步實現統一高效、互聯互通”[2]。由此可見,研制和應用統一的數據標準和規范是實現衛生信息化互聯互通、信息共享的基礎。
2.1.1 簡介 觀察性健康醫療數據科學與信息學計劃 (Observational Health Data and Informatics, OHDSI)是由美國食品藥品管理局(Food and Drug Administration, FDA)IMEDS(Innovation in Medical Evidence Development and Surveillance)計劃和Reagan-Udall基金會支持,哥倫比亞大學牽頭,融合多學科領域專家共同參與,進行跨學科合作研究的全球性非營利科研組織,作為一個世界性的公益型非營利性研究聯盟,主要研究全方位醫療大數據分析的開源解決方案,旨在通過大規模數據分析和挖掘來提升臨床醫療數據價值,實現跨學科、跨行業的多方合作。其目的是繼承并發展前期觀察性醫學產出合作項目 (Observational Medical Outcomes Partnership, OMOP) 的核心研究成果,其中OHDSI通用數據模型(Common Data Model, CDM)的開發是核心工作。除深入開展術語表研究與應用探索外,OHDSI還將OMOP項目目標、內容、應用領域和組織成員拓展到更為廣泛的領域,涉及臨床文本數據結構化方法研究、臨床數據挖掘和分析方法研究與醫療數據隱私保護研究等。當前OHDSI在全世界范圍內共有90多個跨學科(如臨床醫學、生物統計學、計算機科學等),分布在學術界、產業界、醫療服務機構以及管理機構等不同領域的合作組織成員,致力于創建和使用大規模數據網絡下的開源數據,通過產生新的解決方案來提升人類健康和生活水平[3]。
2.1.2 關注焦點 OHDSI項目組在全球范圍內關注的焦點集中在以下幾個方面:(1)數據標準化。采用OHDSI CDM作為數據框架,開發標準接口的開源工具和流程,對數據結構、內容和分析流程進行標準化處理。(2)醫藥產品安全監控。通過大規模數據分析建立開源證據庫,發現并評估潛在的藥物影響。(3)個性化風險預測。依據患者人口統計、病史以及健康行為數據挖掘和建模分析進行患者個體水平的健康風險預測。(4)數據質量控制。開發用于數據質量評估和數據庫分析的工具,為底層源數據使用和處理提供幫助。(5)醫療服務質量評估。開發開源工具對CDM中觀察性數據應用服務質量進行度量評估并提供實證依據[4]。其中,OHDSI中國組致力于利用數據科學和信息學的方法促進健康醫療數據研究工作,主要內容包括針對中國的臨床數據,擴展和定制OHDSI的數據科學方法;通過在中國構建大型觀察性健康醫療數據網絡,形成對于全球性重要健康醫療問題的調查研究和證據;促進生物醫學信息學領域的國際合作與教育培訓工作[5]。
2.1.3 研究開展情況 OHDSI項目愿景是通過大規模分析來揭示健康數據價值,自組織成立后積極開展各種觀察性數據的實證分析和研究工作,在世界各地的臨床數據合作伙伴中得到廣泛應用。由OHDSI組織成員組建的正式網絡協作研究小組目前有15個,研究議題涵蓋疾病治療新途徑探索、藥物效果評估、疾病風險預測以及數據質量研究等多個方面,項目發布與參與者也遍布全球各地,以美國(哥倫比亞大學、斯坦福大學、加州大學)和亞洲(亞洲大學、漢陽大學、香港大學)的研究機構為主,其中多個研究項目已合作完成且產出有效的研究成果。OHDSI應用案例分析,見表1。

表1 OHDSI應用案例分析
2.2.1 內涵 CDM是由OMOP項目組開發的一套具有統一標準的數據模型,目的是將不同觀察性數據庫中的數據轉換為通用格式以及統一的表示(術語、術語表、編碼方案),然后使用標準化數據庫進行系統分析。CDM包含標準化術語表、標準化元數據、標準化臨床數據表、標準化健康系統數據表、標準化健康經濟表和標準化派生元素等6大類共39張表[13]。CDM標準化術語表中的標準化概念包括按照一定的束規則從部分國際通用或專業術語標準中提取的概念,如SNOMED-CT、RxNorm、LOINC,以及 ICD、MeSH、ETC等近50個國際通用術語表,建立與標準概念的關聯。CDM為每個國際術語標準提供一套詳細的規則和映射標準,幫助研究者在需要時轉化為滿足要求的標準概念以便開展后續大規模的數據分析工作。
2.2.2 工作原理 盡管目前諸多醫療機構建立一系列醫療信息系統,如醫院信息系統(Hospital Information System, HIS),電子病歷(Electronic Medical Records, EMR),檢驗信息系統(Laboratory Information System, LIS)等用于存儲患者的各種醫療數據,但各個系統構建目的與用途不同導致其邏輯組織方式和數據格式不同,此外用于描述藥物信息和臨床表現的術語也因來源不同而表達形式各異。單一的觀察性數據來源無法提供患者在接受醫療保健服務時產生的臨床數據全面視圖,無法滿足跨系統、跨醫院、跨區域的大規模合作型研究需求,因此需要使用CDM所定義的通用數據標準同時評估和分析多個數據源[14]。CDM支持不同來源的觀察性數據通過數據抽取、轉換和加載(Extraction-Transformation-Loading,ETL)過程形成標準化的數據結構:CDM定義了通用數據結構與規范,以適應各種醫療機構提交主動監測系統必需、期望的關鍵數據;相關機構可將其本地原始格式的數據轉換成OHDSI CDM定義的數據結構;將包含所有相關編碼字典的概念(如ICD-9,CPT-4等)映射轉換成OHDSI CDM標準化的概念。通過ETL設計,從數據源提取所需數據,經過數據清洗將源數據集內容轉換成符合CDM表結構的格式,加載到CDM中提供研究分析,其基本原理和設計框架,見圖1。

圖1 OHDSI通用數據模型基本原理和設計框架[15]來源網址:https://www.ohdsi.org/data-standardization/the-common-data-model/
2.2.3 作用 作為核心工程的CDM創建一個通用的結構和框架來組織和標準化觀察性數據,對于OHDSI組織的發展起到重要作用:一是使從事不同業務、開展不同研究、擁有不同數據特征的機構向OHDSI提交的數據更加一致和標準,有利于數據存儲和后期的大規模使用;二是基于標準接口允許研究人員開發各種分析方法,在不改變原始數據內容的前提下可運行在任何標準化后的數據源上;三是有效支持信息共享,包括研究方法、程序、基本分析結果,可以跨數據源實現一致性的應用和解釋[16]。CDM為OHDSI持續性地進行開源分析工具(ATLAS、ACHILLES)開發、分析方法(Cohort Method、Population Level Estimation、Patient Level Prediction)應用,為研究人員進行大規模觀察性數據實證研究奠定基礎。
OHDSI中國組致力于利用數據科學和信息學的方法促進健康醫療數據研究工作,針對中國臨床數據應用現狀將擴展和定制OHDSI中的數據科學方法(通用數據模型)作為重點工作之一,其中醫學術語標準在臨床及科研領域的應用是開展健康醫療數據研究與應用的關鍵。基于此,選取中美從事臨床、術語標準科學研究的從業人員開展問卷調查,以期了解目前我國醫學術語標準應用及研究現狀,同時通過調研探索隱藏的現實問題,為推進國內相關機構應用通用數據模型奠定基礎,也為OHDSI工作組進一步開展醫學術語標準在中國的落地應用提供思路。
本調查發放并最終回收來自中美臨床和醫學信息研究、應用、教育等人員的共106份有效問卷。其中,中國研究人員占大多數(82%),集中在高校、企業和醫院;美國研究人員基本來自高校和醫療機構。調查問卷基本信息統計,見表2。人員分布,見圖2。可以看出隨著我國互聯網及信息技術的高速發展,不僅有諸多專業的醫療和科研人員參與醫學信息學學科建設,同時也有越來越多的高新企業關注醫療大數據這個熱門領域的發展,積極與醫療科研機構和醫院進行密切合作,從事醫學信息相關研究工作。

表2 調查問卷基本信息統計

圖2 調查對象國家及職業分布
3.3.1 醫學術語標準應用場景覆蓋醫學信息處理的諸多環節 在對醫學術語標準應用場景的調查中發現其主要用途是數據標準化處理,其次是借助術語標準開展數據分析,再次是用于文獻檢索與數據采集。由于不同醫療機構的術語使用不一致,故利用現有標準開展數據標準化處理是最廣泛的用途。無論是科研人員還是臨床醫生在數據的收集過程中都涉及不同來源、類型、格式的數據統一存取,需要利用標準編碼系統,如ICD-10等將源數據進行合理分類,確定數據收集策略和存儲規則。而為了能夠大規模使用醫療數據開展數據分析等工作,數據的標準化轉換是必不可少的,需要通過術語標準將不同表達方式的數據進行映射編碼,確保數據格式的統一,開展數據治理工作。而醫學研究人員在進行醫學文獻檢索時需要利用主題詞表在數據庫內進行文獻內容的規范、高效查找,例如由美國國立醫學圖書館制定的醫學主題詞表(MeSH),因此從醫學文獻檢索到醫療數據收集、標準化處理以及分析的各個階段,諸多研究者都會在實際的科學研究和臨床工作中應用醫學術語標準,證實醫學術語標準在醫學信息處理和科學研究中的重要作用。各環節應用分布,見圖3。

圖3 醫學術語標準應用領域分布
3.3.2 中美研究人員對醫學術語標準應用存在明顯差異 關于使用醫學術語標準經驗的調查,結果顯示中國僅有60%左右的研究人員表示使用過醫學術語標準,而美國則有90%以上的研究人員使用過。可見醫學術語標準在國內醫療系統中的推廣應用與國外還存在一定差距,推測其原因,國內研究和引進醫學術語標準晚于國外多年,在國內大范圍的推廣和應用存在一定難度,目前眾多醫療機構和研究機構內部都有自行定義和使用的術語編碼系統,仍有部分醫學工作者和研究人員在實際工作研究中更傾向于使用各自內部自行定義的編碼對醫學信息進行規范化處理。
3.3.3 國際主流術語標準應用廣泛 國際社會對醫學術語標準化研究起步較早,各術語標準化組織的共同努力促使國外醫學標準及術語集成果豐富,且在全球范圍內的應用中取得良好成果。本研究對研究人員具體使用行為的調查結果,見圖4。國內研究人員對一些國際已經被廣泛使用的標準存在較高的共識度,包括世界衛生組織(World Health Organization, WHO)制定的國際疾病分類與代碼(ICD-10/ICD-9),由國際醫學術語標準化與研發組織制定的系統化醫學術語集——臨床術語版(SNOMED CT),以及MeSH等綜合性醫學術語標準,對觀測指標標識符邏輯命名與編碼系統(Logical Observation Identifiers Names and Codes, LOINC)、人類表型本體(Human Phenotype Ontology, HPO)、臨床藥品規范化命名表RxNorm等專業術語標準有一定的使用;與對美國研究人員的調研結果一致,符合國際主流趨勢。而目前國內已有的醫學術語標準主要有中文醫學主題詞表(CMeSH)、國際疾病分類法中文版ICD-10及其各個修訂版等,在成果產出數量和應用效果方面都與國際水平存在較大差距,問卷調查顯示僅有少部分中國研究人員(10%)偶爾選擇使用國內術語標準開展數據分析,證明國內自主開發制定的標準化臨床醫療術語標準目前仍處于小范圍的應用階段,影響力遠不如國際主流術語標準,有待進一步完善和推廣。

圖4 醫學術語標準使用情況
3.4.1 推廣應用存在困難 通過對我國醫學術語標準應用現狀調查發現大多數研究者都對其應用持積極態度,也肯定了其對于臨床工作和科學研究的重要價值,但大部分研究人員普遍認為現階段醫學術語標準在實踐應用過程中還存在諸多問題需要解決,包括缺少術語標準相關推廣、術語不完備、數據不規范、缺少術語管理工具、采納何種術語標準更有效,以及實施術語標準存在難度等,見圖5。分析其主要原因可能是面向一線術語應用的培訓指導工作欠缺,致使一線工作和研究人員在應用過程中存在術語標準化意識薄弱、操作不規范等問題。同時引進的國際術語標準在進行本土化時存在術語不完備現象,國際術語標準與本地標準的對接還存在一定難度,一些中國特有的疾病并不能及時在漢化版的國際術語標準中出現,例如克山病。此外我國醫療環節中采用的一些本地化術語在國際術語標準中也尚未涵蓋。原始數據不規范、缺乏術語管理工具等問題也是致使研究人員無法在實踐過程中較好應用術語標準的原因。

圖5 國內術語應用難點分布
3.4.2 共識共通成為最大難題 除了對醫學術語標準應用現狀進行調查外,本研究還針對我國醫學術語標準開發研究工作進行初步調查。調查對象中僅有21%的人參與過醫學術語標準開發,且大多數調查對象認為醫學術語標準開發困難重重,主要問題集中在術語標準建設的共識共通上。“缺乏協調、各自為政”、“通用性難以估計”、“缺乏正式的基于共識的過程”等都是一線術語開發人員的切實體驗。“考慮應用場景和具體需求”、“術語標準的全面性、準確性以及語義關系描述”、“后期的維護支持”等也是術語開發過程中的重點和難點。
3.4.3 國際標準在國內應用發展建議 結合目前國內醫學術語標準使用現狀,以及對CDM等國際標準模型的應用現狀,本研究整理了國內應用CDM及OHDSI相關標準的建議方向,對受訪者進行推廣醫學術語標準建議的問卷調查,見圖6。通過分析發現大部分科研人員認為加強CDM及國際術語標準的推廣尤為重要,開展國際標準中文版本的建設及整合也較為重要,具體包括國際標準中文版工具平臺的開發,而進行不同術語系統間的兼容、整合和映射研究也較為重要,3者協同推進有助于加快CDM及國際術語標準在中國的推廣與應用。

圖6 CDM推廣與應用建議
4.1.1 原始數據結構化程度較低,數據質量難以保證 醫療行業是信息化程度很高但數據化程度很低的領域。目前我國絕大多數醫院雖然已實現HIS全覆蓋,基于HIS、EMR可以采集到患者身體指標、診斷、治療、隨訪等臨床數據,但由于患者信息底層邏輯不清晰,醫學治療過程非標準化,大多數治療數據都是開放式記錄,系統存儲的患者數據大多為非結構化的文檔數據,需要進行大規模、復雜的篩選清洗工作,對醫務工作者和研究人員的數據標準化工作帶來極大挑戰。
4.1.2 術語標準普及和推廣尚需繼續加強,完善配套服務 國際醫療衛生組織不僅在醫學術語標準的制定方面不斷地創新努力,在推動其應用實施方面也不遺余力,高度重視。國內相關政府機構及部門也積極出臺一系列相關政策推動醫學信息標準化建設,高度重視標準制定和構建,建議在標準實施方面進一步加強政策支持和有效引導,盡快推進醫療標準術語進入實質使用階段,加速醫院之間的互連和信息共享。同時加強對基層醫務和科研人員的培訓和教育工作,對于已經推廣應用的標準建立完善的后續維護、更新機制,幫助已有的標準落地和持續性發展。
4.1.3 標準研究工作不夠深入,本土適應性不強 雖然已引進的大量國際術語標準在國內得到較為廣泛的應用,但標準的本土化研究仍然不盡人意,除基本的翻譯工作外,缺乏對引進術語標準原理機制的深入研究和適應國內醫療環境的改造,當前已有的借鑒國際并翻譯生成的本地化術語表往往存在內容不完整、規模較小、質量參差不齊、缺乏長期維護等問題。
4.1.4 醫學術語標準研究缺乏統一規劃、協同合作 醫學信息標準體系是整個醫療衛生信息標準化工作的指南,只有建立科學的國家醫學信息學標準體系,將眾多醫療衛生信息標準在此體系下協調一致才能充分發揮系統功能,獲得良好的系統效應[17]。國內相關機構在借鑒和吸收國際先進醫學信息標準化成果的基礎上啟動國家衛生信息標準基礎框架,但尚未形成可以統一指導我國醫學信息標準化發展的規范體系,諸多研究機構之間缺乏有效溝通協調機制和統一規范,各自為政,致使少數已經形成和應用的標準尚不成熟、不完善、可操作性不強,不能滿足醫療衛生事業發展及其信息體系建設的需要。醫學術語標準建設與應用是國際醫療衛生組織關注的重點話題,也是當前推進我國醫院、社區等公共衛生體系現代化信息建設、實現醫療強國夢的主要瓶頸和障礙。因此基于OHDSI項目國際組織及中國組加強建設通用數據模型及術語標準的契機,抓緊制定醫學信息管理和技術標準、重視標準貫徹實施、形成與國際標準銜接、具有中國特色的醫學信息標準體系至關重要。
4.2.1 規范醫學術語標準建設,推動標準應用實施 現階段我國醫學信息標準化建設要以應用為主,強化實施。應采取多項得力措施,從國家戰略層面分析我國醫學術語標準化的需求特點,明確標準研究和發展重點任務和工作,建立醫藥衛生信息共享、公用的公共標準和規范。同時加大對醫學術語標準研究、推廣資金和精力投入,采取強制手段開展醫學信息標準化工作,加大基層醫療機構的宣傳推廣力度,開展大規模持續性的培訓教育工作,使醫療機構、團體認識到標準化工作的重要性,從而有效應用在實際工作中,提高醫療服務水平和質量。
4.2.2 學習借鑒國際標準化建設經驗,進行本土適應性改進 在我國醫學信息標準化水平不高的情況下,要充分借鑒和引用國際先進標準,加強與國際相關組織之間的溝通合作,掌握國際動態和發展趨勢,加快我國醫學信息標準化建設,制定醫學信息標準化發展規劃和標準體系,縮小與發達國家的差距。同時要積極開展本土化應用的深入研究,充分結合我國衛生醫療事業發展特點,加強自主創新工作,對引進數據標準進行補充和維護,建設先進、符合國情需要的醫學術語標準和相關技術工具。
4.2.3 促進行業間協同合作,共同發力產出應用成果 加強各科研部門間的溝通配合,對術語標準制定、研究和實施進行統一規劃,避免人力物力資源的重復浪費。緊密聯系各級衛生醫療機構深入開展調查研究工作,充分了解標準應用實施的具體需求和背景,進行案例建設和應用,借鑒其臨床實踐經驗對醫學標準建設提供直接、有效的參考依據。同時與國內具有技術優勢的醫療大數據組織或企業合作,借助人工智能、云計算等先進技術開展大規模醫療數據標準化、數據分析、知識發現等工作,充分發揮行業內各方人才、技術優勢,將醫學標準和數據應用落到實處,產出有力的科研成果,助力我國醫學信息標準化建設。
本研究對觀察性健康醫療數據研究項目OHDSI宗旨、開發的通用數據模型CDM工作原理展開詳細分析,選取中美兩國從事醫學信息標準研究、應用的相關人員展開問卷調查與結果分析,總結國內外相關機構應用CDM及相關術語標準的現狀,問卷數量覆蓋度有限,后續會考慮進一步擴大問卷調查范圍,使調查結果更加科學合理。基于目前的分析,總結國際通用醫學術語標準應用難點并提出發展建議,以期為國際醫學術語標準在國內的普及提供借鑒。