999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向標準化數據整合的醫學通用數據模型探析

2018-05-07 01:43:52
中華醫學圖書情報雜志 2018年11期
關鍵詞:標準化標準研究

隨著科學技術的快速發展,全球科學數據呈爆發性的增長態勢,科學研究進入數據密集型的大數據時代。而醫學領域是大數據應用的重要領域之一,大數據的快速發展促進了數據驅動的精準醫療模式的發展,近年國內外都開展了大量基于醫學大數據的精準醫學研究項目[1]。2016年,我國將精準醫學研究列入國家“十三五”科技發展重大專項,并上升為國家戰略。但是由于各數據資源的產生單位不同、建設時期不同,采用的數據標準也不盡相同,導致在數據資源的整合方面存在很大難度。為了更有效地利用醫學數據,需要針對數據資源的異構現象,建立統一的數據匯交標準,實現多源異構數據的整合。

國內外的學者致力于多源電子化醫學數據的數據整合研究,衍生出許多標準模型。2006年,美國國立神經疾病和卒中研究所(National Institutes of Neurological Disorders and Stroke,NINDS)開展了卒中通用數據元素(Common Data Element,CDE)的編制工作,以實現轉化醫學研究、臨床研究和人群研究等各類數據的整合共享[2]。也有研究者基于HL7臨床文檔架構(Clinical Document Architecture,CDA)標準提出了針對異構臨床數據信息系統的集成方案[3-4]。CDA標準是HL7 V3的一部分,專門規定了臨床文檔內容的標準化,但是CDA只規范了文檔內容表達,不涉及文檔實例的打包和交換機制[5-6]。美國觀察性醫療結果合作組織也建立了一套統一的框架——通用數據模型,幫助解決科學研究中數據結構和內容的標準化問題,該模型目前已廣泛地應用于各類科學研究[7-8]。

為了更有效地研究醫學數據標準化整合,本文深入探析了美國觀察性醫療結果合作組織(Observational Medical Outcomes Partnership,OMOP)建立的通用數據模型(Common Data Model,CDM)的主要模塊架構,梳理和總結了多源數據向CDM轉換的流程、每一步的實現方法和主要思路,并介紹了當前模型的應用情況,以促進對模型的理解和數據規范化的實踐。最后,結合我國精準醫學大數據整合共享的實際需求探討了模型應用中的關鍵問題并提出了相關建議,以期為促進我國精準醫學大數據的集成整合和共享利用提供有益思路和方法。

1 OMOP CDM的整體架構

1.1 概述

OMOP創建于2008年,并不斷發展為一個新的合作項目,即觀察性健康數據科學和信息學(Observational Health Data Sciences and Informatics,OHDSI)[9]。OHDSI是一個涉及多類利益相關方的跨學科合作項目,致力于通過大規模的數據分析發揮觀察性健康數據的更多價值,目前OHDSI研究網絡已覆蓋全球6億多患者。OHDSI主要研究涉及開發、分析功能的軟件工具,包括OMOP CDM和可應用于數據抽取-轉換-加載(Extraction-Transformation-Loading,ETL)過程的工具等。

OMOP CDM定義了一種統一的數據標準,可以規范多源異構的觀察性數據的格式和內容,如圖1所示。

數據集1、數據集2和數據集3是來自不同數據源、具有不同數據結構的3個數據集。通過對這3個數據集進行數據的抽取、轉換、加載,將數據集轉換到OMOP CDM中,最后可形成統一的標準化數據結構,支持在該數據結構的基礎上進行后續的數據分析并得到分析結果。

圖1 將不同結構的數據集轉換為OMOP CDM

1.2 OMOP CDM的主要模塊

經不斷改進,OMOP CDM目前已更新到6.0版本[10],包括標準化詞匯表、標準化元數據表、標準化臨床數據表、標準化健康系統數據表、標準化健康經濟數據表、標準化派生元素表、結果架構表等7大模塊39個域表。

標準化詞匯表包含了不同的標準術語以及源數據編碼與標準術語的映射信息(表1),標準化元數據表儲存了從源數據中派生的元數據的相關信息(表2),標準化臨床數據表包含了每個受試者在有效觀察期內的縱向臨床數據以及相應的人口統計學信息(表3),標準化健康系統數據表描述了負責管理患者醫療保健事項的醫療保健提供者和醫療場所的相關信息(表4),標準化健康經濟數據表包含了醫療保健的成本信息(表5),標準化派生元素表包含了從CDM的其他域表中獲得的患者臨床數據的相關信息(非源數據獲得)(表6)。結果架構表是CDM 6.0版本的新模塊,目前包含“隊列”和“隊列定義”兩個域表(表7)。

表1 標準化詞匯表

表2 標準化元數據表

表3 標準化臨床數據表

表4 標準化健康系統數據表

表5 標準化健康經濟數據表

表6 標準化派生元素表

表7 結果架構表

2 源數據到OMOP CDM的轉換方法

2.1 整體轉換流程

將源數據轉換為OMOP CDM需要經過ETL過程,即對源數據進行數據抽取、轉換、加載等一系列操作,使源數據在語法和語義上與目標CDM的結構和術語協調一致[11]。本文對模型的具體轉換流程進行梳理和總結,繪制了源數據到OMOP CDM的轉換流程圖(圖2),通過4步處理將多源異構的源數據轉換為統一的標準數據結構,便于數據綜合利用與分析。

如圖2所示,整個ETL過程可分為源數據分析、數據表與字段映射、標準術語映射、ETL實現4個部分。源數據分析是分析各個源數據表的內容和結構,了解源數據的信息記錄方式;數據表與字段映射主要是進行整體映射的需求設計,首先建立源數據表與對應CDM域表的映射關系,然后進一步建立源數據字段與對應CDM字段的映射關系;標準術語映射是建立源數據編碼到OMOP標準術語的映射,在進行源數據編碼的提取時,應按不同域表(即狀況、觀察、測量、藥物治療等)進行源數據編碼的分解提取,并與對應領域的標準術語建立映射;ETL實現是通過輸入源數據和術語映射表,根據映射邏輯將源數據逐一映射到每一個需要的CDM域表中,從而將源數據轉換為OMOP CDM的標準格式。

由于多源數據結構、類型的復雜性、規模的差異和標準的差異性,在將源數據轉換為OMOP CDM的整體過程中,OHDSI在源數據分析、數據表與字段映射以及標準術語映射3個階段分別提供了WhiteRabbit、Rabbit-In-a-Hat和Usagi工具,輔助研究人員進行轉換過程的基本數據分析和轉換規則設計。最后的ETL實現階段較為復雜,OHDSI沒有提供集成的ETL實現工具,需要研究人員根據數據的實際情況通過個性化定制實現。目前多使用Java、C#等語言開發ETL生成器以完成最終源數據的標準轉換。

圖2 源數據到OMOP CDM的轉換流程

2.2 具體轉換步驟

2.2.1 源數據分析

首先通過源數據結構和內容分析了解數據集的結構特征。以一份調查問卷數據集為例,調查問卷數據集包含個人信息、人口社會學特征、生活方式、疾病狀況、體格檢查5個模塊(表8),分別對應Personal information.csv、Demographics.csv、Lifestyle.csv、Disease status.csv、Physical examination.csv 5個數據表。

將調查問卷數據集的5個數據表導入WhiteRabbit工具,進行數據掃描,生成并導出名為“ScanReport”的Excel掃描報告(圖3)。

該掃描報告包含各個數據表的信息,每個數據表的字段信息,各個字段不同值的列表以及各個值的出現頻率。數據表和字段信息可以幫助了解數據結構,數據值和值的出現頻率可以幫助識別具體信息的記錄方式(如性別的編碼方式是“m”和“f”還是“1”和“2”等)。

表8 調查問卷數據集與OMOP CDM的匹配

圖3 使用WhiteRabbit進行調查問卷數據集的掃描報告

2.2.2 數據表與字段映射

將得到的ScanReport報告導入Rabbit-In-a-Hat工具,進行數據映射的需求設計。Rabbit-In-a-Hat是一個可視化的操作工具,支持研究人員手動建立各個源數據表、字段與CDM域表、字段的映射關系,并支持添加相關的轉換邏輯和注釋。值得注意的是,Rabbit-In-a-Hat允許研究人員選擇不同版本的CDM架構文件,研究人員既可以使用OMOP提供的CDM架構文件,也可以根據研究需求創建自定義版本的CDM架構文件。本次轉換選擇6.0版本的OMOP CDM架構文件。

首先建立數據表的連接。一個源數據表可以映射到多個CDM域表,一個CDM域表也可以接收多個源數據表的映射。圖4展示了Rabbit-In-a-Hat的可視化操作界面,其中個人信息模塊的Personal information.csv數據表可映射到CDM的Person域表,人口社會學特征模塊的Demographics.csv數據表可映射到CDM的Person域表,疾病狀況模塊的Disease status.csv數據表可映射到CDM的Condition_occurrence、Drug_era、Care_site以及Cost域表,體格檢查模塊的Physical examination.csv數據表可映射到CDM的Measurement域表,生活方式模塊的Lifestyle.csv數據表無可匹配映射的CDM域表。

然后進一步建立各字段到CDM字段的連接。由于數據集的獨特性,源數據中可能存在不能映射到CDM中的表格或字段,CDM中也可能存在無法從源數據獲取填充信息的表格或字段。如圖5所示,以Personal information.csv數據表和Person域表為例,建立源字段與Person域表字段的連接,并標注相應的映射邏輯。完成全部表格和字段的連接建立和映射邏輯標注后,Rabbit-In-a-Hat可生成并導出構建ETL的需求設計文檔。

圖4 Rabbit-In-a-Hat中各模塊數據表與CDM域表之間的連接

圖5 Rabbit-In-a-Hat中數據字段與CDM字段的連接(以Person域表為例)

2.2.3 標準術語映射

由于源數據通常會使用與OMOP CDM不同的編碼標準,所以需要進行從源數據編碼到OMOP標準術語的映射。OMOP CDM使用多種標準術語集,且不同域表和標準術語之間并不是一一對應的關系。如RxNorm標準術語可應用于藥物域表,ICD9-Procedure標準術語可應用于過程域表,而SNOMED標準術語則包含了所有醫學領域的概念,可應用于多個域表的映射。不同域表與標準術語的對應情況如表9所示。

工具Usagi可輔助研究人員進行術語映射的構建。Usagi支持導入源數據編碼文件和OMOP標準術語文件,通過術語相似度的方法自動的建立各個源編碼到OMOP標準術語的建議映射,并獲得每一個映射的匹配得分(通常是0~1的數值,1為自信匹配)。

如果建議映射不正確,Usagi允許研究人員進行概念的手動搜索,從而對映射進行修改。最后,研究人員對可以在ETL過程中應用的映射進行逐條批準,生成并導出包含源數據編碼、源概念ID、源術語ID、映射后的目標概念ID、目標術語ID等字段信息術語映射表(圖6)。

表9 不同域表與標準術語的對應情況

圖6 使用Usagi進行源數據編碼到標準術語的映射

2.2.4 ETL實現

完成數據表與字段映射和標準術語映射后,可進行最終的ETL實現。在數據表與字段映射時得到的ETL需求文檔可作為實現ETL的整體數據映射規范,然后需要根據ETL需求文檔中記錄的表和字段的映射邏輯編寫程序,構建需包含數據質量控制、各字段的標準編碼格式轉換、各字段的數據映射實現等多種功能的ETL生成器。

將源數據和通過Usagi得到的術語映射表輸入到ETL生成器中時,首先應對質量較差、不能滿足研究目的的源數據進行剔除,然后將需要轉換編碼格式的字段數據轉換為標準術語的格式,并逐一完成Person域表、Condition_occurrence域表、Drug_era域表、Care_site域表、Cost域表以及Measurement域表中各字段與各模塊數據字段之間的映射,轉換為OMOP CDM標準結構的數據信息將分別存儲在Person.csv、Condition_occurrence.csv、Drug_era.csv、Care_site.csv、Cost.csv以及Measurement.csv文件中。由于不同的源數據集通常具有不同的內容結構和編碼規則,所以每個ETL生成器的程序也都具有一定的獨特性,需要研究人員根據數據集的實際情況進行個性化的構建。

通過完整的ETL過程,將多源異構的科學數據統一轉換為OMOP CDM的標準格式,可實現數據的整合,便于研究人員對數據進行綜合分析。

3 OMOP CDM的應用

2008年美國食品藥品管理局(Food and Drug Administration,FDA)開展了“哨兵行動(Sentinel Initiative)”,希望利用不同來源的電子醫療保健數據,實現產品安全性的實時連續監測,以加強相關產品上市后的安全性識別與分析,其中就包括了OMOP[12]。此后OMOP CDM逐漸應用到更多領域,如幫助實現多源醫學數據的綜合利用、解決醫學數據整合中的數據標準問題、促進跨中心跨地區的科學研究合作等。

OMOP成立初期,與OMOP CDM相關的研究多集中在美國、歐洲等地。英國臨床實踐研究數據鏈(Clinical Practice Research Datalink,CPRD)[13]是一個初級護理數據庫,記錄了1 400萬患者的人口統計信息、人體測量信息、生活方式信息、醫療診斷以及處方數據信息等,被認為是英國的人群代表。CPRD在國際上被廣泛應用于流行病學研究,但是由于CPRD使用自身獨有的Multilex編碼標準,極大地限制了與其他數據庫進行數據整合和相關研究的可能性。Matcho等人[14]將CPRD的數據轉換到OMOP CDM,其轉化的所有要素都被評估為高質量。研究者同時進行了驗證工作,在原始CPRD數據和CPRD CDM數據中檢查使用非甾體抗炎藥和首次急性心肌梗死的風險,結果顯示兩項數據的患病率相等,證明CPRD可以準確地轉換為OMOP CDM。Voss等人[15]也曾將6個不同來源的患者級數據庫轉換為OMOP CDM,探討將不同觀察健康數據庫網絡標準化到CDM和術語表中的優點與成本,研究評估了在標準化的轉換過程中的信息丟失程度,結果顯示轉換為OMOP CDM 的信息損失最小,并且數據的標準化過程提高了數據質量和分析效率,促進了跨數據庫的數據研究比較。

近年來,不僅歐美發達國家致力于應用OMOP CDM進行相關研究,亞洲地區的研究者也開始嘗試將醫學健康領域的數據轉化到OMOP CDM中,開展了許多標準化的數據研究。韓國亞洲大學醫學院的You Seng Chan等人[16]將韓國國民健康保險服務-國家樣本隊列(NHIS-NSC)數據庫中113萬受試者的數據轉換為OMOP CDM,平均轉化率達到了99.1%。該研究是亞洲國家將國家隊列數據庫轉換為通用的OMOP CDM格式的第一次嘗試,這也使NHIS-NSC成為了支持多方面醫學研究的寶貴資源。北京大學的孫一鑫等人[17]為實現多源臨床數據資源的整合共享,同樣基于OMOP CDM 制定了呼吸系統疾病的專病隊列數據標準。他們分析了各個來源的專病隊列的數據特征,然后與OMOP CDM中的已有模塊進行匹配,建立了基于OMOP CDM的呼吸隊列通用數據標準,進行呼吸系統疾病數據的回顧性整合。

基于OMOP CDM可以將不同數據庫的數據轉換成通用格式,方便研究人員進行跨數據庫的數據抽取、整合,有利于開展不同數據庫的綜合研究或對照研究。同時,結合OMOP CDM的標準結構,可建立不同特異性專病隊列的數據標準,有助于日后開展長期隨訪和數據采集。

4 問題與建議

4.1 問題

我國啟動了精準醫學研究專項,項目需要匯集我國各地域的自然人群隊列、乳腺癌、食管癌、胃癌、心血管疾病、腦血管疾病等多類型專病人群隊列、罕見病人群隊列等產出的精準醫學大數據,亟待精準醫學大數據規范和集成標準,促進數據存儲、利用和共享。OMOP CDM為我國多來源、多結構化的精準醫學大數據的整合、利用提供了寶貴的思路和方法,值得研究者探索和借鑒。由于我國精準醫學大數據從疾病類型、數據類型、語種、術語標準化程度等各方面均與國外的數據存在顯著差異,因此CDM模型的具體應用可能存在以下問題。

一是我國的精準醫學大數據包括組學數據、影像數據、病理數據、體檢數據、隨訪數據等多類型數據。OMOP CDM的現有架構包括患者、狀況、觀察、測量、藥物治療、隨訪等數據,雖然覆蓋了其中一些數據類型,但范圍并不全面,不能很好地滿足我國精準醫學數據的整合需求。二是國外的醫學術語和編碼標準相對于國內發展快、應用較為廣泛,而國內醫學術語和編碼標準研發和應用還不完善。OMOP CDM使用的標準術語均為外文標準,國內醫學數據中雖然有些直接使用英文術語和編碼,但仍有部分需要進行中文標準轉換的數據和很多缺乏標準描述的數據,這些數據無法很好地實現OMOP CDM的映射。三是OMOP CDM的相關工具目前僅支持進行英文數據的轉換,不支持非英文數據的轉換,缺乏本地化映射、轉換等處理工具支持。

4.2 建議

針對上述問題,OMOP CDM的本地化應用中應注意開展以下3個方面的工作。

4.2.1 擴展OMOP CDM構建數據標準化模型

OMOP CDM最初多應用于藥物和器械安全性的相關研究。隨著OMOP CDM的應用領域逐漸擴大,涉及了流行病學、神經學、藥學、消化科學等多方面研究,最新版的OMOP CDM也包含了針對臨床數據、健康系統數據、經濟學數據、隊列數據等多類型數據的標準模塊。但在實際應用中,由于多源數據的復雜性,各類型的醫學數據并不能完全與OMOP CDM包含的模塊相匹配,研究人員應詳細分析需要標準化整合的多源數據的類型、結構、變量、變量賦值、單位、標準和編碼等,根據實際需求和提取數據共性特征構建本地化的通用數據模型。

4.2.2 采用和建立適用的醫學術語和編碼標準

OMOP CDM使用的標準術語和編碼包括藥物標準RxNorm、臨床標準SNOMED CT、手術標準ICD9-CM等,標準化術語的應用更有助于數據的標準化和互操作。我國術語和編碼標準化的建設一直落后于國際水平,由于語種、標準適用性和應用性問題,國內醫學數據在標準方面的突出問題主要是缺乏標準規范的應用、國際標準本地化問題[18]、適合我國醫學數據標準的制定不足等。種種原因導致基于OMOP CDM進行數據轉換時,無法基于已有工具開展標準的映射,單純基于不同語種的術語翻譯會影響映射準確性。因此,除需要在數據創建時促進醫學術語和編碼標準的應用外,還迫切需要建立適用于我國研究現狀的醫學術語和編碼標準以及建立多語種對照,以適應我國醫學數據集成整合和與國際多源醫學數據的集成整合。

4.2.3 研發本地化數據標準化模型轉換工具

目前與OMOP CDM相關的研究工作多集中于美國、歐洲等地的數據庫,OHDSI提供的可應用于ETL過程的轉換工具也都只能進行英文數據的轉換。2016年,OHDSI在我國建立分部,通過利用數據科學和信息學方法,促進我國健康醫療數據的集成整合的研究。但是想要有效推進OMOP CDM模型更廣泛地應用,有待更多研究者結合我國的實際情況,對現有的OMOP CDM以及相關研究方法和工具進行拓展和本地化,建立適用于中文的醫學數據標準化轉換工具,開展中文醫學數據的整合和集成實踐。

5 結語

我國在醫學數據的整合方面尚未形成統一的數據模型與標準,OMOP CDM為多源異構的醫學數據整合提供了思路和方法,值得借鑒學習。因此,本文對OMOP CDM支持多源數據轉換的總體流程和具體步驟進行了系統地分析和總結,梳理了存在的問題并進行分析和提出了建議。目前,我國對OMOP CDM的研究尚處于探索階段,將模型運用到我國精準醫學大數據的匯交整合中還存在一些問題和挑戰,今后應注重CDM的本土化研究,將現有模型與我國數據整合的實際情況相結合,建立和完善我國醫學數據整合的方法和標準。

猜你喜歡
標準化標準研究
2022 年3 月實施的工程建設標準
FMS與YBT相關性的實證研究
標準化簡述
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
忠誠的標準
當代陜西(2019年8期)2019-05-09 02:22:48
美還是丑?
標準化是綜合交通運輸的保障——解讀《交通運輸標準化體系》
中國公路(2017年9期)2017-07-25 13:26:38
一家之言:新標準將解決快遞業“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
主站蜘蛛池模板: 99久久国产综合精品女同 | 中文字幕在线免费看| 国产精品大白天新婚身材| 欧美特黄一级大黄录像| 人人91人人澡人人妻人人爽| 97超碰精品成人国产| AV无码无在线观看免费| 国产美女无遮挡免费视频网站| 无码丝袜人妻| 亚洲日本一本dvd高清| 亚洲自拍另类| 二级特黄绝大片免费视频大片| 五月激激激综合网色播免费| 日本三级精品| 无遮挡国产高潮视频免费观看| 国内丰满少妇猛烈精品播| 免费又爽又刺激高潮网址| 久久久久久国产精品mv| 久操线在视频在线观看| 一级一级一片免费| 国产偷倩视频| 国产网站免费看| 亚洲AV无码不卡无码| 中国国产高清免费AV片| 青青青国产视频| 亚洲欧美日韩另类| 欧美成人看片一区二区三区 | 欧美性精品| 91麻豆久久久| 国产综合在线观看视频| 青青青国产精品国产精品美女| 国产成人午夜福利免费无码r| 午夜不卡视频| 无码日韩人妻精品久久蜜桃| 久久精品丝袜| 无码日韩精品91超碰| 久久午夜夜伦鲁鲁片无码免费| 欧美日韩国产精品va| 好紧好深好大乳无码中文字幕| 精品乱码久久久久久久| 欧美精品一区二区三区中文字幕| 在线日韩日本国产亚洲| 免费a在线观看播放| 香蕉伊思人视频| 国产国产人成免费视频77777| 日本免费新一区视频| 国产凹凸视频在线观看| 真实国产乱子伦视频| 国产又色又爽又黄| 亚洲中文字幕无码mv| 激情网址在线观看| 91黄视频在线观看| 91精品国产情侣高潮露脸| 国产手机在线ΑⅤ片无码观看| 91福利片| 免费一级毛片完整版在线看| 精品一区二区三区波多野结衣| 韩日无码在线不卡| 成人在线观看不卡| 99国产精品免费观看视频| 国产一区二区丝袜高跟鞋| 欧美成人综合在线| 伊人查蕉在线观看国产精品| 久久国产成人精品国产成人亚洲| 久久亚洲中文字幕精品一区| 97人人做人人爽香蕉精品| 国产成人亚洲精品色欲AV| 国产综合在线观看视频| 91极品美女高潮叫床在线观看| 美女亚洲一区| 亚洲免费成人网| 中文字幕人妻av一区二区| 91人人妻人人做人人爽男同| 91精品啪在线观看国产91九色| 欧美色视频在线| 国内熟女少妇一线天| 午夜欧美在线| 喷潮白浆直流在线播放| 热re99久久精品国99热| 欧美一区二区精品久久久| 成人国产免费| 日本www在线视频|