宋佳芳,朱賀,韓晟
(1.北京大學藥學院藥事管理與臨床藥學系,北京 100191;2.北京大學醫藥管理國際研究中心,北京 100191)
藥品在疾病診斷、治療和預防等領域為人類健康帶來益處。但藥品在使用時也會產生一定安全性風險。用藥錯誤、不合理用藥及藥品不良反應(adverse drug reactions,ADR)都會對人體造成不同程度的傷害。藥品的安全性是藥品的重要屬性之一。關注藥品安全,發現、評價、認識和預防藥物不良作用,對在使用藥品過程中產生的相關風險進行警戒和應對處理至關重要。目前我國ADR監測的主要途徑是依靠ADR自發上報系統的被動監測方式。但被動監測產生的信號存在滯后性等問題[1]。而主動監測在信息收集方式上存在一定的強制性,并且在方案設計之初就有明確的目的,因此收集的信息更全面,對風險信號的識別更及時[2]。隨著醫療記錄電子化與信息化的不斷進步和數據庫系統的完善,大數據技術的信號挖掘技術提高,以基于大規?,F有真實世界數據如電子醫療記錄數據、醫療保險數據等,使開展ADR主動監測成為可能。
20世紀70年代,電子信息技術融入到醫療行業中,使患者信息收集的方式由傳統的人工記錄逐漸轉為計算機收集。逐漸積累的電子醫療信息數據庫為ADR主動監測奠定了基礎。近幾年,很多國家探索利用大型電子醫療數據進行藥品安全性主動監測。2007年,美國通過了食品藥品管理修正法案(FDAAA),首次明確提出加強藥品上市后的安全監管,要求美國食品藥品管理局(FDA)利用電子醫療保健數據建立主動監測系統開展藥物警戒,2008年美國FDA發起“哨點計劃”(The Sentinel Initiative),通過分布式數據庫和數據管理模式,以日常記錄的電子醫療數據作為分析基礎,對藥品、醫療器械等進行安全性的主動監測[3]。此外,歐洲多個國家共同參與研究、開發了“探索和理解藥品不良反應(exploring and understanding adverse drug reaction,EU-ADR)項目”,在分布式網絡方法的基礎上還增加數據挖掘等分析方法對多來源的電子醫療數據中可疑的不良反應與藥品組合進行探測,進而進行ADR的早期監測[4]。
利用電子醫療大數據庫開展主動監測的優勢和發達國家帶動作用,推動了包括我國在內的多國研究人員在此方向上的探索與實踐。隨著信息技術快速發展,我國在醫院數據與醫療保險數據中的真實數據電子化逐步完善,為ADR主動監測奠定了基礎。目前我國多數醫療機構都應用了醫院信息系統(hospital information system,HIS),患者的檢查和診療過程在HIS 中有相應的電子記錄。電子醫療記錄(electronic medical record,EMR)數據是對臨床日常過程進行詳盡記錄,包括患者治療過程中藥物使用的時間、規格、劑量、用法,以及患者在治療中出現的癥狀、處理方法、實驗室檢查結果、診斷、處方及費用等,是對臨床治療總體的客觀反映。因此,從數據來源來看,醫療大數據不僅在維度上多方面保留患者的用藥信息及用藥后的相關或潛在的反應,同時對于患者數據可以進行動態更新,提高了時效性,因而可以快速高效地發現和識別藥品風險信號,尤其是罕見不良事件[5-6]。近年來,對于利用HIS 開展藥物警戒相關研究與應用,國內機構、學者也在不同程度進行了相關的嘗試和應用。國家ADR監測中心在早期采用病歷回顧性研究方法,基于HIS數據,對6個省市16家醫院使用過雙黃連注射劑的完整住院病歷進行調查,了解雙黃連注射劑的臨床合理使用情況、不良反應類型及其發生率[7-8]。同時建立了國家ADR監測系統(自發報告系統)與HIS對接的接口標準[9]。陸曉彤等[10]基于上海某家醫院的HIS系統數據,建立肝酶升高ADR自動監測系統,并對974例發生肝功能損傷的住院患者進行監控,并對藥品進行統計分析。李麗等[11]選取了全國15 家三甲醫院異位妊娠患者的HIS 數據,應用關聯規則算法分析真實發生的異位妊娠患者的臨床用藥關聯情況。此外,醫療保險數據庫也是開展主動監測的數據來源之一。醫保數據可實時記錄患者基本信息、就醫醫院基本信息、患者疾病基本信息、患者治療基本信息(用藥記錄和費用信息),醫保數據庫以其較高的標準化及可視化程度,為算法和數據挖掘技術的應用提供良好的基礎,可以提供基于大樣本的用藥風險識別。
大數據下的ADR信號識別雖然提高了信號識別的時效性,部分解決了傳統信號識別的人工篩選和大量統計工作帶來的困難,但是也為研究者開展工作提出了挑戰。
醫院HIS系統數據雖然是患者臨床實際的詳盡記錄,信息完整度較好,但由于醫院是HIS系統的擁有者,系統建立的最初目的是為了完整記錄患者的就醫情況,為醫生診斷、治療、預防疾病提供基礎信息,并非以科學研究為目的而產生的數據。同時,由于電子病歷中病程包括大量患者醫療實踐中的文本信息,數據的結構化和可視化欠佳。因此,對于大量文本有效信息不缺不漏的提取及可視化的完成是研究者分析大數據時所要解決的問題之一。此外,由于醫院信息管理體系的復雜性,導致同一醫院的不同科室之間數據結構不同,甚至同一地區的不同醫院之間,出現系統之間不同概念的命名、分類規則的差異等問題(例如藥物及診斷的分類編碼),導致醫療機構之間的信息難以相互融合。所以雖然中國數據有著樣本量巨大、更新速度快等數據層面的優點,但由于很多醫院只是針對其中的部分科室進行臨床信息管理系統的應用和采納,并沒有充分發揮大數據作用。
此外,單個數據庫有時并不能滿足ADR主動監測的需求。在評估藥物使用和不良事件的關聯性時,不僅要關注藥物暴露和可疑不良事件的信息,也要收集各種可能混雜因素的信息,包括社會人口學特征、合并癥、聯合用藥等情況[12]。因此使用某一家醫院的電子醫療記錄很難覆蓋患者所有就診情況,數據的分割使得它們之間的很多關聯信息難以被捕捉,而醫保數據庫中又缺少就診時詳細的檢查結果等信息,往往需要整合多家醫院、多個類型的異構數據庫。這里不僅涉及對每個數據的標準化問題,還需要考慮到資源的共享機制、隱私的保護機制等。
因此,雖然目前電子化信息化為大數據時代奠定了數據大量化、快速化、多樣化的基礎,但如何解決醫院內部或多個醫院之間的信息管理系統中實現溝通與交流,整合多異構數據進行研究分析,讓大數據更加價值化,是目前研究者面對的挑戰。
OMOP是FDA聯合學術界、國際數據公司、藥品生產企業等開展的公共和私營部門合作項目[13]。OMOP這項5年的計劃,由多方合作、多數據源、覆蓋大規模人群、采用分布式網絡和/或集中式中央數據庫、建立和使用CDM[14],同時開發了許多利用觀察性研究分析數據的新方法,并建立了一個觀察性研究的分析實驗室。
OHDSI是在OMOP項目結束時開啟的新項目。OHDSI是一個國際合作組織,意在創造公開的數據分析方法,通過大規模的分析來發現觀察性健康數據的價值[15]。OHDSI團隊包括學者、產業科學家、醫療服務提供方、研究第三方等[16]。目前,已有來自美國、加拿大、澳大利亞、英國等幾十個國家地區的上百個組織機構參與了OHDSI全球協作網絡,擁有超過10億人口規模的臨床數據,累計協作研究發表了上百篇論文。比較而言,OMOP 更偏向于方法學研究,而OHDSI 則是建立在OMOP 的方法學研究的基礎上,用觀察性數據來回答真實臨床問題的方法開發和應用。
總體而言,OHDSI/OMOP CDM有以下特點:
①通用數據模型。OMOP的核心部分是CDM的開發[17],意在對不同來源的醫療數據建立起統一標準的形式。通過CDM 數據模型對信息的梳理,達到不同信息的編碼和信息之間的關系進行詳細的分類和定義的目的。OHDSI團隊延續了OMOP CDM的語言設定和主要數據模型。OHDSI的主要目標是建立一個開放的觀察性數據網絡,在OHDSI中研究者可自行將自己的數據集中每一個元素需要根據CDM 文字庫進行匹配和統一,進而抽取、轉換和加載(extraction-transformation-loading,ETL)成CDM 格式的數據。數據格式統一化的好處在于可以對大量數據進行分析并且可以參與到全球的研究中,使國際多中心的分析更快更有效地進行。
②分析方法與工具開發。OHDSI建立多種數據挖掘和數據分析的工具。例如ETL工具的開發(如WhiteRabbit、Usagi等)。數據分析工具開發(如ACHILLES、PLATO等)。ACHILLES 是一個可視化數據瀏覽工具,在提取數據之前,可以利用ACHILLES對數據進行初步的統計分析。ACHILLES有2個主要的組成部分,第一個組成部分是應用R包,對數據進行初步的分析,第二部分是將初步統計結果形成報告。多數據庫的分析都可以在ACHILLES上實現。在OMOP CDM的相同數據語言的基礎上,對于數據擁有者來說,利用ACHILLES可以對數據庫的質量進行評估,其他研究者可以通過ACHILLES對數據庫進行初步的分析,評估這個數據庫潛在的分析價值。ACHILLES可以呈現出每種情況的分布情況、年齡分布、性別分布、樣本入組時間等。其他在研發的數據分析工具還有HERMES,用于對特定關鍵詞進行檢索,并尋找關鍵詞及其相關概念的聯系。PLATO可以用于對患者的某種結局指標進行預測和估計。HOMER可以對風險進行識別,同時給出比較效果研究的結果。例如HOMER可以對一種藥物和不良反應進行關系分析。
③信息共享與交流模式。OHDSI為研究者建立了網絡的交流與合作的平臺,這也是基于通用數據模型實現的。由于不同類型數據之間的異質性,相同研究目的下的研究結果可能不盡相同,且難于整合。但是在CDM的基礎下,數據的結果可以分享到多中心的合作組織,利于數據結果的整合。網絡合作式研究不僅打破了大量合作者合作的阻礙,并且通過研究者之間的討論和審閱,提高研究質量。
ADR主動監測是藥物警戒的重要組成部分,目的是監測藥物投放市場后的臨床ADR,進行關聯性研究。ADR的信號產生,需要把病歷數據中藥物治療信息和不良藥物反應提取出來,進行關聯形成分析。從而產生各種概率的分布,供研究者篩查和進一步分析提供線索。同時也可經驗式地檢測出一些潛在的ADR。研究者通過利用OMOP CDM的數據模式,對國外數據庫進行分析,嘗試將觀察性大規模數據應用于藥品不良反應的主動監測中。XU等[18]將美國2007—2012年的Humana claims data數據,提取轉化成OMOP CDM的格式,建立起可以通過患者ID關聯的患者基本信息、患者就診信息、患者疾病等信息、患者暴露信息、藥物使用信息、觀測信息、觀測時間、支付方信息等9塊數據集,基于此分析6組藥品-不良反應之間的關聯性。研究發現,CDM格式可以有效地將不同格式數據統一化,甚至外推于建立分布安全監測網絡中,可以快速地在大規模觀察性數據中發現藥品的不良反應信號。BOYCE等[19]搭建了藥物與治療結局指標的整合的知識庫(integrated knowledge base),并闡述如何將OHDSI應用于評估藥品-不良反應關聯性。不僅局限于初步利用OHDSI進行識別ADR風險信號,同時可應用OHDSI/OMOP CDM對數據庫的格式進行統一整理,不僅可以囊括電子醫療數據,還能將自發上報系統、產品標簽、科學研究、生物信息提示等多維度數據庫整合起來,記錄包括藥物不良相關病例報告時間,觀察性研究和隨機對照試驗發表在科學期刊上的日期,不成比例分析符合自發報告系統中的信號閾值的時間等信息,對藥品-不良反應之間的關系進行多維度分析。
為順應大數據時代的發展,我國已經出臺一系列相關規定和政策,促進醫療大數據在上市后藥品安全及不良反應監測中的應用。2015年9月,國務院出臺了關于積極推進“互聯網+”行動的指導意見[20]、印發了《促進大數據發展行動綱要》[21];2016年6月,國務院印發《關于促進和規范健康醫療大數據應用發展的指導意見》[22],指出圍繞重大疾病臨床用藥研制、藥物產業化共性關鍵技術等需求,建立藥物副作用預測、創新藥物研發數據融合共享機制。新形勢下,開展ADR監測的政策和形式對藥品生產企業、醫療機構、監測機構均提出了更高要求。在《藥品不良反應報告和監測管理辦法》[23]《三級綜合醫院評審標準(2011年版)》及《三級綜合醫院評審標準實施細則(2011年版)》[24]等均明確指出,我國要積極開展ADR監測。在大數據背景下,我國在探索進行ADR主動監測的同時,也應積極學習國外的經驗。
5.1整合異構數據用于科研分析 OMOP CDM 數據組織與整合提供了一種數據庫生成的新思路。而通過OHDSI中ETL數據提取的邏輯與方法,使不同來源的數據可根據語言轉換模板,自行轉換成統一的數據模型。在相同數據語言邏輯下進行連接,可以建立起基于患者個體為中心的數據庫。既保證覆蓋患者就醫范圍,可納入分析可疑的風險信號和潛在的ADR,同時對于其他混雜因素,也可整合到數據集中。此外,還可以支持單課題或多課題的研究。
5.2提高研究質量,保證研究快速有效開展 目前由于數據與分析方法的不公開,在處理數據時多數研究者都有著主觀的判斷,研究的可重復性較低。由OHDSI模式下的研究,可基于相同數據結構、相同的分析方法或分析邏輯,研究者既可以將數據整合進行大樣本庫的分析,不同的研究者又可以根據已統一語言的數據庫,利用商定的分析方法進行單個數據中的隊列比較分析。最終對結果進行整理和整合,可以提高結果的可信度,更加準確地識別ADR。此外,類似于OHDSI建立起統一研究方法,可由某種藥物擴散至某一類藥物,快速及時地在不同數據庫進行同時分析掃描,實現了ADR監控的快速性、時效性。
5.3合作式科研新思路 ADR的主動監測是在縝密的研究設計下開展?;谙嗤瑪祿Z言的研究者交流網絡,研究者可以通過交流平臺將研究設計進行完善或找到合作伙伴。由于研究者之間交流的數據模型是數據擁有者轉換之后的,這可以保證原始數據的隱私問題。通過研究者之間的交流協作,快速高效地完善研究設計,開始研究。
關注藥品安全,積極主動監控ADR,是維護公眾健康的重要手段。電子化與信息化將醫療機構的臨床實踐過程進行存儲與整理,迎來了醫藥大數據時代,表現出數據巨量化、存儲方式多樣化、服務時效性、高價值性的四大特點。與醫藥大數據有關的所有涉及或可能涉及醫藥相關資源的擴增,都可以成為ADR主動監測的數據來源。在大數據時代下,應考慮建立起以研究為目的的數據平臺,整合多源數據,高效地融入數據挖掘、文本挖掘技術,讓大數據在控制用藥風險中發揮其重要作用。因此,借鑒國外相關經驗,盡快在我國建立可交流的數據網絡,開展基于大數據的藥品安全主動監測系統研究,融入多方協作,從而加快ADR發現進程,真正從源頭上減少ADR的發生。