白永梅 杜 建
(1.北京大學醫學部醫學技術研究院,北京 100191;2.北京大學健康醫療大數據國家研究院,北京 100191;3.北京大學醫學部公共衛生學院,北京 100191)
證據綜合(evidence synthesis)是指將多個來源和學科的信息和知識匯集在一起,為辯論和決策提供信息的過程。對現有證據進行準確、簡潔和無偏倚的綜合是研究界可以為決策者提供的最有價值的貢獻之一[1]。自1980年以來,證據綜合已發展成為疾病預防、診斷和治療以及其他健康議題影響決策的基礎。證據綜合還有助于解決教育、經濟、環境、刑事司法、全球發展等最緊迫的全球挑戰。例如,全球的藥品監管機構和醫療保險公司不依賴單一研究,而是綜合所有相關研究來評估安全性和有效性,并決定是否批準藥物上市或支付藥物費用。證據綜合是“從證據到實踐”、“從科學到政策”的橋梁[2]。在醫學領域,證據綜合的結果主要是系統評價和Meta分析。根據統計,正式發表的系統評價數量已從2011年的約6 000篇增加到2021年的45 000多篇[2]。全球平均每天要進行約75項臨床試驗和11項系統綜述[3],證據綜合越來越困難,一項系統評價平均需要5個人花費67周時間才能完成[4],由此導致證據綜合存在嚴重的滯后性,無法充分且及時發揮對決策的價值。如何跟上海量醫學證據的發展,并將其轉化為臨床實踐是一個迫切需要解決的科學問題[5]。
2020年,醫學信息學領域的學者提出了“可計算的證據綜合”(computable evidence synthesis)的概念,即直接利用臨床試驗注冊平臺的結構化數據促進醫學證據合成[6-7]。有助于系統綜述從耗時的“試驗結果出版物篩選模式”轉為主動積極的“臨床試驗監測模式”,從“證據積累模式”轉變為“證據優先級排序”的模式[8]。相對書目數據庫而言,臨床試驗注冊平臺的試驗結果尤其是陰性結果未被充分利用。本文受以上觀點啟發,述評目前研究進展,提出可計算的證據綜合的基本框架和實現路徑,為實現快速證據綜合提供可行性路徑和研究案例。
實現可計算的臨床證據綜合,需要抽取、映射和整合三個過程。首先是抽取,即結構化,從半結構化數據平臺(如Clinicaltrials.gov的XML文件、Cochrane系統綜述結果)和非結構化自然語言文本(如PubMed)中抽取“患者-干預-對照-結局”(population-interventions-comparisons-outcomes,PICO)要素;以美國Clinicaltrials.gov、中國臨床試驗注冊平臺等為基礎,利用其相對結構化的數據,自動生成PICO字段,對于注冊平臺上未報告結果的試驗,通過計算機軟件工具獲取書目數據庫(如PubMed)或網絡(如權威會議報道)報告結果。
其次是映射,即標準化,利用醫學本體和術語集,將PICO要素的不同語言表達進行統一編碼[9],將自然語言映射為標準化術語體系中的概念;常用的術語體系如統一醫學語言系統(the Unified Medical Language System, UMLS)[10],常用的映射工具如基于文本相似度的術語映射工具通用數據模型(the Observational Medical Outcomes Partnership-Common Data Model, OMOP-CDM)[11],這些工具可以在很大程度上幫助實現“多源異構”術語的自動映射,實現統一表達,為證據整合奠定基礎。
第三是將不同來源的實體和數據通過“以PICO為框架的知識圖譜”進行整合、存儲。將以上結果與目前現有的系統綜述(如Cochrane系統評價數據庫)結論進行對比,可判斷當前證據是進一步確認了還是完全改變了目前最新的系統綜述或Meta分析結論,從而能減少重復開展系統綜述帶來的時間和人力浪費。
目前針對不同等級的臨床證據,如系統綜述、隨機對照試驗(randomized controlled trial,RCT)結果、注冊臨床試驗等均有計算機科學和醫學的交叉研究團隊開展了證據結構化和標準化的工作,代表性進展主要包括以下兩個方面。
Cochrane系統評價數據庫(Cochrane Database of Systematic Reviews, CDSR)是世界上最大的單一系統評價數據庫。為實現系統綜述結論的結構化存儲,Cochrane組織在2014年啟動了鏈接數據(Cochrane linked data)項目,將系統綜述中涉及的PICO概念進行結構化和標準化。以新型冠狀病毒肺炎(COVID-19,以下簡稱新冠肺炎)疫情為例,Cochrane組織和科技公司Data Language合作構建了一個全新的數據架構(a radical new data architecture),以知識圖譜(knowledge graph)技術為核心,改進Cochrane以往用傳統的非結構化數據(主要是自然語言文本)描述醫學證據的方式。
Cochrane系統綜述的傳統方式耗時耗力,需要領域專家參與,最終的產出是復雜半結構化文檔。在新的方案中,“標準化”通過PICO框架中的疾病、干預等實體使用標準化詞表來表示。常用的實體和標準化詞表對應情況詳見表1。以上在PICO finder系統中可以實現查詢,其實體所采用的標準化詞表也即OMOP-CDM中的敘詞表。但Cochrane當前的研究僅進行了實體類別標注,并未對干預和結局之間的關系進行描述(圖1)。2020年,有研究者[12]聚焦系統綜述的結果,從中提取相關疾病、風險因素、風險結果和其他糖尿病實體以及比值比(odds ratio, OR)或風險比(risk ratio, RR)等效應指標和效應值,基于循證醫學的框架構建糖尿病并發癥的知識圖譜,將實體之間的風險關系通過知識圖譜進行可視化,實現快速證據綜合。

表1 PICO框架中的實體與其對應的標準化詞表 Tab.1 Standardized vocabulary for entities in the PICO framework

圖1 Cochrane PICO FinderFig.1 Cochrane PICO Finder(https://data.cochrane.org/pico-finder/)PICO:population-interventions-comparisons-outcomes.
2.2.1 Trialstreamer:對RCT結果的結構化
RCT結果結構化的代表性工作是Trialstreamer人工智能系統。系統基于PubMed和世界衛生組織(World Health Organization,WHO)國際臨床試驗注冊平臺(International Clinical Trials Registry Platform, ICTRP),使用RobotReviewer機器學習系統自動查找RCT研究,并從中提取關鍵信息。具體包括(圖2):

圖2 Trialstreamer數據結構Fig.2 Data structure of Trialstreamer
(1)PICO概念:基于規則進行提取,映射為UMLS超級敘詞表中的概念。使用EBMNLP(evidence-based medicine natural language processing)語料庫對PubMed當中的RCT研究摘要進行PICO概念的識別[13]。通過Metamap Lite提取描述PICO元素的MeSH術語,基于UMLS Metathesaurus通過算法生成的龐大醫學術語同義詞詞典,使用MeSH詞匯表中概念的唯一標識符相匹配來實現標準化。字段包括:人口學特征(population)、干預措施(interventions)、結局(outcomes)、人口學特征MeSH(population_mesh)、干預措施MeSH(interventions_mesh)、結局MeSH(outcomes_mesh);以上結果包含了結構化和標準化兩個過程,其中標準化是通過向MeSH術語體系映射實現的。
(2)偏倚風險評估(prob_low_rob):通過訓練Cochrane圖書館中60%帶有Cochrane偏倚風險工具手動評估的RCT摘要,以實現從摘要中自動評估偏倚風險的目的。
(3)樣本量(num_randomized):使用一系列啟發式、正則表達式和自然語言處理(natural language processing,NLP)技術將摘要中的樣本量進行提取,并使用多層感知器模型來估計每個整數代表研究樣本大小的概率。
(4)結論句(punchline_text)[14]:包括作者結論和統計效應量的句子。
(5)其他元數據項:PMID、標題(ti)、摘要(ab)、年份(year)、作者(authors)、期刊(journal)、doi等。
2.2.2 注冊臨床試驗結構化
目前,針對注冊臨床試驗開展可計算的證據綜合有以下代表性工作:(1)2012年構建的臨床試驗知識圖譜(Clinical Trials Knowledge Graph, CTKG),該圖譜是根據來自ClinicalTrials.gov數據庫的臨床試驗數據構建的知識圖譜。包括代表臨床試驗(如研究、藥物、病情)中醫療實體的節點,以及代表這些實體(如研究中使用的藥物)之間關系的邊,它包括1 496 684個節點(18種節點類型)和21種關系類型,共3 667 750個三元組。提供了3本關于如何使用知識圖嵌入來探索和分析CTKG的手冊[15]。(2)新冠肺炎臨床試驗鏈接圖:利用自然語言處理工具,從符合納入和排除標準的開放文本和來自ClinicalTrials.gov的結構化信息中提取臨床試驗信息,并將其導入支持查詢和可視化的圖形數據庫,便于檢索臨床試驗[16]。(3)2022年構建的CTKG,該圖譜包括表示臨床試驗(例如,藥物和癥狀)等醫療實體的節點,以及表示這些實體(例如,研究中使用的藥物)之間關系的邊緣。同時嵌入分析CTKG在臨床應用中的潛在效果,例如藥物再利用和相似性搜索等[17]。
以上研究均把PICO概念進行了結構化,但目前的研究均沒有提取I/C和O之間的效應指標和效應值。因此,筆者此前的研究在國內外學者的基礎上構建了基于“醫學實體”和“統計量”的臨床證據知識圖譜,基于ClinicalTrials.gov平臺XML數據、Trilastreamer工具提取出版物中臨床試驗實體、包括統計量的結論句和風險偏倚評分(代表研究質量)等字段[18],通過NLP進一步規范PICO實體和統計學指標,并與標準化術語體系(MeSH、ICD、MedDRA等)進行映射,構建I/C和O之間的效應關系,篩選有臨床意義的試驗,輔助臨床決策[19]。通過分類來確定I/C和O之間關系的啟發[20],筆者將干預和結局之間的效應根據抽取出的P值分為三類來定義其臨床意義:①有顯著差異(改善、增加、降低),P<0.05;②無顯著性差異,P>0.05;③未出現。ClinicalTrials.gov在使用元數據方面尚存在著一些障礙,其主要原因是未進行術語標準化。如患者疾病情況的描述詞分布包括MeSH (62%),MedDRA (46%)和SNOMED-CT (45%)[21]。
結合上述工具和研究,筆者通過導出ClinicalTrials.gov中有關COVID-19臨床試驗的eXtensible Markup Language(XML)文件,基于PICO框架對字段進行分類、標準化映射、圖數據庫存儲等信息處理過程。筆者的映射工具涉及MTI、MetaMap和Usagi,并在Neo4j、GraphDB中建立了“實體-屬性-值”結構的圖數據庫[22- 23],較Clinicaltrials.gov平臺增加了新的基于多字段和內容的查詢條件,通過Cypher語言對特定字段進行查詢、數據導出,為可計算奠定基礎。在筆者建立的本地數據庫中通過Cypher語言查詢“MATCH (n{nctid:’NCT04491240’}) RETURN n”返回結果如圖3所示,可視化展示的每個節點名稱為“實體”,“node labels”為節點的屬性,每個節點中包含了相應的“數據”且可以供研究者導出使用。該研究被收錄在ExtractionandEvaluationofKnowledgeEntitiesfromScientificDocuments(EEKE2021)論文集當中。通過Cypher語言在Neo4j構建的圖形數據庫中查詢和批量導出信息[24],可以幫助研究人員批量獲取最新數據,并為實時合成研究證據奠定基礎。與書目數據庫中的出版物相比,這些數據包括陰性和陽性結果,更加全面客觀,可以補充出版物中的灰色數據。實體對齊使用到Usagi工具(https://github.com/OHDSI/Usagi),直接映射到OHDSI的術語表[25]。
通過上述方法構建了如圖3所示的臨床試驗信息存儲圖數據庫的內容,大規模分析臨床試驗可以為自動化Meta分析提供信息學策略、繪制證據圖譜、將有證據支持的暴露-結局繪制為網絡知識圖譜。可以實現的臨床應用包括:提取臨床試驗患者納入標準中“有一線藥物失敗”的患者使用的二線藥物信息;二線藥物的臨床試驗設計,可以參考相關一線藥物的研究設計要素等。

圖3 圖數據庫存儲醫學知識“實體-屬性-值”案例展示Fig.3 Case presentation of Graph database stored medical knowledge “entity-attribute-value”
2021年Nature發表的評論呼吁動態更新的證據綜合,通過NLP、機器學習、眾包等技術來規范開放數據管理,如提高數字資源共享可發現(Findable)、可訪問(Accessible)、可互操作(Interoperable)和可重用(Reusable)的FAIR原則,幫助推動數據共享的可查找、可訪問、可互操作性,以此建立高質量的證據合成方法和指南[2, 26]。推動可計算的生物醫學知識(Mobilizing Computable Biomedical Knowledge, MCBK)第三屆年度公開會議總結:動員可計算的生物醫學知識-加速第二次知識革命[27]。
本研究所納入的研究均通過結構化醫療數據來實現醫學知識的可計算,其中“標準化映射”實體是規范字段名稱通用的手段,不同的標準化方法側重的內容不同、編碼方式不同,但都以利于醫學數據字段融合為目的。如血管緊張素轉換酶抑制劑和血管緊張素受體阻滯劑被認為會影響新冠肺炎的易感性,但缺乏相關臨床試驗,通過證據融合可以更好地為臨床醫學提供證據[28]。
當前大部分研究停留在設想階段,鮮少有實踐案例,且存儲方式單一,不利于查詢和數據提取。如ClinicalTrials作為結構化數據庫,其查詢字段有很大的局限。將本文結合圖數據庫存儲為“實體-屬性-值”的格式,并應用現代化查詢技術,可以通過圖數據庫的存儲形式來實現不同研究數據的可視化、查詢、數據提取等。實現手段如圖4所示:①從結構化數據庫中提取數據;②醫學實體標準化:通過MTI、Usagi、MetaMap等工具和平臺,對醫學實體進行編碼和對齊;③通過知識圖譜構建平臺和工具,將“實體-屬性-值”進行存儲;④通過SPARQL、Cypher、Python等編程語言對數據進行查詢、導出。該路徑綜合了前人研究的基礎,且在數據存儲、共享、可視化方面進行了一定的創新。

圖4 可計算的臨床證據實現框架Fig.4 Implementation framework for calculable clinical evidence
利益沖突所有作者均聲明不存在利益沖突。
作者貢獻聲明白永梅:論文撰寫、繪圖;杜建:研究設計和論文指導。