王永博,劉郝弦,高 曠,陳沐坤,任相穎,饒映月,王詩淳,李緒輝,黃 橋,閻思宇,朱 彥,靳英輝
1.武漢大學中南醫院循證與轉化醫學中心(武漢 430071)
2.武漢大學計算機學院(武漢 430071)
3.湖北中醫藥大學針灸骨傷學院 (武漢 430061)
4.中國中醫科學院中醫藥信息研究所(北京 100700)
臨床實踐指南是針對患者的特定臨床問題,基于系統評價的證據,在比較不同干預措施利弊的基礎上,形成的旨在為患者提供最佳醫療服務的推薦意見[1],一般由醫學組織或是政府機關發布。目前國內外針對指南數字智能化有兩個關鍵問題:一是如何將基于自然語言的非結構化文本指南轉換成基于計算機語言的結構化電子指南;二是如何進行知識抽取、表示、融合、推理和問答,使得計算機能有效理解并高效執行結構化的指南[2-4]。知識圖譜是采用語義技術形式表達的系統化、結構化、集成化的特定領域知識[5]。因此,基于知識圖譜技術,將指南的非結構化數據轉化成圖數據庫以進行存儲及搜索是值得研究的[6]。當前指南知識圖譜的研究主要關注從臨床問題到推薦意見的內容,鮮有涉及指南基本信息及方法學內容,如指南的目標人群、指南使用者、證據收集過程、推薦意見形成過程、證據質量等級與推薦意見分級標準、利益沖突等。呈現指南的基本信息及方法學內容對促進指南的客觀、公正、透明具有重要作用。此外,通過知識圖譜將指南的基本信息及方法學內容與指南的臨床問題和推薦意見進行整合,更有利于增強知識圖譜的完整性。通過對指南的結構、知識及知識間的關系進行規范化的表示,發掘指南通用性的結構框架,并通過建模表征,將純文本的指南轉換為機器可理解的結構化指南,可極大提高指南相關術語的規范性和一致性,避免不同信息源指南的語義異構,為進一步指南數據挖掘和知識服務奠定基礎。前期作者團隊以《中國非肌層浸潤性膀胱癌治療與監測循證臨床實踐指南(2018年標準版)》[7]為例,通過系列文章介紹了基于該指南臨床問題到推薦意見的知識圖譜構建過程[8-10]。本文則基于該指南提出了指南基本信息、背景和方法在知識圖譜中的建模表征方法,旨在豐富完善指南知識圖譜構建,為指南數字智能化奠定基礎,為進一步促進指南的實施與推廣提供參考。
《中國非肌層浸潤性膀胱癌治療與監測循證臨床實踐指南(2018年標準版)》(以下簡稱為“非肌層浸潤性膀胱癌指南”)包含發表文獻所有要素,分別是中英文標題、摘要、關鍵詞、背景、方法、結果、討論、參考文獻、利益沖突說明等,詳情請見原文[7]。
本研究對解析出的指南基本信息、背景和方法相關內容的知識結構進行梳理、歸納,結合專家意見設置各概念間的層級關系,據此對指南基本信息、背景和方法內容進行結構化組織。
1.2.1 概念結構表設計
本研究采用綜合法的構建方式。模式層的設計思路及方法已在系列文章的第二篇[8]進行描述,此處不做贅述。本研究整理出非肌層浸潤性膀胱癌指南中關于指南的基本信息、背景和方法相關內容對應本體的多級概念層次結構,如表1所示。其中概念的定義參考臨床研究與指南相關書籍[11-13],以及醫學相關本體,如生物醫學研究本體(ontology for biomedical investigations,OBI)、信息工具本體(information artifact ontology,IAO)與通用醫學科學本體(ontology for general medical science, OGMS),并通過多次專家咨詢修訂而來。

表1 指南本體概念結構表(指南基本信息、背景和方法內容)Table 1.Conceptual structure for guideline ontology (Basic information, background and method content of the guideline)

續表1

續表1

續表1

續表1
1.2.2 語義關系設計
實現指南結構的概念整合需使以上不同層級的概念在語義上產生關聯。本研究設計了核心概念之間的主要語義關系(見表2),主要包含臨床實踐指南中的指南基本信息、背景、方法部分。

表2 指南本體設計中語義關系表(指南基本信息、背景和方法內容部分)Table 2.Semantic relationships in guideline ontology(Basic information, background and method content of the guideline)

續表2

續表2
本研究基于三元組數據模型構建數據層,揭示指南中各類醫學實體間的關聯,通過鏈接實體,形成臨床實踐指南知識圖譜。
例如,對于指南基本信息,實體1為“中國非肌層浸潤性膀胱癌治療與監測循證臨床實踐指南(2018年標準版)基本信息”,實體1所屬概念為“臨床實踐指南基本信息”,而實體1指向實體2的關系為“出版日期” “出版社”“出版地”“狀態”“指南類型”“學科分類”“中文標題”等,實體2則對應為“2019年7月”“現代泌尿外科雜志”“中國”“已出版”“疾病治療指南”“泌尿外科學”“中國非肌層浸潤性膀胱癌治療與監測循證臨床實踐指南(2018年標準版)”等,實體2所屬概念對應為“日期”“組織機構”“地點”“指南狀態”“指南類型”“醫學學科”“文本”等。指南基本信息、背景和方法內容的數據層(實體和關系)設計如表3所示。

表3 三元組關系示例(指南基本信息、背景和方法內容部分)Table 3.Example of a triplet relationship (Basic information, background and method content of the guideline)

續表3

續表3

續表3
基于抽取的三元組數據模型,設計導入的醫學節點和關系節點,使用Python將CSV文件導入Neo4j,對數據進行存儲。
若想獲取所有和《中國非肌層浸潤性膀胱癌治療與監測循證臨床實踐指南(2018年標準版)》直接相連接的實體及相應的關系,則輸入cypher語句:
match p=(:臨床實踐指南{name:'中國非肌層浸潤性膀胱癌治療與監測循證臨床實踐指南(2018年標準版)'})--( ) return p
隨著圖數據規模的日益增大,大圖上的子圖搜索問題變得更為重要[14]。以問題為例,后臺代碼演示數據庫檢索:
問題1:對于指南:“非肌層浸潤性膀胱癌指南的發布日期?”,查詢元路徑是:(a:臨床實踐指南)-[:發布日期]->(b)。
輸入cypher語句:
Match (a:`臨床實踐指南` {name:"中國非肌層浸潤性膀胱癌治療與監測循證臨床實踐指南(2018年標準版)"}) -[ ]-> ( )-[:發布日期]-> (b) return b
則可得到圖1-A的結果,即非肌層浸潤性膀胱癌指南的發布日期為“2019年7月”。

圖1 臨床實例驗證Figure 1.Validation of clinical examples
問題2:對于指南:“中國非肌層浸潤性膀胱癌治療與監測循證臨床實踐指南(2018年標準版)的證據質量與推薦意見分級標準來源是?”,查詢元路徑是:(a:臨床實踐指南)-[b:證據質量與推薦意見分級標準]->(c)。
輸入cypher語句:
Match (a:`臨床實踐指南`) -[*]-> (b:`證據質量與推薦意見分級標準`) -[*]-> (c:URL) return c.name
則可得到圖1-B的結果,即非肌層浸潤性膀胱癌指南的證據質量與推薦意見分級標準是按照EAU-非肌層浸潤性膀胱癌指南使用的標準進行評估的。
本研究以非肌層浸潤性膀胱癌臨床實踐指南為例,提出并構建了指南知識圖譜中指南的基本信息、背景和方法呈現方法,其多級概念架構及數據層(實體和關系部分)設計方法也可為其他疾病指南的知識圖譜構建提供參考。本課題組在實際操作中應用多級概念層初步構建了該知識圖譜,發現其可合理表達指南中的概念與語義關系。但該方法仍存在諸多不足。
首先,較少的層級結構雖然可確保輸入知識圖譜的數據質量,但仍需臨床工作者和工程師對臨床實踐指南進行整理和總結。本研究主要針對指南的基本信息、背景和方法進行建模表征,在概念層設計中,考慮到與其他本體的映射,使用了統一規范的醫學術語指標體系增強指南計算機化中知識表達的規范性和互操作性。對于部分語義關系設計的指向概念,綜合參考和借用現有的醫學本體,權衡信息涵蓋粒度和實用性,某些指向概念無需進一步區分,直接使用“文本”“數字”等數值類型的屬性來表示。后續需從多部不同類型的指南、臨床路徑和書籍中盡可能系統檢索出與指南相關的不同的實例,并盡可能羅列出每個概念層下所包含的術語,討論每個實例應該歸類到哪些概念層中。若某些實例無法歸類到當前的概念層中,則需考慮增加層級結構或歸類到新的概念層中,且后續工作中還需參考一體化醫學語言系統(Unified Medical Language System,UMLS)、醫學主題詞表(Medical Subject Headings,MeSH)、醫學系統命名法——臨床術語(Systematized Nomenclature of Medicine—Clinical Terms,SNOMED CT)等術語集補充類和類的層級體系及添加新的概念層。
其次,語義間關系的建立也需反復推敲,后續可借鑒UMLS等語義關系網,并結合專家論證,補充或修正語義關系,包括逆向關系、繼承關系和反向繼承關系等。此外,概念及語義之間關系的編碼組織方式也需進一步研究。
最后,在指南中方法學部分最為重要的內容之一——證據質量與推薦意見分級標準的建模表征中,對于證據質量與推薦意見分級標準類型,本研究參考GRADE及中醫藥相關證據質量與推薦意見分級體系,考慮不同的證據質量與推薦意見分級體系共有的特征和區別進行建模表征,兩級概念層設計為依據研究設計的分級標準、依據研究設計及質量的分級標準和依據證據體的分級標準。對于相同的臨床問題,在不同指南中采用不同的分級體系并同時給出了相應的證據質量等級與推薦意見,此時需通過專家論證,討論不同體系的證據質量對應關系,如GRADE證據質量等級對應美國衛生保健和質量機構(Agency for Healthcare Research and Quality,AHRQ)中的證據質量等級,賦予相應的權重,則在多個指南的知識圖譜融合中,檢索相同的臨床問題時,可將推薦意見按照證據質量等級高低的順序進行排序呈現,從而體現圖數據庫的優勢。
綜上所述,本文以非肌層浸潤性膀胱癌臨床實踐指南為例,提出的指南基本信息、背景和方法知識圖譜框架設計,可以為指南數字智能化奠定基礎,有利于推動指南的實施、推廣與傳播。