張百平
制藥業的進步為醫生治療不同疾病提供了更多選擇,但在面對大規模藥品時,知識鴻溝阻礙了醫生做出及時和準確的選擇。目前有許多推薦應用程序可以幫助醫護人員改善服務、減少錯誤和節省時間。其中最重要的應用之一——聯合用藥推薦[1-3]使醫生能夠根據患者病情變化的描述,以及與大規模用藥相關的專業知識,開出有效安全的處方。國內外有不少關于醫學領域知識圖譜構建及其可視化分析方面的研究[4-7]。醫學知識圖譜包含豐富的藥品和疾病的基本醫學事實,并為醫學發現和應用提供了一條途徑。遺憾的是,這類醫學知識圖譜存在嚴重的數據不完備的問題,阻礙了其在臨床醫學領域的應用,而基于真實世界數據的大規模高質量知識圖譜處于空白狀態。醫療信息系統的使用在很大程度上依賴于醫生的知識和經驗,比較局限,存在一定的問題和挑戰。二部圖是圖論中的一種特殊模型,其頂點集可分割為兩個互不相交的子集,并且圖中每條邊依附的兩個頂點都分屬于這兩個互不相交的子集,兩個子集內的頂點不相鄰。本文將構建一個“藥品-疾病”二部圖,幫助用戶找到治療給定疾病列表的潛在有用藥品。
首先,依據國家衛生健康委員會發布的《疾病分類與代碼國家臨床版2.0》將疾病概念實體組織為層次樹圖譜,用父子關系對疾病概念實體進行細粒度嵌套,從而規范疾病診斷詞典。然后,基于醫學典籍(主要為醫學文獻和指南)和廣州醫科大學附屬第三醫院的醫院信息系統(hospital information system,HIS)構建高質量“藥品-疾病”二部圖。
本文分別以具體的用藥說明書和醫保藥品目錄適應證規定為例,詳細闡述藥品和疾病間關系構建的全過程。醫療作為實踐科學,需要從真實世界獲取數據,本文利用HIS 中的真實診療數據,得到疾病與用藥的關聯關系,從而深化整個“藥品-疾病”二部圖。將獲得的藥品和疾病間的關系圖譜化,得到Neo4j 圖,該圖包含42 149 個節點(2 類標簽)和5 543 747 種關系(5 種關系類型)。在構建好的二部圖上,根據藥品和疾病之間的關系,可視化分析藥品和疾病之間的規律與模式,并基于推理解決相應問題。如藥品和疾病之間的先驗知識(適應證和禁忌證)、HIS 系統中診療方案的療效等。
目前醫學診斷大量采用了ICD 編碼,但ICD編碼結構并不包含完整的上下位父子關系。以疾病“風濕熱”(ICD 編碼為I00.x00x002)為例,它的同位詞有5 個,如“風濕活動”(I00.x00x001)、“風濕性脊柱炎”(I00.x00x006)、“急性風濕性關節炎”(I00.x00x005)、“風濕性脊柱炎”(I00.x00x006)、“風濕性肺炎”(I00.x00x007)。這6 種疾病擁有共同的祖先“風濕熱,未提及心臟受累”,而“風濕熱,未提及心臟受累”又和其他8 種疾病有共同的上位詞“急性風濕熱”?!凹毙燥L濕熱”及其9 個同位詞疾病有共同的上位詞“循環系統疾病”。而這26 種疾病之間的關系和層次結構并沒有在ICD-10 中通過編碼結構表示出來,只是通過編碼的首字母“I”將它們劃分到了循環系統類疾病中。如果要找到某一類疾病的患者,就無法通過一個ICD 編碼獲得,而是需要人工選擇多個ICD 編碼。從另一個角度看,對同一種疾病,醫生在書寫ICD 編碼時詳略不一,也會給病歷的自動處理帶來困難。
為解決上述問題,本節基于現有編碼系統對疾病本體概念進行層級知識圖譜構建。在有向無環圖(directed acyclic graph,DAG)中的節點組成了具有不同程度特異性的醫學概念的多分辨率視圖。有些本體專門表示為父子層次結構(如診斷ICD-10 編碼、藥品ATC 代碼),而有些則不是,如在某些情況下,醫學系統命名法-臨床術語(Systematized Nomenclature of Medicine—Clinical Terms,SNOMED-CT)還將醫學概念與因果或治療關系聯系起來,但SNOMED-CT 中的大多數關系仍然是父子關系。因此,本節側重于構建疾病本體間的父子關系。
本節以疾病“風濕熱”為例構建的ICD 編碼本體概念圖譜專門表示為父子層次結構,其中的疾病名稱與ICD-10 編碼參考《疾病分類與代碼國家臨床版2.0》,其字段包括ICD 編碼和臨床診斷標準詞,獲得的圖譜片段如圖1 所示。

圖1 “風濕熱”(I00.x00x002)疾病層級關系圖譜
在疾病概念圖譜上可基于推理規則模式進行推理。如定義“父親的父親是爺爺”這樣的規則,從疾病本體概念圖譜的基礎父子關系進行推理,可獲得2 跳分隔的祖父關系和3 跳分隔的曾祖父關系。
二部圖包括被分解成兩個不相交的集合的一組節點[8],這是對生物系統及其相互作用的復雜項進行建模的自然表示。廣泛的研究揭示了二部圖的可行性及其在網絡生物學領域的影響[8]。如用二部圖方法分析藥物靶標和疾病基因產物之間的關系,以及人類遺傳病之間的關系[9]。在藥物重定位(drug repositioning,DR)領域,利用藥物對相似性、藥物化學結構相似性、共同藥物靶點及其相互作用發展出一種二部藥物靶點網絡方法[10],還構建了藥物與其靶蛋白之間已知關系的二部圖模型[11]。但是,這些方法與模型大多嚴重依賴于預先定義的藥物相似性特征,而忽略了疾病領域的重要信息[12]。
本文構建的二部圖所包含的知識(關系)來自廣州醫科大學附屬第三醫院HIS 中記錄的真實臨床診療數據等事實性知識和基于領域專業文檔(藥品說明書、國家藥典等)的先驗性知識。藥品以廣州醫科大學附屬第三醫院(為大型三甲醫院)藥庫里的為例。
根據藥品的適應證和禁忌證程度對其警示級別進行劃分,關系警示等級設置3 個級別,數值越大,說明適應性程度越高,或者禁忌性嚴重程度越高。適應證和禁忌證關系上的警示信息及處理方法根據藥品說明書的處理方法寫明。若說明書沒有寫明處理方法,則根據警示等級選擇相應的處理方法或警示語。下面分別對3 個警示等級進行舉例說明。
提醒:若說明書中出現“***患者注意劑量/血清濃度”等普通提醒,如江西匯仁藥業有限公司生產的阿膠當歸合劑的說明書中寫明“【注意事項】4.按照用法用量服用,孕婦、高血壓、糖尿病患者應在醫師指導下服用”,則該警示信息的警示等級為“提醒”。
慎用:若說明書中有“***患者慎用”、“不宜服用”等,如湖南康壽制藥有限公司生產的川貝枇杷膏的說明書中寫明“【注意事項】3.風寒感冒者不適用”,則該警示信息的警示等級為“慎用”。
禁忌:若說明書中寫明“***患者禁止使用/服用”“***患者避免服用”等,如西安仁仁藥業有限公司生產的檳榔四消片的說明書中寫明“【禁忌證】1.孕婦及脾虛便溏者忌服”,則該警示信息的警示等級為“禁忌”。
藥品禁忌證預先設置了與接受者相關的條件或因素,使得特定藥品的使用不適當或不可取。本節以醫保藥品目錄適應證規定為例,構建藥品與疾病間的適應證和禁忌證關系,對應的疾病關聯可用與不可用藥品。下面以糖尿?。‥14.900x001)為例,利用廣州醫科大學附屬第三醫院藥品庫為其構建適應證和禁忌證藥品圖譜。
糖尿病有172個禁忌證藥品和219個適應證藥品,圖2 展示的是該疾病適應證等級為5 和禁忌證等級為5 的藥品。

圖2 糖尿病(E14.900x001)適應證和禁忌證藥品圖譜
圖2 中的綠色線條表示藥品和疾病之間的適應證關系,紅色線條表示藥品和疾病之間的禁忌證關系,線條上的數字表示適應證或禁忌證程度,匹配程度越高數值越大,最大值為5。如圖2 所示,糖尿病患者禁服藥品蛇膽川貝枇杷膏,就在廣州醫科大學附屬第三醫院藥品節點“蛇膽川貝枇杷膏”(0000026676)和疾病節點“糖尿病”(E14.900x001)之間建立一條禁忌證關系。
HIS 數據庫中存儲的是在真實醫療環境下常規收集的診療數據,其數據的產生和收集過程與實際臨床實踐較統一。HIS 中豐富的臨床藥品治療疾病記錄是一種可變的實踐知識,對其進行合理的二次挖掘,找出其中隱藏的醫學信息,必將推動醫學的發展。本節將構建基于HIS 數據的藥品治療疾病關系事實圖譜。
廣州醫科大學附屬第三醫院HIS 中的藥品處方都是經過該院藥學部審核通過的安全、合理、有效的處方,通過抽取HIS 中2021 年產生的真實“藥品-疾病”治療對,構建事實性治療關系對。本文以西藥“鋁鎂匹林片”為例,構建其治療疾病關系事實圖譜。
圖3 展示的是廣州醫科大學附屬第三醫院HIS中藥品“鋁鎂匹林片(Ⅱ)CO15/盒_0000033599”在2021年內治療次數大于80次的疾病及其對應次數。藍色線條表示治療關系,線條上的數字表示HIS 中記錄的某段時間內該藥品用于治療某一疾病的次數。綠色線條表示適應證,對圖3 中與“鋁鎂匹林片”暫時不存在適應證關系但存在實際治療關系的其他疾病,可組織專家確認是否應該在這些疾病和“鋁鎂匹林片”之間建立一條適應證關系。

圖3 廣州醫科大學附屬第三醫院HIS 中“鋁鎂匹林片”治療疾病關系圖譜
經過以上環節的構建,獲得的“藥品-疾病”二部圖的基本情況如表1、表2 所示,涉及藥品[HISdrug]和疾?。跧CD10]兩種節點標簽,其數量分別為7 219 個、34 930 個。

表1 “藥品-疾病”二部圖關系類型及其數量

表2 藥品和疾病節點
在前文構建的“藥品-疾病”二部圖的基礎上開展數據可視化探索和可解釋推理。
可視化任務一般分為數據對比可視化、數據分布可視化、數據組成可視化及數據間關系可視化4類。在知識圖譜中加入標簽信息可增強可視化效果,在“藥品-疾病”二部圖上能夠做一些事實性問題的查詢,如表3 所示。
表3 中第一條語句查詢廣州醫科大學附屬第三醫院藥庫中治療“胃腸炎”的適應證藥品,第2 條查詢廣州醫科大學附屬第三醫院治療“胃腸炎”最常用的藥品。圖4 展示了第3 條查詢語句的可視化圖譜,即2021 年實際治療“胃腸炎”大于23 次并為治療“胃腸炎”適應證藥品的25 個藥品。

圖4 常用于治療“胃腸炎”(A09.901)的適應證藥品

表3 “胃腸炎(A09.901)”用藥多視角查詢
圖4 中藍色線條表示表1 中的Treat(治療)關系,線條上的數字表示治療次數;綠色線條表示表1 中的Indication(適應證)關系,線條上的數字表示適應證程度,數值越大表示藥品與疾病間適應證程度越高,數值最大為5。
超說明書用藥是指藥品治療疾病、給藥方法或劑量、適應人群不在藥品監督管理部門批準的說明書之內的用法。超說明書用藥必須充分考慮藥品的不良反應、禁忌證、注意事項,權衡患者用藥后獲得的利益是否大于可能出現的危險,以保證該用法是最佳方案。超說明書用藥必須有合理的醫學實踐證據,如有充分的文獻報道、循證醫學研究結果、多年臨床實踐證明及申請擴大藥品適應證的研究結果等。
表4 為“來曲唑片”超說明書用藥情況,可以看出,在廣州醫科大學附屬第三醫院,“來曲唑片”常被用于治療“多囊卵巢綜合征”(E28.200)、“女性不孕癥”(N97.900)、“采取卵子”(Z31.201)、等疾病(圖5),這些都屬于超說明書用藥的情況。該醫院醫生根據臨床實踐,建議在被“來曲唑片”治療次數最多的兩個疾病“多囊卵巢綜合征”(E28.200)、“女性不孕癥”(N97.900)和藥品“來曲唑片”之間建立適應證關系,適應證程度為分別為5 和4,以擴大藥品“來曲唑片”的適應證范圍。

圖5 “來曲唑片”常用于治療的疾病

表4 “來曲唑片”超說明書用藥
下面以“藥品-疾病”二部圖為基礎從顯式推理和規則推理兩方面開展探索性分析。
3.3.1 顯式推理
在如圖6 所示的“來曲唑片”層級概念圖譜上,具有完全相同父節點的5 個子節點(來曲唑片_0000031992、來曲唑片_0000029919、來曲唑片_0000034327、來曲唑片_0000025593、來曲唑片_0000034494)間的相似度為可設置為1,即它們具有的所有關系,如藥品-藥品相互作用(drug—drug interaction,DDI)、適應證、禁忌證關系都相同。雖然在廣州醫科大學附屬第三醫院HIS 中2種“來曲唑片”在2021 年并沒有治療疾病的記錄,但如果將來醫院藥庫重新采購這一藥品,可直接推斷其常被用于治療的疾病應與圖5 相似。

圖6 “來曲唑片”層級概念圖譜
3.3.2 規則推理
本文構建的“藥品-疾病”二部圖讓數據的可解釋性變得更好,可以更便捷地對已加工的數據指標做進一步加工,并且加工口徑更加統一。由原來展現藥品和疾病間關聯關系的洞察,轉變為基于藥品與疾病本體層級概念圖譜和二者之間的先驗知識圖譜及事實知識圖譜,通過層層下鉆猜測藥品和疾病間可能存在的關系,再尋求機會做驗證的探索性分析。
如可以定義疾病的所有子類疾病具有與該疾病相同的適應證和禁忌證關系。而反過來就不能推斷出疾病的父類疾病具有與該疾病相同的適應證和禁忌證關系。如表5 中的“潑尼松龍針”的9個適應證疾病的所有子類疾病應該與藥品“潑尼松龍針”存在相同的適應證關系,適應程度都為4,基于這一條規則推理出的結果如圖7 所示。

圖7 “潑尼松龍針”部分適應證疾病圖譜

表5 “潑尼松龍針”部分適應證疾病
表5 中序號為4~9 的6 種疾病有共同的父節點“慢性下呼吸道疾病(J40-J47)”,它們都屬于“呼吸系統疾病(J00-J99)”。但是不能推斷出“慢性下呼吸道疾?。↗40-J47)”疾病節點與“潑尼松龍針”藥品節點之間存在適應證關系,更不能得出“呼吸系統疾?。↗00-J99)”和“潑尼松龍針”之間存在適應證關系。
幾乎所有的醫療信息系統都是由關系數據庫管理技術驅動的,關系數據庫中表之間的關系只通過一個稱為外鍵的特殊屬性在邏輯上進行鏈接,搜索相關記錄則需要對整個目標表進行查找。隨著目標表的增大,查找效率越來越低。圖數據存儲模型將數據屬性保存在節點中,通過創建稱為“邊”的物理鏈接將所有相關節點作為鄰居保持在一起。只要相關節點的數量保持不變,即使圖的其他分區中的節點數量急劇增加,檢索性能就保持不變。
二部圖利用圖結構建模、識別和推斷事物之間的復雜關聯關系并沉淀領域知識,是實現醫學認知智能的重要基石。對很多低資源條件的業務問題,構建二部圖是最直接和有效的解決方法,很多實際的業務問題并不需要復雜的算法模型。二部圖可在知識庫檢索、推薦、可視化和規劃方面增效。本文構建的“藥品-疾病”二部圖,以結構化圖的形式描述客觀世界中藥品和疾病概念及二者間相互關系屬性,具有數據關聯、標準術語、語義邏輯等特點,利于更好地對這兩類實體進行建模、理解和推理。這一屬性圖格式為本文提供了利用Neo4j 強大的以圖為中心的庫來尋找路徑、中心性和計算嵌入的機會,從而體現其輔助增強用藥合理性、促進臨床用藥決策科學性、提高基層醫生診療水平等實際應用價值。
本文構建的二部圖建立在藥品到疾病映射的先驗知識和事實知識上,有助于找到可能用于治療疾病的組合藥品、規范超說明書用藥、促進藥品合理使用、保證醫療安全、提升藥品治療水平。二部圖通過整合多個知識來源,使用戶能夠在短時間內獲得更具表現力的搜索結果。這類應用主要面向醫生等具有專業背景、需要對數據進行深入調查并做出職業判斷的用戶,要求內容具有專業性,對分析功能也有較高要求。然而選擇藥品不僅要考慮適應證、禁忌證、重復用藥和DDI,還要考慮患者的年齡、體重等其他因素。下一步的研究將擴大數據庫,以解釋這些因素。