韋昌法 劉東波 劉惠娜 占艷



摘? 要:以郁病辨證為例,開展基于知識圖譜的中醫智能輔助辨證知識表示與推理研究,提高中醫智能輔助辨證模型的構建效率、辨證模型中辨證知識的可視化程度和辨證推理過程的可解釋性。以面向智能輔助辨證的郁病辨證知識獲取和醫案采集工作的成果為基礎,構建郁病智能輔助辨證知識圖譜,在知識圖譜中表示癥狀知識和證型知識以及二者之間的關系,結合概率推理進行辨證推理測試和分析。構建了刻畫19種證型和147個癥狀之間關系的郁病智能輔助辨證知識圖譜,辨證推理測試獲得的初步準確率可達79.17%、按證型分組統計的準確率最高可達100%,可根據郁病智能輔助辨證知識圖譜對辨證結果進行初步解釋。將知識圖譜應用于中醫智能輔助辨證知識表示并結合概率推理方法進行辨證推理,有助于提高辨證模型的構建效率和模型中辨證知識的可視化程度。
關鍵詞:知識圖譜;郁病;智能輔助辨證;知識表示;辨證推理
中圖分類號:TP39? 文獻標識碼:A? 文章編號:2096-4706(2023)24-0115-07
Research on Knowledge Representation and Reasoning of Intelligent Assisted Syndrome Differentiation for Depression Based on Knowledge Graph
WEI Changfa1, LIU Dongbo1, LIU Huina2, ZHAN Yan1
(1.School of informatics, Hunan University of Chinese Medicine, Changsha? 410208, China;
2.Medical School, Hunan University of Chinese Medicine, Changsha? 410208, China)
Abstract: Taking the syndrome differentiation of depression as an example, this paper carries out research on knowledge representation and reasoning of intelligent assisted syndrome differentiation for Traditional Chinese Medicine (TCM) based on knowledge graph, to improve the construction efficiency of TCM intelligent assisted syndrome differentiation model, the visualization degree of syndrome differentiation knowledge in the syndrome differentiation model, and the interpretability of syndrome differentiation reasoning process. Based on the achievements of knowledge acquisition and medical case collection work for intelligent assisted syndrome differentiation of depression, an intelligent assisted syndrome differentiation knowledge graph for depression is constructed. It represents symptom knowledge, syndrome type knowledge, and the relationship between the two in the knowledge graph, and the probabilistic reasoning is combined to conduct testing and analysis of syndrome differentiation reasoning. A knowledge graph of depression intelligent assisted syndrome differentiation is constructed to depict the relationship between 19 types of syndromes and 147 symptoms. The preliminary accuracy obtained through testing of syndrome differentiation reasoning can reach 79.17%, and the highest accuracy achieved by grouping statistics according to syndrome types can reach 100%. The syndrome differentiation results can be preliminarily explained based on the knowledge graph of depression intelligent assisted syndrome differentiation. This paper applies knowledge graph to the knowledge representation of intelligent assisted syndrome differentiation of TCM, and combines probabilistic reasoning methods for syndrome differentiation reasoning, which helps improve the efficiency of constructing syndrome differentiation models and the visualization degree of syndrome differentiation knowledge in the models.
Keywords: knowledge graph; depression; intelligent assisted syndrome differentiation; knowledge representation; syndrome differentiation reasoning
0? 引? 言
郁病是以心情抑郁、情緒不寧、胸部滿悶、脅肋脹痛,或易怒易哭,或咽中如有異物梗阻等癥為主要臨床表現的一類病證,西醫學中的抑郁癥、焦慮癥、癔癥等均屬于本病范疇[1]。世界衛生組織的報告顯示,到2030年抑郁癥將躍居全球疾病總負擔的第一位[2]。郁病的早預防、早發現和早治療是擺在研究者面前亟待解決的重大課題,因此本文選取郁病為例開展中醫智能輔助辨證知識表示與推理研究。
1? 郁病辨證知識獲取和醫案采集
開展郁病智能輔助辨證知識表示與推理研究,首先需要獲取辨證知識。中醫內科學教材、中醫臨床診療指南和中醫臨床診療方案中對郁病的辨證論治知識都有所敘述,為了較為整全地獲取郁病辨證知識,筆者通過文獻研究法全面搜集包含郁病辨證知識的權威文獻,選取了《中醫內科常見病診療指南中醫病證部分·郁病》(中華中醫藥學會2008年發布)等6份權威文檔作為郁病辨證知識來源,進而設計了郁病證型分布數據獲取方案、郁病癥狀規范化處理方案和郁病證型與癥狀關系初步計算方案,以開展郁病辨證知識獲取工作。
開展郁病智能輔助辨證知識表示與推理研究,需要建立中醫智能輔助辨證模型并驗證其準確率,研究過程需要準備大量的配套醫案。這些醫案一方面可以用于挖掘中醫專家的辨證經驗,使智能輔助辨證模型能集成專家經驗來開展辨證;另一方面可以用于評估智能輔助辨證模型的辨證準確率。筆者研究了郁病智能輔助辨證配套醫案智能采集方案,設計了辨證推理測試醫案篩選條件和醫案數據預處理及自動篩選方案,基于醫案數據完善郁病辨證知識,為后續研究奠定基礎。
基于上述方案,筆者以計算機程序自動處理結合人工審核的方式,從6個郁病辨證知識權威來源中獲取了19種郁病證型的分布數據,計算獲得了包含147個癥狀的郁病證型規范化癥狀集和19種郁病證型對應的癥狀子集以及證型與癥狀之間的關系數據,采集了302例郁病醫案,完成了醫案信息自動提取,自動篩選出了169例可供智能輔助辨證推理測試使用的醫案,完成辨證推理測試數據預處理,為開展基于知識圖譜的郁病智能輔助辨證知識表示與推理工作奠定了知識和數據基礎。
2? 郁病智能輔助辨證知識表示方案
谷歌公司于2012年5月正式提出了知識圖譜的概念,知識圖譜中的節點代表現實世界中存在的概念或實體,圖中的邊則代表概念或實體之間的各種語義關系[3,4]。知識圖譜目前已經在教育、醫療、金融、工業、農業等領域得到了快速發展與廣泛應用[5]。中醫藥知識圖譜能夠以圖譜的形式對中醫藥領域知識進行可視化表示,支持知識關聯和擴充,為中醫藥教學、科普等工作提供知識服務,目前已經有不少研究和具體應用[6-9]。
目前,應用知識圖譜技術來開展中醫智能輔助診斷相關工作的研究相對較少。筆者經過對知識圖譜理論進行學習和研究,確定了郁病智能輔助辨證知識圖譜構建流程,設計了郁病智能輔助辨證知識圖譜模型、郁病智能輔助辨證知識圖譜實體和關系抽取方案及郁病智能輔助辨證知識圖譜存儲方案。
2.1? 郁病智能輔助辨證知識圖譜構建流程
郁病智能輔助辨證知識圖譜屬于領域知識圖譜,按照自上而下的模式進行設計和構建。郁病智能輔助辨證知識圖譜構建流程包括:郁病智能輔助辨證知識表示、知識圖譜建模、實體抽取、關系抽取、屬性抽取、知識融合、知識存儲和知識圖譜應用,如圖1所示。
郁病智能輔助辨證知識圖譜由RDF三元組進行知識表示;知識圖譜建模主要是明確郁病辨證相關的概念、實體、關系和屬性;知識抽取過程包括實體、關系、屬性抽取,知識融合過程對來自各個郁病辨證知識權威來源中的知識和來自郁病智能輔助辨證配套醫案中的知識進行融合,將得到的數據以三元組結構的形式保存在CSV文件中;知識存儲是將這些三元組導入圖數據庫Neo4j進行存儲,并將節點以圖的結構進行連接;最后,郁病智能輔助辨證知識圖譜將應用于郁病智能輔助辨證。
2.2? 郁病智能輔助辨證知識圖譜模型
郁病辨證的知識圖譜模型包括概念、實體、關系、屬性的明確和定義,如圖2所示。郁病智能輔助辨證知識圖譜概念包括病癥、證型和癥狀這3個概念類別;包括1種關系類別,即“包含”,如表1所示;包括1種屬性類別,即“關注度”。
2.3? 郁病智能輔助辨證知識圖譜實體和關系抽取方案
本研究的郁病智能輔助辨證知識圖譜的實體、關系和屬性抽取由筆者以半自動化的方式開展,并進行相關知識融合,最后得到各類實體總數167個,關系總數434個,屬性147個。
2.4? 郁病智能輔助辨證知識圖譜存儲方案
知識圖譜通常采用圖數據庫作為最基本的存儲引擎,圖數據庫是一種基于圖形結構進行語義查詢的數據庫,它使用節點、邊和屬性來表示和存儲數據。郁病智能輔助辨證知識圖譜的模型構建好之后,存儲在圖形數據庫Neo4j中。Neo4j是目前最為流行的圖數據庫之一,它實現了屬性圖這一圖結構表示模型,在查詢計算方面具有較高優勢[10]。
3? 郁病智能輔助辨證知識圖譜構建
根據上述的基于知識圖譜開展郁病智能輔助辨證知識表示方案,筆者開展了郁病智能輔助辨證知識圖譜的構建工作,成功構建了存儲于Neo4j圖數據庫中的郁病智能輔助辨證知識圖譜,圖3展示了圖譜構建過程的核心代碼。
圖3? 在Neo4j圖數據庫中構建郁病智能輔助辨證知識圖譜的核心代碼
下面將重點介紹郁病辨證之癥狀知識在知識圖譜中的表示和郁病辨證之證型癥狀知識在知識圖譜中的表示。
3.1? 癥狀知識在知識圖譜中的表示
郁病癥狀在郁病智能輔助辨證知識圖譜中被設置為癥狀節點,筆者依據前期獲取到的郁病辨證之癥狀知識來設置該節點的屬性“關注度”。圖4展示了癥狀“胸悶”在知識圖譜中的表示,其關注度為94。
如果對前期獲取到的19種郁病證型的規范化癥狀子集進行查詢統計,可以發現“胸悶”這一癥狀出現在8個郁病證型的規范化癥狀子集當中。然而,在郁病智能輔助辨證知識圖譜中上述知識可以被快速地以圖形化的方式呈現出來,圖5展示了癥狀“胸悶”出現在“肝氣郁結證”等8個證型中。
3.2? 證型知識和證型癥狀關系知識在知識圖譜中的表示
本研究前期獲取到的郁病辨證之證型知識和證型癥狀關系知識在郁病智能輔助辨證知識圖譜中也可以被快速地以圖形化的方式呈現出來,圖6展示了知識圖譜中“郁病”節點與各個證型節點和癥狀節點之間的關系,圖7展示了知識圖譜中“肝氣郁結證”證型關聯了36個癥狀節點,它與“胸悶”之間的“證型-癥狀”概率值為0.8。
4? 郁病智能輔助辨證推理測試和結果分析
基于知識圖譜開展中醫智能輔助辨證知識表示是可行而有效的,但是在推理方面,知識圖譜領域的推理概念與中醫辨證領域的推理概念是有差別的,而且中醫辨證推理機制比較復雜,故需要結合概率推理等推理方法才能在智能輔助辨證知識圖譜的基礎上取得更好的辨證推理結果。
4.1? 郁病智能輔助辨證推理方案
本研究前期獲取的郁病辨證之癥狀知識、證型知識和證型癥狀關系知識是基于郁病辨證知識權威來源和郁病智能輔助辨證配套醫案中所蘊含的知識計算而得的,它們在很大程度上是基于概率的知識。因此,筆者構建了基于知識圖譜和概率推理的郁病智能輔助辨證模型,該模型由郁病智能輔助辨證知識圖譜和基于概率的辨證推理模塊組成,在“中醫智能輔助辨證知識表示與推理研究輔助系統”中實現了基于概率的辨證推理模塊,該模塊依據郁病智能輔助辨證知識圖譜中的知識對郁病醫案數據進行辨證推理。圖8展示了基于知識圖譜和概率推理的郁病智能輔助辨證推理方案的流程圖。
在辨證推理過程中,最核心的環節是根據郁病醫案的核心癥狀分別計算各個證型的辨證得分。式(1)根據某個郁病醫案的核心癥狀計算該醫案被辨證為證型Xi的得分,其中i為證型編號,j為證型Xi的規范化癥狀子集中的癥狀編號,其取值范圍為1~n,n是該癥狀子集的癥狀總數。YZj表示癥狀Zj是否出現在當前醫案的核心癥狀中,如果出現則YZj的值為1,否則其值為0,此時無須判斷PXZij和GZj的值即可得知YZj · PXZij · GZj的值為0。如果YZj的值為1,則進一步獲取PXZij和GZj的值來計算YZj · PXZij · GZj的值,PXZij表示證型Xi的規范化癥狀子集中的癥狀Zj的“證型-癥狀”概率值,GZj表示癥狀Zj的“癥狀關注度”。
最后,將基于知識圖譜和概率推理的郁病智能輔助辨證模型生成的辨證推理結果與郁病智能輔助辨證配套醫案的原始辨證結果進行對比分析,依據郁病辨證知識來調整郁病智能輔助辨證模型相應的參數、修正優化郁病智能輔助辨證知識圖譜,以進一步提高辨證準確率。
4.2? 對單個郁病醫案進行智能輔助辨證推理測試
在“中醫智能輔助辨證知識表示與推理研究輔助系統”的“辨證推理”頁面,將“郁病智能輔助辨證推理測試醫案數據預處理”階段獲取的郁病醫案核心癥狀輸入系統,即可得到相應的辨證結果。圖9展示了基于知識圖譜和概率推理的郁病智能輔助辨證模型為單個醫案生成的辨證推理結果,從圖中可以看出辨證推理得分排序居第1位的是肝氣郁結證,因此確定該醫案的辨證結果即為肝氣郁結證,該辨證結果與醫案的原始辨證結果一致;該醫案共有15個郁病癥狀(胸悶、心神不寧、脅脹、脅痛、肋痛、脘悶、脘腹不適、噯氣、納呆、大便不調、舌質淡紅、舌質淡、苔薄、苔膩和脈弦),從圖7所示的“肝氣郁結證”辨證知識圖譜中可以看出,除了舌質淡和脘腹不適這兩個癥狀之外,另外13個癥狀的節點都與“肝氣郁結證”節點關聯,說明它們都包含在肝氣郁結證的規范化癥狀子集中,它們為該醫案被辨證為肝氣郁結證作出了積極貢獻。
4.3? 快速構建郁病智能輔助辨證新模型
在前期構建的基于知識圖譜和概率推理的郁病智能輔助辨證模型中,其郁病智能輔助辨證知識圖譜包含了19個郁病證型節點和147個郁病癥狀節點,知識圖譜中存儲了這些證型和癥狀的知識以及它們之間的關系知識。但是,上述19種郁病證型中有13種證型只出現在了某一個郁病辨證知識權威來源中,難免會造成辨證模型對這些證型的辨證知識認識得不夠深刻,利用該辨證模型對來自各個醫案集、各位醫生的郁病醫案進行辨證推理,不可避免地會出現辨證結果不夠準確的情況。然而,肝氣郁結證、肝郁脾虛證、肝膽濕熱證、腎虛肝郁證、心脾兩虛證和肝郁化火證這6種證型都出現于多個郁病辨證知識權威來源中,使得辨證模型可以更深刻地認識它們。因此,筆者重新構建一個包含肝氣郁結證、肝郁脾虛證、肝膽濕熱證、腎虛肝郁證、心脾兩虛證和肝郁化火證這6種郁病核心證型的辨證知識圖譜,基于本論文第1節中所述的工作成果,利用本論文第2節和第3節中所述的方案可以快速完成該知識圖譜的構建,與前期已經構建好的辨證推理模塊一起組成新的郁病智能輔助辨證模型。圖10展示了新建的包含6種郁病核心證型的郁病智能輔助辨證知識圖譜。
4.4? 對郁病醫案集進行智能輔助辨證推理測試
筆者基于上述的郁病智能輔助辨證新模型,開展了對郁病醫案集進行批量智能輔助辨證推理測試的工作。基于本論文第1節中所述的工作,筆者已采集了302例郁病醫案,自動篩選出了169例可供智能輔助辨證推理測試使用的醫案,這169例醫案中有48例醫案的辨證結果在肝氣郁結證、肝郁脾虛證、肝膽濕熱證、腎虛肝郁證、心脾兩虛證和肝郁化火證這6種證型之中,即這48例醫案是一批對應于“6個郁病核心證型”的醫案,對它們批量進行智能輔助辨證推理測試。
“中醫智能輔助辨證知識表示與推理研究輔助系統”的“辨證推理”頁面提供了“對醫案集進行辨證推理測試”功能,使用該功能對上述醫案集進行辨證推理測試,表2展示了辨證推理測試結果。
從表中可以看出,基于知識圖譜和概率推理的郁病智能輔助辨證模型對這48例醫案的初步辨證準確率為79.17%,對原始辨證結果為肝膽濕熱證和心脾兩虛證的兩類醫案的辨證準確率達100%。其中,原始辨證結果為肝膽濕熱證的醫案只有2例,其辨證準確率達100%不具代表性;而原始辨證結果為心脾兩虛證的醫案有13例,其辨證準確率達100%;由于心脾兩虛證在6個郁病辨證知識權威來源中的出現率最高(一共出現了5次),故在一定程度上可以反映出:構建辨證模型時獲得的辨證知識越多,模型的質量往往會越高。
5? 結? 論
本文提出了一套基于知識圖譜和概率推理的中醫數字辨證知識表示與辨證推理方案。開發實現了相應的計算機程序,并以郁病辨證為例開展實驗,構建了刻畫19種證型和147個癥狀之間關系的郁病數字辨證知識圖譜,以及包含6種郁病核心證型的辨證知識圖譜,辨證推理測試獲得的初步準確率可達79.17%、按證型分組統計的準確率最高可達100%,可根據郁病數字辨證知識圖譜對辨證結果進行初步解釋,實驗表明該方案有助于提高辨證模型的構建效率和模型中辨證知識的可視化程度。
開展基于知識圖譜的中醫數字辨證的研究,將有助于提高中醫數字辨證模型的構建效率、辨證模型中辨證知識的可視化程度和辨證推理過程的可解釋性,促進中醫智能輔助診斷的發展和應用,在推動名老中醫診療經驗的傳承推廣、幫助中醫學生學習中醫診斷知識和輔助廣大群眾開展個人健康狀態自檢等方面都具有重要的意義。
參考文獻:
[1] 張伯禮,吳勉華.中醫內科學:新世紀第4版 [M].北京:中國中醫藥出版社,2017.
[2] 張鈺群,袁勇貴.2020年抑郁癥研究進展回顧 [J].中華醫學信息導報,2021,36(4):11-12.
[3] 陳燁,周剛,盧記倉.多模態知識圖譜構建與應用研究綜述 [J].計算機應用研究,2021,38(12):3535-3543.
[4] 王萌,王昊奮,李博涵,等.新一代知識圖譜關鍵技術綜述 [J].計算機研究與發展,2022,59(9):1947-1965.
[5] 張吉祥,張祥森,武長旭,等.知識圖譜構建技術綜述 [J].計算機工程,2022,48(3):23-37.
[6] 王松,李正鈞,楊濤,等.中醫藥知識圖譜研究現狀及發展趨勢 [J].南京中醫藥大學學報,2022,38(3):272-278.
[7] 曾子玲,張華敏,于彤,等.知識圖譜及其關鍵技術在中醫藥領域的研究與應用綜述 [J].世界科學技術-中醫藥現代化,2022,24(2):780-788.
[8] 李琳菊,李亞春,徐宏寧,等.基于知識圖譜的中醫養生知識智能問答APP構建研究與實踐 [J].醫學信息學雜志,2022,43(7):50-54.
[9] 蔣川宇,韓翔宇,楊文蕊,等.醫學知識圖譜研究與應用綜述 [J].計算機科學,2023,50(3):83-93.
[10] 陳華鈞.知識圖譜導論 [M].北京:電子工業出版社,2021.
作者簡介:韋昌法(1982—),男,壯族,廣西巴馬人,教授,碩士研究生導師,博士,研究方向:中醫智能輔助診療。
收稿日期:2023-06-01
基金項目:湖南省教育廳資助科研項目(20B431);湖南省自然科學基金資助項目(2020JJ4461)