劉 琦, 鐘衛(wèi)軍 晏峻峰△
(1.湖南中醫(yī)藥大學(xué)信息科學(xué)與工程學(xué)院, 長沙 410208; 2.湖南省衛(wèi)生健康委員會信息統(tǒng)計中心,長沙 410008;3.中南大學(xué)湘雅醫(yī)學(xué)院臨床藥理研究所,長沙 410008)
中醫(yī)藥領(lǐng)域有著豐富的知識和嚴(yán)密的理論體系,隨著信息科學(xué)的飛速發(fā)展,運用人工智能技術(shù)對龐大的中醫(yī)藥知識資源進行采集、梳理和加工成高質(zhì)量知識,不僅有助于中醫(yī)藥知識的共享利用,更能挖掘其潛在的規(guī)律,輔助臨床醫(yī)師智能決策、服務(wù)普通大眾的知識求解等。不少人在中醫(yī)藥知識庫構(gòu)建及表示推理方面進行了諸多前瞻性的嘗試,推動了中醫(yī)藥領(lǐng)域知識庫的發(fā)展。
由于要構(gòu)建一個全視角、多維度、囊括整個中醫(yī)藥知識體系的知識庫是一個龐大的工程,目前構(gòu)建中醫(yī)藥領(lǐng)域的知識庫均著眼于某一項任務(wù)或某一方面去開展,具體可以從以下幾個方面來認(rèn)識。
中醫(yī)藥文獻知識囊括了中醫(yī)學(xué)科知識或機構(gòu)知識庫,包含了中醫(yī)古籍、期刊研究和臨床指南等學(xué)術(shù)出版物資源,提供以學(xué)術(shù)檢索為主要形式的知識服務(wù)。古籍在中醫(yī)藥知識體系中占據(jù)重要地位,因此文獻知識利用大多以古籍為主。如古籍方劑[1]、古籍本草[2]、古籍養(yǎng)生[3]、古籍藏醫(yī)本草[4]、古籍溫病[5]、古籍傷寒[6]和僅以《黃帝內(nèi)經(jīng)》中“病機十九條”知識點的表示[7]等。相比之下,中醫(yī)領(lǐng)域的期刊、臨床指南等知識庫的研究較少,相關(guān)研究仍然停留在資源保存、平臺搭建等階段,未深入到文獻內(nèi)部的知識組織、關(guān)聯(lián)等[8]。
中醫(yī)藥文獻知識庫構(gòu)建的重點在于知識的可溯源性和融合創(chuàng)新性。建立在經(jīng)驗醫(yī)學(xué)之上的中醫(yī)古籍對揭示領(lǐng)域知識有著舉足輕重的作用。但古籍不同于現(xiàn)代文獻,其字義、語義、語法等有較大差異,且中醫(yī)藥文本信息專業(yè)而晦澀,現(xiàn)行的語料庫和數(shù)字資源對其構(gòu)建作用不大,需要各領(lǐng)域的深度合作。
醫(yī)案病歷知識庫是以領(lǐng)域較高質(zhì)量的案例為基礎(chǔ)構(gòu)建的,是中醫(yī)藥臨床知識的具體體現(xiàn)。近幾年臨床決策支持系統(tǒng)(clinical decision support system,CDSS)興起了真實世界數(shù)據(jù)驅(qū)動型模式,以真實世界中較好的病案數(shù)據(jù)為基礎(chǔ)構(gòu)建知識庫逐漸受到重視。中醫(yī)醫(yī)案與病歷數(shù)據(jù)在中醫(yī)藥領(lǐng)域一直占據(jù)重要地位。李新霞等[9]很早就基于本體以老中醫(yī)脾胃病案為基礎(chǔ)構(gòu)建知識庫,中國中醫(yī)科學(xué)院于琦等[10]構(gòu)建了基于醫(yī)案的臨床本體,實現(xiàn)了醫(yī)案數(shù)據(jù)庫自動構(gòu)建、術(shù)語智能規(guī)范和分析挖掘功能,目前已建成有近30萬古今名醫(yī)醫(yī)案的古今醫(yī)案云平臺[11],設(shè)立共享機制鼓勵大家參與共建,并開發(fā)了中醫(yī)臨床輔助決策系統(tǒng)(traditional chinese medicine-clinical decision support system,TCM-CDSS)[12],結(jié)合Agent技術(shù)和智能引擎實現(xiàn)了相似的醫(yī)案、方劑等推薦。Tong Ruan等[13]基于統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(unified medical language system,UMLS),從百科網(wǎng)站等半結(jié)構(gòu)化文本中提取實體、關(guān)系和屬性等訓(xùn)練條件隨機場模型,從而自動提取中醫(yī)電子病歷文本中知識構(gòu)建知識庫。
醫(yī)案知識是名老中醫(yī)的智慧結(jié)晶和中醫(yī)辨證模型的重要存在形式,是解決公共衛(wèi)生現(xiàn)實需求的重要載體。相對來說,中醫(yī)藥驗案或病例文本大部分都有著較好的形式化特征或結(jié)構(gòu)特點。從知識工程的角度來看,知識較容易獲取,且不僅僅只有古代驗案,如今已有大量較高質(zhì)量的現(xiàn)代醫(yī)案可供利用,未來的醫(yī)案知識庫將是中醫(yī)藥知識庫的重要支撐。
方藥知識是以方劑和中藥為主要研究對象,以實現(xiàn)依法薦方、處方評價、配伍劑量、兼證加減等基本服務(wù)需求。易綱[21]較早地將本體方法引入方藥知識庫構(gòu)建,張帆等[22]對方劑對象構(gòu)建量效關(guān)系表、藥效關(guān)系表、效證關(guān)系表和效候關(guān)系表,基于證素改進了啟發(fā)式規(guī)則關(guān)系表,模型經(jīng)過1000首代表性方劑訓(xùn)練和實驗,獲得了較高的分類識別效果。尹丹等[23]采用領(lǐng)域本體對《傷寒雜病論》經(jīng)方以三元組形式表達方藥關(guān)系,運用圖數(shù)據(jù)庫構(gòu)建知識圖譜,利用圖搜索模型進行推理,這種更契合人類思維路徑的搜索模式,實現(xiàn)了隨證選方、醫(yī)案經(jīng)方用藥加減推薦及解釋等部分智能推理。Liang Yao等[24]結(jié)合領(lǐng)域知識對3萬多首方劑配伍、君臣佐使、主治進行主題建模,挖掘方劑模式,使得有相同癥狀主題描述的患者獲得對應(yīng)主題方劑。
方藥知識是溝通理論與實踐的橋梁,其知識結(jié)構(gòu)簡單,但也蘊含著較多的隱性知識,主要表現(xiàn)為劑量與功效、療效的關(guān)系。文獻[22]提出歸一化“相對藥量”計算各藥效強度,但未給出明確藥效的量化問題,在改進啟發(fā)式規(guī)則后證明了證素辨證適合中醫(yī)藥知識的推導(dǎo)。
專病專科知識庫是指專注于某一細(xì)分領(lǐng)域研究其知識結(jié)構(gòu)特征以提供知識服務(wù),如針對特定人群。張悅悅等[25]利用主題詞表設(shè)計了面向亞健康人群的食療知識庫,兼顧公眾術(shù)語和醫(yī)學(xué)專業(yè)術(shù)語之間的差別;陳鑫等[26]針對女性人群特點利用知識元技術(shù)構(gòu)建女性健康干預(yù)知識庫,對食療干預(yù)方案進行反饋評估,實現(xiàn)了知識動態(tài)更新和精準(zhǔn)推薦。如針對某一疾病,朱玲等[27]以領(lǐng)域本體構(gòu)建功能性胃腸病知識庫,還有銀屑病本體[28]、崩漏本體[29]等。在哮喘知識庫的構(gòu)建上,田野等[30]綜合本體、關(guān)聯(lián)數(shù)據(jù)、語義維基、語義網(wǎng)等構(gòu)建了基于互聯(lián)網(wǎng)防治哮喘知識庫平臺,在領(lǐng)域?qū)<夜蚕砉步ǖ幕A(chǔ)上搭建,保證知識權(quán)威性的同時實現(xiàn)了知識評價和動態(tài)更新。還有針對某一方面的,王瑩瑩[31]以知識系統(tǒng)描述語言(knowledge database mark-up language,KDML)為表示方法,構(gòu)建了中醫(yī)基礎(chǔ)理論知識庫;鮑玉來[32]結(jié)合中醫(yī)藥語言系統(tǒng)(traditional chinese medicine language system, TCMLS)構(gòu)建蒙醫(yī)藥本體,實現(xiàn)了診斷推理和方劑推薦;于彤等在養(yǎng)生分類體系下以關(guān)系型數(shù)據(jù)庫形式構(gòu)建養(yǎng)生知識庫[33,34],繼而該團隊構(gòu)建了“中醫(yī)養(yǎng)生領(lǐng)域本體”,整合養(yǎng)生數(shù)據(jù)資源,形成了大型中醫(yī)養(yǎng)生知識圖譜[35]。Yan Zhu等[36]設(shè)計了交互式3 D針灸知識庫,以立體、動態(tài)可視地展示針灸知識。
專病專科知識粒度更細(xì)更深入、結(jié)構(gòu)更明確,研究也趨于精細(xì)。特別是較多研究專注用戶個體以實現(xiàn)個性化、精準(zhǔn)化服務(wù)[37]。張悅悅[25]設(shè)計的用戶興趣關(guān)聯(lián)規(guī)則庫,根據(jù)用戶訪問軌跡等,間斷更新庫中相關(guān)權(quán)值,實現(xiàn)個性化知識推送;黃煒等[38]構(gòu)建個人健康知識庫,巧妙結(jié)合用戶體質(zhì)、疾病傾向、環(huán)境、既往病史和現(xiàn)病史,對其實現(xiàn)健康情況實時判定,基于案例推理匹配相似案例;陳鑫[26]以女性特點實時記錄生理周期、臟腑和陰陽氣血情況,根據(jù)每味藥物主治、功效、歸經(jīng)、地域、適宜月經(jīng)分期等計算食療方整體的陰陽氣血偏頗,匹配干預(yù)方案,并迭代更新食療方可信度,使知識庫越來越精準(zhǔn)。
根據(jù)文本形式和知識結(jié)構(gòu)特點的不同,中醫(yī)藥知識庫構(gòu)建大概從文獻、醫(yī)案、方藥和專病專科等方面的知識資源著手,分別采用了多種表示方法。
總體來看,本體由于其表達概念準(zhǔn)確規(guī)范,具有可共享和復(fù)用性,絕大多數(shù)中醫(yī)藥知識庫構(gòu)建均采用本體概念表示方法。包括中醫(yī)科學(xué)院[39]設(shè)計的中醫(yī)藥頂層本體——TCMLS獲得了較廣泛應(yīng)用,還有高成勉等[40]參考了比較成熟的通用頂層本體SUMO(Suggested Upper Merged Ontology),構(gòu)建了上海版的中醫(yī)頂層本體。在本體基礎(chǔ)上發(fā)展起來的知識圖譜有著融合多源異構(gòu)數(shù)據(jù)的優(yōu)勢,如于彤等構(gòu)建中醫(yī)臨床知識圖譜以中醫(yī)臨床領(lǐng)域本體為骨架,融合醫(yī)案、經(jīng)驗、臨床指南、文獻等知識,實現(xiàn)了各知識資源的關(guān)聯(lián)與聯(lián)通[43]。在知識圖譜之上的圖推理也較符合人類思維路徑。但由于本體需要有較清晰規(guī)范的形式化表達特點,這一點對模糊而晦澀的中醫(yī)藥知識的本體表達和利用造成了一定的瓶頸,也使得其應(yīng)用范圍受限,這又回到了中醫(yī)藥標(biāo)準(zhǔn)化的問題。
知識元的應(yīng)用也有不少,特別是文獻類[1,4,5]。由于其面向的均為專業(yè)用戶即中醫(yī)專家,對知識要求可溯源、專業(yè)而粒度更細(xì),一般的期刊元數(shù)據(jù)等已不能滿足要求,而知識元指向能獨立表達完整語義的最小單位而受青睞。特別是中國中醫(yī)科學(xué)院柳長華團隊的“中醫(yī)藥古文獻知識庫”[41]是其中的代表,是以知識元為關(guān)聯(lián)的網(wǎng)絡(luò)。主題詞表與本體相比限制較少,在對普通用戶非專業(yè)性知識的表示方面仍有優(yōu)勢[25,31]。
此外還有KDML的方法可實現(xiàn)文獻資源的語義檢索,產(chǎn)生式規(guī)則表示癥狀→證型→治法→方劑→中藥的因果關(guān)系[42]。基于關(guān)系型數(shù)據(jù)庫構(gòu)建啟發(fā)式規(guī)則表[22],利用主題圖技術(shù)靈活定義《傷寒論》原文并可視化展示和語義檢索[6],及與動態(tài)不確定因果圖對病機十九條的有效表達[7],獨熱編碼的詞向量技術(shù)也有涉足[15]。
目前推理方法可分為基于規(guī)則、案例、模型和圖的推理,這4種推理方法在中醫(yī)藥領(lǐng)域均有實踐,各有優(yōu)劣。
有以產(chǎn)生式規(guī)則定義了癥狀→證型→治法→方劑→中藥的因果關(guān)系[42]實現(xiàn)規(guī)則推理。沈玉強等[45]基于ThinkPHP服務(wù)框架構(gòu)建方劑、證候、癥狀等庫表并定義關(guān)聯(lián)規(guī)則,目前已通過互聯(lián)網(wǎng)為300余家基層中醫(yī)館提供輔助診療支持。將規(guī)則加上置信度是為模型推理,張鑫等[46]以類似模糊數(shù)學(xué)思想方法引入權(quán)值因子來表示癥狀隸屬某證型的可信度,測試表明模型推理具有可行性。邊紅[16]運用軟集關(guān)聯(lián)規(guī)則算法挖掘規(guī)則構(gòu)建可置信規(guī)則庫,實現(xiàn)了疾病的推理診斷和處方推薦。
李新龍[47]基于證素思路構(gòu)建本體提取三位中醫(yī)師失眠癥案例,并挖掘其核心方及其有效人群特征,構(gòu)建了各位中醫(yī)師個性化知識圖譜的圖推理模型。張鑫提出的模型較好地解決了辨證模糊性的問題,但未能體現(xiàn)辨證個性化;李新龍?zhí)岢鲆浴叭藱C結(jié)合,以人為主”為診療服務(wù)個性化與信息標(biāo)準(zhǔn)化需求的矛盾解決提供了新的思路;尹丹等[23]采用圖搜索模型在方藥知識圖譜上很好地對方藥分類識別,推薦和加減解釋等推理。圖推理是以圖數(shù)據(jù)庫為基礎(chǔ),以類似思維路徑行走方式去求解問題,符合人腦推理實際。
目前基于案例推理的方法效果較好,均為通過相似度度量實現(xiàn)相似案例的匹配,從而完成推理過程。如陳廣[14]將醫(yī)案精準(zhǔn)匹配歸類為有監(jiān)督多分類問題,提取出中醫(yī)腎病醫(yī)案文本關(guān)鍵語義信息,并利用深度學(xué)習(xí)模型訓(xùn)練分類器;QIANG XU等[15]用1.8萬多份中醫(yī)藥治療慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,取得了較好的樣本分類辨證效果;也有JU CHEN等[17]結(jié)合領(lǐng)域?qū)<抑R挖掘病歷中證素信息,從而實現(xiàn)辨證、論治等的推薦,基于屬性偏序結(jié)構(gòu)圖原理發(fā)掘醫(yī)案知識,總結(jié)名家經(jīng)驗[18,19]。周晟[20]則綜合知識挖掘和醫(yī)案驅(qū)動兩種思路,在合理的醫(yī)案表示方法之上,利用知識工程結(jié)果輔助案例檢索與匹配。
中醫(yī)藥知識推理最終目標(biāo)在于獲得癥狀與治療之間的深度認(rèn)識,涉及病癥關(guān)系、癥證關(guān)系、方證關(guān)系、藥證關(guān)系以及治則治法等,其中辨證論治是中醫(yī)藥知識推理的核心技術(shù)和主要矛盾,是中醫(yī)藥CDSS的關(guān)鍵所在。推理結(jié)果的可靠性需要建立在知識網(wǎng)絡(luò)盡可能囊括所有知識且無冗余,用以支撐臨床決策、處方預(yù)警、決策解釋。規(guī)則推理在中醫(yī)藥領(lǐng)域應(yīng)用最早、實踐最多,圖推理模式較好地模仿了人腦思維推理過程。但由于中醫(yī)模糊性且各中醫(yī)師辨證思路各不相同,使得廣泛有效的辨證推理模型難以建立。基于案例驅(qū)動型的醫(yī)案知識庫類似臨床跟師學(xué)習(xí)過程,契合了中醫(yī)藥傳承模式,同時也模仿了中醫(yī)師診治過程中有著勤求古訓(xùn)的習(xí)慣。這種無需深入理解語義的問題求解方式,在目前知識工程技術(shù)不成熟和中醫(yī)藥模糊性特點的背景下,切合臨床實際,具有率先獲得臨床大規(guī)模應(yīng)用的潛在價值。
中醫(yī)藥各領(lǐng)域知識模型各有各的特點,因此應(yīng)多專注單一方面知識庫構(gòu)建。本文以資源的形式特點分別從文獻、醫(yī)案、方藥和專病專科等知識資源對中醫(yī)藥知識開發(fā)利用進行了回顧,發(fā)現(xiàn)對文獻知識的利用相對較少,醫(yī)案知識的利用較多,而文獻知識是促進中醫(yī)基礎(chǔ)理論突破和循證來源的重要支撐,未來需要加強對該資源的利用。醫(yī)案知識是臨床實踐的結(jié)晶,是醫(yī)師實踐能力提升必不可少的重要資源。對醫(yī)案知識的開發(fā)利用取得的成就或可足以成為彌補中醫(yī)基礎(chǔ)理論研究無法取得突破的遺憾。
知識推理依賴于知識表示的方法,知識推理模式也影響著知識表示的適用性。大部分的中藥方劑有著較強的規(guī)律性,應(yīng)用規(guī)則推理的方法較多;而診斷與辨證靈活多變,其推理模式較為復(fù)雜。從文獻中還發(fā)現(xiàn),從證素角度建模有助于增強模型的泛化能力,這與證素能夠靈活地表示更多分類信息的特點是分不開的。
本體和知識圖譜的方法對知識庫構(gòu)建有較強的優(yōu)勢,但中醫(yī)藥知識模糊和不規(guī)范阻礙了本體和知識圖譜的表達效果。不過隨著詞向量預(yù)訓(xùn)練技術(shù)的成熟,不用大量人工標(biāo)注和自動動態(tài)提取深層次語義的優(yōu)勢,或?qū)⒋偈钩蔀槲磥砝硐氲奈谋颈硎痉椒ā;诎咐耐评硪韵嗨贫榷攘繛楹诵倪壿嫞灶A(yù)訓(xùn)練好的詞向量能為相似案例匹配帶來更高的精度,且無需復(fù)雜的建模或人工干預(yù),巧妙地繞過復(fù)雜的辨證論治過程,迎合了重視經(jīng)驗知識的中醫(yī)。總體而言,是目前中醫(yī)藥CDSS構(gòu)建現(xiàn)實需求與限制的一個折衷選擇。
目前知識庫構(gòu)建有著朝針對使用用戶的個性化服務(wù)和大型知識圖譜方向發(fā)展的趨勢,但也存在以下問題。一是缺乏統(tǒng)一的知識資源全局視圖。重視標(biāo)準(zhǔn)規(guī)范制定,從領(lǐng)域?qū)<夜蚕砉步ǖ慕嵌葮?gòu)建頂層本體和知識圖譜;二是缺少更新和評審機制。需要注重研究知識的自動獲取或半自動的獲取方式,同時對臨床證據(jù)、知識來源進行評估,確保知識權(quán)威性和高質(zhì)量;三是知識表示方式單一,2種或2種以上的知識表示組合方法較少。為方便不同用戶獲取所需知識,如醫(yī)師、科研人員、不同年齡性別的普通用戶、學(xué)生、護理人員、評審人員、管理維護等對象,其需求各不一樣,需要重點以用戶需求為主去組織知識,融合多種知識表示方法,以提供多樣化的服務(wù)。