任秋靜,溫川飆
(成都中醫(yī)藥大學(xué),四川 成都 610075)
人工智能是一門交叉學(xué)科,通常視為計算機科學(xué)的分支,研究表現(xiàn)出與人類智能(如推理和學(xué)習(xí))相關(guān)的各種功能的模型和系統(tǒng)[1]。其研究領(lǐng)域包括機器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。人工智能技術(shù)目前應(yīng)用于各個領(lǐng)域,產(chǎn)生了各類與其相關(guān)的交叉學(xué)科。而作為新興交叉學(xué)科之一的中醫(yī)藥信息化發(fā)展至今,已經(jīng)形成了諸多喜人的成果,人工智能與中醫(yī)藥結(jié)合的應(yīng)用研究在不斷成長和突破。
中醫(yī)藥在人工智能的研究和應(yīng)用上盡管有所發(fā)展,但仍遠(yuǎn)落后于西方現(xiàn)代醫(yī)學(xué)。我們在知網(wǎng)檢索中以人工智能為主題共檢索到158587 條結(jié)果;以“人工智能醫(yī)學(xué)”為主題檢索到2152 條;而以“人工智能中醫(yī)”為主題則檢索到598 條,在醫(yī)學(xué)領(lǐng)域占比約27%。通過中國知網(wǎng)發(fā)文趨勢統(tǒng)計圖(圖1)可以看出“人工智能中醫(yī)”文獻(xiàn)數(shù)在2016 年以后顯著增漲。因此我們選取了2016 年至2020 年間關(guān)于知識系統(tǒng)構(gòu)建方向的論文按照基礎(chǔ)本體和分科知識系統(tǒng)兩部分進(jìn)行歸類總結(jié)和梳理。

圖1 中國知網(wǎng)“人工智能中醫(yī)”發(fā)文趨勢統(tǒng)計
2016 年孫靜等[2]構(gòu)建了癥狀本體表達(dá)模型。研究依據(jù)中醫(yī)診法劃分癥狀本體類,癥狀本體類屬性共23 個。同時構(gòu)建了癥狀本體實例庫,采用“ICD”的多軸分類思想,將本體類及其屬性等24 個方面作為癥狀分類軸心,癥狀內(nèi)涵可由24個軸心及其值組合表達(dá),并采用分類與編碼技術(shù)對癥狀實例進(jìn)行了編碼。對部位、色、病癥等參照癥狀本體類劃分方法,構(gòu)建了相應(yīng)屬性值的層次結(jié)構(gòu)。用C/S 模式研制了癥狀數(shù)據(jù)采集系統(tǒng),探索了一條癥狀本體應(yīng)用路徑,在人機交互的模式下采集癥狀信息,以結(jié)構(gòu)化、規(guī)范化的形式保存、導(dǎo)出癥狀數(shù)據(jù)。該數(shù)據(jù)可用于多角度挖掘利用。但是癥狀本體表達(dá)模型并未考慮到舌診、脈診癥狀表達(dá),且還存在屬性分類不夠完善、陰性癥狀、復(fù)合癥狀無法表達(dá)等不足。癥狀本體表達(dá)模型的建立同樣是對本體研究方法進(jìn)行了探索。
2017 年袁玉虎等[3]結(jié)合中醫(yī)臨床病歷(以現(xiàn)病史為主)和PubMed 題錄文獻(xiàn)文本開展癥狀表型命名實體的抽取方法研究,通過構(gòu)建的較大規(guī)模語料集和未標(biāo)注數(shù)據(jù),進(jìn)行了基于Bootstrapping,分類學(xué)習(xí)(條件隨機場和結(jié)構(gòu)化支持向量機)和特征學(xué)習(xí)(詞嵌入與網(wǎng)絡(luò)嵌入)等多種方法,在人工審核和數(shù)據(jù)預(yù)處理的基礎(chǔ)上,構(gòu)建了包含1200 個以現(xiàn)病史為主的中醫(yī)臨床病歷標(biāo)注語料。研究表明基于深度表示的癥狀表型實體命名抽取方法在未標(biāo)注語料的整合與性能方面都存在較大優(yōu)勢,已經(jīng)具備一定的中英文命名實體抽取實用價值。該研究是對本體構(gòu)建方法的又一探索。
2018 年賈李蓉等[4]對原中醫(yī)臨床術(shù)語系統(tǒng)進(jìn)行優(yōu)化,發(fā)布中醫(yī)臨床術(shù)語系統(tǒng) v2.0(TCMCTS v2.0)。該研究基于系統(tǒng)整體框架的構(gòu)建原則,參照中醫(yī)病證相關(guān)國家標(biāo)準(zhǔn)、教材及醫(yī)院實際分科情況,對中醫(yī)臨床術(shù)語系統(tǒng) v2.0(TCMCTS v2.0)病證分類體系進(jìn)行探討研究,形成中醫(yī)疾病一級分類9 個,證候一級分類 10 個;并根據(jù)臨床實用性和證候概念的自身特點,形成了證候類概念多維度歸類的原則,使之更加貼近臨床使用需求。朱彥等[5]從應(yīng)用角度分析了臨床術(shù)語集支持語義表達(dá)、多來源術(shù)語集融合、多維度查詢統(tǒng)計、語義查詢推理及輕知識庫的等5 種不同表達(dá)層次和需求,對中醫(yī)臨床術(shù)語系統(tǒng)進(jìn)行內(nèi)容上的擴展和技術(shù)上的更新,特別是對切合臨床做出了調(diào)整,使之能支持臨床電子病歷規(guī)范化錄入;支持臨床文獻(xiàn)進(jìn)行語義標(biāo)引;含有藥物編碼分類;與其他術(shù)語映射,實現(xiàn)跨領(lǐng)域的語義查詢檢索。這是對中醫(yī)臨床術(shù)語在內(nèi)容上和技術(shù)上的完善和發(fā)展。
王瓊等[6]構(gòu)建了中醫(yī)癥狀本體知識表示模型。研究參考已有中醫(yī)語料庫的構(gòu)建方法和標(biāo)注規(guī)范,構(gòu)建了適用于癥狀術(shù)語獲取的語料,并通過分析中醫(yī)臨床病歷文本中癥狀術(shù)語的構(gòu)成模式,提出了利用術(shù)語構(gòu)詞模式來中醫(yī)癥狀術(shù)語進(jìn)行自動獲取的方法,一種基于泛化模式與統(tǒng)計特征相結(jié)合的方法,從中醫(yī)臨床病歷中進(jìn)行癥狀術(shù)語的自動獲取。在獲取了大量臨床癥狀術(shù)語后,結(jié)合《中醫(yī)臨床常見癥狀術(shù)語規(guī)范》和《中醫(yī)癥狀學(xué)研究》兩部中醫(yī)著作中收錄的癥狀術(shù)語,利用本體構(gòu)建方法,以中醫(yī)四診為頂層分類概念,構(gòu)建了中醫(yī)癥狀本體知識表示模型。該研究是針對本體本身內(nèi)容的構(gòu)建和擴展的研究。
陳璟等[7]對基于聚類的中醫(yī)臨床術(shù)語語義關(guān)系進(jìn)行了研究。運用本體技術(shù),從關(guān)系模式、句法模式、聚類模式等層面,提出一種基于多百科結(jié)合互補的方法,用以構(gòu)建適合語義關(guān)系研究的中醫(yī)臨床語料庫。并結(jié)合同義詞詞林的特性,對句法模式的泛化方法展開研究。采取聚類和句法模式相結(jié)合的方法,對中醫(yī)臨床術(shù)語實體之間的語義關(guān)系進(jìn)行歸類,并根據(jù)聚類結(jié)果重新構(gòu)建語義框架。該研究是對本體本身內(nèi)容的研究,通過歸類對語義框架做出了優(yōu)化。
2019 趙立鵬等[8]進(jìn)行了面向中醫(yī)文本的關(guān)系抽取技術(shù)研究。研究內(nèi)容總體上圍繞“實體”和“關(guān)系”兩個概念展開。首先研究中醫(yī)文本實體識別的方法,采用了雙向長短記憶神經(jīng)網(wǎng)絡(luò)和條件隨機場相結(jié)合的模型來實現(xiàn)對于中醫(yī)文本實體對的識別。其次研究中醫(yī)文本實體關(guān)系抽取的方法,使用基于深度學(xué)習(xí)原理的關(guān)系抽取算法實現(xiàn)文本實體關(guān)系特征的自動抽取,針對中醫(yī)文本的概念模糊化、語言抽象化、通假字、實體名偏長、一詞多義和多詞一義等特點和難點。采用了門控制循環(huán)單元與卷積神經(jīng)網(wǎng)絡(luò),并引入注意力機制,其中門控制循環(huán)單元是長短記憶神經(jīng)網(wǎng)絡(luò)的一種改進(jìn),減少了訓(xùn)練參數(shù),提高了模型訓(xùn)練的速率。該研究對實體與關(guān)系從研究方法上進(jìn)行了改良與擴展。
肖猛等[9]面向中醫(yī)證候的健康領(lǐng)域知識圖譜構(gòu)建進(jìn)行了研究。該研究對知識圖譜內(nèi)的核心實體進(jìn)行了定義,然后根據(jù)實體的特點對實體間的語義關(guān)系進(jìn)行了定義,并構(gòu)建領(lǐng)域本體完成對知識圖譜數(shù)據(jù)模式的定義。針對命名實體識別過程,提出了一個基于詞向量拼接的實體識別。此外,基于構(gòu)建的知識圖譜提出了一個語義檢索模型,并提出了面向中醫(yī)健康管理的語義檢索模型,該模型比傳統(tǒng)的基于關(guān)鍵詞的信息檢索方式的模型可以更好的理解用戶的檢索意圖。基于此,團(tuán)隊成功構(gòu)建了一個以中醫(yī)健康領(lǐng)域知識圖譜為基礎(chǔ)的健康管理平臺,該平臺主要分為兩個部分:面向領(lǐng)域?qū)<姨峁┝烁拍罟芾怼嶓w管理等功能;面向用戶提供了知識檢索以及自動問答等服務(wù)。該研究擴展了本體內(nèi)容,使得本體內(nèi)容從疾病診療延伸到健康管理。
2020 年鄧宇等[10]構(gòu)建關(guān)聯(lián)型知識數(shù)據(jù)庫和“多維度”中醫(yī)藥知識共享服務(wù)。該研究基于Docker 的分布式服務(wù)模式部署平臺整體架構(gòu),利用輕量級虛擬化技術(shù)實現(xiàn)資源隔離,并將各種環(huán)境依賴和應(yīng)用統(tǒng)一打包,多個業(yè)務(wù)系統(tǒng)獨立部署在Docker 容器中,將復(fù)雜的應(yīng)用系統(tǒng)拆分成多個功能單一、業(yè)務(wù)邏輯簡單的服務(wù)進(jìn)行獨立部署。依據(jù)中醫(yī)藥術(shù)語詞庫為基礎(chǔ)創(chuàng)建搜索引擎,采用知識圖譜的形式將文獻(xiàn)信息中蘊含的病、癥、證、治、方、藥等各知識節(jié)點進(jìn)行關(guān)聯(lián)呈現(xiàn)。利用關(guān)鍵詞庫建立索引技術(shù),實現(xiàn)跨庫、跨字段精準(zhǔn)檢索,使用知識圖譜技術(shù),構(gòu)建融合國醫(yī)大師專科專病用方經(jīng)驗、名老中醫(yī)醫(yī)案、中醫(yī)常用方劑、常見病診療指南、中成藥等中醫(yī)藥特色的關(guān)聯(lián)型知識數(shù)據(jù)庫。該研究是中醫(yī)藥知識數(shù)據(jù)庫構(gòu)建和共享方法的又一拓展。
2016 年袁鋒等[11]對中醫(yī)醫(yī)案文本挖掘進(jìn)行研究。該研究把人工蜂群算法應(yīng)用于中醫(yī)醫(yī)案本體庫的構(gòu)建。設(shè)計基于人工蜂群算法的本體學(xué)習(xí)技術(shù),通過中文分詞技術(shù)、互信息及規(guī)則過濾等策略,以醫(yī)案中的中醫(yī)四診、中醫(yī)診斷、西醫(yī)診斷、證型、治法為信息語料進(jìn)行分析、驗證,設(shè)計概念提取方法,同時利用小生境技術(shù)的融合、演化算法豐富種群的多樣性構(gòu)建本體。應(yīng)用條件隨機場、基于本體的修正及特征模板的修正方法對中醫(yī)醫(yī)案命名實體進(jìn)行識別,構(gòu)建基于本體的中醫(yī)醫(yī)案命名實體識別算法。并設(shè)計了一種基于詞共現(xiàn)組合的中醫(yī)醫(yī)案向量空間模型。利用關(guān)聯(lián)規(guī)則算法抽取出中醫(yī)醫(yī)案的二階詞共現(xiàn)組合,定義詞共現(xiàn)的度量方法,構(gòu)建基于詞共現(xiàn)組合的向量空間模型。還提出一種基于螢火蟲算法的中醫(yī)醫(yī)案文本聚類算法。引入粒計算思想,通過適應(yīng)度變化情況動態(tài)確定螢火蟲算法的迭代和模擬退火算法的抽樣,擴大模擬退火的擾動增加種群的選擇范圍。該研究是對本體構(gòu)建從研究方法上的一大探索。
2017 年王斯琪等[12]對中醫(yī)舌象、脈象本體構(gòu)建進(jìn)行了研究。研究按照七步法構(gòu)建中醫(yī)舌象、脈象本體,從已發(fā)布的標(biāo)準(zhǔn)、《中醫(yī)藥學(xué)名詞》、《中醫(yī)癥狀學(xué)研究》、《中醫(yī)癥狀鑒別診斷學(xué)第二版》中收集舌象、脈象術(shù)語,進(jìn)行去重和同義詞整合處理。然后采用自上而下的方法初步確定分類框架,再從術(shù)語中提取屬性值自下而上聚類,確定本體類、屬性及約束,利用Protégé 進(jìn)行舌象、脈象本體的編輯。利用信息分類與編碼技術(shù),以屬性組合的代碼形式對舌象、脈象本體實例進(jìn)行表示,并構(gòu)建實例庫。根據(jù)分類框架和聚類結(jié)果劃分了舌象、脈象本體類。促進(jìn)了舌象、脈象信息的數(shù)據(jù)化、結(jié)構(gòu)化。該研究從舌、脈本體內(nèi)容和關(guān)系角度出發(fā),成功構(gòu)建舌、脈本體。
于琦等[13]對基于本體的中醫(yī)醫(yī)案知識服務(wù)于共享系統(tǒng)構(gòu)建進(jìn)行了研究。該研究從中醫(yī)醫(yī)案入手,以本體論為基礎(chǔ),采用語義網(wǎng)及自然語言處理方法,實現(xiàn)中醫(yī)醫(yī)案信息的獲取與組織管理。在中醫(yī)醫(yī)案本體框架下構(gòu)建中醫(yī)醫(yī)案術(shù)語體系,通過實體識別和本體映射的方式,從醫(yī)案中獲取診療信息,存儲成為結(jié)構(gòu)化數(shù)據(jù)庫,并可實現(xiàn)醫(yī)案的統(tǒng)一管理、檢索和挖掘利用。研究探索了基于本體的中醫(yī)醫(yī)案信息獲取方法,構(gòu)建了中醫(yī)醫(yī)案知識服務(wù)與共享系統(tǒng),實現(xiàn)了中醫(yī)醫(yī)案的信息抽取、數(shù)據(jù)庫自動構(gòu)建、管理和挖掘利用。該研究對醫(yī)案服務(wù)共享系統(tǒng)進(jìn)行了方法上的探索。
綜上所述,中醫(yī)知識系統(tǒng)構(gòu)建已初具模型,并且在基礎(chǔ)本體建設(shè)以及各個分科領(lǐng)域建設(shè)都取得了成效及進(jìn)步,其發(fā)展也越來深入和全面。
得出的結(jié)論是:(1)在中醫(yī)藥人工智能發(fā)展方面,知識系統(tǒng)的構(gòu)建成果比較顯著;其中基礎(chǔ)術(shù)語構(gòu)建已相當(dāng)完備,并且在本體建設(shè)的基礎(chǔ)上開展了諸多更進(jìn)一步的研究,其中包括古籍整理、醫(yī)案挖掘以及舌像本體構(gòu)建,接下來的研究可以從各個分科對中醫(yī)藥本體進(jìn)行更加完備和全面的研究與構(gòu)建。(2)對于本體發(fā)展的研究,研究人員主要從基于本體本身和本體研究方法兩個方向開展研究。在本體發(fā)展過程中,本體內(nèi)容在逐步豐富,本體研究方法以及方向都在不斷改良和擴展。同時可以在更加便捷和實用的本體研究方法上做出進(jìn)一步的探索。
從目前的成果來看,機器學(xué)習(xí)、自然語言處理等當(dāng)下火熱的人工智能技術(shù)應(yīng)用于知識系統(tǒng)的構(gòu)建對中醫(yī)藥人工智能的發(fā)展進(jìn)行了積極地促進(jìn)作用。中醫(yī)藥知識系統(tǒng)的構(gòu)建與完善還需要更多的研究人員進(jìn)行探索與研究,以期成功實現(xiàn)中醫(yī)藥的傳承和現(xiàn)代化發(fā)展。