付 興 李芊芊 楊 鳳 周冉冉 侯鑒宸 陶曉華
(北京中醫(yī)藥大學(xué) 北京 102488)
中醫(yī)古籍記載了我國數(shù)千年來醫(yī)療實踐的經(jīng)驗,是傳承中醫(yī)科學(xué)和醫(yī)療創(chuàng)新的源泉和根基。但中醫(yī)古籍?dāng)?shù)量眾多、門類龐雜,要充分挖掘中醫(yī)古籍的價值,需要深化基于知識元理論的中醫(yī)古籍整理挖掘技術(shù)與方法。敘詞表也稱主題詞表,以更加規(guī)范化的系統(tǒng)語言代替標(biāo)引人員使用的自然語言,是中醫(yī)古籍文獻(xiàn)檢索中進(jìn)行文獻(xiàn)主題標(biāo)引的檢索工具之一,是中醫(yī)古籍知識庫的基石,也是連接中醫(yī)各種專業(yè)詞語與計算機系統(tǒng)語言的紐帶。但是,現(xiàn)有詞表無法滿足現(xiàn)代疾病與中醫(yī)病證名的相關(guān)性研究需求。因此,本研究基于600種中醫(yī)古籍的深度標(biāo)引工作,選取4種中醫(yī)診療具有一定優(yōu)勢和特色的疾病——腦卒中、心力衰竭、肝硬化和糖尿病,通過敘詞表構(gòu)建,將相關(guān)中醫(yī)詞匯進(jìn)行集合,用以指導(dǎo)后續(xù)的標(biāo)引和檢索,揭示概念間關(guān)系,也可為后續(xù)4種重大疾病中醫(yī)臨床術(shù)語知識框架建立奠定基礎(chǔ)。
敘詞表是概括各門或某一學(xué)科領(lǐng)域并由語義相關(guān)、族性相關(guān)的術(shù)語所組成的、可以不斷補充的規(guī)范化詞表[1]。敘詞表主要由敘詞與敘詞間關(guān)系組成,敘詞間基本語義關(guān)系采用不同的參照符號以示區(qū)分。中國《漢語主題詞表》采用“用、代、屬、分、參”結(jié)構(gòu)。一般敘詞表中包括等同關(guān)系、等級關(guān)系和相關(guān)關(guān)系3種關(guān)系[2]。敘詞表作為一種術(shù)語控制工具,可以通過將古籍資料、文獻(xiàn)、檢索者的自然語言等轉(zhuǎn)換成相對規(guī)范化的語言,從而形成某特殊領(lǐng)域內(nèi)的表達(dá)事物概念的詞匯集合;還可以通過各方式對各敘詞之間的各種語義聯(lián)系進(jìn)行顯示,是可以不斷補充、完善和調(diào)整的動態(tài)詞表[3]。
國外主要的醫(yī)學(xué)敘詞表包括美國國家癌癥研究所的《NCI主題詞表》(NCIt)和美國國家醫(yī)學(xué)圖書館(National Library of Medicine,NLM)編制的《醫(yī)學(xué)主題詞表》(MeSH)等,其中MeSH影響力最大[4]。MeSH最早出版于1960年,經(jīng)過醫(yī)學(xué)學(xué)科專家和MeSH工作人員的不斷修訂和更新,2019版MeSH收錄了29 351個概念和247 209個補充概念記錄。這些補充概念來源于生物醫(yī)學(xué)領(lǐng)域的其他相關(guān)詞表。MeSH具有獨特的主-副主題詞組配表達(dá)形式,采用樹狀結(jié)構(gòu)表代替?zhèn)鹘y(tǒng)的分類表。MeSH用于標(biāo)引世界領(lǐng)先的生物醫(yī)學(xué)數(shù)據(jù)庫PubMed的文獻(xiàn),也用于NLM編目數(shù)據(jù)庫的書目描述。
2.3.1 中醫(yī)藥學(xué)主要敘詞表 現(xiàn)代中醫(yī)藥詞表的研制工作起步于20世紀(jì)70年代[5]。我國現(xiàn)有的醫(yī)學(xué)領(lǐng)域敘詞表包括醫(yī)學(xué)(現(xiàn)代醫(yī)學(xué))、藥學(xué)和中醫(yī)藥3個領(lǐng)域,代表性敘詞表有:中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所將MeSH翻譯為中文,并在此基礎(chǔ)上建立的“中文醫(yī)學(xué)主題詞表檢索系統(tǒng)”(CMeSH)[6],是國內(nèi)醫(yī)學(xué)領(lǐng)域權(quán)威的敘詞表;國家食品藥品監(jiān)督管理局于2013年編制出版的《中國藥學(xué)主題詞表》,共收錄術(shù)語29 000條[7];中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所編制的《中國中醫(yī)藥學(xué)主題詞表》,1987年出版第1版,2015年發(fā)布網(wǎng)絡(luò)版,目前共收錄術(shù)語21 466條[8]。其中,“中文醫(yī)學(xué)主題詞表檢索系統(tǒng)”和《中國中醫(yī)藥學(xué)主題詞表》都建立了持續(xù)更新機制,而且二者還建立了網(wǎng)絡(luò)版服務(wù)系統(tǒng)[9]。此外,中國中醫(yī)科學(xué)院從2002年開始,借鑒統(tǒng)一一體化語言的經(jīng)驗,研制了“中醫(yī)藥學(xué)語言系統(tǒng)(Traditional Chinese Medicine Language System,TCMLS)”,對中醫(yī)藥學(xué)的名詞術(shù)語進(jìn)行了系統(tǒng)梳理,構(gòu)建了中醫(yī)藥概念術(shù)語的層次結(jié)構(gòu)和復(fù)雜語義網(wǎng)絡(luò)。已收錄約12萬個概念、30萬個術(shù)語以及127萬條語義關(guān)系[10-11]。定位在專門面向中醫(yī)臨床的大型術(shù)語系統(tǒng)“中醫(yī)臨床術(shù)語集”,已收錄11萬多條概念詞,27萬多個術(shù)語,內(nèi)容覆蓋臨床所見、病證、操作、治則治法和中藥等中醫(yī)臨床知識各個方面[12]。建立了概念與概念之間的層級關(guān)系、概念與概念之間的相關(guān)關(guān)系。
2.3.2 問題分析 目前基于本體技術(shù)的中醫(yī)藥知識庫系統(tǒng)成為中醫(yī)藥信息化領(lǐng)域的主流研究方向[13]。敘詞表采用一種樹形結(jié)構(gòu)方式展現(xiàn)中醫(yī)古籍中的概念結(jié)構(gòu)關(guān)系,表現(xiàn)出來自于古籍的內(nèi)容與概念,是對中醫(yī)古籍文獻(xiàn)的客觀反映,也展現(xiàn)了古籍文獻(xiàn)本身的結(jié)構(gòu)。領(lǐng)域本體的編制以敘詞表為依據(jù),繼承了敘詞表的樹狀結(jié)構(gòu)特征[14]。然而,尚缺乏以現(xiàn)代疾病為研究對象且基于中醫(yī)古籍詞語的敘詞表,盡管中西醫(yī)是兩種不同的學(xué)科體系,但二者的研究目的與對象是一致的。因此,為架設(shè)傳統(tǒng)醫(yī)學(xué)與現(xiàn)代醫(yī)學(xué)的研究橋梁,構(gòu)建具有中醫(yī)特色的《4種重大疾病的中醫(yī)古籍?dāng)⒃~表》,具有重要的研究意義與臨床價值。
為滿足中醫(yī)藥領(lǐng)域內(nèi)4種重大疾病的研究工作需求,采用“以主題為主,主題與學(xué)科相結(jié)合”的原則,突出敘詞表中4種重大疾病的專業(yè)性,保證實用性,充分考慮地域和時代。詞表的編制標(biāo)準(zhǔn)參考《漢語敘詞表編制規(guī)則(GB 13190—1991)》和《軍用主題詞表編制規(guī)則(GJB1776A—99)》制定。語料構(gòu)建參考《中國藥學(xué)主題詞表》《中國中醫(yī)藥學(xué)主題詞表》《健康信息學(xué)-中醫(yī)藥學(xué)語言系統(tǒng)語義網(wǎng)絡(luò)框架(GB/T 38324—2019)》以及中醫(yī)語言系統(tǒng)發(fā)布平臺等。
詞表選詞遵循以下3個原則,一是保證參考標(biāo)引頻率,選用在中醫(yī)藥領(lǐng)域較常出現(xiàn),具有一定使用頻率的名詞術(shù)語;二是保證基本詞匯準(zhǔn)確,參考《中國中醫(yī)藥學(xué)主題詞表》的基礎(chǔ)上,保證與MeSH詞表內(nèi)中醫(yī)藥相關(guān)詞語兼容,同時以《國際疾病分類第十一次修訂本(ICD11)》《中醫(yī)病證分類與代碼(GB/T 15657—2021)》的術(shù)語內(nèi)容為標(biāo)準(zhǔn);三是保證所選詞語概念清晰簡練,詞義明確。
本研究基于采用“病脈證并治”知識元標(biāo)引技術(shù)與方法的中醫(yī)古籍標(biāo)引平臺(http://114.255.40.130:60080/metaservice2/#),在對中醫(yī)古籍進(jìn)行標(biāo)引時,以“病脈證并治”標(biāo)引模版為首選,并根據(jù)不同類別、不同內(nèi)容的古籍配置9種標(biāo)引模版及元數(shù)據(jù)。其中“病脈證并治”標(biāo)引模版以中醫(yī)疾病名為核心,包括病名、病因、病機、治則、治法、主脈、兼脈、辨證、方劑、藥物、針灸、預(yù)后、宜忌等30個知識元,以及59種語義類型。9種標(biāo)引模版及元數(shù)據(jù)包括中醫(yī)理論、診法、病證、本草、方劑、醫(yī)案、預(yù)防調(diào)護(hù)、學(xué)術(shù)流派、針灸標(biāo)引模版。
現(xiàn)代疾病與中醫(yī)病名的對應(yīng)問題一直是學(xué)界爭議的關(guān)鍵。首先,本研究以4種重大疾病及其并發(fā)癥為對象,以現(xiàn)代文獻(xiàn)研究為抓手,以4種重大疾病相關(guān)的中醫(yī)疾病名為核心,在中國知網(wǎng)文獻(xiàn)數(shù)據(jù)庫中以腦卒中、心力衰竭、肝硬化、糖尿病、并發(fā)癥及其同義詞為關(guān)鍵詞進(jìn)行精確檢索,共檢索1995年1月1日—2022年2月1日的中文文獻(xiàn)6 003篇,其中腦卒中519篇,心力衰竭445篇,肝硬化947篇,糖尿病4 092篇,提取文中涉及的并發(fā)癥名稱,將相同病名進(jìn)行合并,如中風(fēng)后抑郁、卒中后抑郁、腦卒中抑郁癥合并為抑郁癥,從中歸納出4種重大疾病及其并發(fā)癥共208種,其中腦卒中76種,心力衰竭15種,肝硬化45種,糖尿病72種;其次,再以篩選出的4種重大疾病及其并發(fā)癥名稱、中醫(yī)病名或中醫(yī)為關(guān)鍵詞,在中國知網(wǎng)文獻(xiàn)數(shù)據(jù)庫中再次進(jìn)行精確檢索,去除缺乏中醫(yī)認(rèn)識的部分現(xiàn)代疾病,例如電解質(zhì)紊亂、酸堿失衡等;最后,參考《國際疾病分類第十一次修訂本(ICD11)》和2020年頒布的《中醫(yī)臨床診療術(shù)語第1部分:疾病》以及相關(guān)臨床指南與專著等,剔除部分欠規(guī)范的中醫(yī)病名,最終形成4種重大疾病及其并發(fā)癥相關(guān)的中醫(yī)疾病名318種,其示例,見表1。

表1 4種重大疾病并發(fā)癥中西醫(yī)病名對應(yīng)
基于中醫(yī)古籍“病脈證并治”知識元標(biāo)引體系,以中醫(yī)疾病名為導(dǎo)向,突顯“以病為綱”(由于4種重大疾病的并發(fā)癥存在交叉,而其并發(fā)癥的中醫(yī)病名并無區(qū)別,因此未對其并發(fā)癥的中醫(yī)病名進(jìn)行區(qū)分),同時參考《中國中醫(yī)藥學(xué)主題詞表》等現(xiàn)有敘詞表,制定現(xiàn)代醫(yī)學(xué)病名、中醫(yī)疾病名、中醫(yī)理論、病因病機、診法、癥狀體征、推薦方劑、中藥、治療、預(yù)防調(diào)護(hù)、古籍書目、學(xué)術(shù)流派及醫(yī)家共12個范疇。以4種重大疾病及其并發(fā)癥相關(guān)的中醫(yī)疾病名遴選知識體,將其中的知識元與語義提取出來,將不同類型語義歸入不同范疇類目中,如語義類型為治法的語義“滋陰”歸入“治療”范疇下的“治法”中,從而形成4種重大疾病相關(guān)的中醫(yī)古籍?dāng)⒃~表語料庫。
構(gòu)建中醫(yī)古籍?dāng)⒃~表流程包括選詞過程、編制主表、編制詞族表、編制范疇表、編制英漢索引表等內(nèi)容,見圖1。

圖1 《4種重大疾病的中醫(yī)古籍?dāng)⒃~表》構(gòu)建流程
4.3.1 選詞過程 對中醫(yī)古籍進(jìn)行原始版本數(shù)字化處理,形成計算機可讀文本文件,并按“病脈證并治”知識元核心要素進(jìn)行深度標(biāo)引加工,遵循“一標(biāo)、二查、三復(fù)審、四抽檢”的原則,對標(biāo)引后的條目進(jìn)行人工和機器“病脈證并治”知識元核心要素雙分析,利用自然語言處理等技術(shù)手段,對數(shù)字化后的古籍原文內(nèi)容進(jìn)行機器分析挖掘,提取出其中的詞匯及詞匯出現(xiàn)的頻次,構(gòu)建4種重大疾病中醫(yī)古籍?dāng)⒃~表的基本素材詞庫。采用自然語言處理等技術(shù)提取詞匯(尤其是高頻詞匯)。參考各類文獻(xiàn)數(shù)據(jù)庫,以及中醫(yī)敘詞表與詞典工具書等傳統(tǒng)紙質(zhì)文獻(xiàn)和書籍資料,如《中國中醫(yī)藥學(xué)主題詞表》《中醫(yī)大辭典》等,并保證與MeSH詞表內(nèi)中醫(yī)藥相關(guān)詞語兼容。
4.3.2 編制主表 通過以上選詞來源,基于網(wǎng)絡(luò)關(guān)鍵字統(tǒng)計系統(tǒng)統(tǒng)計期刊的關(guān)鍵字,在分詞結(jié)果和關(guān)鍵字統(tǒng)計結(jié)果中,通過制定詞頻閾值、詞匯過濾規(guī)則、選詞范圍、選詞原則來選取正式主題詞。
4.3.3 編制詞族表 采用本課題合作單位搭建的“知識組織系統(tǒng)管理與構(gòu)建平臺”構(gòu)建詞匯語義成族的結(jié)構(gòu)體系,其中包括展示詞匯的范疇號、英漢對照關(guān)系、同義關(guān)系、等級關(guān)系、關(guān)聯(lián)關(guān)系等內(nèi)容。在編制主表過程中,制定正式主題詞與非正式主題詞的編制結(jié)構(gòu)體系。在編制詞族表過程中,制定詞匯語義成族的結(jié)構(gòu)體系,屬、分、族項通過導(dǎo)入詞族表的等級關(guān)系來實現(xiàn),范疇號由導(dǎo)入范疇表中設(shè)定的類別號來實現(xiàn)。
4.3.4 編制范疇表、編制英漢索引表 制定范疇表編排的結(jié)構(gòu)體系,制定漢語拼音索引、英漢對照索引的結(jié)構(gòu)體系。本敘詞表研究旨在中醫(yī)古籍知識分類體系下進(jìn)行擴(kuò)展與深化,尤其關(guān)注以疾病為綱的中醫(yī)古籍?dāng)⒃~編著與研究。建立敘詞的概念關(guān)系,借鑒詞表概念間的邏輯關(guān)系,結(jié)合古籍知識庫語義元數(shù)據(jù),參考中醫(yī)藥一體化語言系統(tǒng),采用自下而上與自上而下相結(jié)合的方法,構(gòu)建中醫(yī)疾病古籍?dāng)⒃~表的概念語義網(wǎng)絡(luò)。
《4種重大疾病的中醫(yī)古籍?dāng)⒃~表》包括主表、范疇表、詞族表和索引表(漢語拼音索引、英漢對照索引)。其中范疇表類目,見表2。該詞表涵蓋現(xiàn)代醫(yī)學(xué)病名、中醫(yī)疾病名、中醫(yī)理論、病因病機、診法、癥狀體征、推薦方劑、中藥、治療、預(yù)防調(diào)護(hù)、古籍書目、學(xué)術(shù)流派及醫(yī)家共12個范疇,在各類目之下,再按中醫(yī)理論逐項細(xì)分,最深達(dá)7級,見表3。目前收錄包含樹形號、中文、英文、拼音、定義或簡介以及范疇號的正式主題詞7 234個,非正式主題詞5 255個。語義關(guān)系參考《健康信息學(xué)-中醫(yī)藥學(xué)語言系統(tǒng)語義網(wǎng)絡(luò)框架(GB/T 38324—2019)》,包括上下位關(guān)系、相關(guān)關(guān)系、分支、包含等10余種。

表2 《4種重大疾病的中醫(yī)古籍?dāng)⒃~表》范疇表類目

續(xù)表2

表3 范疇各級數(shù)目(個)
綜上所述,基于中醫(yī)古籍的4種重大疾病敘詞表旨在立足于中醫(yī)古籍知識分類體系下進(jìn)行擴(kuò)展與深化,探索性試以現(xiàn)代文獻(xiàn)研究為依據(jù),尋求現(xiàn)代醫(yī)學(xué)病名與中醫(yī)疾病名的連接。采用具有“病脈證并治”特色的中醫(yī)古籍知識元標(biāo)引方法,完善以中醫(yī)疾病名為綱的中醫(yī)古籍?dāng)⒃~編著與研究,從而形成4種重大疾病的中醫(yī)古籍?dāng)⒃~表。構(gòu)建4種重大疾病的中醫(yī)古籍?dāng)⒃~表后,為其他現(xiàn)代疾病的敘詞表建立提供范本與參考,或可為構(gòu)建4種重大疾病的中醫(yī)臨床術(shù)語知識框架奠定良好基礎(chǔ)。