陳瑩璇, 謝煒豪, 陳帆, 徐倩,2, 李榮耀, 陳振虎, 劉秀峰,2
(1.廣州中醫(yī)藥大學(xué)醫(yī)學(xué)信息工程學(xué)院,廣東廣州 510006;2.廣州中醫(yī)藥大學(xué)智能中醫(yī)研究院,廣東廣州 510006;3.廣州中醫(yī)藥大學(xué)第一附屬醫(yī)院,廣東廣州 510006)
《靈樞》是現(xiàn)存中醫(yī)古籍中的經(jīng)典著作之一,重點闡述了中醫(yī)學(xué)基礎(chǔ)理論、經(jīng)絡(luò)腧穴、針具刺法及治療原則等,為后世中國醫(yī)學(xué)的發(fā)展奠定了思想和理論基礎(chǔ)。后世醫(yī)家的臨證思路與方法多源于《靈樞》中的理論,如名老中醫(yī)張覺人基于《靈樞·本神》“五神臟”理論,將養(yǎng)神、安神、調(diào)神法用于新型冠狀病毒肺炎精神康復(fù)的患者,在門診案例中獲得佳效[1];張文瑞等[2]從《靈樞·經(jīng)脈》篇中“是動病”“所生病”理論出發(fā),結(jié)合具體醫(yī)案,對痛風(fēng)診治進行了研究;尚斌等[3]根據(jù)《靈樞·九針十二原》研制了員利針(即“圓利針”),在臨床治療中取得顯著療效。《靈樞》所載內(nèi)容對現(xiàn)代中醫(yī)臨床診治尤其是針灸臨床研究具有重要的啟迪意義。但由于古籍文本的凝練晦澀,后世臨床從業(yè)者對《靈樞》的理解受到臨床經(jīng)驗與能力水平的限制。
知識圖譜是大數(shù)據(jù)時代一種重要的知識表示形式,其本質(zhì)是大規(guī)模的語義網(wǎng)絡(luò),包括實體、概念及其之間的各種語義關(guān)系,對文本的挖掘展示更能體現(xiàn)文本中表達的各種復(fù)雜邏輯關(guān)系。《靈樞》的知識圖譜的構(gòu)建,將有助于臨床從業(yè)者對其進行更深入的研究,促進其理論在臨床診療上更廣泛的應(yīng)用。本研究借鑒知識圖譜構(gòu)建思路,探索構(gòu)建《靈樞》知識圖譜的方法,并將初步成果進行可視化展示,現(xiàn)將結(jié)果報道如下。
1.1 《靈樞》文本特點分析 《靈樞》作為中醫(yī)理論形成階段的早期著作,對人體的生理病理闡述具有其獨特的語言邏輯與特征,如“病在陰之陰者,刺陰之滎俞,病在陽之陽者,刺陽之合”。其表述方法與現(xiàn)代漢語具有較大的差別。另外,中醫(yī)古籍具有自身的固定表達,如“破 脫肉”“經(jīng)溲不利”等,外文詞庫與現(xiàn)代中文詞庫一般未收載,需要建立專門的中醫(yī)古籍領(lǐng)域詞庫以進行知識圖譜的構(gòu)建。古籍文本的高度凝練性以及目前中醫(yī)古籍文庫的缺乏,增加了《靈樞》文本信息提取的難度[4]?!饵S帝內(nèi)經(jīng)》由《靈樞》和《素問》構(gòu)成。因此,本文借鑒領(lǐng)域詞匯挖掘的思路,以《黃帝內(nèi)經(jīng)》文本材料為數(shù)據(jù),利用詞匯的統(tǒng)計特征來挖掘高質(zhì)量領(lǐng)域詞語。
1.2 數(shù)據(jù)來源 本研究采用《靈樞》《素問》及《針灸甲乙經(jīng)》作為文本材料。其中《靈樞》文本來源于中醫(yī)古籍出版社牛兵站主編的《黃帝內(nèi)經(jīng)靈樞譯注》[5],該書以明代趙府居敬堂刊本為依據(jù),書中的注釋吸納了歷代醫(yī)家之長,匯總了當(dāng)時的研究成果,以此作為《靈樞》文本研究的數(shù)據(jù)來源,較有說服力?!端貑枴凡糠謩t取自現(xiàn)代常用的較為完善的版本《重廣補注黃帝內(nèi)經(jīng)素問》[6]。《針灸甲乙經(jīng)》以人民衛(wèi)生出版社出版的《針灸甲乙經(jīng)》[7]版本作為文本材料。文本材料主要用于《黃帝內(nèi)經(jīng)》文本詞庫的構(gòu)建,而《靈樞》的全部文本參與知識圖譜構(gòu)建的處理全程。在獲取文本材料之后,對文本數(shù)據(jù)進行檢查校對,保證文本的完整性。為了不影響后續(xù)處理結(jié)果,刪去各文本章節(jié)名中的序號,如刪去“本輸?shù)诙敝械摹暗诙保瑥亩玫搅祟A(yù)處理后的文本。
1.3 詞匯篩選標(biāo)準(zhǔn) 在構(gòu)建知識圖譜的過程中,以2020 年國家中醫(yī)藥局組織修訂的《中醫(yī)病證分類與代碼》和《中醫(yī)臨床診療術(shù)語》及全國科學(xué)技術(shù)名詞審定委員會審定公布的《中醫(yī)藥學(xué)名詞》為標(biāo)準(zhǔn),進行詞庫構(gòu)建、分詞與實體識別中的篩選標(biāo)注工作。以《健康信息學(xué)——中醫(yī)藥學(xué)語言系統(tǒng)的語義網(wǎng)絡(luò)框架》(ISO/TS 17938-2014 Health informatics- semantic network framework of traditional Chinese medicine language system)[8]為參考,進行知識圖譜的關(guān)系抽取。該技術(shù)規(guī)范的核心內(nèi)容是一個中醫(yī)藥領(lǐng)域的規(guī)范化頂層本體,即TCMLS Semantic Network,包括96 種語義類型和58 種語義關(guān)系[9]。
1.4 詞庫構(gòu)建 在構(gòu)建知識圖譜的過程中,往往需要進行領(lǐng)域相關(guān)詞匯短語的挖掘探索,在此基礎(chǔ)上進一步找到該領(lǐng)域的相關(guān)實體,這一過程稱為領(lǐng)域詞匯挖掘。領(lǐng)域詞匯挖掘以領(lǐng)域語料作為輸入,經(jīng)過特定的算法處理后,輸出領(lǐng)域詞匯。輸入的領(lǐng)域語料,指的是領(lǐng)域相關(guān)的文檔集融合在一起而組成的語料庫。輸出的數(shù)據(jù)為研究領(lǐng)域中的高質(zhì)量詞匯,如從足球賽的報道集中挖掘出的“烏龍球”“凌空抽射”“交叉換位”等,即為領(lǐng)域詞匯中的高質(zhì)量詞匯。
基于此思路,本文利用Python Jiayan分詞工具的詞庫構(gòu)建功能,以《黃帝內(nèi)經(jīng)》文本材料作為輸入,通過計算文本中詞語的點互信息、左右鄰接熵等統(tǒng)計特征來實現(xiàn)詞匯挖掘,篩選出高質(zhì)量詞匯。該功能本質(zhì)上是將文本中出現(xiàn)頻率較高的字符序列作為初始詞匯,并通過計算初始詞匯的左右鄰接熵等統(tǒng)計特征,篩選得到質(zhì)量較高的詞匯,從而完成詞庫的構(gòu)建。
1.5 結(jié)巴分詞 經(jīng)詞庫構(gòu)建后可以得到中醫(yī)古籍文本中的專業(yè)詞匯,而分詞可以劃分文本中的有意義詞語,從而有利于后續(xù)的實體識別與關(guān)系提取。在自然語言處理中,較為常用的分詞工具有結(jié)巴分詞、HanLP、ansj_seg、pkuseg-python 等。分詞算法原理不盡相同,其中結(jié)巴分詞是一種適合中文分詞的方法,其特點之一就是可以通過自定義新詞詞典來提高領(lǐng)域文本語料的分詞準(zhǔn)確性[10]。鑒于已構(gòu)建《黃帝內(nèi)經(jīng)》系列詞庫,已有較多的高質(zhì)量領(lǐng)域詞匯基礎(chǔ),本文結(jié)合結(jié)巴分詞的特點,將上述步驟中得到的詞庫按結(jié)巴分詞自定義詞典的格式保存,對《靈樞》文本進行分詞操作。
1. 6 TF-IDF 文檔表示 TF-IDF(term frequencyinverse document frequency),即詞頻-逆文件頻率,是一種用來評估一個詞語對于一個文檔集或一個語料庫中某一文檔的重要程度的統(tǒng)計方法。字詞的重要性隨該字詞在文檔中出現(xiàn)的次數(shù)而成正比增加,但同時也隨著其在語料庫中出現(xiàn)的頻率而成反比下降。即一個詞語在某篇文章中出現(xiàn)次數(shù)越多,同時在語料庫其他文檔中出現(xiàn)次數(shù)越少,越能夠說明該詞在文章中的重要性。運用TFIDF算法,可以給詞語賦予一個權(quán)重,以表示其在文本中的重要程度。本文使用該方法得到結(jié)巴分詞后詞語的權(quán)重,根據(jù)此權(quán)重進行排序并繪制詞云圖,直觀地展示分詞結(jié)果,突出重要詞匯。
分詞權(quán)重結(jié)果參考專家意見,根據(jù)《中醫(yī)病證分類與代碼》《中醫(yī)臨床診療術(shù)語》和《中醫(yī)藥學(xué)名詞》進行檢查與修正,以得到質(zhì)量更高的分詞結(jié)果。
1.7 實體識別 構(gòu)建知識圖譜的第一步工作就是獲取圖譜中的實體。獲取實體可以分為兩大步,一是從文本數(shù)據(jù)中挖掘出大量的高質(zhì)量的詞匯,二是從得到的詞匯中篩選出構(gòu)建知識圖譜需要的實體[11]。上述步驟實現(xiàn)了高質(zhì)量詞匯的挖掘,接下來即為在詞匯中篩選實體的過程。本研究先通過Python 工具進行詞頻統(tǒng)計與詞語的匯總與去重操作,得到《靈樞》中的實體,并參考《中醫(yī)病證分類與代碼》《中醫(yī)臨床診療術(shù)語》和《中醫(yī)藥學(xué)名詞》,采用人工標(biāo)注的方式,將有意義的中醫(yī)詞語作為實體進行標(biāo)注。
1.8 關(guān)系抽取 在結(jié)巴分詞與實體構(gòu)建結(jié)果的基礎(chǔ)上,本研究結(jié)合《靈樞》譯注的相關(guān)內(nèi)容,參考中醫(yī)藥學(xué)語言系統(tǒng)的語義網(wǎng)絡(luò)框架,根據(jù)實體之間的關(guān)聯(lián)構(gòu)建實體關(guān)系,得到《靈樞》的各類型實體關(guān)系,主要有組成關(guān)系、包含關(guān)系、對應(yīng)關(guān)系、治療關(guān)系與因果關(guān)系。
1.9 知識圖譜構(gòu)建 本研究通過Neo4j 數(shù)據(jù)庫導(dǎo)入實體與關(guān)系來構(gòu)建《靈樞》知識圖譜。作為一個開源非關(guān)系型數(shù)據(jù)庫,Neo4j不僅具備完整的數(shù)據(jù)庫特性,還可以將數(shù)據(jù)存儲成較為靈活而直觀的網(wǎng)絡(luò)結(jié)構(gòu),實現(xiàn)圖數(shù)據(jù)模型的存儲。本研究首先將前面所述操作中得到的實體與關(guān)系整理成具有固定模式的結(jié)構(gòu)化數(shù)據(jù),對實體與關(guān)系進行相應(yīng)的標(biāo)注工作,保存為csv格式的文件。整理完畢后,使用Cypher語言在Neo4j數(shù)據(jù)庫中進行導(dǎo)入操作,完成《靈樞》涉及的中醫(yī)理論知識圖譜的構(gòu)建。通過Cypher 查詢語句,可以得到相關(guān)的實體與關(guān)系,也可以得到完整的知識圖譜?!鹅`樞》知識圖譜的構(gòu)建流程如圖1所示。

圖1 《靈樞》知識圖譜構(gòu)建流程圖Figure 1 Flow chart for the construction of knowledge graph of Ling Shu(Spiritual Pivot)
2.1 詞庫構(gòu)建 中醫(yī)古籍中專業(yè)名詞較多,詞語類型豐富,本研究將利用領(lǐng)域詞匯挖掘技術(shù)得到的詞語按詞的字?jǐn)?shù)劃分為一字詞、兩字詞、三字詞、多字詞等。Python Jiayan 分詞工具利用詞語點互信息(pointwise mutual information,PMI)、右鄰接熵(R_Entropy)、左鄰接熵(L_Entropy)進行詞庫的自動化構(gòu)建。Python Jiayan 分詞工具構(gòu)建《靈樞》詞庫的參數(shù)示例見表1。

表1 Python Jiayan分詞工具構(gòu)建《靈樞》詞庫的參數(shù)示例Table 1 The illustration of the parameters for the construction of thesaurus of Ling Shu(Spiritual Pivot)by Python Jiayan tool
本研究參照《中醫(yī)病證分類與代碼》《中醫(yī)臨床診療術(shù)語》和《中醫(yī)藥學(xué)名詞》,進行領(lǐng)域?qū)I(yè)詞匯的檢查和篩選、對于挖掘出的有所欠缺的詞進行修正,如在詞庫中發(fā)現(xiàn)“不得”“不利”等詞語,參考上述標(biāo)準(zhǔn),結(jié)合《靈樞》文本檢索結(jié)果,將“不得安”“不得息”“屈伸不利”“鼻塞不利”等詞納入詞庫,最終得到《靈樞》詞庫的1 216個高質(zhì)量詞匯,包括一字詞、兩字詞、三字詞和多字詞?!鹅`樞》詞庫的詞語類型示例見表2。

表2 《靈樞》詞庫的詞語類型示例Table 2 The illustration of types of the words in the thesaurus of Ling Shu(Spiritual Pivot)
2.2 分詞與詞云圖展示 為探索《靈樞》中的詞語特點,經(jīng)Python Jiayan分詞工具分詞后進行去停用詞與詞頻統(tǒng)計操作,并用TF-IDF 計算詞語權(quán)重,根據(jù)權(quán)重繪制詞云圖,以直觀展示分詞結(jié)果并突出重要詞匯。在詞云圖中,詞語的TF-IDF 權(quán)重越高,即相對于《靈樞》的重要程度越大,則字體越大越為顯眼。由詞云圖可看出分詞效果較好,得到的詞語包括經(jīng)絡(luò)名(如“陽明”“少陰”等)、中醫(yī)概念(如“陰陽”“衛(wèi)氣”等)、疾病名(如“癲疾”“暴疾”等)、穴位與臟腑(如“人迎”“五臟”等)、癥狀(如“寒熱”“汗出”等)等中醫(yī)相關(guān)術(shù)語。《靈樞》中TF-IDF權(quán)重居前800位的詞云圖如圖2所示,其中TF-IDF 權(quán)重居前20位的詞語見表3。

表3 《靈樞》詞庫中TF-IDF權(quán)重居前20位的詞語Table 3 The words with the leading 20 weight coefficients of term frequency-inverse document frequency(TF-IDF)in the thesaurus of Ling Shu(Spiritual Pivot)

圖2 《靈樞》詞庫中詞頻-逆文件頻率(TF-IDF)權(quán)重居前800位的詞云圖Figure 2 The word cloud graph for the words with the leading 800 weight coefficients of term frequencyinverse document frequency(TF-IDF)in the thesaurus of Ling Shu(Spiritual Pivot)
2.3 實體識別與標(biāo)注 根據(jù)“1.7”項所述方法,參照前述標(biāo)準(zhǔn),結(jié)合《靈樞》譯注[12],本研究主要抽取的實體描述包括3部分。第一部分實體描述的是中醫(yī)基礎(chǔ)理論,如五臟、五神、精氣、六氣、六腑、十二經(jīng)脈、十五絡(luò)脈、穴位、七竅等。第二部分實體描述的是病癥類,如疾?。ㄈ绨d狂病、熱病、周痹等)、癥狀(如兩脅骨不舉等)以及體征(如脈象、面色等)。第三部分實體描述的是針灸治療的針具九針(如镵針、圓針、鍉針、鋒針、鈹針、圓利針、毫針、長針、大針)、用針原理與方法(如“虛則實之”)、施針部位(如“取三陽”“刺陰之滎俞”)以及施針操作(如“徐而疾”)等。本研究通過識別得到的各類實體包括病因、病位及病性等,符合中醫(yī)辨證論治的原則和思想?!端貑枴ぶ琳嬉笳摗窂娬{(diào)在辨證時要“審察病機”,在施治時要“謹(jǐn)守病機”。辨病機是確定治法的基石,只有正確的辨證,同時辨明疾病的病因、病位、病性及疾病發(fā)展變化的趨勢,才能正確地施治。《靈樞》詞庫中實體類型舉例見表4。

表4 《靈樞》詞庫中的實體類型舉例Table 4 Examples for the entity types in the thesaurus of Ling Shu(Spiritual Pivot)
2.4 關(guān)系抽取 本研究參照中醫(yī)藥學(xué)語言系統(tǒng)的語義網(wǎng)絡(luò)框架中對語義關(guān)系的分類和說明,結(jié)合《靈樞》譯注的內(nèi)容,對文本中的實體之間的關(guān)系進行梳理總結(jié),提取得到主要的關(guān)系,分別為組成關(guān)系、包含關(guān)系、對應(yīng)關(guān)系、治療關(guān)系和因果關(guān)系。
組成關(guān)系主要是指概念與其組成之間的關(guān)系,在《靈樞》中經(jīng)常提及的概念及其組成部分有五臟(肝、心、脾、肺、腎)、五神(魂、神、意、魄、志)、十二經(jīng)脈(如“足太陽經(jīng)”)等。包含關(guān)系主要是指概念之間的包含關(guān)系,如癥狀包含實證和虛證、經(jīng)脈的循行位置包含穴位等。對應(yīng)關(guān)系主要是指不同概念之間實體的相互對應(yīng),如《靈樞》中“肝藏血,血舍魂,肝氣虛則恐,實則怒”等描述,表示了五臟“藏”五神、五神“舍”精氣以及五臟虛與實的對應(yīng)癥狀表現(xiàn)等關(guān)系。治療關(guān)系主要是指疾病和治療方式之間的關(guān)系,如“虛證”對應(yīng)治療方式為“實之”,“陰有陽疾”對應(yīng)治療方式為“取之下陵三里”等,還有針具與主要治療的疾病類型的關(guān)系,如“毫針,取痛痹”等。因果關(guān)系主要是指病因和疾病之間的關(guān)系。如“怵惕思慮”導(dǎo)致“傷神”,“傷神”導(dǎo)致“恐懼自失”“破 脫肉”等?!鹅`樞》詞庫中實體之間的關(guān)系類型見表5。

表5 《靈樞》詞庫中的實體之間的關(guān)系類型Table 5 Types of the relationships among the entities in the thesaurus of Ling Shu(Spiritual Pivot)
2.5 知識圖譜構(gòu)建 本研究將各類實體及實體關(guān)系組成Neo4j數(shù)據(jù)庫要求的格式,將實體及其關(guān)系存儲到圖數(shù)據(jù)庫中,并通過查詢相關(guān)節(jié)點與關(guān)系,即可得到《靈樞》中各類中醫(yī)理論知識圖譜。 圖3 展示了情志刺激與五臟五神之間的關(guān)系,圖4 展示了《靈樞》第八篇“本神”中的內(nèi)容,圖5 則展示了《靈樞》中經(jīng)脈理論的知識圖譜,涉及十二經(jīng)脈、腧穴、針具及其形狀特點與功效、癥狀等實體與關(guān)系等。

圖3 《靈樞》中情志刺激與五臟五神之間的實體關(guān)系知識圖譜Figure 3 Knowledge graph for the entity relationship of emotional distress with five zang-organs and five mental activities in Ling Shu(Spiritual Pivot)

圖4 《靈樞》中“本神”理論的知識圖譜Figure 4 Knowledge graph for the theory of spiritual,mental,and thinking activities in Ling Shu(Spiritual Pivot)

圖5 《靈樞》中經(jīng)脈理論的知識圖譜Figure 5 Knowledge graph for the theory of meridians in Ling Shu(Spiritual Pivot)
2. 6 “針刺治神”思想知識圖譜 《靈樞·本神》對“五神”功能的描述最為豐富:“故生之來謂之精,兩精相搏謂之神,隨神往來者謂之魂,并精而出入者謂之魄,所以任物者謂之心,心有所憶謂之意,意之所存謂之志,因志而存變謂之思,因思而遠(yuǎn)慕謂之慮,因慮而處物謂之智”[13]。“凡刺之真,必先治神”出自《素問·寶命全形論》,說明了“治神”是針刺施治的基礎(chǔ)與前提,在針刺治療中居首要地位[14]?!鹅`樞·本神》載“凡刺之法,先必本于神”;《靈樞·官能》也指出“用針之要,無忘其神”。作為評判針刺技術(shù)水平的標(biāo)準(zhǔn),足見《黃帝內(nèi)經(jīng)》對“針刺治神”思想的重視[15]?!鹅`樞》中針刺治神理論的知識圖譜見圖6,該圖較好地展示了針刺調(diào)治五神與意、魄、精、魂、志的相關(guān)內(nèi)容。

圖6 《靈樞》中針刺治神理論的知識圖譜Figure 6 Knowledge graph for the theory of mind-regulating acupuncture in Ling Shu(Spiritual Pivot)
3.1 《靈樞》知識圖譜構(gòu)建的意義 本研究利用領(lǐng)域知識圖譜構(gòu)建的思想與技術(shù),實現(xiàn)了《靈樞》文本中的中醫(yī)實體與關(guān)系抽取,實現(xiàn)了《靈樞》知識圖譜的初步構(gòu)建、存儲與可視化展示。
在中醫(yī)領(lǐng)域,構(gòu)建中醫(yī)古籍的知識圖譜將有助于對書本知識進行分類整理和規(guī)范化表達,促進知識的共享、傳播與利用,在臨床診療、臨床研究、教育、培訓(xùn)等方面都具有應(yīng)用價值。
知識圖譜的構(gòu)建與在圖數(shù)據(jù)庫中的存儲可使相關(guān)實體與關(guān)系的檢索調(diào)用成為可能,也可使知識圖譜能以可視化語義網(wǎng)絡(luò)圖的形式進行展示,還可改進知識檢索、知識問答、決策支持和知識可視化等多種服務(wù)的效果,使嵌入語義搜索、語義維基等系統(tǒng)成為可能,從而提升中醫(yī)臨床的知識服務(wù)能力,為智能醫(yī)療的發(fā)展助力。例如,知識圖譜的嵌入可以應(yīng)用在醫(yī)院信息系統(tǒng)中醫(yī)生工作站中醫(yī)模塊的輔助診療,如醫(yī)生輸入患者的癥狀或者主訴后,可以通過對知識圖譜的調(diào)用,檢索在《靈樞》中相關(guān)疾病發(fā)展與癥狀的描述,為醫(yī)生診治疾病提供參考,起到輔助診療的作用。
本知識圖譜的構(gòu)建思路可推廣至其他中醫(yī)古籍,這將使中醫(yī)藥領(lǐng)域知識圖譜變得更加完善。但更多的古籍、更大規(guī)模的知識圖譜意味著更復(fù)雜的關(guān)系,在技術(shù)實現(xiàn)上也需要進一步探索。
3.2 中醫(yī)藥領(lǐng)域知識圖譜的發(fā)展 目前,知識圖譜的構(gòu)建包括知識抽取、知識融合、知識存儲等多種關(guān)鍵技術(shù)[16],但中醫(yī)知識圖譜構(gòu)建研究仍相對滯后,其中知識抽取難度相對較大[17]。知識抽取一般包括實體抽取和關(guān)系抽取。抽取方法基本可分為人工標(biāo)注和自動化抽取兩大類。人工標(biāo)注需要大量的人工工作和較高的專業(yè)水平。在當(dāng)今人工智能算法越來越火熱的背景下,大量研究者致力探究自動化的知識抽取方法,但所得結(jié)果仍需要專家對結(jié)果進行評估和修注,才能構(gòu)建完整知識圖譜以支撐后續(xù)的應(yīng)用研究[18]。此外,前期的訓(xùn)練數(shù)據(jù)集也需要大量的人工來完成實體標(biāo)注工作。
《靈樞》原文論述范圍廣泛,高度凝練,其實體在語句中的語法位置不穩(wěn)定,因而不管通過監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)還是深度學(xué)習(xí),《靈樞》相關(guān)知識在自動化實體抽取方面實現(xiàn)的效果都不夠理想。因此,本研究采取人工標(biāo)注方法,之后將在此基礎(chǔ)上,繼續(xù)進行自動抽取的探索。
總體來說,目前中醫(yī)藥領(lǐng)域內(nèi)的知識圖譜構(gòu)建,仍需要專業(yè)人士和機器學(xué)習(xí)算法協(xié)同配合完成。
3.3 《靈樞》知識圖譜的評估體系構(gòu)建 在其他領(lǐng)域知識圖譜中,實體與關(guān)系都有相對固定的模式,如“鐘南山”的職業(yè)是“醫(yī)生”,在人物、職業(yè)、國家、首都、地標(biāo)等方面都有比較完善的語料庫,可以用于知識圖譜的準(zhǔn)確性評估。而在中醫(yī)古籍領(lǐng)域,尚未有公開的相關(guān)語料庫,需要大量的領(lǐng)域?qū)<腋鶕?jù)自己的理解來構(gòu)建規(guī)則進行評估,這將耗費巨大的人力與時間。另外,中醫(yī)古籍知識圖譜的構(gòu)建,需要具備一定的評估體系,才能更好地優(yōu)化知識圖譜。因此,知識圖譜的智能化評估也將是今后探索的方向。