石玉敬,劉偉,葛曉舒,胡為,劉弋蓮,易洋
(1.湖南中醫藥大學信息科學與工程學院,湖南 長沙 410208;2.湖南中醫藥大學中醫學院)
中醫古籍是中醫藥學“傳承精華,守正創新”的根脈。《黃帝內經》作為中醫古籍的經典之作,在中醫研究者的中醫學習和臨床實踐中都起到十分重要的作用。然而,古代漢語中單字詞、一詞多義的現象很多,且不同時期的中醫古籍也存在差異,導致對中醫古籍進行分析和挖掘變得十分困難。目前在中醫自然語言處理領域缺乏一些高質量的中醫古籍語料庫,如何構建優質中醫古籍語料庫以及基于語料庫進行數據挖掘,是中醫自然語言處理中的重要研究課題。本文將構建《黃帝內經》專用分詞、詞性標注語料庫并對其進行自動分詞研究,探究更高效、穩定、快速的中醫古籍分詞方法。
本文以《黃帝內經》為初始語料,在湖南中醫藥大學醫史文獻教研室《醫古文》、《內經選讀》等課程的多名主講教師指導下,采用八位中醫學專業高年級本科生人工標注的156,507 字的《黃帝內經》全文作為初始研究語料庫。本文構建的語料庫是國內首個人工標注的集詞性標注和分詞一體的《黃帝內經》中醫古文語料庫,能夠給后續中醫古文分詞、命名實體識別和大規模中醫古籍語料庫的構建等一系列中醫自然語言處理研究工作奠定基礎。
分詞是中文自然語言處理研究的重要組成部分之一。目前分詞處理的方法有三類,分別是基于詞典和規則的分詞方法、基于統計的分詞方法和基于深度學習的分詞方法。
文獻[1,2]采用基于詞典和規則的分詞方法,雖然使用取得了良好的效果,但是模型的泛化能力較差。由此可見基于規則和詞典的分詞方法有一定效果但是局限性較大。文獻[3,4]采用基于統計的方法進行分詞實驗均取得不錯的效果,這說明基于統計的方法,在語料庫相對較小的情況下,分詞結果較為出色。隨著硬件更新和算法的突破,基于神經網絡[5-7]的分詞方法已經是大勢所趨。文獻[8-10]使用了深度學習的分詞方法,分詞效果與非深度學習的方法相比,效果有了質的飛躍。由此可見,深度學習用于分詞領域的效果與其他方法相比具有較大的優越性。
預訓練模型是在一個原始任務上預先訓練一個初始模型,然后在目標任務上使用該模型,針對目標任務的特性,對該初始模型進行精調,從而達到提高目標任務的目的。Google 在2018 年提出預訓練模型BERT[11](Bidirectional Encoder Representation from Transformers),BERT 一經推出便打破了各項自然語言處理任務的榜單,并廣泛應用于各個自然語言處理研究之中,許多后續研究一般也以BERT 模型為基礎進行改進。其中RoBERTa-wwm[12]是最出色的改進模型之一,RoBERTa-wwm 與BERT 相比具有兩方面優勢,第一是RoBERTa預訓練模型具有更大的訓練集的優越性,第二是基于全詞掩碼的中文訓練方式,能夠有效提高自然語言處理任務的準確率。因此本文選擇RoBERTa-wwm 模型代替BERT 模型進行分詞研究。
BiLSTM 層的輸出是一個概率矩陣,這個概率矩陣由BiLSTM 基于每個時刻上的最優結果得到,但是這樣輸出的標簽并沒有把前一個標簽對后一個標簽的影響考慮進去。例如,假如輸入序列中出現了“黃帝”一詞,其中“黃”為詞首,“帝”為詞尾,模型有可能將“黃”和“帝”都預測為詞首,而根據標注規則詞首之后只能出現詞中和詞尾,所以這明顯不符合分詞標注規則。針對這種情況,文獻[13]在BiLSTM 層后引入CRF(Conditional Random Field)層,CRF 層通過隨機變量作為輸入來輸出隨機變量的條件概率分布的一種算法。對于標簽分類問題,CRF 由于能夠充分考慮標簽與標簽之間的依賴關系,從而避免標注偏置問題。其整體結構如圖1所示。

圖1 BiLSTM-CRF模型結構圖
綜上所述,深度學習方法作為在分詞領域更好的方法,而預訓練模型在其他自然語言處理的應用都十分廣泛且效果更好,而使用預訓練模型進行分詞鮮有人研究,因此本文將相較BERT 模型表現更好的預訓練模型RoBERTa-wwm 與深度學習模型BiLSTMCRF(Bidirectional Long Short Term.Memory-Conditional Random Fields)結合,構建RoBERTawwm-BiLSTM-CRF 模型,創新性地將這一模型引入到分詞研究之中,并與當前主流分詞算法進行對比,探究更準確的中醫古籍分詞方法,從而驗證本文方法的優越性。
常用的用于評價分詞效果的性能統計參數包括真陽性(True Positive,TP),假陽性(False Positive,FP),真陰性(True Negatives,TN),假陽性(False Negative,FN),精確率(Precision,P=TP/(TP+FP))和召回率(Recall,R=TP/(TP+FN))以及F1值(F1-mesure,F1=2×P×R)/(P+R))。由于F1 值較為客觀全面地描述了分詞準確性,所以本文主要采用F1值作為模型性能的評判標準。
BERT模型為BERT-Base-Chinese版本,RoBERTawwm 版本為RoBERTa-wwm-ext-Chinese,實驗相關超參數設置如表1所示。

表1 實驗超參數取值表
本文將《黃帝內經》語料庫中的80%作為訓練集,20%作為測試集。使用CRF、HMM、BiLSTM-CRF、BERT-BiLSTM-CRF、RoBERTa-wwm-BiLSTM-CRF算法來進行對比實驗。此外,為了體現本文所構建的《黃帝內經》語料庫并基于此語料庫構建的分詞模型在中醫古籍分詞方面的優越性,同時與第三方古文分詞庫“甲言”進行實驗結果對比。各模型在《黃帝內經》語料庫上的識別效果如表2所示。

表2 分詞效果對比表
從表2可以看出,CRF的效果明顯優于HMM。因為CRF 通過計算全局最優輸出節點的條件概率來得到全局最優,而HMM 得到的可能是局部最優。CRF概率歸一化較為合理,HMM 可能會導致標簽偏置問題。綜上所述,CRF 的分詞效果明顯好于HMM。“甲言”利用HMM 算法進行分詞,由于其語料庫包含部分中醫古籍,所以分詞效果好于HMM 模型,但是不及CRF與深度學習模型。
而深度學習分詞準確率明顯高于傳統機器學習方法,這是因為BERT 和BiLSTM 對字符的特征的提取有著優秀的性能,能夠學習到更多的文本特征,故深度學習與機器學習方法相比優勢較為明顯。BERT-BiLSTM-CRF 的分詞效果優于BiLSTM-CRF。是由于BiLSTM 使用word2vec 訓練詞向量,該方法會受到未登錄詞的影響。針對于本文使用的領域特征明顯的中醫古籍,大部分中醫相關詞匯出現次數不多,導致了word2vec 模型進分詞的受影響程度較大,而BERT 使用基于字的編碼方式,細化了編碼單元,極大地避免了未登錄詞的影響,同時借助于大量無監督語料的訓練所以算法性能優于BILSTM。而RoBERTa-wwm-BiLSTM-CRF 模型效果最佳,這是由于RoBERTa-wwm 與BERT 相比,有更大的模型參數量、更大bacth size、更多的訓練數據,同時RoBERTa-wwm 模型將BERT字符級掩碼替換為詞級掩碼,可進一步提升分詞能力。所以RoBERTa-wwm-BiLSTM-CRF 明顯優于其他分詞模型,這也充分證明其優越性。
本文首先構建了國內首個《黃帝內經》人工標注的集命名實體、詞性標注和分詞一體的中醫古文語料庫,為后續構建大規模中醫古籍語料庫奠定基礎。此外,本文對《黃帝內經》進行系統性分詞研究,為今后《黃帝內經》的智能分析和知識提取研究提供參考。
在分詞研究方面,本文系統研究和比較了不同算法下《黃帝內經》中的分詞效果。實驗結果表明,RoBERTa-wwm-BiLSTM-CRF 分詞的效果最佳。與以往最佳研究相比,P 值、R 值和F1 值分別提高了1.54%、1.16%和1.35%。本文所提方法解決了中醫古籍分詞識別效果一般的現狀,但是由于古文中存在大量單字詞等問題,這導致中醫古籍分詞研究與現代文分詞研究相比還存在差距。同時,深度學習模型的好壞與標注語料庫大小密切相關,在后續研究中還將繼續增加人工標注的訓練語料,從而使得中醫古籍分詞效果更好。
中醫古籍語料庫的構建和中文分詞研究只是中醫自然語言處理的基礎性工作。后續將會基于分詞結果開展《黃帝內經》的命名實體識別研究和知識圖譜的構建研究,同時加強中醫古籍文本語料庫的建設,并構建中醫古籍專用分詞詞典和中醫古籍專用詞向量,深入挖掘和抽取蘊含在中醫古籍中的知識和經驗。