999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

《黃帝內經》文本語料庫的構建與應用研究*

2022-12-16 09:22:50石玉敬劉偉葛曉舒胡為劉弋蓮易洋
計算機時代 2022年12期
關鍵詞:深度效果方法

石玉敬,劉偉,葛曉舒,胡為,劉弋蓮,易洋

(1.湖南中醫藥大學信息科學與工程學院,湖南 長沙 410208;2.湖南中醫藥大學中醫學院)

0 引言

中醫古籍是中醫藥學“傳承精華,守正創新”的根脈。《黃帝內經》作為中醫古籍的經典之作,在中醫研究者的中醫學習和臨床實踐中都起到十分重要的作用。然而,古代漢語中單字詞、一詞多義的現象很多,且不同時期的中醫古籍也存在差異,導致對中醫古籍進行分析和挖掘變得十分困難。目前在中醫自然語言處理領域缺乏一些高質量的中醫古籍語料庫,如何構建優質中醫古籍語料庫以及基于語料庫進行數據挖掘,是中醫自然語言處理中的重要研究課題。本文將構建《黃帝內經》專用分詞、詞性標注語料庫并對其進行自動分詞研究,探究更高效、穩定、快速的中醫古籍分詞方法。

1 實驗數據

1.1 語料庫的構建與來源

本文以《黃帝內經》為初始語料,在湖南中醫藥大學醫史文獻教研室《醫古文》、《內經選讀》等課程的多名主講教師指導下,采用八位中醫學專業高年級本科生人工標注的156,507 字的《黃帝內經》全文作為初始研究語料庫。本文構建的語料庫是國內首個人工標注的集詞性標注和分詞一體的《黃帝內經》中醫古文語料庫,能夠給后續中醫古文分詞、命名實體識別和大規模中醫古籍語料庫的構建等一系列中醫自然語言處理研究工作奠定基礎。

2 分詞方法和研究背景

2.1 分詞研究背景

分詞是中文自然語言處理研究的重要組成部分之一。目前分詞處理的方法有三類,分別是基于詞典和規則的分詞方法、基于統計的分詞方法和基于深度學習的分詞方法。

文獻[1,2]采用基于詞典和規則的分詞方法,雖然使用取得了良好的效果,但是模型的泛化能力較差。由此可見基于規則和詞典的分詞方法有一定效果但是局限性較大。文獻[3,4]采用基于統計的方法進行分詞實驗均取得不錯的效果,這說明基于統計的方法,在語料庫相對較小的情況下,分詞結果較為出色。隨著硬件更新和算法的突破,基于神經網絡[5-7]的分詞方法已經是大勢所趨。文獻[8-10]使用了深度學習的分詞方法,分詞效果與非深度學習的方法相比,效果有了質的飛躍。由此可見,深度學習用于分詞領域的效果與其他方法相比具有較大的優越性。

2.2 預訓練模型

預訓練模型是在一個原始任務上預先訓練一個初始模型,然后在目標任務上使用該模型,針對目標任務的特性,對該初始模型進行精調,從而達到提高目標任務的目的。Google 在2018 年提出預訓練模型BERT[11](Bidirectional Encoder Representation from Transformers),BERT 一經推出便打破了各項自然語言處理任務的榜單,并廣泛應用于各個自然語言處理研究之中,許多后續研究一般也以BERT 模型為基礎進行改進。其中RoBERTa-wwm[12]是最出色的改進模型之一,RoBERTa-wwm 與BERT 相比具有兩方面優勢,第一是RoBERTa預訓練模型具有更大的訓練集的優越性,第二是基于全詞掩碼的中文訓練方式,能夠有效提高自然語言處理任務的準確率。因此本文選擇RoBERTa-wwm 模型代替BERT 模型進行分詞研究。

2.3 BiLSTM-CRF

BiLSTM 層的輸出是一個概率矩陣,這個概率矩陣由BiLSTM 基于每個時刻上的最優結果得到,但是這樣輸出的標簽并沒有把前一個標簽對后一個標簽的影響考慮進去。例如,假如輸入序列中出現了“黃帝”一詞,其中“黃”為詞首,“帝”為詞尾,模型有可能將“黃”和“帝”都預測為詞首,而根據標注規則詞首之后只能出現詞中和詞尾,所以這明顯不符合分詞標注規則。針對這種情況,文獻[13]在BiLSTM 層后引入CRF(Conditional Random Field)層,CRF 層通過隨機變量作為輸入來輸出隨機變量的條件概率分布的一種算法。對于標簽分類問題,CRF 由于能夠充分考慮標簽與標簽之間的依賴關系,從而避免標注偏置問題。其整體結構如圖1所示。

圖1 BiLSTM-CRF模型結構圖

2.4 RoBERTa-wwm-BiLSTM-CRF

綜上所述,深度學習方法作為在分詞領域更好的方法,而預訓練模型在其他自然語言處理的應用都十分廣泛且效果更好,而使用預訓練模型進行分詞鮮有人研究,因此本文將相較BERT 模型表現更好的預訓練模型RoBERTa-wwm 與深度學習模型BiLSTMCRF(Bidirectional Long Short Term.Memory-Conditional Random Fields)結合,構建RoBERTawwm-BiLSTM-CRF 模型,創新性地將這一模型引入到分詞研究之中,并與當前主流分詞算法進行對比,探究更準確的中醫古籍分詞方法,從而驗證本文方法的優越性。

3 實驗與分析

3.1 評測標準

常用的用于評價分詞效果的性能統計參數包括真陽性(True Positive,TP),假陽性(False Positive,FP),真陰性(True Negatives,TN),假陽性(False Negative,FN),精確率(Precision,P=TP/(TP+FP))和召回率(Recall,R=TP/(TP+FN))以及F1值(F1-mesure,F1=2×P×R)/(P+R))。由于F1 值較為客觀全面地描述了分詞準確性,所以本文主要采用F1值作為模型性能的評判標準。

3.2 超參數設置

BERT模型為BERT-Base-Chinese版本,RoBERTawwm 版本為RoBERTa-wwm-ext-Chinese,實驗相關超參數設置如表1所示。

表1 實驗超參數取值表

3.3 分詞實驗設計

本文將《黃帝內經》語料庫中的80%作為訓練集,20%作為測試集。使用CRF、HMM、BiLSTM-CRF、BERT-BiLSTM-CRF、RoBERTa-wwm-BiLSTM-CRF算法來進行對比實驗。此外,為了體現本文所構建的《黃帝內經》語料庫并基于此語料庫構建的分詞模型在中醫古籍分詞方面的優越性,同時與第三方古文分詞庫“甲言”進行實驗結果對比。各模型在《黃帝內經》語料庫上的識別效果如表2所示。

表2 分詞效果對比表

3.4 實驗結果分析

從表2可以看出,CRF的效果明顯優于HMM。因為CRF 通過計算全局最優輸出節點的條件概率來得到全局最優,而HMM 得到的可能是局部最優。CRF概率歸一化較為合理,HMM 可能會導致標簽偏置問題。綜上所述,CRF 的分詞效果明顯好于HMM。“甲言”利用HMM 算法進行分詞,由于其語料庫包含部分中醫古籍,所以分詞效果好于HMM 模型,但是不及CRF與深度學習模型。

而深度學習分詞準確率明顯高于傳統機器學習方法,這是因為BERT 和BiLSTM 對字符的特征的提取有著優秀的性能,能夠學習到更多的文本特征,故深度學習與機器學習方法相比優勢較為明顯。BERT-BiLSTM-CRF 的分詞效果優于BiLSTM-CRF。是由于BiLSTM 使用word2vec 訓練詞向量,該方法會受到未登錄詞的影響。針對于本文使用的領域特征明顯的中醫古籍,大部分中醫相關詞匯出現次數不多,導致了word2vec 模型進分詞的受影響程度較大,而BERT 使用基于字的編碼方式,細化了編碼單元,極大地避免了未登錄詞的影響,同時借助于大量無監督語料的訓練所以算法性能優于BILSTM。而RoBERTa-wwm-BiLSTM-CRF 模型效果最佳,這是由于RoBERTa-wwm 與BERT 相比,有更大的模型參數量、更大bacth size、更多的訓練數據,同時RoBERTa-wwm 模型將BERT字符級掩碼替換為詞級掩碼,可進一步提升分詞能力。所以RoBERTa-wwm-BiLSTM-CRF 明顯優于其他分詞模型,這也充分證明其優越性。

4 結束語

本文首先構建了國內首個《黃帝內經》人工標注的集命名實體、詞性標注和分詞一體的中醫古文語料庫,為后續構建大規模中醫古籍語料庫奠定基礎。此外,本文對《黃帝內經》進行系統性分詞研究,為今后《黃帝內經》的智能分析和知識提取研究提供參考。

在分詞研究方面,本文系統研究和比較了不同算法下《黃帝內經》中的分詞效果。實驗結果表明,RoBERTa-wwm-BiLSTM-CRF 分詞的效果最佳。與以往最佳研究相比,P 值、R 值和F1 值分別提高了1.54%、1.16%和1.35%。本文所提方法解決了中醫古籍分詞識別效果一般的現狀,但是由于古文中存在大量單字詞等問題,這導致中醫古籍分詞研究與現代文分詞研究相比還存在差距。同時,深度學習模型的好壞與標注語料庫大小密切相關,在后續研究中還將繼續增加人工標注的訓練語料,從而使得中醫古籍分詞效果更好。

中醫古籍語料庫的構建和中文分詞研究只是中醫自然語言處理的基礎性工作。后續將會基于分詞結果開展《黃帝內經》的命名實體識別研究和知識圖譜的構建研究,同時加強中醫古籍文本語料庫的建設,并構建中醫古籍專用分詞詞典和中醫古籍專用詞向量,深入挖掘和抽取蘊含在中醫古籍中的知識和經驗。

猜你喜歡
深度效果方法
按摩效果確有理論依據
深度理解一元一次方程
迅速制造慢門虛化效果
深度觀察
深度觀察
深度觀察
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 自拍偷拍欧美日韩| 精品成人一区二区三区电影 | 中文字幕在线播放不卡| 欧美一区二区人人喊爽| 黄色免费在线网址| 欧美亚洲国产视频| 四虎国产在线观看| 朝桐光一区二区| 成人免费视频一区| 欧美另类精品一区二区三区| 色综合久久88色综合天天提莫| 2018日日摸夜夜添狠狠躁| 久久国产精品电影| 国产精品 欧美激情 在线播放| 欧美一区二区福利视频| 国产99欧美精品久久精品久久| 国产一区二区三区视频| 嫩草影院在线观看精品视频| 日韩二区三区无| 九九九精品视频| 91原创视频在线| 国产第一页第二页| 亚洲第一在线播放| 亚洲综合狠狠| 国产激爽大片在线播放| 欧美日韩国产一级| 久久国产成人精品国产成人亚洲 | 亚洲av无码人妻| 欧美亚洲国产一区| 亚洲天堂网在线播放| 亚洲人成色77777在线观看| 综合天天色| 久久人妻xunleige无码| 在线不卡免费视频| 国产99欧美精品久久精品久久| 亚洲欧美色中文字幕| 性视频一区| 最近最新中文字幕在线第一页| 久久婷婷国产综合尤物精品| 日本五区在线不卡精品| 成人午夜天| 久久久久无码精品| 在线观看国产精品日本不卡网| 无码精品国产dvd在线观看9久| 成人精品免费视频| 婷婷色中文网| 亚洲无码精品在线播放| 日本亚洲成高清一区二区三区| 99精品欧美一区| 亚洲aⅴ天堂| av一区二区三区在线观看| 四虎亚洲国产成人久久精品| 午夜国产大片免费观看| 在线看片免费人成视久网下载| 欧美成人国产| 欧美在线视频不卡| 9cao视频精品| 日韩一级毛一欧美一国产| 亚洲精品动漫| 中国一级毛片免费观看| 激情亚洲天堂| 高清码无在线看| 亚洲一区二区约美女探花| 97se亚洲| 一级福利视频| 91无码国产视频| 狼友视频一区二区三区| 免费毛片网站在线观看| 亚洲精品成人片在线播放| 国产情侣一区二区三区| 午夜福利视频一区| 久久九九热视频| 久久性视频| 麻豆国产精品| 亚洲自拍另类| 欧美天天干| 国产男人的天堂| 热热久久狠狠偷偷色男同| 国产靠逼视频| 制服丝袜一区二区三区在线| 丝袜高跟美脚国产1区| 成人小视频在线观看免费|