999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于預訓練模型及條件隨機場的中醫醫案命名實體識別

2023-10-09 14:41:00吳佳澤李坤寧陳明
中醫藥信息 2023年9期
關鍵詞:文本模型

吳佳澤,李坤寧,陳明

(北京中醫藥大學中醫學院,北京 102488)

中醫醫案是中醫臨床醫師實施辨證論治過程的文字記錄,是保存、核查、考評乃至研究具體診療活動的檔案資料[1]。誠如章太炎先生所言:“中醫之成績,醫案最著。欲求前人之經驗心得,醫案最有線索可尋。[2]”作為中醫學的重要組成部分,中醫醫案不僅是中醫師臨床診療疾病的第一手資料,而且在臨證經驗及學術思想傳承的過程中發揮著不可替代的作用。自2 000 多年前西漢淳于意寫就《診籍》始[3],歷代醫家所著醫案汗牛充棟,僅清朝就存有醫案專著200 余種,個案則不計其數[4]。不同于現代醫學的病歷,中醫醫案專注于四診資料的采集和對病因病機的分析,蘊理、法、方、藥于其中[5],并以辨證思路為核心,夾錄夾論[6]。綜上,中醫醫案作為中醫理論與實踐的重要載體,其中蘊含著豐富的理論價值與研究價值,亟待梳理與挖掘,但因歷代醫案數量眾多、醫家著錄有其個人特點,缺乏規范化與標準化[7]、傳統機器學習方法難以處理自然語言等原因,目前對中醫醫案的數據挖掘研究尚少[8]。

對紛繁復雜的中醫醫案進行數據挖掘需首要解決的便是命名實體識別(named entity recognition, NER)問題。 NER 是自然語言處理(natural language processing,NLP)領域中的一項重要任務,其目的是識別出文本中表示命名實體的成分并對其進行分類[9]。近年來,隨著神經網絡的發展,對NER 的研究愈來愈多,識別效果也越來越好,但對中醫醫案的NER 研究甚少,大多采用基于傳統機器學習的條件隨機場(CRF)、支持向量機(SVM)等方法,或者基于神經網絡的雙向LSTM-CRF(BiLSTM-CRF)方法[10]。在對文本的表征能力方面,LSTM神經網絡雖然強于傳統機器學習方法,但其結構尚簡,訓練集規模及訓練時間尚不足,效果欠佳,仍需繼續優化。本文基于預訓練模型BERT 的變體RoBERTa 及CRF 構建神經網絡,并通過遷移學習在中醫醫案訓練集上進行微調(Fine-tune)以處理下游任務NER,可較大提升中醫醫案命名實體識別的效果。

1 材料

1.1 預訓練模型

BERT(bidirectional encoder representation from transformers)是由Google 于2018 年提出的一種預訓練模型,其基于Transformer,主要用于解決NLP領域的效率難題[11]。BERT提出之前,NLP領域多使用前饋神經網絡語言模型(feedForward neural network language models, FFNNLM)[12],循環神經網絡語言模型(recurrent neural network language models, RNNLM)[13]以及 ELMo(embeddings from language models)[14]。FFNNLM 中的嵌入層通過CBOW 或Skip-Gram[15]的方式將文本轉為詞向量,然后將前n-1 個詞的詞向量作為表征去預測第n 個詞,并以此訓練神經網絡得到詞向量權重,進而解決NLP 問題。FFNNLM 解決了自然語言稀疏性的問題,同時模型也具有一定的泛化能力,但FFNNLM 并未充分考慮文本的上下文語義,也未考慮文本的時序問題;RNNLM 同樣使用嵌入層將文本轉為詞向量并進行訓練,但其通過時序神經網絡解決了文本的時序問題,效果較FFNNLM 更優。經典RNN 在訓練時容易產生梯度消失或梯度爆炸問題,因此后續又誕生了其改進型LSTM(long short-term memory)神經網絡[16]。無論是經典RNN 還是LSTM 神經網絡,二者都未充分考慮文本的上下文語義,并且都是單一時序,即通過前n-1個詞的詞向量去預測第n個詞,未考慮后續文本,這與人類認知不符,因此訓練而得的詞向量權重也有所偏頗;在FFNNLM 和RNNLM 的基礎上,又提出了ELMo,ELMo 使用前向和后向兩個彼此獨立的多層LSTM 提取文本特征,最終的文本表征由詞向量和末層LSTM 通過平均加權共同決定,因此可獲得上下文淺層相關的文本語義。但是ELMo 的雙向LSTM 是由兩個LSTM 通過淺層拼接而成,前向和后向LSTM 之間彼此獨立,沒有聯系,所以ELMo 只能提取上下文的淺層信息,并未完全利用到上下文的深層信息。無論是FFNNLM、RNNLM 還是ELMo,均為有監督學習,其訓練集都需進行人工標注,這決定了其采用的語料及訓練規模不會很大,相當程度上限制了其文本表征能力。

BERT 是第一個采用無監督、深度雙向機制的NLP 預訓練模型。BERT 整體是一個自編碼語言模型(auto-encoding language models),即預訓練表征模型,其不同于FFNNLM、RNNLM 和ELMo 采用單向神經網絡或雙向神經網絡淺層拼接的方式進行訓練,而是采用新的MLM(masked language model)和NSP(next sentence prediction)訓練方式,以生成深度雙向的文本表征。BERT 主要使用Transformer 的編碼器(Encoder)部分,舍棄了解碼器(Decoder)部分,并且采用雙向Transformer,故其特征融合方式較ELMo 采用的淺層拼接雙向LSTM 的方式更優。除此之外,Transformer還可通過自注意力機制(self-attention)實現并行計算,計算速度較RNNLM 和ELMo 更快[17]。同時,由于是無監督學習,BERT 可采用海量語料構建超大規模的訓練集,故其對文本的表征能力遠超RNNLM 和ELMo。預訓練后的BERT 僅需微調就可應用于各種下游任務,可大大提高神經網絡模型在NLP 領域的性能。

后續BERT又衍生出了諸多變體,如ALBERT[18]和RoBERTa[19]等,各自從不同角度對BERT 進行了優化。ALBERT 通過采用跨層參數共享、易NSP 為SOP(sentence order prediction)、嵌入參數分解三項策略,在基本保持性能的同時,大大簡化了模型結構,使預訓練模型更加實用;RoBERTa 通過采用精細調參、易靜態掩碼為動態掩碼,使用全長度序列(full-sentences)、取消NSP 等策略,并以更大的批處理量(batch size)在更大規模的語料上訓練更長時間,獲得了對文本更強的表征能力。

1.2 條件隨機場

條件隨機場(conditional random field,CRF) 是在一組隨機輸入變量條件下另一組隨機輸出變量的條件概率分布模型[20]。

在NER 任務中,LSTM 或BERT 等預訓練模型可通過神經網絡的非線性擬合能力于上下文中學習文本語義,最后計算出每個字符(token)所對應命名實體標簽的概率,而CRF是通過統計歸一化的條件狀態轉移概率矩陣預測命名實體標簽的概率,因此CRF可以學習到標簽間的依賴關系[21]。如B-NAME 標簽后通常緊跟INAME標簽,而不是I-AGE或其他標簽,又如每個命名實體都是由B-X起,以I-X結束,反之則誤。LSTM或BERT等預訓練模型對命名實體標簽間的依賴關系感知較弱,故可通過CRF對命名實體標簽間的轉移關系建模以彌補神經網絡的不足,進一步提升模型性能。

2 模擬實驗

首先通過預處理對醫案中的命名實體進行人工標注后導出數據集,并劃分訓練集和驗證集;然后依據NER 任務調整預訓練模型的輸入層和輸出層以構建神經網絡,之后將訓練集經分詞器(Tokenizer)輸入神經網絡進行微調;最后通過驗證集對模型進行評估。實驗步驟見圖1。

圖1 實驗步驟

2.1 數據集

數據集選自《劉渡舟臨證驗案精選》[22],原因有二,其一是劉渡舟教授治學嚴謹,辨證準確,且善于抓主證,用藥不蔓不枝,所錄醫案具有代表性;其二是該書編著精良,所錄醫案分屬疾病類別達131 種之多,分布廣泛,并且記載詳略得當、簡明扼要,用詞精當切要,文筆雋永流暢,主訴、癥狀、舌脈等四診材料及所用方藥記錄齊全、規范、標準,適宜作為NER研究的原始文本。

2.2 預處理

首先使用ABBYY FineReader[23]通過OCR 技術將不可編輯的醫案PDF文件轉為可編輯的Word文件;然后對照原始文本,人工校正轉換后的Word 文件,將遺漏、亂碼等錯誤之處更正;最后將校正后的文件導入label-studio 以“BIO 三元標注法”進行命名實體標注。共標注10 類命名實體,分別為姓名(NAME)、性別(GEND)、年齡(AGE)、癥狀(SYM)、舌象(TON)、脈象(VEI)、辨證(PAT)、治法(TRE)、方劑(FOR)、中藥及用量(MED),其中B-X 為命名實體起始,I-X 為命名實體中間或結束,O為非命名實體。本實驗共選取100則醫案,經數據清洗后共整理出568 條人工標注文本,為避免模型訓練時發生過擬合,按8∶2 比例劃分為訓練集和驗證集。見圖2。

圖2 命名實體人工標注

2.3 神經網絡模型

本實驗采用BERT、RoBERTa 和ALBERT 作為預訓練模型來評估其在中醫醫案命名實體識別中的性能表現,其中BERT 和RoBERTa 選用哈工大訊飛聯合實驗室的預訓練模型[24],ALBERT 選用UER 團隊[25]和CKIPLab團隊的預訓練模型。

模型由輸入層、預訓練模型、全連接層及CRF層構成。輸入文本會由預訓練模型的分詞器添加“[CLS]”“[SEP]”標識符,并轉為詞向量作為神經網絡的輸入;輸入向量經預訓練模型和全連接層后輸出各字符對應命名實體標簽的發射分數;CRF對發射分數建模并提取標簽間的特征關系,最終解碼出各字符最佳對應的命名實體標簽,完成命名實體識別任務。BERT 及其變體的模型規模見表1;基于BERT 及其變體構建的神經網絡模型見圖3。

圖3 神經網絡模型

CRF 是處理序列標注問題的經典方法,從張汝佳等[26]對中文命名實體識別的研究來看,CRF 已廣泛應用于各種NER 模型。除傳統機器學習外[27],在深度學習中也通常將LSTM、GRU、Transformer 等與CRF 結合以提高模型性能。BERT 提出后,也有研究將BERT 與CRF 相結合,但模型性能提升并不大[28],甚至還會降低,究其原因,在于預訓練模型與CRF 的學習率不對等。BERT 等預訓練模型經大規模語料長時間學習后,其擬合能力遠勝LSTM 等神經網絡,在針對下游任務進行微調時,模型通常只需很小的學習率,經過2~3 個epoch 后就能收斂到最優,若CRF 以同樣學習率進行訓練,則不能收斂到最優,故其對模型性能的提升貢獻不大。對于此問題,可通過分層設置學習率的方法解決,BERT 等預訓練模型應用較小學習率,CRF 應用較大學習率,以達到最佳擬合效果。圖4 所示為當BERT-wwm 應用學習率5 × 10-5,CRF 應用不同學習率訓練時NER的準確率,可以看出,當CRF學習率為5 × 10-3時(與BERT-wwm學習率相差100倍),準確率開始有較大提高,當CRF 學習率為5 × 10-2時(與BERT-wwm 學習率相差1 000 倍),準確率達到最高。結果表明,增加CRF 層并設置恰當的分層學習率,可在BERT 等預訓練模型極強擬合能力的基礎上彌補其不足0。

圖4 CRF應用不同學習率訓練時NER的準確率

3 結果

本實驗的評價包含準確率(Accuracy, 2)、精確率(Precision,3)、召回率(Recall,4)、F1 分數(F1 score,5)四項指標,公式如下:

基于CRF 及不同預訓練模型的各神經網絡對NER 的四項整體評價指標??梢钥闯?,對于各預訓練模型,使用CRF 后,四項指標均有不同程度的提高,特別是ALBERT-base-chinese,提高幅度最大,尤以精確率為甚,提高了44.14%,而RoBERTa-wwm-extlarge 則只提高了2.20%。表明CRF 可以較好地學習到命名實體標簽間的依賴關系,糾正標簽間的錯誤排列順序;同時也表明BERT、RoBERTa等結構更復雜、語料規模更大、訓練時間更長的預訓練模型對文本特征的提取能力更強,CRF 對其性能的提升較微,但對于ALBERT 等結構較簡單的預訓練模型有較好的優化效果。見圖5和表2。

表2 樣本預測集合

圖5 各神經網絡及CRF有無對NER的四項整體評價指標

在BERT、ALBERT 和RoBERTa 三類預訓練模型中,RoBERTa 的評價最優,特別是RoBERTa-wwmext-large,在CRF 的加持下,其準確率比ALBERTbase-chinese 高5.71%,精確率高10.47%,召回率高11.85%,F1 分數高11.16%,表明RoBERTa 采用的訓練方式更優,參數更佳,對于下游任務有更強的泛化能力,同時更大的數據批處理量和更大規模的語料也大大強化了其性能。

各命名實體的F1 分數是對基于CRF 及不同預訓練模型的各神經網絡評估而得,可以看出,BERTwwm、 BERT-wwm-ext、 RoBERTa-wwm-ext、RoBERTa-wwm-ext-large 的 F1 分 數 接 近 ,ALBERT-base-chinese-cluecorpussmall、ALBERTbase-chinese 的F1 分數接近,且后者對于SYM(癥狀)、PAT(辨證)、TRE(治療)和FOR(方劑)命名實體的F1 分數大幅低于前者。BERT 和RoBERTa 對于NAME(姓名)、GEND(性別)、AGE(年齡)、TON(舌象)、VEI(脈象)、TRE(治療)和MED(中藥及用量)命名實體的F1 分數較高,尤其是RoBERTawwm-ext-large,對各命名實體的識別均為最優。見圖6。

圖6 各命名實體的F1分數

4 討論

命名實體識別對于中醫醫案的數據挖掘具有重要意義。作為中醫學術的一次文獻,中醫醫案不僅是疾病治療過程的再現,而且蘊含著醫家的學術思想和辨證論治藝術,在文獻學、方法學及臨床方面均有重要意義[29]。但中醫醫案同樣也有數量眾多、個性化與非標準化、自然語言屬性難以量化等問題存在[30],因此對中醫醫案命名實體的識別就成了首要任務,也是對其進行高價值數據挖掘的前提。與圖像、語音等信息不同,同屬人類認知范疇的自然語言因沒有明顯的抽象分層及難以表征等問題存在,若想取得較好效果,根本上就需要層次更深的神經網絡,以及規模更大的訓練集[31]。因此,本文提出利用預訓練模型及CRF 構建結構更復雜的神經網絡,預訓練模型是在大規模語料上長時間訓練而來,故其對文本的上下文語義特征提取能力極強,同時使用CRF處理命名實體標簽間的依賴關系。

本文通過BERT、RoBERTa、ALBERT 三類六種預訓練模型及CRF 對中醫醫案NER 實驗后的結果表明,通過設置恰當的分層學習率,在遷移學習中CRF 就能較好地與預訓練模型融合以提取命名實體標簽特征,或多或少地優化模型性能,尤其是對于層次相對較淺的ALBERT,其F1 分數至多可提高44.14%,由于BERT 和RoBERTa 結構本就復雜,文本特征提取能力較強,故CRF 對其模型優化效果不明顯。在預訓練模型中,RoBERTa-wwm-ext-large 的性能最優,其準確率可達99.33%,精確率可達98.24%,召回率可達98.51%,F1 分數可達98.38%,對于10 類命名實體,其對NAME(姓名)、GEND(性別)、AGE(年齡)、TRE(治療)、MED(中藥及用量)的識別最優,F1 分數可達100%,其次是TON(舌象)、VEI(脈象)、PAT(辨證),F1分數分別為98.67%、98.70%、96.73%,對SYM(癥狀)和FOR(方劑)的識別略差,F1 分數分別為95.65%、92.31%。通過分析結果可以得出,RoBERTa通過精細調參、利用更加充分的訓練過程及更大規模的訓練集等措施,大大提升了模型性能[32]。

本文提出的神經網絡模型與既往研究的對比見表3。高佳奕等[33]單純使用CRF 進行命名實體識別研究,F1 分數僅為85.56%,遠低于本文的98.38%,且CRF無法處理文本的上下文語義及序列較長的命名實體,而RoBERTa 通過Transformer 以及全長度序列訓練模式解決了該問題,因此其效果大幅優于單純使用CRF。除此之外,高氏等僅對肺癌醫案中的癥狀進行了命名實體識別研究,這導致醫案和命名實體類別較單一,模型泛化能力較弱;羊艷玲等[34]和高佳奕等[35]均基于BiLSTM-CRF 神經網絡進行命名實體識別研究,其F1分數分別為82.32%和85.94%,高佳奕等采用了Peephole 機制,故其模型性能相比羊氏等的模型較優,但二者均不及本文提出的RoBERTa-CRF 神經網絡。此外,羊艷玲等的模型F1分數不及前者高氏等單純使用CRF,究其原因,在于高氏等對數據的預處理較為細致,去除了冗余信息,特征較為單一,僅包含癥狀(名)、(癥狀)程度、(癥狀發生)部位。再者,二者均可識別多個命名實體,模型泛化能力較單純使用CRF 也有所提升;胡為等[36]基于BERT-BiLSTM-CRF 神經網絡進行命名實體識別研究,其F1 分數為90.04%,并且可識別六類命名實體,可見預訓練模型對神經網絡性能的提升是巨大的,而本文的實驗結果表明,將BERT 改為RoBERTa,并調整恰當的分層學習率,可再將F1 分數提高8.34%。并且RoBERTa 是對BERT 各項改進而來,其訓練規模遠超BERT,并且Transformer 的上下文特征提取能力強于LSTM,因此LSTM 對RoBERTa 的性能提升微乎其微,在本文構建的神經網絡中,顧及計算資源和訓練時間,遂將其舍去。

表3 本文提出的神經網絡模型與既往研究情況對比

5 結論

本文探討了BERT、RoBERTa、ALBERT 三類六種預訓練模型及CRF 對中醫醫案命名實體識別的性能表現,結果表明,對于ALBERT這類結構相對簡單的預訓練模型,CRF 能有效地處理命名實體標簽間的依賴關系,大幅提升模型性能,而對于BERT和RoBERTa這類結構相對復雜的預訓練模型則收效甚微;并且得益于訓練方法的改進和訓練規模的擴大,RoBERTa 對文本的表征能力較BERT 更強。通過與既往研究的對比,本文構建的神經網絡對中醫醫案命名實體識別的F1 分數高達98.38%,比效果最好的方法提高了8.34%,并且可識別10 類命名實體,解決了中醫醫案命名實體識別效率一般的問題,為后續對中醫醫案的高價值數據挖掘奠定了堅實基礎。

預訓練模型雖然性能強大,但其訓練過程需耗費巨量計算資源及時間,門檻較高,不利于科研人員訓練自己的預訓練模型,因此需進一步探尋如何在保持模型性能的前提下降低訓練門檻[37]。后續研究應著眼于對本文神經網絡的優化,進一步提高對癥狀(SYM)、辨證(PAT)和方劑(FOR)命名實體的識別效果,同時還需擴大樣本量,利用數量更多、類別更廣泛的醫案訓練數據識別更多的命名實體,進一步提高模型的泛化能力。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 久久不卡精品| 99久视频| 欧美精品v欧洲精品| 亚洲最黄视频| 在线观看免费国产| 午夜视频在线观看免费网站| 欧美三级不卡在线观看视频| 亚洲AV一二三区无码AV蜜桃| 91久久国产综合精品女同我| 日本不卡在线播放| 国产av一码二码三码无码 | 成人一区专区在线观看| 亚洲无限乱码| 制服丝袜一区| 亚洲Av综合日韩精品久久久| 国产美女91呻吟求| 综合人妻久久一区二区精品| 国产青榴视频在线观看网站| 亚洲色欲色欲www在线观看| 蝴蝶伊人久久中文娱乐网| 中文字幕在线日韩91| 国产精品女同一区三区五区| 激情亚洲天堂| 亚洲国产天堂久久九九九| 成人无码区免费视频网站蜜臀| 国产成人久久777777| 九九热免费在线视频| 99伊人精品| 秋霞午夜国产精品成人片| 亚洲黄色成人| 毛片卡一卡二| 视频二区亚洲精品| 日韩中文无码av超清| 免费毛片在线| 在线看AV天堂| 国产一级精品毛片基地| 国产成人精品一区二区免费看京| 九色国产在线| 国产偷国产偷在线高清| 精品综合久久久久久97超人| 一本一道波多野结衣一区二区| a免费毛片在线播放| 国产成人精品三级| 伊人成人在线视频| 久久大香香蕉国产免费网站| 久久黄色视频影| 亚洲国产成人久久精品软件| 日本www在线视频| 色悠久久久久久久综合网伊人| 欧美精品成人一区二区视频一| 久久精品无码一区二区日韩免费| 亚洲最大综合网| 欧美一级在线播放| 激情网址在线观看| 天天综合天天综合| 亚洲欧美日韩中文字幕在线一区| 国产剧情国内精品原创| 欧美无专区| 青青草一区二区免费精品| 亚洲福利一区二区三区| 热九九精品| 日韩欧美国产区| 国产福利一区二区在线观看| 亚洲人成网站18禁动漫无码| 亚洲成人免费在线| 亚洲福利片无码最新在线播放| 91麻豆国产视频| 中国一级毛片免费观看| 欧美乱妇高清无乱码免费| 亚洲精品777| 无码网站免费观看| 粉嫩国产白浆在线观看| 精品综合久久久久久97| 久久免费精品琪琪| 国产在线观看91精品| 99久久无色码中文字幕| 亚洲欧洲AV一区二区三区| 国产精品亚洲五月天高清| 国产精品尤物在线| 亚洲一道AV无码午夜福利| 午夜无码一区二区三区在线app| 原味小视频在线www国产|