999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的中醫(yī)古文獻(xiàn)臨床經(jīng)驗(yàn)抽取

2022-03-30 01:34:12盧永美卜令梅于中華張婷婷
關(guān)鍵詞:臨床經(jīng)驗(yàn)文本模型

盧永美, 卜令梅, 陳 黎, 于中華, 張婷婷, 葉 瑩

(1. 四川大學(xué)計(jì)算機(jī)學(xué)院, 成都610065;2. 成都中醫(yī)藥大學(xué)醫(yī)學(xué)信息工程學(xué)院, 成都610075;3. 成都中醫(yī)藥大學(xué)基礎(chǔ)醫(yī)學(xué)院, 成都610075)

中醫(yī)古文獻(xiàn)包含了幾千年來中醫(yī)從業(yè)者在臨床診療中的經(jīng)驗(yàn)性總結(jié).這些經(jīng)驗(yàn)總結(jié)是中醫(yī)知識的重要組成部分,對現(xiàn)在的中醫(yī)臨床實(shí)踐有著重要的指導(dǎo)價(jià)值.如圖1所示,臨床經(jīng)驗(yàn)描述了疾病的癥狀、用藥以及煎服方法等信息,它為現(xiàn)代中醫(yī)進(jìn)行各種疾病的臨床診斷和治療提供了大量參考.甚至2015年諾貝爾醫(yī)學(xué)獎獲得者屠呦呦也是受到了東晉葛洪的《肘后備急方》一書中“青蒿一握,以水二升漬,絞取汁,盡服之”的啟發(fā),成功提取出青蒿素并研制出抗瘧新藥.

圖1 臨床經(jīng)驗(yàn)實(shí)例Fig.1 An example of clinical experience

然而,醫(yī)學(xué)工作者從海量的古文獻(xiàn)中手工篩選所需要的臨床經(jīng)驗(yàn)耗時(shí)耗力.據(jù)不完全統(tǒng)計(jì),目前有10 000多種中醫(yī)古文獻(xiàn),其中有37 000多種版本[1].此外,古文獻(xiàn)使用的古漢語和現(xiàn)代漢語的語言風(fēng)格差異很大,如文獻(xiàn)中常會出現(xiàn)通假字、古今字等一字多用,“中風(fēng)”等一詞多義和“妊,娠,孕,胎”等多詞一義的現(xiàn)象.雖然現(xiàn)有一些檢索工具,如《中華醫(yī)典》,能夠輔助醫(yī)生從古文獻(xiàn)中檢索臨床經(jīng)驗(yàn),但是基于字面相似性的全文檢索系統(tǒng)依舊存在檢索結(jié)果噪聲大、檢索性能不好等問題.因此,這些挑戰(zhàn)嚴(yán)重阻礙了研究者從古文獻(xiàn)中獲取臨床治療經(jīng)驗(yàn).古文獻(xiàn)對現(xiàn)代中醫(yī)研究和臨床實(shí)踐的重要性人們早就認(rèn)識到了,但直到最近,一些研究者才開始利用文本挖掘和信息抽取技術(shù)對古文獻(xiàn)進(jìn)行分析處理,如術(shù)語規(guī)范[2]、方藥配伍[3]、醫(yī)案分類[4,5]和知識圖譜構(gòu)建[6]等.

據(jù)我們所知,目前還沒有從中醫(yī)古文獻(xiàn)中自動抽取臨床經(jīng)驗(yàn)的相關(guān)研究及檢索工具,而這樣的研究成果對輔助中醫(yī)臨床診斷以及中醫(yī)的理論研究起著積極的促進(jìn)作用.因此,本文提出從古文獻(xiàn)中自動抽取臨床經(jīng)驗(yàn)文本片段的任務(wù).古文獻(xiàn)臨床經(jīng)驗(yàn)的自動抽取能為中醫(yī)領(lǐng)域下游的研究(如方劑溯源,癥狀名演變等)提供重要的數(shù)據(jù)支撐.

本文把從古文獻(xiàn)中抽取臨床經(jīng)驗(yàn)(Extraction of Clinical Experiences,ECE)的任務(wù)歸結(jié)為序列標(biāo)注問題,為了驗(yàn)證ECE任務(wù),本文手工構(gòu)建了數(shù)據(jù)集,并提出一個(gè)序列到序列的深度學(xué)習(xí)模型.首先,模型使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)學(xué)習(xí)句子中字的n元組的表示,然后通過最大池化聚合形成句子表示.然后,進(jìn)一步地利用一個(gè)雙向長短時(shí)記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,Bi-SLTM)來聚合句子上下文的特征,從而輸出的句子嵌入表達(dá)不僅攜帶了當(dāng)前句子的信息,也包含了句子間的前后文信息.此外,考慮到標(biāo)簽之間存在的關(guān)聯(lián)性,模型利用條件隨機(jī)場(Conditional Random Field,CRF)[7]輸出優(yōu)化后的標(biāo)簽序列.

近年來,使用詞嵌入的深度學(xué)習(xí)方法在處理文本方面非常流行.然而,由于文本中詞的偏態(tài)分布,基于深度學(xué)習(xí)的方法總是受到未登錄詞 (Out-Of-Vocabulary,OOV) 的影響.為了克服OOV挑戰(zhàn),研究者們提出使用子詞(sub-words)嵌入(對于中文來說是字嵌入)來提升文本任務(wù)的性能[5,8,9].此外,與處理現(xiàn)代漢語文本不同,處理古漢語文本面臨著分詞的困境,即由于字詞差異模糊而導(dǎo)致的分詞困難.因此,對于古漢語文本,使用字嵌入而不是詞嵌入更合理.因此,在本文模型中,一個(gè)句子被認(rèn)為是由字序列組成,字是最小的處理單元而不是詞.

此外,由于臨床經(jīng)驗(yàn)數(shù)據(jù)集手工標(biāo)注工作量和時(shí)間耗費(fèi)過于龐大,使得可以獲取的標(biāo)注數(shù)據(jù)集規(guī)模有限.眾所周知,深度學(xué)習(xí)模型在小數(shù)據(jù)上容易出現(xiàn)過擬合現(xiàn)象.為了解決這個(gè)問題,本文引入對抗訓(xùn)練(Adversarial Training,AT)[10]和虛擬對抗訓(xùn)練(Virtual Adversarial Training,VAT)[11]兩種不同的方法來增強(qiáng)模型的泛化能力,并以此來進(jìn)一步提高抽取性能.

本文在有限的臨床經(jīng)驗(yàn)數(shù)據(jù)集上進(jìn)行了一系列實(shí)驗(yàn),并從兩個(gè)角度驗(yàn)證臨床經(jīng)驗(yàn)的抽取性能:一是模型在句子級別的分類能力;另一個(gè)是模型抽取完整臨床經(jīng)驗(yàn)文本片段的能力.本文的實(shí)驗(yàn)結(jié)果表明,在對句子的標(biāo)注性能可以達(dá)到78.53%的F1值和81.5%的準(zhǔn)確率.臨床經(jīng)驗(yàn)片段的抽取上,性能可以達(dá)到61.17%的精確率和51.14%的召回率.實(shí)驗(yàn)結(jié)果證明了從古文獻(xiàn)中抽取臨床經(jīng)驗(yàn)的任務(wù)是可行的,本文提出的模型對抽取任務(wù)是有效的.

本文的貢獻(xiàn)主要有以下4個(gè)方面:(1) 提出了古文獻(xiàn)的臨床經(jīng)驗(yàn)自動抽取任務(wù),并手工構(gòu)建了用于訓(xùn)練和測試的臨床經(jīng)驗(yàn)數(shù)據(jù)集;(2) 將臨床經(jīng)驗(yàn)抽取任務(wù)轉(zhuǎn)換為序列標(biāo)注問題,并提出一個(gè)基于深度學(xué)習(xí)的序列標(biāo)注模型;(3) 針對數(shù)據(jù)集規(guī)模小的問題,引入對抗訓(xùn)練和虛擬對抗訓(xùn)練兩種方法來解決模型的泛化能力問題;(4) 在構(gòu)建的臨床經(jīng)驗(yàn)數(shù)據(jù)集上進(jìn)行了一系列實(shí)驗(yàn),從兩個(gè)角度驗(yàn)證了抽取任務(wù)的可行性和本文模型的有效性.

2 相關(guān)工作

信息抽取(Information Extraction,IE)作為自然語言處理的基本任務(wù)之一,在醫(yī)學(xué)、材料和法律等各個(gè)研究領(lǐng)域得到廣泛研究.在醫(yī)學(xué)領(lǐng)域,IE常用于提取醫(yī)學(xué)文本(例如電子病歷)中的實(shí)體以及關(guān)系,來幫助構(gòu)建醫(yī)學(xué)知識圖譜,以輔助醫(yī)生進(jìn)行醫(yī)學(xué)決策[12-14].隨著IE在醫(yī)學(xué)領(lǐng)域的廣泛研究,其也進(jìn)入了中醫(yī)的視野.目前大多數(shù)的研究工作都以現(xiàn)代漢語書寫的結(jié)構(gòu)化或非結(jié)構(gòu)化文本為研究對象,如方藥配伍[15,16]、辨證論治[17]、知識圖譜構(gòu)建[18]和細(xì)粒度實(shí)體語料庫構(gòu)建[19]等.古文獻(xiàn)作為古中醫(yī)的文本載體,記載了豐富的中醫(yī)醫(yī)學(xué)信息,因此,對中醫(yī)古文獻(xiàn)的分析研究有利于發(fā)揮中醫(yī)的原始優(yōu)勢.

近幾年,利用機(jī)器學(xué)習(xí)技術(shù)對古文獻(xiàn)的挖掘和分析逐漸成為研究熱點(diǎn).2014年,Weng等[2]利用隱馬爾可夫模型對古文獻(xiàn)中與脾有關(guān)的短語進(jìn)行醫(yī)學(xué)術(shù)語識別,以此進(jìn)行脾相關(guān)術(shù)語規(guī)范,并進(jìn)一步開發(fā)了一套系統(tǒng)來支持與脾相關(guān)的中醫(yī)研究.2015年,聶佳等[3]利用關(guān)聯(lián)規(guī)則算法對巴蜀中醫(yī)古文獻(xiàn)中醫(yī)案進(jìn)行數(shù)據(jù)挖掘與分析,擬在進(jìn)一步探究巴蜀中醫(yī)學(xué)術(shù)流派的辨證施治、用藥規(guī)律等.2016和2019年,Yao等[4,5]提出了中醫(yī)古文獻(xiàn)醫(yī)案臨床分類的任務(wù),分別使用了傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)(例如SVM、MaxEnt等)與現(xiàn)下流行的BERT語言模型對古文獻(xiàn)中的醫(yī)案進(jìn)行分類,且獲得不錯的性能.2019年,Zhou等[6]通過摘錄中醫(yī)學(xué)相關(guān)資料(包含中醫(yī)古文獻(xiàn))中與疾病、癥狀、方劑和藥物等相關(guān)概念構(gòu)建了中醫(yī)藥知識圖譜,期望形成完善的知識服務(wù)體系.同年,Gao等[20]綜合調(diào)查了中醫(yī)古文獻(xiàn)研究進(jìn)展,提到古文獻(xiàn)研究面臨著巨大的數(shù)據(jù)挑戰(zhàn):大部分研究者手動收集、檢索和整理數(shù)據(jù),這些數(shù)據(jù)通常會遺漏信息,以及寶貴的知識.

簡而言之,利用人工智能技術(shù)對中醫(yī)古文獻(xiàn)智能分析研究還處于起步階段.據(jù)我們所知,古文獻(xiàn)中的臨床經(jīng)驗(yàn)的自動抽取研究還屬于空白.為了彌補(bǔ)這一空白,本文提出了一個(gè)新的中醫(yī)古文獻(xiàn)信息抽取任務(wù),其中待提取的實(shí)體是文獻(xiàn)中存在的臨床經(jīng)驗(yàn),并進(jìn)一步提出了一種基于深度學(xué)習(xí)的框架來解決此任務(wù).

3 任務(wù)與模型

本節(jié)將會描述ECE任務(wù)并介紹本文提出的模型.針對任務(wù)的特點(diǎn)和挑戰(zhàn),本文將ECE任務(wù)轉(zhuǎn)換成序列標(biāo)注問題,并且提出了基于字符的序列到序列模型,同時(shí)考慮到標(biāo)注數(shù)據(jù)集規(guī)模較少,在模型嘗試了不同的正則化方法來增強(qiáng)模型的泛化性能.

3.1 任務(wù)定義

古文獻(xiàn)具有一定的篇章結(jié)構(gòu),可視為多個(gè)小節(jié)構(gòu)成的一個(gè)文檔.通常來說,臨床經(jīng)驗(yàn)是由中醫(yī)古文獻(xiàn)小節(jié)中的幾個(gè)連續(xù)句子組成,并且?guī)缀鯖]有跨越章節(jié)之間的邊界.因此,本文模型的輸入以每一小節(jié)為單位,并采用了流行的BIO策略進(jìn)行標(biāo)注.

假設(shè)給定一節(jié)D=(S1,S2,…,Sl)由l個(gè)句子組成,其中每個(gè)句子Si=(c1,c2,…,cn)是由n個(gè)字組成.本文的任務(wù)是為輸入的D中每個(gè)句子Si確定唯一標(biāo)簽yi∈{′B′,′I′,′O′}.

本文提出的ECE模型由兩層組成:句子編碼層和序列標(biāo)注層,如圖2所示.首先將古文獻(xiàn)拆分為多個(gè)小節(jié),每個(gè)小節(jié)D作為模型的輸入.句子編碼層對D中每個(gè)句子通過CNN來學(xué)習(xí)句子表達(dá).然后將所獲得的D中所有句子的嵌入表達(dá)輸入到序列標(biāo)注層,經(jīng)過Bi-LSTM為每個(gè)句子獲得更為豐富的上下文信息.最終經(jīng)過一個(gè)前饋神經(jīng)網(wǎng)絡(luò)與CRF優(yōu)化句子的標(biāo)簽.

3.3 句子編碼層

每一篇古文獻(xiàn)按照篇章結(jié)構(gòu)被切分為多個(gè)小節(jié),每一小節(jié)D由l個(gè)句子組成.句子編碼層的目標(biāo)為小節(jié)D中的每個(gè)句子生成一個(gè)對應(yīng)的句子表達(dá).對于由n個(gè)字構(gòu)成的句子S,本文使用預(yù)訓(xùn)練的bert-base-Chinese語言模型[21]對S中每個(gè)字進(jìn)行初始化嵌入得到對應(yīng)的字嵌入序列e=(e1,e2,…,en).本文使用CNN作為句子編碼器,它通過帶有卷積濾波器的層來提取字之間的局部依賴關(guān)系.具體來說,對于一個(gè)包含n個(gè)漢字句子S,可以表示為

(1)

(2)

其中,b是偏置項(xiàng).注意本文使用了填充操作.所以對于卷積核g和長度為n的句子S,可通過式(3)獲得序列長度為n的N-gram向量表示.

(3)

最后,對于序列cg,本文使用最大池化得到句子編碼z.

3.4 序列標(biāo)注層

D經(jīng)過句子編碼層可以獲得一個(gè)向量序列(z1,z2,…,zl),其與句子序列一一對應(yīng).Bi-LSTM考慮了句子前后的上下文信息,可以捕獲長距離依賴關(guān)系和雙向語義信息.因此,為了進(jìn)一步考慮小節(jié)D中句子之間的關(guān)系,本文使用Bi-LSTM作為編碼器.對于第i個(gè)句子的句子表達(dá)zi,Bi-LSTM通過拼接每個(gè)時(shí)刻前向和后向的隱藏表達(dá)獲取句子表達(dá)hi,如式(4)所示.

(4)

獲得最終的句子表達(dá)(h1,h2,…,hl)之后,將其作為輸入送入到前饋神經(jīng)網(wǎng)絡(luò)中來得到每個(gè)句子屬于每個(gè)標(biāo)簽的概率分布,本文用ri來表示句子Si相應(yīng)的概率向量.

(5)

然后,利用softmax將D的所有可能標(biāo)簽序列Y的得分轉(zhuǎn)換為這些標(biāo)簽序列的概率分布,如式(6)所示.

(6)

然后,使用維特比算法為D選擇最優(yōu)標(biāo)簽序列y*,如式(7)所示.

(7)

本文通過使用最小化負(fù)log似然與L2正則損失進(jìn)行聯(lián)合訓(xùn)練,如公式(8)所示.其中ω表示所有模型參數(shù),λ是超參數(shù).

(8)

3.5 對抗訓(xùn)練和虛擬對抗訓(xùn)練

深度學(xué)習(xí)模型容易在小數(shù)據(jù)上過擬合,正則化在深度學(xué)習(xí)中防止過擬合十分有效.本文將對抗訓(xùn)練和虛擬對抗訓(xùn)練作為一種有效的方法,訓(xùn)練時(shí)在字嵌入上添加小擾動來正則化分類器,以此來增強(qiáng)本文提出的模型的泛化能力[10,11].然而,ECE模型可以學(xué)習(xí)大范數(shù)的嵌入,這使得小范數(shù)的對抗性擾動的影響變得微不足道[10].為了避免這種影響,本文對字嵌入進(jìn)行歸一化,如式(9)~式(11)所示.

圖3 引入擾動的ECE句子編碼器

(9)

(10)

(11)

(12)

(13)

(14)

本文也使用了虛擬對抗來解決數(shù)據(jù)集規(guī)模小的問題.與對抗訓(xùn)練不同,虛擬對抗訓(xùn)練并不需訓(xùn)練樣本的標(biāo)簽真實(shí)分布,所以即使訓(xùn)練樣本是沒有真實(shí)標(biāo)記的樣本點(diǎn),同樣可以加入訓(xùn)練,因此VAT不但適用于有監(jiān)督學(xué)習(xí),還適用于半監(jiān)督學(xué)習(xí).對于虛擬對抗訓(xùn)練,本文使用式(15)和式(16)計(jì)算虛擬對抗擾動dVAT,其中o是一個(gè)很小的隨機(jī)向量和KL[p||q]表示概率分布p和q之間的KL散度.虛擬對抗訓(xùn)練的損失如式(17)所示計(jì)算,其中K′是句子數(shù)量.

(15)

(16)

(17)

在訓(xùn)練時(shí),ECE模型的總損失函數(shù)定義為

L=Lorigin+LA

(18)

訓(xùn)練使用對抗損失時(shí)LA=ξ1LAT;使用虛擬對抗訓(xùn)練時(shí)LA=ξ2LVAT;同時(shí)使用時(shí)LA=ξ1LAT+ξ2LVAT.其中ξ1和ξ2分別是控制對抗訓(xùn)練損失和虛擬對抗訓(xùn)練損失的超參數(shù).

4 實(shí)驗(yàn)與結(jié)果

4.1 實(shí)驗(yàn)數(shù)據(jù)

本文收集了368本中醫(yī)古籍(不包含醫(yī)案類),對所有古籍按照章節(jié)結(jié)構(gòu)拆分,得到4萬多小節(jié).考慮到需要小節(jié)數(shù)據(jù)量龐大且全部人工標(biāo)注費(fèi)時(shí)費(fèi)力,所以本文隨機(jī)抽取了1000節(jié)并邀請兩名中醫(yī)專家進(jìn)行臨床經(jīng)驗(yàn)標(biāo)注.一個(gè)臨床經(jīng)驗(yàn)主要包含疾病的癥狀和療法(方劑或藥物組成),如圖1所示.對于標(biāo)注不統(tǒng)一的情況,兩名專家再次進(jìn)行協(xié)商討論,確定最后的標(biāo)注結(jié)果.最終手工標(biāo)注數(shù)據(jù)集統(tǒng)計(jì)結(jié)果如表1所示.

表1 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)

本文按照8∶1∶1比例隨機(jī)劃分了訓(xùn)練集、驗(yàn)證集和測試集,采用了十折交叉驗(yàn)證,并計(jì)算了95%的置信區(qū)間.我們從兩個(gè)不同的角度評價(jià)臨床經(jīng)驗(yàn)抽取的有效性:一是句子的分類性能;另一個(gè)是完整臨床經(jīng)驗(yàn)片段的抽取性能.對于分類性能,本文使用的評價(jià)指標(biāo)包括精準(zhǔn)率、召回率、F1值和準(zhǔn)確率.對于抽取性能,本文使用預(yù)測的臨床經(jīng)驗(yàn)的精準(zhǔn)率,如式(19)、黃金標(biāo)準(zhǔn)的臨床經(jīng)驗(yàn)的召回率,如式(20)和臨床經(jīng)驗(yàn)的F1值,如式(21).值得注意的是只有當(dāng)預(yù)測的臨床經(jīng)驗(yàn)片段與黃金標(biāo)準(zhǔn)完全一致才認(rèn)為是正確的臨床經(jīng)驗(yàn).

(19)

(20)

(21)

4.2 實(shí) 現(xiàn)

本文實(shí)現(xiàn)并對比分析了4個(gè)模型:(1) Baseline:句子編碼層編碼器為CNN,序列標(biāo)注層編碼器為Bi-LSTM和CRF的模型;(2) Baseline-AT:在Baseline模型中加入對抗訓(xùn)練,以增強(qiáng)模型的魯棒性.這是一種有監(jiān)督學(xué)習(xí)的方法;(3) Baseline-VAT:在Baseline模型中引入虛擬對抗訓(xùn)練.由于計(jì)算損失時(shí)不需要訓(xùn)練樣本的真實(shí)標(biāo)簽信息,這是一種半監(jiān)督學(xué)習(xí)的方法;(4) Baseline-AT-VAT:在Baseline模型中同時(shí)引入AT和VAT.這是一種半監(jiān)督學(xué)習(xí)方法.

本文使用bert-base-Chinese(https://github.com/google-research/bert)初始化字嵌入,維度大小為768.CNN使用的卷積核大小分別為3、4和5,維度都是300維.Bi-LSTM正向和反向的維度都是150維.在訓(xùn)練階段,本文利用Adam優(yōu)化器[22]學(xué)習(xí)模型參數(shù),為了避免模型過擬合dropout設(shè)置為0.5.本文的學(xué)習(xí)率設(shè)置為0.0001,L2正則項(xiàng)的λ設(shè)置為0.0001,對抗訓(xùn)練中εAT和εVAT分別設(shè)置為8和4,ξ1和ξ2分別設(shè)置為0.2和0.05.對于有監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí),訓(xùn)練集、驗(yàn)證集和測試集使用的同等數(shù)據(jù)樣本;其中使用VAT部分時(shí)不使用訓(xùn)練樣本的真實(shí)標(biāo)簽信息.

4.3 句子分類結(jié)果分析

本文在臨床經(jīng)驗(yàn)數(shù)據(jù)集上的句子分類結(jié)果如表2所示,Baseline模型在F1值和Acc上分別達(dá)到77%和79.7%,表現(xiàn)出不錯的分類效果.同時(shí),引入對抗訓(xùn)練或虛擬對抗訓(xùn)練都顯著提高了模型的性能,在對抗訓(xùn)練上提高了1.53%的F1值和1.8%的準(zhǔn)確率.這樣的結(jié)果說明加入擾動能有效解決模型的泛化性能并進(jìn)一步提升模型的性能.另一方面,同時(shí)加入對抗訓(xùn)練和虛擬對抗訓(xùn)練的Baseline-AT-VAT模型性能與Baseline-AT相比,F(xiàn)1值降低0.16%而準(zhǔn)確率提升0.3%;與Baseline-VAT相比,F(xiàn)1和準(zhǔn)確率明顯提升1.24%和1.4%.這進(jìn)一步表現(xiàn)出引入對抗訓(xùn)練比引入虛擬對抗訓(xùn)練更有優(yōu)勢.

總體來看,引入對抗訓(xùn)練獲得更佳的實(shí)驗(yàn)結(jié)果.雖然單獨(dú)引入VAT帶來的改進(jìn)并不優(yōu)于引入AT,但VAT的優(yōu)點(diǎn)是可以使用無標(biāo)簽數(shù)據(jù),這使得利用與有標(biāo)簽數(shù)據(jù)來自同一來源的大量未標(biāo)記數(shù)據(jù)能更好地泛化模型的可能性.

4.4 臨床經(jīng)驗(yàn)抽取結(jié)果分析

為了分析ECE模型在抽取完整臨床經(jīng)驗(yàn)的效果,本文在臨床經(jīng)驗(yàn)數(shù)據(jù)集上計(jì)算并統(tǒng)計(jì)了實(shí)驗(yàn)結(jié)果,如表3所示.

表2 句子分類實(shí)驗(yàn)結(jié)果

表3 臨床經(jīng)驗(yàn)文本片段抽取實(shí)驗(yàn)結(jié)果

從表3實(shí)驗(yàn)結(jié)果可以看出,Baseline-AT同樣獲得了最佳實(shí)驗(yàn)結(jié)果,61.17%的PECE、51.14%的RECE和55.48%的F1ECE.將表2與表3進(jìn)行比較,可以看到識別完整臨床經(jīng)驗(yàn)的性能大幅下降,這體現(xiàn)了本文提出新的信息提取任務(wù)中的特殊困難.與其他信息提取任務(wù)中要提取的實(shí)體不同,本文要提取的臨床經(jīng)驗(yàn)在古文獻(xiàn)中往往具有更大的跨度,而且在古文獻(xiàn)中,臨床經(jīng)驗(yàn)總是稀疏出現(xiàn).所有這些現(xiàn)象使本文的框架不得不面對機(jī)器學(xué)習(xí)中未解決的三個(gè)挑戰(zhàn),即數(shù)據(jù)分布偏斜、數(shù)據(jù)稀疏性和序列標(biāo)記中的長距離依賴.

此外,表3結(jié)果體現(xiàn)出本文提出的模型框架至少能召回一半的完整臨床經(jīng)驗(yàn),以及在預(yù)測的臨床經(jīng)驗(yàn)中60%以上的都是正確的.這證明本文模型對臨床經(jīng)驗(yàn)的抽取是有效的并且可行的.而且,還可以觀察發(fā)現(xiàn)相較于Baseline,引入AT和VAT的模型性能都得到了顯著的提升,更進(jìn)一步說明了引入AT和VAT能有效提升模型性能.

4.5 錯誤分析

此外,本文獨(dú)立地對每種類型標(biāo)簽的分類性能進(jìn)行了進(jìn)一步的研究.本文選擇了十折交叉驗(yàn)證結(jié)果其中一折的結(jié)果作為分析目標(biāo),其中B∶I∶O句子比例為934∶3317∶3508.如圖4所示,本文對4個(gè)對比模型的標(biāo)簽分類比率進(jìn)行了可視化,用不同的陰影表示本文的模型預(yù)測的標(biāo)簽類別百分比,其中橫坐標(biāo)表示黃金標(biāo)準(zhǔn)標(biāo)簽,縱坐標(biāo)代表模型的預(yù)測標(biāo)簽.每個(gè)矩陣中的斜對角線分別對應(yīng)B、I和O的精度.

圖4 可視化展示Fig.4 Visualized demonstration

圖4清晰地反應(yīng)了BIO三類標(biāo)簽的分類情況,其能用于比較預(yù)測標(biāo)簽和正確標(biāo)簽.結(jié)果表明,BIO三類標(biāo)簽都產(chǎn)生了較高的精度.其中O標(biāo)簽的精度明顯高出B和I標(biāo)簽,然而O與I的數(shù)量相近,產(chǎn)生這樣的結(jié)果極有可能是受到B標(biāo)簽的影響.B標(biāo)簽作為臨床經(jīng)驗(yàn)的起始句,這在抽取臨床經(jīng)驗(yàn)任務(wù)中起著決定性作用,這也對I標(biāo)簽的精度會產(chǎn)生了極大的影響,因?yàn)镮標(biāo)簽始終是出現(xiàn)在B標(biāo)簽之后.B標(biāo)簽的分類性能最高達(dá)到72.59%,能夠較好地抽取臨床經(jīng)驗(yàn)的開始邊界,這進(jìn)一步表明模型的可行性與有效性.對于臨床經(jīng)驗(yàn)邊界的識別,本文也在后續(xù)研究中對這一事件十分關(guān)注.

5 結(jié) 論

本文提出了一個(gè)新的信息抽取任務(wù),即抽取的實(shí)體是中醫(yī)古文獻(xiàn)中的臨床經(jīng)驗(yàn),以幫助從事中醫(yī)人員在大量古文獻(xiàn)中獲取有價(jià)值的疾病臨床經(jīng)驗(yàn).為此,本文考慮了文獻(xiàn)的篇章結(jié)構(gòu)與臨床經(jīng)驗(yàn)的文本片段特點(diǎn),將臨床經(jīng)驗(yàn)的抽取任務(wù)轉(zhuǎn)換為文本片段的序列標(biāo)注任務(wù).本文提出了一個(gè)基于深度學(xué)習(xí)的序列標(biāo)注模型解決該任務(wù).本文使用bert-base-Chinese初始化字嵌入,利用CNN作為句子編碼器獲取N-gram信息豐富句子語義編碼,并引入文檔級別的Bi-LSTM學(xué)習(xí)句子之間的上下文信息進(jìn)一步豐富句子的語義編碼;最后考慮到句子標(biāo)簽之間的關(guān)聯(lián)性,加入CRF進(jìn)行序列標(biāo)簽優(yōu)化,為每個(gè)句子選擇最優(yōu)標(biāo)簽.為驗(yàn)證提出模型的有效性,本文在專家標(biāo)注的臨床經(jīng)驗(yàn)數(shù)據(jù)集上進(jìn)行一系列實(shí)驗(yàn).實(shí)驗(yàn)驗(yàn)證了本文模型的有效性與可行性.但也證明了任務(wù)特有的困難,特別是在確定臨床經(jīng)驗(yàn)的確切跨度和解決發(fā)生稀疏性問題方面,這是本文今后對這一新信息提取任務(wù)的學(xué)習(xí)方向.

猜你喜歡
臨床經(jīng)驗(yàn)文本模型
一半模型
張淑芬辨治血瘀型崩漏的臨床經(jīng)驗(yàn)
曹奕治療丹毒臨床經(jīng)驗(yàn)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
溫補(bǔ)法治療痞滿臨床經(jīng)驗(yàn)
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 美女一级免费毛片| 2021亚洲精品不卡a| AV熟女乱| 秘书高跟黑色丝袜国产91在线 | AV天堂资源福利在线观看| 国产精品lululu在线观看| 欧日韩在线不卡视频| 亚洲精品大秀视频| 亚洲精品第1页| 1769国产精品免费视频| 99在线视频免费| 亚洲人成网址| 成人午夜视频网站| 在线国产毛片| 在线观看精品自拍视频| 五月婷婷欧美| 天堂在线www网亚洲| 亚洲国产精品日韩av专区| 中文字幕欧美成人免费| 国产在线欧美| 美女无遮挡免费视频网站| 91成人在线免费观看| 波多野结衣久久高清免费| AV无码一区二区三区四区| 国精品91人妻无码一区二区三区| 四虎国产在线观看| 国产精品免费福利久久播放| 国产成人久久777777| 亚洲男人在线天堂| 欧美视频在线不卡| 国产人人乐人人爱| 男女男免费视频网站国产| 欧美日本在线播放| 日本不卡免费高清视频| 香蕉伊思人视频| 日韩a在线观看免费观看| 欧美黄网站免费观看| 丝袜美女被出水视频一区| 欧美色香蕉| 国产毛片高清一级国语| 97人人模人人爽人人喊小说| 最新国语自产精品视频在| 国产免费精彩视频| 国产成人a毛片在线| 久久精品国产精品一区二区| 91国内视频在线观看| 97视频免费在线观看| 国产女人18水真多毛片18精品 | 国产正在播放| 亚洲人成网址| 亚洲h视频在线| 性激烈欧美三级在线播放| 色哟哟国产精品| 国产经典三级在线| 色有码无码视频| 欧美日韩国产高清一区二区三区| 欧美黄色a| 国产性生大片免费观看性欧美| 国产精品污污在线观看网站| 日韩高清成人| 国产一区二区三区在线观看视频 | 色妞永久免费视频| 国产日韩欧美成人| 一区二区在线视频免费观看| 成人在线综合| 亚洲人成在线精品| 欧美激情视频一区| 重口调教一区二区视频| 国产免费a级片| 亚洲美女视频一区| 国模私拍一区二区三区| 亚洲va在线观看| 五月综合色婷婷| 亚洲综合狠狠| 成人精品免费视频| 国产成人夜色91| 五月婷婷综合网| 无码中文字幕精品推荐| 无码人中文字幕| 欧美福利在线播放| 欧美怡红院视频一区二区三区| 久久久久青草大香线综合精品 |