999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自注意力機(jī)制與詞匯增強(qiáng)的中文醫(yī)學(xué)命名實(shí)體識別

2024-03-21 02:25:04羅歆然李天瑞
計(jì)算機(jī)應(yīng)用 2024年2期
關(guān)鍵詞:語義單詞詞匯

羅歆然,李天瑞,賈 真

(西南交通大學(xué) 計(jì)算機(jī)與人工智能學(xué)院,成都 611756)

0 引言

醫(yī)學(xué)命名實(shí)體識別(Medical Named Entity Recognition,MNER)是醫(yī)學(xué)知識抽取的一項(xiàng)基礎(chǔ)任務(wù),旨在從醫(yī)學(xué)文本中識別特定的命名實(shí)體,如藥物、疾病、檢查和醫(yī)療設(shè)備等。MNER 技術(shù)對于醫(yī)學(xué)信息的自動化處理和分析具有重要意義,在許多醫(yī)學(xué)自然語言處理(Natural Language Processing,NLP)下游任務(wù)中發(fā)揮重要的作用,如醫(yī)療信息檢索[1]、醫(yī)學(xué)知識圖譜構(gòu)建[2]和智能醫(yī)療問答系統(tǒng)[3]等。

相較于通用領(lǐng)域的命名實(shí)體識別(Named Entity Recognition,NER),MNER 任務(wù)存在醫(yī)學(xué)實(shí)體的復(fù)雜嵌套問題,例如:疾病實(shí)體“大腸桿菌腸炎”內(nèi)層嵌套了部位實(shí)體“大腸”、微生物實(shí)體“腸桿菌”“桿菌”,疾病實(shí)體“腸炎”,實(shí)體內(nèi)部嵌套的多層實(shí)體使MNER 在眾多序列標(biāo)注文本中難以探測實(shí)體邊界信息。在將醫(yī)學(xué)實(shí)體映射到特征向量空間時,由于存在未登錄詞(Out-Of-Vocabulary,OOV)的問題,無法得到含有醫(yī)學(xué)語義信息的向量。比如,“十二指腸潰瘍”可能會被切分,其中“十二”被作為數(shù)字映射到數(shù)字特征向量空間,從而造成語義偏差。MNER 的實(shí)體嵌套和語義偏差問題來自實(shí)體邊界難以正確劃分和缺乏醫(yī)學(xué)相關(guān)的語義知識。因此,MNER 需要結(jié)合醫(yī)學(xué)領(lǐng)域的語言特點(diǎn)和先驗(yàn)知識,采用合適算法提高實(shí)體識別的準(zhǔn)確性。與英文不同,中文文本序列由單個字符構(gòu)成,通過標(biāo)點(diǎn)符號劃分句子語義,缺乏分割單詞的清晰邊界和帶有語義信息的單詞詞干。因此,從輸入表示的角度,中文NER 可分為基于分詞的方法、基于字的方法和基于字詞的方法。基于分詞的方法[4-5]先使用分詞工具將句子分割為單詞,再將這些序列進(jìn)行實(shí)體識別,但分詞錯誤會積累大量噪聲,不適合中文MNER 任務(wù)高精度的需求;基于字的分割方法[6-7]雖然性能較好,但缺少單詞附帶的整體語義信息,當(dāng)面對醫(yī)學(xué)領(lǐng)域的復(fù)雜嵌套實(shí)體和未登錄的專業(yè)術(shù)語時,該類方法的泛化能力還有待提升。

針對上述中文NER 的限制,Zhang 等[8]首次提出了將詞匯信息集成到字符序列中的柵格結(jié)構(gòu)(Lattice-LSTM)。如圖1 所示,該結(jié)構(gòu)將一個文本序列與一個單詞詞典匹配,通過拓展長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò),使用額外的通路連接潛在單詞的開始與結(jié)尾字符之間的存儲單元。柵格結(jié)構(gòu)為中文NER 帶來顯著的效果提升,在單個字符中融合與該字符有關(guān)的潛在單詞可以豐富字符的語義特征,有效緩解單詞邊界難以探測的問題,有利于醫(yī)學(xué)文本中復(fù)雜嵌套實(shí)體的識別。但也存在一些不足:1)柵格結(jié)構(gòu)為有向無環(huán)圖的拓展,且不同字符之間添加單詞節(jié)點(diǎn)數(shù)不一致,限制了每次只能處理一個字符,模型無法在GPU(Graphics Processing Unit)中并行化計(jì)算。2)由于LSTM 的單向順序性,每個字符只能獲取以它作為結(jié)尾的單詞信息,對于單詞內(nèi)部的字符不具備詞匯信息的持續(xù)記憶能力,造成嚴(yán)重的信息損失。

圖1 Lattice-LSTM的結(jié)構(gòu)Fig.1 Architecture of Lattice-LSTM

以圖1 為例,柵格結(jié)構(gòu)將單詞信息“血栓栓塞”編碼到“塞”中,但是對于“血”“栓”“栓”這3 個內(nèi)部字符卻無法有效獲取單詞信息,而“血栓栓塞”的語義和邊界信息對這3 個字符正確識別為B-SYM、B-SYM 和M-SYM 標(biāo)簽起到重要的輔助作用;同時,柵格結(jié)構(gòu)中某些單詞對中文NER 任務(wù)無效,這些需要被抑制的單詞信息通常與上下文相關(guān),如文本序列中的單詞“血栓栓塞”能區(qū)分“靜脈血”不是實(shí)體,而“靜脈”是標(biāo)簽為PAR 的實(shí)體。3)柵格結(jié)構(gòu)只適配于LSTM 結(jié)構(gòu),可遷移性差。

受文獻(xiàn)[9-10]中將柵格結(jié)構(gòu)的輸入集成到Transformer[11]結(jié)構(gòu)的啟發(fā),針對中文醫(yī)學(xué)文本的語言特點(diǎn)和柵格結(jié)構(gòu)的不足,本文提出一種融合注意力機(jī)制的自適應(yīng)詞匯增強(qiáng)模型AMLEA(Attention-based Model of Lexicon Enhanced Adaptively),通過基于雙線性注意力(Bilinear Attention)機(jī)制的詞匯適配器(Lexicon Adapter,LA)將詞匯信息集成到文本序列中的每個字符中,并使用自注意力(Self-Attention)機(jī)制編碼詞匯適配器中不同單詞之間的信息交互。本文的主要工作如下:

1)將基于有向無環(huán)圖的柵格結(jié)構(gòu)轉(zhuǎn)換為線性的字詞對序列(Charactor-Word Pair Sequence),并利用Transformer 結(jié)構(gòu)中全連接的自注意力機(jī)制對序列中的不同詞匯輸入單元建立依賴關(guān)系,使每個字符所匹配的不同單詞之間直接交互信息,以抑制無效單詞并激活具有邊界和語義信息的單詞。

2)在詞匯適配器中設(shè)計(jì)雙線性注意力為每個字符動態(tài)計(jì)算不同潛在單詞的權(quán)重,提取相關(guān)程度高的匹配詞修正字符向量的語義偏差,提高中文醫(yī)學(xué)命名實(shí)體識別的性能。

3)設(shè)計(jì)AMLEA 與各基線模型的對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,所提模型可以有效緩解中文MNER 中實(shí)體嵌套和未登錄詞識別歧義的問題,同時將預(yù)訓(xùn)練模型BERT(Bidirectional Encoder Representation from Transformers)[12]用 于AMLEA 的字符編碼,顯著提高模型的識別精度。

1 相關(guān)工作

NER 的研究方法包括基于規(guī)則和字典的方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。其中,基于深度學(xué)習(xí)的方法[13-14]是目前主流的研究方向。本文模型主要研究如何將詞匯信息高效、準(zhǔn)確地作為先驗(yàn)知識集成到字符中以緩解中文MNER 的實(shí)體嵌套和OOV 問題,所以分別介紹了基于字詞的中文NER 和MNER 的相關(guān)研究。

1.1 基于字詞的中文命名實(shí)體識別

單詞中的邊界和語義信息能有效增強(qiáng)基于字的中文NER 模型,將詞匯信息集成到字符信息的主流方法主要有兩類。

第一類方法是在動態(tài)的柵格結(jié)構(gòu)中融合詞匯信息。Zhang 等[8]在LSTM 結(jié)構(gòu)中增加了一個額外的詞匯存儲單元對潛在的單詞進(jìn)行編碼,巧妙地將詞匯信息與字符嵌入兼容;Gui 等[15]提 出LR-CNN(CNN-based Chinese NER with Lexicon Rethinking)模型,采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)解決LSTM 無法并行計(jì)算的問題,通過Rethinking 機(jī)制緩解模型中高層詞匯沖突的情況;Li 等[10]設(shè)計(jì)了一種將相對位置編碼和詞匯信息融合至Lattice 的結(jié)構(gòu),并利用Transformer 實(shí)現(xiàn)了GPU 的并行計(jì)算。這類方法通??蛇w移性較差,并且受制于柵格結(jié)構(gòu)的特殊性,不能充分利用詞匯信息,導(dǎo)致大量詞匯表征損失。

第二類方法是將柵格結(jié)構(gòu)轉(zhuǎn)換成圖結(jié)構(gòu),并使用圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)編碼。Gui 等[16]提出了一種基于GNN 的詞級特征融合方法,利用圖網(wǎng)絡(luò)攜帶的全局信息捕獲字符之間的非順序依賴關(guān)系,采用遞歸聚合機(jī)制解決中文單詞識別歧義的問題;Sui 等[17]提出了基于協(xié)作的圖網(wǎng)絡(luò)(Collaborative Graph Network,CGN),結(jié)合三種模式的圖注意力網(wǎng)絡(luò)(Graph ATtention network,GAT)提取特征,解決Lattice-LSTM 無法獲取詞匯內(nèi)部信息而造成的特征損失問題。然而,序列結(jié)構(gòu)對中文NER 任務(wù)有著重要的支撐作用,因此這類圖網(wǎng)絡(luò)通常需要LSTM 作為底層編碼器感應(yīng)時序信息,模型結(jié)構(gòu)較復(fù)雜,并且圖構(gòu)建也需要耗費(fèi)大量計(jì)算資源。

1.2 醫(yī)學(xué)命名實(shí)體識別

在MNER 領(lǐng)域中,Li 等[18]利用Lattice-LSTM 融合詞匯信息,并增加嵌入語言模型(Embeddings from Language Models,ELMo)學(xué)習(xí)電子病歷中的上下文信息;Ju 等[19]通過動態(tài)疊加扁平NER 層,用學(xué)習(xí)到的內(nèi)層實(shí)體信息更新外層實(shí)體的識別,以此解決醫(yī)學(xué)實(shí)體嵌套的復(fù)雜問題;羅凌等[20]將漢字的筆畫序列輸入ELMo 改進(jìn)字符輸入特征單一的問題,然后構(gòu)建基于多任務(wù)學(xué)習(xí)的網(wǎng)絡(luò)充分利用數(shù)據(jù)信息;Xu 等[21]采用一種有效的字符串匹配方式將疾病字典和疾病字符配對,提出了一種結(jié)合字典注意力層的BiLSTM-CRF(Bi-directional Long Short-Term Memory-Conditional Random Field)模型;吳炳潮等[22]利用BiLSTM-CRF 網(wǎng)絡(luò)識別跨領(lǐng)域共享的實(shí)體塊信息,再通過基于門機(jī)制的動態(tài)融合層將源領(lǐng)域的信息集成于目標(biāo)領(lǐng)域的共享實(shí)體塊,并在CCKS 2017 數(shù)據(jù)集上驗(yàn)證了模型的有效性;Li 等[23]提出了一種融合詞匯和字根特征的BERT-BiLSTM-CRF 模型,利用BERT 模型增強(qiáng)中文臨床記錄文本的上下文語義信息;文獻(xiàn)[24]中將字向量輸入雙向門控循環(huán)單元(Bi-directional Gated Recurrent Unit,BGRU),學(xué)習(xí)上下文特征,再利用注意力機(jī)制捕獲關(guān)鍵語義表征,與本文不同的是,該方法沒有引入詞匯信息等外部知識,注意力僅用于字向量的特征提取,沒有利用雙線性注意力賦予詞匯相應(yīng)的權(quán)重。以上結(jié)合BiLSTM-CRF 的模型并沒有利用BiLSTM(Bi-directional Long Short-Term Memory)對字符編碼的上下文特征交互詞匯信息或是直接采用Lattice-LSTM 結(jié)構(gòu),融合詞匯的方式容易引入大量噪聲,降低了MNER 模型的識別性能。

本文提出的AMLEA 在不影響原字符序列結(jié)構(gòu)的情況下,在充分利用詞匯信息的同時能抑制與字符無關(guān)的詞匯,很好地克服了現(xiàn)有詞匯融合模型中的不足,并且所提模型便于根據(jù)不同的醫(yī)學(xué)細(xì)分領(lǐng)域選擇合適的詞典進(jìn)行自動匹配,與現(xiàn)有的預(yù)訓(xùn)練模型BERT[12]也能很好地兼容,從而提升了模型面對海量復(fù)雜醫(yī)學(xué)文本的魯棒性。

2 模型構(gòu)建

本文提出的中文醫(yī)學(xué)命名實(shí)體識別模型AMLEA 的總體架構(gòu)如圖2 所示,該模型由特征表示、特征編碼和標(biāo)簽解碼三部分組成。首先,將字嵌入輸入BiLSTM層學(xué)習(xí)醫(yī)學(xué)文本中字符序列的上下文特征;然后,將輸出的字符向量與經(jīng)過自注意力層的詞匯向量組成字詞對序列并輸入詞匯適配器,實(shí)現(xiàn)字詞信息的融合并得到隱藏層輸出;最后,將隱藏層的輸出輸入到CRF(Conditional Random Field)解碼層進(jìn)行序列標(biāo)注。

圖2 AMLEA的總體架構(gòu)Fig.2 Overall architecture of AMLEA

2.1 字符編碼層

LSTM 是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的一種變體,為了解決RNN 在反向傳播時帶來的梯度消失和梯度爆炸問題,以及難以建模句子中的長距離依賴關(guān)系的問題,在RNN 的基礎(chǔ)上增加了門控單元控制信息的更新、存儲和傳遞。

LSTM 由3 個門控單元和1 個記憶單元ct構(gòu)成,門控單元分別為遺忘門ft、輸入門it和輸出門ot,具體的計(jì)算過程如式(1)~(6)所示:

其中:Wx、Wh、b是需要學(xué)習(xí)的網(wǎng)絡(luò)參數(shù),σ表示激活函數(shù)Sigmoid,Xt表示當(dāng)前時刻的輸入向量,遺忘門ft控制上一時刻的記憶單元ct-1需要遺忘的信息總量,輸入門it控制當(dāng)前時刻的候選狀態(tài)應(yīng)該存儲的信息量,輸出門ot控制當(dāng)前時刻的記憶單元ct需要向外界輸出多少信息。

但是LSTM 只能獲取句子單向的字符序列,即t時刻的字符能學(xué)到t-1 時刻字符攜帶的語義信息,但t-1 時刻的字符不能學(xué)習(xí)后文段落的信息。為了提取文本的上下文特征,本文采用BiLSTM 編碼字符向量,它由前后雙向的鏈?zhǔn)絃STM 結(jié)構(gòu)組成,最后拼接兩個LSTM 單元的前向和后向隱藏層輸出信息。在t時刻BiLSTM 的隱藏層狀態(tài)為ht=,嵌入后的字向量經(jīng)過BiLSTM 編碼后可以得到維度為的輸出向量其中dm為單個LSTM 的隱藏層神經(jīng)元個數(shù)。

2.2 注意力機(jī)制

當(dāng)一個滑動窗口包含多個單詞時,若采用全連接的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)它們的特征,會使參數(shù)的學(xué)習(xí)變得異常復(fù)雜。注意力機(jī)制可以將文本序列進(jìn)行特征降維,然后編碼為固定長度的向量,以便輸入后續(xù)的全連接層。注意力機(jī)制通過計(jì)算句子中每個字符的權(quán)重給予模型針對性的學(xué)習(xí)指導(dǎo),給出了3個計(jì)算參數(shù)查詢Q、鍵K和值V。這3 個參數(shù)由輸入向量X與矩陣W相乘得到,通過對X的線性變換加強(qiáng)模型的擬合能力,從而訓(xùn)練矩陣W,使模型學(xué)到更多該文本序列的語義信息。

注意力函數(shù)的計(jì)算如式(7)所示,計(jì)算過程可以總結(jié)為3 步。首先,將嵌入層的輸出向量X分別與維度為dk的矩陣W做乘積運(yùn)算,得到3 個參數(shù)Q、K和V。然后,將Q和K相乘計(jì)算兩者的相關(guān)性,經(jīng)過Softmax 歸一化處理后得到注意力矩陣;除以的目的是降低字符間的權(quán)重方差,避免訓(xùn)練過程中因權(quán)重較小造成的梯度消失問題。最后,根據(jù)得到的權(quán)重對V加權(quán)求和,得到具有混合關(guān)系的向量表示。

詞匯間利用注意力機(jī)制進(jìn)行信息交互的過程如圖3 所示,其中字母A、B、C 分別為單詞“甲肝”“肝病”“甲肝病”的向量表示,圖中計(jì)算以“甲肝”為例,展示了該單詞與匹配到字符“肝”的潛在單詞間的權(quán)重關(guān)系,從而建模詞與詞之間的依賴關(guān)系。多頭注意力機(jī)制(Multi-Head ATTention mechanism,MH-ATT)實(shí)質(zhì)上是多次計(jì)算單頭注意力機(jī)制,然后將其結(jié)果進(jìn)行拼接,目的是學(xué)習(xí)向量在不同語義空間的表示。面對復(fù)雜的醫(yī)學(xué)文本,需要對某一特征進(jìn)行多維度的學(xué)習(xí),不同的注意力矩陣使模型從多個角度理解文本信息,賦予模型更深層次的句意理解。

圖3 自注意力計(jì)算過程Fig.3 Computational process of self-attention

2.3 字詞對序列

由于中文的特殊性,一個句子通常由單個字符序列構(gòu)成,為了給每個字符融入詞匯信息,本文將字符和它匹配的詞匯組成一個如圖4 所示的字詞對序列。

圖4 字詞對序列Fig.4 Character-word pair sequence

本文中字詞對序列的構(gòu)建過程為給定一個字符數(shù)為n的中文句子sc={c1,c2,…,cn}以及中文詞典D,通過將字符序列與詞典D進(jìn)行匹配,搜索句子中所有潛在單詞。具體地,本文利用詞典D構(gòu)建了單詞前綴樹(TrieTree),然后遍歷句子中所有的字符子序列,通過前綴樹查找對應(yīng)的字符子序列,將潛在的單詞歸納至每個字符。如圖4(a)所示,對于一個字符子序列“甲肝病毒”,可以匹配到4 個潛在單詞:“甲肝”“甲肝病”“肝病”和“病毒”。接著,將每個匹配到的單詞分配給它所包含的每個字符,如單詞“肝病”會被分配給組成該單詞的字符“肝”和“病”。本文將第i個字符ci匹配到的所有單詞構(gòu)建成單詞序列wsi={wi1,wi2,…,wim},其中m=4 表示單詞序列的窗口大小,用特殊值“填充長度不滿m的單詞序列。最后,組合每個字符和其指定的單詞序列,將中文句子轉(zhuǎn)換為一個字詞對序列scw={(c1,ws1),(c2,ws2),…,(cn,wsn)}。

2.4 詞匯適配器

對于字詞對序列scw,每個位置都包含字符級特征信息和單詞級特征信息。與現(xiàn)有的多信息融合模型一致,本文的目標(biāo)是將詞匯信息融入字符。受近期關(guān)于對預(yù)訓(xùn)練模型BERT[12]進(jìn)行多模態(tài)信息融合研究[25-26]的啟發(fā),在中文大規(guī)模語義建模過程中,通過在字符編碼中設(shè)計(jì)一種適配器融入詞匯、字形、拼音和偏旁部首等多元特征,在預(yù)訓(xùn)練過程中能對不同領(lǐng)域的文本進(jìn)行有效的信息增強(qiáng)。本文利用詞匯適配器直接將每個單詞序列的詞匯信息注入它對應(yīng)的字符。

詞匯適配器以一個字符和匹配的單詞序列作為輸入,對于下標(biāo)位置為i的字詞對(ci,wsi),本文將字符和單詞序列中的每個單詞通過嵌入層獲取字向量和詞向量并記為其中表示詞向量的集合,字向量以及潛在單詞序列中第j個單詞的詞向量的計(jì)算如式(8)和式(9)所示:

其中ec(?)和ew(?)分別表示預(yù)訓(xùn)練的字向量和詞向量查詢表。

如圖4(a)所示,對于一個字符,在特定的上下文環(huán)境中可能與多個單詞匹配,然而不同單詞提供的語義和邊界支持通常有著較大差異,如單詞“甲肝”和“病毒”的重要性更高,圖中標(biāo)紅虛線框的單詞表示需要獲得更多的關(guān)注,因?yàn)樗鼈兪窃撟有蛄械恼_分詞形式。而單詞“甲肝病”和“肝病”的優(yōu)先級較低,所以需要抑制這些單詞對字符增強(qiáng)特征的作用,以免指導(dǎo)模型學(xué)習(xí)很多錯誤的訓(xùn)練參數(shù)。同時,如圖4(b)所示,對于同一個字符,在不同上下文語境中需要關(guān)注的單詞信息不同,這種差異性可以通過匹配的單詞序列中單詞的內(nèi)部交互較好地反映,如字符“病”和“毒”匹配的單詞序列在增加單詞“病毒量”后,需要關(guān)注的單詞就從“病毒”變?yōu)椤安《玖俊薄1疚氖紫韧ㄟ^自注意力機(jī)制進(jìn)行單詞內(nèi)部的信息交互,將單詞向量映射到新的語義空間,隨后通過一個字到詞的雙線性注意力映射,從所有匹配的單詞中選出最相關(guān)的單詞。

如圖5 所示,本文使用與Transformer 編碼層相同的自注意力結(jié)構(gòu),對于第i個字符對應(yīng)的單詞序列向量,通過使用多頭注意力機(jī)制實(shí)現(xiàn)不同單詞間的信息交互,然后使用逐位置的前饋網(wǎng)絡(luò)(Position-Wise FeedForward Network,PWFFN)對每個單詞信息編碼,同時引入兩層殘差網(wǎng)絡(luò)(Residual Network,ResNet)以防止模型退化,并使用層歸一化(Layer Normalization,LN)進(jìn)行規(guī)范化處理,最終將單詞序列映射到一個新的語義空間主要計(jì)算過程如式(10)和式(11)所示:

圖5 Transformer編碼器結(jié)構(gòu)Fig.5 Structure of Transformer encoder

其中多頭注意力機(jī)制中頭的數(shù)量Nhead=8。

本文將位置為i的字詞表示向量輸入到如圖6所示的詞匯適配器中,整個計(jì)算過程如式(12)~(15)所示,其中字向量每個詞向量為了對齊兩種表示向量的維度,引入非線性變化對詞向量進(jìn)行維度對齊:

圖6 詞匯適配器結(jié)構(gòu)Fig.6 Structure of lexicon adapter

為了從所有匹配的單詞中選出相關(guān)度最高的單詞,將位置為i的單詞表示定義為其中接著通過雙線性加權(quán)方式計(jì)算字符與每個單詞的相關(guān)性權(quán)重ai∈Rm:

最后,本文將加權(quán)得到的詞匯信息向量與字符序列拼接,得到最終的表示向量

2.5 CRF解碼層

在通過詞匯適配器結(jié)合詞匯信息和字符信息后,將序列的最終表示形式輸入到CRF 層進(jìn)行序列標(biāo)注。具體地,將經(jīng)過BiLSTM 層和注意力交互層的編碼向量輸入CRF 結(jié)構(gòu),計(jì)算每個標(biāo)簽之間的轉(zhuǎn)移概率。如式(16)所示,對于標(biāo)簽序列y={y1,y2,…,yn},概率分布定義為:

其中:第一項(xiàng)是交叉熵,第二項(xiàng)是正則化項(xiàng),λ是L2正則化權(quán)重,Θ表示模型參數(shù)的集合。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)集

本文實(shí)驗(yàn)數(shù)據(jù)來自CHIP2020 發(fā)布的中文醫(yī)學(xué)文本實(shí)體關(guān)系抽取數(shù)據(jù)集,該數(shù)據(jù)集共有實(shí)體11 類,分別為疾病、藥物、檢查、部位、預(yù)后、癥狀、流行病學(xué)、社會學(xué)、手術(shù)治療、其他治療和其他,其中“其他”類實(shí)體用于“疾病”和“其他”類實(shí)體進(jìn)行就診科室、階段和預(yù)防三類關(guān)系的抽取。本文將提供的用于訓(xùn)練的數(shù)據(jù)按照7∶1.5∶1.5 劃分為訓(xùn)練集、驗(yàn)證集和測試集,其中訓(xùn)練集用于迭代訓(xùn)練過程中的各種模型參數(shù);驗(yàn)證集用于超參數(shù)的調(diào)優(yōu),以進(jìn)一步提高模型的整體性能;測試集用于衡量模型訓(xùn)練的效果,判斷預(yù)測標(biāo)簽與真實(shí)標(biāo)簽的出入。經(jīng)過數(shù)據(jù)預(yù)處理后,共計(jì)得到14 339 條數(shù)據(jù),數(shù)據(jù)集的劃分情況及各實(shí)體種類的統(tǒng)計(jì)信息如表1 所示。

表1 數(shù)據(jù)集統(tǒng)計(jì)結(jié)果Tab.1 Dataset statistical results

3.2 實(shí)驗(yàn)方案

3.2.1 評價指標(biāo)

本文采用命名實(shí)體識別任務(wù)常用的評價指標(biāo)精確率P(Precision)、召回率R(Recall)及F1 值(F1)作為本次評估模型的標(biāo)準(zhǔn)。其中精確率表示在所有被預(yù)測的醫(yī)學(xué)實(shí)體中正確預(yù)測出的實(shí)體占比,召回率表示在已標(biāo)注的醫(yī)學(xué)實(shí)體中被正確預(yù)測出的實(shí)體占比,F(xiàn)1 值是為了兼顧這兩種評價指標(biāo)提出的衡量標(biāo)準(zhǔn),是兩者的調(diào)和平均。一般地,設(shè)E={e1,e2,…,em} 為擁有正確標(biāo)簽的實(shí)體集合,E'={e'1,e'2,…,e'm}為被模型預(yù)測出的實(shí)體集合,NT=|E∩E'|代表預(yù)測正確的實(shí)體數(shù),|E|代表標(biāo)注實(shí)體的總數(shù),|E'|代表預(yù)測實(shí)體的總數(shù),則P、R、F1的計(jì)算過程如式(18)~(20)所示:

3.2.2 實(shí)驗(yàn)設(shè)置

本文字向量和詞向量的維度設(shè)置為200,字向量使用均勻分布初始化,在下游任務(wù)的訓(xùn)練過程中,字向量和詞向量與模型參數(shù)一起更新。詞向量使用騰訊中文詞向量,共計(jì)包含200 萬預(yù)訓(xùn)練詞向量,設(shè)置每個字符最多融合3 個詞向量,與字符進(jìn)行適配后,自動構(gòu)建了一個含有58 621 個單詞的詞典。

在超參數(shù)的選擇上,采用Adam 優(yōu)化器進(jìn)行訓(xùn)練,其中CRF 層的初始學(xué)習(xí)率為3 × 10-4,模型其余參數(shù)的初始學(xué)習(xí)率為6 × 10-5。為了防止訓(xùn)練過擬合,將權(quán)重正則系數(shù)λ設(shè)置為0.05,在BiLSTM 層設(shè)置比例為0.15 的Dropout,在詞匯適配器和自注意編碼層中設(shè)置比例為0.25 的Dropout,batchsize 設(shè)為16,文本序列的最大長度設(shè)置為256。

3.2.3 基準(zhǔn)模型

本文選取Lattice-LSTM 作為實(shí)驗(yàn)對比的基準(zhǔn)模型,另外選取FLAT(Flat-LAttice Transformer for Chinese NER)和基于字符的模型BiLSTM-CRF、ATT-BiLSTM-CRF、BGRU-att-CRF、CAN-NER(Convolutional Attention Network for Chinese Named Entity Recognition)驗(yàn)證本文方法的有效性,6 個對比模型的如下所示。

1)Lattice-LSTM[8]:該方法在LSTM 基礎(chǔ)上增加用于存儲詞匯的結(jié)構(gòu),通過門控循環(huán)單元利用字符序列中的詞匯信息減少分詞錯誤。

2)BiLSTM-CRF[6]:命名實(shí)體識別中效果較好的一種通用框架,BiLSTM 能很好地學(xué)習(xí)序列結(jié)構(gòu)和上下文信息。

3)ATT-BiLSTM-CRF[27]:在BiLSTM 隱藏層之后引入自注意力機(jī)制,有利于提取字符的重要特征。

4)BGRU-att-CRF[24]:將字向量輸入雙向門控循環(huán)單元,然后將隱藏層向量輸入注意力層提取有效信息,沒有引入詞匯信息。

5)FLAT[10]:通過Transformer 結(jié)構(gòu)將Lattice 結(jié)構(gòu)平鋪至字符序列,并引入了字符和詞匯的位置信息。

6)CAN-NER[7]:使用具有局部注意力機(jī)制的CNN 和具有全局注意力機(jī)制的BiGRU 編碼文本信息,沒有引入其他外部表征。

3.3 實(shí)驗(yàn)結(jié)果與分析

3.3.1 模型對比實(shí)驗(yàn)結(jié)果分析

將本文提出的AMLEA 與6 個對比模型進(jìn)行比較分析,實(shí)驗(yàn)結(jié)果表明,本文提出的自適應(yīng)詞匯增強(qiáng)模型具有較好的性能。

實(shí)驗(yàn)結(jié)果如表2 所示,比起引入了詞匯信息的基線模型Lattice-LSTM 和FLAT,本文模型在精確率、召回率和F1 值上都有較大幅度的提升,F(xiàn)1 值達(dá)到67.96%。說明詞匯適配器的引入能使字符充分利用與它相關(guān)性高的單詞表征,并且BiLSTM 結(jié)構(gòu)學(xué)習(xí)的上下文語義信息也能促使子詞序列的正確表示,例如詞匯“竇性心動過速”會將子序列“心動”的向量映射到接近“竇性”詞匯向量的醫(yī)學(xué)語義空間中,而不表示為其他語境中的“心動”向量。另外,本文模型與其他沒有融合詞匯信息的模型對比,F(xiàn)1 值提升了1.37~2.38 個百分點(diǎn),說明本文模型能有效引入醫(yī)學(xué)領(lǐng)域的詞匯信息,相較于其他模型的詞匯融合方式,可以抑制噪聲詞匯,避免無效單詞的錯誤傳播,進(jìn)而使每個字符融合正確的詞匯邊界信息。最后,在兼容BERT 模型的實(shí)驗(yàn)中,本文使用BERT 的預(yù)訓(xùn)練嵌入層初始化字符向量,比較了配備BERT[12]之后的AMLEA 與普通的BERT+BiLSTM-CRF 標(biāo)注模型的結(jié)果,F(xiàn)1 值提升了1.62 個百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,本文模型使用BERT 的預(yù)訓(xùn)練嵌入層有著可觀的語義信息增強(qiáng)效果,對底層嵌入信息的利用更全面。推測原因可能是將單詞與字符信息集成在同一平面上,在有效利用詞匯信息的同時保留了字符序列模型中上下文依賴建立的方式,使得模型具備強(qiáng)大的遷移能力和擁有輕量級的參數(shù)。

表2 不同模型的實(shí)驗(yàn)結(jié)果 單位:%Tab.2 Experimental results of different models unit:%

3.3.2 細(xì)粒度實(shí)體實(shí)驗(yàn)結(jié)果分析

為分析AMLEA 在不同實(shí)體粒度上的實(shí)驗(yàn)效果,本文在該數(shù)據(jù)集上列出了11 類實(shí)體的識別標(biāo)簽,最終細(xì)粒度實(shí)驗(yàn)結(jié)果如表3 所示。

表3 細(xì)粒度實(shí)體識別實(shí)驗(yàn)結(jié)果 單位:%Tab.3 Experimental results of fine-grained entity recognition unit:%

可以看到,“疾?。―IS)”的F1 值遠(yuǎn)高于其余類別的實(shí)體。推測這是因?yàn)樵擃悇e實(shí)體數(shù)量占比約44%,數(shù)量較充足,字符能夠匹配的詞匯覆蓋范圍更全面,使得詞匯適配器和自注意力結(jié)構(gòu)能夠充分訓(xùn)練。這一原因也體現(xiàn)在訓(xùn)練過程中“疾病”類別的擬合能力和訓(xùn)練速度優(yōu)于其余實(shí)體類別。反觀“癥狀”“藥物”“社會學(xué)”和“檢查”的實(shí)體占比約為20%、8%、8% 和7%,F(xiàn)1 值分別為67.30%、64.52%、53.03% 和61.61%,說明較少的數(shù)據(jù)量會導(dǎo)致匹配的詞匯信息較少,在字詞交互階段訓(xùn)練不充分,因此性能沒有“疾病”類別的效果好。但“社會學(xué)”的F1 值遠(yuǎn)低于同等數(shù)量級的實(shí)體類別,甚至持平數(shù)量占比分別為3%和2%的“部位”和“手術(shù)治療”這兩類實(shí)體。經(jīng)過研究發(fā)現(xiàn),“社會學(xué)”這類實(shí)體涵蓋范圍較為廣泛,包括“纖維蛋白的沉積”這類的發(fā)病機(jī)制和“自主神經(jīng)調(diào)節(jié)功能差”這樣的病理生理,模型容易將這類實(shí)體歸類到“癥狀”之類的實(shí)體,通過查看“社會學(xué)”的召回率和精確率發(fā)現(xiàn),它的召回率比精確率要低些,但“癥狀”“藥物”和“檢查”的召回率比精確率高1.4~7.34 個百分點(diǎn),充分說明了“社會學(xué)”這類實(shí)體的多樣性及所在語境的復(fù)雜情況。同樣,“手術(shù)治療”“其他治療”“流行病學(xué)”和“部位”的數(shù)占比分別約為2%、3%、3%和3%,所以在相同的參數(shù)設(shè)置中,這4 類的實(shí)體識別效果欠佳,數(shù)量分布不均容易導(dǎo)致模型欠擬合,從而不能充分的融合詞匯信息。

3.3.3 詞匯注意力效果分析

本文對字符和與它匹配的潛在單詞進(jìn)行了注意力權(quán)重可視化分析,本文選取了測試集中的一句話,“3.大腸桿菌腸炎常發(fā)生于5~8 月,病情輕重不一”作為案例分析。其中疾病命名實(shí)體為“大腸桿菌腸炎”,與它對應(yīng)的子序列有“大腸”“腸桿菌”“桿菌”“大腸桿菌”和“腸炎”。如圖7 所示,可以直觀地看出經(jīng)過詞匯適配結(jié)構(gòu)的交互后,前4 個字符與“大腸桿菌”的關(guān)聯(lián)性更強(qiáng),后2 個字符與“腸炎”的關(guān)聯(lián)性更強(qiáng)。由于本文的詞典中并沒有“大腸桿菌腸炎”的完整詞匯與它對應(yīng)的詞向量,所以不能直接將該詞標(biāo)記為疾病實(shí)體,但“大腸桿菌”和“腸炎”的融入,能使字符邊界的劃分更加明確,并且抑制類似“腸桿菌”這樣的無關(guān)詞匯。

圖7 注意力可視化示例Fig.7 Example of attention visualization

3.3.4 消融實(shí)驗(yàn)

為了探究AMLEA 中每個結(jié)構(gòu)的有效性,本文對模型進(jìn)行消融實(shí)驗(yàn),結(jié)果如表4 所示??梢园l(fā)現(xiàn),在移除掉自注意結(jié)構(gòu)后(w/o self-attn),模型F1 值下降0.49 個百分點(diǎn),這表明通過自注意結(jié)構(gòu)進(jìn)行單詞信息內(nèi)部交互的有效性;在移除掉詞匯適配器的實(shí)驗(yàn)中(w/o LA),每個字符匹配到的單詞序列在經(jīng)過自注意結(jié)構(gòu)后,本文將多個單詞向量逐元素相加并求平均值后,得到的詞匯向量作為最終詞匯表示,并與字符最終表示拼接后輸入解碼層,結(jié)果表明模型的性能損失為2.29 個百分點(diǎn),這表明詞匯適配器在本文模型中發(fā)揮了關(guān)鍵的作用;將詞匯適配器中字符與詞匯信息的結(jié)合方式從拼接變?yōu)橹鹪叵嗉硬⑶笃骄岛螅╮epl concat),模型的總體性能輕微下降,這表明拼接方式是最終結(jié)合兩種信息更有效的手段,比起逐元素相加,它使得字符向量與詞匯向量之間能保持一定的信息獨(dú)立性。

表4 消融實(shí)驗(yàn)結(jié)果 單位:%Tab.4 Results of ablation study unit:%

4 結(jié)語

本文提出了一種基于注意力機(jī)制與詞匯融合的中文醫(yī)學(xué)命名實(shí)體識別模型,將編碼后的字符序列與經(jīng)過自注意力層的詞匯向量進(jìn)行匹配,通過詞匯適配器的融合后,字符被注入潛在單詞中與實(shí)體最相關(guān)的單詞語義信息,增強(qiáng)了字符的邊界信息和上下文語義信息,緩解了中文醫(yī)學(xué)實(shí)體識別中嵌套實(shí)體邊界檢測模糊化和未登錄詞識別歧義的問題。但本文方法也存在一定的局限性:一方面,細(xì)粒度實(shí)驗(yàn)表明該方法的模型效果很大程度取決于數(shù)據(jù)量的大小和標(biāo)注的準(zhǔn)確性;另一方面,該方法選取的是醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)集進(jìn)行測試,構(gòu)建一個高質(zhì)量的醫(yī)學(xué)領(lǐng)域詞典是模型性能提高的關(guān)鍵。后續(xù)的工作會收集大量醫(yī)學(xué)語料和已有的中文醫(yī)學(xué)預(yù)訓(xùn)練模型,構(gòu)建專業(yè)性的醫(yī)學(xué)詞典來提高領(lǐng)域?qū)嶓w識別的精確率。

猜你喜歡
語義單詞詞匯
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
語言與語義
單詞連一連
本刊可直接用縮寫的常用詞匯
看圖填單詞
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
本刊一些常用詞匯可直接用縮寫
最難的單詞
主站蜘蛛池模板: www.91中文字幕| 免费aa毛片| 国产精品久久久久久久伊一| 2020极品精品国产| 久久精品日日躁夜夜躁欧美| 无套av在线| 亚洲色图欧美| www.youjizz.com久久| 久久黄色一级视频| 中文字幕啪啪| 亚洲无码视频图片| 久久免费精品琪琪| 国产剧情一区二区| 国产h视频免费观看| 欧美国产日韩在线播放| 精品欧美日韩国产日漫一区不卡| 欧美福利在线| 午夜毛片免费看| 国产熟睡乱子伦视频网站| 91美女视频在线| 色欲不卡无码一区二区| 国产精品欧美日本韩免费一区二区三区不卡| 成人国产精品2021| 欧美中出一区二区| 国产精品久久久免费视频| 久久久久久久蜜桃| 精品免费在线视频| 日韩在线网址| 国产欧美视频综合二区| 色综合狠狠操| 免费国产一级 片内射老| 天堂成人在线视频| 女同国产精品一区二区| 99久视频| 国产爽妇精品| 午夜激情婷婷| 91精品aⅴ无码中文字字幕蜜桃| 久久精品国产电影| 亚洲成人在线网| 一级成人欧美一区在线观看| 992tv国产人成在线观看| 久久精品日日躁夜夜躁欧美| 九九热免费在线视频| 69av在线| 日本午夜精品一本在线观看 | 国产情侣一区二区三区| 丁香婷婷激情网| 日韩中文无码av超清| 欧美午夜久久| 精品视频在线一区| 国产成人精品在线1区| 国产97视频在线观看| 中文字幕在线看| 久久精品国产在热久久2019| 日韩精品免费在线视频| 欧美专区日韩专区| 在线无码九区| 男人天堂伊人网| 99在线视频网站| 欧美亚洲国产视频| a免费毛片在线播放| 区国产精品搜索视频| 一级毛片免费观看久| 国产一区二区视频在线| 小说 亚洲 无码 精品| 免费人成又黄又爽的视频网站| 免费一级毛片| 成人永久免费A∨一级在线播放| 国产一区二区三区免费观看| 国产另类乱子伦精品免费女| 麻豆精品视频在线原创| 亚洲人人视频| 天天色综网| 久久semm亚洲国产| 夜夜操狠狠操| 亚洲成AV人手机在线观看网站| av大片在线无码免费| 白浆视频在线观看| 一区二区三区国产精品视频| 男女性午夜福利网站| 97一区二区在线播放| 天堂成人av|