999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于FCN-CRF 的醫(yī)療命名實(shí)體識別

2022-09-14 08:19:52潘勝星唐雅娟
電子設(shè)計(jì)工程 2022年17期
關(guān)鍵詞:語義文本信息

潘勝星,唐雅娟

(汕頭大學(xué)電子工程系,廣東汕頭 515063)

在醫(yī)療領(lǐng)域中,存在大量的非結(jié)構(gòu)化文本,如醫(yī)療主題的文獻(xiàn)、病歷記錄等。通過信息抽取技術(shù),可以從大量非結(jié)構(gòu)化文本中高效地抽取出感興趣的信息,在后續(xù)任務(wù)中使用,如自動(dòng)醫(yī)療問答、智能醫(yī)療診斷等。

命名實(shí)體識別(Named Entity Reconition,NER)任務(wù)是信息抽取的一個(gè)基礎(chǔ)任務(wù),旨在從非結(jié)構(gòu)化文本中抽取出特定的實(shí)體。該任務(wù)可以被看作一個(gè)序列標(biāo)注任務(wù)[1]。文獻(xiàn)[2-4]提出以LSTM-CRF 為基本框架的模型進(jìn)行命名實(shí)體識別,該模型主要利用了字級別的信息進(jìn)行標(biāo)注。文獻(xiàn)[5-6]對LSTM 單元進(jìn)行了修改,使其動(dòng)態(tài)地結(jié)合詞信息,但無法并行計(jì)算。文獻(xiàn)[7]延續(xù)該思路,引入rethinking 機(jī)制,并將LSTM 單元換為CNN 單元,從而實(shí)現(xiàn)單樣本輸入的并行計(jì)算,提高GPU 的利用率。文獻(xiàn)[8-9]將圖神經(jīng)網(wǎng)絡(luò)引入NER 中,用節(jié)點(diǎn)之間的路徑表示詞匯信息,對節(jié)點(diǎn)進(jìn)行信息的聚合從而得到標(biāo)注結(jié)果。文獻(xiàn)[10]將表示詞BMES 信息的向量與字級別的向量表示拼接后送入模型中。整體來看,基于詞典增強(qiáng)的方法需要對每一個(gè)輸入模型的句子進(jìn)行潛在詞匹配,該過程的時(shí)間復(fù)雜度通常是O(n2)級別的,而輸入文本長度通常在20~200 個(gè)字符之間,因此訓(xùn)練模型所需的時(shí)間非常長。

語義分割任務(wù)同樣可以看作一個(gè)序列標(biāo)注任務(wù),區(qū)別在于語義分割作用于二維的圖像。語義分割與NER 類似,標(biāo)注都具有連續(xù)性以及平移不變性。基于兩個(gè)任務(wù)的相似性,提出將FCN 模型引入NER 任務(wù)中。實(shí)驗(yàn)結(jié)果表明,F(xiàn)CN 模型應(yīng)用于命名實(shí)體識別時(shí)可以得到與基于詞典增強(qiáng)的方法相似的性能,同時(shí)無需詞信息,因此訓(xùn)練所需的時(shí)間大幅度縮短,更易于在實(shí)踐中使用。

1 任務(wù)比較

從表面上看,語義分割與命名實(shí)體識別是不同的任務(wù),一個(gè)來自計(jì)算機(jī)視覺領(lǐng)域,另一個(gè)來自自然語言處理領(lǐng)域。但事實(shí)上,這兩個(gè)任務(wù)具有頗多相似性。

1.1 標(biāo)注的單位

圖像語義分割任務(wù)處理的對象是二維的圖像,而命名實(shí)體識別任務(wù)所處理的對象是一維的文本。二者都可以被看作是序列標(biāo)注的問題,語義分割標(biāo)注的單位是像素,而命名實(shí)體識別標(biāo)注的單位是字。

1.2 最小單位的表示形式

圖像的像素在計(jì)算機(jī)中一般會(huì)被表示為一個(gè)RGB 三通道的向量,而文字在計(jì)算機(jī)中則會(huì)被映射為表示字符的向量。即兩個(gè)任務(wù)輸入的最小單位都是向量,輸入的是向量的序列。

1.3 平移不變性

兩個(gè)任務(wù)標(biāo)注出的內(nèi)容均具有平移不變性。圖像中,分割出的物體不因位置改變而改變其所屬類別;文本中,抽取出的實(shí)體不因其在文本中位置的移動(dòng)而改變類別。

1.4 語義連續(xù)性

每個(gè)最小單位并非孤立地標(biāo)注,而是受周圍標(biāo)注的影響。在圖像中,被標(biāo)注為天空的像素點(diǎn)附近的像素點(diǎn),其標(biāo)簽更可能依然是天空,而有較小的可能性是人或者汽車。在文本中,被標(biāo)注為B-類別1的文字之后,通常只能接續(xù)位置為M 或者E 的標(biāo)簽,且不能被標(biāo)注為1 之外的類別。由于該特性的存在,語義分割的模型中有引入CRF 優(yōu)化輸出的方法[11],而在NER 中,在最后輸出標(biāo)簽之前使用CRF 則是幾乎目前所有方法的共同選擇。

2 FCN-CRF模型

該節(jié)將原本應(yīng)用于語義分割的FCN 模型的結(jié)構(gòu)進(jìn)行修改,得到FCN-CRF 模型。

2.1 整體結(jié)構(gòu)

FCN-CRF 整體結(jié)構(gòu)與FCN 基本一致,保持了“編碼器-解碼器”結(jié)構(gòu)。編碼器部分由多個(gè)卷積層組成,逐層抽取特征并映射為標(biāo)簽分?jǐn)?shù),在解碼器一側(cè),從最后一層卷積層輸出的標(biāo)簽分?jǐn)?shù)開始,往前逐層使用轉(zhuǎn)置卷積結(jié)合信息,輸出分?jǐn)?shù)。

2.2 輸入層

在輸入層,對于一個(gè)輸入的文本序列X={x1,x2,...,xn}中的每一個(gè)字xk,通過一個(gè)嵌入查找表ec得到對應(yīng)的向量,表示為ek[12],如式(1)所示:

2.3 編碼器

編碼器部分由數(shù)個(gè)卷積層組成。與圖像不同,文本由于長度相差較大,通常不會(huì)被全部填充到一樣長度,而是按照長度排序,分批送入模型前對該批次文本填充到統(tǒng)一長度[13],因此輸入文本長度是不統(tǒng)一的,模型在運(yùn)算過程中需要保持輸入的長度不變。因此在編碼器中,卷積層使用尺寸為3、填充為1 的一維卷積,從而保持文本長度不變。需要注意的是,雖然文本序列可以被表示為向量序列,看作一個(gè)二維矩陣,但每一個(gè)向量是需要被整體看待的,如果使用二維卷積則會(huì)破壞每個(gè)向量的信息完整度,因此需要選擇一維卷積[14-15]。

此外,同樣是考慮到文本長度保持不變,因此池化操作被去除了。

2.4 解碼器

解碼器部分主要由轉(zhuǎn)置卷積層組成,例如,一個(gè)5 層的FCN-CRF。在編碼器的每一層,先抽取特征并映射到類別分?jǐn)?shù),然后將第5 層的分?jǐn)?shù)與第4 層融合,并使用轉(zhuǎn)置卷積重新映射到類別分?jǐn)?shù),得到結(jié)合了兩層信息的結(jié)果。以此類推,然后將該結(jié)果與第3層的分?jǐn)?shù)融合,再次使用轉(zhuǎn)置卷積。其中,轉(zhuǎn)置卷積與在語義分割中的設(shè)置不同,這里不需要對文本序列進(jìn)行上采樣,因此填充設(shè)置為1,使得經(jīng)過轉(zhuǎn)置卷積后的長度與輸入時(shí)相等。

2.5 條件隨機(jī)場

經(jīng)過解碼器后,模型得到了關(guān)于輸入序列的標(biāo)注分?jǐn)?shù)序列。但此時(shí)輸出的標(biāo)簽,對于前后的關(guān)聯(lián)性考慮不夠強(qiáng),因此,與目前的主流方法一致,在最后輸出之前使用條件隨機(jī)場對輸出序列進(jìn)行約束[16-17]。

3 實(shí)驗(yàn)結(jié)果

在瑞金糖尿病數(shù)據(jù)集上,對FCN-CRF 模型的性能進(jìn)行測試,并選取了BiLSTM-CRF、Lattice LSTM、LGN 3 個(gè)模型作為對照。其中BiLSTM-CRF 是基于字級別信息的模型,而Lattice LSTM 與LGN 則是基于詞典增強(qiáng)的模型。

瑞金數(shù)據(jù)集包含493 篇糖尿病領(lǐng)域的醫(yī)學(xué)文獻(xiàn),標(biāo)注者都具有醫(yī)學(xué)背景。首先,對數(shù)據(jù)集進(jìn)行預(yù)處理,包括去除無效字符,劃分句子,限制句子長度在20~200 個(gè)字符之間。防止過長的序列使訓(xùn)練時(shí)中間保存的梯度過多導(dǎo)致顯存不足,也防止過長的序列導(dǎo)致CRF 進(jìn)行解碼時(shí)效率過度下降。

模型的隱藏層單元數(shù)均為200,dropout 設(shè)置為0.1,優(yōu)化器使用Adam,權(quán)值衰減為10-8。每個(gè)模型訓(xùn)練20 個(gè)epoch。對數(shù)據(jù)集做十折交叉驗(yàn)證得到實(shí)驗(yàn)結(jié)果。輸入部分使用word2vec 在中文語料上訓(xùn)練得到的長度為100 維的詞向量。

實(shí)驗(yàn)在Windows10 系統(tǒng)下進(jìn)行,IDE 是Pycharm,深度學(xué)習(xí)框架為Pytorch。評價(jià)指標(biāo)選擇準(zhǔn)確率(P)、召回率(R)以及F1,按照NER 中的嚴(yán)格F1 標(biāo)準(zhǔn)進(jìn)行結(jié)果統(tǒng)計(jì),記S為預(yù)測出的實(shí)體集合,G為句子中真實(shí)的實(shí)體集合,P、R、F1 的計(jì)算方式分別如式(2)-(4)所示。

FCN-CRF 模型最佳性能與其他模型對比的結(jié)果如表1 所示。可以看到FCN-CRF 超過BiLSTMCRF 約2.6%。與Lattice LSTM、LGN 模型的表現(xiàn)非常接近,F(xiàn)1 值差距在1%以內(nèi)。表1 中展示的時(shí)間為FCN-CRF 在瑞金數(shù)據(jù)集上訓(xùn)練100 個(gè)epoch 后求得每個(gè)epoch 的平均訓(xùn)練時(shí)間,可以看到FCN-CRF 的時(shí)間僅為基于詞典的方法的不到2%。

表1 各模型的實(shí)驗(yàn)結(jié)果

接下來,對不同層數(shù)的FCN-CRF 進(jìn)行了實(shí)驗(yàn)。不同層數(shù)的性能如圖1 所示,從圖中可看出在瑞金數(shù)據(jù)集上,7 層的FCN-CRF 可以達(dá)到最好的效果。當(dāng)層數(shù)堆疊更多時(shí),模型性能反而下降,因?yàn)榇藭r(shí)模型的參數(shù)冗余開始產(chǎn)生過擬合。

圖1 不同層數(shù)的性能

表2 中展示了轉(zhuǎn)置卷積層對于模型性能的影響。可以看到,將解碼器部分的轉(zhuǎn)置卷積層全部換為卷積層時(shí),在FCN-CRF 為7 層時(shí),性能出現(xiàn)明顯下降。該現(xiàn)象可以解釋為,在解碼器部分使用卷積層時(shí),相當(dāng)于繼續(xù)向更高層次抽取特征,該操作反而使得模型性能下降。

表2 轉(zhuǎn)置卷積對模型的性能影響

在FCN 模型用于圖像語義分割時(shí),實(shí)驗(yàn)結(jié)果顯示,模型從編碼器的最后一層逐層往前結(jié)合淺層的特征,并非越多越好,結(jié)合到過于低層的信息時(shí),反而會(huì)影響模型的性能。對于該現(xiàn)象,同樣希望了解在NER 中是否出現(xiàn),因此對于不同層數(shù)的FCN-CRF模型均進(jìn)行了對比測試,觀察融合特征層數(shù)對模型的性能影響,如圖2 所示。

圖2 融合特征層數(shù)對性能的影響

從圖2可以觀察得知,對于不同層數(shù)的FCN-CRF,均有類似的結(jié)果,即隨著往淺層方向融合的特征層數(shù)減少,模型的性能下降。但在圖像語義分割任務(wù)中,融合特征層數(shù)較多反而影響性能。針對這一結(jié)果的解釋是,因?yàn)閳D像的輸入最小單位是像素,像素是僅包含3 維RGB 通道信息的很短的向量,每個(gè)最小單位包含的信息量較少,因此FCN 最初幾層抽取圖像特征時(shí),包含的信息相對較低級,信息量較少,對于最終標(biāo)注結(jié)果影響較小。而在文本數(shù)據(jù)中,輸入的最小單位是字符,每個(gè)字符均會(huì)被映射為高維的詞向量,此時(shí)每個(gè)最小單位所攜帶的信息量較多,在淺層時(shí)抽取的特征已經(jīng)包含較多信息,若不對這部分信息加以融合,則可能較大程度上影響模型的最終性能。該部分實(shí)驗(yàn)結(jié)果說明,在NER 中使用FCN-CRF 模型時(shí),為了得到更好的性能表現(xiàn),應(yīng)該把每一層輸出的特征分?jǐn)?shù)都融合到一起來獲得最終的輸出。

4 結(jié)論

目前,NER 模型大多需要結(jié)合詞典信息,效率較低。該文提出將FCN-CRF 模型應(yīng)用于NER 任務(wù)。實(shí)驗(yàn)結(jié)果證明,F(xiàn)CN-CRF 無需結(jié)合詞典信息,也能達(dá)到和現(xiàn)有模型相似的性能,同時(shí)大幅度降低了模型訓(xùn)練所需的時(shí)間,提高了在實(shí)踐中的應(yīng)用性。

猜你喜歡
語義文本信息
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語義模糊
展會(huì)信息
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
語義分析與漢俄副名組合
主站蜘蛛池模板: 强奷白丝美女在线观看| 亚洲AV无码乱码在线观看裸奔| 国产三级成人| 亚洲综合精品香蕉久久网| 国产自视频| 久久精品中文无码资源站| 色噜噜狠狠色综合网图区| 亚洲色图欧美在线| 57pao国产成视频免费播放| 91外围女在线观看| 亚洲Aⅴ无码专区在线观看q| 国产欧美综合在线观看第七页| 久久精品欧美一区二区| 亚洲色图欧美激情| 四虎在线观看视频高清无码| 人妻丰满熟妇av五码区| 国产尤物视频在线| 亚洲欧美人成人让影院| 99re这里只有国产中文精品国产精品 | 91亚瑟视频| 成人午夜亚洲影视在线观看| 久久永久视频| 欧美三级自拍| 无码综合天天久久综合网| 一本一道波多野结衣一区二区| 成人福利在线视频免费观看| 久久精品国产精品国产一区| 欧美午夜网| 欧美亚洲另类在线观看| 自拍中文字幕| 亚洲swag精品自拍一区| 精品福利视频网| 日韩精品专区免费无码aⅴ| 国产亚洲视频在线观看| 国产精品美人久久久久久AV| 亚洲第一福利视频导航| 自拍欧美亚洲| 中文字幕av一区二区三区欲色| 无码aⅴ精品一区二区三区| 国产一区在线视频观看| 色吊丝av中文字幕| 国产福利一区视频| 欧美h在线观看| 中国毛片网| 91免费国产高清观看| 不卡无码h在线观看| 欧美一区精品| 亚洲国产成人精品无码区性色| 在线视频97| 国产啪在线91| 97人人做人人爽香蕉精品| 综合亚洲网| 久久精品国产国语对白| lhav亚洲精品| 欧美亚洲另类在线观看| 国产福利观看| 亚洲日韩国产精品综合在线观看| 伊人激情综合网| 又粗又大又爽又紧免费视频| 国产麻豆福利av在线播放| 亚洲精品视频网| 亚洲日韩Av中文字幕无码| 亚洲区视频在线观看| 欧洲日本亚洲中文字幕| 国产屁屁影院| 亚洲欧美精品在线| 久久国产精品麻豆系列| 国产欧美中文字幕| 国产黄色爱视频| 亚洲精品另类| 伊伊人成亚洲综合人网7777| 亚洲色图另类| 白浆视频在线观看| 综合人妻久久一区二区精品| 久久综合一个色综合网| 亚洲欧美在线精品一区二区| 日本高清有码人妻| AV无码国产在线看岛国岛| 日本国产一区在线观看| 新SSS无码手机在线观看| 国产91av在线| 国产内射在线观看|