999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合注意力機制的電子病歷命名實體識別

2020-10-28 01:44:10劉小云方玉華
計算機技術與發展 2020年10期
關鍵詞:機制效果信息

陳 琛,劉小云,方玉華

(廈門醫學院信息中心,福建 廈門 361023)

0 引 言

命名實體識別又稱專名識別(named entity recognition,NER),是自然語言處理中的一項基礎性關鍵任務,應用廣泛。其一般是指從非結構化文本中識別出有特定意義的實體,通常指人名、地名、組織機構名稱等專有名詞,為實現關系抽取、自動問答系統、知識圖譜等任務做基礎。

近年來,隨著國內醫療信息化程度的顯著提升,醫療領域內大量使用電子病歷代替傳統醫生手寫病歷,累積了海量的包含患者臨床醫療、診療、個人信息電子的病歷數據。應用自然語言處理、信息抽取等技術對累積的電子病歷文本數據進行數據挖掘獲取醫療知識進行臨床決策支持的研究受到廣泛關注[1-2];從電子病歷里自動挖掘、自動識別電子病歷文本中與患者健康密切相關的各類命名實體以及類型也可為將來進行醫療領域知識圖譜構建、醫療問答系統和醫療信息檢索等諸多自然語言技術處理任務打下良好基礎[3]。

傳統的命名實體識別方法主要有三種。第一種是基于規則和字典,主要采用語言學專家手工構造規則模板,這類方法依賴專家、規則定義復雜、系統可移植性差。第二種是基于統計的學習方法,如支持向量機(SVM)[4]、隱馬爾可夫模型(HMM)[5]、最大熵(maximum entropy)[6]和條件隨機場(CRF)[7]等。此類方法特征工程復雜,需要大量的標注數據。第三種方法是基于神經網絡的深度學習方法,此類方法不依賴特征模板,數據驅動,具有較好的泛化性。如Collobert[8]最早利用深度神經網絡進行命名實體研究;Lample[9]使用雙向長短時記憶神經網絡(bi-directional long short-term memory,BiLSTM)結合條件隨機場(conditional random field,CRF)的BiLSTM-CRF模型在命名實體識別中獲得了較好結果,并成為學界主流使用的進行命名實體識別的模型。BiLSTM-CRF模型雖然能考慮到上下文信息,但并沒有考慮到不同詞語、字符在句子中的重要性不同,識別結果仍有進一步提升的空間。

文中提出在主流的BiLSTM-CRF模型中引入注意力(attention)機制,建立了一個基于注意力機制的BiLSTM-CRF的命名實體模型,將其命名為ATTENTION-BiLSTM-CRF模型,應用在醫療領域的命名實體識別中。注意力機制模仿人類的注意力機制,重點關注有效信息,提升文本命名實體識別的F1值,在實驗中獲得了更好的結果。該模型無需特征工程,可以達到較BiLSTM-CRF模型更好的識別效果。

1 基于ATTENTION-BiLSTM-CRF的命名實體模型

該模型由輸入層、BiLSTM層、注意力機制層和CRF層構成,整體架構見圖1。

圖1 基于ATTENTION-BiLSTM-CRF模型整體架構

1.1 輸入層

輸入的句子x包括n個字符,使用隨機初始化的嵌入矩陣將查找向量表后獲得的one-hot向量映射為低維稠密的字向量作為文中模型的輸入。

x=(x1,x2,…,xn)

(1)

其中,xi∈d,表示i時刻神經網絡的輸入向量,d為維度。

1.2 雙向長短期記憶神經網絡(BiLSTM)層

(1)長短時記憶神經網絡(LSTM)。

長短期記憶神經網絡[10]模型是RNN的一種改進模型,通過輸入門、遺忘門和輸出門三個門結構概念,通過門控狀態控制傳輸,忘記不重要信息,保留需長時間記憶的信息,整合后在當前狀態下產生輸出狀態。實現了可以長期記憶一個狀態,解決了長距離依賴問題,如圖2所示[11]。

圖2 LSTM單元內部結構

公式如下:

遺忘門:

ft=σ(Whfht-1+Wxfxt+Wcfct-1+bf)

(2)

輸入門:

it=σ(Whiht-1+Wxixt+Wcict-1+bi)

(3)

(4)

當前時刻的單元狀態ct為:

(5)

輸出門,控制了長期記憶對當前輸出的影響:

ot=σ(Whoht-1+Wxoxt+Wcoct+bo)

(6)

LSTM單元最終的輸出由輸出門和單元狀態共同確定:

ht=ot°tanh(ct)

(7)

其中,符號°表示按點乘運算,Whf,Wxf,Wcf,Whi,Wxi,Wci,Whc,Wxc,Who,Wxo,Wco分別是權重,bf,bi,bc,bo為偏置項,σ表示sigmoid函數。

(2)雙向長短期記憶神經網絡(BiLSTM)[12]。

模型中針對單層LSTM模型只能獲得過去時刻的信息的問題,使用雙向LSTM模型,獲得過去和未來時刻的信息。BiLSTM模型[12]同一時刻包含兩個分別按前向和后向順序進行記憶的記憶單元(LSTM unit),最后將該時刻兩個方向的輸出進行拼接,即:

(8)

將結果從m維映射到k維,k為標注集的標簽數,從而得到BiLSTM層輸出結果矩陣P=(P1,P2,…,Pn)∈n×k。

1.3 注意力機制

雙向長短時記憶網絡在計算過程中,已將所有上下文信息考慮在內,取得不錯的識別效果。文中引入注意力機制[13],參考人類對注意力焦點的處理方式,使模型更專注于找到輸入數據中需要關注的目標信息和與當前輸出相關信息,抑制無用信息,提高輸出的質量和效率。為了使輸出更為準確,利用注意力機制為BiLSTM層的輸出分配不同的權重,新的輸出向量則是由各特征向量與對應權重的乘積相加后獲得。對于i時刻的模型輸出向量,模型利用注意力權重分布向量對編碼的源序列的隱藏層輸出進行加權求和計算,得到針對當前輸出的源序列編碼結果,公式如下:

(9)

其中,ci表示利用注意力機制輸出新的字特征向量,它是由前序模型輸出的各特征向量Pj與對應權重aij的乘積和計算得到。aij由前一時刻字特征向量ci-1與Pj通過式(10)和式(11)計算得出。ATTENTION層即對所有時刻的輸出乘上對應的權重相加作為最終輸出。隨后設置dropout[14],避免深度神經網絡訓練小數據集時產生的過擬合問題。

(10)

eij=vatanh(waci-1+wbPj)

(11)

其中,va,wa,wb為權重。

1.4 條件隨機場層

該層進行句子級別的序列標注。CRF模型[7]在標注過程中可以利用句子級別的標簽之間的依賴信息,進而預測標簽與標簽之間的關系。文中定義一個狀態轉移矩陣A作為參數隨模型一起訓練,Aij表示的是從第i個標簽轉移到第j個標簽的轉移概率。設待預測的標簽序列為y=(y1,y2,…,yn),則模型對于序列y的預測概率由注意力層輸出的字特征向量ci和CRF的參數矩陣A共同決定,為各個位置的概率之和,公式為:

(12)

使用Softmax函數進行歸一化計算得到真實標簽序列y=(y1,y2,…,yn)的概率為:

(13)

使用Adam[15]來訓練文中模型參數。在預測時對輸入的每個句子使用維特比算法(Viterbi algorithm)[16]解碼來得到使目標函數最大化的最佳標簽序列。

(14)

2 實驗結果和分析

2.1 實驗數據及標注方式

文中在CCKS2017Task2公開數據集上進行了實驗,取數據中的80%作為訓練集,10%作為驗證集,10%作為測試集。

該數據集為1 200份經人工標注數據,人工標注的標簽共計29 866個,其中身體部位10 719個,約占36%;檢查和檢驗共計9 546個,約占32%;癥狀和體征7 831個,約占26%;治療1 048個,約占4%;疾病和診斷722個,約占2%。

使用BIO標注方式對語料中的字符進行標注。即B-、I-代表實體首字、實體非首字,O代表該字不屬于命名實體的一部分。在此基礎上,為了將實體進行分類,還在實體標注的時候以”-type“形式添加類別。在數據集中標注如表1所示。

表1 實體標注

2.2 評價指標

模型的實體識別效果使用3個指標,準確率P、召回率R和F1值來評價。公式如下:

(15)

(16)

(17)

2.3 實驗環境和超參數設置

實驗的環境為Windows10,顯卡為GTX1080Ti,內存為16 G,Python版本為Python3.7.0,TensorFlow版本為Tensorflow1.4.0。

經過多次實驗后,模型表現最好的超參數設置如表2所示。

表2 ATTENTION-BiLSTM-CRF模型的超參數設置

2.4 實驗結果

該模型在CCKS2017Task2語料庫上做了4組對照實驗,比較了與ATTENTION-LSTM-CRF模型、BiLSTM-CRF模型和LSTM-CRF模型分別進行命名實體識別的效果。

結果如表3所示。

表3 命名實體類別模型效果總體比較 %

其中,對各類別實體識別效果如表4所示。

表4 各類別實體識別的準確率、召回率、F1值 %

2.5 分析與討論

由表3可以看出,引入ATTENTION機制后,F值較傳統BiLSTM-CRF模型所獲得的F值提高1.14%,可見加入ATTENTION層能夠有效選擇更有價值的樣本,提高模型性能。ATTENTION-BiLSTM-CRF模型的結果相較ATTENTION-LSTM-CRF模型提升了1.76%,BiLSTM-CRF較LSTM-CRF提升2.04%,說明雙向獲取全面信息的BiLSTM模型較單向LSTM模型能獲得更好的識別效果。

由表4可以觀察出,加入ATTENTION機制后,普遍提升了各類別實體的召回率(R值),即說該模型較其他模型能夠獲取更多信息,提高了查全率,即更好地處理了未登陸詞問題。對于訓練數據量明顯過少的疾病和診斷部分(僅占2%),注意到在該類型實體存在未登陸詞較多,且多為長詞可能存在實體嵌套等情況下,加入ATTENTION機制后明顯提升準確率、識別率和召回值,說明該模型在訓練數據較少的情況下仍能顯著提高模型識別效果,ATTENTION機制有利于去除噪音,凸顯重要信息,提升模型識別效果。但需要進一步提升仍然需要增加語料或者改進模型,進一步挖掘語義之間的關系。

3 結束語

從實驗結果來看,提出的ATTENTION-BiLSTM-CRF模型在醫療文本命名實體識別上能顯著提升訓練數據量較少情況下的實體的識別效果,且在不添加任何人工特征,也無復雜的后續處理的情況下,取得了較當前學界主流BiLSTM-CRF模型更好的結果,充分顯示了該模型的優越性。深度學習在醫療文本的文本挖掘中仍然有很大的提升空間,Attention機制對于提升識別效果有一定效果,未來可以考慮引進谷歌提出的BERT等模型應用于醫療文本命名實體識別方向等方式,進一步改進模型,提升命名實體識別的效果。

猜你喜歡
機制效果信息
按摩效果確有理論依據
迅速制造慢門虛化效果
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
打基礎 抓機制 顯成效
中國火炬(2014年4期)2014-07-24 14:22:19
主站蜘蛛池模板: 免费国产黄线在线观看| 99久久亚洲综合精品TS| 免费一级毛片不卡在线播放| 久久香蕉国产线看精品| 天天躁狠狠躁| 亚洲一欧洲中文字幕在线| 国产永久免费视频m3u8| 久久网欧美| 四虎精品免费久久| 久久国产V一级毛多内射| 亚洲国产中文在线二区三区免| 日韩欧美国产精品| 露脸一二三区国语对白| 美女免费精品高清毛片在线视| 亚洲欧美不卡视频| 激情午夜婷婷| 国产小视频免费观看| 亚洲va欧美va国产综合下载| 国产资源免费观看| 国产一线在线| av尤物免费在线观看| 成人在线观看不卡| 久热精品免费| 国产导航在线| 97人妻精品专区久久久久| 思思99热精品在线| 日韩欧美国产成人| 91视频99| 丁香六月激情综合| 国产玖玖玖精品视频| 97se亚洲综合| 亚洲国产黄色| 亚洲一区二区日韩欧美gif| 国产av一码二码三码无码| 欧美啪啪视频免码| 国产精品亚洲精品爽爽| 欧美97欧美综合色伦图| 国产一区二区色淫影院| 亚洲天堂久久| 亚洲国产成熟视频在线多多| 欧美精品另类| 亚洲精品自拍区在线观看| 波多野结衣亚洲一区| 97人人模人人爽人人喊小说| 亚洲成网777777国产精品| 久久窝窝国产精品午夜看片| 欧美性天天| 午夜福利无码一区二区| 日韩精品少妇无码受不了| 五月婷婷亚洲综合| 亚洲第一区在线| 又污又黄又无遮挡网站| 欧美特级AAAAAA视频免费观看| 成年人国产网站| 98精品全国免费观看视频| 欧美黄色网站在线看| 国产午夜精品鲁丝片| 日韩av手机在线| 国产国语一级毛片在线视频| 四虎永久在线精品国产免费| 亚洲国产欧美自拍| 97视频精品全国免费观看 | 亚洲欧美极品| 日本人妻一区二区三区不卡影院| 欧美在线综合视频| 国产午夜福利在线小视频| 综合久久久久久久综合网| 久久久久亚洲精品成人网| 欧美国产日产一区二区| 99久久亚洲综合精品TS| 国产视频只有无码精品| 精品午夜国产福利观看| 九九热视频精品在线| 制服丝袜无码每日更新| 国产在线自乱拍播放| 国产精品国产主播在线观看| 久久人人爽人人爽人人片aV东京热 | 青青国产视频| 免费在线播放毛片| 欧美国产日韩另类| 国产a v无码专区亚洲av| 国产欧美一区二区三区视频在线观看|