999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ALBERT與BILSTM的糖尿病命名實體識別

2021-12-02 06:44:40馬詩語黃潤才
中國醫學物理學雜志 2021年11期
關鍵詞:文本糖尿病模型

馬詩語,黃潤才

上海工程技術大學電子電氣工程學院,上海 201620

前言

糖尿病是當前威脅全球人類健康的最重要的非傳染性疾病之一,根據國際糖尿病聯盟統計,2011年全球糖尿病患者已達3.7 億,其中80%在發展中國家,預計到2030年全球將有5億多糖尿病患者[1]。中國糖尿病患者在全球占比最高,成人糖尿病患者約1.298億,平均每10個成年人中有1個糖尿病患者,因此,防治糖尿病成為重點難題之一。然而,我國糖尿病血糖控制狀況不佳,有研究顯示,糖尿病知曉率、治療率、控制率均偏低[1]。為此,需要加強居民對糖尿病知識的關注,通過分析糖尿病相關知識來引導廣大市民及醫療衛生機構提早預防或延緩這一疾病的發生[2]。人們對如何迅速從眾多文獻中獲取專業知識給予了極大的關注。醫學文本挖掘技術在文本知識的自動獲取中起著重要作用,作為這項技術的任務之一,糖尿病命名實體識別(Named Entity Recognition, NER)旨在從糖尿病文獻中識別特定類型的名稱,如1型糖尿病、2型糖尿病、血糖、胰島素促分泌素等[3]。NER 為下一步關系抽取,構建知識圖譜提供了前提;為引導廣大市民了解糖尿病相關知識,指導糖尿病患者加強健康管理提供了技術幫助。

1 相關工作

百度研究院在2015年提出了深度學習應用NER的經典模型,即BILSTM-CRF[4],憑借雙向長短期記憶網絡(Bidirectional Long Short-Term Memory Network,BILSTM)對上下文信息進行深度建模,條件隨機場(Conditional Random Fields,CRF)利用特征矩陣解碼整個句子的標簽。Strubell等[5]提出迭代膨脹卷積神經網絡(Iterated Dilated Convolutional Neural Network,IDCNN),與傳統的CNN相比,此模型在大文本和結構化預測中具有更好的表現能力。對于文本的表示,傳統的詞表示方法有one-hot、詞袋模型、n-gram[6],但這些離散的表示無法考慮詞向量之間的關系。為提高模型精度,利用深度神經網絡提取特征得到越來越多的關注。Mikoliv等[7]提出的word2vec詞嵌入模型是目前最常用的詞嵌入模型之一,然而詞嵌入模型只提供一層表征,無法解決一詞多義的問題。隨著深度學習的發展,自然語言處理(Natural Language Processing,NLP)不再是一個任務一個模型,而是預先在大量語料上訓練好一個模型,再對模型在特定的下游任務上進行微調,微調后的模型在眾多NLP任務上均取得了不錯的效果,如ELMO[8]、GTP[9]、BERT[10]等。李妮等[11]利用BERT與IDCNN-CRF的融合提高了NER的準確率。然而,目前這些預訓練模型關注的焦點在于將模型變得更復雜,依賴越來越多的參數,很少考慮訓練耗時長、成本高等問題。對此,Lan等[12]在2019年提出BERT的輕量級模型,即基于輕量型動態詞向量模型(A Lite BERT,ALBERT),兩個模型架構幾乎一樣,但ALBERT參數量相比BERT大幅度減少。即便如此,模型性能不但沒有下降,反而有所提升。

鑒于先驗知識對實體識別任務有良好的幫助,本研究將ALBERT 與經典BILSTM-CRF 相結合,提出融合ALBERT的糖尿病NER方法。

2 ALBERT-BILSTM-CRF

本研究提出的ALBERT-BILSTM-CRF 模型的主要結構如圖1所示。

圖1 ALBERT-BILSTM-CRF 的模型框架Fig.1 ALBERT-BILSTM-CRF model framework

該模型主要分為3 個部分,輸入表示層、序列建模層和預測解碼層。輸入表示部分未使用傳統的人工特征,而是選擇了擁有先驗知識的預訓練模型提取字符級表征。本研究使用的是ALBERT 模型,該模型通過Embedding層把每個字映射為字向量;然后采用Transformer 雙向綜合的考慮上下文特征進行編碼,將學到的知識加到token的表示上,獲得字符級別的語義信息。獲取的字向量輸入到序列編碼層的BILSTM 模塊中,BILSTM 考慮上下文信息并進行高維特征抽取。最后在CRF 語義解碼模塊中預測出真實標簽序列。

本研究在經典模型BILSTM-CRF 的基礎上進行改進,引入ALBERT 模型。ALBERT 模型通過對字符的掩碼學習可以捕捉到字符上下文之間的語法和語義層面信息,增強字符級向量的語義表征能力。

2.1 ALBERT預訓練模型

ALBERT 是一種輕量級的BERT[13]。該模型架構與BERT 幾乎沒有區別,但其所占內存僅為BERT的十分之一。為了不大幅度降低模型性能,ALBERT提出跨層參數共享機制,使用句子順序預測(Sentence Order Prediction,SOP)訓練方法代替下一句子預測(Next Sentence Prediction,NSP)訓練方法。ALBERT預訓練模型的結構如圖2所示。

圖2 ALBERT預訓練模型結構Fig.2 ALBERT pre-training model structure

ALBERT 的 結 構 是 由 Embedding 層 和Transformer encoder 層組成。Embedding 層通過字典將每個字符映射成字向量,輸入串聯的Transformer encoder 層,通過預訓練去捕捉語法和語義層面的信息,把文本中包含的語言知識編碼到Transformer 中以參數的形式體現出來。

為了訓練Transformer 模型中的encoder 層,ALBERT設計了兩個任務:掩碼學習和SOP。掩碼學習的基本想法是隨機遮擋一或兩個單詞,讓encoder層根據前后文預測被遮蓋的單詞。SOP 的基本思想是將兩個句子放在一起,encoder 層通過學習去判斷兩句話是否是原文中相鄰且順序正常的兩句話。BERT 的NSP 任務只需要判斷是否為相鄰的兩句話,而ALBERT 在相鄰的基礎上更側重于句子之間的連貫性,所以SOP 在一定程度上能夠解決NSP 任務。ALBERT 任務較BERT 難度增加,也提高了多語句編碼的性能。

2.2 Transformer

ALBERT 是一個流程,采用雙向多層的編碼器Transformer。 為了使模型輕量化,ALBERT 在Transformer 層采用參數共享的方法來減少模型存儲參數量。Transformer 發表于2017年,是seq2seq 模型,包括encoder 與decoder 兩部分[14]。ALBERT 只采用encoder 部分。encoder 網絡由多頭Self-attention和全連接層搭建而成。Self-attention 的計算公式如下:

其中,Q,K,V是輸入向量通過線性變換得到的3個輸入矩陣,dk為輸入字向量維度。通過計算每一個輸入字向量與序列其它字向量之間的關系比重大小,得到不同的權重,再將權重與所有序列的表示進行加權求和,最終獲得新的字符表征。

2.3 BILSTM

由于ALBERT 中的encoder 部分采用自注意力結構,因此輸出的特征缺少順序性。為了得到糖尿病文本中的序列特征,本研究采用BILSTM模型對糖尿病文本的上下文信息進行建模,BILSTM 網絡結構與BIRNN 類似,在隱含層單元采用LSTM[15]結構,其單元結構如圖3所示。

圖3 LSTM 單元結構Fig.3 LSTM unit structure

LSTM 是對Simple RNN 模型的改進,可以避免梯度消失的問題,擁有更長的記憶。LSTM 內部結構中,最重要的結構是傳輸帶C,過去的信息直接通過傳輸帶送到下一時刻,傳輸帶可以避免梯度消失。

LSTM 由遺忘門、輸入門、計算及輸出門這4部分組成,它們可以選擇性地讓信息通過。遺忘門ft介于0~1 之間,可以有選擇地讓傳輸帶Ct-1的值通過,假設ft中有元素0,那么Ct-1中對應元素無法通過,即選擇性遺忘掉一些元素;并且輸入門it向傳輸帶C中添加了新的信息,從而對傳輸帶進行一輪更新。輸出門ot依賴于舊的狀態向量ht-1和新的輸入Xt,計算類似于遺忘門。最后,對傳輸帶Ct的每一個元素求雙曲正切,將元素壓到-1 與+1 之間,然后將ot與tanh[Ct]的對應元素相乘,運算符記為°,得到狀態向量ht。整體流程為:

其中,σ為Sigmoid激活函數;、ft、it、Ct、ot、ht、Xt分別為t時刻的輸入的中間狀態、遺忘門、輸入門、傳輸帶、輸出門、狀態向量、輸入向量;b為偏置向量;tanh為雙曲正切函數;W為模型參數矩陣。

BILSTM 訓練兩條雙向LSTM,一條從左往右,一條從右往左,兩條LSTM 是完全獨立的,不共享參數及狀態向量。BILSTM 層的輸出向量是由兩條LSTM輸出的狀態向量拼接后得到的。

2.4 CRF

BILSTM 層能夠學習上下文信息,但不能限制前后兩個標簽之間的關系,輸出結果相互之間沒有影響。BILSTM 在每一步挑選出最大的概率值作為輸出標簽,這樣可能會出現B-label1 后接入B-label2 的情況;而CRF 中有特征轉移矩陣,可以考慮輸出標簽之間的順序性,從而提高預測的準確率。

CRF 是由Lafferty 等[16]在2001年首次提出。CRF 用于序列標注問題,是通過輸入序列來預測輸出序列的判別式模型。給定一組觀測序列X={x1,x2,…,xn},得到預測序列標簽y={y1,y2,…,yn}。文本X對應的標簽y的分數由轉移矩陣A和發射矩陣P相加得到。

其中,Ayi,yi+1為從標簽yi到標簽yi+1的轉移分數;Pi,yi為發射矩陣,表示第i個字符預測為yi標簽的分數。

CRF 的優化目標是正確序列的概率最大化,給定一個線性鏈條件隨機場P(y|X)

其中,y'為所有可能的狀態序列集合,y為真實序列。

讓真實序列的分值在所有序列的分值和中最大。最終做預測時,采用Veterbi 算法,在所有狀態序列中尋找分值最大的序列,即為CRF 層的最終標注序列。

3 實驗

3.1 實驗環境與數據

本實驗在Ubuntu18.04 LTS 上進行,使用語言為Python 3.7,GPU 版本為華碩1070Ti GPU,顯存8 G,CPU 為E3-1281-V3,系統內存為16 G,tensorfolw 版本為1.15GPU版。

實驗數據由阿里云天池大數據平臺提供,數據內容主要為基于糖尿病的相關研究論文以及糖尿病臨床指南。其中共有363 篇文檔,約250 萬字,訓練集與驗證集以8:2 的比例劃分。測試集由平臺獨立提供的59篇糖尿病文本構成。由于數據存在一定的噪聲,需要對數據進行清洗數據、句子劃分等一系列預處理操作。

3.2 概念定義與標注文本

糖尿病NER 旨在從大量醫學文獻中抽取有價值的醫學知識,其知識指醫學文本中有用的實體,將實體按事先定義的實體類型進行分類,即NER 過程。實體類型的定義需要滿足知識圖譜的應用需求,本研究針對糖尿病知識圖譜的應用需求,定義了15 類實體類型,如表1所示。

表1 實體類型定義Tab.1 Entity type definition

本研究采取BIO序列標注模式,對句子中的每個字符進行標注。“B-實體類型”表示為該實體類型的實體首字符標簽,“I-實體類型”表示為該實體類型除了首字符標簽外實體其他符標簽,“O”表示非實體標簽。本次任務有15 種實體類型,因此每個字符有31種標注可能性,如表2所示。

表2 實體標簽定義Tab.2 Entity tag definition

3.3 評價指標

糖尿病NER 采用精確率P、召回率R 和F1 值作為評價指標,具體公式如下。

其中,TP 為識別到正確實體的個數;FP 為識別到非實體的個數;FN為未識別到正確實體的個數。

3.4 參數設置

本研究采用谷歌發布的ALBERT_BASE 模型,其模型嵌入層尺寸128,隱藏層共12 層,隱層維度768,采用12 頭模式,并使用gelu;BILSTM 的隱藏層節點數為100。ALBERT-BILSTM-CRF 模型訓練參數如下:最大序列長度為128,batch_size 為32,epoch為9,ALBERT的學習率為5e-5,其他模塊的學習率為0.001,dropout為0.5。

3.5 實驗過程

為了證明ALBERT-BILSTM-CRF 明顯提升了糖尿病NER 效果,本研究設計了幾種方法進行對比:(1)BILSTM-CRF 模型,該模型為NER 的經典模型,使用word2vec 詞嵌入作為文本的輸入表示,然后輸入BILSTM-CRF 模型進行編碼以及預測。(2)IDCNN-CRF 模型,該模型同樣使用預訓練好的word2vec 詞嵌入作為輸入表示,語義編碼部分使用的是IDCNN,與BILSTM-CRF 模型對比。(3)BILSTM-ATT-CRF 模型,在BILSTM 后添加一層注意力機制,根據相關程度選擇序列特征。(4)BERTBILSTM-CRF 模型,模型使用預訓練模型BERT 提取語義表征。

3.6 實驗結果與分析

實驗設置不同epoch 值,研究模型隨著迭代次數的擬合狀況,從而確定合適的epoch 值。實驗結果如圖4所示,橫坐標為epoch值,縱坐標為實體識別的性能百分數。圖中折線分別是F1、精確率和召回率的變化情況。由圖可知,在第8 個epoch 時,F1 和精確率的值分別為70.02%和71.04%,達到最高;召回率在第9 個epoch 時達到最優值71.12%。隨著訓練次數的增加,模型逐漸擬合并趨于平穩狀態。綜合考慮,本研究選擇9為實驗的epoch值。

圖4 ALBERT模型的各項指標變化Fig.4 Changes in various indicators of ALBERT model

為了體現出動態詞向量模型的優越性,本研究對比了在糖尿病數據集訓練過程中不同模型F1值的變化情況。從圖5可以看出,BILSTM-CRF 和IDCNN-CRF收斂較為緩慢,在第7個epoch時開始收斂,而融合了ALBERT 模型的BILSTM-CRF 收斂更早速度更快,并且訓練期間F1值波動較為平穩,遠高于word2vec 詞嵌入模型的F1 值,說明ALBERT 提供了更深層次的語義信息,進一步證明了動態詞向量的優越性。除此之外,與其他模型的訓練結果見表3。

圖5 不同模型的F1值對比Fig.5 Comparison of F1 values of different model

表3 不同模型的精確率、召回率、F1值對比(%)Tab.3 Comparison of precision,recall rate and F1 value of different models(%)

由表3可知,在糖尿病數據集中,BILSTM-CRF與IDCNN-CRF 實體識別的F1 值分別為65.25%和61.93%,BILSTM-CRF 添加注意力機制后F1 值達到66.47%,較之前提升1.22%。其中,BILSTM 最大的優點是具有強大的記憶力,在長文本處理中,距離較遠的兩個單詞仍有依賴關系;IDCNN 更關注實體周圍的信息;加入一層注意力機制的BILSTM,注意力權重矩陣會根據每個單元特征向量對于單詞的重要程度分配不同的權重,對特征向量進行加權。實驗結果說明BILSTM 在序列特征抽取方面優于IDCNN,基于注意力機制的模型相比無注意力機制的模型實體識別的F1 值提高1.22%左右。對比模型ALBERT-BILSTM-CRF 與BILSTM-CRF,F1 值提高了2.67%,說明ALBERT相對于傳統的word2vec詞向量,可以更準確地捕捉上下文的語法和語義層面的信息,具有更好的語義表征能力。

ALBERT-BILSTM-CRF 與BERT-BILSTM-CRF相比,9 輪次的訓練后,識別準確率分別為68.14%和66.51%,F1 值分別為67.92%和67.72%;另一方面,BERT-BILSTM-CRF 訓練耗時逼近50 min,而ALBERT-BILSTM-CRF 模型耗時40 min。總體看來,在各項評價指標相差不大情況下,ALBERT 的模型訓練效率更為出色。這是由于ABLBERT 采用了參數共享機制,模型參數量僅為BERT 的十分之一。在訓練過程中,需要梯度更新的參數大幅度減少,訓練速度加快,在NER 任務上達到了相同的表現。從實驗結果中可以看出,在削減參數量后,ALBERT 模型識別速度提高但性能并沒有下降,這也說明BERT中存在冗余參數。因此,將ALBERT 引入輸入表示層表現更為出色。

4 結束語

針對大多數動態詞向量模型訓練耗時長、資源成本高的缺點,本研究采用ALBERT 模型,提出ALBERT-BILSTM-CRF,ALBERT 通過參數共享機制,減少訓練時長,提高實體識別的效率。該模型在糖尿病數據集上取得了良好的結果,與傳統模型方法相比有所提高,但識別效果仍有提升空間,可以利用文本的其他特征,通過雙通道特征融合繼續進行研究。在接下來的工作中,將在糖尿病NER 的基礎上,進行關系抽取,對糖尿病領域知識圖譜基本框架進行設計。

猜你喜歡
文本糖尿病模型
一半模型
糖尿病知識問答
中老年保健(2022年5期)2022-08-24 02:35:42
糖尿病知識問答
中老年保健(2022年1期)2022-08-17 06:14:56
糖尿病知識問答
中老年保健(2021年5期)2021-08-24 07:07:20
糖尿病知識問答
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
主站蜘蛛池模板: 免费人欧美成又黄又爽的视频| 人妻少妇乱子伦精品无码专区毛片| 91九色最新地址| 欧美国产另类| 无码精品一区二区久久久| 午夜视频在线观看区二区| 91亚洲精品国产自在现线| 亚洲成人一区二区| 精品无码一区二区三区电影| 亚洲欧美不卡视频| 精品黑人一区二区三区| 激情综合五月网| 国产精品第| 国产精品视频导航| 欧美色99| 在线亚洲精品福利网址导航| 婷婷午夜影院| 欧美午夜一区| 欧美一级夜夜爽| 成年女人a毛片免费视频| 波多野结衣一区二区三区四区视频 | 91精品国产综合久久香蕉922| 久久免费精品琪琪| 国产人成乱码视频免费观看| 香蕉蕉亚亚洲aav综合| 四虎在线观看视频高清无码| 成年人视频一区二区| av一区二区无码在线| 黄色网站不卡无码| 国产91精品调教在线播放| 日韩第一页在线| 99re热精品视频中文字幕不卡| 欧美劲爆第一页| 最新国产网站| 久青草免费在线视频| 福利国产微拍广场一区视频在线| 亚洲美女一级毛片| 91午夜福利在线观看| 国禁国产you女视频网站| 国产午夜无码专区喷水| 偷拍久久网| 久久久久人妻一区精品| 青青青视频91在线 | 99热这里只有精品久久免费| 国产成人禁片在线观看| jizz亚洲高清在线观看| jizz在线观看| 美女扒开下面流白浆在线试听| 欧美一区二区精品久久久| 国产在线小视频| 永久在线精品免费视频观看| 国产视频a| 国产欧美日韩18| 99精品影院| 国产亚洲精品资源在线26u| 中文字幕无码电影| 东京热高清无码精品| 日本成人福利视频| 免费观看亚洲人成网站| 国产麻豆aⅴ精品无码| 一级不卡毛片| 999福利激情视频| 国产成人91精品| 亚洲中文在线视频| AV老司机AV天堂| 国产一级无码不卡视频| 日韩最新中文字幕| 尤物在线观看乱码| 国产后式a一视频| 国产精品香蕉| 国产迷奸在线看| 国产一区二区视频在线| 黄色网在线| 波多野结衣一二三| 青青操视频在线| 女人毛片a级大学毛片免费| 一级毛片在线播放免费| 精品久久久久久成人AV| 日韩欧美国产三级| 日韩欧美国产中文| 真实国产乱子伦视频| 免费亚洲成人|