999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度主動學習的中文電子病歷命名實體識別

2022-07-26 09:04:22李夢翔尤麗玨
微型電腦應用 2022年6期
關鍵詞:深度方法模型

李夢翔, 尤麗玨

(1.中國福利會國際和平婦幼保健院, 上海 200030;2.上海交通大學醫學院附屬瑞金醫院, 盧灣分院, 上海 200020)

0 引言

中文電子病歷(Electronic Medical Records,EMRs)作為一種內容豐富的數據,對于臨床研究的開展有著重要作用。研究表明,EMRs的使用促進了疾病分析、危險因素評估等工作的開展[1]。然而,EMRs通常存儲以非結構化的文本,帶給EMRs研究使用的巨大障礙[2]。因此,發展EMRs的結構化方法,對于提升該醫療記錄的可用性、激發其在臨床研究中的價值有著重要作用。

近年來,結合深度神經網絡(Deep Neural Networks,DNN)的命名實體識別(Named Entity Recognition,NER)是EMRs結構化研究的里程碑方法。通過遞歸、卷積等單元的使用,能實現EMRs結構信息抽取的良好表現[2]。然而,DNN是數據驅動方法,高性能模型的建立離不開準確、大量標注的使用,而上述條件的取得伴隨著高額成本[3-4]。

主動學習是一種從未標注數據集找出有用樣本提升標注的方法[5],在保持模型性能的同時能降低標注數據量,對DNN的成本節約有著巨大作用。對應不同場景,基于池采樣的方法通過整個數據集的評估、排名選出最佳查詢樣本,具有廣泛應用。按不同選擇策略,基于不確定性采樣的方法能將最易混淆、信息量最大的樣本用于標注,在主動學習的相關應用中有著良好效果。

該研究結合深度主動學習,給出了一種高資源利用、魯棒的中文電子病歷NER方法。具體以不確定性采樣為樣本標注策略,經數據選擇、專家標注等多次循環操作,確定NER任務的DNN訓練樣本。該研究以冠心病患者的EMRs為研究對象,結合數據特點,突出深度主動學習在某項疾病EMRs中的應用效果。

1 相關工作

主動學習在文本識別領域獲得廣泛關注。Shusen等[5]使用受限玻爾茲曼機構建主動學習模型,用于數據集的無監督訓練。Chang等[6]提出透明批量主動采樣框架,可以使采樣過程對標注噪聲更加魯棒。

對于深度主動學習,Yao等[7]研究了基于CNN主動學習的句子分類方法;Shen等[8]研究了基于CNN+LSTM的深度主動學習方法,獲得小樣本集的較好NER性能。在醫療應用方面,Shardlow等[9]提出了面向神經科學的NER方法,只需很少訓練數據即可得到出色醫療信息識別精度。然而,基于Bi-LSTM+CRF的主動學習在冠心病中文EMRs的NER研究還未有廣泛報道。

2 方法

2.1 模型框架

模型框架如圖1所示,共含兩個部分。

圖1 中文電子病歷命名實體識別的框架

①使用深度主動學習,從大量未標記中文EMRs樣本集中選出有用樣本用于數據標注;②搭建包含詞嵌入輸入層和條件隨機場(Conditional Random Field,CRF)輸出層的雙向長短期記憶網絡(Bi-LSTM)結構,用于冠心病中文EMRs的結構化信息抽取。

2.2 深度主動學習

深度主動學習旨在結合主動學習降低標注量及深度學習特征提取的能力。圖1展示了該方法在中文EMRs中NER任務框架,相應計算如下:①使用小部分標注樣本集L0,初始、預訓練DNN模型參數θ;②使用DNN對未標注樣本池U提取特征;③基于查詢策略選擇樣本,并讓專家手動標注;④更新標簽訓練集L和未標注樣本池U;⑤回到步驟2,直到預定條件。

深度主動學習計算,可描述為優化問題。假設n、m樣本數量的未標注數據集和已標注數據集為Un={χ,γ}、Lm={X,Y},該方法通過DNN映射f:χ→γ的查詢策略Q完成標注樣本選擇。給定樣本示例x∈X、參數θ,該方法通過標記樣本損失最小化優化參數:

argminEL[l(f(x;θ),y)]

(1)

其中,f(x;θ)是待選標簽分數向量,EL是覆蓋已標注數據集的期望,l是損失函數。對于離散隨機變量Y,主動學習不確定性可由令牌熵(Token Entropy,TE)表示:

(2)

其中,T是x的長度,z覆蓋所有標簽,P(yt=z,θ)是位置t處標簽的邊際概率,表示計算出結果yt=z所需的信息。

2.3 分類模型

分類模型為Bi-LSTM+CRF,如圖2所示。Bi-LSTM通過文本向前和向后兩個方向的文字訓練,使得過去上下文(左)和將來上下文(右)均可訪問。該網絡LSTM的存儲單元由輸入門、忘記門和輸出門構成,以調節進、出存儲器信息。對于以詞序列向量組x1,x2,…,xm為輸入、h1,h2,…,hm為輸出的文本識別,當存儲單元t-1時刻的狀態為ct-1時,輸入門it、忘記門ft和輸出門ot的更新公式如下:

圖2 命名實體識別的分類模型

it=σ(Wiht-1+Uixt+bi)

ft=σ(Wfht-1+Ufxt+bf)

(3)

ot=σ(Woht-1+Uoxt+bo)

新的LSTM狀態ct和輸出ht如下:

ct=fiΘct-1+itΘtanh(Wcht-1+Ucxt+bc)

ht=otΘtanh(ct)

(4)

其中,σ是sigmoid函數;Θ為元素乘積;xt和ht分別表示t時刻輸入、輸出向量;U、W和b分別是不同門輸入向量的權重矩陣、隱藏層的權重矩陣及偏置向量。

Bi-LSTM后接CRF,用于更好捕獲文本信息。對于輸入文本向量組X=x1,x2,…,xm。當輸出序列Y=y1,y2,…,ym時,分數計算如下:

(5)

其中,pi,yi為句中i單詞對應標簽yi的分數,Ayi,yi+1代表從標簽yi到標簽yi+1的轉換分數。

3 實驗

3.1 數據設置

實驗數據含700份冠心病患者的中文EMRs,其中的私人信息均已移除。隨機選擇其中600份為主動學習樣本池,其中1/2樣本用于后續NER任務的模型訓練。每次樣本選擇比例記為1/c(c=4,2對應后續實驗TE1和TE2),隨機選擇擬訓練樣本的1/c數據為初始樣本L0,其中的1/c數據為每次經DNN特性提取后策略選擇的樣本。NER任務將樣本數據按3∶1設置訓練、測試集,標注包括癥狀、疾病、檢查和治療4個類別,標注參照UMLS語義類型進行人工添加,如表1所示。

表1 實驗數據集設置情況

3.2 模型訓練

模型訓練涉及主動學習的訓練樣本選擇和NER任務。按主動學習訓練樣本策略選擇與否,將實驗模型分為TE1、TE2和Random。其中,前2個模型的策略選擇使用TE方法,使用LSTM+CRF特征計算后的概率值進行Token熵的計算。基于Random的模型使用隨機選擇標注樣本訓練模型及后續的NER任務。詞嵌入模型使用SGNS[10]。對于分類模型,該研究的LSTM單元數設為100;學習率為0.01;訓練通過Adam優化;批處理為64;Dropout的概率為0.5。

4 結果

實驗在冠心病中文EMRs數據上開展。表2顯示了在不同標注數據選擇下各模型的NER結果。觀察發現,使用策略選擇方法TE的主動學習結果要優于常規模型。以F-Score為評估指標,使用TE的模型有著1.3%的性能增益。另外,對比TE1、TE2的結果發現,多次數據選擇的結果有著1%的提升。

表2 不同模型的命名實體識別結果對比

不同模型NER訓練的F-Score、Loss由圖3給出。由圖3(a)發現,在模型訓練趨于平穩(Steps>1 K),進行標注樣本選擇TE1、TE2的結果優于未標注樣本選擇Random的結果。由圖3(b)發現,使用主動學習的模型在Loss收斂方面表現更好。對應不同TE使用,細分多次標注數據選擇的TE1結果有著更好表現。

(a) 模型訓練過程的各實體識別結果的F-Score(%)

(b) 模型訓練過程的Loss變化圖3 不同模型在訓練過程中的結果對比

5 總結

該研究以冠心病中文EMRs為對象,探究深度主動學習在某一特定疾病下的NER可行性。該研究以TE為策略選擇方法,通過LSTM+CRF計算后的概率值進行TE計算并完成待標注樣本數據的選擇。該研究將每次標注數據選擇的樣本量進行設置,探究深度主動學習數據選擇的意義。

實驗表明,使用主動學習策略選擇TE的LSTM+CRF結果更好,TE1、TE2的F-Score、Loss變化明顯優于非標注數據選擇Random的結果。此外,對于深度主動學習,更多次樣本數據選擇的TE1結果更好。總體而言,經過一系列探究,本文初步論證了深度主動學習在小樣本下的可用性。研究模型對于提升數據標注質量、減少標注數據數量、降低人工標注成本,對進而提升醫療記錄可用性、激發其在臨床疾病研究中的價值有著積極作用。后續,研究組將細化、探索和總結中文EMRs中深度主動學習的研究價值及意義。

猜你喜歡
深度方法模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
深度觀察
深度觀察
深度觀察
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 一区二区在线视频免费观看| 亚洲天堂免费| 亚洲一区二区三区国产精品 | 欧美精品另类| 精品福利网| 亚洲第一极品精品无码| 91青草视频| 91热爆在线| 亚洲男人的天堂视频| 97在线公开视频| 亚洲 欧美 偷自乱 图片| 日本色综合网| 国产精品自在线拍国产电影| 国禁国产you女视频网站| 热99精品视频| 国产精品一线天| 国产无码高清视频不卡| 美女一级毛片无遮挡内谢| 热99精品视频| 天天操精品| 精品人妻系列无码专区久久| 99热这里只有精品免费国产| 国产熟女一级毛片| 99精品视频九九精品| 91精品情国产情侣高潮对白蜜| 成人欧美在线观看| 欧美黄网在线| 欧美日韩中文国产va另类| 欧美亚洲第一页| 欧洲高清无码在线| 国产精品2| 日韩免费毛片视频| yy6080理论大片一级久久| 99精品视频在线观看免费播放| 蜜臀AV在线播放| 国产女人18水真多毛片18精品 | 四虎影视国产精品| 亚洲一级毛片免费观看| 99热这里都是国产精品| 国产a在视频线精品视频下载| 国产成人综合亚洲网址| 亚洲青涩在线| 91亚洲免费| 亚洲欧洲日韩综合色天使| 日韩精品一区二区三区免费在线观看| 国产亚洲精品97AA片在线播放| 久久黄色一级视频| 免费啪啪网址| 国产欧美成人不卡视频| 视频二区国产精品职场同事| 国产精品三级专区| 国产主播喷水| 亚洲AⅤ波多系列中文字幕| 免费黄色国产视频| 波多野结衣视频一区二区| 亚洲最大看欧美片网站地址| 伊人久久影视| 中文字幕永久视频| 国产免费羞羞视频| 孕妇高潮太爽了在线观看免费| 在线亚洲天堂| 亚洲aaa视频| 永久免费无码成人网站| 在线人成精品免费视频| 日韩精品一区二区三区免费| 国产成人你懂的在线观看| 韩国自拍偷自拍亚洲精品| 成人福利在线视频免费观看| 国产一级在线观看www色 | 老司国产精品视频91| 亚欧成人无码AV在线播放| 亚洲日韩精品综合在线一区二区| 精品国产91爱| 亚洲Aⅴ无码专区在线观看q| h网址在线观看| 精品无码国产自产野外拍在线| 久久香蕉国产线看观| 久久亚洲美女精品国产精品| 无码一区二区波多野结衣播放搜索| 国产在线自在拍91精品黑人| 国产精品亚洲αv天堂无码| 国产成人精品18|