李夢翔, 尤麗玨
(1.中國福利會國際和平婦幼保健院, 上海 200030;2.上海交通大學醫學院附屬瑞金醫院, 盧灣分院, 上海 200020)
中文電子病歷(Electronic Medical Records,EMRs)作為一種內容豐富的數據,對于臨床研究的開展有著重要作用。研究表明,EMRs的使用促進了疾病分析、危險因素評估等工作的開展[1]。然而,EMRs通常存儲以非結構化的文本,帶給EMRs研究使用的巨大障礙[2]。因此,發展EMRs的結構化方法,對于提升該醫療記錄的可用性、激發其在臨床研究中的價值有著重要作用。
近年來,結合深度神經網絡(Deep Neural Networks,DNN)的命名實體識別(Named Entity Recognition,NER)是EMRs結構化研究的里程碑方法。通過遞歸、卷積等單元的使用,能實現EMRs結構信息抽取的良好表現[2]。然而,DNN是數據驅動方法,高性能模型的建立離不開準確、大量標注的使用,而上述條件的取得伴隨著高額成本[3-4]。
主動學習是一種從未標注數據集找出有用樣本提升標注的方法[5],在保持模型性能的同時能降低標注數據量,對DNN的成本節約有著巨大作用。對應不同場景,基于池采樣的方法通過整個數據集的評估、排名選出最佳查詢樣本,具有廣泛應用。按不同選擇策略,基于不確定性采樣的方法能將最易混淆、信息量最大的樣本用于標注,在主動學習的相關應用中有著良好效果。
該研究結合深度主動學習,給出了一種高資源利用、魯棒的中文電子病歷NER方法。具體以不確定性采樣為樣本標注策略,經數據選擇、專家標注等多次循環操作,確定NER任務的DNN訓練樣本。該研究以冠心病患者的EMRs為研究對象,結合數據特點,突出深度主動學習在某項疾病EMRs中的應用效果。
主動學習在文本識別領域獲得廣泛關注。Shusen等[5]使用受限玻爾茲曼機構建主動學習模型,用于數據集的無監督訓練。Chang等[6]提出透明批量主動采樣框架,可以使采樣過程對標注噪聲更加魯棒。
對于深度主動學習,Yao等[7]研究了基于CNN主動學習的句子分類方法;Shen等[8]研究了基于CNN+LSTM的深度主動學習方法,獲得小樣本集的較好NER性能。在醫療應用方面,Shardlow等[9]提出了面向神經科學的NER方法,只需很少訓練數據即可得到出色醫療信息識別精度。然而,基于Bi-LSTM+CRF的主動學習在冠心病中文EMRs的NER研究還未有廣泛報道。
模型框架如圖1所示,共含兩個部分。

圖1 中文電子病歷命名實體識別的框架
①使用深度主動學習,從大量未標記中文EMRs樣本集中選出有用樣本用于數據標注;②搭建包含詞嵌入輸入層和條件隨機場(Conditional Random Field,CRF)輸出層的雙向長短期記憶網絡(Bi-LSTM)結構,用于冠心病中文EMRs的結構化信息抽取。
深度主動學習旨在結合主動學習降低標注量及深度學習特征提取的能力。圖1展示了該方法在中文EMRs中NER任務框架,相應計算如下:①使用小部分標注樣本集L0,初始、預訓練DNN模型參數θ;②使用DNN對未標注樣本池U提取特征;③基于查詢策略選擇樣本,并讓專家手動標注;④更新標簽訓練集L和未標注樣本池U;⑤回到步驟2,直到預定條件。
深度主動學習計算,可描述為優化問題。假設n、m樣本數量的未標注數據集和已標注數據集為Un={χ,γ}、Lm={X,Y},該方法通過DNN映射f:χ→γ的查詢策略Q完成標注樣本選擇。給定樣本示例x∈X、參數θ,該方法通過標記樣本損失最小化優化參數:
argminEL[l(f(x;θ),y)]
(1)
其中,f(x;θ)是待選標簽分數向量,EL是覆蓋已標注數據集的期望,l是損失函數。對于離散隨機變量Y,主動學習不確定性可由令牌熵(Token Entropy,TE)表示:
(2)
其中,T是x的長度,z覆蓋所有標簽,P(yt=z,θ)是位置t處標簽的邊際概率,表示計算出結果yt=z所需的信息。
分類模型為Bi-LSTM+CRF,如圖2所示。Bi-LSTM通過文本向前和向后兩個方向的文字訓練,使得過去上下文(左)和將來上下文(右)均可訪問。該網絡LSTM的存儲單元由輸入門、忘記門和輸出門構成,以調節進、出存儲器信息。對于以詞序列向量組x1,x2,…,xm為輸入、h1,h2,…,hm為輸出的文本識別,當存儲單元t-1時刻的狀態為ct-1時,輸入門it、忘記門ft和輸出門ot的更新公式如下:

圖2 命名實體識別的分類模型
it=σ(Wiht-1+Uixt+bi)
ft=σ(Wfht-1+Ufxt+bf)
(3)
ot=σ(Woht-1+Uoxt+bo)
新的LSTM狀態ct和輸出ht如下:
ct=fiΘct-1+itΘtanh(Wcht-1+Ucxt+bc)
ht=otΘtanh(ct)
(4)
其中,σ是sigmoid函數;Θ為元素乘積;xt和ht分別表示t時刻輸入、輸出向量;U、W和b分別是不同門輸入向量的權重矩陣、隱藏層的權重矩陣及偏置向量。
Bi-LSTM后接CRF,用于更好捕獲文本信息。對于輸入文本向量組X=x1,x2,…,xm。當輸出序列Y=y1,y2,…,ym時,分數計算如下:
(5)
其中,pi,yi為句中i單詞對應標簽yi的分數,Ayi,yi+1代表從標簽yi到標簽yi+1的轉換分數。
實驗數據含700份冠心病患者的中文EMRs,其中的私人信息均已移除。隨機選擇其中600份為主動學習樣本池,其中1/2樣本用于后續NER任務的模型訓練。每次樣本選擇比例記為1/c(c=4,2對應后續實驗TE1和TE2),隨機選擇擬訓練樣本的1/c數據為初始樣本L0,其中的1/c數據為每次經DNN特性提取后策略選擇的樣本。NER任務將樣本數據按3∶1設置訓練、測試集,標注包括癥狀、疾病、檢查和治療4個類別,標注參照UMLS語義類型進行人工添加,如表1所示。

表1 實驗數據集設置情況
模型訓練涉及主動學習的訓練樣本選擇和NER任務。按主動學習訓練樣本策略選擇與否,將實驗模型分為TE1、TE2和Random。其中,前2個模型的策略選擇使用TE方法,使用LSTM+CRF特征計算后的概率值進行Token熵的計算。基于Random的模型使用隨機選擇標注樣本訓練模型及后續的NER任務。詞嵌入模型使用SGNS[10]。對于分類模型,該研究的LSTM單元數設為100;學習率為0.01;訓練通過Adam優化;批處理為64;Dropout的概率為0.5。
實驗在冠心病中文EMRs數據上開展。表2顯示了在不同標注數據選擇下各模型的NER結果。觀察發現,使用策略選擇方法TE的主動學習結果要優于常規模型。以F-Score為評估指標,使用TE的模型有著1.3%的性能增益。另外,對比TE1、TE2的結果發現,多次數據選擇的結果有著1%的提升。

表2 不同模型的命名實體識別結果對比
不同模型NER訓練的F-Score、Loss由圖3給出。由圖3(a)發現,在模型訓練趨于平穩(Steps>1 K),進行標注樣本選擇TE1、TE2的結果優于未標注樣本選擇Random的結果。由圖3(b)發現,使用主動學習的模型在Loss收斂方面表現更好。對應不同TE使用,細分多次標注數據選擇的TE1結果有著更好表現。

(a) 模型訓練過程的各實體識別結果的F-Score(%)

(b) 模型訓練過程的Loss變化圖3 不同模型在訓練過程中的結果對比
該研究以冠心病中文EMRs為對象,探究深度主動學習在某一特定疾病下的NER可行性。該研究以TE為策略選擇方法,通過LSTM+CRF計算后的概率值進行TE計算并完成待標注樣本數據的選擇。該研究將每次標注數據選擇的樣本量進行設置,探究深度主動學習數據選擇的意義。
實驗表明,使用主動學習策略選擇TE的LSTM+CRF結果更好,TE1、TE2的F-Score、Loss變化明顯優于非標注數據選擇Random的結果。此外,對于深度主動學習,更多次樣本數據選擇的TE1結果更好。總體而言,經過一系列探究,本文初步論證了深度主動學習在小樣本下的可用性。研究模型對于提升數據標注質量、減少標注數據數量、降低人工標注成本,對進而提升醫療記錄可用性、激發其在臨床疾病研究中的價值有著積極作用。后續,研究組將細化、探索和總結中文EMRs中深度主動學習的研究價值及意義。