羅熹 夏先運 安瑩 陳先來



摘 ? 要:命名實體是電子病歷中相關醫學知識的主要載體,因此,臨床命名實體識別(Clinical Named Entity Recognition,CNER)也就成為了臨床文本分析處理的基礎性任務之一. 由于文本結構和語言等方面的特殊性,面向中文電子病歷(Electronic Medical Records,EMRs)的臨床命名實體識別依然存在著巨大的挑戰. 本文提出了一種基于多頭自注意力神經網絡的中文臨床命名實體識別方法. 該方法使用了一種新穎的融合領域詞典的字符級特征表示方法,并在BiLSTM-CRF模型的基礎上,結合多頭自注意力機制來準確地捕獲字符間潛在的依賴權重、語境和語義關聯等多方面的特征,從而有效地提升了中文臨床命名實體的識別能力. 實驗結果表明本文方法超過現有的其他方法獲得了較優的識別性能.
關鍵詞:中文電子病歷;命名實體識別;長短期記憶;多頭自注意力
中圖分類號:TP391 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標志碼:A
Chinese CNER Combined with Multi-head
Self-attention and BiLSTM-CRF
LUO Xi1,2,XIA Xianyun2,AN Ying1,CHEN Xianlai1
(1. Big Data Institute,Central South University,Changsha 410083,China;
2. Key Laboratory of Network Crime Investigation of Hunan Provincial Colleges,
Hunan Police Academy,Changsha 410138,China)
Abstract:Named entity is the main carrier of relevant medical knowledge in Electronic Medical Records (EMRs),so clinical named entity recognition(CNER) has become one of the basic and crucial tasks of clinical text analysis and processing. Due to the particularity of medical text structure and Chinese language,the recognition of clinical named entities for Chinese EMRs still faces great challenges. In this paper, a Chinese clinical named entity recognition method based on multi-head self-attention neural network is proposed . In this method, a character-level feature representation method combined with a domain dictionary is presented. Moreover, based on the BiLSTM-CRF model, a multi-head self-attention mechanism is incorporated to accurately capture the multiple features from different aspects, such as dependency weights between characters and contextual semantic relationships, thereby effectively improving the ability of Chinese clinical named entity recognition. Experimental results demonstrate that the proposed method outperforms other existing methods and has the best recognition performance.
Key words:Chinese electronic medical record;named entity recognition;long short-term memory;multi-head self-attention
隨著醫療信息化的快速發展,醫療機構中積累了大量的電子病歷數據. 這些電子病歷是病人在醫院就診及治療過程中所產生的重要記錄,包含了臨床文本、醫學圖表、醫學影像等多種類型的臨床記錄數據. 其中,諸如主訴、診斷結果、入院/出院記錄和治療過程等臨床文本中蘊含著極為豐富的臨床經驗知識以及與病人健康狀態緊密相關的臨床信息,但是,這些以非結構化自由文本形式存儲的信息很難直接加以分析和利用,需要首先通過自然語言處理技術進行必要的信息抽取,準確地識別出文本中的相關概念、屬性和語義關系等重要信息. 命名實體(Named Entity,NE)是電子病歷中相關醫學知識的主要載體,因此,臨床命名實體識別也就成為了臨床文本分析處理極為關鍵的基礎性任務之一.
近年來,關于臨床命名實體識別的研究得到了研究人員大量的關注,并在英文臨床文本領域產生了一系列的研究成果,其中基于統計機器學習方法的條件隨機場(CRF)[1]和基于深度學習方法的長短時記憶網絡與條件隨機場(BiLSTM-CRF)[2]應用最為廣泛. 然而,由于在語言結構和表達形式等方面的特殊性,面向中文電子病歷的臨床命名實體識別依然存在著巨大的挑戰.
隨著深度學習技術的發展,很多研究人員嘗試使用基于循環神經網絡(RNN)的深度學習模型解決中文臨床命名實體識別任務,該模型將中文文本中的一個句子看作是一條由漢字詞語或者字符組成的序列,然后執行循環遍歷,利用RNN中的隱藏單元來學習文本中的上下文信息. 但是,已有的研究方法仍然存在著很多的欠缺. 首先,傳統的RNN學習長序列中的依賴關系的能力不足,當文本序列較長時容易損失大量有用信息. 其次,現有的方法大多僅將一個文本序列映射為單一的表示,缺乏獲取多角度文本序列特征的能力. 此外,這些基于深度學習模型的方法的識別性能很大程度上依賴于大量的標注訓練數據集,而且未能對已有的領域特征加以有效的利用. 再加上中文臨床文本中存在的很多語法及表述方面的問題,如大量的醫學專有名詞、非標準化的名詞縮寫以及由于書寫或表達錯誤導致的噪聲,都嚴重地影響了中文臨床文本命名實體識別的性能.
為了解決以上的這些挑戰,本文提出了一種結合多頭自注意力機制與BiLSTM-CRF的深度網絡模型(Multi-Head self-Attention BiLSTM-CRF,MHA-BiLSTM-CRF). 該模型將中文文本字符特征和臨床領域知識特征進行融合,以獲得更全面的字符級嵌入表示. 然后使用BiLSTM網絡從輸入序列中捕獲相關的時序特征和上下文關系,同時引入多頭自注意力機制,從多個角度獲得中文臨床文本中字符間關聯權重表示來更準確地關注句子中的重要字符或單詞,從而有效地提升中文臨床命名實體的識別能力.
1 ? 相關工作
1.1 ? 中文臨床命名實體識別
命名實體識別(Named Entity Recognition,NER)本質上可以看成是一個多標簽序列分類問題. 它以由多個字符或詞語構成的文本序列為輸入,旨在識別文本中的專有名詞、數字信息和其他重要名詞并將其分類為預先定義的類別,例如人員名稱、組織、位置、時間表達等. 多年來,研究人員針對該問題開展了廣泛的研究并提出了許多命名實體識別的相關方法[3]. 這些方法大致可以分為三種類型:基于規則和詞典匹配的方法、基于傳統特征工程的機器學習的方法[4-6]以及目前比較流行的基于深度學習的方法[2,7-9].
在臨床領域中,命名實體識別的目標是從給定的臨床文本中提取出那些與醫療過程密切相關的實體指代,并將它們準確地劃分為疾病、癥狀、檢查、身體部位以及治療等特定的實體類別. 目前,研究人員針對英文臨床文本的命名實體識別已經開展了大量的研究[3]. 而且,得益于英文語言所具有的以空格作為分割符、專業術語的字母大寫特征等天然優勢,使得許多命名實體識別方法在英文臨床文本中得到了較為成功的應用. 然而,由于不同語言在句法結構、表達方式等方面的特殊性,針對其他語言的臨床文本,特別是中文臨床文本的命名實體識別依然是一項極具挑戰性的任務.
為了推動中文臨床命名實體識別技術的發展,2017年由中文信息學會組織的全國知識圖譜與語義計算大會(CCKS2017)首次設立了中文臨床文本命名實體識別相關的測評任務,吸引了大量研究人員的積極參與并產生了一系列較為有效的中文命名實體識別方法. 例如,Li等人[10]將中文臨床命名實體識別看作一個詞級別的序列標注任務,提出了一個基于BiLSTM-CRF的深度模型,并通過使用額外的醫療詞典及數據集作為補充來得到更加豐富的、具有領域特征的詞向量,從而有效地提高識別的準確率. Ouyang等人[11]結合分詞特征、詞性特征以及醫療詞典特征,提出了一種基于n-gram字符表示策略的BiLSTM-CRF模型. Xia等人[12]則在BiLSTM-CRF模型的基礎上引入自學習和主動學習策略,充分利用未標注數據來增強模型的識別能力. 此外,Hu等人[13]還提出了一種基于投票的混合模型,將基于規則的方法、基于CRF的方法以及融合特征的RNN方法進行結合,以有效地實現中文臨床文本中的實體識別.
近年來,研究人員在之前工作的基礎上對CNER方法進行了大量的改進. Wang等人[14]將數據驅動的深度學習方法與知識驅動的詞典方法結合起來,提出了一種融合領域詞典的深度神經網絡模型,并利用一種改進的詞典特征表示方法,在中文臨床文本上獲得了較高的命名實體識別性能. Qiu等人[15]采用了一個帶條件隨機場的殘差卷積神經網絡模型(RD-CNN-CRF)來解決中文臨床命名實體識別的問題. 該方法首先將漢字和字典特征映射為對應的向量表示,然后將其輸入到RD-CNN-CRF模型中以捕獲相關的上下文特征. 由于CNN出色的并行執行能力,該方法在識別能力和訓練時間等方面獲得了與現有其他基于RNN的方法相當或更高的性能. Tang等人[16]則提出了一種基于注意力機制的CNN-LSTM-CRF模型. 該模型通過引入CNN層和注意力層來更好地捕獲詞語的局部上下文信息以及詞間關聯強度,從而有效地擴展和增強了BiLSTM-CRF模型的學習能力. 盡管上述改進方法在提升中文臨床命名實體識別性能方面取得了一定的效果,但它們大多沒有充分利用中文文本序列中重要的全局特性,而且往往忽略了數據集中臨床實體分布的不均衡性,從而嚴重影響了其實體識別的準確性.
因此,為了彌補現有方法的上述缺陷,本文提出了一種基于多頭自注意力機制的BiLSTM-CRF模型,通過有效地捕獲和融合臨床文本中字符自身特征、字符間的依賴關系、文本序列中的語義和上下文信息以及詞典特征等多層面的文本特征來提升中文臨床命名實體的識別能力.
1.2 ? 多頭自注意力機制
Google機器翻譯團隊在2017年發表的論文中提出了一種包含自注意力以及多頭自注意力機制的神經網絡架構,并在機器翻譯任務中取得了較為出色的效果[17].自注意力機制是一種特殊的注意力機制,它通過計算單個文本序列中不同位置字符間的關聯關系,以便獲得序列的交互表示. 而多頭自注意力機制則是通過結合多次并行的自注意力計算來捕獲同一序列在不同表示子空間上的信息,進而從多角度多層面得到更全面的相關特征. 自注意力機制自其被提出開始就在自然語言處理相關的諸多領域得到了大量應用,例如,自動文本摘要、自然語言推理、機器翻譯及語言理解等.
在中文臨床命名實體識別任務中,臨床文本語料規模通常較小且其中存在大量不規則的文本表達. 而與RNN和CNN相比,多頭自注意力機制具有很多優勢. 首先,多頭自注意力機制可以捕獲句子中任意位置的字符之間的關聯關系,使得模型更加方便地學習到長句子的前后文依賴信息. 其次,注意力機制使用權重求和的方式產生輸出向量,使其梯度在網絡模型中的傳播比RNN和CNN更加容易. 此外,多頭自注意力機制的并行執行能力更強,具有更快的訓練速度. 因此,多頭自注意力機制將成為進一步提升現有方法中文臨床命名實體識別能力的一種有效手段. 該機制將會選擇性地關注某些重要的信息,同時相應地忽略其他次要信息,并且根據文本中文字的重要性將較高的權重分配給相對更重要的文字,獲取更多的臨床文本字符之間的關聯權重特征.
2 ? MHA-BiLSTM-CRF模型設計
中文臨床命名實體識別任務通常被當作序列標注任務來處理. 由于中文文本中詞語邊界的模糊性,本文對文本序列采用了字符級別的標注方式以避免分詞錯誤對實體識別性能帶來的影響. 對于給定的一段文本字符序列S = [w1,w2,w3,…,wn],其中wt表示其中的第t個字符,我們的目標是訓練出一個模型準確地為文本中的每一個字符給出包含實體類別和位置信息的對應標簽,得到相應的標簽序列Y = [y1,y2,y3,…,yn]. 本節將簡要介紹一下本文方法的基本原理及處理流程.
2.1 ? 模型框架
本文的模型總體架構如圖1所示. 該模型由多個深度網絡層組成,主要包括Embedding嵌入層、MHA-BiLSTM層以及CRF層. Embedding層的作用是將原始的輸入文本序列轉化為模型可接受的數字向量矩陣,并將其進一步映射為對應的低維嵌入向量表示,然后,將Embedding層輸出的嵌入向量分別輸入到MHA-BiLSTM層中的多頭自注意力模塊和BiLSTM網絡模塊. 其中,BiLSTM網絡模塊用于學習文本序列的時序特征和上下文信息,而自注意力機制則用于獲取輸入文本序列的全局特征表示以及各種字符之間的關聯強度. 最后,以上兩個神經網絡模塊的輸出將被拼接在一起輸入到CRF層,以獲得最終的標簽序列.
2.2 ? Embedding層
Embedding層的作用將自然語言文本處理成模型能夠識別并進行計算的形式. 給定中文臨床文本字符序列S = [w1,w2,w3,…,wn],我們首先將每個字符wt表示成一個one-hot向量xt,其維度等于訓練數據集中的字符量大小. 那么,輸入字符序列可以表示為X = [x1,x2,x3,…,xn]. 然后,通過基于分布式字符嵌入表示的方法,這些字符的one-hot向量被進一步映射為相應的低維稠密向量. 本文中使用的嵌入表示方法包括兩種方式,一種是字符嵌入,它將每個字符嵌入到一個對應的語義向量中;另一種被稱為特征嵌入,它將每個字符及其對應標簽的組合映射為一個特征嵌入向量,從而使得在不同實體中具有不同標簽的相同字符具有不同的特征表示形式. 具體過程描述如下.
2.2.1 ? 字符嵌入
字符是中文自然語言處理的最小語義單元,本文采用預訓練字符嵌入向量表來獲得豐富的字符級文本特征表示. 該查找表通過未標注的中文維基百科數據集經word2vec訓練得到,包含了16 691個漢字及其對應的向量表示. 在獲取字符嵌入向量的過程中,對于中文臨床文本中的任意字符,我們首先在該字符向量表中查找是否存在該字符對應的嵌入向量,若找到匹配項,則將該字符以匹配的字符嵌入向量表示;否則,將其表示為一個隨機向量. 這樣,輸入序列將被轉換為字符嵌入向量序列Vc = [v c1,v c2,v c3,…,v cn]. 其中,每個字符嵌入向量的維數d設為100.
2.2.2 ? 特征嵌入
字符嵌入僅實現了字符自身特征的降維表示,然而同一個字符可能出現在不同臨床命名實體中的不同位置,這些信息蘊含了與相關實體的依賴關系,對于命名實體的識別具有十分重要的意義. 現有的方法大多采用單獨將字符的特征標簽(如所屬實體的類別以及BIOES位置標注等)轉化為對應的特征向量的方式. 但是,這種方式把字符和其對應的標簽完全分離開來進行表示,無法捕獲字符在對應實體中的依賴關系特征. 因此,在本文的方法中,我們將每個字符與其對應標簽作為一個整體,然后通過word2vec將其表示為相應的特征嵌入向量,從而盡可能全面地捕獲字符與實體的相關特征以得到更豐富的字符特征表示.
為了獲得更全面的字符特征標簽,我們使用了一個包含多種臨床實體的醫學領域詞典. 其中的臨床實體均由ICD-10、ICD-9-CM以及如搜狗細胞詞庫、在線醫療咨詢網站等其他系統中抽取得來,主要包括五種實體類別:疾病、癥狀描述、檢查項目、身體部位以及治療. 對于給定的輸入文本序列S,我們首先根據該詞典利用雙向最大化匹配算法(Bi-Direction Maximum Matching,BDMM),對輸入文本進行實體劃分. 若輸入文本序列中的某個子串在詞典中發生匹配,則將該子串作為一個臨床實體并對其進行相應的類別標注. 沒有發生匹配的字符則統一標記為“None”. 然后,我們再利用BIOES標注機制為每個字符加上其所在實體的位置標簽. 標注樣具體如表1所示. 接著,我們將字符與其對應標簽(實體類別標簽+位置標簽)結合起來轉化為相應的聯合特征嵌入向量v dt.
最終,對于任意字符的輸入xt,我們將上述兩個嵌入過程得到的字符嵌入向量v ct和聯合特征嵌入向量v dt拼接起來作為它的最終向量表示et,如公式(1)所示.
式中:表示向量拼接運算. 這樣,輸入字符序列即可表示為E = [e1,e2,e3,…,en].
2.3 ? MHA-BiLSTM層
為了更好地獲取文本的時序特征、字符上下文信息以及文本序列中字符之間的相關權重,本模型在Embedding層之后部署了一個由兩個獨立模塊組成的MHA-BiLSTM層. 一個是BiLSTM模塊,另一個則是多頭自注意力模塊. Embedding層輸出的向量矩陣將分別輸入到上述兩個模塊進行處理,然后再將兩個模塊的輸出向量拼接后得到該層的最終輸出.
2.3.1 ? BiLSTM模塊
BiLSTM利用來自Embedding層的輸出向量矩陣E,通過結合序列中每個字符的上下文信息來獲取更全面的特征表示.
對于輸入序列中任意位置t上的字符向量et,LSTM將結合et和前一時刻的狀態ht-1來計算當前的隱藏狀態ht . 具體實現過程如公式(2)~(7)所示:
2.3.2 ? 多頭自注意力模塊
傳統的BiLSTM-CRF模型無法充分表達文本序列的全局信息以及句中各個字符的重要性,而且隨著句子長度的增加,BiLSTM在訓練過程中有可能會遺失大量對于命名實體識別極為重要的信息. 例如,不同的詞語或字符在同一語句中往往具有不同的作用,同一詞語或字符在不同語句中的含義也可能存在明顯的差異. 這些特征對于準確地理解詞語/字符間的關系和上下文含義具有重要意義. 因此,我們引入了多頭自注意力機制作為BiLSTM模塊的補充,從字符、單詞和句子的層面捕獲多種語義特征來進一步提高臨床命名實體識別的性能.
該過程將Embedding層的輸出向量矩陣E通過三次不同的映射操作分別轉換成三個維度均為dk的輸入矩陣:查詢Q、鍵K和值V,并傳入如公式(9)所示的注意力函數中. 注意力函數將根據Q與K之間的相關性計算V上的權值,進而得到相應的混合向量表示.
在多頭自注意力模塊中,查詢Q、鍵K和值V將分別使用不同的參數矩陣進行h次獨立的線性映射,然后相應地輸入到h個并行頭中執行上述的注意力函數運算. 這樣,每個并行頭都可以捕獲文本序列中各字符在不同表示子空間上獨特的特征信息. 接下來,h個并行頭上的計算結果進行合并后再經過一次線性映射得到最終的輸出ST = [st1,st2,st3,…,stn],具體過程如公式(10)和(11)所示.
2.4 ? CRF層
充分考慮相鄰字符標簽之間的依賴關系和約束條件對于中文臨床命名實體的識別和分類具有重要的意義. 因此,我們在模型的最后采用條件隨機場(CRF)對MHA-BiLSTM層生成的融合特征信息進行解碼來得到文本的字符標簽序列.
將上層的輸出序列Z = [st1,st2,st3,…,stn]作為輸入,CRF層根據上下文前后的字符標簽來預測得到可能性最大的標簽序列Y = [y1,y2,y3,…,yn].
令θ表示CRF層的參數集合,那么,我們可以通過最大化對數似然函數,如公式(13)所示,來得到所有參數的估計:
式中:Y是文本字符序列對應的標簽序列;p表示給定輸入特征序列Z和參數集合θ時Y的條件概率.
為了求得式(13)中的條件概率p,我們先根據公式(14)對轉移概率矩陣A與MHA-BiLSTM層的輸出Z進行求和計算出預測序列Y的得分Sθ(Z,Y),然后,再對Sθ(Z,Y)進行歸一化即得到對應的條件概率p.
Sθ(Z,Y) = ∑n ? t=1(Z yt,t + A yt-1,yt) ? ?(14)
這里,Z yt,t表示輸入的當前時刻的字符wt被標記為yt標簽的概率值,A yt-1,yt則表示t-1時刻的字符被wt標記為標簽并且 被標記為 標簽的概率. 最終的解碼階段通過CRF中的標準Viterbi算法[18],預測出全局最優的標注序列.
3 ? 實驗結果與分析
本節將通過與幾種最新的臨床命名實體識別方法的對比實驗來評估本文方法的有效性.
3.1 ? 數據集
本文實驗中的數據均來自CCKS2017-CNER數據集. 該數據集是目前廣泛采用的用于中文臨床命名實體識別任務公開測評的標準數據集. 其中包含了來自不同科室的400份中文臨床記錄(300份作為訓練集,余下的100份作為測試集),共計1 596個標注實例(10 024個不同的語句),并經多名臨床專家的人工標注將其中的實體分為了疾病、癥狀、檢查項目、身體部位以及治療五種類別. 同時,樣本中的句子均根據中文的標點符號(句號或者感嘆號等)劃分成了子句以方便處理. 數據集中相關臨床實體的詳細統計信息如表2所示.
3.2 ? 基準模型
本文選取了幾種典型的基于詞級特征嵌入和字符級特征嵌入的命名實體識別方法作為基準模型來評估本文方法的有效性,主要包括了詞級別的模型BiLSTM-CRFword[10]、BiLSTM-CRFword + ReSeg[19]以及字符級別的模型BiLSTM + CRF + LSTM-FEA[13]、BiLSTM-CRFchar[12]、RD-CNN-CRF[15]、CNN-LSTM-Attention[16].
3.3 ? 實驗設置與評價指標
3.3.1 ? 實驗設置
本文實驗均基于Python 3.6編程語言開發,采用Keras 2.4工具包以及Tensoflow1.13.0進行模型的實現. 訓練過程中,所有模型均通過Adam優化算法進行參數優化,初始學習率設為0.01. 同時,采用了early-stop和dropout策略以防止過擬合,并通過梯度裁剪來解決梯度爆炸問題. 主要的實驗參數設置如表3所示.
3.3.2 ? 評價指標
本文采用了CCKS2017-CNER挑戰賽提供的官方測試數據集和測評標準來對所有模型進行性能評估. 對于模型識別出的實體,僅當實體邊界和類別均與標準結果完全一致時才被判定為一次正確的識別. 所用的評價指標主要包括:微平均精準率micro-average precisions(P)、微平均召回率micro-average recall(R)以及微平均F1值(F1).
3.4 ? 結果分析
接下來,我們對本文方法與其他典型的命名實體識別模型的性能進行對比,并從不同的方面驗證本文方法的優越性.
3.4.1 ? 多頭自注意力機制的優勢
本文希望通過引入多頭自注意力機制來提升模型的命名實體識別能力,而將注意力機制與BiLSTM-CRF進行結合存在多種可行的方式. 因此,我們首先嘗試了4種不同的網絡結構,并通過實驗性能對比來選擇最佳的組合方式. 如圖2所示,模型I采用了將多頭自注意力模塊直接置于BiLSTM網絡層之后的方式;模型II將多頭自注意力模塊置于BiLSTM層與embedding層之間;模型III在模型II的基礎上采用殘差結構將多頭自注意力模塊的輸出與其經過BiLSTM模塊處理后的輸出進行融合再輸入CRF層的方式;模型IV則將embedding層的輸出獨立并行地分別送入到BiLSTM與多頭自注意力模塊中,將這兩個模塊的輸出進行融合后輸入CRF層得到最終結果.
從表4中的實驗結果可以發現,BiLSTM與多頭自注意力機制采用并行組合的兩種模型(模型III和模型IV)較之采用串行組合的模型(模型I和模型II)具有更好的效果. 其中,模型IV的精準率、召回率和F1值分別達到了0.905 6、0.909 1和0.907 3,獲得了四者中最優的性能. 這說明模型IV能夠更好地發揮多頭自注意力機制與BiLSTM的互補作用,因此,本文將其作為最終的模型架構.
同時,為了證明多頭自注意力機制對于中文臨床命名實體識別的好處,我們在使用相同的特征表示方法和字典特征的前提下,選擇了兩個MHA-BiLSTM-CRF的修改版本來與本文方法進行性能對比. 一個是通過去除MHA-BiLSTM-CRF中的多頭自注意力模塊得到的BiLSTM-CRF基礎模型,另一個則是將MHA-BiLSTM-CRF的多頭自注意力模塊替換為單頭自注意力模塊得到的SA-BiLSTM-CRF模型.
從表5所示的實驗結果可以看出,由于自注意力機制很大程度上彌補了LSTM模型在捕獲字符間關聯關系能力方面的不足,因此,不論是否使用字典特征,SA-BiLSTM-CRF的性能均要優于BiLSTM-CRF. 而本文提出的基于多頭自注意力機制的MHA-BiLSTM-CRF模型更是超過前兩者獲得了最佳的性能表現. 這說明多頭自注意力機制能充分結合不同層次不同角度的相關特征來增強模型的表示能力,從而進一步提高了實體識別的整體性能. 另外,從表中不難發現,當使用了外部詞典特征時,每個模型的性能都出現了明顯的提升. 這也驗證了領域詞典在提高命名實體識別性能方面的重要作用.
為了進一步理解MHA-BiLSTM-CRF模型的優勢,我們也做了一些實際的模型識別結果對比分析. 如表6所示,分別給出了BiLSTM-CRF與MHA-BiLSTM-CRF模型的真實識別結果對比. 可以看出,BiLSTM-CRF模型針對中文臨床命名實體中實體詞較長時具有明顯的識別錯誤,如第一個實例中的治療實體“腰麻下行闌尾切除術”,BiLSTM-CRF模型將其錯誤識別為治療實體“闌尾切除術”,第三個實例中的檢查項目實體“肱二、三肌腱反射”,BiLSTM-CRF模型將其錯誤識別為身體部位實體“三肌腱”,然而MHA-BiLSTM-CRF模型均能準確地識別出這些實體. 這也充分說明了MHA-BiLSTM-CRF能夠彌補BiLSTM-CRF的不足,有效學習并捕獲到字符序列中的長距離依賴信息,在實體較長時仍然能夠正確識別出中文臨床命名實體.
3.4.2 ? 與其他基準模型的對比結果
表7展示了幾種典型的命名實體識別模型在CCKS2017-CNER數據集上的性能. 從表中我們可以看到兩個基于詞級特征嵌入的模型(BiLSTM-CRFword和BiLSTM-CRFword + ReSeg)性能相對較差. 其主要原因在于基于詞級別特征的方法通常依賴分詞工具的準確性,而分詞錯誤必然嚴重地影響該類方法的實體識別性能. 而與基于詞級特征嵌入的模型相比,使用字符級特征的模型擺脫了對分詞精度的依賴,因而能夠獲得相對更高的性能. 例如,同樣基于BiLSTM-CRF模型,使用字符級嵌入的BiLSTM-CRFchar的F1值達到了0.912 4,比使用詞級嵌入的BiLSTM-CRF高出了0.032 9. RD-CNN-CRF利用殘差擴張的卷積神經網絡捕獲上下文特征,獲得了0.913 2的F1值. 然而,CNNs通常主要關注局部特征,沒有充分利用文本的長期依賴性,因此其性能在所有對比方法中僅排在第三位. 而CNN-LSTM-Attention則結合了CNN和LSTM各自的優勢來獲取局部上下文信息和單詞的時序依賴關系,并融合了另外兩種方法(CRF和LSTM-CRF)來構建集成模型,進一步將F1值提高到了0.914 6. 得益于精確的特征表示以及多頭自注意機制的引入,本文方法MHA-BiLSTM-CRF不僅可以全面地挖掘字符級、詞級以及句子級的各種語義和結構特征,而且還能捕獲句子中不同字符的重要性. 因此,它獲得了明顯優于其他對比模型性能,F1值達到了0.919 7. 盡管部分模型在精準率或召回率上似乎略高于MHA-BiLSTM-CRF,例如,BiLSTM + CRF + BiLSTM-FEA的精確率達到了0.944 9,而RD-CNN-CRF則獲得了0.920 2的召回率. 但是,另一方面,它們的召回率和精確率卻分別僅為0.877 9和0.906 3,遠遠低于我們模型. 作為結合精確率和召回率的綜合指標,F1值能更全面有效地評估不同模型的整體性能. ?因此,在F1值方面的比較結果更充分地說明了本文方法的優越性.
3.4.3 ? 不同特征表示方法的影響
為了分析不同特征嵌入方法對實體識別性能的影響,我們以BiLSTM-CRF和MHA-BiLSTM-CRF模型為例,分別比較采用三種不同的嵌入方法(字符嵌入、字符嵌入+標簽嵌入以及字符嵌入+字符-標簽嵌入)時的性能. 從表8結果可以看到,本文提出的特征嵌入方法(字符嵌入+字符-標簽嵌入)與其他兩種嵌入方法相比具有明顯的性能優勢. 例如,僅采用字符嵌入時,MHA-BiLSTM-CRF模型僅獲得了0.907 3的F1值,結合標簽嵌入時,其F1值增加到了0.914 2,而采用字符嵌入和字符-標簽嵌入的組合時,模型的F1值進一步提升了0.005 5.
這也充分地證明了本文所提出的特征表示方法的有效性. 其主要原因在于,與使用單一標簽嵌入的傳統方法相比,本文方法將字符和特征標簽組合成一個整體來重新訓練新的字符標簽嵌入向量,該向量可以為出現在不同臨床命名實體中的相同字符提供富含領域特性不同表示形式,極大地增強了特征表示的特異性和多樣性.
3.4.4 ? 數據不均衡的影響分析
從表2的實體統計數據中可以明顯看出,數據集中的實體分布很不均衡,尤其是疾病和治療實體的數量遠遠低于其他實體,在訓練集中大概只占實體總數的4%左右,然而其他實體的比例超過了25%. 這也導致了模型對于疾病和治療實體的識別準確率遠遠低于其他實體,性能結果如圖3所示.
因此,為了緩解這一影響,我們對數據集中的樣本進行了數據均衡處理,特別針對疾病和治療實體進行了重采樣處理. 實驗結果如表9所示,不論是BiLSTM模型還是MHA-BiLSTM-CRF模型,在進行數據不均衡處理之后整體性能明顯提升. 此外,還可以從圖3中看到,MHA-BiLSTM-CRF識別疾病實體和治療實體的能力顯著增強. 對于治療實體的識別、精確率、召回率和F1值由0.704 5、0.702 9、0.712 6分別增加至0.841 5、0.802 3、0.821 4. 因此,數據均衡處理提高了整體的識別性能MHA-BiLSTM-CRF的精確率為0.9056,召回率為0.909 1、F1值為0.907 3,比未進行處理的F1-score分別高0.010 8、0.023 7、0.017 2.
4 ? 結 ? 論
臨床命名實體識別是許多臨床信息抽取任務中最關鍵也是最基礎的環節. 然而,目前很多針對中文臨床命名實體識別任務的模型均不能夠很好地捕獲文本序列中的全局特征信息以及文本序列內部的字符與字符之間的關聯權重信息,且特征表示能力不足. 因此,本文首先設計了一種改進的字符級特征表示方法,將字符嵌入和字符-標簽嵌入相結合以增強特征表示的特異性和多樣性. 然后,在此基礎上提出了一種結合多頭自注意力機制和BiLSTM-CRF的中文臨床命名實體識別方法. 通過引入多頭自注意力機制并結合相關的醫學詞典,該方法可以更有效地捕獲臨床文本中的字符間的權重關系和多層次的語義特征信息,從而提高中文臨床命名實體的識別能力.
當然,本文方法也存在著一定的局限性. 一方面,本文模型的性能很大程度上依賴于充足的高質量標注數據;另一方面,我們僅在CCKS2017-CNER數據集上對模型進行了性能評估,而在其他數據集上的有效性仍然有待進一步驗證. 在未來的工作中,我們將會使用更多其他相關的數據集來測試模型的可擴展性和泛化能力,并測試優化模型在有限標注數據集的情況下的性能.
參考文獻
[1] ? ?LAFFERTY J,MCCALLUM A,PEREIRA F CN. Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C]// Proceedings of the Eighteenth International Conference on Machine Learning (ICML 2001). San Mateo,CA:Morgan Kaufmann,2001:282—289.
[2] ? ?LAMPLE G,BALLESTEROS M,SUBRAMANIAN S,et al. Neural architectures for named entity recognition[C]// Proceedings of the 15th Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. San Diego,CA:Association for Computational Linguistics,2016:260—270.
[3] ? ?DUAN H,ZHENG Y. A study on features of the CRFs-based Chinese named entity recognition[J]. International Journal of Advanced Intelligence Paradigms,2011,3(2):287—294.
[4] ? ?ZHOU G D,SU J. Named entity recognition using an HMM-based chunk tagger[C]// Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Philadelphia,Pennsylvania. Morristown,NJ,USA:Association for Computational Linguistics,2001:473—480.
[5] ? ?AMARAPPA S,SATHYANARAYANA S V. Kannada named entity recognition and classification using support vector machine[J]. Transactions on Machine Learning and Artificial Intelligence,2017,5(1):43—43.
[6] ? ?MCCALLUM A,LI W. Early results for named entity recognition with conditional random fields,feature induction and web-enhanced lexicons[C]//Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003-Volume 4. Stroudsburg,PA:Association for Computational Linguistics,2003:188—191.
[7] ? ?HUANG Z,XU W,YU K. Bidirectional LSTM-CRF models for sequence tagging[J]. Computer Science,2015.
[8] ? ?張俊飛,畢志升,王靜,等. 基于BLSTM-CRF中文領域命名實體識別框架設計[J].湖南大學學報(自然科學版),2019,46(3):117—121.
ZHANG J F,BI Z S,WANG J,et al. Design of Chinese domain named entity recognition framework based on BLSTM-CRF[J]. Journal of Hunan University(Natural Sciences),2019,46(3):117—121. (In Chinese)
[9] ? ?MA X,HOVY E. End-to-end sequence labeling via bi-directional LSTM-CNNs-CRF[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. San Diego,CA:Association for Computational Linguistics,2016:1064—1074.
[10] ?LI Z,ZHANG Q,LIU Y,et al. Recurrent neural networks with specialized word embedding for Chinese clinical named entity recognition[C]// Proceedings of the Evaluation Task at the China Conference on Knowledge Graph and Semantic Computing. Berlin,German:Springer,2017:55—60.
[11] ?OUYANG E,LI Y,JIN L,et al. Exploring n-gram character presentation in bidirectional RNN-CRF for Chinese clinical named entity recognition[C]// Proceedings of the Evaluation Task at the China Conference on Knowledge Graph and Semantic Computing. Berlin,German:Springer,2017:37—42.
[12] ?XIA Y,WANG Q. Clinical named entity recognition:ECUST in the CCKS-2017 shared task 2[C]// Proceedings of the Evaluation Task at the China Conference on Knowledge Graph and Semantic Computing. Berlin,German:Springer,2017:43—48.
[13] ?HU J,SHI X,LIU Z,et al. HITSZ_CNER:a hybrid system for entity recognition from Chinese clinical text[C]// Proceedings of the Evaluation Task at the China Conference on Knowledge Graph and Semantic Computing. Berlin,German:Springer,2017:25—30.
[14] ?WANG Q,ZHOU Y,RUAN T,et al. Incorporating dictionaries into deep neural networks for the Chinese clinical named entity recognition[J]. Journal of Biomedical Informatics,2019,92:103133.
[15] ?QIU J,ZHOU Y,WANG Q,et al. Chinese clinical named entity recognition using residual dilated convolutional neural network with conditional random field[J]. IEEE Transactions on Nano Bioscience,2019,18(3):306—315.
[16] ?TANG B,WANG X,YAN J,et al. Entity recognition in Chinese clinical text using attention-based CNN-LSTM-CRF[J]. BMC Medical Informatics and Decision Making,2019,19(3):74.
[17] ?VASWANI A,SHAZEER N,PARMAR N,et al. Attention is all you need[C]//Proceedings of the 31st Annual Conference on Neural Information Processing Systems. Piscataway,NJ:IEEE,2017:5998—6008.
[18] ?VITERBI A. Error bounds for convolutional codes and an asymptotically optimum decoding algorithm[J]. IEEE Transactions on Information Theory,1967,13 (2):260—269.
[19] ?WU J,HU X,ZHAO R,et al. Clinical named entity recognition via bi-directional LSTM-CRF model[C]// Proceedings of the Evaluation Task at the China Conference on Knowledge Graph and Semantic Computing. Berlin,German:Springer,2017:31—36.
收稿日期:2019-10-14
基金項目:湖南省自然科學基金資助項目(2018JJ2534),Natural Science Foundation of Hunan Province(2018JJ2534);網絡犯罪偵查湖南省普通高校重點實驗室開放基金資助項目(2020WLFZZC003),Open Research Fund of Key Laboratory of Network Crime Investigation of Hunan Provincial Colleges(2020WLFZZC003);國家重點研發計劃資助項目(2016YFC0901705),National Key Research and Development Program of China(2016YFC0901705);湖南省重大科技專項(2017SK1040),The Major Science and Technology Special Project of Hunan Province(2017SK1040);高新技術產業科技創新引領計劃(2020GK2029),The Science and Technolgy Innovation Leading Program for High and New Technology Industry(2020GK2029)
作者簡介:羅熹(1980—),女,湖南長沙人,中南大學副教授
通信聯系人,E-mail:anying@csu.edu.com