琚沅紅 牟冬梅,2* 王書童 李 樺,2 徐靜雯 呂淑貞
(1.吉林大學公共衛生學院,吉林 長春 130021;2.吉林大學第一醫院臨床研究部,吉林 長春 130021;3.長春中醫藥大學醫藥信息學院,吉林 長春 130117)
近年來,隨著數據的指數級增長、科學技術的不斷突破,以知識驅動的人工智能應用已被廣泛落地于各種現實場景中,該現象帶動了人們對精煉、專業化、個性化知識需求的不斷增加的同時,推動了大數據研究范式從數據密集型向知識密集型轉變進程,也促進了情報工程化、智能化的發展和壯大。情報工程化、智能化為創新科技情報服務提供了有效途徑,但如何從海量多源異構數據中識別并抽取知識,是當下情報工程化、智能化亟需解決的問題,也是解決大數據時代信息超載的關鍵[1-2]。而數據的真實性、準確性、可靠性、完整性程度對于提高數據到知識這一過程的有效性,增強所獲得知識的實用性起決定性作用。
診療規范作為高質量醫學知識的重要組成部分,對于提升科研效率和促進成果產出具有重要價值。其是包括臨床實踐指南、專家意見、專家共識、臨床路徑、技術標準、指導原則、國家標準在內的,由領域權威專家以循證醫學為前提,結合自身經驗對具有代表性、有效性以及可行性的最新研究成果的全面總結和深度提煉。診療規范作為健康醫療大數據的一部分,不僅能對臨床診療過程起到重要的指導和規范作用,且作為臨床決策支持系統(Clinical Decision Support System,CDSS)的核心知識源,能夠以“證據支持者”的角色為診療決策提供科學依據,提高臨床診療效率的同時,從整體上改善醫療服務同質化水平。總的來說,診療規范對醫務工作者的指導和約束作用貫穿于疾病診療過程始終。然而,當下診療規范以篇章為粒度且多以文本形式集成于各網站或數據庫系統中,未能以計算機可讀的形式嵌入到醫療信息系統中,文本形式的診療規范的難利用、不易擴展及可植入性差等問題無法滿足醫護人員在診療過程中對知識的需求,更加無法在實際診療的決策制定過程中提供自動化知識支持[3]。而且隨著互聯網+人工智能技術的發展,傳統的以經驗為主導的臨床實踐模式正在向數據驅動的循證醫學、精準醫學、人工智能+醫療等智慧化醫學模式變革。醫護人員對知識形式的需求逐漸從散在、孤立、簡單向聚合、關聯、復雜的方向發展,對知識的獲取深度也向著精準化、個性化和智能化的方向轉變。因此,如何從醫學數據中精準、智能、高效地提取知識,實現零散、異構數據的有序化組織、結構化存儲,從而促進對醫學知識的智能化應用,為醫護診療提供決策支持,是智慧醫療發展過程中的首要環節,也是最為基礎的一步[4]。
命名實體識別(Named Entity Recognition,NER)作為解決這一問題的基本手段,現階段主要用于對領域文本進行挖掘,其能夠根據目標實體的粒度、語義層次、語義深度從非結構化文本中對命名實體進行識別,其準確性、完整性對構建知識庫或知識圖譜起到了關鍵性的奠基作用。鑒于肺癌是對人類生命健康威脅最大的惡性腫瘤之一,《2020年世界癌癥報告》指明,肺癌發病率和死亡率一直位于全球各種惡性腫瘤首位(死亡率占總數18.4%)[5],其中,中國為發病率增幅最大的地區之一(年均增長率超過2%)[6],且根據國家癌癥中心發布的《2019年全國癌癥報告》顯示,按發病及死亡人數順位排序,肺癌位居我國惡性腫瘤發病率及死亡率首位,且其死亡率呈現逐年上升趨勢[7],對國家、社會和個人造成了嚴重的負擔。因此,本文以肺癌診療規范為例,以解決高質量醫學知識在實際應用過程中遇到的瓶頸為切入點,以結合詞匯增強的命名實體識別方式完成對非結構化肺癌診療規范文本中實體邊界及其類別的識別,實現肺癌診療規范文本的有序化、結構化,這對于提高診療水平的均等化和同質化程度,促進醫療模式變革具有重要意義。
縱觀NER的發展歷程,其經歷了早期的基于字典、基于規則的方法,基于隱馬爾可夫模型(Hidden Markov Model,HMM)、最大熵馬爾可夫模型(Maximum Entropy Markov Model,MEMM)、條件隨機場(Conditional Random Fields,CRF)等傳統的機器學習的方法,基于循環神經網絡(Recurrent Neural Network,RNN)、卷積神經網絡(Convolutional Neural Networks,CNN)的深度學習的方法以及以上方法的混合等階段,而不同方法的更新迭代的宗旨均是為了提高NER性能[8]。其中,因為基于深度學習的方法不論在特征學習深度還是在模型識別精度上都表現出遠優于傳統的基于機器學習方法的特點,而受到界內學者的廣泛應用。特別的,將機器學習與深度學習相結合而形成的LSTM+CRF、BiLSTM+CRF是現階段中英文NER的主流方法[9]。但不論采用哪一種方法,其性能均依賴于足量的標注數據以及標注數據的質量。而大多數標注數據均體現出依賴人工、數據量小、質量參差不齊等特點[10]。且垂直領域的術語或概念專業性更強,更加需要領域專家的加持,尤其是專業性極強的醫學領域,其對知識精準度、完整度要求更高。對醫學領域文本數據進行NER時,對數據的準確標注要求更高,且鑒于疾病類型種類繁多,不同的疾病診療過程各異的特性,不同疾病所代表的知識概念體系間也存在較大差異,這使得醫學數據樣本在標注時沒有統一的模板可循,再加上中文的表述不若英文沒有天然的分界,因此標注過程也更為復雜。這也是造成研究者對醫學相關文本進行NER時缺乏用于模型訓練的數據集的關鍵原因[11]。特別在總體數據量本身就少的中文診療規范數據識別方面,更加缺乏標注數據的支持。因此,對中文診療規范命名實體識別進行深入研究不論是在理論突破還是現實意義方面均具有重要價值。
目前,少樣本NER研究還處于發展階段,相關工作大多聚焦于通用領域,對醫學領域的研究極少。石教祥等[12]認為,現階段少樣本NER大體分為4個研究方向:數據增強、模型遷移、特征變換以及知識鏈接。其中,數據增強相關研究更為常見,且主要從模型結構設計和數據資源優化兩個方面來提升少樣本NER性能。
NER模型結構一般分為輸入表示層、序列建模層和標簽解碼層。研究者們通常對基線模型中的某一層或某幾層進行結構上的改良以實現更優的NER性能。在輸入表示層方面,有Ding R等[13]利用多圖結構實現實體詞典與基于字符的NER模型間的交互,進而解決詞典匹配沖突的問題。也有Ma R等[14]對Embedding層進行設計,避免信息損失的同時還能引入詞匯相對應的Word Embedding;或者通過為每個詞匯的末尾字符進行編碼實現Batch并行化以獲得較高的識別效率[15]。在序列建模層方面,其模型構造先后經歷了從Zhang Y等[16]提出LatticeLSTM和從Li Z等[17]提出MGLatticeLSTM,即通過更改LSTM結構將詞匯信息與基于字符的LSTM相融合。到Gui T等[18]提出LR-CNN,引入CNN實現并行化訓練并提出了一種Rethinking機制來解決詞匯沖突問題。到Sui D等[19]提出CGN,通過拼接多個圖注意力網絡的計算結果來對模型中的圖網絡層進行設計。再到Li X等[20]提出FLAT,通過使用Transformer并對字符的相對位置進行編碼來更好地融合詞匯信息等過程。此外,相關研究多采用網絡多層感知機+激活函數(MLP+softmax)、CRF、RNN和指針等方式對序列建模層輸出的序列進行解碼,其中以CRF最為通用[21]。整體來看,對輸入表示層的研究主要是構建基于詞匯信息的自適應Embedding,模型可移植性好。對序列建模層的研究以模型動態框架設計為核心,在基于字符的基礎上融入詞匯信息,此類模型設計及運行較為復雜,且移植性較差,不適合在專業性較強的領域推廣使用。
梳理現有研究成果發現,利用深度學習算法對相關領域內各類命名實體進行識別的方法或流程已逐步趨于成熟。因此,學者們多以前人研究中的模型或算法為基礎,將研究的重點聚焦于對訓練語料的優化方面。研究以此為出發點,將少樣本NER過程中所用到的數據資源分為內部資源和外部資源。其中,內部資源指用于訓練、驗證以及測試模型性能的數據集;外部資源指由外部引入的用于提高模型性能的數據。當下,以數據資源為操作核心的少樣本NER研究,或以內部資源為優化對象,通過增加資源支持體量、優化資源特征表示、增強語義表示能力等方式來提升少樣本NER性能,或以外部資源為優化對象,通過擴大資源提供維度來提高模型識別能力。
就資源體量而言,可通過主動學習采樣[22]為模型提供高質量數據集,或通過半監督采樣[23]、無監督采樣[24]等方式增加模型對負樣本的學習難度以提高樣本篩選的準確率。就特征表示而言,周康等[25]在BiLSTM的基礎上引入AdaBoost集成學習算法,通過整合各細分子類的分類器,從全局角度對數據不同維度的特征進行刻畫,提高模型的特征捕獲能力。陳曙東等[26]基于詞典并通過加權的方式對序列中的字符進行動態匹配后得到字符的增強特征表示,從而提高模型的自動推理能力。就語義表示而言,主要集中于對預訓練語言模型的研究,研究者們在研究過程中通過不斷增強對字或者詞的語義表示能力以實現對字或者詞的多義性表征,從最初的利用Word2Vec工具[27]訓練詞向量到近年來基于Transformer的BERT模型[28],從ElMo算法[29]、GloVe算法[30]到XLnet模型[31]再到如今的將XLnet模型和BERT模型相結合[32-34]的方法,雖然方法的復雜度越來越高,但對語義的表達能力越來越強。就資源維度而言,指外部資源的種類,可通過引入字典[14]、詞典[35]、本體庫[36]、知識庫[37]等外部資源來啟發式地標記數據,降低標注數據的獲取難度,從而提高目標NER任務的完成效率。
鑒于當下醫學領域內,尤其是專病相關訓練語料稀缺,且少樣本NER研究在醫學領域較為薄弱的現狀,本研究從改良模型結構、優化資源特征表示以及擴大資源提供維度的角度出發,以肺癌為例,以中文各版肺癌診療規范文本為原始語料,通過自建肺癌專業術語詞典并將其與字符級模型輸入表示層相融合的方式實現詞匯增強的肺癌診療規范NER模型的構建,并將該模型與基線模型BiLSTM-CRF、Soft-Lexicon相比較,從而進一步證實字詞融合方式在NER中優越性的同時,實現肺癌診療規范有序化、結構化,也為醫學領域內少樣本高質量醫學知識的命名實體識別研究提供路徑參考。
基于詞匯增強的NER的核心思想在于將詞匯信息引入到字級別的NER模型中,這種同時考慮字符和詞匯的做法分別在詞信息補全和詞邊界校準兩方面發力,既能避免詞級別模型出現分詞錯誤傳播的問題,也能解決字級別模型詞匯信息缺失的問題。本研究通過創新Soft-Lexicon模型[14]在醫學領域的應用,提出Fusion-Lexicon模型,即在利用字符詞典以及通用詞典進行字級別模型構建的基礎上,特別引入領域專業術語詞典,使字級和詞級特征相融合,進而促進NER效率的提升。具體研究框架設計如圖1所示。

圖1 融合領域詞典特征的診療規范命名實體識別框架
本研究在對肺癌診療規范文本進行預處理的基礎上,以肺癌概念體系為依據凝練出肺癌的核心概念,將核心概念作為領域詞典中描述肺癌術語或概念的基本大類,而后通過對肺癌相關的各種專業、權威參考資料的收集、篩選、歸納和提煉等過程,實現對各大類的術語或概念分支的豐富,從而完成對肺癌領域專業詞典的構建。研究將領域詞典和肺癌診療規范文本作為模型的基礎數據,借鑒分詞工具以及合適的標注體系,實現對診療規范文本語料的自動標注,并進一步在領域專家的指導下,基于分詞標注結果對領域詞典進行修正和完善,為融合了領域詞典的診療規范命名實體識別研究提供數據支持。
1)字符表示:以字符級中文NER模型為基礎,利用字符詞匯表Sc對輸入序列x={x1,x2,x3,xi,…,xn, 1≤i≤n}∈Sc中的字符進行匹配,將x中的每個字符xi映射為密集向量,其中,Lc表示字符Embedding查找表。
(1)
2)字+詞特征融合:基于詞典D,D=D1∪D2,其中D1為領域詞典,D2為通用詞典,將其中的單詞信息與輸入序列的字符表示相融合,并用ai,j={ci,ci+1,…,cj}表示任意輸入序列x中存在的詞組。其中,labs(xj)表示與xj相關的所有分詞標簽,研究利用“BMESO”標注體系對文本序列進行標注,其中“B”“M”“E”分別代表一個詞的開頭、中間和結尾,“S”代表單獨成詞,“O”代表非實體詞。elabs(labs(xj))代表{B,E,M,S,O}五維multi-hot向量。
(2)
以圖1所示的“外周血細胞”為例,通過將每個字符在D中的所有匹配結果歸類到以每個字符在詞組中位置為標準的4個集合“BMES”中,并用4個詞邊界標簽進行標記,若未能在詞典中找到匹配詞使得詞集為空,那么另添加一個詞集Δ并將其中的取值定義為“None”。對于輸入序列x中的每個字符xi的集合表達用如下公式表達:
B(xi)={ai,j,?ai,j∈D,i (3) M(xi)={am,j,?am,j∈D,1≤m E(xi)={am,i,?am,i∈D,1≤m<1} S(xi)={xi,?xi∈D} Δ(xi)={None,?ap,q?D,1≤p 3)詞集權重歸一:為了提高NER模型的并行化計算效率,在對獲得的每個字符的“BMES”詞集Ζ進行維度統一的基礎上,利用基于統計的靜態加權的方法對詞典詞w的頻率p(w)進行統計并將其作為每個詞的權重,詞集Z的加權函數rz表示如下: (4) 其中,Lw表示單詞Embedding查找表。將詞集表示組合成固定維度的特征后,對詞集進行串聯并將其添加到每個字符表示中,利用每個字符相對應的4個詞集權重,對每個字符進行表示如下: Lz(B,M,E,S)=[rz(B);rz(M);rz(E);rz(S)] (5) vc←[vc;Lz(B,M,E,S)] 文章通過構建Fusion-Lexicon特征,將輸入序列與詞典D相匹配的結果添加到每個字符的向量表示中,序列建模層以這些詞匯增強的字符表示為輸入,利用單層BiLSTM對輸入序列中字符間的依賴關系進行建模。其中,LSTM單元運算公式如下: (6) iα=σ(w[hα-1,xα]+k) hα=oα*tanh(cα) 其中,iα、oα、fα分別為LSTM的輸入門、輸出門以及遺忘門因子,cα為當前狀態,hα為隱藏狀態,σ代表為Sigmoid激活函數,w和k為可訓練參數,*為元素間的乘積。前向、后向LSTM得到的隱藏狀態hα形成cα的上下文表示。序列建模層由3個上述LSTM單元串聯組合而成,第1個LSTM單元是基于字符的模型,對輸入序列中的字符進行建模。第2個LSTM以第1個LSTM單元中的字符Embedding為輸入,通過融合字符序列中的詞信息得到第3個LSTM單元,最終實現融合詞信息的字級別NER模型。 該層以序列建模層的結果為輸入,利用CRF對整個輸入序列中字符的標簽進行預測: (7) βα(y′,y|x)=exp(wy′,yhj+ky′,y) yx表示序列x的所有可能存在的序列標簽,wy,y′和ky,y′是(y′,y)標簽對的可訓練參數,φ代表模型參數。此外,在對標簽預測的過程中,模型使用維特比算法,對給定的輸入序列x,以條件概率最高值作為閾值對標簽序列y*進行搜索,從而實現對標簽的預測,F(y,x)代表特征向量,w代表權值向量。 (8) 文章通過線上、線下手段相結合的方式廣泛收集各版肺癌診療規范(2009—2022)共計103篇,原始語料以.doc或.pdf的格式存在,且收集過程中已排除標題重復的文獻。本研究首先對肺癌診療規范文本來源進行核查,刪除內容同源以及源于個人或非權威機構發表的肺癌診療規范,共計17篇,保留了由中國抗癌協會、中國臨床腫瘤協會、中華醫學會、國際呼吸學會、國際腫瘤學會發布的以及國家發布的指導性文件,共計86篇。之后通過Python自編代碼將.doc及.pdf格式的肺癌診療規范批量轉化為.txt格式,并通過人工分別對轉化結果進行了文字校對,對轉義字符串、多余標點符號、題錄信息、參考文獻等內容進行了刪除以供后續研究使用。 為了實現文本語料的自動標注,鑒于診療規范所具備的知識領域性強、術語表達規范、語言不規范現象較少等特點,本研究參考醫學領域NER相關研究中所設置的實體類別,根據Hadzic M等提出的四維通用疾病本體模型[38]、OMAHA“七巧板”醫學術語集[39]、UMLS等醫學術語體系結構和術語分類標準,根據肺癌發生發展過程、診療特點以及文本形式診療規范的行文規律,在醫學專家的指導下,構建肺癌診療過程所涉及的概念體系,如圖2所示。 本研究以肺癌概念體系為依據,凝練出臨床表現、檢查、檢驗、分期等核心概念。以核心概念為基礎,考慮診療規范行文用詞規范性較強的特點,充分利用教科書、官方發布的標準規范、領域公認的專業術語表等參考資料對肺癌核心概念下的子類概念或術語進行辨析后,通過閱讀、篩選、歸類以及去重等人工操作,參考肺癌診療規范分詞標注結果,在醫學專家的指導下,不斷地對領域詞典進行勘誤和細化,最終得到共計10個大類,72 041個詞匯的肺癌專業術語詞典,如表1所示。 表1 肺癌相關核心概念界定及其相關術語參考資料 NER過程的本質是一種序列標注任務,為了得到能夠用于NER的訓練語料,本研究將肺癌專業術語詞典作為自定義詞典與結巴分詞相結合,通過對預處理好的肺癌診療規范文本進行語詞匹配、注釋核心概念標簽等分詞處理操作實現對語料的詞性特征構造,并在標注結果的基礎上不斷地對領域詞典進行補充和完善。利用Python自編程序對分詞后數據進行邊界特征構造,即利用“BMESO”標注體系實現對語料中詞匯或字符的邊界界定,以“Ⅳ期小細胞肺癌,首選治療模式為全身化療?!睘槔?,其標注結果如圖3所示。 圖3 標注結果示例 為了獲得更優的模型參數,本研究以句子為單位,將經過分詞處理后的肺癌診療規范文本按照8∶1∶1的比例隨機拆分成訓練集、驗證集和測試集,并在融合了領域詞典特征的Fusion-Lexicon模型、Soft-Lexicon模型和BiLSTM-CRF模型上進行實驗,其中,各數據集中各類別的實體數量統計結果如表2所示。具體的,本文在Torch框架下,采用Python語言在CPU為Intel(R) Core(TM) i7-7700HQ CPU @ 2.80GHz,操作系統為Win 10的環境下進行實驗,其他模型參數設置如表3所示。 表2 各數據集中各類實體數量 表3 實驗參數設置 基于肺癌診療規范文本,以經典的字級別NER模型BiLSTM-CRF、Soft-Lexicon為基線模型,以融合了領域詞典特征的詞匯增強模型Fusion-Lexicon為實驗模型,對肺癌診療規范進行命名實體識別。其中,采用精準率(Precision)、召回率(Recall)以及調和平均值F(F-measure)對模型性能進行綜合評價。 3.4.1 模型整體識別效果分析 為了明確基線模型BiLSTM-CRF、Soft-Lexicon和實驗模型Fusion-Lexicon對肺癌診療規范命名實體的識別效果差異性,本研究對3種模型的性能進行了比較,具體結果如表4所示。從表中數據可以明確,Fusion-Lexicon模型對肺癌診療規范文本中實體的識別效果在整體上均優于BiLSTM-CRF和Soft-Lexicon,且Soft-Lexicon的識別效果整體上優于BiLSTM-CRF。這一結果驗證了相較于單純的字級別模型,將字符和詞匯相融合,兼顧保留詞信息以及重視詞邊界對肺癌診療規范文本進行NER的方式具備可行性,尤其是將領域詞典特征引入到已經融合了通用領域詞典特征和字符特征的Soft-Lexicon中,在提高肺癌診療規范文本的NER性能上更具優越性。 表4 各模型整體識別效果對比 3.4.2 各類實體識別效果分析 在模型整體識別效果的基礎上,為進一步探究肺癌診療規范文本中不同實體類別的識別差異性。本文分別以P、R、F1值為評價指標,對實驗模型Fusion-Lexicon和基線模型BiLSTM-CRF、Soft-Lexicon在肺癌診療規范文本中不同命名實體類別上的識別效果進行了比較研究,結果如圖4所示。Fusion-Lexicon模型對藥物類實體的識別效果最好,F1值為96.43%。其次為分期、診斷/治療/預防操作或程序類實體,F1值分別為94.39%,94.01%。且除部位外,其他類實體識別效果也不差,F1值均在92%以上。這均與診療規范文本表述內容的規范性、領域詞典的專業性密切相關。研究對錯誤識別中識別較好和較差的結果進行分析發現,藥物大多被預測為物質成分,從實體詞本身來看無誤,因為有些機體中的物質也可以是藥物的主要成分。例如:表皮生長因子、PD-L1等。但從語義上來看,模型對該類實體的上下文語境理解稍顯不足,后期可從增加資源支持體量的角度出發,通過正樣本采樣來改善此類實體的識別效果。分期大多被預測為疾病診斷,因為分期也是疾病診斷的一部分。另外,診斷/治療/預防操作或程序除被識別為該類詞的某一部分外,大多被識別為檢查、檢驗,因為從實體類型的本質來看,檢查、檢驗、操作或程序類實體在大類上均屬于操作。因此,后續研究需要嚴格把握實體類間的范疇界限,細化詞典分類體系,進而保障生成更高質量的標注數據。 此外,3種模型對部位識別的效果均不佳。通過分析模型預測結果發現,在識別錯誤的結果中,該類實體大多趨向于被識別為疾病診斷、操作、臨床表現類實體。一方面是因為這3類實體中的字符大多包含部位相關的詞;另一方面與肺癌領域詞典中部位類實體粒度較粗或實體數量相對較少有關。后續還需進一步對領域詞典中的部位類實體進行擴充和完善,進而改善該類實體識別效果欠佳的問題。 “雙輪驅動”下情報研究范式的變革,為實現數據知識化、知識實踐化提供了理論支持,為有效推動情報工程化和智能化發展打開了新局面。本研究從情報學領域面臨的如何高效實現數據/知識結構化、有序化問題出發,結合醫學領域高質量數據資源特點及其NER特性,從少樣本NER研究方法入手并對其研究現狀進行梳理發現,整體上,少樣本NER相關研究呈現出以模型結構設計和數據資源優化為研究趨勢,且在數據資源優化方面,以數據資源為操作核心,以內部或外部資源為優化對象,以增加資源支持體量、優化資源特征表示、增強語義表示能力、擴大資源提供維度為優化方式,內外聯動,協力提升少樣本NER性能。 本研究基于綜述發現,以肺癌診療規范文本為例,提出了一種面向少樣本高質量醫學知識的,融合了字符詞典、通用詞典和領域詞典的詞匯增強型命名實體識別框架Fusion-Lexicon。該框架相較以往研究,在實現路徑上有以下3方面的優越性:①在模型結構設計上,通過在已經融合了字符詞典特征、通用領域詞典特征的字級別模型中引入專業領域相關的詞級別的詞匯信息和位置信息的方式改良了模型的輸入表示層,保證了NER模型在其他類似任務上可移植性,一定程度上解決通用領域NER模型在醫學領域中擴展性差的問題,并且在提高了模型對實體邊界識別效率的同時,實現了對語料中不同粒度信息特征的提取,更大程度上保留了文本的語義信息;②在優化資源特征表示上,在分詞標注手段的支持下,基于通用詞典、字符詞典以及領域詞典,將語料中每個字符所涉及的4個BMES詞向量進行串聯后得到Fusion-Lexicon特征,并將該特征與每個字符的Embedding進行拼接以得到模型的輸入數據,盡可能地保留語料中語詞的邊界信息和語義信息,為實現高效的NER奠定數據基礎;③在擴大資源提供維度上,研究在利用通用詞典、字符詞典的基礎上,額外引入全面、準確、細化的領域詞典,以擴大資源維度的方式為模型訓練提供更堅持的數據支持。總的來說,該模型能夠在整體實驗數據較少的情況下,使診療規范文本命名實體識別任務的準確性和高效性達到較高水平,從而促進診療規范文本的有序化和結構化,并為后續診療規范知識圖譜的構建奠定基礎。 特別的,在構建領域詞典時,鑒于醫學領域概念和術語表達的專業性、特殊性和穩定性以及醫學領域相關概念或術語詞表的通用性等特征,為了更好地發揮領域詞典在少樣本高質量醫學知識NER中的作用,與以往的研究中多基于統計學方法通過利用通用語料或者高頻詞的方式構建領域詞典不同[40-41],本研究通過人工的方式整合歸納了與肺癌相關的各種權威資料,構建出了高質量、類別多、體量大的肺癌專病詞典。雖然人工構建肺癌專病詞典花費了大量的人力和物力,但這種消耗在一定程度上是一次性的。因為,在醫學領域內,不同疾病相關實體,尤其是檢查檢驗等大多是相同的,這就意味著在絕大多數情況下,基于病種的特殊性進行微調后的高質量專病詞典能夠被應用于其他疾病相關的文本NLP任務中。且通過利用領域詞典代替專家對語料進行標識并將其與基于深度學習的NER方法相融合的方式,一定程度上實現語料自動、準確、快速標注的同時提高了對醫學數據中少樣本高質量醫學知識資源的利用率,也在很大程度上提升了NER模型性能的同時為相關疾病的命名實體識別研究提供方法參考。因此,醫學專病領域詞典的構建不但能大大減輕領域專家在語料標注上的負擔,還能經過微調適用于不同病種的NER任務中,解決在醫學領域進行NER任務時的冷啟動問題,更能在很大程度上優化命名實體識別過程中出現的實體邊界識別不清以及語義信息丟失的問題。 本文的局限性主要有兩個方面:第一,領域詞典的體量需進一步擴大且其分類體系也有待進一步細化。例如:加大部位類實體的詞量,從樣本數據量上入手提高模型對部位類實體的識別效率。例如:優化分類體系,厘清藥物與物質成分、分期與疾病診斷、診斷/治療/預防操作或程序與檢查、檢驗等類別之間的邊界。且通觀各類文本命名實體識別研究,原始語料的標注質量是決定NER效果的關鍵因素之一。同理,少樣本高質量醫學知識的NER效果在很大程度上依賴于領域詞典的知識覆蓋率,為進一步提高模型對高質量醫學知識的識別效果,后續研究將在現有詞典的基礎上,通過人工+自動相結合的方式,例如:收集、整理、歸納更多權威資料以及咨詢相關領域專家等人工方式,采用語義相似度、字詞構詞特征學習、語義映射、遷移學習等自動方式,豐富完善領域詞典體量、不斷細化現有分類體系的同時,對詞典進行歸一化處理,為高質量醫學知識語料的自動化標注提供專業數據支持。第二,文章僅對以診療規范為例的高質量醫學知識中的純文本數據進行研究,未涉及其中的圖表數據。解決高質量醫學知識中數據的多模態問題能夠更好實現高質量醫學知識的有序化和結構化,后續研究將分別通過表格文檔重建、流程圖識別等方法實現高質量醫學知識資源中圖表內容的自動識別。
2.3 序列建模層
2.4 標簽預測層
3 實驗與結果分析
3.1 數據來源及處理
3.2 領域詞典構建


3.3 實驗過程與參數設置



3.4 實驗結果分析

4 結 語