999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合知識的中文醫療實體識別模型

2021-08-09 10:53:20劉龍航趙鐵軍
智能計算機與應用 2021年3期

劉龍航 趙鐵軍

摘 要: 從醫療文本中抽取知識對構建醫療輔助診斷系統等應用具有重要意義。實體識別是其中的核心步驟。現有的實體識別模型大都是基于標注數據的深度學習模型,非常依賴高質量大規模的標注數據。為了充分利用已有的醫療領域詞典和預訓練語言模型,本文提出了融合知識的中文醫療實體識別模型。一方面基于領域詞典提取領域知識,另一方面,引入預訓練語言模型BERT作為通用知識,然后將領域知識和通用知識融入到模型中。此外,本文引入了卷積神經網絡來提高模型的上下文建模能力。本文在多個數據集上進行實驗,實驗結果表明,將知識融合到模型中能夠有效提高中文醫療實體識別的效果。

關鍵詞: 實體識別; 序列標注模型; 融合知識

文章編號: 2095-2163(2021)03-0094-04 中圖分類號:TP391.4 文獻標志碼:A

【Abstract】Extracting knowledge from medical texts is of great significance to the construction of medical auxiliary diagnosis system and other applications. Entity recognition is an important step. Most of the existing entity recognition models are based on the deep learning model of annotation data, which rely heavily on high-quality large-scale annotation data. In order to make full use of the existing medical dictionary and pre-training language model, this paper proposes a Chinese medical entity recognition model with knowledge fusion. On one hand, domain knowledge is extracted based on domain dictionary; on the other hand, the pre-training language model BERT is used as general knowledge, and then domain knowledge and general knowledge are integrated into the model. In addition, convolution neural network is introduced to improve the context modeling ability of the model. In this paper, experiments are carried out on multiple datasets. The experimental results show that knowledge fusion can effectively improve the effect of medical entity recognition.

【Key words】 entity recognition; ?sequence labeling model; ?knowledge fusion

0 引 言

在醫療健康領域中,擁有大量疾病及藥品等數據。這些數據廣泛存在于在線百科和醫療網站中,其中則蘊含著豐富的醫學知識。從醫療文本中抽取知識對構建醫療輔助診斷系統等應用具有重要意義。中文醫療實體識別指的是給定一篇醫學文本,標注出文本中出現的醫學實體,是從醫學文本中獲取醫學知識的關鍵技術。對于中文醫療實體識別任務而言,采用詞級別的序列標注,會引入分詞錯誤帶來的誤差。通常將中文醫療實體識別任務轉為字符級別的序列標注問題。

本文探索了一種融合知識的深度學習模型架構。一方面基于領域詞典提取領域知識,另一方面,引入預訓練語言模型BERT作為通用知識,然后將領域知識和通用知識融入到模型中。此外,引入了CNN來提高模型的上下文建模能力。實驗方面,本文在多個數據集上進行實驗,實驗結果表明,將知識融合到模型中能夠有效提高中文醫療實體識別的效果。

1 相關工作

早期的研究人員通常采用醫學專家定義的規則并且基于醫學領域詞典對醫療實體進行自動識別[1-2]。基于醫學詞典及規則方法的優點是無需標注數據,缺點是維護高質量的醫學詞典困難,并且專家定義的規則只適合某些場景。后來機器學習模型逐漸成為了實體識別的主流方法[3-4]。基于傳統機器學習方法無需人工定義規則和醫學詞典,具有不錯的穩定性。然而,該方法的效果很大程度上取決于定義的特征模板是否考慮周全,限制了模型的泛化能力。

近年來,深度學習方法在實體識別領域取得了顯著的效果[5]。Li等人[6]將BiLSTM-CRF模型應用于中文電子病歷的實體識別任務,并基于醫療領域數據訓練了更豐富、更專業的詞向量,進一步提高了模型性能。Lee等人[7]將預訓練語言模型BERT[8]應用于醫療領域,基于大規模醫學領域的英文語料訓練得到BioBert模型,最終在多個英文實體識別語料上取得最優結果。基于深度學習的方法效果優于傳統機器學習方法的重要原因是該方法無需人工定義特征模板,而是通過深度神經網絡自動進行特征學習,從而具有更強的泛化能力。

2 知識提取

2.1 基于領域詞典的領域知識提取

字級別的序列標注問題本質上是對每個字進行多分類。因此,可以利用醫療領域詞典這一額外資源增強每個字的特征表示,從而提高分類的準確度。基于此,最樸素的思想就是基于醫療領域詞典給每個字打標簽,再對離散化的標簽進行特征表示。具體來說,給定一個由T個漢字構成的句子S=和一個額外的醫療領域詞典D,首先基于雙向最大匹配算法[9]對句子S進行切分,將屬于D的文本片段切分出來,并打上對應的實體類型標簽,不屬于D的漢字標記為“None”。

通過雙向最大匹配算法得到打上標簽的文本片段后,可以進一步對文本片段中的字打標簽。考慮了每個字在其所屬實體的位置信息:如果該字單獨構成一個實體,那么在字標簽由前綴“S”和其所屬文本片段的實體類型標簽構成;類似地,用標志“B”和其所屬文本片段的實體類型標簽指示某個實體的第一個字;用標志“E” 和其所屬文本片段的實體類型標簽指示某個實體的最后一個字;用標志“I” 和其所屬文本片段的實體類型標簽指示某個實體中間的字。表1中舉例說明了這種標記方式。通過embedding方式對字標簽進行表示得到相應的特征表示向量。

2.2 基于BERT的通用知識提取

從大規模無標注文本中進行語言表示學習是自然語言處理的重要研究方向。BERT(Bidirectional Encoder Representations from Transformers)是一個上下文表示的語言表示模型。這是基于使用雙向多層Transformer編碼器[10]的屏蔽語言模型(masked language model)預先訓練的,結合下一個句子預測任務和更大的文本語料庫,可以用于學習更好的雙向上下文表示。

BERT模型有2個步驟,分別是:預訓練和微調(finetuning)。通過預訓練,BERT從大規模無標注數據學習到的語言上下文表示向量,這些向量蘊含了自然語言的組織內在規律,本文把這種內在規律稱為通用知識。序列標注任務是token級別的分類,對于中文而言,BERT模型的token是字級別,這與本文采用字符級別的序列標注解決中文醫療實體識別問題正好吻合。基于BERT的通用知識提取則如圖1所示。由圖1可知,本文將BERT模型最后一層隱狀態輸出向量作為字的表示向量,將其視為通用知識融入到后續序列標注模型部分,豐富序列標注模型的輸入信息,從而提高模型的識別能力。

3 融合知識的實體識別模型

融合知識的實體識別模型的輸入是單個句子,輸出是字符級別的標注結果。模型分為3部分,分別是:輸入編碼層、上下文建模層以及條件隨機場(CRF)輸出層。其中,輸入編碼層將融合領域知識和通用知識,上下文建模層將通過CNN和BiLSTM對輸入編碼進行上下文建模,CRF輸出層用于解決標簽依賴問題,并輸出最終的序列標注結果。對此擬展開研究分述如下。

3.3 條件隨機場層

對于字符級別的序列標注任務,通常來說考慮相鄰標簽的依賴性有助于提高模型的識別能力。例如,開始標簽“B”后面應該跟中間標簽“I”或結束標簽“E”,I標簽后面不能跟B標簽或S標簽。因此,研究中沒有只使用的ht來進行標簽分類決策,而是使用條件隨機場(CRF)來聯合建模標簽序列。CRF層是一個將狀態轉移矩陣作為參數的線性鏈式無向圖模型。通過該模型,可以利用前一個標簽和后一個標簽的信息來預測當前標簽。

4 實驗

4.1 數據集與評價指標

本實驗采用2個數據集,分別是:CCKS 2019評測一面向中文電子病歷的醫療實體識別數據集[13]和天池平臺中文糖尿病標注數據集[14](A Labeled Chinese Dataset for Diabetes)。上述兩個數據集都是按照文檔級進行構建的,需要將文檔級樣本切分為句子級樣本,切分后的數據集詳細情況見表2。

對應醫療實體識別任務,本文選擇最常用的評價指標,即所有實體類型上的微平均(micro-average) F1值。

4.2 實驗設置

本文采用Pytorch框架[15]進行模型實現。具體來說,對于輸入編碼層部分,字嵌入維度為128,字標簽的嵌入向量維度均為128,BERT采用Google官方基于中文維基百科訓練的BERTbase模型;上下文建模層部分,BiLSTM的隱狀態維度是128,CNN采取多種窗口大小的卷積核,分別是3,5,7,每種卷積核特征數為100。

4.3 實驗結果與分析

通過對不同的輸入編碼以及不同的上下文建模進行組合,可以得到多個模型,將這些模型應用于實驗數據集進行訓練和預測。實驗結果見表3。由表3可以看出,采用BERT結合字標簽的詞典特征作為輸入編碼,使用CNN+BiLSTM作為上下文建模層時,在2個數據集的實驗效果達到最好。下面將單獨分析不同輸入編碼方式以及不同上下文建模方式的效果。

(1)領域知識:在其他條件相同的情況下,融入詞典特征要比不融入詞典特征的效果好。實驗結果表明基于領域詞典提取的領域知識能夠有效提高模型的性能。這種領域知識取決于上下文和領域詞典,不受其他句子或統計信息的影響。因此,在某種程度上可以提供與監督學習數據驅動不同的信息。

(2)通用知識:在其他條件相同的情況下,使用BERT的實驗效果要明顯優于不使用BERT。這表明將BERT輸出的字向量作為通用知識融入到模型能有效提高醫療實體識別的效果,研究認為這是因為BERT模型蘊含了自然語言構成的內在規律,這種規律是一種通用知識,能夠提高模型的泛化能力。

(3)上下文建模層:在其他條件相同的情況下,CNN+BiLSTM要優于BiLSTM。這表明加入CNN能夠提高模型上下文建模能力。研究認為這是因為CNN通過多窗口卷積能夠捕獲局部上下文信息,尤其是對于字級別的序列標注任務而言,這種局部上下文信息類似于字的組合信息,將這種信息和BiLSTM的全局上下文信息結合,提高了模型上下文建模能力。

5 結束語

針對中文醫療實體識別問題,本文提出了融合知識的實體識別模型,包括利用了詞典提取領域知識和利用BERT預訓練模型提取通用知識,并且在上下文建模方面引入了CNN來提取局部窗口上下文信息。實驗結果表明,CNN能夠提高上下文的建模能力,基于詞典的領域知識和基于BERT的通用知識都能提高模型效果。

參考文獻

[1] ?FRIEDMAN C, ALDERSON P O, AUSTIN J H M, et al. A general natural-language text processor for clinical radiology[J]. Journal of the American Medical Informatics Association, 1994, 1(2): 161-174.

[2] WU S T, LIU Hongfang, LI Dingcheng, et al. Unified medical language system term occurrences in clinical notes: A large-scale corpus analysis[J]. Journal of the American Medical Informatics Association, 2012, 19(e1): e149-e156.

[3] 葉楓, 陳鶯鶯, 周根貴,等. 電子病歷中命名實體的智能識別[J]. 中國生物醫學工程學報, 2011, 30(2):256-262.

[4] 王世昆, 李紹滋, 陳彤生. 基于條件隨機場的中醫命名實體識別[J]. 廈門大學學報 (自然科學版), 2009,48 (3): 359-364.

[5] JAGANNATHA A N, YU Hong. Bidirectional RNN for medical event detection in electronic health records[C]//Proceedings of The 2016 Conference of The North American Chapter of The Association For Computational Linguistics: Human Language Technologies. San Diego, California:ACL, 2016, 2016 : 473-482.

[6] LI Z, ZHANG Q, LIU Y, et al. Recurrent neural networks with specialized word embedding for chinese clinical named entity recognition[C]//CEUR Workshop Proceedings 2017. [S.l.]:dblp, 2017,1976:55-60.

[7] LEE J, YOON W, KIM S, et al. BioBERT: A pre-trained biomedical language representation model for biomedical text mining[J]. arXiv preprint arXiv:1901.08746v2, 2019.

[8] DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[C]//Proceeding of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies(Long and Short Papers). Minneapolis, Minnesota: ACL,2019:4171-4186.

[9] GAI Rongli, GAO Fei, DUAN Liming, et al. Bidirectional maximal matching word segmentation algorithm with rules[J]. ?Advanced Materials Research, 2014,926-930: 3368-3372.

[10] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. Long Beach, CA:dblp,2017: 5998-6008.

[11]HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8):1735-1780.

[12]KIM Y . Convolutional neural networks for sentence classification[J]. arXiv preprint arXiv:1408.5882, 2014.

[13]醫渡云. CCKS 2019 評測任務一面向中文電子病歷的命名實體識別數據集[DB/OL] .[2019-08-05]. http://openkg.cn/dataset/yidu-s4k.

[14]阿里云. 中文糖尿病標注數據集[DB/OL] . [2019]. https://tianchi.aliyun.com/dataset/dataDetail?dataId=22288.

[15]PASZKE A, GROSS S, MASSA F, et al. PyTorch: An imperative style, high-performance deep learning library[M]//WALLACH H, LAROCHELLE H, BEYGELZIMER A, et al. Advances in Neural Information Processing Systems. Harju Maakond Tallin Estonia:Curran Associates, Inc., 2019:8024-8035.

主站蜘蛛池模板: 日韩精品久久无码中文字幕色欲| 国产日韩欧美中文| 男女性色大片免费网站| 国产精品久久久精品三级| 精品久久久久久久久久久| 亚洲人成网站观看在线观看| 成年午夜精品久久精品| 99在线免费播放| 国产黄网永久免费| 亚洲国产日韩欧美在线| 国产av无码日韩av无码网站| 亚洲精品中文字幕午夜| 一本二本三本不卡无码| 免费看a级毛片| A级毛片无码久久精品免费| 国产爽妇精品| 欧美另类精品一区二区三区| 久久久久人妻一区精品色奶水| 国产视频久久久久| 中文字幕乱妇无码AV在线| 婷婷色在线视频| 久久香蕉国产线看观| 自偷自拍三级全三级视频| 日日碰狠狠添天天爽| 黄色福利在线| 国内精品手机在线观看视频| 黄色福利在线| 四虎影视永久在线精品| 中文字幕在线日本| 国产呦精品一区二区三区网站| 国产人碰人摸人爱免费视频| 国产欧美日韩专区发布| 国产美女久久久久不卡| 毛片久久久| 国产鲁鲁视频在线观看| 亚洲中文字幕在线观看| 亚洲精品国产首次亮相| 亚洲中文字幕在线观看| 中国丰满人妻无码束缚啪啪| 第一区免费在线观看| 91综合色区亚洲熟妇p| 天天色综合4| 无码中文字幕精品推荐| 成人欧美日韩| 国产综合色在线视频播放线视| 国产制服丝袜91在线| 国产在线视频自拍| 国产国产人免费视频成18| 香港一级毛片免费看| 色欲综合久久中文字幕网| 亚洲第一成网站| 欧美啪啪精品| 小说区 亚洲 自拍 另类| 88av在线| 乱人伦视频中文字幕在线| 欧美精品成人一区二区在线观看| 日韩免费视频播播| 久99久热只有精品国产15| 亚洲综合久久一本伊一区| 久久这里只有精品免费| 91色在线视频| 99一级毛片| 国产最新无码专区在线| 九色视频线上播放| 免费99精品国产自在现线| 欧美日韩国产成人在线观看| 日本成人不卡视频| 91精品小视频| 成人免费一级片| 福利片91| 久久精品国产国语对白| 欧美一级在线看| 男人的天堂久久精品激情| 中文字幕伦视频| 久久久噜噜噜久久中文字幕色伊伊 | 国产精品一线天| 国产精品自拍合集| 成人av专区精品无码国产| 91网址在线播放| 女人av社区男人的天堂| 国产精品尹人在线观看| 欧美日韩资源|