999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

醫療大數據的認知命名實體識別分析

2021-11-05 07:47:56浙江萬里學院竺佳琦謝宇濤林施婷鐘逸倫
電子世界 2021年17期
關鍵詞:信息檢索方法

浙江萬里學院 竺佳琦 謝宇濤 林施婷 鐘逸倫 陳 浩 董 晨 金 冉

近幾年來,醫療健康大數據呈現蓬勃發展的態勢。在醫療領域已經積累了足夠規模的臨床數據的基礎上,同時擁有規范的數據采集流程,保障了持續的數據更新和足夠的可靠性。然而數據的利用率依然問題涌現,既包括數據本身的問題,也有數據管理問題和數據使用權限問題。針對醫療藥品數據中的自然語言的關系抽取和信息檢索任務,命名實體識別(Named Entity Recognition,NER)是一個高效且強有力的重要工具。

1 NER網絡架構

1.1 NER引入

命名實體識別是自然語言處理辦法中的一項基礎任務,也是NLP領域中進行例如關系抽取、信息檢索等復雜任務的基礎任務。其主要作用就是從輸入的自然語言文本中抽取相關實體,標注出其位置以及類型,并可以按照項目需求識別其他相關實體。

NER作為NLP領域中的研究熱點,正在不斷的實踐中逐步成長起來,從早期基于詞典和規則的方法、無監督學習方法,到傳統機器學習的方法,再到近年來基于深度學習的方法,命名實體識別技術也在逐步精進,在計算機視覺、語音識別、自然語言處理等領域都發揮了極為重要的作用。

但仍有部分問題還沒有得到很好地解決,例如:能夠使命名實體識別充分發揮效果的文本類型和實體類別是有限的;信息檢索領域更注重高準確率,命名實體識別則更側重高召回率;與其他信息檢索領域相比,實體命名評測預料較小,容易產生過擬合;面對識別多種類型時命名實體的系統性能較差等。對此,本項目開始了進一步的探索。

1.2 搭建標注框架

在實現算法標注之前,搭建切實符合項目需求及源數據特征的標注框架尤為重要,知識圖譜(Knowledge Graph)主要由實體、關系和屬性構成,信息抽取(Information Extraction)是構建知識圖譜的重要環節,用于實現從文本中抽取出三元組信息,然后將抽取后的多個三元組信息儲存到關系型數據庫中,便可得到一個簡單的知識圖譜,為接下來的算法標注明確了實體結構。

1.3 算法標注

自然語言普遍利用連貫的詞匯來描述事物、表達情感、闡述觀點等,同時不同語種詞匯的組合方式也不同,例如在詞法結構上中文與英文就存在較大的差異,其中最為明顯的差別是英文將詞組以空格的形式區分開來,所以自動化抽取的過程也相對簡便,而中文的詞組彼此相連,且一個詞組往往由兩個及以上的字來組成,則需要通過分詞工具來將語句拆分,正確實現拆分,才能進一步理解自然語言的內容和意圖。

關系抽取的常用算法一般有三種:基于規則的方法、監督學習的方法、半監督學習的方法。本項目結合了前面兩種方法,即保證了標注的召回率,同時也大大提高了效率和準確度,下面是方法介紹。

基于規則的方法。例如找出盡可能多的擁有”is-a”關系的實體對(entity,is-a,entity),提取出前后兩個實體。這個方法在工業實踐中被普遍利用,其優點是不需要訓練數據且結果比較準確,但召回率較低,且規則難以設計。

監督學習的方法。該方法需要定義實體類型以及關系類型,同時準備足夠比例的訓練數據以確保實體標注和關系標注的準確率,利用NER實體識別工具定義出實體類型,再提取其特征放入分類算法。還可以通過抽取位置特征:如單詞是否在第一位,兩個實體單詞之間還有多少單詞。最后將訓練數據放入LR,SVM或者神經網絡模型中進行訓練。

1.4 搭建神經網絡

如圖1所示,應用于NER中的biLSTM-CRF模型主要由Embedding層,雙向LSTM層,以及CRF層構成。NER方法中的主流模型biLSTM-CRF,可利用窗口方法與句子方法兩種網絡結構來進行NER。

圖1 NER網絡架構

窗口方法是指僅使用當前預測詞的上下文窗口進行輸入,然后使用傳統的NN結構;句子方法則是以整個句子作為當前預測詞的輸入,以便加入句子中相對位置特征來實現詞組區分,然后使用了一層循環神經網絡CNN結構。從而摒棄了原始的特征工程,使用詞向量和字符向量完成了較為精確的詞組區分,如果詞典特征可以有更高的質量,還能實現更好的效果。

2 NER網絡架構訓練結果

2.1 語料準備

Embedding:我們選擇Medscape語料來訓練字向量和詞向量。

基礎語料1:采用Medscape2011語料作為訓練語料。

基礎語料2:Medscape語料作為官方語料,其權威性與標注正確率是有保障的。但由于時間相隔較久,且實體類型種類較少。為了提升對新類型實體的識別能力,我們收集了Medscape2013語料。主要包括Drug,Brand,Group,Drug_n,包含了人類藥品、品牌名、藥物組乃至人類無法使用的物質,例如農藥或毒素。

2.2 標注樣式

本項目選用BIO標注法,實體起始位置以“B”標注,實體內容位置以“I”標注,非實體則以“O標注”。在本項目利用的語料庫中包含“DDI2011數據集”以及“DDI2013數據集”。

其中“DDI2011數據集”中只含有一種實體名稱:藥物。于是我們將句子中的每個單詞都標記為“B/I-DRUG”或“O”訓練和測試的數據集分別包含435和144個文檔,4267和1539個句子,11,260和3689種藥物。

而“DDI2013數據集”中含有四種實體名稱:Drug,Brand,Group,Drug_n。包含了人類藥品、品牌名、藥物組乃至人類無法使用的物質。訓練和測試的數據集分別包含507和163個文檔,5239和2095個句子,13,875和4972種藥物。

實際應用中,NER模型通常只要識別出人名、地名、組織機構名、日期時間即可,一些系統還會給出專有名詞結果(比如縮寫、藥物組、產品名等)。貨幣、百分比等數字類實體可通過正則搞定。

2.3 識別結果

訓練集、驗證集、測試集以“7:1:2”的比例劃分。其中訓練集達到49600條的樣本數,標注實體共88192個。

命名實體識別結果案例:

結合Bert-NER和特定的分詞、詞性標注等中文語言處理方式,獲得更高的準確率和更好的效果,能在特定領域的信息抽取任務中取得優異的效果。

2.4 數據增強

對于深度學習方法,一般需要大量標注語料,否則極易出現過擬合,無法達到預期的泛化能力。我們在實驗中發現,通過數據增強可以明顯提升模型性能。具體地,我們對原語料進行分句,然后隨機地對各個句子進行bigram、trigram拼接,最后與原始句子一起作為訓練語料。

2.5 訓練結果

本項目結合了基于規則的方法和監督學習的方法,即保證了標注的召回率,同時也大大提高了效率和準確度。順利的在醫療藥物領域的信息抽取任務中取得優異的效果,組準確率為0.94。

總結:基于神經網絡結構的NER方法,繼承了深度學習方法的優點,無需大量人工特征,只需詞向量和字符向量就能達到主流水平,加入高質量的詞典特征能夠進一步提升效果。本項目結合了基于規則的方法和監督學習的方法,即保證了標注的召回率,同時也大大提高了效率和準確度。針對醫療藥品數據中的自然語言的關系抽取和信息檢索任務,命名實體識別是一個高效且強有力的重要工具,推動了本項目的順利進行。

猜你喜歡
信息檢索方法
基于同態加密支持模糊查詢的高效隱私信息檢索協議
學習方法
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
在網絡環境下高職院校開設信息檢索課的必要性研究
新聞傳播(2016年11期)2016-07-10 12:04:01
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
基于神經網絡的個性化信息檢索模型研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
主站蜘蛛池模板: 老熟妇喷水一区二区三区| 欧美啪啪一区| 亚洲欧美另类日本| 国内精品九九久久久精品 | 国产欧美在线视频免费| 国产精品污视频| 国产微拍精品| 色偷偷综合网| 国产在线视频导航| 国产麻豆精品在线观看| 无码网站免费观看| 一区二区自拍| 一级毛片免费观看久| 欧美精品v欧洲精品| 欧美日韩国产系列在线观看| 成人免费视频一区| 精品无码国产一区二区三区AV| 久久久噜噜噜| 亚亚洲乱码一二三四区| 日韩精品一区二区三区大桥未久 | 女人毛片a级大学毛片免费| 国产美女91视频| 激情综合婷婷丁香五月尤物| 奇米影视狠狠精品7777| 久久国产乱子伦视频无卡顿| 日本三区视频| 一级成人a做片免费| 国产性爱网站| 久久综合五月| 国产婬乱a一级毛片多女| 亚洲综合第一区| 免费一看一级毛片| 波多野结衣二区| 三级毛片在线播放| 成人一级免费视频| 国产麻豆aⅴ精品无码| 欧美国产日韩另类| 国内精品九九久久久精品 | 国产成人高清精品免费| 看你懂的巨臀中文字幕一区二区| 国产一级毛片yw| a毛片免费看| 国产成在线观看免费视频| 国产尤物在线播放| 国产成人精品综合| 亚洲人在线| 国产素人在线| a级毛片免费播放| 亚洲色图欧美一区| 国产成人成人一区二区| 亚洲一区二区日韩欧美gif| 无码啪啪精品天堂浪潮av| 丰满人妻中出白浆| 亚洲综合香蕉| 色婷婷综合激情视频免费看| 日韩久久精品无码aV| 日韩免费视频播播| 91福利在线观看视频| 国产日韩欧美一区二区三区在线| 秘书高跟黑色丝袜国产91在线| 日韩乱码免费一区二区三区| www.精品国产| 国产尤物视频在线| 中文天堂在线视频| 99中文字幕亚洲一区二区| 天堂成人av| 国产成人91精品免费网址在线| 亚洲 成人国产| 成人福利在线观看| 国产对白刺激真实精品91| а∨天堂一区中文字幕| 午夜综合网| 免费毛片a| 欧美精品三级在线| 国产永久在线观看| 成人午夜视频网站| 中文字幕久久波多野结衣| 囯产av无码片毛片一级| 亚洲三级a| 中文字幕久久波多野结衣| 无码中文AⅤ在线观看| 香蕉在线视频网站|