999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

醫療大數據的認知命名實體識別分析

2021-11-05 07:47:56浙江萬里學院竺佳琦謝宇濤林施婷鐘逸倫
電子世界 2021年17期
關鍵詞:信息檢索方法

浙江萬里學院 竺佳琦 謝宇濤 林施婷 鐘逸倫 陳 浩 董 晨 金 冉

近幾年來,醫療健康大數據呈現蓬勃發展的態勢。在醫療領域已經積累了足夠規模的臨床數據的基礎上,同時擁有規范的數據采集流程,保障了持續的數據更新和足夠的可靠性。然而數據的利用率依然問題涌現,既包括數據本身的問題,也有數據管理問題和數據使用權限問題。針對醫療藥品數據中的自然語言的關系抽取和信息檢索任務,命名實體識別(Named Entity Recognition,NER)是一個高效且強有力的重要工具。

1 NER網絡架構

1.1 NER引入

命名實體識別是自然語言處理辦法中的一項基礎任務,也是NLP領域中進行例如關系抽取、信息檢索等復雜任務的基礎任務。其主要作用就是從輸入的自然語言文本中抽取相關實體,標注出其位置以及類型,并可以按照項目需求識別其他相關實體。

NER作為NLP領域中的研究熱點,正在不斷的實踐中逐步成長起來,從早期基于詞典和規則的方法、無監督學習方法,到傳統機器學習的方法,再到近年來基于深度學習的方法,命名實體識別技術也在逐步精進,在計算機視覺、語音識別、自然語言處理等領域都發揮了極為重要的作用。

但仍有部分問題還沒有得到很好地解決,例如:能夠使命名實體識別充分發揮效果的文本類型和實體類別是有限的;信息檢索領域更注重高準確率,命名實體識別則更側重高召回率;與其他信息檢索領域相比,實體命名評測預料較小,容易產生過擬合;面對識別多種類型時命名實體的系統性能較差等。對此,本項目開始了進一步的探索。

1.2 搭建標注框架

在實現算法標注之前,搭建切實符合項目需求及源數據特征的標注框架尤為重要,知識圖譜(Knowledge Graph)主要由實體、關系和屬性構成,信息抽取(Information Extraction)是構建知識圖譜的重要環節,用于實現從文本中抽取出三元組信息,然后將抽取后的多個三元組信息儲存到關系型數據庫中,便可得到一個簡單的知識圖譜,為接下來的算法標注明確了實體結構。

1.3 算法標注

自然語言普遍利用連貫的詞匯來描述事物、表達情感、闡述觀點等,同時不同語種詞匯的組合方式也不同,例如在詞法結構上中文與英文就存在較大的差異,其中最為明顯的差別是英文將詞組以空格的形式區分開來,所以自動化抽取的過程也相對簡便,而中文的詞組彼此相連,且一個詞組往往由兩個及以上的字來組成,則需要通過分詞工具來將語句拆分,正確實現拆分,才能進一步理解自然語言的內容和意圖。

關系抽取的常用算法一般有三種:基于規則的方法、監督學習的方法、半監督學習的方法。本項目結合了前面兩種方法,即保證了標注的召回率,同時也大大提高了效率和準確度,下面是方法介紹。

基于規則的方法。例如找出盡可能多的擁有”is-a”關系的實體對(entity,is-a,entity),提取出前后兩個實體。這個方法在工業實踐中被普遍利用,其優點是不需要訓練數據且結果比較準確,但召回率較低,且規則難以設計。

監督學習的方法。該方法需要定義實體類型以及關系類型,同時準備足夠比例的訓練數據以確保實體標注和關系標注的準確率,利用NER實體識別工具定義出實體類型,再提取其特征放入分類算法。還可以通過抽取位置特征:如單詞是否在第一位,兩個實體單詞之間還有多少單詞。最后將訓練數據放入LR,SVM或者神經網絡模型中進行訓練。

1.4 搭建神經網絡

如圖1所示,應用于NER中的biLSTM-CRF模型主要由Embedding層,雙向LSTM層,以及CRF層構成。NER方法中的主流模型biLSTM-CRF,可利用窗口方法與句子方法兩種網絡結構來進行NER。

圖1 NER網絡架構

窗口方法是指僅使用當前預測詞的上下文窗口進行輸入,然后使用傳統的NN結構;句子方法則是以整個句子作為當前預測詞的輸入,以便加入句子中相對位置特征來實現詞組區分,然后使用了一層循環神經網絡CNN結構。從而摒棄了原始的特征工程,使用詞向量和字符向量完成了較為精確的詞組區分,如果詞典特征可以有更高的質量,還能實現更好的效果。

2 NER網絡架構訓練結果

2.1 語料準備

Embedding:我們選擇Medscape語料來訓練字向量和詞向量。

基礎語料1:采用Medscape2011語料作為訓練語料。

基礎語料2:Medscape語料作為官方語料,其權威性與標注正確率是有保障的。但由于時間相隔較久,且實體類型種類較少。為了提升對新類型實體的識別能力,我們收集了Medscape2013語料。主要包括Drug,Brand,Group,Drug_n,包含了人類藥品、品牌名、藥物組乃至人類無法使用的物質,例如農藥或毒素。

2.2 標注樣式

本項目選用BIO標注法,實體起始位置以“B”標注,實體內容位置以“I”標注,非實體則以“O標注”。在本項目利用的語料庫中包含“DDI2011數據集”以及“DDI2013數據集”。

其中“DDI2011數據集”中只含有一種實體名稱:藥物。于是我們將句子中的每個單詞都標記為“B/I-DRUG”或“O”訓練和測試的數據集分別包含435和144個文檔,4267和1539個句子,11,260和3689種藥物。

而“DDI2013數據集”中含有四種實體名稱:Drug,Brand,Group,Drug_n。包含了人類藥品、品牌名、藥物組乃至人類無法使用的物質。訓練和測試的數據集分別包含507和163個文檔,5239和2095個句子,13,875和4972種藥物。

實際應用中,NER模型通常只要識別出人名、地名、組織機構名、日期時間即可,一些系統還會給出專有名詞結果(比如縮寫、藥物組、產品名等)。貨幣、百分比等數字類實體可通過正則搞定。

2.3 識別結果

訓練集、驗證集、測試集以“7:1:2”的比例劃分。其中訓練集達到49600條的樣本數,標注實體共88192個。

命名實體識別結果案例:

結合Bert-NER和特定的分詞、詞性標注等中文語言處理方式,獲得更高的準確率和更好的效果,能在特定領域的信息抽取任務中取得優異的效果。

2.4 數據增強

對于深度學習方法,一般需要大量標注語料,否則極易出現過擬合,無法達到預期的泛化能力。我們在實驗中發現,通過數據增強可以明顯提升模型性能。具體地,我們對原語料進行分句,然后隨機地對各個句子進行bigram、trigram拼接,最后與原始句子一起作為訓練語料。

2.5 訓練結果

本項目結合了基于規則的方法和監督學習的方法,即保證了標注的召回率,同時也大大提高了效率和準確度。順利的在醫療藥物領域的信息抽取任務中取得優異的效果,組準確率為0.94。

總結:基于神經網絡結構的NER方法,繼承了深度學習方法的優點,無需大量人工特征,只需詞向量和字符向量就能達到主流水平,加入高質量的詞典特征能夠進一步提升效果。本項目結合了基于規則的方法和監督學習的方法,即保證了標注的召回率,同時也大大提高了效率和準確度。針對醫療藥品數據中的自然語言的關系抽取和信息檢索任務,命名實體識別是一個高效且強有力的重要工具,推動了本項目的順利進行。

猜你喜歡
信息檢索方法
基于同態加密支持模糊查詢的高效隱私信息檢索協議
學習方法
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
在網絡環境下高職院校開設信息檢索課的必要性研究
新聞傳播(2016年11期)2016-07-10 12:04:01
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
基于神經網絡的個性化信息檢索模型研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
主站蜘蛛池模板: 2022精品国偷自产免费观看| 丁香婷婷激情网| 国产精品福利尤物youwu| 欧美一区精品| 成人国产小视频| 免费无码AV片在线观看国产| 精品国产免费观看| 成人午夜天| 亚洲 日韩 激情 无码 中出| 在线va视频| 国产成人精品高清不卡在线 | 国产成人综合欧美精品久久| 久久国产热| 色综合狠狠操| 青青青国产精品国产精品美女| 又大又硬又爽免费视频| 四虎亚洲国产成人久久精品| 国产午夜一级毛片| 亚洲国产精品美女| 亚洲男人的天堂在线| 无码中文字幕精品推荐| 色天天综合久久久久综合片| 亚洲色大成网站www国产| 尤物视频一区| 国产午夜一级淫片| 亚洲国产精品成人久久综合影院| 久久精品视频一| 久久久精品无码一二三区| 精品国产欧美精品v| 亚洲五月激情网| 国产一级毛片网站| 色呦呦手机在线精品| 国产网站免费| 99er精品视频| 久久国产精品波多野结衣| 亚洲AV色香蕉一区二区| 国产高潮流白浆视频| 免费观看国产小粉嫩喷水| 午夜国产小视频| 欧美精品导航| 国产欧美精品一区aⅴ影院| 色九九视频| 三级视频中文字幕| 成年av福利永久免费观看| 亚洲欧洲日产无码AV| 国产女人在线观看| 在线看片中文字幕| 亚洲免费毛片| 亚洲天堂2014| 热思思久久免费视频| 67194亚洲无码| 伊人久久青草青青综合| 久久天天躁夜夜躁狠狠| AV不卡无码免费一区二区三区| 国产黑丝视频在线观看| 亚洲成人网在线观看| 免费高清自慰一区二区三区| а∨天堂一区中文字幕| 国产成人免费手机在线观看视频| 色男人的天堂久久综合| 精品国产毛片| 无码国产伊人| 亚洲热线99精品视频| 在线a视频免费观看| 四虎在线高清无码| 久久人人97超碰人人澡爱香蕉| 国产伦精品一区二区三区视频优播 | 久综合日韩| 无码福利日韩神码福利片| 五月婷婷亚洲综合| 欧美日韩资源| 亚洲无码一区在线观看| 精品一区二区三区自慰喷水| 久久婷婷六月| 成人国产一区二区三区| 久久人人妻人人爽人人卡片av| 国产高清色视频免费看的网址| 国产精品主播| a级毛片毛片免费观看久潮| 亚洲国产亚综合在线区| 国产精品无码制服丝袜| 国产永久无码观看在线|