999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

命名實體識別方法研究進展

2019-01-22 06:54:48黃晴雁牟永敏
現代計算機 2018年35期
關鍵詞:文本實驗方法

黃晴雁,牟永敏

(北京信息科技大學計算機學院,北京 100101)

0 引言

命名實體識別(Named Entity Recognition,NER),也稱為實體提取,是指對文本中特定的實體進行識別并對區分其種類。近年來,深度學習在自然語言處理領域(Natural Language Processing,NLP)廣泛應用,取得了良好的效果,命名實體識別作為基礎任務得到了進一步的發展。作為信息抽取的子任務,從非結構化文本中識別并抽取結構化的數據,需要命名實體識別技術作為支撐。同時,隨著人工智能的發展,對文本語義層面的研究得到了國內外學者的廣泛關注,對命名實體識別的研究有助于理解語義層面的知識。

1 研究內容及應用

1.1 研究內容與領域

從語言分析的過程來看,命名實體識別屬于詞法分析中的未登錄詞識別,也就是識別文本中的命名實體(Named Entity,NE)。MUC-6最早將命名實體作為你一個明確的概念和研究對象提出,以及后來的MUC-7規定了命名實體包括三大類(實體類、時間類和數字類)和七小類(人名、地名、機構名、時間、日期、貨幣和百分比)。ACE將命名實體中的機構名和地名進行了細分,增加了地理-政治實體和設施實體,之后又增加了交通工具實體和武器實體。

實際早期對于命名實體識別的研究,主要集中于對一般“專有名詞”[1]的識別,包括三類名詞:人名、地名、機構名。后來隨著研究的逐漸展開,研究者們將對命名實體識別的研究擴展到了更多的特定領域。張劍等[2]在農業領域進行了命名實體識別,采用基于條件隨機場的方法,將農業命名實體分為病蟲害、作物、化肥及農藥4種命名實體。張磊[3]將命名實體識別的研究應用在了軌道交通領域,并且提出了一種基于條件隨機場、半監督學習和主動學習相結合的方法,形成了一個統一的技術框架。佘俊等[4]為了能快速、準確地將分散在Web網頁中的音樂實體抽取出來,提出了一種規則與統計相結合的中文音樂實體識別方法,并實現了音樂命名實體識別系統。

在語言種類方面,命名實體識別對英語、中文、德語、日語、西班牙語、葡萄牙語等都有相應研究。最初的研究主要以英文為主,后來逐漸發展到對多語言和獨立語言進行研究。2003年舉辦的“963”測評最早將漢語命名實體識別作為評測任務提出。2006年SIGHAN正式將命名實體識別問題作為其評測比賽的一項任務。近幾年,國內很多研究者對我國少數民族的語言進行了命名實體識別研究。金明等[5]對藏語進行了命名實體識別研究;吳金星[6]在蒙古語命名實體識別研究的基礎上構建了蒙古語語料加工繼承平臺;塔什甫拉提·尼扎木丁[7]對維吾爾語文本中的人名命名實體進行了識別研究。

1.2 命名實體識別的應用

命名實體識別是多種自然語言處理技術的重要基礎,對于句法分析、語法分析、語義分析等都有著極其重要的影響,主要應用在信息抽取、機器翻譯、問答系統等方面。

文本信息抽取是在自然語言文本中抽取出指定類型的實體、關系、事件等事實信息,并形成結構化數據。趙軍等[8]對開放式文本的信息抽取進行了研究,認為命名實體識別是信息抽取的基礎,同時也是重中之重,并且對于知識庫的構建、網絡內容的管理、語義搜索等都具有重要的應用價值。

機器翻譯,又稱為自動翻譯,利用計算機將一種自然語言轉換為另一種自然語言。在機器翻譯時,通常需要對專有名詞如人名、地名、機構名等進行精確翻譯。例如中國漢語人名翻譯成英文時大多用拼音表示,且需要名在前姓在后,而其他普通詞語則需要翻譯成對應的英文。陳懷興等[9]對命名實體的機器翻譯等價對方法進行了研究,通過實體等價對對齊,得到了較高正確率的機器翻譯結果。因此,準確而高效地識別出文本中的命名實體,對于提高機器翻譯的準確率有重要意義。

問答系統是信息檢索系統的一種高級形式,用準確、簡潔的自然語言回答用戶用自然語言提出的問題。周波[10]對面向問答系統的實體識別與分類進行了研究,認為實體識別是問答系統的關鍵技術之一,直接關系到問句類型的判斷和答案的抽取。

2 主要研究方法

目前,關于命名實體識別的方法主要分為:基于詞典和規則的方法、基于統計機器學習的方法、基于深度學習的方法等。而且,現在較為流行的是將其中兩種方法結合甚至是三種結合,可以充分利用不同方法的優點,提高學習的準確度和效率。

2.1 基于詞典和規則的方法

早期的命名實體識別工作大多都采用手工編寫字典和規則的方法,并且由相關領域的專家來完成,其研究的重點是根據研究領域的特征構造詞典并編寫規則模板。一般來說,規則的構造需要考慮到該領域的關鍵字、指示詞、中心詞、前后綴等特征,依賴于已制定的詞典和知識庫,通過模式匹配或字符串匹配等方法來識別出命名實體。其中,詞典負責已有詞匯的識別,規則負責未登錄詞的識別。

早在2000年,Farmkiotou,D等[11]提出了基于規則的用于希臘金融文本中的命名實體的識別算法。他們認為,典型的命名實體識別系統應是由詞典和語法組成的。其中,詞典是指研究領域中特有的詞匯,而語法是指該領域語言所具有的特征。在新的領域進行研究時,該領域的詞典應該是通過手工的方法或者機器學習技術根據其特點來制定的。因此,他們提出了一個基于人工構建詞典的命名實體識別系統,并在希臘金融新聞語料庫上進行了測試,取得了令人滿意的效果。

近幾年來,基于字典和規則的方法在學術研究上應用較少,且基本上是與基于統計的方法混合使用,而在實際產業中應用較多。一方面,基于字典和規則的方法精確度較高,往往可以滿足實際應用中對準確率的要求,而且在工業中的應用僅限于固定的領域,即便是有新詞,對識別系統的改動也不會太大;另一方面,由于語言的復雜性和靈活性,該方法中規則的編寫費時費力且難以涵蓋所有的語言現象,建設成本較高,并且該方法依賴于具體的領域、語言,可移植性不好,會遇到知識瓶頸問題。

圖1為基于詞典和規則的命名實體識別方法的基本處理過程,其中包括了新規則與新詞的添加。

圖1 基于規則和詞典方法的基本流程

2.2 基于統計機器學習的方法

基于統計機器學習的方法將命名實體識別看做一個分類問題或者序列標注問題,需要利用經過人工標注的語料進行訓練。目前該方法主要包括以下幾種模型:隱馬爾科夫模型(Hidden Markov Mode,HMM)、最大熵模型(Maximum Entropy,ME)、條件隨機場(Condi?tional Random Fields,CRF)、決策樹(Decision Tree)等??偟膩碚f,該方法的步驟主要可以總結為:預處理語料、抽取特征并制定特征模板、訓練模型、優化模型。

圖2為基于統計機器學習的命名實體識別的流程。

圖2 基于統計機器學習方法的基本流程

近幾年來,機器學習在命名實體識別方面取得了很大的進展,研究者們一直致力于設計識別效果更好、應用范圍更廣的算法,并取得了一定的成功。

2018年,周法國等[12]提出了一種基于轉移學習的中文命名實體識別算法,將命名實體識別看做分類任務,進行了中文人名、地名、組織機構名的識別。該算法有統計與規則相結合,利用初始標注語料及規則模板形成規則,對規則進行統計訓練得到規則標注序列。所謂轉移學習,主要是基于成功轉換數據來更正數據,依據錯誤率獲得較大的成功。其中心思想是開始以一些簡單的結論應用于問題,然后在每個步驟應用轉換,選擇出每次轉換的最優結論再次應用于問題,當選擇的轉換在足夠的空間內不再修改數據時算法停止。實驗驗證,該模型獲得了較好的結果。

高冰濤等[13]認為傳統的生物醫學領域命名實體識別標注數據代價較高,因此關注命名實體識別的遷移學習。他們在權值學習模型的基礎上,構建了基于遷移學習的隱馬爾可夫模型算法BioTrHMM,其目的是降低生物醫學文本中命名實體識別對目標領域標注數據的需求。BioTrHMM算法在使用較少的目標領域數據的情況下,以相關領域數據為輔助數據集,利用數據引力的方法計算權值來評估輔助數據集的樣本在目標領域——生物醫學領域學習中的貢獻程度,從而進行知識的遷移。該研究選取了GENIA語料庫中的數據集,取得了較好的實驗結果。

Yukun Chen等[14]提出了一種基于主動學習的臨床命名實體識別標注系統,任務是從臨床筆記中提取問題、治療和實驗室相關實驗的概念。該標注系統是基于已經標注的句子迭代地構建命名實體識別模型,并且選擇下一個句子進行標注。系統的前端是一個用戶推斷界面,用戶可以通過特定的查詢引擎在系統提供的句子中標記臨床命名實體。系統的后端會根據用戶的注釋對CRF模型進行迭代訓練,并根據查詢引擎選擇最有用的句子。該系統的工作流程如圖3所示:

圖3 主動學習模型

李剛等[15]將研究的關注點放在近年來發展迅速的微博等網絡社交平臺上,認為其獨特的形式對傳統的命名實體識別技術提出了新的挑戰。因此,他們提出了一種基于條件隨機場模型的改進方法,針對微博文本短小、語義含糊等特點,引入外部數據源提取主題特征和詞向量特征來訓練模型,針微博數據規模大、人工標準化處理代價大的特點,采取一種基于最小置信度的主動學習算法,以較小的人工代價強化模型的訓練效果。研究選取了新浪微博數據集,并且考慮了中文的深層語義。實驗證明,該方法與傳統的條件隨機場方法相比F值提高了4.54%。

基于統計機器學習的方法對特征選取的要求較高,對語料庫的依賴較大[2]。該方法的難點是構建特征工程,需要從語料文本中選取對研究任務有積極影響的特征。而對于特征的構建,需要考慮選擇的特征是否能有效地反映該類實體的特點,可以利用的特征包括字符、詞性、詞邊界等。同時,組合特征可以表達出更復雜的含義[16]。

一般來說,深度學習是機器學習的一種。早期機器學習專家提出了人工神經網絡(Artificial Neural Net?works),與傳統的統計機器學習算法不同。近幾年來,隨著科學技術的發展,基于神經網絡的深度學習在機器學習領域掀起了一股熱潮,同時也越來越多地將其應用到了自然語言處理上。近幾年,比較通用的基礎神經網絡結構有BLSTM-CRF、卷積神經網絡(CNN)等,都取得了不錯的識別效果。

Feng Y H等[17]針對傳統的命名實體識別方法需要構建特征工程和獲取相關領域的知識,然而代價昂貴的問題,提出了一種基于BLSTM(Bidirectional Long Short-Term Memory)的神經網絡結構的命名實體識別方法。該方法利用基于上下文的詞向量和基于字的字向量,前者表達命名實體的上下文信息,后者表達構成命名實體的前綴、后綴和領域信息;同時,利用標注序列中標簽之間的相關性對BLSTM的代價函數進行約束,并將領域知識嵌入模型的代價函數中,進一步增強模型的識別能力。實驗表明,所提方法的識別效果優于傳統方法。

李麗雙等[18]在生物醫學領域進行了命名實體識別任務研究,提出了一種基于CNN-BLSTM-CRF的神經網絡模型。首先利用卷積神經網絡(CNN)訓練出單詞的具有形態特征的字符級向量,并從大規模背景語料訓練得到具有語義特征信息的詞向量,然后將二者進行組合作為輸入,再構建適合生物醫學命名實體識別的BLSTM-CRF深層神經網絡模型。實驗數據來自于BiocreativeⅡGM和JNLPBA2004生物醫學語料,實驗結果的F-值分別為89.09%和74.40%。圖4為該模型的結構框架。

2018年,Yanyao Shen等[19]提出了利用深度主動學習進行命名實體識別任務。將主動學習與深度學習相結合,可以利用少量的標注數據獲得較高的學習準確度。由于主動學習的計算成本很高,因此他們提出了一個基于CNN-CNN-LSTM結構的輕量級模型。眾所周知,在收集有標注的數據集的時候,需要依靠大量的

2.3 基于深度學習的方法

人工標注,準確標注出正確的命名實體類別是非常耗時耗力的。因此,提出深度主動學習方法以便于減少標注量,降低數據標注的成本。實驗表明,該模型能夠迅速地對樣本進行預測和評估不確定度。

圖4 生物醫學命名實體識別的CNN-BLSTM-CRF模型

Akash Bharadwaj等[20]提出了一種注意力神經模型(Attentional Neural Model)。該模型在原始的BLSTMCRF模型上加入了音韻特征,并在字符向量上使用注意力機制來關注并學習更有效的字符。該模型可以快速地應用于有少量數據或沒有數據的新語言領域,從而實現了跨語言的遷移學習。

深度學習使用詞向量表示詞語、字向量表示字,解決了傳統命名實體識別方法需要花費大量精力構建特征工程的問題,甚至會人工構建特征工程包含更多的語義信息。雖然深度學習在命名實體識別研究上已經取得了較好結果,但仍有很多研究者致力于將新的技術應用到命名實體識別問題上。當前的研究趨勢主要集中在兩個方面:一是使用流行的注意力機制(Atten?tion Mechanism)來提高模型的效果;二是致力于利用少量的標注訓練數據進行研究。

3 實驗部分

本文在前人研究的基礎上對基于BLSTM-CRF的命名實體識別方法進行了實驗,實驗所采用的數據是來自全國知識圖譜與語義計算大會(China Conference on Knowledge Graph and Semantic Computing,CCKS)2017年任務二和2018年任務一的數據,均是來自于中文臨床電子病歷。

3.1 實驗內容

本文實驗采用的模型是BLSTM-CRF結構,并分別對兩組數據進行了實驗。實驗對數據以字符為單位進行了標注,采用了BIO標注方法,即B表示實體的首字,I表示實體的非首字,而O表示該字不屬于實體的任何一部分。

2017年評測大會的實驗數據給出了疾病和診斷、身體部位、癥狀和體征、檢查和檢驗以及治療五類實體,本文用不同的標識符號分別對其進行了標識,并進行了統計,如表1所示。

表1 CCKS測評2017年Task2實驗數據統計

從表1中可以看出,該任務給出的訓練集中疾病和診斷這一類實體僅有502個,治療類實體僅有694個,而身體部位這類實體有8072個,五類實體之間的數量有較大的差距。在BIO標注基礎上,有如下標注例子:

腸 鳴 音 活躍,雙 下 肢無水腫

B-Te I-TeI-TeO O O B-B I-B I-B O B-S I-S O

2018年的數據將實體分為了手術、解剖部位、癥狀描述、獨立癥狀以及藥物五類。同樣,對實驗數據進行了統計,如表2所示:

表2 CCKS測評2018年Task1實驗數據統計

從表2中可以看出,2018年該任務給出的訓練集中除解剖部位類實體有7838個,其他四類實體的數量差距相對較小。

該模型的結構如圖5所示:

圖5 BLSTM-CRF結構圖

模型是以句子為單位進行輸入,將一句話看作n個字符的序列(x1,x2,…xn)。Look-up層將句子中的每一個字符xi映射為低維度稠密的字向量(character em?bedding)xi∈Rd,其中,d是字向量的維度。

BLSTM結構對文本的上下文有記憶和過濾的能力,對長距離的信息能有效地運用,對序列數據所包含的信息能夠動態捕獲。將每個句子的字符序列(x1,x2,…xn)作為BLSTM的輸入,正向LSTM返回序列反向LSTM返回序列直接拼接得到BLSTM在t時刻的輸出,表示為

由于CEF是全局范圍內統計歸一化的條件轉移概率矩陣,因此,CRF層對文本進行了句子級別的序列標注,使模型可以學習到標簽的上下文關系。

3.2 實驗結果分析

通過調整模型的參數,得到較為理想的實驗結果如表3所示:

表3 實驗結果

實驗結果表明,訓練語料的規模能夠對識別結果產生較大的影響??偟膩碚f,BLSTM-CRF模型能取得較好的識別效果。2017年數據的實驗,對訓練數據較多的身體部位、癥狀和體征、檢查和檢驗三類實體分別取得了92.57%、95.67%、93.99%的識別效果。然而對于訓練數據較少的疾病和診療、治療這兩類實體的識別效果就不理想,僅取得了49.43%和49.08%的識別效果。同樣,對于2018年的實驗數據來說仍是如此。但整體識別效果在75%-90%之前。

4 結語

自然語言處理領域最為關心的技術問題之一是如何高效率地從不規范的非結構化文本數據中,獲取并組織成結構化的文本數據。命名實體識別任務作為自然語言處理的基礎任務,能夠有目的性地對文本進行結構化處理。雖然,對于命名實體識別的研究已趨近于成熟,但是仍有很多學者認為該問題還未得到完善解決,對命名實體的外延和內涵的探討還遠未結束。目前,深度學習發展火熱,仍將是命名實體識別研究最為關注的領域,減少語料數據的標注、擴展研究領域也將是命名實體識別研究的重點。

猜你喜歡
文本實驗方法
記一次有趣的實驗
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 成AV人片一区二区三区久久| 丰满人妻一区二区三区视频| 亚洲综合久久成人AV| 免费无码AV片在线观看中文| 亚洲国产理论片在线播放| 亚洲综合香蕉| YW尤物AV无码国产在线观看| 亚洲伊人天堂| 亚洲国产成人在线| 国产欧美日韩专区发布| 毛片最新网址| AV天堂资源福利在线观看| 日韩精品无码不卡无码| 日本成人在线不卡视频| 久久动漫精品| 自拍偷拍欧美日韩| 国产一区成人| 99久久国产综合精品女同| 亚洲 欧美 偷自乱 图片| 国产不卡网| 一区二区午夜| 91色老久久精品偷偷蜜臀| 国产综合在线观看视频| 国产精品久久久久久久久| 日韩欧美中文字幕在线精品| 97久久人人超碰国产精品| 日韩欧美在线观看| 乱系列中文字幕在线视频| 亚洲欧美不卡中文字幕| 免费不卡在线观看av| 成人在线不卡| 五月天福利视频| 亚洲成人黄色在线| 免费国产高清视频| 亚洲系列中文字幕一区二区| 中文字幕中文字字幕码一二区| 国产午夜福利亚洲第一| 国产一区二区三区在线观看免费| 97国产在线播放| 国产网友愉拍精品视频| 国产欧美日韩在线一区| 亚洲日韩欧美在线观看| 亚洲美女操| 午夜不卡福利| 国产毛片高清一级国语 | 国产老女人精品免费视频| 国产精品久久久久无码网站| 国产成人午夜福利免费无码r| 中国一级毛片免费观看| 欧美www在线观看| 国产成人高精品免费视频| 婷婷综合色| 91福利免费| 人妻精品全国免费视频| 亚洲一区二区日韩欧美gif| 久久五月视频| 日韩亚洲高清一区二区| 国产真实二区一区在线亚洲| 天天躁夜夜躁狠狠躁图片| 99热这里只有精品在线观看| 午夜福利网址| 亚国产欧美在线人成| 在线观看精品国产入口| 国产日韩欧美中文| 精品国产美女福到在线直播| 国产无码在线调教| 自拍亚洲欧美精品| 2021国产在线视频| 九色视频线上播放| 日本五区在线不卡精品| a色毛片免费视频| 激情无码视频在线看| 日本欧美中文字幕精品亚洲| 青青国产在线| 国产一在线观看| 成人午夜视频网站| 免费高清a毛片| 在线亚洲小视频| 99性视频| 国产成人亚洲精品蜜芽影院| 欧美成人精品一级在线观看| 五月婷婷导航|