999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

使用HMM模型改進規則自動生成的命名實體識別系統性能

2010-01-01 00:00:00張宏生

摘要:隨著命名實體識別技術在各語言子領域中的不斷應用,基于規則的命名實體識別系統可移植性低的問題突顯,從而制約了基于規則的命名實體識別技術的發展。本文對命名實體識別規則自動提取的方法進行了簡要介紹,并使用HMM模型對自動生成的規則進行了評估和改進,使得基于規則的命名實體識別技術的應用范圍和實用性大大增強。

關鍵詞:命名實體識別 基于規則 可移植性 自動提取 HMM模型

0 引言

在自然語言處理技術中,命名實體識別技術是最有實用價值的基礎技術之一,它廣泛應用于自動問答、信息提取、信息檢索、文本自動摘要等自然語言處理系統中。

隨著命名實體識別技術應用語言子領域的不斷擴大,基于規則的命名實體識別技術可移植性低的問題突顯,從而制約了基于規則的命名實體識別技術的發展。近幾年發展起來的規則自動提取技術解決了這個難題,使得基于規則的命名實體識別系統的經濟性和可移植性大大增強。

1 相關發展狀況

目前,命名實體識別規則的自動提取方法很多,但都是基于有指導或無指導的機器學習方法,其基本思想主要是利用核心規則的自動擴展不斷提取識別規則,各種方法的區別僅僅在于提取、驗證識別規則的方法及步驟不同。

Ji-Hwan Kim和Wood將使用基于核心規則擴展方法所生成的命名實體識別系統與Identfinder系統(一個較為成熟的基于統計的命名實體識別系統)進行了比較,發現其F值基本一致。在規則的自動生成過程中使用一個已標注出命名實體的訓練集,首先使用核心規則對命名實體進行訓練,若能夠識別命名實體,則將訓練向下進行下去,若不能識別命名實體,則使用大小寫特征、縮略詞和其相鄰詞的語言特征對規則進行改進和重新編寫,系統將對訓練集進行不斷的訓練直至找到最好的規則(F值達到最大)[1]。Indra BudiSt 和Ephane Bressan等人利用潛在的術語和句法特征、已標注的命名實體以及術語集合之間的關系(使用置信因數和支持因數表達)對核心規則進行不斷的擴展,并對新規則進行不斷的訓練和改進從而驗證規則的可靠性,系統對英語和印尼語進行了測試,達到了不錯的效果,但這種方法適用于準確率要求較高而召回率要求不高的命名實體識別系統。[2][3] Jae-Ho Kim等人對命名實體分類規則進行了自動提取,他們使用核心規則、命名實體字典(包含人名、地名、組織名三種命名實體)和小規模的訓練集,根據命名實體的語法及上下文特征提取分類規則,再使用機器學習方法進行反復訓練和評估,進而驗證分類規則的可靠性,最后使用這些規則對大規模語料庫進行標注。[4]

牛誠等人首先找出同類型的種子(即與要標注的命名實體屬于同一類型,在結構和語法特征上與要標注的命名實體基本相同,如she,he等是表示人名的命名實體的種子),而后利用這些種子與命名實體有相同的結構和語法特征的特點提取出核心規則,并使用核心規則對訓練集進行標注,最后使用機器學習的方法對訓練集中標注出的命名實體進行訓練,從而不斷改進和擴展核心規則,這種方法所提取出的規則準確率較高,但召回率不高。[5]

Venkatesan Chakravarthy和Sachindra Joshi等人在文本挖掘過程中使用了自學習的決策列表生成技術對數十個手工編寫的核心規則進行了擴充,并對新生成的規則進行了篩選和排序。在生成規則過程中他們設置了數個權重值,不斷對新規則進行篩選和改進,以便使新規則達到最好的識別率和召回率,在所有的新規則生成之后,他們對于所有的規則進行了排序,以便確定在數個規則沖突和迭加使用時各規則的重要程度和使用的先后順序。[6]

上述的這些方法從不同的角度出發對核心規則進行了擴展,都取得了不錯的效果,增強了規則系統的可移植性,但是也存在許多不足之處,尤其在規則改進方面只局性于同一訓練集和一種機器學習的方法,沒有進行適當的擴展和反復的訓練,本系統將對這一方面進行改進。

2 系統設計

我們將美國白宮網站的07年一至六月所發布的新聞進行手工標注,將其作為訓練集,利用核心規則(15個)和機器學習的方法不斷對規則進行的擴充,生成基于規則的NER系統,并使用訓練集對HMM模型進行訓練,得出相關數據,生成基于HMM的NER系統。最后使用兩個系統對新的語料(美國白宮網站的07年七至十二月所發布的新聞作為新語料)標注命名實體,尋找兩系統標注的不同點,對基于規則的命名實體識別系統進行改進(如圖1)。

2.1 基礎系統

基礎系統包括三個部分:訓練集,規則的自動生成系統,基于HMM模型的識別系統。在標注訓練集之前,我們要對文本進行預處理,主要包括斷句、分詞、形態分析、詞性標注等,而后使用命名實體識別系統對其進行識別,最后進行人工校對,建立一個十萬詞規模的訓練集。

使用核心規則對命名實體進行訓練, 若能夠識別命名實體,則將訓練向下進行下去,若不能識別命名實體,則使用大小寫特征、縮略詞、是否含有數字和其相鄰詞的語言特征及支持向量機(SVM)的機器學習方法對規則進行擴展(如圖2),并對擴展后的規則進行不斷的訓練以便改找到最好的規則(如圖3)。

基于HMM模型的識別系統,使用了基本HMM模型加一些命名實體的詞匯特征,在數據平滑中使用Good-Turing估計。

2.2 系統評估

在新語料上首先運行基于規則自動生成的NER系統,由于規則對新語料的覆蓋性可能不強,會有一些命名實體不能被識別出;而后在新語料上運行基于HMM模型的識別系統;最后對兩個系統識別出的命名實體集合進行比較,改進基于規則自動生成的NER系統。

我們主要對人名、地名、機構名進行識別,對于其他特殊命名實體暫不考慮。美國白宮網站的07年一至六月所發布的新聞作共有988篇,共出現命名實體5856次(其中人名1365次,地名1601次,機構名2890;)07年六至十二月所發布的新聞作共有1062篇,共出現命名實體6524次(其中人名1511次,地名1562次,機構名3451)。對新語料的識別結果如表1所示:

兩個系統識別的人名有7%不同,地名有6.6%不同,機構名有14.4%不同,平均有10%不同。根據實驗數據我們分析,規則系統存在的問題在于對復雜的命名實體識別效果不佳,如只識別出命名實體的一部分。

找出兩系統標注出的不同命名實體,考察規則系統沒能識別或識別錯誤的命名實體,進行特征分析,使用機器學習的方法不斷改進規則。

3 總結

本文描述了如何使用HMM模型改進基于規則自動生成的NER系統的性能。本系統的最大創新是使用了不同的訓練模型和訓練集,改善了單模型、單訓練集的不足,提高了系統的可靠性和實用性。另外與以往不同的是,建立HMM模型是為了改進基于規則自動生成的NER系統的性能,而不是僅僅對命名實體進行識別。

參考文獻:

[1]Ji-Hwan Kim, and P.C.Wood. A Rule-Based Named Entity Recognition System for Speech Input.

[2]Indra Budi. Association Rules Mining for Name Entity Recognition. Proceedings of the Fourth International Conference on Web Information Systems Engineering, 2003.

[3]Agrawal, R Tomasz I and Arun S Mining Association Rule betweens Sets of Items in Large Databases. Proceeding of the 1993 ACM SIGMOID International Conference on Management of Data, Washington DC, 1993.

[4]Jae-Ho Kim, In-Ho Kang, and Key-Sun Choi. Unsupervised Named Entity Classification Models and their Ensembles. 2002.

[5]Cheng Niu, Wei Li, Jihong Ding, and Rohini K. Srihari. Bootstrapping for Named Entity Tagging Using Concept-based Seeds.

[6]Venkatesan Chakravarthy, Sachindra Joshi, and Ganesh Ramakrishnan. Learning Decision Lists withKnown RulesforTextMining.

主站蜘蛛池模板: 亚洲人成网7777777国产| 国产sm重味一区二区三区| 国产成人精品在线| 东京热一区二区三区无码视频| 26uuu国产精品视频| 亚洲日韩高清在线亚洲专区| 亚洲娇小与黑人巨大交| 亚洲一区无码在线| 无码区日韩专区免费系列| 在线观看国产精美视频| 亚洲永久免费网站| 亚洲高清在线天堂精品| 久久精品无码一区二区国产区| 五月天婷婷网亚洲综合在线| 久久人妻xunleige无码| 中文字幕无码av专区久久| 成人亚洲国产| 91成人在线免费视频| 一级毛片免费高清视频| 91亚洲影院| 亚洲人成网18禁| 国产精品漂亮美女在线观看| 国产精品福利一区二区久久| 秋霞一区二区三区| 国产精品自在线拍国产电影| 91精品啪在线观看国产91| 91精品国产丝袜| 亚洲欧美极品| 国产午夜一级淫片| 欧美国产日产一区二区| 国产精品视频观看裸模| 日本尹人综合香蕉在线观看| 国产91在线|日本| 国产精品55夜色66夜色| 日本在线亚洲| 91网址在线播放| 91丝袜在线观看| 免费午夜无码18禁无码影院| 婷婷色一二三区波多野衣| 香蕉视频在线观看www| 免费看的一级毛片| a网站在线观看| 国产成人h在线观看网站站| 黄色网页在线播放| 国产理论一区| 欧美不卡视频一区发布| 亚洲第一极品精品无码| 漂亮人妻被中出中文字幕久久| 国产亚洲欧美在线人成aaaa| 国产亚洲视频免费播放| 人妻丰满熟妇αv无码| 欧美全免费aaaaaa特黄在线| 在线视频亚洲色图| 天天操天天噜| 精品国产美女福到在线不卡f| 日本欧美视频在线观看| 国产色网站| 扒开粉嫩的小缝隙喷白浆视频| 国产丝袜无码精品| 成人午夜免费观看| 视频一本大道香蕉久在线播放 | 国产女同自拍视频| 国产综合欧美| 91精品人妻一区二区| www.99在线观看| 久久国产黑丝袜视频| 青青草国产免费国产| 伊人蕉久影院| 超清无码熟妇人妻AV在线绿巨人| 一级毛片不卡片免费观看| 亚洲精品视频在线观看视频| m男亚洲一区中文字幕| AⅤ色综合久久天堂AV色综合| 日韩在线永久免费播放| 丁香五月婷婷激情基地| 亚洲第一视频免费在线| 日韩精品毛片人妻AV不卡| a毛片在线| 99在线视频精品| 亚洲精品在线91| 激情六月丁香婷婷| 国产成人亚洲综合A∨在线播放 |