999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SVM和CRF的雙層模型中文機構名識別

2010-06-05 09:42:50根,中,
大連理工大學學報 2010年5期
關鍵詞:特征模型

黃 德 根, 李 澤 中, 萬 如

(大連理工大學 計算機科學與技術學院,遼寧 大連 116024)

0 引 言

命名實體識別是許多自然語言處理任務的基本要求,其識別效果直接影響文本信息的深層次處理.機構名識別是命名實體識別的主要任務之一.與人名和地名相比,機構名具有長度較長而且不固定、用詞復雜并且未登錄詞較多、具有嵌套結構等特點,因此其識別難度相對較大.

早期的機構名識別采用的多是基于規則的方法.文獻[1]針對高校名稱建立了一個規則模型,而規則的獲取往往依賴于特定的領域,成為該類方法的瓶頸;文獻[2]采用決策樹的方法進行命名實體識別,但識別精度較低;文獻[3、4]采用隱馬模型(HMM)進行命名實體識別,該模型需要嚴格的獨立性假設,而事實上絕大多數的數據并不能表示為一系列獨立的元素;文獻[5]采用SVM進行命名實體識別;文獻[6、7]采用CRF進行機構名識別,識別效果比較理想,但仍有改進的余地;文獻[8]提出了一個基于角色標注的方法,不足之處是角色集對實驗結果影響較大,需要反復實驗才可以確定合適的角色集;文獻[9]將機器學習和人工知識結合起來進行機構名識別.

本文將機構名分為簡單機構名和復雜機構名兩大類.簡單機構名即僅由一個詞組成的機構名,如新華社、國安隊、中共中央等;復雜機構名即由多個詞組成的機構名,可定義為P+S的形式,P為機構名前部詞,S為機構名特征詞(如公司、大學等),即復雜機構名是由一個或一個以上的機構名前部詞加上機構名特征詞組成的.

1 SVM與CRF

1.1 支持向量機(SVM)

假設原始輸入空間XRn(其中n為輸入空間的維數),定義訓練集

其中xi∈X;yi∈ {-1,1}是xi的標記,若xi屬于正類,則yi=1,若xi屬于負類,則yi=-1;l為樣本的個數.SVM即尋找能夠將訓練數據劃分為兩類的最優超平面[10],該超平面可以通過求下面的凸二次規劃方程的解得到:

其中k(xi,xj)= (xi)· (xj),為Kernel函數,其滿足Mercer條件, (x)為原始輸入空間到高維特征空間的非線性映射;αi為與每個樣本對應的Lagrange乘子;c>0,是自定義的懲罰系數.給定一個測試實例x,它的類別由下面的決策函數決定:

其中sv為支持向量,b是分類閾值,可用任一支持向量或通過兩類中任一對支持向量取中值求得.

針對機構名右邊界的識別任務來講,識別對象是存在于特征詞表中的詞,對這些詞提取出支持向量集.每個向量均對應一個權值,對其應用式(2)進行循環計算并求和,得到的值即為x到超平面的距離.若該值大于0,表示該詞識別為模型中定義的+1類,即確定為右邊界;若小于0,表示該詞識別為-1類,即確定為非右邊界.

1.2 條件隨機場(CRF)

條件隨機場是在給定輸入節點值時計算指定輸出節點值的條件概率的無向圖模型[11],其中線性條件隨機場(CRFs)是最簡單的一種形式.對于給定觀測序列X= {x1,x2,…,xT},CRFs定義其對應的狀態序列Y= {y1,y2,…,yT}的條件概率為

其中Z(X)是歸一化因子,使得所有狀態序列的概率和為1,fk(yi-1,yi,xi)是關于觀測序列和位置i及i-1標記的轉移特征函數,f′k(yi,xi)是關于觀測序列和位置i的標記的狀態特征函數,λk和λ′k是與相應的特征函數相關的權值.則最大可能的標記序列為

對機構名識別的任務來說,觀測序列X為分詞和詞性標注后的序列,對應的狀態序列Y為標記集序列,其中標記集的選擇詳見下一節.例如在句子“呼市/jn/B 物資/n/I集團/n/L 曾/d/O有/vx/O 過/uo/O 輝煌/a/O 的/ud/O 歷史/n/O”中,對當前詞“呼市”考慮其詞形特征時定義特征函數如下:

對“集團”考慮詞性的組合特征時定義特征函數如下:

當特征函數取特定值時,特征模板被實例化,就可以得到具體的特征.通過CRF++(V0.49)工具包的訓練就可以得到特征函數對應的權值.

2 基于SVM和CRF的雙層模型機構名識別

2.1 中文機構名識別所需要的資源

從訓練語料中自動提取機構名識別所需的各詞表,詳細介紹如下.

(1)特征詞表Df

特征詞指的是機構名末尾具有一定表征意義的詞,如“廠、大學、公司”等.對中文機構名的識別首先是從機構名右邊界開始的,所以建立該詞表可作為機構名識別的觸發條件.

(2)前部詞表Db

前部詞是指機構名中除特征詞之外的詞,地名性名詞和普通名詞的比重較大,但總體來說用詞比較復雜,有很強的隨意性.

(3)左右指界詞表

左指界詞即出現在機構名前面的第一個詞,比如“代表”“考入”;右指界詞即出現在機構名后面的第一個詞;比如“局長”“主辦”.不同指界詞對機構名邊界的指示作用不同,因此在統計指界詞表時,需同時統計出各詞作為指界詞出現的次數,并根據次數將其分為不同的級別.

(4)簡單機構名表

主要用于簡單機構名的識別,存在于該詞表中的詞均被認為是簡單機構名候選詞.

2.2 標記集

機構名的識別最終可以轉化為序列標注的任務,首先要定義適合該任務的標記集合,不同的標記集對識別結果也有一定的影響[12],通過分析和實驗定義標記集,如表1所示.

表1 標記集的選擇Tab.1 Selection of tag set

2.3 基于SVM和CRF的雙層模型進行中文機構名識別

該機構名識別模型分兩層,第一層采用CRF識別簡單機構名,并將識別結果傳至第2層;第二層采用基于驅動式標注的方法,結合SVM和CRF進行復雜機構名的識別,即用SVM識別機構名右邊界,對識別為右邊界的詞向前采用CRF進行前部標注.然后將兩層的識別結果進行合并.圖1為機構名識別轉換為序列標注的實例,圖2為模型結構.

圖1 雙層模型的識別過程Fig.1 Recognition process of cascaded model

圖2 雙層混合模型結構圖Fig.2 Architecture of hybrid cascaded model

2.3.1 簡單機構名識別 CRF模型中非常重要的一步是針對特定的任務選擇合適的特征集[13].原則上是選擇的特征越多越好,但特征過多又會產生冗余信息,反而降低識別精度.通過對簡單機構名分析確定的原子特征如表2所示.

其中n為表示位置的變量,取值為-2、-1、0、1、2.n=0表示當前位置,n=-1表示當前位置的前一位置,n=1表示當前位置的后一位置,依此類推.

表2 簡單機構名識別的原子特征Tab.2 Atomic feature of simple organization name recognition

為更好地利用復雜的上下文信息,構建組合特征為Word(n-1)Word(n)、Pos(n-1)Pos(n)、L_spe(n-1)Smp_org(n)、Smp_org(n-1)R_spe(n),其中n=-1,0,1.

2.3.2 SVM和CRF結合識別復雜機構名

(1)SVM確定機構名右邊界

右邊界的確定是個二值分類問題,而SVM是優秀的二值分類器,因此采用SVM進行右邊界確定.對于出現在特征詞表中的詞均作為右邊界候選詞,利用SVM進行篩選,確定是否確實為機構名右邊界詞.SVM也需要針對特定的任務選擇合適的特征,考慮到效率和識別效果兩方面的因素,選擇詞形和詞性這兩個特征.定義的11維向量的格式如下:其中S∈{-1,+1}表示類別,在右邊界識別的任務中,S=-1代表該詞不是機構名右邊界,S=+1代表該詞是機構名右邊界.W表示詞形,P表示詞性,數字表示所考核的詞相對當前詞的位置,0表示當前詞,1表示當前詞右側第一個詞,-1表示當前詞左側第一個詞.例如,在句子“呼市/jn物資/n集團/n曾/d有/vx過/uo輝煌/a的/ud歷史/n”中,對“集團”構建向量如下:

通過SVM_light的工具包對向量集進行訓練,即可以得到各向量對應的Lagrange乘子.

(2)CRF進行前部標注

右邊界確定后,用CRF進行前部標注.以往的識別方法都是對文本進行全標注,本文考慮到機構名的比重較小,使用全標注策略會造成大量的資源浪費,決定采用驅動式標注,即以右邊界為驅動,只對候選詞進行標注.候選詞的確定規則如下:假設最長的機構名的長度為N,每確定一個右邊界,則該詞直接標注為“L”,該詞前面的N-1個詞就成為機構名候選詞,除非碰到標點符號(其中“、”、《、》、‘、’等除外)、另一個右邊界或者一行的開頭.然后對確定為候選詞的詞進行標注,其他的詞均直接標注為非機構名成分.這一策略的采用,在一定程度上縮短了訓練和標注時間,提高了識別的效率,并且由于減少了冗余信息,識別精度也有所提高.

此處選用的原子特征除了第一層中采用的Word、Pos、L_spe、R_spe外還需如下特征,如表3所示.

表3 前部標注增加的原子特征Tab.3 Additional atomic feature of tagging foreside

表中n的取值為-2、-1、0、1、2,所有的地名不管是否存在于前部詞表中,均標為“Y”.組合特征 定 義 為Word(n- 1)Word(n)、Pos(n-1)Pos(n)、L_spe(n- 1)Former_word(n)、Is_candidate(n- 1)R_spe(n)、L_spe(n- 1)Is_smp(n)Former_word(n)、Is_smp(n- 1)Is_candidate(n-1)R_spe(n),其中n= -1、0、1.

該方法比較適合于完整機構名的識別,針對不同的語料需要在方法上作一些調整.若文本中不完整的機構名占有一定的比重,則采用兩種方法進行識別,第一種采用本文的方法,第二種直接用CRF進行識別,然后比較兩個識別結果,對不同的識別結果選擇置信度較高的作為最終結果.

2.4 后續處理

后續處理包括兩部分,第一部分為構建概率模型,對識別結果中置信度低于某閾值的字串計算其可信度,并通過實驗選擇一個合適的閾值,可信度高于該閾值的確定為機構名,否則確定為非機構名.機構名的可信度T(org)包括機構名特征詞可信度T(S)和機構名前部詞可信度T(P),計算如下:

其中NS為建立機構名特征詞表時特征詞S出現的次數;NP為建立機構名前部詞表時前部詞P出現的次數;Cn為調整系數,n為機構名前部詞的個數.

第二部分為構建規則模型,主要用于識別不完整的機構名和兼類機構名,并修正一些明顯的識別錯誤.規則舉例如下.

(1)并列關系詞(如:和、與、及其、“、”、“;”等)前后的標注應保持一致,出現不一致的情況時將標注結果統一為置信度較高的一方.

(2)從訓練語料中提取機構名框架,比如:(考入、應聘到等)+機構名+(上學、讀書、工作等),并根據出現次數進行精簡,對置信度低于某閾值的識別結果進行匹配,能匹配上的確定為機構名,否則確定為非機構名.

(3)體育新聞中經常出現和地名兼類的機構名,比如“中國對巴西”中的中國和巴西應標為機構名.首先提取一個體育新聞常用詞表,比如半決賽、錦標賽等,當句子中出現“地名”對“地名”、(小勝、平等)+地名這一類的模式時,向前搜索,看前N個詞中是否存在著體育新聞常用詞,若存在,則把該處的地名標為機構名.該規則正確修正了一些兼類詞的識別錯誤,但同時也把一些地名錯誤地標成了機構名.

根據語料的不同,還有一些其他的規則,在此不再一一贅述.

3 實驗分析

本文選取的語料是北大標注的《人民日報》2000年1~4月和9~10月語料,所需資源是從1~4月及9月的語料中提取的,SVM和CRF的訓練語料是1月份的語料,約9.51 MB,測試語料是10月份的語料,約8.66 MB.

本文方法的實驗結果如表4所示.

表4 識別結果Tab.4 Recognition result %

針對復雜機構名采用不同的方法進行實驗,實驗結果比較如表5所示.

表5 復雜機構名的識別結果Tab.5 Results of complicated organization namerecognition %

從實驗結果可以看出,驅動式標注的SVM+CRF的識別效果最好,雖然相對于全標注的SVM+CRF在精度上的提高不太明顯,但由于冗余信息的減少而使訓練時間有所減少.

文獻[6]采用基于層疊CRF的方法進行中文機構名識別,精確率和召回率分別為88.12%和90.05%,本文的識別結果好于文獻[6]的識別結果,但是由于本文的識別是基于正確的分詞和詞性標注之上的,而實際上分詞的錯誤會降低識別精度.

文獻[7]采用的訓練語料和本文一樣,測試語料是北大1998年的語料,該方法也是基于正確的分詞和詞性標注之上的,精確率和召回率分別為94.20%和93.11%.

4 結 語

本文建立了一個基于SVM和CRF的雙層模型進行機構名識別,根據簡單機構名和復雜機構名的不同特點,在不同的層次中分別采用不同的方法進行識別.復雜機構名中經常包含有簡單機構名,因此兩層的識別不是孤立的.首先在第一層采用CRF進行簡單機構名識別,并將結果傳至下一層,在第二層采用驅動的SVM和CRF進行復雜機構名識別,然后將兩層的識別結果進行合并,最后通過后續處理對置信度較低的結果進行修正.

實驗表明該方法有較好的中文機構名識別效果,不足之處就是對復雜機構名的識別依賴于右邊界的確定,因此無法識別不含特征詞的機構名.此外,對于不完整的機構名、地名與機構名兼類的識別還有待進一步的深入研究.

[1]張小衡,王玲玲.中文機構名稱的識別與分析[J].中文信息學報,1997,11(4):21-32

[2]ISOZAKI Hideki.Japanese named entity recognition based on a simple rule generator and decision tree learning [C]// Proceedings of the 39th Annual Meeting Association for Computational Linguistics.San Francisco:Morgan Kaufmann,2001:314-321

[3]ZHOU Guo-dong,SU Jian.Named entity recognition using an HMM-based Chunk Tagger [C] //Proceedings of the 40th Annual Meeting Association for Computational Linguistics. San Francisco:Morgan Kaufmann,2002:473-480

[4]俞鴻魁,張華平,劉 群,等.基于層疊隱馬爾可夫模型的中文命名實體識別[J].通信學報,2006,27(2):87-93

[5]TAKEUCHI Koichi,COLLIER N.Use of support vector machines in extended named entity recognition[C]//Proceedings of the 6th Conference on Natural Language Learning. Morristown:Association for Computational Linguistics,2002:167-170

[6]周俊生,戴新宇,尹存燕,等.基于層疊條件隨機場模型的中文機構名自動識別[J].電子學報,2006,34(5):804-809

[7]ZHANG Su-xiang, ZHANG Su-xian, WANG Xiao-jie. Automatic recognition of Chinese organization name based on conditional random fields[C]//Natural Language Processing and Knowledge Engineering. Washington D C:IEEE Signal Processing Society,2007:229-233

[8]YU Hong-kui, ZHANG Hua-ping, LIU Qun.Recognition of Chinese organization name based on role tagging[C]//20th International Conference on Computer Processing of Oriental Languages.Beijing:Tsinghua University Press,2003:79-87

[9]WU You-zheng,ZHAO Jun,XU Bo.Chinese named entity recognition combining statistical model with human knowledge [C]//Proceedings of the ACL Workshop on Multilingual and Mixed-language Named Entity Recognition. Morristown:Association for Computational Linguistics,2003:65-72

[10]李麗雙,黃德根,陳春榮,等.基于支持向量機的中文文本中地名識別[J].大連理工大學學報,2007,47(3):433-438(LI Li-shuang, HUANG De-gen, CHEN Chun-rong,etal.Identification of location names from Chinese texts based on support vector machine[J].Journal of Dalian University of Technology,2007,47(3):433-438)

[11]LAFFERTY J,MCCALLUM A,PEREIRA F.Conditional random fields:Probabilistic models for segmenting and labeling sequence data [C]//Proceedings of the 18th International Conference on Machine Learning. San Francisco:Morgan Kaufmann Publisher Inc.,2001:282-289

[12]ZHAO Hai,HUANG Chang-ning,LI Mu,etal.Effective tag set selection in Chinese word segmentation via conditional random field modeling[C]// The 20th Pacific Asia Conference on Language,Information and Computation.Beijing:Tsinghua University Press,2006:87-94

[13]MCCALLUM A,LI W.Early results for named entity recognition with conditional random fields,feature induction and web-enhanced lexicons[C]//Proceedings of the 7th Conference on Natural Language Learning at HLT-NAACL.Morristown:Association for Computational Linguistics,2003:188-191

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 精品五夜婷香蕉国产线看观看| 人妻少妇久久久久久97人妻| 99热免费在线| 亚洲毛片网站| 久久精品aⅴ无码中文字幕| 99伊人精品| 中文字幕啪啪| 午夜免费小视频| 亚洲首页在线观看| 伊伊人成亚洲综合人网7777| 亚洲成在线观看 | 亚洲人成人伊人成综合网无码| 日韩123欧美字幕| 国产成人精品男人的天堂| 久久男人视频| AV在线天堂进入| 亚洲妓女综合网995久久| 国产日本欧美在线观看| 熟女日韩精品2区| 高清不卡毛片| 国产不卡网| 免费一极毛片| 欧洲免费精品视频在线| 欧美翘臀一区二区三区| 91成人精品视频| 2021国产精品自产拍在线| 亚洲综合色区在线播放2019| 青青青草国产| 99久久精品国产麻豆婷婷| 欧美在线视频不卡| 国产精品视频观看裸模| 黄色网站在线观看无码| 亚洲精品在线观看91| 国产精品免费福利久久播放| 99成人在线观看| 午夜小视频在线| 免费av一区二区三区在线| 亚洲精品人成网线在线| 亚洲日本一本dvd高清| 欧美成人aⅴ| P尤物久久99国产综合精品| 国产精品亚洲va在线观看| 亚洲自偷自拍另类小说| 91精品情国产情侣高潮对白蜜| 免费国产无遮挡又黄又爽| 国产欧美精品专区一区二区| 国产亚洲精品va在线| 国产亚洲精品资源在线26u| 男女性色大片免费网站| 91色在线视频| 久久香蕉国产线看观看亚洲片| 国产区在线看| 亚洲人成人伊人成综合网无码| 国产黑丝一区| 成人无码一区二区三区视频在线观看 | 久青草免费视频| 亚洲伊人久久精品影院| 国产91麻豆免费观看| 国模在线视频一区二区三区| 色噜噜狠狠色综合网图区| 欧美第一页在线| 91精品专区国产盗摄| 欧美一级片在线| 免费国产黄线在线观看| 无码日韩视频| 99青青青精品视频在线| 久久美女精品| 日韩无码一二三区| 99久久精品国产麻豆婷婷| h网站在线播放| 色欲国产一区二区日韩欧美| 亚洲国产黄色| 美女内射视频WWW网站午夜| 人妻无码AⅤ中文字| 国产美女一级毛片| 欧美精品不卡| 亚洲天堂免费| 久久不卡国产精品无码| 国产情侣一区| 免费黄色国产视频| 中国毛片网| 欧美综合激情|