999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于條件隨機場方法的漢語專利文本介詞短語識別

2015-10-17 06:42:53李洪政晉耀紅
現代語文 2015年21期
關鍵詞:自動識別特征模型

□李洪政 晉耀紅

基于條件隨機場方法的漢語專利文本介詞短語識別

□李洪政晉耀紅

介詞短語作為一種重要的短語類型在漢語中分布廣泛,正確自動識別介詞短語在自然語言處理的應用領域具有重要意義和積極影響。本文嘗試利用目前比較流行的條件隨機場模型,主要面向漢語專利文本,對其中的介詞短語進行識別研究。首先在分詞和詞性標注的基礎上對語料進行序列特征標注,然后利用條件隨機場工具包訓練了識別介詞短語的模型,最后設計相關實驗來驗證方法的效果,實驗準確率達到90%以上。

介詞短語條件隨機場識別

一、引言

專利文獻在國家經濟發展和科技交流中發揮著十分重要的作用。近年來,中國專利的申請數量漲速飛快。面向專利領域的文本信息處理(如專利文本機器翻譯)逐漸成為自然語言處理的重要應用領域之一,并引起了學術界和業界的廣泛關注。

為了滿足專利文本特定的表述需要,介詞短語作為一種重要的短語類型,在漢語專利文本中分布廣泛。據統計,在隨機抽取的500句漢語專利語料中,包含介詞短語的句子有226句,占到了樣本總量的45.2%。[1]可見介詞短語的出現比例非常高。漢語介詞短語的自動識別具有較大的難度,主要表現在以下幾點:

1.介詞短語的內部構成相當復雜。介詞短語可以由介詞與其他詞語和短語(動賓短語、名詞短語、方位短語、時間短語等)構成,甚至可以由整個句子構成。復雜的內部結構很容易形成遠距離的搭配關系。

2.兼類介詞的存在。在一定的語境下,介詞還可以兼做名詞、量詞、形容詞、連詞和動詞等,必須結合上下文語境才能判斷具體詞性。

3.在同一個句子中經常會出現多個并列的介詞短語,或者會出現復雜的嵌套介詞短語。

下面是一個包含介詞短語的真實專利語句示例:

(1)本發明【在條件允許的情況下】【通過[為一個宏塊中的不同區域]提供不同的預測信息】而提出了許多更加準確的結果。

從例句可以明顯地看出,專利文本中的介詞短語通常具有更多的字數和更為復雜的結構。例句中用括號標示出了兩個并列的介詞短語結構,其中一個的內部還有另外一個介詞短語,屬于嵌套結構的介詞短語。正確識別這些短語就比較困難了。

在句子S=W1,W2,W3……Wn中,假設字符串Wi,Wi+1……Wj為待識別的介詞短語,介詞短語識別的主要任務就是分別將Wi和Wj識別為該介詞短語的左右邊界。由于左邊界就是介詞本身,因此關鍵問題在于確定右邊界位置。介詞Wi通常稱為前界,右邊界Wj稱為后界,緊鄰右邊界的詞語Wj+1一般稱為后詞。

考慮到介詞短語分布的廣泛性和對專利文本處理的影響,本文嘗試利用條件隨機場模型(ConditionalRandom Field,即CRF),主要對大規模專利語料中位于同一分句內部的介詞短語進行自動識別研究,希望能做出一些有益的探索。

二、相關研究

針對漢語介詞短語識別的難點,國內外學者做了大量研究工作,提出了一些有效的方法,主要包括規則方法,統計方法和將二者相結合的混合方法。梁猛杰等(2013)通過考察介詞規則庫的處理特點,依據規則的覆蓋程度從低到高進行分類,重新調整了規則的前后排序方案,同時對排序的規則進行優選,在保證時間復雜度較低的情況下提高了介詞用法自動識別的準確率[2](P152~155)。朱筠(2013)、胡韌奮(2015)等在概念層次網絡理論(HierarchicalNetwork ofConcepts,HNC)[3]的指導下,面向漢語專利領域的文本,專門構建了較大規模的漢語專利語料知識庫,在利用規則方法開展漢英專利機器翻譯研究的過程中探索了介詞短語的識別方法和思想[4][5]。于俊濤(2006)釆用基于最大熵模型的方法,通過獲取有效的特征集合完成了介詞短語識別的任務。奚建清(2007)引入機器學習方法,提出了基于隱馬爾可夫模型(HMM)的漢語介詞短語邊界確定方法。首先基于HMM自動識別介詞短語,然后利用依存語法錯誤校正方法對識別結果進行修正,取得了不錯的識別準確率[7](P172~182)。胡思磊(2008)、宋貴哲(2011)、張杰(2013)利用CRF模型對介詞短語進行識別,取得了較好的效果。于俊偉(2005)采用了規則和統計相結合的介詞短語識別方法,提出了利用搭配模板獲取可信搭配關系以及基于詞性的三元統計模型和規則相結合的方法識別介詞短語[11](P17~23)。昝紅英等(2013)在已有工作的基礎上,提出了一種規則與CRF模型相結合的介詞用法自動識別算法。通過將人工書寫的規則與CRF在宏觀層面和微觀層面進行有機的結合,根據介詞的具體特點,選擇合適的識別方法,使最終的識別準確率達到了80%左右[12](P2152~2157)。

三、CRF模型介紹

作為一種基于統計的判別式學習模型,CRF模型最早由Lafferty等人在2001年提出。該模型來源于最大熵模型。CRF通過計算和統計已知元素推理計算未知元素的條件概率。與隱馬爾可夫模型不同,CRF可以利用上下文信息,而不需要嚴格的獨立性假設,因此在序列標注問題中表現出很好的性能。此外,CRFs還解決了最大熵馬爾可夫模型(MEMM)中的標注偏置問題。CRFs被廣泛應用于自然語言處理領域的句法分析、命名實體識、詞性標注等方面,并取得了很好的效果。CRFs是一種以給定的輸入序列X為條件來預測輸出序列Y概率的無向圖(undirectedgraphical)結構模型。(X,Y)就是一個以觀察序列為條件的隨機域。概率計算可以通過如下公式得到:

四、基于CRF的介詞短語識別

國外學者已經開發了完整的CRF模型工具包,利用工具包可以快速地訓練模型并得到相應的結果。在本文中,將使用CRF++0.53版本的工具包①對中國專利信息中心提供的專利語料進行訓練。

(一)序列標注

很多基于CRF模型的語塊識別任務通常可以轉化為序列標注問題。在識別介詞短語的過程中,首先對包含介詞短語的句子進行分詞處理,然后對每個詞語進行標注,確定介詞短語的邊界。我們采用{B,I,E,O}標記集進行標記。其中B表示介詞短語的前界,I表示介詞短語的內部成分,E表示介詞短語的后界,O表示不屬于介詞短語的部分。

(2)本發明通過采用有效的方法提高汽車產量。

對于這個例句,可以做出如下標記:

本發明O通過B采用I有效的I方法E提高O汽車O產量O。O

將其反映到序列標注問題上,則可以認為:

輸入序列X={本發明通過采用有效的方法提高汽車產量。}

相應地,輸出標注序列Y={OBIIEOOOO}

(二)特征選擇

特征是訓練CRF模型必需的。在CRF中,特征選擇是一個非常重要的問題,選擇合適的特征對模型訓練和測試都將十分有益。盡管可以不加限制地定義標記序列的特征,但不代表特征越多就越好。通過考察大規模語料中介詞短語的特點,初步確定了以下五個特征及其屬性值:

1.詞特征。詞作為句子的基本構成單元,是最基本的特征,模型可以通過詞之間的差異性來尋找詞本身的內部特征。

2.詞性特征。通過分析發現,詞性特征對邊界的識別具有很大的提示作用。因此需要標記序列中詞語的詞性。本文采用北京大學《現代漢語語法信息詞典》中的詞性標記集進行標記。

3.候選前界特征。從當前詞位置開始向前查找,查找位于同一分句中的介詞。如果該介詞存在,則該特征值為介詞本身;否則特征值為“N”。

4.候選后界特征。如果認為當前詞語可以作為介詞短語的后界,則特征值記為“Y”,否則記為“N”。

5.候選后詞特征。后詞對介詞短語的正確識別也起到了很大的提示作用,判斷當前詞是否是候選后詞也能減小后界的選擇范圍。如果認為當前詞語可以作為介詞短語的后詞,則特征值記為“Y”,否則記為“N”。

下表是例句2的標注實例:

表1:例(2)的標注樣例

*注:分詞序列中所有的標點符號均標注為“p”。

將以上五個特征分為五列,對分詞處理后含有介詞短語的每一句語料進行標注,同時在最后一列加入{B,I,E,O}標記集,以確定介詞短語的邊界,以此形成訓練語料和測試語料。

(三)特征模板

對于CRFs模型而言,根據選擇的特征設計出不同的特征模板,根據特征模板系統生成不同的特征函數,會影響系統的性能。因此,特征模板選擇的好壞將直接影響CRFs模型的效果。所以,特征模板的選擇也是CRFs模型在介詞短語識別中的重要問題之一。

CRFs模型的特征模板一般包括原子特征模板和復合特征模板。單獨使用原子特征模板,只能表現出單個位置的特征信息,容易造成期望值和實際結果的偏差較大,導致參數的估計不準確。可以對原子特征進行組合,構成復合特征模板,通過定義各特征的窗口來描述標注單元和上下文之間的關系。本文將窗口大小定義為2。即分別考慮當前詞、當前詞前面兩個詞及后面兩個詞的五項特征。

當完成了序列特征標注任務,就可以利用CRF工具包對模型進行訓練并識別介詞短語了。

五、實驗及分析

(一)實驗結果

在這一部分,設計實驗測試CRF模型識別介詞短語的效果。從中國專利信息中心提供的專利語料中隨機選擇了1000句含有介詞短語的句子作為測試集進行序列標注。實驗采用四倍交叉驗證方法,即將測試集按照數量均分為4等份,其中的3份語料作為訓練語料,另一份作為測試語料,共進行四次實驗,分別計算實驗的三個評價指標:準確率(P)、召回率(R)和F1值,并將實驗的平均值作為最終的參考結果。評價指標計算公式如下:

其中,“N”代表每次實驗的測試集(250句)中介詞短語的數量,“N1”代表模型識別介詞短語的數量,“N2”代表正確識別的數量。

表2:實驗數據結果

(二)實驗分析

從上表可以看出,實驗的整體評價指標都達到了90%以上,表明CRF模型對于識別介詞短語的有效性。

通過分析識別錯誤的結果,初步認為分析錯誤的原因可能有以下幾點:

1.有的介詞在訓練集中出現次數很少或者幾乎沒有出現,因此CRF模型無法有效學習到這些介詞的特征,當它們出現在測試集中,模型就難以正確識別。

2.有些介詞短語具有歧義,模型不容易判斷短語的右邊界位置。例如:通過墨水著色劑可以有效地使染布上色。這句話中,兩個名詞“墨水”和“著色劑”挨在一起,不確定二者是否可以組成復合名詞,不容易判斷到底哪個名詞才是介詞短語真正的右邊界。

3.CRF模型對于序列的標注特征比較敏感。在人工標注的過程中一些難以避免的標注失誤或錯誤也會導致識別錯誤的現象。

六、結語

本文利用條件隨機場模型嘗試對漢語專利語料中的介詞短語進行了識別研究。在分析大規模語料的基礎上,選擇了合適的特征,對語料進行序列標注,同時利用CRF工具包訓練了識別短語的模型,最后設計了實驗檢驗識別效果。實驗整體的準確率達到了90%以上,表明提出的方法對于識別介詞短語是有效的。

未來將加強對歧義介詞短語的研究,考察更多語料,爭取發現更多有效的特征,同時擴大測試規模,希望進一步提高識別的效果與性能。

(本文得到了“國家高技術研究發展計劃”[863課題,項目編號2012AA011104],中央高校基本科研業務專項資金以及中國博士后科學基金資助項目的資助,特此表示感謝!)

注釋:

①http://crfpp.googlecode.com/

[1]LiHongzheng,ZhuYun,Yangyang,JinYaohong.Reordering AdverbialChunksinChinese-EnglishPatentMachine Translation[A].ProceedingsofCCIS2014.

[2]梁猛杰,宋玉,韓英杰等.基于規則排序的介詞用法自動識別研究[J].河南師范大學學報(自然科學版),2013,41(3).

[3]黃曾陽.HNC(概念層次網絡)理論[M].北京:清華大學出版社,1998.

[4]朱筠.基本句群處理及其在漢英專利機器翻譯中的應用[D].北京:北京師范大學漢語文化學院博士學位論文,2013.

[5]胡韌奮.面向漢英專利機器翻譯的介詞短語自動識別策略[J].語言文字應用,2015,1.

[6]于浚濤.基于最大熵的漢語介詞短語自動識別[D].大連:大連理工大學碩士學位論文,2006.

[7]奚建清,羅強.基于HMM的漢語介詞短語自動識別研究[J].計算機工程,2007,33(2).

[8]胡思磊.基于CRF模型的漢語介詞短語識別[D].大連:大連理工大學碩士學位論文,2008.

[9]宋貴哲.漢語介詞短語識別研究[D].大連:大連理工大學碩士學位論文,2011.

[10]張杰.基于多層CRFs的漢語介詞短語識別研究[D].大連:大連理工大學碩士學位論文,2013.

[11]干俊偉,黃德根.漢語介詞短語的自動識別[J].中文信息學報,2005,(4).

[12]昝紅英,張騰飛,張坤麗.規則與統計相結合的介詞用法自動識別研究[J].計算機工程與設計,2013,(6).

[13]LaffertyJ.,MccallumA.,PereiraF.Conditional randomfields:probabilisticmodelsforsegmenting andlabelingsequencedata[A].Proceedingsofthe InternationalConferenceonMachineLearning[C].2001.

(李洪政晉耀紅北京師范大學中文信息處理研究所100875)

猜你喜歡
自動識別特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
自動識別系統
特別健康(2018年3期)2018-07-04 00:40:18
抓住特征巧觀察
3D打印中的模型分割與打包
金屬垃圾自動識別回收箱
基于IEC61850的配網終端自動識別技術
電測與儀表(2016年6期)2016-04-11 12:06:38
主站蜘蛛池模板: 成人亚洲视频| 久久精品丝袜| 国产一区三区二区中文在线| 在线观看热码亚洲av每日更新| 欧美另类第一页| 色综合五月| 99热这里只有精品在线观看| 亚洲成肉网| 亚洲香蕉在线| 色婷婷丁香| aⅴ免费在线观看| 国产精品亚洲片在线va| 欧美日韩成人| 1024国产在线| 久久夜色撩人精品国产| 秋霞一区二区三区| 永久免费av网站可以直接看的| 国产69精品久久| 99视频在线观看免费| 69视频国产| 久久这里只有精品8| 国产精品亚洲一区二区三区z| 粗大猛烈进出高潮视频无码| a级毛片在线免费观看| 美女被操91视频| 国产极品美女在线播放| 一级福利视频| 日本三级欧美三级| 国内精品小视频福利网址| 欧美激情伊人| 在线国产资源| 啪啪免费视频一区二区| 欧美一区二区三区不卡免费| 午夜福利视频一区| 成人综合在线观看| 色老二精品视频在线观看| 456亚洲人成高清在线| 999国内精品视频免费| 四虎永久免费地址在线网站 | 国产精品视频导航| 激情成人综合网| 国产成人永久免费视频| 欧美一区福利| 亚洲h视频在线| 国产小视频网站| 国产激情第一页| 99在线国产| www亚洲天堂| 久久综合亚洲色一区二区三区| 白丝美女办公室高潮喷水视频 | 国产亚洲精品97AA片在线播放| 国产黄在线免费观看| 欧美啪啪精品| 国外欧美一区另类中文字幕| 日本www色视频| 精品国产成人av免费| 97在线视频免费观看| 在线观看欧美国产| 在线精品欧美日韩| 国产国拍精品视频免费看| 91www在线观看| 国产成人精品亚洲77美色| 国产偷倩视频| 久久久久亚洲Av片无码观看| 波多野衣结在线精品二区| 亚洲精品国产日韩无码AV永久免费网| 国产女人水多毛片18| 成年A级毛片| 成AV人片一区二区三区久久| 日本人真淫视频一区二区三区| 久久精品国产精品青草app| 992tv国产人成在线观看| 97se亚洲| av午夜福利一片免费看| 国产麻豆福利av在线播放| 无码精品福利一区二区三区| 在线欧美a| 国产97视频在线| 中文字幕自拍偷拍| 一级看片免费视频| 18黑白丝水手服自慰喷水网站| 成人一区专区在线观看|