999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于規則和統計的連動句識別方法

2017-12-01 00:33:28劉雯旻張曉如
電子設計工程 2017年22期
關鍵詞:規則方法

劉雯旻,張曉如

(江蘇科技大學計算機科學與工程學院,江蘇鎮江212003)

一種基于規則和統計的連動句識別方法

劉雯旻,張曉如

(江蘇科技大學計算機科學與工程學院,江蘇鎮江212003)

連動句是具備連動結構的句子,現代漢語中十分常見且使用頻繁。連動句語法結構和語義關系都很復雜,對此文中針對連動句的識別問題進行了研究,提出一種集規則方法與統計方法于一體的漢語連動句識別方法,文中提出的方法首先設計構建基于連動句形式特征和語義角色的基礎規則庫和被動名詞庫,然后使用互信息計算謂語動詞與主語候選項的搭配強度,最后達到識別連動句的目的。實驗結果準確率達到79.42%,表明本文方法可以較為有效地識別中文文本中的連動句。

連動句;自動識別;互信息;中文信息處理

人工智能始于20世紀50年代,人工智能研究的一個重要組成就是自然語言理解。由于自然語言理解具備約定、多值、縮略、隱含、隱喻等特點,要使計算機能夠自主理解人類的自然語言以實現人機的無障礙溝通是十分困難的[1]。事件本體[2]是將人類理解自然語言的能力以計算機可以處理和使用的方式表達知識的方法,事件本體以事件作為知識表示單元,更加符合人類認識世界的規律。Rachel Nordlinger將事件定義為:“謂詞、謂詞發生的時間段、謂詞發生的情況或者條件”[3]。連動句包含多個謂詞,蘊含了十分豐富的知識,(因此)獲取連動句的方法將在自然語言理解、常識知識獲取、智能網頁等人工智能應用領域中發揮重要的作用[4]。因此有效的連動句識別方法具有重要的學術價值和應用價值。

許有勝基于連動句的形式特征和詞語的語義角色兩個方面設計構建了一些規則,實現了自動識別和分析連動句的研究目標[5]。然而基于規則的連動結構識別存在以下問題:①歧義問題,規則方法無法對多個歧義結構進行辨別,尤其是兼語結構和連動結構;②魯棒性,規則無法有效識別規則沒有覆蓋到的句子,實踐規則方法很難;③規則沖突檢測,當規則數量較多時,規則間存在相互沖突,從而影響識別效果。

本文提出一種基于規則和統計的連動句識別方法以提高連動句識別效率,具體步驟如下:①對大規模語料中的所有句子進行預處理,將滿足預處理條件的句子放入連動句池內等待進一步篩選。②整理語言學界連動句的相關研究成果,歸納提取連動句形式上的特點總結出提取規則構成基礎規則庫。基礎規則庫包括提取規則和排除規則,提取規則就是根據連動句的特征總結歸納的規則,排除規則就是根據容易與連動句混淆的句子的特征總結歸納的規則。③利用基礎識別規則和被動名詞詞典進行連動句的初步識別。④利用互信息[6]進一步判定句子是否是連動句,最后完成連動句的自動識別。

1 本文研究的連動句

連動句在現代漢語中大量存在,是一種常見的漢語句子,連動句的識別一直是中文信息處理研究的熱點之一。自1952年李榮先生第一次提出“連動式”[7]的概念,連動句的存廢、名稱和定義一直都存在爭議。楊寄洲先生在《漢語教程》中對連動句的定義是:謂語有兩個或兩個以上的動詞或動詞詞組組成的句子叫連動句[4],連動句側重表達連動結構的目的或方式。朱德熙先生在《語法講義》中對“連謂結構”做出如下描述:連謂結構是謂詞或謂語結構連用的格式,謂語結構的前一個直接成分可以是單個的動詞也可以是動詞結構,后一個直接成分可以是動詞或動詞結構也可以是形容詞[8]。綜合各家之言孫曉華將連動句的定義總結歸納為:連動句中間沒有關聯詞、沒有語音停頓、沒有表示停頓的標點符號,有兩個或兩個以上動詞作同一個主語的謂語且這兩個或兩個以上動詞具備一定的關系以表示兩個動作連續進行或相伴進行[9]。

基于以上認識我們發現所謂連動句是指句子中出現連續兩個或兩個以上動詞,且這些動詞具有同一主語,但每個動詞的賓語均不是主語表示的對象。我們將連動句中的多個動詞稱為連動詞,連動句中出現的動詞的數目稱為連動詞的數目,一般地如果連動句S中出現k個動詞則稱S是k-元(目)連動句。例如:我開門進房間拿蒼蠅拍打蒼蠅。該句包含了 4 個動詞:“開”、“進”、“拿”、“打”,4 個動詞的主語都是“我”,而它們的賓語各不相同,分別為“門”、“房間”、“蒼蠅拍”、“蒼蠅”。不僅如此,例句中的四個動作連續進行,故該句為4-元(目)連動句。連動句的主要特征之一是動詞的主語是一致的,因而通常情況下,一個多元連動句可以分解成若干個二元連動句進行表達,例如上述例句可以表達為3個2-元連動句:“我開門進房間”、“我進房間拿蒼蠅拍”、“我拿蒼蠅拍打蒼蠅”。因此,不失一般性,本文僅考慮針對2-元連動句,提出識別2-元連動句的方法。

2 識別連動句的方法

2.1 提取規則和排除規則

將規則和統計方法結合的分析方法是自然語言處理領域常用的信息處理方法[11],本文將連動句的規則特征和統計特征結合起來,有利于提高識別連動句的準確度。加入識別規則可以降低方法對大規模語料庫的以來,通過統計概率的計算可以大幅度降低規則方法處理的復雜度,彌補規則不完備的缺點提高識別準確率。

首先,由于分詞會過度切分和錯誤標注的問題很難解決,這里我們用啟發式規則,解決較為突出的問題。基礎規則庫包括提取規則和排除規則,提取規則就是根據連動句的特征總結歸納的規則,有短語處理規則和句法結構和語義分析規則,排除規則就是根據容易與連動句混淆的句子的特征總結歸納的規則,易與連動句混淆的句子有兼語句、復句、緊縮句[12-14]等。具體規則如下。

2.1.1 短語處理規則

本文需要通過一系列規則保證句子保持理想的句法結構,因此部分被切分的詞語要進行整合。

規則1連續出現的多個名詞概念合并成一個名詞概念。

連續出現的多個名詞往往是一個整體,應當合并為一個名詞。如“李明/n代替/v外聯部/n部長/n發言/v”中將“外聯部”作為一個概念。

規則2連續出現的多個單字形容詞合并為一個形容詞。

連續出現的多個單字形容詞往往是一個整體,應當合并成一個形容詞。例如,可將“鮮艷/a靚麗/a的/u裙子/n”合并為“鮮艷靚麗的/a裙子/n”。

規則3連續出現的動詞和助詞的合并為一個形容詞。

連續出現的動詞和助詞的合并為一個形容詞。如:“奔跑/v的/u”合并為“奔跑的/a”。

規則4連續多個用并列關系連詞或選擇關系連詞連接的名詞或形容詞及連詞合并為一個名詞或形容詞。

連續多個用并列關系連詞或選擇關系連詞連接的名詞或形容詞及連詞合并為一個名詞或形容詞。如“色彩/n 和/cc 情調/n”合并為“色彩和情調/n”;“開心的/a和/cc開朗的/a”合并為“開心的和開朗的/a”

規則5名詞短語識別規則集合

規則5-1連續出現的形容詞和名詞合并為一個名詞。如:“好看的/a裙子/n”合并為“好看的裙子/n”。

規則5-2連續出現數詞、量詞、名詞合并為一個名詞。如:“五/m條/q魚/n”合并為“五條魚/n”。

規則5-3句首連續出現的動詞和名詞合并為一個名詞。如:“促銷/v活動/n”合并為“促銷活動/n”。

規則5-4句首連續出現的動詞、助詞和名詞合并為一個名詞。如:“奔跑/v的/u獅子/n”合并為“奔跑的獅子/n”。

2.1.2 句法結構規則

規則6包含兩個及以上動詞的句子可能是連動句。

連動句可表示為:<主語n1><謂語v1(動詞1)>[<賓語 n2>]<謂語 v2(動詞 2)>[<賓語 n3>],具備兩個動詞是一個基本條件。如:“我/rr去/vf上海/ns”只有一個動詞不滿足規則該句一定不是連動句,而“我/rr騎車/vi去/vf上海/ns”滿足規則包含兩個動詞則該句可能是連動句。

2.1.3 排除規則

現代漢語中有許多句式易與連動句混淆,例如:兼語句、復句、緊縮句等。本文提出基于易混淆句式的排除規則來確保連動句識別的準確率。

規則7不包含關聯詞的句子可能是連動句

連動句中不可包含表示邏輯關系的關聯詞語,包含關聯詞的句子一般情況下是緊縮句。如:“他/rr一/d坐/v下來/vf就/d看/v書/n”包含兩個動詞但同時包含關聯詞“一…就…”因此該句不是連動句。

規則8第一個謂語動詞的賓語是被動名詞的句子可能是連動句

我們將不能主動發出動作的名詞定義為被動名詞,一般被動名詞不能做主謂結構中的主語。如:我用石頭砸核桃。該句中石頭不能主動發出“砸”的動作,因此“砸”的主語是我而不是石頭,該句是連動句。呂叔湘把名詞分為4種:1)人物;2)物件;3)物質;4)無形[15],其中只有“人物”可以主動發出動作,本文以“物件”、“物質”和“無形”為基礎類擴充被動名詞庫。這里我們結合潘正高識別中文命名實體的方法[16]手工整理了包含一萬個被動名詞的詞庫。

規則9兩個動詞之間沒有否定副詞的句子可能是連動句。

連動句不把“不”、“或”和“沒有”等否定副詞放在第二個謂語動詞前面,如果否定形式的句子中把否定副詞放在第二個動詞前面即可判定為非連動句。如:我不騎車去上學。否則副詞“不”在第一個動詞前面,且不再兩個動詞之間因此該句可能是連動句。

2.2 v1、v2與前面主語候選項的搭配強度

連動句自動識別中的識別的重要條件之一是第一個動詞和第二個動詞的主語是一致的。因此,兩個動詞與前面的主語候選項的搭配強度的計算是本文方法的重點之一。主謂搭配是詞語搭配之一,有兩個成分組成,前一個是主語后一個是謂語。

本體語言學主要是從兩個謂語動詞的主語異同及與謂語動詞之間的關系差異這兩種方法來進行區別。前一種方法對于我們來說非常有借鑒意義,我們可以通過分別計算、主要是與前面主語候選項的搭配強度來判定和的主語是否相同。本文采互信息[17-18]作為評價v1、v2與前面主語候選項的搭配強度,互信息公式如下:

其中v是v1或v2,n是v1或v2前面的主語候選項,p(n,v)是v1、v2與前面主語候選項出現概率,p(n)和p(v)是其各自出現的概率。當P(n;v)=0時,n和v獨立即n和v不能構成搭配,當P(n;v)>0時,n和v可以構成搭配,且P(n;v)值越大,n和v的搭配強度越大,本文認為當P(n;v)>∝時n和v可以構成搭配。

3 連動句的自動識別步驟

根據以上分析,本文連動句的識別方法的完整步驟詳細描述如表1所示。

根據以上具體識別步驟,給出1個例子的分析過程。例句:“媽媽套住母鹿,男孩擠了一杯鹿奶大口地喝了下去。”,分析結果如下:

Step1:將例句切分為2個獨立小句:“媽媽套住母鹿”“男孩擠了一杯鹿奶大口地喝了下去”。

Step2:對句子進行分詞和詞性標注,結果如下:“媽媽/n套住/vi母/ng鹿/n”、“男孩/n擠/v了/ule一/m杯/q鹿/n奶/n大/a口/n地/ude2喝/vg了/ule下去/vf”。

表1 連動句識別步驟

Step3:2個句子滿足短語處理規則,而第一個句子包含一個動詞不滿足句法規則,第二個句子包含2個動詞即滿足句法規則。

Step4:第二個句子中沒有關聯詞和否定副詞且“鹿奶”是被動名詞因此該句滿足排除規則。

Step5:“男孩/n擠/v了/ule一/m杯/q鹿/n奶/n大/a口/n地/ude2喝/vg了/ule下去/vf”中,P(男孩;擠) >∝ 、P(男孩;喝) >∝且P(鹿奶;喝) <0所以該句的兩個謂語動詞“擠”和“喝”主語一致。得出結論,句子“媽媽套住母鹿”不是連動句,“男孩擠了一杯鹿奶大口地喝了下去”是連動句。

4 實驗及結果分析

4.1 實驗指標

指標采用準確率、召回率和平均值,具體定義如下:

4.2 測試集

實驗中首先使用ICTCLAS分詞系統對測試文本進行分詞和詞性標注,預處理后得到2萬個描述性語句,經人工標注連動句有4 051條。經連動句自動識別步驟,本文通過提取規則庫和識別規則庫的篩選抽取出5 244條句子,經人工驗證其中有3 200條句子是連動句,通過判斷這些句子中兩個謂語動詞的主語一致判定5 244條句子中有3 581條連動句,經人工驗證其中有2 703條句子是連動句。實驗各指數如表2所示。

表2 本實驗評價指標

通過分析實驗中誤判、漏判的句子,我們發現本文所提的方法存在以下幾個缺陷:

1)分詞錯誤:分詞程序在錯綜復雜的文本中還是會造成很多類型的錯誤,間接造成抽取結果錯誤。雖然我們用規則進行部分規避,但是還是不能完全覆蓋。例如“李明/r打算/v要/n競選/v班長/n”。這里就將“要”標記成了一個名詞。

2)名詞短語的識別錯誤:本文方法中雖然構造了名詞短語的識別規則,但是規則仍不夠充分導致結果不盡如人意。例如“鐵路/n部門/n降低/v高鐵/n運行/v速度/n”。例句中能識別“鐵路部門”這個名詞短語,但是不能識別“運行速度”這個名詞短語,進而會給實驗結果帶來錯誤。后續工作需要引入更好的名詞短語識別方法。

3)規則稀少。本文的方法提出多個規則但仍不全面,出現漏判情況。

5 結束語

本文介紹了一種基于規則和統計的連動句識別方法,先對大規模語料中的所有句子進行分句、分詞和詞性標注的預處理,將滿足預處理條件的句子放入連動句池內等待進一步篩選。然后歸納提取連動句形式上的特點總結出提取規則構成基礎規則庫。基礎規則庫包括提取規則和排除規則,利用基礎識別規則和被動名詞詞典進行連動句的初步識別。最后利用互信息進一步判定句子是否是連動句,完成連動句的自動識別。本文下一步的工作是進一步提高連動句的識別準確率,將從以下幾個方面開展工作:

1)努力完善連動句識別的規則系統。

2)擴大可識別的連動句的范圍,提出可以識別包含兩個以上謂語動詞的連動句的方法。

3)提高判定v1和v2的主語是否是同一個主語的準確率,主語是否一致的判定方法是本文后續研究的最主要的任務之一。

[1]吳畏,趙川.基于語義的自然語言理解研究[J].數字通信,2014(4):32-34.

[2]仲兆滿,劉宗田,李存華.事件本體模型及事件類排序[J].北京大學學報:自然科學版,2013(2):234-240.

[3]張凱隆,莊艷,陳繼明,等.一種基于謂詞覆蓋技術的啟發式事件匹配算法[J].計算機應用與軟件,2010(6):1-4,13.

[4]陳波,姬東鴻,呂晨.基于特征結構的漢語連動句語義標注研究[J].中文信息學報,2013(5):60-66,74.

[5]許有勝.連動結構的自動識別和分析[J].巢湖學院學報,2013(4):108-115,142.

[6]劉海峰,陳琦,張以皓.一種基于互信息的改進文本特征選擇[J].計算機工程與應用,2012(25):1-4,97.

[7]彭國珍,楊曉東,趙逸亞.國內外連動結構研究綜述[J].當代語言學,2013(3):324-335,378.

[8]姚蘭.“事件”視野下現代漢語連動句[J].青春歲月,2013(12):104-105.

[9]孫曉華.現代漢語連動句及其習得研究[D].南京:南京師范大學,2008.

[10]吳宏洲.分詞技術的研究與應用——一種快速分詞的實現[J].電腦知識與技術,2015(6):1-5.

[11]昝紅英,張騰飛,張坤麗.規則與統計相結合的介詞用法自動識別研究[J].計算機工程與設計,2013(6):2152-2157.

[12]張恒.動結式、V得句和兼語句的比較[J].漢語學習,2013(4):56-64.

[13]吳鋒文.基于關系標記的漢語復句分類研究[J].漢語學報,2011(3):63-73,96.

[14]皇甫素飛.緊縮構式的界定及其句法結構分析[J].浙江工商大學學報,2014(5):18-25.

[15]王華.現代漢語名詞語義分類體系研究[J].時代文學(上半月),2012(4):197-198.

[16]潘正高.基于規則和統計相結合的中文命名實體識別研究[J].情報科學,2012(5):708-712,786.

[17]徐峻嶺,周毓明,陳林等.基于互信息的無監督特征選擇[J].計算機研究與發展,2012(2):372-382.

[18]趙海峰,陸明,卜令斌等.基于特征點Rényi互信息的醫學圖像配準[J].計算機學報,2015(6):1212-1221.

A method based on rules and statistic for serial?verb sentence recognition

LIU Wen?ming,ZHANG Xiao?ru
(Jiangsu University of Science and Technology,School of Computer Science and Engineering,Zhenjiang212003,China)

Serial?verbsentence is a common sentence patterns in Chinese,whichis a special sentence with a serial verb construction.Serial?verbsentence is so complex,in view of the above problem thispaper studies the recognition of Serial?verbsentences in large corpora,proposes a method which combines rule methods and statistical methods to recognize serial?verbsentence.The proposed method constructs rules based on formal features and semantic roles of serial?verbsentence,and passive nouns library,calculates collocation between predicate verbs and candidate subject with mutual information.Experimental results show that the proposed method can more effectively recognize serial?verbsentence.

serial?verbsentence;automaticrecognition;mutualinformation;Chineseinformationprocessing

TN02

A

1674-6236(2017)22-0018-05

2016-10-08稿件編號:201610016

江蘇科技大學海洋裝備研究院自培育項目(HZ2016004)

劉雯旻(1983—),女,江蘇阜寧人,碩士研究生。研究方向:智能信息處理。

猜你喜歡
規則方法
撐竿跳規則的制定
數獨的規則和演變
學習方法
規則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
搜索新規則
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 国产天天射| 亚洲成a人片77777在线播放| 亚洲无码精彩视频在线观看| 国产av一码二码三码无码 | 91口爆吞精国产对白第三集| 视频二区欧美| 中文字幕免费视频| 伦精品一区二区三区视频| 久久男人资源站| 国产区网址| 亚洲最猛黑人xxxx黑人猛交| 久久精品人人做人人综合试看| 亚洲人成网18禁| 欧美国产日本高清不卡| 日韩精品无码免费专网站| 制服丝袜国产精品| 国产凹凸一区在线观看视频| 91精品啪在线观看国产91| 麻豆国产在线观看一区二区 | 91精品国产91久无码网站| 青青热久免费精品视频6| 无码高潮喷水专区久久| 一本色道久久88| 男女男免费视频网站国产| 欧美福利在线| 久久婷婷色综合老司机| 97青草最新免费精品视频| 国产幂在线无码精品| 久久精品无码一区二区国产区| 亚洲无码不卡网| 欧美一级视频免费| 亚洲天堂2014| h视频在线观看网站| 无码福利视频| 亚洲人网站| 四虎永久免费网站| 久久美女精品国产精品亚洲| 麻豆精品在线视频| 九色免费视频| 三级欧美在线| 高清无码一本到东京热| 人人艹人人爽| 另类专区亚洲| 波多野结衣一级毛片| 国产欧美日韩91| 中文字幕在线日韩91| 婷婷丁香在线观看| 欧美成人精品在线| 又黄又爽视频好爽视频| 国产丰满成熟女性性满足视频| 亚洲色图欧美| 久久国产精品波多野结衣| 国产精品亚欧美一区二区三区| 热re99久久精品国99热| 欧美性天天| 婷婷色在线视频| 国产尹人香蕉综合在线电影 | 欧美一区精品| 亚洲国产清纯| 黄色网在线免费观看| 国产尤物jk自慰制服喷水| 国产高清精品在线91| 欧美午夜精品| 四虎永久免费地址在线网站| 国产网友愉拍精品视频| 国产99免费视频| 91亚瑟视频| 成人a免费α片在线视频网站| 91青草视频| 久久久久国产一区二区| 国产偷国产偷在线高清| 国产高清国内精品福利| 欧美中文字幕在线视频| 色综合a怡红院怡红院首页| 久久综合九九亚洲一区| 91人人妻人人做人人爽男同| 91九色国产porny| 国产免费久久精品99re丫丫一| 2021精品国产自在现线看| 欧美日韩国产高清一区二区三区| 国产视频入口| 18禁黄无遮挡免费动漫网站|