999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

規則與統計相結合的介詞用法自動識別研究

2013-09-08 10:18:36昝紅英張騰飛張坤麗
計算機工程與設計 2013年6期
關鍵詞:自動識別規則方法

昝紅英,張騰飛,張坤麗

(鄭州大學 信息工程學院,河南 鄭州450001)

0 引 言

介詞的研究是自然語言處理技術中的重要部分,計算機對介詞的正確識別將極大的提高機器對自然語言的理解和應用。

目前,已經有不少人對虛詞用法自動識別有了一定的研究,周麗娟等提出了一種基于規則的現代漢語連詞用法自動識別方法[1];昝紅英等采用了統計的方法對副詞 “就”的用法自動識別進行的研究[2]。本文旨在對介詞用法進行討論,分析總結規則方法和統計方法單獨使用的優劣,使用規則與統計相結合的方法,提高介詞用法自動識別的準確率。

本文以現代漢語廣義虛詞知識庫[3-4]為研究背景和基礎,其中介詞共有139個,207個義項,327個用法。介詞在漢語文本中出現頻率是非常高的,以2000年5月 《人民日報》語料為例,約120萬詞的文本中共出現介詞43697次。介詞短語主要充當狀語,修飾動詞或形容詞,如 “從車上下來”“比他高”。有的介詞短語可以作定語,但要加“的”,如 “對歷史人物的評價”。少數介詞短語可以充當補語,如 “睡在床上”。介詞在句子中有一定的指示作用,指出后面詞所代表的內容,包括時間、處所、范圍、對象、目的、原因、方式、排除、被動、比較等[4-7]。

1 基于規則的介詞用法自動識別

介詞用法的規則識別是虛詞規則庫建設之一,虛詞知識庫由三部分組成:虛詞用法詞典、虛詞規則庫和虛詞用法標注語料庫[8]。本文規則方法使用了鄭州大學自然語言實驗室開發的基于規則的介詞用法識別工具包[9]。

1.1 介詞規則的形式

介詞的用法特征擁有不同的表現形式,規則識別方法采用介詞用法特征中可以操作的判斷條件特征,然后以有序的巴科斯范式對介詞進行規則的描述[2,4],利用規則識別介詞用法[9]。

抽取的介詞用法特征有:F為句首,表示句首出現的詞語或詞性特征;M為左搭配,表示介詞左邊搭配的詞語或詞性的特征;L為左緊鄰,表示介詞左邊緊鄰的詞語或詞性特征;R為右緊鄰,表示介詞右邊緊鄰的詞語和詞性特征;N為右搭配,表示介詞右邊搭配的詞語或詞性特征;E為句末,表示句末出現的詞語或詞性的特征。

介詞用法規則的樣例如下[4,9]:

MYM在

@<p_zai4_5>→N^N→看來|來說|而言|說來|來看|來講

@<p_zai4_3b>→L^L→控制|限制|保持|維持|穩定|表現|體現

@<p_zai4_3a>→N^N→方面|問題上|實踐上|生活中|生活上|領域|工作上

@<p_zai4_4>→N^N→ (v|<vn>)<下/f>|(條件|前提|情況|情形|形勢|背景|原則|努力)下|基礎上

@<p_zai4_1c>→N^N→過程中|活動中|活動上|會議中|會議上|會上|會中|賽中|塞上|斗爭中|接觸中|實踐中

@<p_zai4_1a>→N^N→ (年|月|日|天|號|星期|世紀|期間|初|時|秒|之后|之前|之際|夜晚|同時|t)*v

@<p_zai4_1b>→LN^L→v^N→年|月|日|號|天|星期|世紀|期間|初|時|秒|之后|之前| 之際|夜晚|t

@<p_zai4_2a>→N^N→ (<ns>|s)*v

@<p_zai4_2b>→LN^L→v^N→n|f

@<p_zai4_2a>→N^N→ (<ns>|s)

@<p_zai4_1a>→N^N→ (年|月|日|天|號|星期|世紀|期間|初|時|秒|之后|之前|之際|夜晚|t)

@<p_zai4_3a>→R^R→a|v|n

在生成規則時需要對介詞的規則設有優先級,前面的優先級大于后面的,所以,規則之間允許交叉覆蓋,同一條用法也允許有多條規則。優先級的情況不同,對用法的識別準確率有很大影響。

1.2 實 驗

實驗選用2000年5月份 《人民日報》語料,以使用頻率最高的20個介詞為例,在5月份語料中出現次數33904次,識別介詞用法的過程就是在語料中進行標注的過程,原始語料采用已經完成了分詞的 《人民日報》語料,標注前后如下[4]:

沒有標注的原始語料:

“圍/v 在/p 機場/n 和/c 醫院/n 門口/s 歡迎/v 的/ud 人群/n 揮動/v 著/uz 旗子/n ,/wd 高舉/v 皮諾切特/nr 的/ud 畫像/n ,/wd 把/p 他/rr 當成/vl “/wyz 英雄/n ”/wyy 來/vi 歡迎/v。/wj”

機器標注后的語料:

“圍/v 在/p<p_zai4_2b> 機場/n 和/c 醫院/n 門口/s 歡迎/v 的/ud 人群/n 揮動/v 著/uz 旗子/n,/wd 高舉/v 皮諾切特/nr 的/ud 畫像/n,/wd把/p<p_ba3_5b> 他/rr 當成/vl “/wyz 英雄/n”/wyy 來/vi 歡迎/v 。/wj”

實驗結果見表1。

表1 基于規則方法的自動識別結果

在采用基于規則的方法進行標注實驗時,標注正確的總個數有22844個,總準確率為67.38%,從表1可以看出,各個介詞的準確率有較大不同,說明基于規則的方法具有簡單、直觀、針對性強等優點,對于結構比較明確的介詞,有很大優勢。但一般也有覆蓋程度低、難于進一步優化等缺點。

2 基于統計的介詞用法自動識別

近年來,許許多多的機器學習統計模型在自然語言處理領域得到了廣泛應用,其中包括:條件隨機場 (conditional random fields,CRF)、支持向 量機 (support vector machine,SVM)、最大熵 (maximum entropy,ME)、最大熵馬爾科夫 (maximum entropy markov model,MEMM)以及隱馬爾科夫模型 (hidden Markov model,HMM)[2]。本文采用了條件隨機場統計模型,它可以充分利用的上下文信息作為特征,還可以任意地添加其他外部特征,可有效地解決前述數據稀疏問題[10]。

2.1 條件隨機場

條件隨機場 (CRF)由Lafferty等人于2001年提出[11],結合了最大熵模型和隱馬爾可夫模型的特點,是一種在給定輸入點的條件下計算輸出點概率的無向圖模型,它考察輸入序列對應的標注序別的條件概率,目的是獲得最大化的條件概率。近年來在分詞、詞性標注和命名實體識別等序列標注任務中取得了很好的效果。

條件隨機場的定義為:G= (V,E)是一個無向圖,Y= {Yv|v(V}是以G中的節點v作為索引的隨機變量Yv構成的集合,在已知X條件下,如果所有隨即變量Yv都服從馬爾科夫屬性,即:P(Yv|X,Yu,u≠v)=P(Yv|X,Yu,u~v),(X,Y)就是一個條件隨機場。在介詞識別中,X表示漢語句子集合,Y表示句中介詞的用法集合。

2.2 實 驗

實驗選用2000年2、3、4月 《人民日報》語料作為訓練語料,用2000年5月 《人民日報》語料作為測試語料,統計方法用的特征包括詞和詞性,比較不同特征窗口訓練實驗的結果,確定每個介詞最佳特征窗口大小。測試實驗結果見表2。

表2 基于統計方法的自動識別結果

采用基于統計的方法進行標注,標注正確的總個數有26037個,總準確率為76.80%。從表2可以看出,基于統計的介詞自動識別方法總體效果比較好,覆蓋面廣,當改變了介詞用法或義項后,也有很好的適應性。不過對于一些結構性較強的介詞就不如規則效果好,比如 “據”、“同”、“比”等詞。同時與規則方法相比,統計方法不能很好發現用法的不足,因為統計方法是在用法確定的情況下,通過訓練得到每個用法的模型,然后識別測試語料中介詞的用法,它不能判斷用法本身的合理性,不能發現新的用法,不利于完善介詞用法的劃分和確定,比如 “由于”,只有一個用法,如果一個用法不能包含其運用時的全部情況,規則方法可以發現這種不足,而統計方法卻不能。

3 規則與統計相結合的介詞用法自動識別

鑒于規則與統計方法各自的優劣,本文使用了規則與統計相結合的方法,提高機器的識別能力。規則與統計相結合的方法有多種,本文使用兩種結合方法:宏觀結合與微觀結合。

3.1 宏觀結合

基于規則的自動識別和基于統計的自動識別有著不同的準確率,以每個介詞為單位,比較規則與統計準確率的高低,進行分析結合。針對某個介詞,選用準確率高的方法作為優先識別方法,準確率低的方法作為輔助識別方法,如圖1所示。

宏觀結合算法分為5步:

步驟1 從語料中依次提取句子,判斷是否含有介詞,如果含有介詞,從準確率文檔中找到此介詞的規則準確率與統計準確率;否則重復步驟1,繼續提取句子;

步驟2 判斷找到的介詞規則與統計各自準確率的大小,以此確定主要的識別方法和輔助識別方法;

步驟3 采用步驟2確定的主要識別方法進行自動識別;

步驟4 判斷主要識別方法能否識別,能夠識別時,輸出識別結果;不能識別時使用輔助識別方法進行識別,能夠識別時,輸出識別結果,不能識別時,輸出識別失敗;

步驟5 判斷句子是否還有介詞,如果還有介詞,從步驟2繼續執行,否則從步驟1執行。

3.2 微觀結合

相對于宏觀結合,微觀結合從更細小的結構進行結合,以每個介詞的每個用法為單位,進行分析結合。同樣以準確率作為參數,進行比較,如圖2所示。

微觀結合算法分為7步:

步驟1 從語料中依次提取句子,判斷句子是否含有介詞,如果含有介詞,執行步驟2;否則,重復步驟1,繼續提取句子;

步驟2 對找到的介詞進行規則識別和統計識別;

步驟3 判斷統計是否識別,如果統計不能識別,從步驟4執行,否則,從步驟5執行;

步驟4 判斷規則是否識別,如果規則識別,輸出規則識別結果;否則,輸出識別失敗,然后從步驟7執行;

步驟5 判斷規則是否識別,如果不能識別,則輸出統計識別結果,然后從執行步驟7;否則,執行步驟6;

步驟6 規則以及統計都識別時,分別從規則準確率文檔中找到規則識別的用法準確率,從統計準確率文檔中找到統計識別的用法準確率,比較大小 (與宏觀結合時不同,微觀結合時準確率是介詞每個用法的,宏觀結合時是介詞總體的),如果規則的準確率高,輸出規則識別結果;否則,輸出統計識別結果;

步驟7 判斷句子中是否還有介詞,如果還有介詞,從步驟2繼續執行;否則,從步驟1執行。

3.3 實驗結果

實驗選用2000年2、3、4月 《人民日報》語料作為訓練語料,用2000年5月 《人民日報》語料作為測試語料,實驗結果見表3和表4。

表3 規則統計結合的自動識別結果

由表3可以看出,規則統計相結合的方法對每個介詞自動識別都有一定的提高,宏觀結合標注正確的總個數有26605個,總的準確率為78.47%,比規則方法高11.09%,比統計提高1.67%。微觀結合標注正確的總個數有27808個,總的準確率為82.02%,比規則方法高14.64%,比統計方法高5.22%。由此可以看出,微觀結合效果最好。同時,因為微觀結合是以用法為單位的結合,對于介詞的每個用法識別準確率,同樣是可以比較的,而宏觀結合方法是以詞為單位進行結合,不能比較。在比較單個介詞中不同用法識別情況時,我們以F值為參考 (對于整個介詞來說,由于介詞的個數是確定的,所以整個介詞的準確率、召回率和F值是相同的),以介詞 “在”為例,由表4可以看出,微觀結合的方法對單個用法的識別能力比另兩種方法強。

4 結束語

本文分別對介詞用法進行了規則方法、統計方法以及規則與統計相結合方法的自動識別研究,實驗表明微觀規則與統計相結合的方法吸收了規則方法和統計方法各自的優點,具有更高的自動識別能力。規則與統計結合的方法是多種多樣,找到最有效的結合方法,同時進一步的完善介詞用法規則庫,將是提高介詞用法自動識別能力的有效和主要途徑,也是本文下一步研究的主要方向。另外,介詞用法在信息抽取、句法分析、機器翻譯等方面的應用是本文研究的主要動力和實際意義,是未來的應用研究方向。

表4 介詞 “在”用法自動識別結果

[1]ZHOU Lijuan,ZHANG Kunli,YUAN Yingcheng,et al.The studies on automatic recognition of rule-based modern Chinese conjunctions usages [C]// Wuhan:Proceedings of the 5th YWCL,2010:96-102 (in Chinese). [周麗娟,張坤麗,袁應成,等.基于規則的現代漢語連詞用法自動識別研究 [C]//武漢第五屆全國青年計算語言學研討會,2010:96-102.]

[2]ZAN Hongying,ZHANG Junhui,ZHU Xuefeng,et al.Research on usages of Chinese adverb JIU and its automatic indentification [J].Journal of Chinese Information Processing,2010,24 (5):10-16 (in Chinese).[昝紅英,張軍琿,朱學鋒,等.副詞 “就”的用法及其自動識別研究 [J].中文信息學報,2010,24 (5):10-16.]

[3]YU Shiwen,ZHU Xuefeng,LIU Yun.Natural language understanding oriented the researches on Chinese functional words[C]//Xishuangbanna:Proceedings of the 11th the Chinese Language Information Seminar,2007:270-279 (in Chinese).[俞士汶,朱學鋒,劉云.面向自然語言理解的漢語虛詞研究[C]//西雙版納:第十一屆全國民族語言文字信息學術研討會論文集,2007:270-279.]

[4]ZAN Hongying,ZHANG Kunli,CHAI Yumei,et al.Studies on the functional word knowledge base of modern Chinese [J].Journal of Chinese Information Processing,2007,21 (5):107-111 (in Chinese).[昝紅英,張坤麗,柴玉梅,等.現代漢語虛詞知識庫的研究 [J].中文信息學報,2007,21 (5):107-111.]

[5]LV Shuxiang.Modern Chinese eight hundred words [M].Beijing:Commercial Press,1980 (in Chinese).[呂叔湘.現代漢語八百詞 [M].北京:商務印書館,1980.]

[6]The Chinese social sciences academy language research laboratory dictionary editorial office. Modern Chinese Dictionary[M].5th ed.Beijing:Commercial Press,2007 (in Chinese).[中國社會科學院語言研究所詞典編輯室.現代漢語詞典[M].5版 北京:商務印書館,2007.]

[7]ZHANG Bin.Modern Chinese function word dictionary [M].Beijing:Commercial Press,2005 (in Chinese). [張斌.現代漢語虛詞詞典 [M].北京:商務印書館,2005.]

[8]HAN Yingjie,ZAN Hongying,ZHANG Kunli,et al.Auto-matic annotation of auxiliary words usage in rule-based Chinese language [J].Journal of Computer Applications,2011,31(12):3271-3274 (in Chinese).[韓英杰,昝紅英,張坤麗,等.基于規則的現代漢語常用助詞用法自動識別 [J].計算機應用,2011,31 (12):3271-3274.]

[9]YUAN Yingcheng,ZAN Hongying,ZHANG Kunli,et al.The automatic annotation algorithm design and system implementation rule-based function word usage [C]//Proceedings of the 11th CLSW,2010:163-169 (in Chinese).[袁應成,昝紅英,張坤麗,等.基于規則的虛詞用法自動標注算法設計與系統實現 [C]//第十一屆漢語詞匯語義學研討會論文集,2010:163-169.]

[10]LIU Li,HE Zhongshi,XING Xinlai,et al.Chinese time expression recognition based on semantic role [J].Application Research of Computers,2011,28 (7):2543-2545 (in Chinese).[劉莉,何中市,刑欣來,等.基于語義角色的中文時間表達式識別 [J].計算機應用研究,2011,28 (7):2543-2545.]

[11]ZHOU Yihui,ZAN Hongying,MU Lingling.Studies on usagesrecognition of Chinese modality based on CRFs [J].Computer Enfineering and Design,2011,32 (11):3929-3933(in Chinese).[周溢輝,昝紅英,穆玲玲.基于條件隨機場的語氣詞用法自動識別 [J].計算機工程與設計,2011,32(11):3929-3933.]

猜你喜歡
自動識別規則方法
撐竿跳規則的制定
數獨的規則和演變
自動識別系統
特別健康(2018年3期)2018-07-04 00:40:18
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
金屬垃圾自動識別回收箱
基于IEC61850的配網終端自動識別技術
電測與儀表(2016年6期)2016-04-11 12:06:38
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 99在线观看免费视频| 亚洲天堂网2014| 国产精品成| 在线国产你懂的| 国内精自线i品一区202| 一级毛片在线免费视频| 91偷拍一区| 色网站免费在线观看| 青青青伊人色综合久久| 免费看a级毛片| 成人福利在线看| 欧美一级在线| 国产亚洲美日韩AV中文字幕无码成人 | 日韩午夜片| 永久免费无码日韩视频| 国产精品国产主播在线观看| 亚洲国产AV无码综合原创| 97青草最新免费精品视频| 特级aaaaaaaaa毛片免费视频| 国产精品国产三级国产专业不| 欧美高清国产| 国产国拍精品视频免费看| 欧美h在线观看| 国产91九色在线播放| 久久香蕉国产线看观看亚洲片| 青青久在线视频免费观看| 亚洲人成网站观看在线观看| 在线无码九区| 国产麻豆精品在线观看| 视频一区亚洲| 亚洲成a人片在线观看88| 亚洲系列无码专区偷窥无码| 久久一本精品久久久ー99| 国产网友愉拍精品| 亚洲国产综合精品一区| 成人精品在线观看| 91在线播放国产| 中文字幕va| 免费观看国产小粉嫩喷水| 亚洲欧美人成电影在线观看| 亚洲国产成熟视频在线多多| 国产亚洲精品资源在线26u| 最新加勒比隔壁人妻| 亚洲中文字幕无码mv| 嫩草影院在线观看精品视频| 国模私拍一区二区三区| 青青操国产| 在线播放真实国产乱子伦| 国产主播在线观看| 午夜啪啪网| 成·人免费午夜无码视频在线观看| 国产在线精品99一区不卡| 九九久久精品免费观看| 日韩高清中文字幕| 亚洲欧美精品日韩欧美| 亚洲国产看片基地久久1024| 久久精品视频一| 久久中文字幕2021精品| 日韩黄色在线| 欧美一区二区三区欧美日韩亚洲| 99re精彩视频| 四虎国产成人免费观看| 操国产美女| 色婷婷狠狠干| 日韩无码视频专区| 国产欧美综合在线观看第七页| 免费日韩在线视频| 精品国产自在在线在线观看| 国产美女自慰在线观看| 国产原创演绎剧情有字幕的| 丝袜美女被出水视频一区| 全午夜免费一级毛片| 一区二区日韩国产精久久| 毛片在线播放a| 日韩欧美国产另类| 三区在线视频| 亚洲精品无码抽插日韩| 中文成人在线视频| 亚洲性日韩精品一区二区| 成人另类稀缺在线观看| 久久天天躁夜夜躁狠狠| 91久久性奴调教国产免费|