999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞典和語素的交集型歧義消除模型

2013-02-21 04:02:56李春雨
網絡安全與數據管理 2013年4期
關鍵詞:文本模型

李春雨,王 勇

(1.浙江機電職業技術學院,浙江 杭州 310053;2.杭州茂亨自控儀表有限公司,浙江 杭州 310053)

在英文和其他西方語言系統中,文本書寫時通常是詞與詞之間用空格隔開,但中文的書寫形式卻是連續的字串,詞與詞之間沒有任何標志。而對于中文來說,如果不進行詞語的有意義切分,句子將沒有任何的意義[1]。分詞是中文信息處理的第一步,就目前來說,較為常用的中文分詞方法主要分為兩類:基于規則的方法和基于統計的方法[2]。基于規則的分詞方法的核心在于建立一個完備的詞典,然后通過該詞典對句子中的切分片段進行匹配,以完成分詞過程。較常用的基于詞典的中文分詞方法有正向最大匹配法、逆向最大匹配法和最佳匹配法;基于統計的分詞法的基本原理是對語料庫中相鄰字的組合頻度進行統計,根據一定的頻度計算公式來決定字符串成為詞的可能性進行分詞。字詞共現的頻度高低體現了漢字之間結合關系的緊密程度。當緊密程度高于某一個閥值時,便可認為此字符串可能已經構成了一個詞[3-5]。這些方法有效地促進了中文分詞研究的進一步發展,但在實際應用中仍然有很多因素影響著分詞的準確率,其中較常見的就是分詞的歧義問題。

本文建立了一個中文分詞的模型來減少中文分詞中的歧義問題,以提高分詞的準確率。該模型基于正向最大匹配法和逆向最大匹配法來完成分詞過程,通過對兩種分詞方法產生的分詞序列進行比較分析,最終通過基于罰分機制的歧義消除算法選出正確的序列來完成分詞。

1 最大匹配法與交集型歧義

最大匹配法有正向最大匹配法MM法(Maximum Matching Method)和逆向最大匹配法RMM法(Reverse Maximum Matching Method)兩種基本方法。它們具有原理簡單、時間復雜度低、易于實現等優點,但是不足之處在于往往不能識別出切分歧義而導致文本切分錯誤[6]。而中文語言環境中歧義的存在是一個很普遍的現象,據統計,MM法對于文本的錯誤切分率為1/169,RMM法對于文本的錯誤切分率為1/245[7]。

導致分詞錯誤的切分歧義主要有組合型歧義和交集型歧義兩種。在所有的歧義現象中,普通的交集型歧義現象所占的比例為85%以上[8],所以交集型歧義在中文文本中是極為常見的。以文本“他的確切地址在這兒”為例,通過 MM法進行切分的結果為“他/的確/切/地址/在/這兒”,用 RMM 法得到的結果為“他/的/確切/地址/在/這兒”,可見兩種方法得到了不一樣的分詞結果,而有差別的“的確切”部分存在的歧義就是交集型歧義。

2 交集型歧義消除模型

2.1 歧義分詞

歧義消除的過程通常是與分詞結合在一起的,對于中文文本來說,如果存在歧義,分別通過MM法和RMM法所得到分詞結果是一樣的,反之則不一樣。對于存在交集型歧義的文本,交集型歧義消除模型首先需要將文本用MM法和RMM法分別進行切分以得到兩個不同的切分結果。除此之外還可以通過其他的分詞方法得到更多的切分結果,但實驗證明MM法和RMM法的結合分詞能夠識別出絕大多數的交集型歧義,基于此點以及效率上的考慮,本文的模型中只保留使用MM法和RMM法兩種切分方法來進行對比分析。

以文本“他明白天為什么下雨”為例,可以通過MM法和RMM法分別得到結果(1)和結果(2):

結果(1):他/明白/天/為什么/下雨

結果(2):他/明/白天/為什么/下雨

2.2 不單獨成詞語素表

在本文所研究的交集型歧義消除模型中還需要用到一個不單獨成詞語素表。該表包含了一些在中文語境中單獨出現通常沒有意義的一些字,比如“第”,當“第”單獨出現時基本上沒有任何意義,但是“第”通過與其他字的組合卻能具有很多不同的意義,例如 “及第”,“第一”等。在交集型歧義消除模型中,不單獨成詞語素表所包含的不單獨成詞的語素完備性對分詞的模型在實際應用當中的文本切分準確性是緊密聯系在一起的,語素表完備性越高則文本切分越準確,反之則越不準確。

2.3 消歧算法

交集型歧義消除模型中所使用的用來確保能夠消除歧義的算法主要原理是通過引入針對切分結果賦予權值,然后對權值進行統計的方法來進行歧義消除的。

定義:ABC為文本,A、B、C均為切分單元,即 ABC可被切為 A/B/C,A、B、C分別被賦予初始權值R(A)=R(B)=R(C)=1。

現假設切分結果 “A/B/C”中只有切分單元B屬于2.2節所構建的不單獨成詞語素表,則切分單元B的權值會增加,即 R(B)=2。

然后對切分結果“A/B/C”的權值進行統計,R(A)+R(B)+R(C)=1+2+1=4,通過不同的方法可以得到不同的切分結果,不同的切分結果的權值統計也會有區別。交集型歧義消除模型會將各個結果的權值統計進行比較分析,選出統計值較小的一個為消除歧義后的切分結果。

對于文中2.1節分別通過MM法和RMM法獲得的結果(1)和結果(2),分別對切分單元賦予初始權值:

結 果(1):R(他)=R(明 白 )=R(天)=R(為 什 么)=R(下雨)=1;

結 果 (2):R(他 )=R(明 )=R(白 天)=R(為 什 么)=R(下雨)=1;

通過將結果(1)和結果(2)與不單獨成詞語素表進行匹配,可以判斷結果(2)中的“明”字屬于不單獨成詞語素,即R(明)=2,通過結果權值統計:

結 果 (1):R(他 )+R(明 白 )+R(天)+R(為 什 么)+R(下雨)=1+1+1+1+1=5;

結 果 (2):R(他 )+R(明 )+R(白 天)+R(為 什 么)+R(下雨)=1+2+1+1+1=6;

然后通過對結果進行比較,交集型歧義消除模型選取權值統計較小的結果(1)為消歧后的正確結果,同時該結果也完全符合中文語境下的正確的表達意義。

2.4 模型示意圖

通過以上的分析描述,交集型歧義消除模型消歧的過程主要分為三個步驟:發現歧義、分析歧義、消除歧義。發現歧義是通過MM法和RMM法對文本進行切分對比來識別歧義的存在;分析歧義的過程是以不單獨成詞語素表為基礎,通過對文本切分單元進行權值賦予與統計來完成的;最后的消除歧義步驟則是對分析歧義的結果進行對比,剔除切分錯誤文本來消除歧義。圖1是交集型歧義消除的示意圖。

3 實驗及結果

對于中文分詞來說,分詞的高效性和準確性是極其重要的。在相同的條件下,更準確、更高效的分詞方法就意味著更好的分詞性能以及更快的分詞速度。

(1)效率分析

根據本文中的分詞策略,對于一個中文句子來說,分別用正向最大匹配法和逆向最大匹配法得到兩個分詞結果序列,然后通過不單獨成詞語素表來對兩個結果序列進行分析,整個分析過程不涉及到其他的分詞方法。而正向最大匹配法和逆向最大匹配法基于其實現原理分詞效果是非常理想的,在所有的中文分詞系統中基本上都可以找到這兩種方法的身影,所以本文中的分詞過程基于正向最大匹配法和逆向最大匹配法這兩種基本方法,然后再結合不單獨成詞語素表,使分詞的效率得到了保證。

(2)準確性分析

在中文自然語言處理領域,正向最大匹配法和逆向最大匹配法是兩個最基本的分詞方法,不幸的是這兩種方法都不能很好地解決中文語言環境中的分詞歧義問題。因此,針對于這一系列因素,本文中提到的交集型歧義消除模型利用對切分結果進行基于不單獨成詞語素表的權值統計來選出相對權值較小的切分結果,進而保證中文分詞中的交集型歧義的發現與消除。

(3)實驗結果分析

基于以上的規則,本文中開發了一個交集型歧義消除系統,其中不單獨成詞語素表包含了4 871個不單獨成詞語素,同時從2012年的人民日報中選取了6篇文章作為實驗的原始語料庫。通過用交集型歧義消除模型獲得的消歧結果與單獨使用正向最大匹配法和逆向最大匹配法所得到的結果進行對比來分析系統的效率和準確度。

表1和表2分別為單獨使用MM法和RMM法進行文本切分時的切分準確率。表3為采用交集型歧義消除模型進行切分的準確率,從中可以看到交集型歧義消除模型針對于同一語料庫的文本切分準確率最高。

表1 單獨使用MM法進行切分的準確率

表2 單獨使用RMM法進行切分的準確率

表3 交集型歧義消除模型進行切分的準確率

圖2為MM法、RMM法和交集型歧義消除模型切分準確率的對比。從圖2中可以看出,交集型歧義消除模型對文本切分中的交集型歧義消除準確率比單獨使用正向最大匹配法和逆向最大匹配法的切分準確率要高。

圖3是交集型歧義消除模型與MM法、RMM法在文本切分效率上的對比。從圖3中可以看出,交集型歧義消除模型雖然較MM法和RMM法額外使用了不單獨成詞語素表,但在效率上并沒有明顯的降低。

通過以上的實驗可以看出,交集型歧義消除模型可以很好地發現并解決中文語言環境下的交集型歧義問題,并且具有較高的效率和準確率。根據實驗數據可知,本系統的分詞結果準確率比單純使用正向最大匹配法和逆向最大匹配法高得多;另一方面,由于使用了不單獨成詞語素表,本文算法的分詞效率較原始的正向最大匹配法和逆向最大匹配法有略微的降低。但結合效率和準確性來進行整體分析,可以看到交集型歧義消除模型對于解決中文分詞中的交集型歧義是非常有價值的。

本文基于不單獨成詞語素表及常用的分詞方法提供了一個中文分詞中的交集型歧義的解決方案。實驗結果表明,交集型歧義消除模型能夠很好地解決中文分詞中的交集型歧義問題,希望本文的研究成果能夠對中文分詞歧義消除領域的發展起到一定的推動作用。

[1]孫茂松,鄒嘉彥.漢語自動分詞研究評述[J].當代語言學,2001(1):22-32.

[2]麥范金,王挺.基于雙向最大匹配和HMM 的分詞消歧模型[J].現代圖書情報技術,2008(8):37-41.

[3]施彤年,盧忠良,榮融,等.多類多標簽漢語文本自動分類的研究[J].情報學報,2003,22(3):306-309.

[4]鄒海山,吳勇,吳月珠,等.中文搜索引擎中的中文信息處理技術[J].計算機應用研究,2000(12).

[5]趙偉,戴新宇,尹存燕,等.一種規則與統計相結合的漢語分詞方法[J].計算機應用研究,2004(3):23-25.

[6]劉穎.計算語言學[M].北京:清華大學出版社,2002.

[7]梁南元.書面漢語自動分詞系統——CDWS[J].中文信息學報,1987(2):44-52.

[8]一種 Hash高速分詞算法[J].解放軍理工大學學報(自然科學版),2004,5(2):40-42.

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲国产精品无码AV| 波多野吉衣一区二区三区av| 2020亚洲精品无码| 国产免费福利网站| 综合色88| 日韩123欧美字幕| 亚洲中文字幕23页在线| 国产小视频在线高清播放| 欧美久久网| 毛片在线播放a| 青青操视频免费观看| 日韩毛片基地| 国产精品视频导航| 中文字幕天无码久久精品视频免费| 国产久草视频| 国产小视频a在线观看| 国产乱子伦手机在线| 亚洲成人网在线观看| 日韩a级片视频| 在线观看欧美精品二区| 中文字幕色在线| 国产XXXX做受性欧美88| 欧美A级V片在线观看| 国产一级裸网站| 国产成人无码AV在线播放动漫| 就去吻亚洲精品国产欧美| 极品尤物av美乳在线观看| 免费观看成人久久网免费观看| 国产av色站网站| 亚洲色偷偷偷鲁综合| 日本高清免费不卡视频| 亚洲成a人片在线观看88| 55夜色66夜色国产精品视频| 91久久国产综合精品女同我| 亚洲色图欧美视频| 亚洲αv毛片| AV色爱天堂网| 伊人91视频| 国产免费网址| 成人小视频网| 99福利视频导航| 在线精品自拍| 欧美日本视频在线观看| 国产日本欧美亚洲精品视| 爱做久久久久久| a级毛片一区二区免费视频| 国产精品一区在线麻豆| 日韩在线播放欧美字幕| 亚洲无码免费黄色网址| 午夜不卡福利| 2020国产精品视频| 日本免费福利视频| 农村乱人伦一区二区| 91国内外精品自在线播放| 全部免费毛片免费播放| 欧美精品二区| 女人18毛片久久| 国产又黄又硬又粗| 国产乱人伦精品一区二区| 在线观看国产精品第一区免费 | 91久久偷偷做嫩草影院免费看| 精品自窥自偷在线看| 成人免费午夜视频| 欧美专区在线观看| 国产成人福利在线| 在线观看无码a∨| 国产黄色视频综合| 无码日韩精品91超碰| 伊人婷婷色香五月综合缴缴情| 国产成年女人特黄特色大片免费| 亚洲一区二区约美女探花| 国产在线小视频| 亚洲一区二区日韩欧美gif| 欧美日韩午夜视频在线观看| 亚洲日本中文字幕乱码中文| 国产亚洲高清视频| 国产成人1024精品| 精品无码国产自产野外拍在线| 色亚洲激情综合精品无码视频| 亚洲人妖在线| 亚洲精品国产综合99久久夜夜嗨| 亚洲系列中文字幕一区二区|