999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機(jī)器翻譯用藏文自動(dòng)分詞探究

2015-11-30 06:33:13官卻多杰
電子測(cè)試 2015年22期

官卻多杰

(青海師范大學(xué)民族師范學(xué)院,青海共和,813000)

機(jī)器翻譯用藏文自動(dòng)分詞探究

官卻多杰

(青海師范大學(xué)民族師范學(xué)院,青海共和,813000)

針對(duì)藏漢機(jī)器翻譯過程中的藏文預(yù)處理,提出切分單元盡可能短語化,從而降低藏文分詞算法的復(fù)雜度。經(jīng)測(cè)試能有效提高藏漢機(jī)器翻譯的效果,符合藏漢機(jī)器翻譯源文預(yù)處理的需求。

機(jī)器翻譯;藏文;自動(dòng)分詞

0 引言

在藏漢機(jī)器翻譯過程中,首先要對(duì)源文藏文部分進(jìn)行分詞預(yù)處理。源文切分粒度直接影響分詞算法的復(fù)雜度,單純意義的分詞算法將會(huì)以詞為單位進(jìn)行自動(dòng)切分,盡可能切分到最細(xì)小的詞語單元。但在藏漢機(jī)器翻譯時(shí),切分粒度太小則翻譯單元隨之增加,并且需要進(jìn)一步考慮這些細(xì)小的翻譯單元在目標(biāo)語言中的位置。由此可知,采用純粹的分詞算法進(jìn)行藏漢機(jī)器翻譯源文預(yù)處理,既增加了分詞算法的復(fù)雜度,又降低了藏漢機(jī)器翻譯的效率。本文提出在藏漢機(jī)器翻譯源文預(yù)處理時(shí),藏文分詞粒度盡可能短語化,與翻譯詞典中最長的詞條匹配,減少翻譯單元和語序調(diào)整等額外的開銷,從而縮短預(yù)處理時(shí)間并有效提高藏漢機(jī)器翻譯的效率和質(zhì)量。

1 藏文自動(dòng)分詞算法結(jié)構(gòu)

文章借鑒陳玉忠等人提出的基于格助詞和接續(xù)特征的書面藏文自動(dòng)分詞方案[1],首先對(duì)藏文進(jìn)行預(yù)處理,對(duì)文本中的非藏文部分進(jìn)行切分;其次,對(duì)純藏文部分進(jìn)行處理,根據(jù)藏文標(biāo)點(diǎn)符號(hào)和格助詞將上一步得到內(nèi)容進(jìn)行更加詳細(xì)的劃分;最后對(duì)切分中出現(xiàn)的歧義和未登錄詞進(jìn)行識(shí)別并及時(shí)處理,從而確保切分的準(zhǔn)確性,將所有的小段切分結(jié)果進(jìn)行重新組成,形成最后的輸出結(jié)果。

2 構(gòu)造藏文分詞詞典

文章進(jìn)行分詞算法研究的主要目的是對(duì)藏漢機(jī)器翻譯中的源文部分進(jìn)行預(yù)處理工作,機(jī)器翻譯用藏文分詞算法不僅要盡可能多的認(rèn)詞,同時(shí)需要兼顧后續(xù)翻譯時(shí)能夠找到切分出的詞匯譯文,因此該分詞算法所用的詞典不能簡(jiǎn)單的考慮到分詞,同時(shí)也應(yīng)該充分考慮其收錄的詞匯是否具有譯文。考慮到這些因素,詞典收錄了《新編藏文字典》和《藏漢大辭典》的詞條,其中多數(shù)藏文詞匯都有相應(yīng)的漢文譯文。在進(jìn)行自動(dòng)分詞研究的過程中主要使用哈希表進(jìn)行詞典構(gòu)造。哈希表的元素查找速度不受表中元素個(gè)數(shù)的影響,元素查找速度較快。[2]

3 分詞算法實(shí)現(xiàn)

在保留與詞典匹配的最長塊的前提下,依據(jù)藏文文法中各類格助詞的特性和藏文標(biāo)點(diǎn)符號(hào)將純藏文文本進(jìn)行切分,對(duì)切分結(jié)果進(jìn)一步進(jìn)行消除切分歧義和識(shí)別未登錄詞的工作,得到更加精確的切分結(jié)果,從而避免機(jī)器翻譯中的錯(cuò)誤。

3.1 格助詞切分

對(duì)藏文進(jìn)行分詞的核心在于結(jié)合藏文字、詞、句各類形式特征來確定格助詞及其接續(xù)特征規(guī)則的識(shí)別。因此,在進(jìn)行藏文分詞的過程中如何準(zhǔn)確的實(shí)現(xiàn)對(duì)格助詞劃分關(guān)系到分詞的最終效果。

表1 作格助詞添接規(guī)則

表2 屬格助詞添接規(guī)則

表3 正向最大匹配分詞過程

3.2 正向最大匹配分詞算法設(shè)計(jì)

利用詞典對(duì)藏文分詞時(shí)采用正向最大匹配方法,將被切分段從第一個(gè)音節(jié)開始直到末尾都假設(shè)為詞在詞典中進(jìn)行查找,直至發(fā)現(xiàn)以該音節(jié)為起點(diǎn)的最長詞然后切分,用同樣的思路將剩下部分進(jìn)一步進(jìn)行切分。在完成藏文分詞工作之后,還需要將所有切分的小段進(jìn)行重新組合。切分過程如表3所示,假如在進(jìn)行切分時(shí),需要進(jìn)行切分的文中的成詞詞條都沒有在詞典中收錄,就需要對(duì)表中所有的需要進(jìn)行查詢的詞條進(jìn)行查找,遍歷一次后確定沒有沒有匹配詞條,就將待切文本作為一塊。

4 分詞后處理研究

在對(duì)藏文進(jìn)行分詞時(shí)經(jīng)常會(huì)遇到切分歧義和未登錄現(xiàn)象,這兩個(gè)問題對(duì)藏文分詞的最終準(zhǔn)確性會(huì)產(chǎn)生影響。因此,在進(jìn)行藏文分詞時(shí),解決好歧義消除并對(duì)未登錄詞進(jìn)行自動(dòng)識(shí)別,對(duì)提高藏文分詞的準(zhǔn)確性有十分重要的作用。

4.1 歧義消除

切分歧義是漢語自動(dòng)分詞研究中的一大難題[4],藏文分詞中也同樣存在這樣的問題,由于藏文詞也存在多義性,并且在詞與詞之間沒有自然切分的標(biāo)記,因此通過程序?qū)Σ匚奈谋具M(jìn)行自動(dòng)分詞,難免會(huì)出現(xiàn)歧義現(xiàn)象。

在對(duì)藏文文本進(jìn)行自動(dòng)分詞時(shí)經(jīng)常出現(xiàn)的歧義主要有交集歧義和組合型歧義兩種,如“”,可切分為“”或“”,又如“”,可被切分為“”或“”。在檢測(cè)到歧義的基礎(chǔ)上才能采取有效的措施消除歧義現(xiàn)象,使切分工作更加準(zhǔn)確。

文章在進(jìn)行研究的過程中通過正向最大匹配得到分詞的初步結(jié)果,在進(jìn)行分詞的過程中只通過正向最大匹配工作是無法確認(rèn)是否產(chǎn)生切分歧義的。故此為了及時(shí)發(fā)現(xiàn)并解決切分歧義問題,在進(jìn)行正向最大匹配的基礎(chǔ)上還需要進(jìn)行一次逆向最大匹配,如果所得結(jié)果不一致則表明出現(xiàn)了切分歧義。這種方法主要應(yīng)用到交集型歧義現(xiàn)象檢測(cè)中,而對(duì)于組合型歧義則很難起到應(yīng)有的效果。為此,在進(jìn)行漢文分詞研究時(shí),使用正向最小匹配以及逆向最大匹配的方法,則不僅能對(duì)檢測(cè)交集型歧義字段起到有效作用,還能夠?qū)M合型歧義字段進(jìn)行有效識(shí)別[5]。而這種方法在藏文分詞中是否也能起到較好的效果需要進(jìn)一步驗(yàn)證。雖然在進(jìn)行實(shí)際切分時(shí),雙向匹配存在檢測(cè)盲區(qū),但是仍舊有比較高的切分歧義檢測(cè)能力并且是十分容易實(shí)現(xiàn)的。文章在藏文自動(dòng)分詞過程中,主要采用雙向匹配檢測(cè)切分時(shí)存在的歧義。

藏文切分歧義消除還目前沒有具有權(quán)威性的研究成果,采用何種方法檢測(cè)并解決在藏文分詞中出現(xiàn)的切分歧義,沒有系統(tǒng)的理論成果和方法進(jìn)行借鑒。文章在進(jìn)行研究的過程中,也只是對(duì)這一問題進(jìn)行初步探討,通過對(duì)真實(shí)的藏文文本進(jìn)行多次測(cè)試,表明文章中經(jīng)過預(yù)處理以及分詞處理后所得到的分詞結(jié)果準(zhǔn)確率比較高,因此可以將其做為進(jìn)行藏漢機(jī)器翻譯時(shí)對(duì)藏文的預(yù)處理工具。文章在研究過程中沒有對(duì)歧義檢測(cè)以及如何消除歧義進(jìn)行進(jìn)一步深入的研究,而主要是借鑒了漢語在進(jìn)行自動(dòng)分詞中消除歧義以及檢測(cè)歧義的方法,對(duì)藏文進(jìn)行自動(dòng)分詞時(shí)出現(xiàn)的歧義進(jìn)行參照性設(shè)想。至于能否講漢語自動(dòng)分詞中消解歧義所使用的方法直接引入藏文自動(dòng)分詞歧義消解的過程中,還需要進(jìn)行跟進(jìn)一步的研究和論證工作。

4.2 未登錄詞處理

在進(jìn)行自動(dòng)分詞時(shí),如果存在沒有收錄的詞匯,就必定會(huì)出現(xiàn)不能夠識(shí)別的詞匯,這些詞匯指的就是未登錄詞。在漢文自動(dòng)分詞研究中對(duì)未登錄的術(shù)語詞,利用大規(guī)模語料提煉出N元漢字串的分布由機(jī)器自動(dòng)生成候選表,在此基礎(chǔ)上通過人工選出新詞并添加到詞表中,再通過詞典對(duì)未登錄詞匯進(jìn)行識(shí)別。在處理沒有登錄的專有名詞時(shí),首先按專有名詞庫中的統(tǒng)計(jì)知識(shí)以及歸納知識(shí)中的特定結(jié)構(gòu)規(guī)則,猜測(cè)可能成為專有名詞的漢字串并給出其置信度,之后使用對(duì)該給專有名詞表示意義的緊鄰上下文信息,以及全局統(tǒng)計(jì)量和局部統(tǒng)計(jì)量,進(jìn)行進(jìn)一步的鑒定[6]。

藏文分詞未登錄詞的識(shí)別需要不斷拓展和深入研究藏文詞頻信息、術(shù)語信息等的統(tǒng)計(jì)工作,并結(jié)合藏文自身的語法特征進(jìn)行識(shí)別。本文在進(jìn)行研究的過程中主要以探討的形式對(duì)藏文自動(dòng)分詞的過程中出現(xiàn)的歧義現(xiàn)象進(jìn)行嘗試性消除,并且在這個(gè)過程中對(duì)未登錄詞進(jìn)行了簡(jiǎn)單的處理,實(shí)踐證明本文中未登錄詞的識(shí)別方法有一定實(shí)際作用。

5 結(jié)束語

在文章進(jìn)行研究的過程中充分借鑒了前人的研究成果,根據(jù)藏文文法的獨(dú)特特點(diǎn),設(shè)計(jì)并實(shí)現(xiàn)了切分精度較高的藏文自動(dòng)分詞算法,實(shí)踐證明文章提出的藏文自動(dòng)分詞方法具有一定的實(shí)用性,這為進(jìn)行藏漢機(jī)器翻譯源文預(yù)處理提供了技術(shù)上的保障。

[1]陳玉忠,李保利,俞士汶,蘭措吉.基于格助詞和連續(xù)特征的藏文自動(dòng)分詞方案.語言文字應(yīng)用,2003,1:75-82

[2]雍俊海. Java程序設(shè)計(jì)教程.北京:清華大學(xué)出版社.2007:148-149

[3]才智杰.藏文自動(dòng)分詞系統(tǒng)中緊縮詞的識(shí)別.中文信息學(xué)報(bào),2009,23(1):35-37

[4]孫茂松,鄒嘉彥.漢語自動(dòng)分詞研究評(píng)述.當(dāng)代語言學(xué),2001,3(1):22-32

[5]苗奪謙,衛(wèi)志華.中文文本信息處理的原理與應(yīng)用.北京:清華大學(xué)出版社,2007:34-37

[6]孫茂松,鄒嘉彥.漢語自動(dòng)分詞研究評(píng)述.當(dāng)代語言學(xué),2001,3(1):22-32.

Research on Tibetan Segmentation for Machine Translation

Guan Queduojie
(National Normal College of Qinghai Normal University,Qinghai Gonghe,810008)

According to the Tibetan and Chinese Machine Translation pretreatment process, put forward phrases as segmentation unit, so as to reduce the complexity of the Tibetan word segmentation algorithm. The test can improve the effect of Tibetan and Chinese Machine Translation effectively, meet Tibetan and Chinese Machine Translation source text pretreatment requirements.

Machine Translation;Tibetan;segmentation

TP391

A

主站蜘蛛池模板: 亚洲区视频在线观看| 国产美女无遮挡免费视频网站 | 伊人无码视屏| 国产精品亚洲一区二区三区在线观看| 成人av手机在线观看| 一区二区影院| 黄色网站不卡无码| 国产真实自在自线免费精品| 日韩AV无码一区| 国产欧美日韩一区二区视频在线| 久久综合色天堂av| 超碰免费91| 亚洲中文久久精品无玛| 国产成人精品午夜视频'| 蜜臀AVWWW国产天堂| 久久永久视频| 国产人免费人成免费视频| 亚洲有无码中文网| 妇女自拍偷自拍亚洲精品| 亚洲aaa视频| 欧美日韩专区| 亚洲视频免费在线看| 亚洲黄网视频| 永久免费精品视频| 国产午夜一级毛片| av午夜福利一片免费看| 亚洲一区无码在线| 久久天天躁狠狠躁夜夜躁| 大陆国产精品视频| 国产一区三区二区中文在线| 内射人妻无套中出无码| 97视频精品全国在线观看| 免费无码网站| 国产网站免费| 岛国精品一区免费视频在线观看 | 亚洲 欧美 日韩综合一区| 久久精品欧美一区二区| 亚洲中文无码h在线观看| 香蕉综合在线视频91| 无码精品一区二区久久久| 亚洲综合中文字幕国产精品欧美 | 国产性爱网站| 国产AV无码专区亚洲精品网站| 青青操视频免费观看| 午夜天堂视频| 国产资源免费观看| 波多野结衣二区| 国产精鲁鲁网在线视频| 国产成人高清在线精品| 久久久噜噜噜久久中文字幕色伊伊 | 午夜国产大片免费观看| 亚洲无线视频| 91国内在线视频| 婷婷六月色| 在线观看91精品国产剧情免费| 久久无码高潮喷水| 91国语视频| 婷婷亚洲天堂| 中文字幕日韩欧美| 国产97视频在线| 欧美亚洲一区二区三区导航| 天天摸夜夜操| 一本久道热中字伊人| 91青青在线视频| 午夜无码一区二区三区在线app| 丁香婷婷激情网| 亚洲欧美一区二区三区麻豆| 国产成人精品2021欧美日韩| 国产又爽又黄无遮挡免费观看 | 99re热精品视频国产免费| 亚洲免费毛片| 精品久久久久久久久久久| www.亚洲天堂| 亚洲欧洲综合| 伊人网址在线| 国产青榴视频在线观看网站| 亚洲水蜜桃久久综合网站| 这里只有精品在线播放| 国产精品福利导航| 婷婷六月综合网| 一区二区三区精品视频在线观看| 狠狠ⅴ日韩v欧美v天堂|