999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

統計機器翻譯中短語切分的新方法

2017-03-16 03:40:48史紅梅張艷君
電子測試 2017年2期
關鍵詞:方法模型

劉 林,史紅梅,張艷君

(山東農業工程學院,山東濟南,250100)

統計機器翻譯中短語切分的新方法

劉 林,史紅梅,張艷君

(山東農業工程學院,山東濟南,250100)

本文提出了一種新的短語切分方法,通過該方法可以將句子的短語切分進行概率化處理:首先把漢語語料庫中次數>2次的詞語串全部都識別出來,作為漢語短語,然后通過最短路徑方式實現短語切分,同時應用Viterbi算法對短語出現頻率進行迭代統計。

統計機器;機器翻譯;短語切分;新方法

0 引言

二十世紀九十年代初期,國外科學家就根據信源信道思想提出了統計機器翻譯模型,而自此之后,人們又很快在基于統計方法的機器翻譯研究方面具有了巨大的進步。現如今,主流的統計機器翻譯方法仍然是基于短語的統計機器翻譯,因為該方法可以較好地處理短距離依賴和一些常用搭配問題。通常情況下,基于短語的方法的原理是將任意連續字符串均看作短語,自動在雙語語料庫中學習雙語短語,然后進行以短語為單位的翻譯。有科學家提出了對齊模板方法,即通過將單詞映射到詞類中對句子級和短語級進行兩級對齊;另外還有學者提出了層次短語模型,即允許一個同步上下文無關文短語內均具備子短語。目前,眾多科學家和學者仍舊在努力研究基于短語的新方法。

1 短語切分方法

基于短語的統計機器翻譯系統的最小翻譯單位就是短語,也即是說,將句子拆分成若干個短于,由每個短語的翻譯而組成句子的翻譯。漢語與英語的不同點在于其最小單位是字,詞語是由字組成的,短語則是由詞語組成的,而所謂的“短語切分”與漢語的切詞類似,實際上就是在詞語切分的基礎上把句子切分成短語。故此,在短語切分之時可以借鑒漢語詞語的切分研究方法進行研究。這里采用了N-最短路徑法:根據短語庫對已經分詞的句子中全部可能的短語構造有向無環圖,得出N條最優的路徑。不過,其中需要解決兩項問題:一者是如何得到短語庫;二者是如何確定有向無環圖的路徑長度。

1.1短語查找

由于短語比之詞語來說更加難以界定,不同人對短語的理解不同,因此很難像漢語切詞一般通過人工來做短語庫。對此,可以利用該方法中將任意連續的字符串看作短語的特點,自動于漢語單語語料庫中抽取短語庫。具體來說,這個短語查找的流程為:首先切分漢語語料庫中的詞語,詳細記錄每個詞語出現的位置,并將其存儲在WordMap中;然后找出表中每個詞語所在文件中的對應位置,并據此向后搜索若干個詞得到及保存詞串,將相應計數加1;最后其中出現次數>2的重復詞串即為短語庫。在這過程中,若其中一個短語是另外一個短語的子串,且兩者的出現次數相同,那么則保留長的那個。

1.2短語概率計算

短語概率指的就是有向無環圖的路徑長度,其可通過概率論的相關知識進行計算,具體的公式為:

公式中,c指的是漢語短語,N(c)指的是漢語短語在語料庫中出現的次數。

不過,僅通過這種概率估計方式所得到的結果是不夠準確的,而本文所提出的這種新的短語切分方法應用了Viterbi算法對短語出現頻率進行迭代統計,進而對短語的一元語言模型概率進行估計,所得到的結果更加準確。Viterbi算法的流程為:首先隨機指定模型參數,然后計算出各訓練樣本的最大概率值,之后對概率進行重新統計、對模型參數進行更新,最后經多次迭代后得出逼近真實值的概率分布。

2 翻譯模型與解碼

統計機器翻譯的核心就是翻譯模型與解碼,其中翻譯模型的主要作用是反映對機器翻譯過程的認識,解碼的作用是搜索出最終譯文。

2.1翻譯模型

本文所提出的這種新的短語切分方法應用了Log-linear直接翻譯模型,具體的公式為:

而在全部可能的翻譯中,再選擇概率最大的一個作為最終翻譯:

2.2解碼

對于一個漢語句子來說,首先需要通過上述方法對其進行短語切分,取其中一個或以上最佳切分進行翻譯。然后需要通過柱式搜索方法對每個切分結果進行單調解碼,即按照從左至右的順序對每個短語片段進行翻譯,而不用調整順序。為了加快搜索速度及節省內存,解碼器可以只讀進每個漢語短語中若干個最好的翻譯,并限制搜索中每個棧的大小為m。Log-linear直接翻譯模型采用的是最小錯誤率訓練算法。

3 實驗

筆者在相關測試集上對該方法進行了實驗。本次實驗所采用的是2005年863評測所提供的訓練集,其中大約有英語詞和漢語詞各10M。通過SRI語言模型工具,利用該短語切分方法,對3-gram英語語言模型進行了訓練。

3.1翻譯模型訓練

首先通過GIZA++[12],進行了漢語→英語和英語→漢語兩個方向的訓練,獲得了詞語對齊,然后通過grow-diag-final[2]進行了優化對齊,最后抽取短語,得到了翻譯概率表。

3.2短語切分方法

作為基線系統,短語切分應用另一種方法:首先抽取語料庫中的漢語短語作為短語庫,以為短語切分的路徑長度,然后通過最短路徑方法進行短語切分。為了在搜索過程中取得翻譯質量和翻譯效率的平衡,每個句子宜取二十個最佳短語切分進行翻譯。

3.3實驗結果

本實驗結果詳見表1。

表1 實驗結果

3.4問題分析

從結果中可以看出,相對于基線系統而言,該系統中通過使用短語切分模型能夠提高其翻譯質量,一般可提高0.5左右個百分點。不過,對于對話卻會起到副作用,主要是由于:①該短語切分模型在訓練中是單獨使用的漢語語料,所以比較傾向于較短的短語,導致將本來就較短的句子切得更碎,降低了系統性能,而在雙語短語庫中長短語和短短語是俱存的;②疑問句在對話語料中所占的比重過大,而疑問句往往需要進行詞序調整,但該系統是順序解碼,所以在這方面的表現較差;③對話語料在訓練語料中約占了25%,這對于漢語的短語切分模型訓練而言相對較少,所以影響了其作用;④篇章中的句子大多較長,并且新聞語料較多,其詞序變化不是很強烈,所以通過短語切分模型能夠有效切分出常見短語。

4 結語

本文提出了一種新的短語切分方法,并在相關測試集上得出了實驗結果:對話0.2232、篇章0.1766。實驗表明:對于篇章等長句子,通過使用短語切分模型能夠提高其翻譯質量,一般可提高0.5左右個百分點。

[1]何中軍,劉群,林守勛. 統計機器翻譯中短語切分的新方法[J].中文信息學報,2007,01:85-89.

[2]薛永增,李生,趙鐵軍,楊沐昀. 短語統計機器翻譯的句法調序模型[J]. 通信學報,2008,01:7-14.

劉林, 1981年11月出生,性別男,民族漢,籍貫山東德州,學歷大學本科,職稱講師,研究方向軟件理論、機器學習。

A new method of phrase segmentation in statistical machine translation

Liu Lin,Shi Hongmei,Zhang Yanjun
(shandong agricultural engineering institute, jinan, shandong province, 250100)

this paper presents a new phrase segmentation method, the method can be sentence the phrase segmentation of randomization process: first of all, the number of Chinese corpora > two words list all identified, as Chinese phrases, then realize the shortest path phrase segmentation, at the same time using Viterbi algorithm to iterate phrases frequency statistics.

statistical machine; Machine translation; The phrase segmentation; The new method

項目:山東省高等學校科技計劃項目--基于最大熵翻譯模型的統計機器翻譯系統的設計與實現(J13LN59)

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 丁香婷婷综合激情| 麻豆精品在线| 2020极品精品国产| 免费不卡在线观看av| 亚亚洲乱码一二三四区| 香港一级毛片免费看| 日韩无码视频专区| 国产日韩欧美一区二区三区在线| 青青草原国产免费av观看| 久久精品丝袜高跟鞋| 91亚洲精品国产自在现线| 99久久性生片| 亚洲国产午夜精华无码福利| 精品人妻一区无码视频| 在线视频一区二区三区不卡| 国产精品网曝门免费视频| 91成人免费观看| 一级成人a做片免费| 国产精品乱偷免费视频| 在线国产91| 波多野结衣无码中文字幕在线观看一区二区| 欧美激情视频在线观看一区| 亚洲精品天堂在线观看| 国产精品女同一区三区五区| 色哟哟精品无码网站在线播放视频| 久久精品中文无码资源站| 久久精品亚洲专区| 97无码免费人妻超级碰碰碰| 亚洲成人免费看| 91日本在线观看亚洲精品| 久草中文网| jizz国产视频| 国产白浆在线| 亚洲一区色| 在线五月婷婷| 亚洲天堂伊人| 成人av专区精品无码国产| 亚洲va欧美ⅴa国产va影院| 久视频免费精品6| 中文天堂在线视频| 欧美精品xx| 欧美激情视频一区| 国产嫩草在线观看| 欧美综合在线观看| 成人一区专区在线观看| 亚洲日韩每日更新| 国产成人h在线观看网站站| 欧美一道本| 久久96热在精品国产高清| 免费观看欧美性一级| 青青操国产| 国产99精品久久| 久久亚洲AⅤ无码精品午夜麻豆| 亚洲中文字幕在线观看| 亚洲精品国产乱码不卡| 成年午夜精品久久精品| 四虎国产精品永久一区| 亚洲AⅤ无码国产精品| 视频一区视频二区中文精品| 毛片久久网站小视频| 国产一二三区视频| 精品久久国产综合精麻豆| 国产在线观看精品| 亚洲综合专区| 97影院午夜在线观看视频| 亚洲一区国色天香| 国产精品欧美亚洲韩国日本不卡| 国产美女精品人人做人人爽| 毛片网站观看| 中文字幕在线免费看| 成人在线天堂| 国产肉感大码AV无码| 久久国产乱子| 免费激情网址| 国产在线高清一级毛片| 久久黄色免费电影| 欧洲日本亚洲中文字幕| 青青草原国产免费av观看| 日韩精品专区免费无码aⅴ| 片在线无码观看| 国内丰满少妇猛烈精品播| 欧美日韩精品在线播放|