999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

統計機器翻譯中短語切分的新方法

2017-03-16 03:40:48史紅梅張艷君
電子測試 2017年2期
關鍵詞:方法模型

劉 林,史紅梅,張艷君

(山東農業工程學院,山東濟南,250100)

統計機器翻譯中短語切分的新方法

劉 林,史紅梅,張艷君

(山東農業工程學院,山東濟南,250100)

本文提出了一種新的短語切分方法,通過該方法可以將句子的短語切分進行概率化處理:首先把漢語語料庫中次數>2次的詞語串全部都識別出來,作為漢語短語,然后通過最短路徑方式實現短語切分,同時應用Viterbi算法對短語出現頻率進行迭代統計。

統計機器;機器翻譯;短語切分;新方法

0 引言

二十世紀九十年代初期,國外科學家就根據信源信道思想提出了統計機器翻譯模型,而自此之后,人們又很快在基于統計方法的機器翻譯研究方面具有了巨大的進步。現如今,主流的統計機器翻譯方法仍然是基于短語的統計機器翻譯,因為該方法可以較好地處理短距離依賴和一些常用搭配問題。通常情況下,基于短語的方法的原理是將任意連續字符串均看作短語,自動在雙語語料庫中學習雙語短語,然后進行以短語為單位的翻譯。有科學家提出了對齊模板方法,即通過將單詞映射到詞類中對句子級和短語級進行兩級對齊;另外還有學者提出了層次短語模型,即允許一個同步上下文無關文短語內均具備子短語。目前,眾多科學家和學者仍舊在努力研究基于短語的新方法。

1 短語切分方法

基于短語的統計機器翻譯系統的最小翻譯單位就是短語,也即是說,將句子拆分成若干個短于,由每個短語的翻譯而組成句子的翻譯。漢語與英語的不同點在于其最小單位是字,詞語是由字組成的,短語則是由詞語組成的,而所謂的“短語切分”與漢語的切詞類似,實際上就是在詞語切分的基礎上把句子切分成短語。故此,在短語切分之時可以借鑒漢語詞語的切分研究方法進行研究。這里采用了N-最短路徑法:根據短語庫對已經分詞的句子中全部可能的短語構造有向無環圖,得出N條最優的路徑。不過,其中需要解決兩項問題:一者是如何得到短語庫;二者是如何確定有向無環圖的路徑長度。

1.1短語查找

由于短語比之詞語來說更加難以界定,不同人對短語的理解不同,因此很難像漢語切詞一般通過人工來做短語庫。對此,可以利用該方法中將任意連續的字符串看作短語的特點,自動于漢語單語語料庫中抽取短語庫。具體來說,這個短語查找的流程為:首先切分漢語語料庫中的詞語,詳細記錄每個詞語出現的位置,并將其存儲在WordMap中;然后找出表中每個詞語所在文件中的對應位置,并據此向后搜索若干個詞得到及保存詞串,將相應計數加1;最后其中出現次數>2的重復詞串即為短語庫。在這過程中,若其中一個短語是另外一個短語的子串,且兩者的出現次數相同,那么則保留長的那個。

1.2短語概率計算

短語概率指的就是有向無環圖的路徑長度,其可通過概率論的相關知識進行計算,具體的公式為:

公式中,c指的是漢語短語,N(c)指的是漢語短語在語料庫中出現的次數。

不過,僅通過這種概率估計方式所得到的結果是不夠準確的,而本文所提出的這種新的短語切分方法應用了Viterbi算法對短語出現頻率進行迭代統計,進而對短語的一元語言模型概率進行估計,所得到的結果更加準確。Viterbi算法的流程為:首先隨機指定模型參數,然后計算出各訓練樣本的最大概率值,之后對概率進行重新統計、對模型參數進行更新,最后經多次迭代后得出逼近真實值的概率分布。

2 翻譯模型與解碼

統計機器翻譯的核心就是翻譯模型與解碼,其中翻譯模型的主要作用是反映對機器翻譯過程的認識,解碼的作用是搜索出最終譯文。

2.1翻譯模型

本文所提出的這種新的短語切分方法應用了Log-linear直接翻譯模型,具體的公式為:

而在全部可能的翻譯中,再選擇概率最大的一個作為最終翻譯:

2.2解碼

對于一個漢語句子來說,首先需要通過上述方法對其進行短語切分,取其中一個或以上最佳切分進行翻譯。然后需要通過柱式搜索方法對每個切分結果進行單調解碼,即按照從左至右的順序對每個短語片段進行翻譯,而不用調整順序。為了加快搜索速度及節省內存,解碼器可以只讀進每個漢語短語中若干個最好的翻譯,并限制搜索中每個棧的大小為m。Log-linear直接翻譯模型采用的是最小錯誤率訓練算法。

3 實驗

筆者在相關測試集上對該方法進行了實驗。本次實驗所采用的是2005年863評測所提供的訓練集,其中大約有英語詞和漢語詞各10M。通過SRI語言模型工具,利用該短語切分方法,對3-gram英語語言模型進行了訓練。

3.1翻譯模型訓練

首先通過GIZA++[12],進行了漢語→英語和英語→漢語兩個方向的訓練,獲得了詞語對齊,然后通過grow-diag-final[2]進行了優化對齊,最后抽取短語,得到了翻譯概率表。

3.2短語切分方法

作為基線系統,短語切分應用另一種方法:首先抽取語料庫中的漢語短語作為短語庫,以為短語切分的路徑長度,然后通過最短路徑方法進行短語切分。為了在搜索過程中取得翻譯質量和翻譯效率的平衡,每個句子宜取二十個最佳短語切分進行翻譯。

3.3實驗結果

本實驗結果詳見表1。

表1 實驗結果

3.4問題分析

從結果中可以看出,相對于基線系統而言,該系統中通過使用短語切分模型能夠提高其翻譯質量,一般可提高0.5左右個百分點。不過,對于對話卻會起到副作用,主要是由于:①該短語切分模型在訓練中是單獨使用的漢語語料,所以比較傾向于較短的短語,導致將本來就較短的句子切得更碎,降低了系統性能,而在雙語短語庫中長短語和短短語是俱存的;②疑問句在對話語料中所占的比重過大,而疑問句往往需要進行詞序調整,但該系統是順序解碼,所以在這方面的表現較差;③對話語料在訓練語料中約占了25%,這對于漢語的短語切分模型訓練而言相對較少,所以影響了其作用;④篇章中的句子大多較長,并且新聞語料較多,其詞序變化不是很強烈,所以通過短語切分模型能夠有效切分出常見短語。

4 結語

本文提出了一種新的短語切分方法,并在相關測試集上得出了實驗結果:對話0.2232、篇章0.1766。實驗表明:對于篇章等長句子,通過使用短語切分模型能夠提高其翻譯質量,一般可提高0.5左右個百分點。

[1]何中軍,劉群,林守勛. 統計機器翻譯中短語切分的新方法[J].中文信息學報,2007,01:85-89.

[2]薛永增,李生,趙鐵軍,楊沐昀. 短語統計機器翻譯的句法調序模型[J]. 通信學報,2008,01:7-14.

劉林, 1981年11月出生,性別男,民族漢,籍貫山東德州,學歷大學本科,職稱講師,研究方向軟件理論、機器學習。

A new method of phrase segmentation in statistical machine translation

Liu Lin,Shi Hongmei,Zhang Yanjun
(shandong agricultural engineering institute, jinan, shandong province, 250100)

this paper presents a new phrase segmentation method, the method can be sentence the phrase segmentation of randomization process: first of all, the number of Chinese corpora > two words list all identified, as Chinese phrases, then realize the shortest path phrase segmentation, at the same time using Viterbi algorithm to iterate phrases frequency statistics.

statistical machine; Machine translation; The phrase segmentation; The new method

項目:山東省高等學校科技計劃項目--基于最大熵翻譯模型的統計機器翻譯系統的設計與實現(J13LN59)

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 99爱在线| av一区二区无码在线| 精品色综合| 欧美国产成人在线| 九九精品在线观看| 最近最新中文字幕在线第一页| 亚洲视频无码| 国产鲁鲁视频在线观看| WWW丫丫国产成人精品| 91青青草视频在线观看的| 视频国产精品丝袜第一页| 欧美色伊人| 国产一区二区丝袜高跟鞋| 亚洲床戏一区| 欧美日韩国产在线观看一区二区三区| 精品久久久久久中文字幕女| 国产三级毛片| 中文字幕色站| 韩日免费小视频| 亚洲AⅤ永久无码精品毛片| 国产精品美女免费视频大全| 成人亚洲视频| 丝袜亚洲综合| 美女一级毛片无遮挡内谢| 欧洲日本亚洲中文字幕| 国产av一码二码三码无码| 久久国语对白| 都市激情亚洲综合久久| 亚洲女同一区二区| 国产色婷婷| 成年人午夜免费视频| 亚洲精品成人福利在线电影| 伊人久久久大香线蕉综合直播| www.99在线观看| 日韩国产亚洲一区二区在线观看| AV片亚洲国产男人的天堂| 日韩国产亚洲一区二区在线观看| 无码AV高清毛片中国一级毛片| 一级不卡毛片| 另类专区亚洲| 国产亚洲精久久久久久无码AV| 色噜噜综合网| 91久久偷偷做嫩草影院精品| 亚洲男人的天堂久久香蕉| 亚洲国产欧美国产综合久久| 91免费片| 国产精品夜夜嗨视频免费视频| 久996视频精品免费观看| 亚洲国产成人精品青青草原| 欧美成人精品在线| 欧美69视频在线| 国产尹人香蕉综合在线电影| 成人国产一区二区三区| 日韩a级毛片| 国产香蕉在线视频| 国产中文一区二区苍井空| 欧美激情成人网| 毛片网站在线看| 亚洲精品桃花岛av在线| 中文字幕欧美日韩| 国产麻豆永久视频| 99一级毛片| 天天视频在线91频| 欧美劲爆第一页| 国产视频自拍一区| 激情无码视频在线看| 久久美女精品国产精品亚洲| 国产一级二级三级毛片| 成人免费午间影院在线观看| 国产高清国内精品福利| 国产不卡网| 亚洲一区二区三区麻豆| 精品一区二区无码av| 日本色综合网| 欧美区一区二区三| 国产微拍精品| 国产精品亚洲а∨天堂免下载| 一级毛片在线免费视频| 老司机午夜精品视频你懂的| 无码专区国产精品第一页| 免费人成视网站在线不卡| 国产精品久久久久婷婷五月|