999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語言學(xué)資源的漢- 英機器翻譯

2021-03-06 05:55:58張春祥馮禹瑄賈永剛王淇楨
關(guān)鍵詞:英語詞匯詞匯英語

金 鵬 張春祥 馮禹瑄 賈永剛 王淇楨

(哈爾濱理工大學(xué) 軟件與微電子學(xué)院,黑龍江 哈爾濱150080)

1 概述

在機器翻譯系統(tǒng)中翻譯知識是重要的知識源,能夠完成源語言到目標語言的轉(zhuǎn)換任務(wù)。目前,從語料庫中學(xué)習(xí)翻譯知識已經(jīng)占到了主流地位。基于語料庫的機器翻譯可以分為兩種形式:基于統(tǒng)計的翻譯系統(tǒng)和基于實例的翻譯系統(tǒng)。

1.1 統(tǒng)計機器翻譯(Statistical Machine Translation,SMT),又稱數(shù)據(jù)驅(qū)動的翻譯,是一種采用統(tǒng)計學(xué)習(xí)技術(shù)來獲取知識的方法。這種方法將翻譯知識表示為模型參數(shù),利用雙語語料來優(yōu)化模型參數(shù)。統(tǒng)計機器翻譯主要包括基于信源信道模型的統(tǒng)計翻譯、基于平行概率語法的統(tǒng)計翻譯和基于最大熵的統(tǒng)計翻譯[1]。

1.2 基于實例的機器翻譯(Example-Based Machine Translation,EBMT),其基本原理是:把雙語語料看作翻譯知識庫,通過實例的查詢和相似度計算來實現(xiàn)知識的查找和匹配。類比源語言與翻譯實例,通過組合相近的實例片斷來生成目標語譯文。實例的查詢和相似度計算本身就是一個知識獲取的過程。這種方法不通過深層次的分析,僅使用已有的經(jīng)驗知識,通過類比原理來進行翻譯[2]。

本文對漢英雙語語料進行詞匯對齊,根據(jù)詞鏈從中抽取漢英對譯片斷對。同時,給出了基于對譯片斷對的機器翻譯框架,對輸入的漢語句子進行翻譯轉(zhuǎn)換。

2 漢- 英對譯片斷對獲取

對譯片斷對也就是人們常說的翻譯等價對。翻譯等價對獲取不但是機器翻譯課題中的一個重要環(huán)節(jié),而且也是自然語言處理中亟待解決的問題。在處理像漢- 英這樣具有異構(gòu)語法體系的語言對時,現(xiàn)行的對譯片斷對抽取方法會遇到很多問題。對以下漢- 英雙語句對,其對譯片斷對的抽取過程如下所示:

漢語句子:這是收據(jù)和零錢

英語句子:Here is the receipt and your change

詞匯對齊結(jié)果如圖1 所示:

圖1 漢英句對的詞匯對齊結(jié)果

對譯片斷對:這是<->Here is 收據(jù)<->the receipt和<->and 零錢<->your change

在實際應(yīng)用中,對譯片斷對是很復(fù)雜的。片斷既可以是符合語法的,也可以是不符合語法的。無論是哪一種情況,對于機器翻譯系統(tǒng)而言都是有意義的,都應(yīng)該搜集起來作為翻譯知識。對以上的例子而言,對譯片斷對也可以包括以下形式:是收據(jù) 和<->is the receipt and、和 零錢<->your change and。

因此,對譯片斷對獲取的原則為:

(1)直接由詞匯對齊結(jié)果得到的對譯片斷對稱為原子對譯片斷對。

(2)如果漢語句子的片斷中被對齊的所有詞匯經(jīng)過詞匯對齊映射到英語句子的片斷中,并且英語句子的片斷中被對齊的所有詞匯經(jīng)過詞匯對齊映射到漢語句子的片斷中,那么漢語句子的片斷與英語句子的片斷稱為對齊閉包。

(3)在一個對齊閉包中,如果邊界詞匯也被對齊,那么認為由對齊邊界詞匯從對齊閉包中所劃分出來的片斷也是對齊的。

(4)如果一個對齊閉包,不能由連續(xù)的子片斷對順序組合得到,那么該封閉片斷對稱為封閉對譯片斷對。

從漢英雙語句對中抽取對譯片斷對的過程如圖2 所示。

圖2 基于詞匯對齊的對譯片斷對獲取

3 基于對譯片斷對的機器翻譯框架

本文給出了一個基于對譯片斷對的機器翻譯框架,如圖3所示。

圖3 基于對譯片斷對的機器翻譯框架

以對譯片斷對庫為基礎(chǔ)對輸入的漢語句子進行分割,找到與漢語片斷最相近的對譯片斷對。對輸入的漢語句子,有多種片斷劃分方案。每一個漢語片斷可能有多個英語譯文。對于每種片斷劃分方案而言,其英語譯文組合形成了一條譯文路徑。因此,每個漢語句子有多個不同的候選英語譯文。

從多個候選英語譯文中選擇一個與輸入的漢語句子語義最相似的英語譯文是提高機器譯文輸出質(zhì)量的關(guān)鍵因素。

本文將根據(jù)輸入的漢語句子與候選英語譯文之間的相似度來進行譯文選擇。在計算相似度時,主要采用以下三種策略:

(1)累積漢- 英詞對之間的翻譯概率來計算片斷對的譯文相似度。

翻譯概率可以度量出漢語詞匯與英語詞匯之間的互譯程度,能夠從某種角度反映出漢語詞匯與英語詞匯之間的語義對等關(guān)系。在大規(guī)模漢英雙語句對中,通過統(tǒng)計漢英詞對共現(xiàn)的頻率可以計算出漢語詞匯與英語詞匯之間的翻譯概率。以此為基礎(chǔ),可以形成漢英詞匯翻譯概率表。在輸入的漢語句子與英語譯文之間,計算出每個漢語單詞c 與每個英語單詞e 之間的翻譯概率P(c,e)。

累積對譯片斷對中漢- 英詞匯之間的翻譯概率來計算對譯片斷對的可信度。對于漢語片斷CSeg=c1,c2,…,cm與英語片斷ESeg=e1,e2,…,en,對譯片斷對可信度PT(CSeg,ESeg)的計算過程如公式(1)所示。

(2)利用對譯片斷對中對齊詞匯個數(shù)評價譯文質(zhì)量。

詞匯對齊是度量漢英詞匯互譯的重要手段。在經(jīng)過詞匯對齊工具處理之后,若漢英詞匯之間存在詞鏈,則該漢英詞匯的互譯程度較高。反之,則認為該漢英詞匯的互譯程度較低,或者是語義上是不等價的。在對譯片斷對中,若對齊詞鏈密度越大,則認為該對譯片斷對互譯的質(zhì)量也越高。在譯文路徑選擇過程中,計算每一條譯文路徑的詞鏈個數(shù),優(yōu)先選擇對齊詞鏈密度最高的路徑。

對于漢語片斷CSeg=c1,c2,…,cm與英語片斷ESeg=e1,e2,…,en,若對齊詞鏈數(shù)為L,則對齊詞鏈密度Den(CSeg,ESeg)的計算過程如公式(2)所示。

(3)譯文片斷的最小覆蓋數(shù)。

若輸入的漢語句子劃分片斷的數(shù)量過多的話,則其英語譯文將從多個對譯片斷對中獲取。若漢語句子的英語譯文來自一個漢英句對的話,則其譯文質(zhì)量最高,最接近于人工譯文。若輸入的漢語句子的英語譯文來自多個漢- 英對譯片斷對,則其譯文質(zhì)量較差。

4 實驗

本文使用Visual C++開發(fā)了基于語言學(xué)資源的漢- 英機器翻譯工具,如圖4 所示。

圖4 漢英機器翻譯工具

搜集了60000 漢- 英雙語句對,使用哈爾濱工業(yè)大學(xué)的漢語分詞工具對其中的漢語句子進行詞匯切分,利用哈爾濱工業(yè)大學(xué)的英語詞形還原工具對其中的英語詞匯進行詞形還原。使用哈爾濱工業(yè)大學(xué)的漢- 英詞匯對齊工具對雙語句對進行詞匯對齊。利用本文所提出的方法從中提取漢- 英對譯片斷對,搜集所提取的漢- 英對譯片斷對形成對譯片斷對庫。搜集了50句漢語句子,用于測試機器翻譯工具的譯文輸出質(zhì)量。人工給出這50 句漢語句子的英語譯文答案。分別使用Bleu 和Nist 評價方法對機器譯文進行評分,其結(jié)果如表1 所示。

表1 測試句子的機器譯文評測分數(shù)

5 結(jié)論

本文在分析了現(xiàn)有機器翻譯技術(shù)的基礎(chǔ)上,提出了一種基于語言學(xué)資源的翻譯知識獲取與譯文選擇方法。對漢- 英平行雙語語料進行詞匯對齊,根據(jù)詞鏈抽取漢- 英對譯片斷對并建立翻譯知識庫。以對譯片斷對為基礎(chǔ),建立機器翻譯模型,對輸入的漢語句子進行翻譯。實驗結(jié)果表明:機器譯文的Nist5 評測分數(shù)達到了5.4188,Bleu5 評測分數(shù)達到了0.4400。

猜你喜歡
英語詞匯詞匯英語
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
本刊可直接用縮寫的常用詞匯
高中英語詞匯學(xué)習(xí)之我見
讀英語
擴大英語詞匯量的實踐
散文百家(2014年11期)2014-08-21 07:16:56
酷酷英語林
本刊一些常用詞匯可直接用縮寫
網(wǎng)聊英語詞匯集錦
八年級英語詞匯練習(xí)50題
主站蜘蛛池模板: 国产精品尤物铁牛tv| 人妻无码中文字幕一区二区三区| 欧美综合一区二区三区| 久久人妻系列无码一区| 国产无码网站在线观看| 亚洲成人在线免费| 黄色网在线免费观看| 重口调教一区二区视频| 在线播放真实国产乱子伦| 亚洲AV无码不卡无码| 国产综合另类小说色区色噜噜 | 最新日韩AV网址在线观看| 国产成人av一区二区三区| AV老司机AV天堂| 亚洲码在线中文在线观看| 国产成人亚洲无码淙合青草| 日本少妇又色又爽又高潮| 中文字幕在线视频免费| 亚洲码一区二区三区| 精品国产免费观看一区| 国产成人精品在线| 天天色综网| 久久婷婷人人澡人人爱91| 国产91丝袜在线播放动漫| 大学生久久香蕉国产线观看| 2020亚洲精品无码| 日本不卡在线播放| 久久人妻xunleige无码| 亚洲九九视频| 亚洲男人的天堂久久香蕉网| 黄色网在线免费观看| 国产精品真实对白精彩久久 | 色婷婷亚洲综合五月| 成人福利在线免费观看| 四虎国产精品永久一区| 福利国产微拍广场一区视频在线| 国产打屁股免费区网站| 免费可以看的无遮挡av无码| 秋霞一区二区三区| 亚洲欧美精品日韩欧美| 毛片一级在线| 丝袜亚洲综合| 亚洲高清国产拍精品26u| 91福利免费| 三上悠亚精品二区在线观看| 精品无码国产一区二区三区AV| 露脸真实国语乱在线观看| 韩国福利一区| 亚洲无码高清一区| 成人国产免费| 国产成人亚洲无吗淙合青草| 欧美不卡视频在线观看| 亚洲精品国产成人7777| 国产女人在线| 日本91视频| 99一级毛片| 欧美精品1区| 亚洲日韩图片专区第1页| 亚洲天堂啪啪| 经典三级久久| 国产成人综合欧美精品久久| 久久无码免费束人妻| 九九久久精品免费观看| 粗大猛烈进出高潮视频无码| 成人精品亚洲| 99久久精彩视频| 成人国产精品网站在线看| 国产三级国产精品国产普男人| 无码电影在线观看| 国产精品专区第一页在线观看| 欧美影院久久| 国产一级毛片在线| 久久综合国产乱子免费| 国产丝袜啪啪| 国产91蝌蚪窝| 久久99热这里只有精品免费看| 国产精品爽爽va在线无码观看| 久久99热这里只有精品免费看| 人妻一区二区三区无码精品一区 | 亚洲中文无码av永久伊人| 亚洲性一区| JIZZ亚洲国产|