999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語義關系下英語復雜長句機器翻譯算法優(yōu)化

2020-12-29 09:21:06王紅利
機械設計與制造工程 2020年12期
關鍵詞:語義英語

王紅利

(陜西警官職業(yè)學院,陜西 西安 710021)

英語長句由于句式結(jié)構復雜,與漢語句式差異大,已成為機器翻譯系統(tǒng)研究開發(fā)時的主要難題[1]。目前,關于英語復雜長句機器翻譯算法有基于句法分析、多策略分析和語料庫翻譯等,主要側(cè)重于詞義排查、語義特征的處理等[2-4],但這些機器翻譯算法翻譯準確率偏低,且回收率較高,翻譯結(jié)果可靠性差。英語復雜長、難句盡管句式復雜,但句內(nèi)各語義層次相互關聯(lián),通過把握復雜長句內(nèi)語義層次關系,掌握原句內(nèi)部各層意思,從理論上講,能夠極大提高英語復雜長句機器翻譯的準確率和可靠性。基于此,本文基于語義關系,優(yōu)化英語復雜長句機器翻譯算法,并對優(yōu)化結(jié)果進行分析。

1 基于語義關系的英語復雜長句機器翻譯算法

1.1 機器翻譯算法

英語復雜長句在科技英語中非常普遍,有的甚至長達數(shù)十行,包括上百個單詞,蘊含很多個從句和非謂語動詞,這些從句和短語之間相互依存,具有非常鮮明的語義層次關系。因此在傳統(tǒng)切分英語長句的基礎上,分析各分句之間的層次關系,利用語義關系進行模型訓練,構建語義網(wǎng)絡模型進行機器翻譯,是科學的且是容易實現(xiàn)的。基于語義關系的英語復雜長句機器翻譯算法流程如圖1所示。

圖1中的機器翻譯算法添加了語義關系部分,通過各層次語義關系訓練語料庫,可以有效避免翻譯斷層造成的翻譯錯誤。基于語義關系的機器翻譯模型的翻譯結(jié)果更加精確,翻譯速度更加快速。該算法利用余弦相似度[5]獲得兩向量的語義相似關系,通過帶權向量加法[6]計算兩個相似向量的區(qū)別,獲得精準翻譯結(jié)果,通過權重方式訓練句子,獲得關鍵短語。

圖1 基于語義關系的英語復雜長句機器翻譯算法

英語復雜長句的切分簡化處理方法為:輸入原文句子,逐個掃描其各短語和分句,并通過該短語的基本語義,在實義語料庫檢索長句切分處理結(jié)果。由于長句的分句之間是通過關聯(lián)特征詞連接的,因此以句子的特征點為分界線,將句子分成前后兩部分,分別進行翻譯,再采用斷句拼合的方法,給出整句的翻譯結(jié)果。而對于句子中的修飾成分、特征關聯(lián)詞和特征標志詞等,首先提取出來,并進行優(yōu)先歸約分析處理。

1.2 余弦相似度模型

余弦相似度模型是目前常用的衡量兩短語詞義差異的重要模型,其基于多維空間,通過兩向量夾角的余弦值來表示兩向量之間的差異。若兩短語之間的余弦值越大,表明兩語義向量夾角越小,兩短語的詞義越接近;相反,如果兩短語之間的余弦值越小,則兩短語的語義差異就越大。設相同語料庫中兩個短語為多維語義向量u,v,假定u=[a1,a2,…,an],v=[b1,b2,…,bn],n為向量的維數(shù),則兩短語之間的英語翻譯相似度Sim(u,v)采用公式(1)進行計算。

(1)

1.3 帶權向量加法

相同語料庫中的單詞可以通過多維語義向量合成語義向量p,具體合成方法如下:

p=u+v=[a1+b1,a2+b2,…,an+bn]

(2)

具體應用分析:短語“復雜長句”語義向量設置為6維向量u=[2,3,8,6,3,1] ,短語“機器翻譯”的語義向量設置為6維向量v=[1,2,3,4,5,6],合成的語義向量“復雜長句機器翻譯”的語義向量p=[3,5,11,10,8,7]。

直接利用向量合成會造成語義誤差,導致翻譯錯誤,為有效解決此問題,本文提出帶權向量加法進行修正,具體如下:

p=αu+βv

(3)

式中:α為“英語長句”的權重,α=0.6;β為“機器翻譯”的權重,β=0.4。則“英語長句機器翻譯”的語義向量p=[2.4,3.2,4.8,6.4,6.2,3.0]。

如果把“英語長句機器翻譯”當做新短語,并對“英語長句”、“機器翻譯”進行新權重訓練,設置新的權重α=0.7,β=0.3,可獲得“英語長句機器翻譯”新的語義向量為p=[1.7,1.4,5.1,6.8,6.3,2.5]。對比不同權重的兩個語義向量,可以發(fā)現(xiàn)兩個短語存在極大的差別。

英語復雜長句的合成語義向量遵循公式(4):

(4)

式中:ωi為各組合單元的單詞語義向量;λi為各組合單詞短語的權重。

2 實驗分析

為檢測本文翻譯算法的可靠性和實用性,將其與傳統(tǒng)的混合策略翻譯算法[7]進行對比分析,混合策略翻譯算法是目前常用的機器翻譯算法。結(jié)果分析評價量包括測試集BLEU值、翻譯實例對比、切分正確率、回收率以及交叉連接數(shù)。

2.1 實驗數(shù)據(jù)

本文實驗數(shù)據(jù)采用Chinese Treebank 6.0中文樹語料庫,其包含1 067個文件,20 367個句子,包括英文單詞647 523個、漢字963 461個。實驗的開發(fā)集選擇NIST 05,中文句子有1 082句,每句有4個不同的翻譯結(jié)果,即有英文句子4 328個。測試集采用NIST 06和NIST 08,其中,NIST 06有中文1 641句,即英文有6 564句;NIST 08有中文1 027句,即英文有5 428句。

解碼器采用層次短語解碼器C++版本。翻譯的具體步驟為:英漢、漢英兩方向的詞語信息對齊采用GIZA++工具實現(xiàn),主要利用grow-diagfinal-and的啟發(fā)作用[7]實現(xiàn)多對詞語的對齊。翻譯結(jié)果中的詞對齊交叉連接數(shù)越小,表明翻譯結(jié)果準確率越高。英語語言模型獲取方式是利用SRILM工具在Gigaword新華部分獲取。因為MERT的不穩(wěn)定性,本文采用Clark等提出的重復實驗方法,求平均值作為最終的實驗結(jié)果。

2.2 實驗結(jié)果分析

表1為傳統(tǒng)翻譯算法和本文基于語義關系的英語復雜長句機器翻譯算法對不同數(shù)據(jù)集的翻譯評價結(jié)果,評價指標為BLEU值[8]。BLEU值是機器譯文與參考譯文的相似度,相似度越高,翻譯質(zhì)量越好。本文選用NIST 06和NIST 08測試集,獲得其翻譯評價結(jié)果,結(jié)果顯示本文算法的BLEU值比傳統(tǒng)翻譯算法分別增加了0.35和0.23,說明采用本文算法獲得的翻譯結(jié)果準確率更高。顯著性檢驗分析[9]結(jié)果滿足P<0.05。

表1 不同算法BLEU值

對測試集中的語句“If the Olympic Games in the summer of 2008 could be hosted in China, which has one quarter of the world's population, it would help boost the popularization of Olympics among the masses” 進行翻譯,其中 “ it would help boost the popularization of Olympics among the masses”采用了兩種翻譯算法,分別是傳統(tǒng)的混合策略翻譯算法和本文的基于語義關系的英語復雜長句的機器翻譯算法。參考譯文為“如果2008年奧運會能夠在擁有世界人口四分之一的中國舉辦,將極大推動奧林匹克運動的大眾化”,傳統(tǒng)翻譯算法譯文為“如果2008年夏季奧運會能夠在中國舉辦,中國人口占世界人口的四分之一,將有助于推動奧林匹克運動在大眾中的普及”,本文算法的譯文為“如果2008年奧運會能夠在占四分之一世界人口的中國舉行,將激發(fā)推動奧林匹克運動大眾化”。由此可見,采用本文算法得到的譯文與參考譯文一致,表明基于本文算法的英語復雜長句機器翻譯語言準確率更高,翻譯結(jié)果更加可靠。

表2為傳統(tǒng)算法與本文算法的切分正確率、回收率以及交叉連接數(shù)平均值對比表。切分正確率和回收率[10]分別表示英語復雜長句劃分的準確率和具體翻譯時的使用率,這是保證英語長句翻譯準確的基礎,也是重要的衡量指標。對于英語復雜長難句翻譯,切分正確率越高,平均回收率越小,翻譯正確率將越高。

表2 不同算法正確率、回收率及交叉連接數(shù)對比表

由表2可見:本文算法交叉連接數(shù)為16.4,相對于傳統(tǒng)翻譯算法,減少了12.8,表明本文翻譯算法性能更優(yōu)。與傳統(tǒng)算法相比,本文翻譯算法具有更高的翻譯準確率和回收率,因此具有更高的實用性。

3 結(jié)束語

本文基于英語復雜長句各分句(短語)之間的語義關系,提出了一種新的機器翻譯算法,該算法借助語義關系和傳統(tǒng)切分算法,構建翻譯相似度模型的語義網(wǎng)絡模型,再利用余弦相似度和帶權向量加法優(yōu)化計算,獲得翻譯結(jié)果,利用權重訓練獲得關鍵短語。實驗結(jié)果表明:

1)該算法具有更高的翻譯結(jié)果準確率和回收率,既可以實現(xiàn)獨立語義表達,還可以有效排除具有歧義的詞語。

2)該算法具有更低的交叉連接數(shù)平均值和更高的BLEU值,翻譯結(jié)果更加貼近參考譯文。

因此,該翻譯算法具有更好的實用性,應用于英語復雜長句翻譯具有重要的實際意義。

猜你喜歡
語義英語
語言與語義
玩轉(zhuǎn)2017年高考英語中的“熟詞僻義”
“上”與“下”語義的不對稱性及其認知闡釋
讀英語
認知范疇模糊與語義模糊
酷酷英語林
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
修辭的基礎——語義和諧律
當代修辭學(2010年1期)2010-01-23 06:35:10
主站蜘蛛池模板: 国产情侣一区| 99久久精品视香蕉蕉| 香蕉视频在线观看www| 国产经典在线观看一区| 亚洲中文字幕av无码区| 国产91透明丝袜美腿在线| 98超碰在线观看| 污污网站在线观看| 国产成人91精品| 日韩在线视频网| 国产成年女人特黄特色毛片免 | 日韩久草视频| 国产特级毛片aaaaaa| 97se亚洲综合不卡| 国产经典免费播放视频| 国产亚洲欧美另类一区二区| 国产精品久久久久久久久kt| 国产丝袜啪啪| 午夜毛片福利| 一本视频精品中文字幕| 欧美精品亚洲精品日韩专区va| 青青国产成人免费精品视频| 国产一级小视频| 久久久久夜色精品波多野结衣| 亚洲男人的天堂久久香蕉网| 亚洲婷婷丁香| 激情乱人伦| 国产精品欧美在线观看| 无码福利视频| 国产农村妇女精品一二区| 999福利激情视频| 青草视频久久| 亚洲福利一区二区三区| 伊人激情久久综合中文字幕| 欧美日韩在线成人| 国产日韩AV高潮在线| 亚洲全网成人资源在线观看| 亚洲视频一区| 真实国产乱子伦高清| 久久精品午夜视频| www.狠狠| 波多野结衣一区二区三区四区视频| 国产素人在线| 久久网综合| 亚洲swag精品自拍一区| 久久国语对白| 亚洲天堂视频在线免费观看| 色天堂无毒不卡| 国产AV无码专区亚洲A∨毛片| 日韩欧美国产中文| 黄色福利在线| 尤物国产在线| 久久久久88色偷偷| 国产精品亚洲片在线va| 欧美成一级| 国产色爱av资源综合区| 国产99免费视频| 免费观看亚洲人成网站| 亚洲国产清纯| 欧美日韩高清| 99久久婷婷国产综合精| 亚洲第一在线播放| 国产精品不卡片视频免费观看| 亚洲AV无码久久精品色欲| av在线无码浏览| 亚洲欧美不卡| 99久久成人国产精品免费| 久久中文字幕2021精品| 五月婷婷激情四射| 国产高清在线精品一区二区三区| 精品国产污污免费网站| 无码专区第一页| 亚洲色图欧美在线| 精品久久久久成人码免费动漫| 免费激情网址| 手机在线免费不卡一区二| 欧美中文字幕一区| 91探花国产综合在线精品| 国产美女主播一级成人毛片| 国产成人精品18| 国产乱子伦无码精品小说| 国产91特黄特色A级毛片|