999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于領域自適應方法的統計機器翻譯模型的優化研究

2021-03-17 07:41:28楊玲
科學技術創新 2021年5期
關鍵詞:分類方法模型

楊玲

(武警工程大學,陜西 西安710086)

1 概述

把一種語言轉變成另一種我們想要的語言這一過程稱為機器翻譯[1]。其中比較常用的方法有基于記憶的翻譯方法、基于實例的翻譯方法、基于統計的翻譯方法、基于神經網絡的翻譯方法。目前,基于統計的機器翻譯模型被稱為這一領域的主流方法,是由Brown[1]等人提出,該模型可分為翻譯模塊、語言模型訓練模塊、解碼模塊。在進行翻譯模型訓練時需要進行詞對齊,由于統計機器翻譯模型在訓練詞對齊模型時未對訓練集進行分類訓練,會影響系統的翻譯性能。因此,本文提出運用最大熵分類器及領域自適應方法對統計機器翻譯模型進行優化,旨在進一步改善模型的翻譯性能。

2 統計機器翻譯模型的優化策略

傳統統計機器翻譯方法的系統原理是,用已對齊好的大規模平行語料訓練詞對齊模型,然后基于此詞對齊模型建立翻譯模型和語言模型并訓練模型參數。但是訓練模型的平行語料來自不同領域,有些詞在不同領域意思也不用,這會影響模型參數的準確度,基于此建立起的翻譯模型和語言模型精確度也會下降,由此得到的譯文不夠準確。為解決這一問題,我們運用領域自適應方法提高統計機器翻譯模型的翻譯精度,即首先應用最大熵分類器的方法對平行語料進行篩選,這一步保證了訓練詞對齊模型的語料符合標準,從而確保了模型參數的精確度。接下來可以運用LDA 模型對雙語平行語料進行主題提取,并得到每個主題對應的語料。然后對每個主題訓練其相應的詞對齊模型,再訓練每個主題的翻譯模型和語言模型。

語料可以劃分為完全平行句、部分平行句對和完全不平行句對。通過觀察可以發現,高質量平行句一般會呈現很多共性:源語言和目標語言互譯準確、源語言和目標語言都比較流暢,基于此特征可以提出使用句對特征評價平行句對質量,利用分類器進行自動判別句對質量好壞的方法。該過程可分為兩部分,第一部分是挑選用于訓練分類器的正負例句對,首先確定句對特征,依據句對在各個特征上的得分對句對進行排序。綜合各個排序的結果,構造區分性較大的訓練句對集合。將那些在各個特征中表現均不好的句對作為負例句對。余下的句對為待分類句對,需要訓練分類器自動分類。第二部分利用前一部分構造得到的正負例句對集合訓練一個最大熵分類器,通過學習正負例句對的特征,分類器可以自動地對句對進行質量判定。然后使用該分類器對第一部分的待分類句對進行自動分類。在分類器的選擇上,本文采用最大熵模型作為分類器進行分類任務。

圖1 基于分類的平行語料選擇方法流程圖

2.1 基于最大熵分類器的平行語料篩選

統計機器翻譯模型需要用到大規模的雙語平行語料進行訓練,因此語料的質量會影響模型的翻譯性能。所以需要對訓練語料進行篩選,淘汰影響系統翻譯質量的語料,保留質量較好的語料進行訓練,這樣可以從源頭上確保系統翻譯質量。本節利用最大熵模型分類器[2]對待訓練語料進行分類,語料可以分為完全平行句對、部分平行句對、和不平行句對,因此我們的任務是可以從這些大規模的平行語料中找到完全平行句對,用這些來訓練模型。首先,我們需要選擇訓練分類器的正負例句,依據每個句對在句對特征的得分來區分正負例句,將得分高的作為正例句,得分低的作為負例句,通過對正負例句的學習,分類器可以對句對進行質量評定,從而使用訓練好的分類器對語料進行篩選。

篩選流程:篩選語料有以下五個關鍵的環節:

(1)句對特征打分。在訓練語料中的句對進行特征得分計算;

(2)句對排序。在上一環節的基礎上,依據每個句對的得分情況進行排序,在此,每一個特征對應都有一個排序結果。

(3)分離器訓練。

(4)分類器自動分類。使用分類器對待分類句對進行分類,然后將分類結果和訓練分類器句對進行融合,得到最終的分類結果。

2.2 主題模型

為了提高系統的翻譯性能,本文利用LDA 模型[3]挖掘雙語語料中的領域信息,從而應用到該領域翻譯模型的搭建中,以提高參數精確度。LDA 模型是一個三層貝葉斯模型[4]。

LDA 模型:

David Blei[3]在2003 年提出隱含狄利克雷分配,這是一種用于離散數據集合的建模方法,它可以自動地完成挖掘大規模語料庫中所蘊含的主題信息。LDA 模型首先基于一篇文檔,這個文檔要求由許多主題組成,LDA 模型將這個文檔看作是這些主題的不同比例的混合,每個主題是指詞表中的一個多項式分布。

圖2 LDA 概率模型

2.3 領域自適應方法下詞對齊模型原理解析

由于訓練翻譯模型的語料種類較多,對于這種異源的數據進行詞對齊模型訓練,再搭建翻譯模型,這會導致翻譯的準確率下降。比如古漢語短文中有關于醫學的文章,也有關于軍事戰爭的文章,如果我們不對這些異源的數據進行領域區分,這樣就會大大降低我們翻譯準確率,因此在訓練詞對齊模型時,首先要考慮領域這一特性[4]。但是,不同的領域雖有本領域特有的詞語,但是也會有領域之外的詞匯,這一點可以看出領域之間既有共同點也會有不同點,但是我們不能簡單的將不同領域劃分為互無交集的幾個部分分別去訓練詞對齊模型,這會造成信息丟失,準確率下降。因此,為了使得詞對齊準確率提高,將在統計詞對齊模型中引入領域的信息。即對于訓練語料的每個句子首先通過LAD 模型得到其所屬領域的概率,接下來結合領域內與領域外的詞來進行詞對齊。即通過加權技術來實現領域內模型與領域外模型相互結合來提高領域內的詞對齊準確率[5]。

領域自適應詞對齊的訓練過程指:假設雙語平行語料庫由s 個句對組成,首先用LAD 模型對語料庫領域信息進行提取,則假設某一句對(f,e)屬于某一領域的概率為pk[6],則接下來為每一領域訓練相應的詞對齊模型,訓練過程用EM算法進行參數估計:在E 步,兩個詞共同出現在頻率:

通過不斷迭代直到收斂,從而得到最終翻譯概率。這個模型中,當一個句對屬于某個領域的概率越大,則詞對齊結果就會屬于當前領域,最終在此基礎上相應的翻譯模型,則該模型能夠呈現出所屬領域準確率最高的結果。

3 結論

本文主要介紹了統計機器翻譯模型的改進方法,首先運用最大熵分類器的方法,對訓練統計機器翻譯模型的語料進行篩選,提升了語料的準確性。接下來對篩選的語料運用LDA 主題模型確定了語料的主題,在統計機器翻譯模型詞對齊的過程中對每個進行詞對齊過程的句子結合其對應的主題概率,從而使行詞對齊的結果更精確,進而提升了統計機器翻譯模型中翻譯模型與語言模型的精度,使得統計機器翻譯模型性能有了一定程度的提高。

猜你喜歡
分類方法模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产亚洲精品91| 中国一级特黄大片在线观看| 亚洲一区二区三区中文字幕5566| 国产成人无码久久久久毛片| 婷婷六月综合网| 亚洲成人黄色在线观看| 国产精品永久免费嫩草研究院| 91亚瑟视频| 久久99国产精品成人欧美| 99er这里只有精品| 国产91熟女高潮一区二区| 9久久伊人精品综合| 亚洲aⅴ天堂| 午夜欧美在线| 国产不卡国语在线| 久久国产拍爱| 小说 亚洲 无码 精品| 国产精品网址在线观看你懂的| 国产精品无码AV片在线观看播放| 波多野结衣一区二区三区88| 国产精品一线天| 亚洲第一成年网| 91无码视频在线观看| аⅴ资源中文在线天堂| 人妖无码第一页| 精品国产香蕉伊思人在线| 久久这里只有精品66| 黄色网页在线播放| 亚洲精品视频免费| 欧美有码在线| 欧美日韩v| 最近最新中文字幕在线第一页| 国产99精品久久| 超清无码熟妇人妻AV在线绿巨人| 高清色本在线www| 波多野结衣一区二区三区四区 | 九色免费视频| 亚洲高清无码久久久| 免费一级毛片在线观看| 欧美一级片在线| 国产精品冒白浆免费视频| 综合成人国产| 国产一二三区视频| 久久久久免费精品国产| 国产成人精品一区二区| 精品国产一二三区| 美女被操91视频| 精品国产免费人成在线观看| 国产av剧情无码精品色午夜| 欧美视频免费一区二区三区 | 日本草草视频在线观看| 欧美福利在线观看| 国产精品午夜福利麻豆| 婷婷开心中文字幕| 久久大香伊蕉在人线观看热2| 91在线一9|永久视频在线| 国产高清色视频免费看的网址| 国产成人免费视频精品一区二区| 大陆精大陆国产国语精品1024 | 亚洲91精品视频| 国产亚洲欧美在线人成aaaa| 午夜色综合| 亚洲伦理一区二区| 国产超薄肉色丝袜网站| 日韩在线播放中文字幕| 国产91无毒不卡在线观看| 99这里精品| 国产在线观看精品| 亚洲成人精品在线| 久久久亚洲色| 国产成人精彩在线视频50| 亚洲精选无码久久久| 热久久综合这里只有精品电影| 在线观看网站国产| 亚洲第一视频区| 青青草原国产| 丰满少妇αⅴ无码区| 亚洲五月激情网| 亚洲国产精品成人久久综合影院| 国产人成乱码视频免费观看| 国产在线八区| 国产精品尹人在线观看|