999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于領域自適應方法的統計機器翻譯模型的優化研究

2021-03-17 07:41:28楊玲
科學技術創新 2021年5期
關鍵詞:分類方法模型

楊玲

(武警工程大學,陜西 西安710086)

1 概述

把一種語言轉變成另一種我們想要的語言這一過程稱為機器翻譯[1]。其中比較常用的方法有基于記憶的翻譯方法、基于實例的翻譯方法、基于統計的翻譯方法、基于神經網絡的翻譯方法。目前,基于統計的機器翻譯模型被稱為這一領域的主流方法,是由Brown[1]等人提出,該模型可分為翻譯模塊、語言模型訓練模塊、解碼模塊。在進行翻譯模型訓練時需要進行詞對齊,由于統計機器翻譯模型在訓練詞對齊模型時未對訓練集進行分類訓練,會影響系統的翻譯性能。因此,本文提出運用最大熵分類器及領域自適應方法對統計機器翻譯模型進行優化,旨在進一步改善模型的翻譯性能。

2 統計機器翻譯模型的優化策略

傳統統計機器翻譯方法的系統原理是,用已對齊好的大規模平行語料訓練詞對齊模型,然后基于此詞對齊模型建立翻譯模型和語言模型并訓練模型參數。但是訓練模型的平行語料來自不同領域,有些詞在不同領域意思也不用,這會影響模型參數的準確度,基于此建立起的翻譯模型和語言模型精確度也會下降,由此得到的譯文不夠準確。為解決這一問題,我們運用領域自適應方法提高統計機器翻譯模型的翻譯精度,即首先應用最大熵分類器的方法對平行語料進行篩選,這一步保證了訓練詞對齊模型的語料符合標準,從而確保了模型參數的精確度。接下來可以運用LDA 模型對雙語平行語料進行主題提取,并得到每個主題對應的語料。然后對每個主題訓練其相應的詞對齊模型,再訓練每個主題的翻譯模型和語言模型。

語料可以劃分為完全平行句、部分平行句對和完全不平行句對。通過觀察可以發現,高質量平行句一般會呈現很多共性:源語言和目標語言互譯準確、源語言和目標語言都比較流暢,基于此特征可以提出使用句對特征評價平行句對質量,利用分類器進行自動判別句對質量好壞的方法。該過程可分為兩部分,第一部分是挑選用于訓練分類器的正負例句對,首先確定句對特征,依據句對在各個特征上的得分對句對進行排序。綜合各個排序的結果,構造區分性較大的訓練句對集合。將那些在各個特征中表現均不好的句對作為負例句對。余下的句對為待分類句對,需要訓練分類器自動分類。第二部分利用前一部分構造得到的正負例句對集合訓練一個最大熵分類器,通過學習正負例句對的特征,分類器可以自動地對句對進行質量判定。然后使用該分類器對第一部分的待分類句對進行自動分類。在分類器的選擇上,本文采用最大熵模型作為分類器進行分類任務。

圖1 基于分類的平行語料選擇方法流程圖

2.1 基于最大熵分類器的平行語料篩選

統計機器翻譯模型需要用到大規模的雙語平行語料進行訓練,因此語料的質量會影響模型的翻譯性能。所以需要對訓練語料進行篩選,淘汰影響系統翻譯質量的語料,保留質量較好的語料進行訓練,這樣可以從源頭上確保系統翻譯質量。本節利用最大熵模型分類器[2]對待訓練語料進行分類,語料可以分為完全平行句對、部分平行句對、和不平行句對,因此我們的任務是可以從這些大規模的平行語料中找到完全平行句對,用這些來訓練模型。首先,我們需要選擇訓練分類器的正負例句,依據每個句對在句對特征的得分來區分正負例句,將得分高的作為正例句,得分低的作為負例句,通過對正負例句的學習,分類器可以對句對進行質量評定,從而使用訓練好的分類器對語料進行篩選。

篩選流程:篩選語料有以下五個關鍵的環節:

(1)句對特征打分。在訓練語料中的句對進行特征得分計算;

(2)句對排序。在上一環節的基礎上,依據每個句對的得分情況進行排序,在此,每一個特征對應都有一個排序結果。

(3)分離器訓練。

(4)分類器自動分類。使用分類器對待分類句對進行分類,然后將分類結果和訓練分類器句對進行融合,得到最終的分類結果。

2.2 主題模型

為了提高系統的翻譯性能,本文利用LDA 模型[3]挖掘雙語語料中的領域信息,從而應用到該領域翻譯模型的搭建中,以提高參數精確度。LDA 模型是一個三層貝葉斯模型[4]。

LDA 模型:

David Blei[3]在2003 年提出隱含狄利克雷分配,這是一種用于離散數據集合的建模方法,它可以自動地完成挖掘大規模語料庫中所蘊含的主題信息。LDA 模型首先基于一篇文檔,這個文檔要求由許多主題組成,LDA 模型將這個文檔看作是這些主題的不同比例的混合,每個主題是指詞表中的一個多項式分布。

圖2 LDA 概率模型

2.3 領域自適應方法下詞對齊模型原理解析

由于訓練翻譯模型的語料種類較多,對于這種異源的數據進行詞對齊模型訓練,再搭建翻譯模型,這會導致翻譯的準確率下降。比如古漢語短文中有關于醫學的文章,也有關于軍事戰爭的文章,如果我們不對這些異源的數據進行領域區分,這樣就會大大降低我們翻譯準確率,因此在訓練詞對齊模型時,首先要考慮領域這一特性[4]。但是,不同的領域雖有本領域特有的詞語,但是也會有領域之外的詞匯,這一點可以看出領域之間既有共同點也會有不同點,但是我們不能簡單的將不同領域劃分為互無交集的幾個部分分別去訓練詞對齊模型,這會造成信息丟失,準確率下降。因此,為了使得詞對齊準確率提高,將在統計詞對齊模型中引入領域的信息。即對于訓練語料的每個句子首先通過LAD 模型得到其所屬領域的概率,接下來結合領域內與領域外的詞來進行詞對齊。即通過加權技術來實現領域內模型與領域外模型相互結合來提高領域內的詞對齊準確率[5]。

領域自適應詞對齊的訓練過程指:假設雙語平行語料庫由s 個句對組成,首先用LAD 模型對語料庫領域信息進行提取,則假設某一句對(f,e)屬于某一領域的概率為pk[6],則接下來為每一領域訓練相應的詞對齊模型,訓練過程用EM算法進行參數估計:在E 步,兩個詞共同出現在頻率:

通過不斷迭代直到收斂,從而得到最終翻譯概率。這個模型中,當一個句對屬于某個領域的概率越大,則詞對齊結果就會屬于當前領域,最終在此基礎上相應的翻譯模型,則該模型能夠呈現出所屬領域準確率最高的結果。

3 結論

本文主要介紹了統計機器翻譯模型的改進方法,首先運用最大熵分類器的方法,對訓練統計機器翻譯模型的語料進行篩選,提升了語料的準確性。接下來對篩選的語料運用LDA 主題模型確定了語料的主題,在統計機器翻譯模型詞對齊的過程中對每個進行詞對齊過程的句子結合其對應的主題概率,從而使行詞對齊的結果更精確,進而提升了統計機器翻譯模型中翻譯模型與語言模型的精度,使得統計機器翻譯模型性能有了一定程度的提高。

猜你喜歡
分類方法模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 91po国产在线精品免费观看| 在线国产你懂的| 亚洲制服中文字幕一区二区| 成年A级毛片| 精品国产美女福到在线不卡f| 扒开粉嫩的小缝隙喷白浆视频| 午夜爽爽视频| av手机版在线播放| 综合久久久久久久综合网| аv天堂最新中文在线| 亚洲欧洲一区二区三区| 99这里只有精品6| 久久人人97超碰人人澡爱香蕉 | 国产亚洲高清在线精品99| 欧美午夜在线观看| 免费全部高H视频无码无遮掩| P尤物久久99国产综合精品| 日韩欧美中文字幕一本 | 青青草原国产精品啪啪视频| 婷婷激情亚洲| 激情无码字幕综合| 国产精品人莉莉成在线播放| 亚洲国产系列| 成年人午夜免费视频| 久久亚洲国产最新网站| 久久女人网| 日韩欧美国产另类| 午夜啪啪福利| 国产aⅴ无码专区亚洲av综合网| 国产在线观看一区精品| 久久综合九色综合97婷婷| 国产网站一区二区三区| 成人免费午间影院在线观看| 天堂在线www网亚洲| 夜色爽爽影院18禁妓女影院| 波多野结衣在线se| 国产成人免费手机在线观看视频| 日韩资源站| 久草美女视频| 性网站在线观看| 丁香婷婷综合激情| 欧美视频免费一区二区三区| 亚洲国产91人成在线| AV无码一区二区三区四区| 手机在线看片不卡中文字幕| 操美女免费网站| 白浆免费视频国产精品视频| 手机在线国产精品| 中文字幕日韩欧美| 国产va视频| 亚洲无码91视频| 欧美日韩精品在线播放| 中文字幕亚洲综久久2021| 亚洲一区二区三区国产精品| 99精品免费在线| 国产精品亚洲一区二区在线观看| AV熟女乱| 白浆视频在线观看| 国产一区二区福利| 波多野结衣一区二区三视频 | 99ri国产在线| 亚洲日韩欧美在线观看| 韩日无码在线不卡| 久久综合一个色综合网| m男亚洲一区中文字幕| 亚洲欧美在线综合一区二区三区| 精品成人一区二区三区电影 | 麻豆精品在线视频| 在线无码九区| 日韩成人午夜| 亚洲欧美日韩中文字幕在线| 久久亚洲中文字幕精品一区| 中文字幕第1页在线播| 乱人伦99久久| 日韩欧美在线观看| 中文字幕人妻av一区二区| 中文字幕在线视频免费| 欧美成人精品在线| 无码专区第一页| 欧美中文字幕在线二区| 人人91人人澡人人妻人人爽| 岛国精品一区免费视频在线观看|