999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘的機器英語翻譯模型研究

2022-08-17 10:07:24胡仁青
電子設計工程 2022年15期
關鍵詞:語義模型

王 雪,王 娟,胡仁青

(西安交通工程學院,陜西西安 710300)

隨著全球化進程的加快,智能翻譯技術的飛速發展,機器英語翻譯已漸漸取代人工英語翻譯[1-2]。機器英語翻譯需通過特征分析以及語義識別方式利用機器識別方法抽取英語語句前后文以及上下文語義信息,合理組織翻譯內容,獲取最終英語翻譯結果[3-4],令英語翻譯更加自動化以及智能化。近年來眾多研究學者致力于機器翻譯領域的研究[5-7],黨莎莎等人設計了基于改進GLR 算法的智能識別英語翻譯模型[8];陳祖君研究了基于神經網絡機器翻譯模型的英文分詞[9],可完成英語翻譯,但翻譯結果的BLEU值較低,影響其應用性能。

為了挖掘語料內所包含的鄰域信息,提升平行語料的可利用性以及機器英語翻譯模型的適應力,提出了基于數據挖掘的機器英語翻譯模型,并對模型的性能進行了分析。

1 基于數據挖掘的機器英語翻譯模型

1.1 LDA模型的平行語料主題信息挖掘

該文首要研究平行語料主題挖掘的語料聚類問題,通過挖掘文本中主題信息實現文本軟聚類目的[10]。將所挖掘主題信息的新短語翻譯加入到所建立的翻譯模型中,提升翻譯性能。LDA 模型是可挖掘大規模語料庫內蘊含主題信息的重要模型,該模型將文檔看作是包含很多數量的主題,主題通過詞表的多項式分布進行描述[11]。LDA 模型為包含三層內容的生成式概率模型,用dj表示語料庫內的文檔,利用該模型生成語料內各文本的步驟如下:

1)用θ-Dir(α)表示待選取主題的分布參數;

2)用wji表示文檔中的詞時,需進行以下處理:

①選取topiczji-Multinomial(θ);

②選取詞wji于概率分布內,其中topiczji下的多項式概率分布為p,參數α的狄利克雷分布用Dir(α)表示,可得其概率密度函數如下:

分析以上過程可知,挖掘文本中主題信息首先需要判斷文檔集合內各文檔的不同主題所占比例,依據概率從主題分布內采樣其中的具體主題[12],抽樣該主題相應詞表的多項式分布,獲取具體單詞結果。

挖掘文本中主題信息的LDA 概率圖模型如圖1所示。

圖1 LDA概率圖模型

文檔中的單詞即可觀測變量,用w表示,其余均為隱含變量,矩形框以及框內字母表示重復采樣以及采樣次數[13]。文檔內各單詞均具有僅屬于自身的主題z,一篇文檔中包含單詞數量為N時,語料庫內包含文檔數量為D,α與β均為狄利克雷分布的先驗參數,分別對應主題分布空間采樣獲取topic 分布和某個多項式分布從詞表采樣分布。θ與φ分別表示文檔內由參數所獲取的具體主題分布參數以及各主題內單詞分布參數[14]。

1.2 基于邊緣分布估計的機器英語翻譯模型

在上述分析的基礎上,該文基于所挖掘平行語料主題信息完成英語文章翻譯,利用極大似然估計方法處理目標語言單語語料,并將平行語料作為訓練目標,通過重要性采樣方法以及全概率公式估計目標語言單語語料似然建立機器英語翻譯模型[15]。

用X表示源語言空間,Y表示目標語言空間,將X作為輸入樣本,利用機器翻譯模型將輸入樣本X映射至Y內。利用條件概率分布Pθ(y|x)表示機器翻譯模型,其中θ表示模型參數。設標準監督訓練中存在具有N個句子對的平行語料,用B=(x(n),y(n))表示,n=1,2,…,N。可得利用最大化平行語料似然學習獲取的機器翻譯模型如下:

最大化單語數據樣本似然是常應用于機器學習中的單語數據樣本處理方法,將該方法應用于半監督機器翻譯中。設平行語料中包含目標語言句子的單語語料M=ys,s=1,2,…,S,可同時最大化單語語料以及平行語料的似然,并其作為機器翻譯的訓練目標,如式(4)所示:

式中,Ls(θ)表示目標函數,第一項以及第二項分別為平行語料似然以及目標語言端單語語料似然,λ表示平衡似然函數的超參數。

全概率公式如下:

引入機器翻譯模型對式(4)進行轉換,得到目標訓練公式如下:

計算單語語料M內隨機句子y的期望值,優化訓練目標,在全部搜索空間內利用蒙特卡洛方法采樣樣本近似估計期望值。對P(x)進行采樣,獲取的句子數量為K,此時可得期望值的經驗估計計算結果為

利用反向機器翻譯模型P(x|y)獲取相關源語言語句x,在Pθ(y|x)值為最大的條件下獲取單語語料似然的估計項在訓練目標中較為有效。

式(7)將系數與Pθ(y|x)相乘,將分布P(x)采樣利用分布P(x|y)采樣代替,該過程為重要性采樣,可得的重要性采樣估計公式為:

選取束搜索方法采樣獲取估算期望值,可得最終半監督神經機器翻譯訓練目標公式如下:

訓練過程開始前,利用翻譯模型P(x|y)對目標語言單語語料內各句子進行采樣,得到源句子數量,選取批量梯度下降方法,利用平行語料B內數量為b的句子以及單語語料M內的數量為m的句子參與訓練,并每次都進行更新,依據訓練目標獲取參數θ的梯度并更新該參數θ。至此,完成模型訓練后即可利用該模型實現機器翻譯模型的英語翻譯。

2 模型性能的測試

為測試該文方法在提高機器英語翻譯性能方面的有效性,在上述基礎上進行對比實驗。選取NUCLE、Supervised、CoNLL、JFLEG、Lang-8 語料庫作為所研究模型的測試數據集,5 個語料庫內各包含文章數為1 397篇、5 874篇、100篇、18 564篇以及9 654篇,各語料庫包含的句對數分別為58 265 個、85 645 個、2 854 個、5 221 145 個以及215 467 個,語料庫內包含體育、軍事、經濟、教育、科技、社會6 種不同類型的文章。

選取GLR 模型[8]以及神經網絡模型[9]作為對比模型。選取翻譯精度、語義信息召回率、主題詞的特征匹配度、F1 值、BLEU 值、GLEU 值作為衡量機器英語翻譯性能的評價指標。主題詞的特征匹配度是衡量源語言以及目標語言匹配程度的重要指標;BLEU值是應用于翻譯效果評價的可衡量大小寫敏感的指標,采用multi-bleu.perl 腳本計算翻譯結果的BLEU值,BLEU 值越高,表示機器英語翻譯模型的翻譯效果越好。GLEU 值是機器翻譯評價指標BLEU 的變體,該值常應用于機器翻譯評價中,GLEU 值可有效衡量機器翻譯后語句的流利度。

采用3 種模型翻譯不同語料庫內語句結果的翻譯精度結果如圖2 所示[16]。分析圖2 實驗對比結果可知,采用該文模型翻譯不同語料庫內語句翻譯精度均高于98%;采用GLR 模型以及神經網絡模型翻譯不同語料庫內語句的翻譯精度均低于97%。采用該文模型翻譯不同語料庫內語句的翻譯精度明顯高于其他兩種模型。

圖2 翻譯精度對比

采用3 種模型翻譯不同語料庫內語句結果的語義信息召回率對比結果如圖3 所示。分析圖3 實驗對比結果可知,采用該文模型翻譯不同語料庫內語句的語義信息召回率均高于96%;采用GLR 模型以及神經網絡模型翻譯不同語料庫內語句的語義信息召回率均低于93%。采用該文模型翻譯不同語料庫內語句的語義信息召回率明顯高于其他兩種模型。

圖3 語義信息召回率對比

采用3 種模型翻譯不同語料庫內語句主題詞的特征匹配度對比結果如圖4 所示。分析圖4 實驗對比結果可知,采用該文模型翻譯不同語料庫內語句主題詞的特征匹配度均高于90%;采用GLR 模型以及神經網絡模型翻譯不同語料庫內主題詞的特征匹配度均低于85%。采用該文模型翻譯不同語料庫內語句主題詞的特征匹配度明顯高于其他兩種模型。

圖4 特征匹配度對比

采用3 種模型翻譯不同語料庫內語句結果的F1值對比結果如圖5 所示。分析圖5 實驗對比結果可知,采用該文模型翻譯不同語料庫內語句的F1 值均高于0.8;采用GLR 模型以及神經網絡模型翻譯不同語料庫的F1 值均低于0.7。采用該文模型翻譯不同語料庫內語句的F1 值明顯高于其他兩種模型。

圖5 F1值對比結果

采用3 種模型翻譯不同語料庫內語句結果的BLEU 值對比結果如圖6 所示。分析圖6 實驗對比結果可知,采用該文模型翻譯不同語料庫內語句的BLEU 值均高于26;采用GLR 模型以及神經網絡模型翻譯不同語料庫的BLEU 值均低于25。采用該文模型翻譯不同語料庫內語句的BLEU 值明顯高于其他兩種模型。

圖6 BLEU值對比結果

采用3 種模型翻譯不同語料庫內語句結果的GLEU 值對比結果如圖7 所示。分析圖7 實驗對比結果可知,采用該文模型翻譯不同語料庫內語句的GLEU 值均高于58;采用GLR 模型以及神經網絡模型翻譯不同語料庫的GLEU 值均低于56。采用該文模型翻譯不同語料庫內語句的GLEU 值明顯高于其他兩種模型。

圖7 GLEU值對比結果

綜合分析圖2-7 實驗結果可知,采用該文模型翻譯不同語料庫的各項指標均明顯優于GLR 模型以及神經網絡模型。采用該文模型翻譯英語具有較高的語義特征匹配性能,翻譯結果具有較高的合理性以及整體性,可有效提升英語翻譯結果的準確率。該文模型英語翻譯結果具有較高的語義信息召回率,說明該文模型具有較高的上下文映射能力,提升了英語翻譯的整體質量。

3 結論

為了提升機器英語翻譯的有效性以及翻譯精度,該文研究了基于數據挖掘的機器英語翻譯模型,首先采用數據挖掘方法充分挖掘平行語料內的鄰域信息,利用所挖掘鄰域信息提升機器英語翻譯的翻譯精度。通過模型測試驗證了該模型具有較好的英語翻譯效果,所獲取的翻譯結果語義信息具有較高的召回性以及較高的主題詞特征匹配度,證明了所研究模型具有較高的翻譯準確性以及翻譯合理性。

猜你喜歡
語義模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
認知范疇模糊與語義模糊
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 凹凸精品免费精品视频| 中美日韩在线网免费毛片视频| 国产成人无码综合亚洲日韩不卡| 久久久久夜色精品波多野结衣| 精品黑人一区二区三区| 日本在线视频免费| 99精品福利视频| 99精品视频在线观看免费播放| 久青草国产高清在线视频| 亚洲无码精品在线播放| 亚洲Va中文字幕久久一区| 国产女人综合久久精品视| 亚洲中文字幕手机在线第一页| 国产人成在线视频| 日本午夜三级| 国产无码制服丝袜| 亚洲精品在线91| 九一九色国产| 777午夜精品电影免费看| 午夜视频在线观看免费网站| 亚洲婷婷六月| 2021天堂在线亚洲精品专区| 亚洲愉拍一区二区精品| 亚洲国产日韩一区| 香蕉eeww99国产在线观看| 狠狠色狠狠综合久久| 人妻无码中文字幕一区二区三区| 精品无码国产自产野外拍在线| 久久中文无码精品| 午夜日本永久乱码免费播放片| 亚国产欧美在线人成| 国产人碰人摸人爱免费视频| 国产在线拍偷自揄观看视频网站| 精品国产Av电影无码久久久| 亚洲中文久久精品无玛| 日韩欧美中文在线| 91精品视频网站| 亚洲男人的天堂网| 天天躁夜夜躁狠狠躁躁88| 国产69精品久久| 免费高清a毛片| 青草视频网站在线观看| 亚洲视频影院| 国产无套粉嫩白浆| 嫩草国产在线| 亚洲高清中文字幕在线看不卡| 亚洲天堂视频网| 日本午夜影院| 欧美综合中文字幕久久| 亚洲高清国产拍精品26u| 欧美激情综合一区二区| 色综合中文| 538精品在线观看| 亚洲一区二区日韩欧美gif| 亚洲不卡av中文在线| 色婷婷综合在线| 天天色综网| 99热这里只有精品免费国产| 草草影院国产第一页| 国产白浆视频| 欧美成人午夜视频免看| 成人午夜久久| 素人激情视频福利| 伊人大杳蕉中文无码| 色综合激情网| 国产精品亚洲va在线观看 | 国产草草影院18成年视频| 日本欧美午夜| 亚洲精品大秀视频| 日韩第九页| 亚洲精品无码抽插日韩| 国产性爱网站| a毛片免费观看| 日韩123欧美字幕| 国产麻豆aⅴ精品无码| 国产成人高清亚洲一区久久| 久久毛片免费基地| 激情无码视频在线看| 国产三区二区| 久久毛片免费基地| 亚洲日韩精品无码专区97| 欧美日韩一区二区三区在线视频|