基于多特征融合的機器英語翻譯錯誤自動識別研究

2021-12-31 02:23:54程曉嬌

黑龍江工業學院學報(綜合版) 2021年10期

程曉嬌

(大連財經學院國際教育學院，遼寧大連 116622)

隨著經濟的騰飛，互聯網行業正在飛速發展，英語翻譯在世界貿易中的地位逐漸提升。機器翻譯技術可以克服人工翻譯中的多種問題，降低人工翻譯的經濟消耗與時間消耗。在當前這個高度信息化的時代，人們對于英語的翻譯要求逐漸增加，計算機對英語語言的理解與翻譯需求越發迫切[1-2]。計算機的英語翻譯能力直接影響著翻譯結果的應用效果，與人們的經濟活動息息相關。但英語翻譯結果均會出現語法錯誤，使計算機翻譯結果出現偏差，影響英語翻譯結果的輸出與判斷。因此，在以往的研究中，大量的專家學者提出了機器英語翻譯錯誤自動識別方法，力求降低英語翻譯錯誤對經濟活動的影響。

張楠等人采用神經機器翻譯方法對中英文翻譯結果進行預測，在預測的過程中完成翻譯錯誤結果的識別工作[3]。此方法的識別速度相對較高，但是識別精度與有效性較差。為此，使用多特征融合技術，設計新型機器英語翻譯錯誤自動識別方法。為保證此方法設計完成后具有應用價值，構建相應的實驗環節對其展開驗證，確保此方法具有研究意義。

1 基于多特征融合的機器英語翻譯錯誤自動識別方法設計

1.1 機器英語翻譯信息特征提取

在本次研究中，將融合英語翻譯的特征提取算法，充分利用平行語料。提取到的特征融合翻譯結果，得到機器英語翻譯的信息特征。通過文獻分析可以發現，機器翻譯可以分為兩部分，分別是將源語言翻譯為目標語言以及將目標語言翻譯為源語言[4-5]。這兩種翻譯過程完全相同，且共享詞語向量參數。將源語言語句設定為A={a1,a2,…,an}，ai表示源語句的單詞；目標端語句為B={b1,b2,…,bn}，bj表示目標語句的詞嵌入編碼；C表示源端語句的長度；D表示目標語句的長度。設定本次翻譯中使用的編碼器與解碼器構建為神經網絡結構，編碼器的主要功能是將源語句A編碼為固定向量E，同時對E進行解碼得到目標語句D。整合翻譯過程可表示為P(B|A:α)，使用乘法法則得到上述條件概率的計算過程，具體如式(1)所示。

(1)

編碼器由公式(1)構成，初始的隱形狀態均為零向量，在進行每一步翻譯時，均需要將此步驟中的單詞映射為對應的向量ai的形式；然后和上一翻譯步驟中的詞語進行計算，得到源語句的編碼向量E。將使用的編碼器組建成網絡形式，則存在以下(2)-(5)關系式：

wt=sigmoid(Hirai+xir+Hsrst-1+xhr)

(2)

kt=sigmoid(Hirai+xir+Hsrst-1+xhk)

(3)

nt=tans(Hinai+xin+Hsnst-1+xhn)

(4)

st=(1-kt)nt+ktnt-1

(5)

公式(1)-公式(5)中，wt表示解碼器向量；Hir表示初始向量；xir表示源語句向量；Hsr表示隱藏向量；st-1表示t-1時刻的隱狀態對語句的影響向量；xhr表示解碼器的單詞計數向量；kt表示編碼器向量，xhk表示編碼器的單詞計數向量，主要利用式(2)與式(3)實現源語句解碼與編碼。nt表示步驟向量，xhn表示最大編碼長度向量，主要利用該式對編碼步驟進行限制；st表示t時刻隱狀態對語句的影響向量，kt表示誤差向量，nt表示誤差向量幅度，st是機器英語翻譯誤差的主要原因。

因此，本文將神經網絡應用到機器英語翻譯信息特征提取過程中，將隱層使用tan函數表示，而后使用softmax函數[6]進行歸一化處理，計算過程設定如式(6)：

p(bt|b1,b2,…,bn,a:α)=softmax[v2tan(v1st+xhn)]

(6)

公式(6)中，v1、v2表示不同的歸一化系數。

根據公式(6)可初步得到機器翻譯特征，為了獲取到可信度更高的翻譯特征，使用sigmoid作為激活函數，對機器英語翻譯特征進行處理，則有式(7)、式(8)：

g1=relu(v1e+xhn)

(7)

ster=sigmoid(v2a+xhn)

(8)

公式(7)中，e表示可信度。

根據公式(7)-公式(8)完成英語翻譯的特征提取，并將提取到的翻譯特征作為本次研究的基礎。

1.2 機器英語翻譯多特征融合預判

根據提取到的機器英語翻譯特征結合翻譯自動評價方法，對機器英語翻譯結果進行預判。使用皮爾遜系數[7]作為指導因素，對翻譯結果進行初步分析，具體計算過程設定如式(9)：

(9)

公式(9)中，o表示翻譯結果的數學期望值；d表示方差。一般情況，此公式取值結果為-1或是1，當此計算結果具有較高的關聯性時，取值結果趨近于1，否則，趨近于-1。

根據上述公式考慮到機器翻譯譯文特征，在信息預判過程中引入懲罰函數，以此保證翻譯偏好程度不會對翻譯結果造成影響。則有式(10)：

(10)

公式(10)中，N表示懲罰因子數量；εi表示翻譯偏好系數；precision表示翻譯信息預判結果；U表示懲罰因子，其計算公式如式(11)：

(11)

公式(11)中，output表示懲罰因子輸出結果，length表示懲罰因子程度；reference表示懲罰因子最優長度。

在判定過程中增加翻譯信息召回率計算過程，對公式(11)進行整合后，得到新的判定計算公式(12)：

(12)

公式(12)中，Counti(U)表示第i個懲罰函數；Count(U)表示初始的懲罰函數。

使用此公式對機器翻譯結果展開預判，確定此結果的正確率。同時，獲取正確率較低的信息作為翻譯錯誤識別訓練組，構建相應的支持向量機[8]，對此部分信息進行二次判定。

對于二分類問題，為了得到最終可靠的預判結果，將訓練集設定為(zi,yi),i=1,2,…,n,zi∈Rn,yi∈{±1}上，分類平面可表示為式(13)：

(q*z)+k=0

(13)

公式(13)中，k表示懲罰平面斜率；q與z分別表示懲罰平面的長與寬。

根據公式(13)對樣本進行正確區分，分類間隔最大化，該最優分類結果需要滿足下述式(14)條件：

yi[(q*z)+k]≥1

(14)

以公式(14)為基礎構建支持向量機，則此問題可優化為式(15)：

(15)

其中，G表示分類過程中的代價系數；φ(·)表示判定過程中的非線性變換函數；i表示松弛變量函數。根據此公式可得到最終的判定公式：

(16)

公式(16)中，ηi表示多特征融合系數；H(zi,z)表示線性變換函數；k′表示斜率偏移系數。

使用公式(16)得到機器英語翻譯多特征融合預判結果，根據此結果設定機器英語翻譯錯誤識別算法。

1.3 機器英語翻譯錯誤識別算法設計

根據上述設定結果，設計機器英語翻譯錯誤識別算法實現錯誤翻譯的自動識別，為了使此算法具有可行性，將錯誤翻譯結果有向圖作為算法的主要參考依據，錯誤翻譯有向圖繪制如圖1所示。

圖1 錯誤翻譯結果有向圖

將判別過程中出現問題的翻譯結果繪制為有向圖的形式，同時根據錯誤翻譯結果有向圖使用傳統K-近鄰算法[9-10]構建機器英語翻譯錯誤識別算法。假設錯誤翻譯結果的標簽為Z，則此標簽在翻譯結果特征空間中可表示為：

(17)

其中，{yi=Z}表示指示函數。根據翻譯結果判別結果，將翻譯結果是錯誤結果的概率設定為p(y=1|z)，則此概率的計算公式可表示為：

(18)

公式(18)中，f(z′,o)表示翻譯錯誤判斷函數。

隨著翻譯時間的不斷延長，翻譯結果的數量會不斷增加，待識別區的未知錯誤翻譯結果的數量會逐漸增加，考慮到翻譯結果標簽數量問題，對公式(18)進行優化，則存在：

(19)

公式(19)中，D(z)表示標簽函數。

對比2組患者生活質量以及身體功能,研究組生活質量(42.45±5.45)分,身體功能(43.85±5.89)分,參照組生活質量(33.45±4.89)分,身體功能(34.12±5.01)分,數據對比t值為6.9530,p值為0.05、t值為7.1181,p值為0.05,研究組評分高于參照組患者,組間對比具有顯著性差異(P<0.05)。

根據此公式對完成判別后的翻譯結果錯誤概率進行計算，當錯誤概率過高時，可認定此翻譯結果為錯誤結果，并輸出此結果。

至此，基于多特征融合的機器英語翻譯錯誤自動識別方法設計完成。

2 實驗分析

為證實本次研究中提出的基于多特征融合的機器英語翻譯錯誤自動識別方法具有應用價值，構建實驗環節對此方法的使用效果加以分析。

2.1 實驗環境

在本次實驗過程中，將實驗平臺設定為windows與linux系統，在此系統中完成原始翻譯信息與擴展信息的采集與處理，實驗部分將在linux系統完成。在實驗過程中，使用JAVA作為實驗控制語言，文件的處理與實驗結果輸出均使用此語言進行控制。同時，設定實驗結果合并規則，對實驗結果展開處理，并輸出此結果。

2.2 翻譯信息來源與處理

實驗中的訓練數據主要來源于某實驗室數據庫，訓練數據集匯總含有5000條錯誤句子以及對應的5000個正確句子，這些語句均為以英語為母語者的工作人員人工標記語法錯誤，并改正每一處錯誤獲得。將此部分信息組合后，構建為10個實驗數據組，如表1所示。

表1 實驗數據組

根據上表中內容對采集到的翻譯信息進行劃分，同時對詞向量進行訓練。使用Word2vcc工具對翻譯信息進行訓練，將翻譯信息的詞匯向量維度設定為1024，窗口大小設置為10，使用負采樣優化算法將翻譯信息樣本數量設定為10，迭代次數設定為20次。在實驗準備階段，為保證實驗結果的可靠性同時降低實驗結果誤差，使用以往研究中預設的翻譯信息模板對訓練集展開訓練，并對訓練集進行標注，以此實驗數據的劃分與處理過程。

2.3 實驗指標設定

由于本次實驗屬于識別范疇，因此，將實驗指標設定為識別效果評價指標，主要包括識別準確率、召回率與自動識別有效率。在本次實驗中，將其總結為下述計算公式：

(20)

其中，θi表示正確識別的翻譯錯誤信息；θj表示可識別翻譯錯誤信息。

(2)識別結果召回率：表示識別方法獲取到的錯誤翻譯結果數量，如式(21)所示。

(21)

其中，θa表示需識別的翻譯錯誤信息。

(3)自動識別有效測度：此指標表示對自動識別方法使用的有效率，根據此指標可確定識別方法的使用效果，如式(22)所示。

(22)

使用多特征融合方法對表1中的數據進行識別，并使用上述公式對識別結果進行計算，確定各指標計算結果，并對多特征融合方法使用性能進行分析。為提升本次實驗結果的對比性，選擇神經網絡以及統計模式識別方法與文中提出的多特征融合方法進行對比分析，確定每種方法使用后的優缺點。

2.4 實驗結果分析

選擇神經網絡以及統計模式識別方法與文中提出的多特征融合方法進行對比分析，比較了三種方法的識別準確率、識別結果召回率、自動識別有效性，結果如圖2、圖3、圖4所示。

圖2 識別準確率

由圖2中顯示的數據進行分析可以看出，在此指標的實驗結果中體現了3種方法的使用效果，多特征融合方法識別準確度相對較高，可對多數翻譯錯誤的信息進行識別提取。與此方法相比，其他兩種方法使用后只能少量地識別到翻譯錯誤信息，無法對實驗組信息進行高精度分析與識別。在多次實驗中，均體現了多特征融合方法的識別精準度高于其他兩種方法。因此，可以確定多特征融合方法具有較高的使用價值。

圖3 識別結果召回率

在對識別準確率進行驗證后，對識別結果召回率展開驗證與分析。根據此實驗結果可以看出，3種方法的識別召回率具有一定的差異。神經網絡方法與多特征融合方法的識別結果召回率較好，可識別多種翻譯信息。統計模式識別方法的識別結果召回率相對較低，無法對全部翻譯信息進行識別。因此，使用此種方法后并不能得到較高識別結果。綜合上述結果，為得到最終實驗結果，對不同方法的自動識別有效測度展開研究，具體結果如圖4 所示。

圖4 自動識別有效測度結果

根據識別結果召回率與識別準確率實驗結果，結合公式(22)得到自動識別有效測度結果。對此實驗結果進行分析后，確定了3種方法英語翻譯錯誤結果的識別有效率。由此實驗結果可知，多特征融合方法的自動識別有效率明顯優于其他兩種方法，可對機器應用翻譯錯誤進行高精度識別。因此，在日后的研究中可使用此方法完成英語翻譯工作。

2.5 實驗結果討論

在本次實驗中，使用識別準確率、召回率與自動識別有效測度對不同類型的自動識別方法進行分析。通過多次對比后發現，在三組實驗指標中，文中提出的多特征融合識別方法為所選擇實驗方法中使用效果最佳的方法。由此證實了多特征融合技術，可應用在機器應用翻譯錯誤的識別工作中。此技術應用后可有效提升識別結果的精準度與可靠性，在后續的研究中將對此方法的其他性能展開研究，并將其投入到實際問題的應用過程中。

3 結論

針對當前英語翻譯結果，本文提出了一種新型翻譯錯誤自動識別方法，經實驗證實此方法具有一定的實用效果。此次將研究重點立足于識別的精準度，并沒有對于其他領域展開優化。為此，在后續的研究中還需要對其他部分進行分析，針對此方法的不足進行完善與優化，以提升翻譯效果，為機器翻譯技術的發展提供幫助。