朱麗秋
摘 要: 為了準(zhǔn)確識別短語,設(shè)計了一種英漢機(jī)器翻譯短語自動識別新算法。首先構(gòu)建標(biāo)記規(guī)模約為58萬個英漢單詞的短語語料庫,為短語賦予基本的可搜索功能,保證翻譯真實度;然后以短語中心點(diǎn)構(gòu)造短語結(jié)構(gòu),改進(jìn)標(biāo)準(zhǔn)GLR算法,在短語語料庫的短語標(biāo)記上識別短語詞性,得到詞性識別結(jié)果;最后通過解析線性表的句法功能校正詞性識別結(jié)果中的英漢結(jié)構(gòu)歧義,得到最終的識別結(jié)果。實驗組織測評小組以打分方式對所設(shè)計的算法進(jìn)行測評,測評結(jié)果證明算法的短語識別精度、識別速度和更新能力均很優(yōu)秀。
關(guān)鍵詞: 英漢機(jī)器翻譯; 短語自動識別; GLR算法; 詞性識別
中圖分類號: TN99?34; TP391.2 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2017)15?0126?03
Abstract: In order to identify the phrases accurately, a new phrase automatic identification algorithm for English?Chinese machine translation was designed. The phrase corpus with about 580 000 English?Chinese words was constructed to give the basic search function of the phrase, and guarantee the truth translation. The phrase is taken as the center point to construct the phrase structure. The standard GLR algorithm is improved. The phrase speech is recognized on the phrase marker of the phrase corpus to obtain the speech recognition results. The syntax function of the linear list is parsed to correct the English?Chinese structural ambiguity in the speech recognition results, and obtain the final recognition result. The algorithm was evaluated by the experimental group assessment team in the form of scoring. The evaluation results prove that the algorithm has high phrase recognition accuracy, fast recognition speed, and strong update ability.
Keywords: English?Chinese machine translation; phrase automatic recognition; GLR algorithm; speech recognition
0 引 言
短語中蘊(yùn)含的語義往往是一段語句的重點(diǎn)釋義內(nèi)容,短語自動識別是語言識別范疇內(nèi)的一項重要課題,其作用是從語句中采集短語進(jìn)行翻譯和自動組合,進(jìn)而得到整段語句的翻譯。短語的自動識別結(jié)果在機(jī)器翻譯中被廣泛使用,能實現(xiàn)平行語料的精確對齊和翻譯樣本的選調(diào)。在英漢機(jī)器翻譯中,英語與漢語的語法存在高度歧義,語句分析任務(wù)異常艱巨,而短語自動識別對語法歧義具有定向消除能力,可以說,英漢機(jī)器翻譯離不開短語自動識別。
結(jié)構(gòu)歧義是英漢語法歧義中最復(fù)雜的一項[1],不可避免地成為目前短語自動識別算法的重要設(shè)計內(nèi)容。在很多短語自動識別算法中,一些在人工翻譯中極為簡單的結(jié)構(gòu)卻無法得到準(zhǔn)確識別,測評結(jié)果得分高的英漢機(jī)器翻譯短語自動識別算法非常少,因此,設(shè)計一種新算法,用短語在語句中的句法功能來決定翻譯結(jié)果中的位置排列范圍。
1 英漢機(jī)器翻譯中短語自動識別算法
1.1 短語語料庫的構(gòu)建
語料庫是以計算機(jī)為載體存放語言材料的數(shù)據(jù)庫,構(gòu)建短語語料庫的作用是對英漢雙語中的短語詞性進(jìn)行標(biāo)記,為短語賦予基礎(chǔ)功能,提升英漢機(jī)器翻譯短語自動識別算法對識別任務(wù)的搜索精度和效率[2]。短語語料庫的性能直接決定著算法的測評分?jǐn)?shù),可采取加大標(biāo)記范圍等方式提高算法測評分?jǐn)?shù)。表1對算法的短語語料庫信息進(jìn)行了描述。
短語語料庫的標(biāo)記規(guī)模約為58萬個英漢單詞,大致能構(gòu)造出2萬段語句、1萬個短語,而普通的短語語料庫僅能構(gòu)造1萬段語句。如表1所示,短語語料庫充分考慮了語料的應(yīng)用領(lǐng)域和體制,可對日常交際、商務(wù)、科技和機(jī)械領(lǐng)域的各類溝通進(jìn)行英漢互譯。語料標(biāo)記方式依次采用數(shù)據(jù)、層次和加工方式,以文本格式進(jìn)行短語定義,識別短句詞性以完成語句對齊,使用人機(jī)自主溝通進(jìn)行英漢翻譯語句的去重和校準(zhǔn)[2],保證短語語料翻譯的真實程度。下面舉例說明短語預(yù)料庫的具體應(yīng)用。
原語句:I know you are a machine factory of physics facilities.
詞性標(biāo)記:I / Verb know / INC you/ PRP are / NNS a / VBP machine / VBP factory / NNS of / INP physics / JJ facilities / NNS./
1.2 短語語料庫詞性識別
詞性識別是英漢機(jī)器翻譯短語自動識別算法的一項重要處理步驟,適用于大規(guī)模語句、短語和單詞的語法歧義排除[3]。在短語預(yù)料庫的詞性標(biāo)記下,語句被分成若干個單詞,單詞進(jìn)行對齊后組成短語,經(jīng)詞性識別后在短語中寫入依存關(guān)系,形成句法樹[4],一方面縮減了英漢機(jī)器翻譯任務(wù);另一方面有利于提高短語語料庫的處理效率。
GLR(Generalized maximum likelihood ratio,狹義最大似然比檢測)算法是詞性識別的基礎(chǔ)算法,為一個分辨短語上下文似然性的過程,其基礎(chǔ)識別理論是動態(tài)識別表單和無條件轉(zhuǎn)移語句。標(biāo)準(zhǔn)GLR算法中的任何一個處理步驟都擁有多種移位指令和精簡操作,步驟的開始和結(jié)束以特殊標(biāo)志表示[5]。在英漢短語翻譯不存在語法歧義時,GLR算法直接進(jìn)入去重和校準(zhǔn),一旦碰到語法歧義,通過句法的幾何結(jié)構(gòu)線性表調(diào)取解析線性表,對短語動作進(jìn)行識別,給出所有可能正確的動作安置結(jié)果,存入不同的識別通道中進(jìn)行符號識別,由符號識別給出最佳動作安置結(jié)果。
標(biāo)準(zhǔn)GLR算法給出的識別結(jié)果數(shù)量是不確定的,不同識別結(jié)果中有可能存在數(shù)據(jù)點(diǎn)重合,識別精度普遍偏低。在所設(shè)計的英漢機(jī)器翻譯短語自動識別算法中,對標(biāo)準(zhǔn)GLR算法進(jìn)行改進(jìn),以短語中心點(diǎn)構(gòu)造短語結(jié)構(gòu),提高識別精度。
改進(jìn)GLR算法以四元集群表示短語上下文的似然性:
設(shè)是中的任意動作且同時存在于中,有:
式中:依次表示動作右側(cè)符號、中心點(diǎn)符號、約束值和標(biāo)記方式,和同時位于與中[7],可位于中,也可位于中。
改進(jìn)GLR算法要求識別結(jié)果線性表最高層出現(xiàn)的符號與始終保持一致,約束值必須為真,中心點(diǎn)符號不能為空值。同時滿足以上三點(diǎn)要求的識別結(jié)果為短語詞性識別結(jié)果。
1.3 英漢機(jī)器翻譯短語自動識別算法校正流程
在以往的英漢機(jī)器翻譯短語自動識別算法中,短語語料庫的詞性識別結(jié)果即為最終結(jié)果,但詞性識別并沒有改善英漢語言之間的結(jié)構(gòu)歧義[8],對詞性識別結(jié)果進(jìn)行校正是必不可少的。GLR算法中利用解析線性表對短語動作進(jìn)行識別,除此之外,解析線性表還具備另一項功能,即句法功能識別,其以推進(jìn)、歸約、接受、終止、出錯為指針分析詞性識別結(jié)果中的錯誤點(diǎn),通過搜索短語語料庫中的短語標(biāo)記內(nèi)容對錯誤點(diǎn)進(jìn)行校正[9],圖1為英漢機(jī)器翻譯短語自動識別算法校正流程圖。
如圖1所示,歸約與推進(jìn)指令的作用非常類似,都要求重新替換解析線性表中的終止符位置,但在意義上存在本質(zhì)區(qū)別。歸約是指重新制定句法功能識別約束條件,表示前一個約束條件無效或循環(huán)過程出現(xiàn)錯誤。推進(jìn)是指在本次句法功能識別中不存在結(jié)構(gòu)歧義的錯誤點(diǎn),位于終止符前方的短語詞性識別結(jié)果是正確的,應(yīng)調(diào)取接受指針輸出留用。接受指針和推進(jìn)指針在正常情況下是同時出現(xiàn)的,若算法流程中只存在二者之一,表明循環(huán)出錯或算法設(shè)定出錯,應(yīng)重新調(diào)出解析線性表,收回已接受的詞性識別結(jié)果。在替換終止符之前,對指針類型進(jìn)行檢測,如果為歸約指針,檢測指針的約束條件能否在短語語料庫中搜索到,若搜索不到,進(jìn)入終止指針。
終止指針產(chǎn)生于有可能存在結(jié)構(gòu)歧義的預(yù)備點(diǎn)上,出現(xiàn)終止指針后,算法構(gòu)造短語結(jié)構(gòu)樹,標(biāo)記符號棧,分析預(yù)備點(diǎn)的中心點(diǎn)符號是否存在且安置在正確的語句結(jié)構(gòu)上,若不存在或安置錯誤,算法立即調(diào)取出錯指針校正詞性的識別結(jié)果。
整個算法校正流程存在多個短語識別輸出口,而一個接受指針單次只能輸出一個識別結(jié)果,當(dāng)發(fā)生多個識別結(jié)果需要同時輸出的情況時(如兩個短語在語句中的位置是相鄰的),將多個識別結(jié)果寫入短語結(jié)構(gòu)樹的同一個節(jié)點(diǎn)中,這時接受指針會自動將其視為一個識別結(jié)果。
2 實驗測評
2.1 測評方法
實驗組織了測評小組,對本文設(shè)計的英文機(jī)器翻譯短語自動識別算法性能進(jìn)行測評,包括短語識別精度、識別速度和更新能力。測評小組包含3臺英漢機(jī)器翻譯、2名英漢翻譯人員和2名打分人員。3臺英漢機(jī)器翻譯的規(guī)格相同,初始化后分別裝備本文算法、統(tǒng)計算法和動態(tài)記憶算法。
測評方法使用封閉測評和開發(fā)測評。封閉測評是指對特定英漢翻譯語句中的短語進(jìn)行自動識別;開發(fā)測評中的英漢翻譯語句由網(wǎng)絡(luò)隨機(jī)挑選[10]。通過三種短語自動識別算法識別并給出翻譯結(jié)果后,2名英漢翻譯人員以交流方式進(jìn)行翻譯,打分人員對比機(jī)器翻譯與人工翻譯,按照打分規(guī)則為三種算法打分,打分規(guī)則如下:
(1) 算法的識別精度、識別速度和更新能力的分?jǐn)?shù)分別占總分的90%,5%,5%。
(2) 識別精度打分規(guī)則(不考慮錯別字)如下:
100分:翻譯結(jié)構(gòu)意義表達(dá)完全準(zhǔn)確,語法結(jié)構(gòu)無需修改;
80分:整體釋義表述清晰,存在微小的語法結(jié)構(gòu)錯誤,必要時應(yīng)進(jìn)行簡單修改;
60分:整體釋義表述清晰,存在多處語法結(jié)構(gòu)錯誤,必須進(jìn)行修改,否則意義表述存在歧義;
40分:部分釋義表述清晰,短語釋義無明顯錯誤,整體釋義不連貫;
20分:整體和部分釋義均很混亂,短語釋義存在明顯錯誤;
0分:整體和部分釋義均很混亂,不知所云。
(3) 識別速度和更新能力的打分規(guī)則使用加權(quán)平均值法,即將算法的總識別時間和總更新時間乘以權(quán)值后進(jìn)行求和,再除以短語識別數(shù)量。
2.2 測評結(jié)果
實驗分別在封閉測評和開發(fā)測評中進(jìn)行了60個語句的短語識別,三種算法的測評結(jié)果見表2~表4,測評結(jié)果得分最高的是本文算法,平均為92.3分,最低的是統(tǒng)計算法,為75.1分。動態(tài)記憶算法的測評結(jié)果得分為91.2分,與本文算法的得分相差不大,但動態(tài)記憶算法的更新能力嚴(yán)重不足,從長遠(yuǎn)角度來看,本文算法更具實用價值。
3 結(jié) 論
基于改進(jìn)的GLR算法和解析線性表設(shè)計的英漢機(jī)器翻譯短語自動識別算法改進(jìn)了標(biāo)準(zhǔn)GLR算法識別結(jié)果精度低的缺陷,又以解析線性表對短語的詞性和結(jié)構(gòu)進(jìn)行識別,給出短語在語句中最為正確的安置位置。整個算法的計算簡便、解析難度低,并且短語識別精度高、識別速度快、更新能力強(qiáng),同以往設(shè)計的短語自動識別算法相比,本文算法的優(yōu)勢突出,實用性強(qiáng)。
參考文獻(xiàn)
[1] 李英軍.機(jī)器翻譯與翻譯技術(shù)研究的現(xiàn)狀與展望:伯納德馬克沙特爾沃思訪談錄[J].中國科技翻譯,2014,27(1):24?27.
[2] 李強(qiáng),何燕龍,欒爽,等.統(tǒng)計機(jī)器翻譯刪詞問題研究[J].中文信息學(xué)報,2014,28(5):125?132.
[3] 楊憲澤,陳毅紅.漢藏機(jī)器翻譯的特點(diǎn)與手寫漢字切分分析研究[J].計算機(jī)工程與科學(xué),2014,36(8):1595?1598.
[4] 蘇晨,張玉潔,郭振,等.使用源語言復(fù)述知識改善統(tǒng)計機(jī)器翻譯性能[J].北京大學(xué)學(xué)報(自然科學(xué)版),2015,51(2):342?348.
[5] 李強(qiáng),李沐,張冬冬,等.統(tǒng)計機(jī)器翻譯中實例短語對研究[J].北京大學(xué)學(xué)報(自然科學(xué)版),2016,52(1):113?119.
[6] 尤勝.基于異構(gòu)技術(shù)的數(shù)字圖書館信息統(tǒng)計平臺[J].現(xiàn)代電子技術(shù),2016,39(7):167?170.
[7] 孟凡軍,李天偉,徐冠雷,等.基于K均值聚類算法的霧天識別方法研究[J].現(xiàn)代電子技術(shù),2015,38(22):80?83.
[8] 崔啟亮,李聞.譯后編輯錯誤類型研究:基于科技文本英漢機(jī)器翻譯[J].中國科技翻譯,2015,28(4):19?22.
[9] 應(yīng)玉龍,項明.局部相位量化特征的織物瑕疵檢測算法[J].西安工程大學(xué)學(xué)報,2015,29(5):541?545.
[10] 汪昆,宗成慶,蘇克毅.統(tǒng)計機(jī)器翻譯和翻譯記憶的動態(tài)融合方法研究[J].中文信息學(xué)報,2015,29(2):87?94.