王丹丹,黃德根,高揚
(大連理工大學 計算機科學與技術學院,遼寧 大連 116024)
基于音節劃分及短語表優化的英漢人名音譯研究
王丹丹,黃德根,高揚
(大連理工大學 計算機科學與技術學院,遼寧 大連 116024)
把英漢人名音譯問題轉換為以音節為基本單位的翻譯問題,將連續的音節組合看作短語,引入一種基于短語的統計機器翻譯方法,實現英漢人名的音譯。首先,針對現有音節劃分方法存在的問題,提出一種改進的音節劃分方法;其次,該文提出去除低頻詞法及基于C-value方法對短語表進行優化,解決了訓練語料偏小導致短語表中出現雜質信息的問題;之后,融入了漢語人名中首字(詞)及尾字(詞)的位置特征,改善了生成的音譯候選中漢字選取的不合理性;最后,提出了兩階段音節劃分方法,緩解了音節劃分粒度過大導致的音譯錯誤。與基準方法相比,其音譯準確率ACC由63.78%提高到67.56%。
英漢人名音譯;音節劃分;短語表優化;C-value
人名音譯是指利用源語言及目標語言發音規則的異同將源語言人名翻譯成目標語言,在機器翻譯、跨語言信息檢索等多語言處理任務中有重要作用。隨著互聯網絡的迅猛發展,傳統的基于詞典的人名翻譯方法已不能適應當前海量數據增長的需求,逐漸被基于數據驅動的人名音譯方法取代。
根據處理單元的不同,人名音譯方法一般分為基于發音、基于字形和基于發音字形混合的方法[1],文獻[2]提出了基于發音的方法,利用源語言發音規則先將源語言人名轉換為發音中間體,然后根據目標語言的發音規則,將中間體轉換為目標語言;文獻[3]提出了基于字形的方法,即直接由源語言不經過任何中間體轉換為目標語言;文獻[4]提出將音節及字形特征相融合的方法。相比于其他兩類方法,基于字形的方法不需要經過中間體轉換,會減少轉換過程中的信息丟失,效果更優。
根據音節劃分粒度的不同,分為以字母和以音節作為音譯對齊基本單位的方法,文獻[5]將英文的每個字母作為音譯單元;文獻[6]將英文進行音節劃分,然后將每個音節作為音譯單元;文獻[7]提出基于多粒度的英漢人名音譯方法,針對多個角度使用不同粒度的音節劃分方法。實驗結果表明,基于多粒度的音譯效果要優于單一粒度的音譯效果。
現有人名音譯研究在音節劃分和短語表優化方面還存在不足,主要如下: (1)音節劃分規則不夠完善,導致劃分錯誤較多;(2)由于訓練語料偏小,導致Moses系統生成的短語表中存在很多只出現一次,且翻譯概率為1的低頻短語,使短語表存在雜質;(3)音節劃分粒度過大使音譯時某些音節在短語表中找不到翻譯,導致音譯錯誤。
為此,針對英漢人名音譯的特點及現有方法存在的問題,提出一種基于音節劃分和短語表優化的人名音譯方法。著重從下面幾個方面進行改進: (1)在文獻[8]的基礎上對音節劃分方法進行優化;(2)提出去除低頻詞法及基于C-value的短語表優化方法;(3)融入位置特征,僅考慮首詞和尾詞的位置特征;(4)提出兩階段音節劃分方法。
2.1 音節劃分
人名的音譯可以看作是簡化的、無調序的機器翻譯。音譯前需對語料進行分詞預處理: 對于漢語語料,用空格將人名中的每個漢字隔開,將每個漢字看作句子中的一個詞;對于英文語料,則根據發音規則對語料進行音節劃分,將每個音節看作一個詞。
文獻[8]按照英文的發音規則,首先,對音節字母進行如下定義: (1)將a、e、i、o、u定義為元音,m、n為鼻音,其他字母為輔音;(2)若y跟著輔音出現,則y為元音,否則為輔音。其次,按照英文發音的規律,制定了適合英漢人名音譯的音節劃分處理規則,見表1,其中,“( )”表示將括號內的內容合并為一個音節。
2.2 基于短語的統計機器音譯模型
將音譯問題看作語言翻譯問題,從而引入統計翻譯模型。本文采用對數線性多特征融合的方法解決英漢人名音譯問題,該音譯模型的計算如式(1)所示。
(1)
其中,c表示漢語人名,e表示英文人名,λi表示第i個特征的權重,hi(e,c)表示英語及漢語間第i個特征,n表示特征的個數。

表1 音節劃分規則
本文使用的特征包括:
(3) 漢語語言模型:lm(c)
(4) 漢語人名的長度
由于現有Moses音譯系統存在音節劃分規則不完善,音節劃分粒度大以及短語表中含有雜質信息等缺點。為此,本文針對現有Moses人名音譯系統中的音節劃分及短語表優化等問題進行改進,改進后的模型見圖1。(1)改進“音節劃分”模塊,主要對音節劃分規則進行修改,以解決現存音節劃分規則不夠充分導致的音節劃分錯誤;(2)利用基于C-value的短語表優化方法,以解決訓練語料偏少導致的短語表存在雜質信息的問題;(3)融入漢語人名中首字(詞)和尾字(詞)的位置特征,以解決生成的音譯候選中漢字選取的不合理性;(4)在測試階段提出兩階段音節劃分方法,以解決音節劃分粒度過大導致的在詞典中找不到音節翻譯的問題。
3.1 音節劃分方法的改進
根據表1規則進行音節劃分后的人名,經過GIZA++雙向對齊后,會產生一些錯誤的對齊結果,繼而影響音譯效果,經統計分析,導致該錯誤的原因在于表1音節劃分規則的不準確性及不充分性。其表現在: (1)對于連續的重復輔音,常發同一個音,不應劃分開,如人名“zucca(朱卡)”中“cc”應合并發音;(2)某些連續的元音組合不只發一個音,劃分開會使對齊效果更優,如人名“abbiati(阿比亞蒂)”中,“ia”發兩個不同的音;(3)“gh”、“h”、“ng”等在不同的情況具有不同的發音規則,應進行特殊處理。上述問題(1)和(2)闡述了表1中的規則1和規則2存在的缺陷,為此對表1中的規則1和規則2進行修正;為解決問題(3),我們增加了四條規則,見表2中的規則8、規則9、規則10和規則11。其中,“()”表示將括號內的內容合并為一個音節。

圖1 改進后的Moses音譯流程圖

規則序號英文人名的情況音節劃分處理方式規則類型1連續的輔音除了重復的輔音合并外,其余均劃分開修正2連續的元音除了eo,ia,io,iu,oi,ua,ui,uo等劃分開,其余均合并,作為組合元音修正3輔音+元音(輔音+元音)不變4任何獨立的元音或輔音作為獨立的音節不變5元音+鼻音+元音元音+(鼻音+元音)元音+鼻音+輔音/無字符(元音+鼻音)+輔音/無字符不變6c/s/z/t/p/w+h(c/s/z/t/p/w+h)并定義為輔音不變7元音+r+元音元音+(r+元音)元音+r+輔音/無字符(元音+r)+輔音/無字符不變

續表
3.2 短語表的除雜優化
基于短語的統計機器翻譯,使用GIZA++進行雙向對齊,從對齊結果中抽取出雙語短語并計算翻譯概率,進而構造出短語表。由于訓練語料偏小,導致Moses系統生成的短語表中存在很多只出現一次,且翻譯概率為1的低頻短語。僅根據短語出現一次就斷定其翻譯概率為1,這不符合現實世界的真實情況。本文考慮使用去除低頻詞法及基于C-value 的方法分別對短語表進行優化。
3.2.1 基于去除低頻詞的短語表優化
首先定義如下,#(en)表示英文短語en在短語表中出現的次數,#(en,ch)表示在短語表中英文短語en音譯為漢語短語ch的次數,那么英文短語en音譯為漢語短語ch的概率為p(ch|en)=#(en,ch)/#(en)。據統計,符合#(en)=1,#(en,ch)=1且所含音節個數大于2的短語占總短語表的81.7%。由于數據稀疏,這樣在訓練語料中只出現一次且翻譯概率為1的低頻短語與現實世界的真實情況不符。為了消除此類短語的影響,本文從原短語表中刪除符合如下情況的短語再進行音譯: #(en)=1,#(en,ch)=1且所含音節個數大于1的短語,之所以不刪除長度為1的短語是因為其本身就是音譯的基本單位。
3.2.2 基于C-value的短語表優化
我們引入C-value[9]來衡量短語的貢獻程度,進而對短語表除雜優化。C-value的定義見式(2)。
(2)
其中,|a|表示短語a的長度,即短語a包含的英文音節個數,f(a)表示短語表中短語a出現的頻次,Ta表示短語表中包含a的更長的短語,P(Ta)表示短語表中Ta的頻次,∑b∈Taf(b)表示短語a在所有包含a的長短語里出現的頻次。
由式(2)可見,C-value不僅考慮短語長度和出現頻次,還考慮包含當前短語的更長短語的信息。C-value與短語的長度和短語出現的次數成正比。其主要思想為: 短語的長度越長、頻次越高,其作為短語的貢獻度越高;若一個短語經常在比他更長的短語中出現而很少單獨出現,可能該短語出現頻次很高,但作為短語的貢獻度卻較低。
基于C-value的短語表優化方法的步驟如下:
(1) 根據C-value的公式計算短語表中的每個短語的C-value;
(2) 按照C-value從小到大進行排序,并求出以每個C-value作為閾值時,大于等于當前閾值的短語占整個短語表的比例;
(3) 根據經驗選取若干個具有代表性的C-value作為閾值,并刪除原短語表中小于當前閾值的短語。
3.3 融入位置特征
同一音節可能存在不同的音譯候選,此時,漢字的位置特征可以決定使用哪個漢字更合適。例如,英文人名“kilogore(基洛戈爾)”,音節劃分后的結果為“ki/lo/go/re”,根據音譯短語表可知,音節“re”的音譯候選可能有“爾”,“雷”,“里”等,解碼后的音譯候選按照音譯概率從大到小依次為“基洛戈雷”、“基洛戈爾”、“基洛戈里”等。但根據位置特征,“爾”一般不出現在詞首,“雷”,“里”經常出現在詞中或詞首,將位置特征與原有特征相融合,重新調整音譯候選的順序,最終得到正確的最優候選“基洛戈爾”。
由于同一英文人名生成的候選漢語人名的長度可能不同,若要考慮每個字的位置特征,則不同長度的候選漢語人名的位置特征不具有可比性,為此,本文僅考慮首字(詞)及尾字(詞)的位置特征。位置特征的計算方法: 首先將漢語語料中人名里的每個漢字用空格隔開;然后,利用BEO(B表示首位置,E表示尾位置,O表示其他位置)的方式分別標記每個字(詞),統計每個字(詞)分別出現在B、E、O的概率。實驗表明,該方法要優于考慮人名中所有字的位置特征的方法。
3.4 解碼時的兩階段音節劃分方法
為了獲得較好的對齊結果,在音節劃分方法中引入了粒度較大的劃分方法,如“元音+鼻音+輔音/無字符”情況,其將鼻音與前面的元音合并為一個音節,然而由于音節劃分粒度過大,使得音譯過程中在短語表內找不到音節的對應翻譯。以英文人名“gwillim”為例,其音節劃分結果為“g/wi/llim”,而由于音節“llim”在短語表中未找到對應翻譯,導致音譯錯誤。因此,提出了兩階段的音節劃分方法。
如圖2所示,第一階段音節劃分方法使用表2所示的優化后的音節劃分規則,解碼后,若存在未翻譯的音節,則進入第二階段音節劃分,劃分后再次解碼。第二階段音節劃分的規則在表2規則的基礎上進行如下變化:
(1) 若音節中含有y,且y的前一字符為輔音,則將y替換為i;
(2) 若最后一個字符為m或g,則將m或g與前面的音節分離;
(3) 若最后兩個字符為ne,則將ne與前面的音節分離;
(4) 若r前面的音節長度大于2,則r與前面的音節劃分開;
(5) 若gh后為輔音或者無字符時,則gh不發音;
(6) 若元音+h+輔音,則h不發音。
4.1 實驗數據及實驗方法
英漢人名音譯實驗數據參照2012 Named Entities Workshop的英漢人名語料庫[10]。其中,訓練集含有37 753對英漢人名,調優集含有3 278對英漢人名。本文為了驗證提出方法的有效穩定性,考慮使用交叉驗證方法進行實驗。從訓練集中隨機取出3 000對作為測試語料,剩下的34 753對作為訓練語料,并使用此方法選取五組不同的訓練及測試數據,調優集不變。
英漢人名音譯的實驗過程包括: 音譯模型的訓練、語言模型的建立、權重的調優及解碼。在音譯模型的訓練階段,利用GIZA++進行對齊生成短語表(參數設為grow-diag-and-fial)[11];在語言模型建立階段,使用Srilm工具[12]計算漢語語料的N-gram語言模型(N取3);在調優階段,使用MERT方法調整各特征權重達到最優;在解碼階段,由于人名音譯可看作是無調序的機器翻譯,為保證順序解碼,distortion設置為0,其他為默認設置。實驗中,選取系統生成的前十個結果作為最優音譯候選。
為評價音譯結果的質量,采用如下四個指標進行評價[10]: 最優候選結果的準確率(ACC);最優候選結果與正確結果間的相似度(Mean F-score);正確結果在N個最優候選結果中靠頂部的程度(MRR);衡量正確候選結果中是否包含所有正確結果(MAPref)。
4.2 實驗結果及分析
由于訓練語料偏小導致短語表中存在雜質信息,使用基于去除低頻詞的方法對短語表進行優化,以“音節劃分優化”為基準實驗,表3為去除低頻詞前后的音譯對比結果。
使用基于去除低頻詞的方法對短語表進行除雜,原短語表有八萬多條短語,從短語表中將符合條件的短語刪除,使短語表縮減到兩萬多條,即僅是原短語表的28.3%,如表3所示,其音譯效果并未明顯下降,說明短語表中確實存在雜質信息。

表3 基于去除低頻詞短語表除雜前后音譯效果
使用基于C-value的方法對短語表優化,選取不同C-value作為閾值對短語表進行除雜,進行多組對比實驗,結果如表4所示。當C-value閾值取0.9時,即當短語表縮減到原來的80.9%時,音譯效果最優,與使用整個短語表的音譯效果相當。由于短語表中存在大部分頻次僅為1的短語,無法僅通過基于統計的方法有效優化短語表,今后考慮結合基于規則等方法對短語表進一步除雜優化。

表4 不同C-value閾值下短語表大小及音譯性能
在基準系統基礎上,進行一些改進實驗,實驗對比結果如表5所示。為了說明方法的穩定有效性,以下實驗結果均為使用交叉驗證后,五組實驗獲得結果的平均值。其中,實驗2針對基準系統中音節劃分規則的不完善性,對其進行修正及擴充,其音譯準確率ACC提高了2.52%;實驗3則考慮到音譯候選結果中漢字的選擇與其在人名中出現的位置有密切關系,所以融入位置特征進行實驗,其音譯準確率ACC提高了3.19%;實驗4為了解決由于音節劃分粒度過大導致的某些音節在短語表中找不到翻譯的問題,引入兩階段音節劃分方法,最終音譯準確率ACC提高了3.78%;實驗5及實驗6為文獻[5]及文獻[6]的實驗結果,進一步說明了本文方法的有效性。

表5 基準系統與改進方法的實驗對比

續表
針對當前人名音譯研究中存在的問題進行改善,包括音節劃分方法的改進、融入首尾位置特征以及提出兩階段音節劃分方法等,改進后方法的準確率提高了3.78%。同時,提出了去除低頻詞法及基于C-value方法優化短語表,有效去除了雜質信息。
通過分析人名中音節的發音情況,某些音節具有不同的發音。例如,“r,d,t”等有時發音,有時卻不發音;“gh”有時合并發音,有時分開發音,有時不發音,這些都沒有明確的發音規則,無法通過統一的音節劃分方法來確定。因此,在今后的工作中,可以考慮將不同音節劃分方法獲得的音譯結果融合。此外,不同來源的人名發音規則不同,如“Smith”為英語來源的,應翻譯為“史密斯”,而“Matsumoto”為日語來源的,則應翻譯為“松本”更合適。今后可以考慮在音譯之前先進行人名來源的識別,以進一步提高其音譯效果。
[1] Karimi S,Scholer F,Turpin A. Machine transliteration survey[J]. ACM Computing Surveys (CSUR),2011,43(3): 17-46.
[2] Knight K,Graehl J. Machine transliteration[J]. Computational Linguistics,1998,24(4): 599-612.
[3] Haizhou L,Min Z,Jian S. A joint source-channel model for machine transliteration[C]//Proceedings of the 42nd Annual Meeting on association for Computational Linguistics. Association for Computational Linguistics,2004: 159-166.
[4] Oh J H,Choi K S. An ensemble of transliteration models for information retrieval[J]. Information processing & management,2006,42(4): 980-1002.
[5] Jia Y,Zhu D,Yu S. A noisy channel model for grapheme-based machine transliteration[C]//Proceedings of the 2009 Named Entities Workshop: Shared Task on Transliteration. Association for Computational Linguistics,2009: 88-91.
[6] Zhang C,Li T,Zhao T. Syllable-based machine transliteration with extra phrase features[C]//Proceedings of the 4th Named Entity Workshop. Association for Computational Linguistics,2012: 52-56.
[7] 于恒,涂兆鵬,劉群,等. 基于多粒度的英漢人名音譯[J]. 中文信息學報,2013,27(4): 16-21.
[8] Li L,Wang P,Huang D,et al. Mining English-Chinese Named Entity Pairs from Comparable Corpora[J]. ACM Transactions on Asian Language Information Processing (TALIP),2011,10(4): 19.
[9] Frantzi K,Ananiadou S,Mima H. Automatic recognition of multi-word terms: the C-value/NC-value method[J]. International Journal on Digital Libraries,2000,3(2): 115-130.
[10] Zhang M,Li H,Liu M,et al. Whitepaper of news 2012 shared task on machine transliteration[C]//Proceedings of the 4th Named Entity Workshop. Association for Computational Linguistics,2012: 1-9.
[11] Koehn P,Och F J,Marcu D. Statistical phrase-based translation[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1. Association for Computational Linguistics,2003: 48-54.
[12] Stolcke A. SRILM-an extensible language modeling toolkit[C]//Proceedings of the Interspeech. 2002.
[13] Koehn P,Hoang H,Birch A,et al. Moses: Open source toolkit for statistical machine translation[C]//Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions. Association for Computational Linguistics,2007: 177-180.
English-Chinese Name Transliteration Basedon Optimization of Syllabification and Phrase Table
WANG Dandan,HUANG Degen,GAO Yang
(School of Computer Science and Technology,Dalian University of Technology,Dalian,Liaoning 116024,China)
The English-Chinese name transliteration can be described as syllable-based translation,which can be solved by current a phrase-based statistical machine translation model. After describing a detailed rule-based syllabification method,this paper presents a translation phrase table optimization by frequency thresh-hold and c-value. In addition,the method is also featured by integrating the local features of Chinese names,as well as a two-stage of syllabification strategy. The experimental results show that the performance of the English-Chinese name transliteration is improved from 63.78% to 67.56% in terms of ACC.
English-Chinese name transliteration; syllabification; phrase table optimization; C-value

王丹丹(1989—),碩士研究生,主要研究領域為自然語言處理與機器翻譯。E?mail:15092170184@163.com黃德根(1965—),通信作者,博士,教授,博士生導師,主要研究領域為自然語言處理與機器翻譯。E?mail:huangdg@dlut.edu.cn高楊(1988—),碩士,主要研究領域為自然語言處理。E?mail:389021064@qq.com
2014-07-22 定稿日期: 2015-01-21
國家自然科學基金(61173100,61173101,61272375);福建省自然科學基金(2014J01218)
1003-0077(2016)03-0096-07
TP391
A