吳培昊,徐金安,張玉潔
北京交通大學,北京 100044
漢語與日語不同于英語等西方語言,句子不存在空格作為邊界的詞分隔符[1]。因此,分詞為漢語與日語自然語言處理的重要工作?,F有的關于漢語與日語分詞技術發展較為成熟,存在許多分詞工具。然而,由于漢語和日語分詞大多根據自身的語言特點指定詞性標注體系。詞性標注體系的差異導致分詞粒度存在差異,同時分詞粒度在信息檢索、機器翻譯等具體應用領域中產生不同的影響效果。另一方面,既有研究成果表明,評價分詞性能的F-score值與機器翻譯系統的質量之間并沒有明顯關系[2-4]。就統計機器翻譯而言,一種提高翻譯系統性能的方法為通過調整分詞粒度,對源語言和目標語言端分詞結果進行調整。因此,如何調整漢語和日語分詞粒度,以提高統計機器翻譯系統的性能,是一個值得探討的研究課題。
導致不同或同種語言分詞粒度不同的原因,大致歸納如下:
(1)語系不同導致分詞粒度不同。例如,漢語屬于孤立語系,日語屬于黏著語系,各自形成語義的構成要素存在較大差異。
(2)詞性標注體系不同,導致分詞粒度不同。
(3)使用目的不同,對分詞粒度存在不同要求。
(4)語言文化、語法構成和語義表現等的差異,導致分詞粒度不同。
(5)未登錄詞識別問題導致粒度不同。
由于異種語言間的詞匯、語法和語義層面上大多是非同構的,很難達到詞與詞之間的一一對應關系[5]。因此,既有的單語分詞結果在使用于機器翻譯時,需要同時考慮源語言與目標語言的詞法特點,對雙語分詞粒度進行整合,以期改善統計機器翻譯系統的性能。因此,分詞粒度對漢日雙語統計機器翻譯的影響,還有待深入的研究。
目前,面向統計機器翻譯的漢語分詞粒度研究的主流方法是依據另一端語言分詞信息,對漢語分詞粒度進行調整。在漢英統計機器翻譯領域,Wang等[6-7]的實驗表明,細粒度分詞結果,能提升統計機器翻譯系統的性能。Ma等[8]提出基于訓練語料的自適應方法,采用可信對齊構建字格(word lattice)對漢語端進行粒度調整,以提升分詞的領域適應能力。奚寧等[5]描述一種基于可信對齊與單語分詞相融合的策略對漢語分詞進行調優。Bai等[9]依據漢英詞典對齊信息抽取漢語粒度切分的規則模板,使用模板進行漢語分詞粒度調整。Wang等[6]采用一種半自動(semi-automatic)的學習方法,對漢語分詞進行短單元(short-unit)的調整。Dyer[10]和 Zhang[3]等人基于多策略漢語分詞對漢英統計機器翻譯解碼過程進行優化。
由于日語端不存在空格作為詞分隔符,無法確定上述在中英有效的方法在漢日機器翻譯中是否有效。漢語與日語語言中均使用漢字,因此在漢日機器翻譯中可使用漢字對照表作為特征信息進行粒度調整。Chu等[11]使用漢日漢字對應信息,通過日語端分詞結果對漢語端分詞結果進行調優,該方法沒有對漢語的分詞粒度進行考察,也沒有同時調整漢日雙語的分詞粒度。
為系統地考察通過改善分詞粒度提高漢日雙語統計機器翻譯系統性能的可行性,本文使用簡體漢字與日語漢字對照表以及日漢詞典相結合,提出了一種提高統計機器翻譯系統性能的漢日雙語分詞粒度調整策略。實驗結果表明,提出的方法能有效調節漢日雙語分詞粒度,提升機器翻譯系統的性能。
漢字在漢語與日語中均被廣泛使用[12],日語漢字來源于古漢語,因此日語漢字與漢語漢字(包含簡體漢字與繁體漢字)在很多情況下是相同的。然而,如表1所示,日語漢字與漢語漢字的對應關系十分復雜。Goh等[13]使用日漢字典,通過直接匹配的方法,將日語漢字轉化為漢語漢字;Chu等[12]使用開源資源構建日語漢字、繁體漢字、簡體漢字對照表。

表1 漢字不同表現
漢日雙語翻譯系統中,漢語端通常只包含簡體漢字,因此本文構建日語漢字與簡體漢字的對照表。圖1為本文提出的日語漢字與簡體漢字對照表構建的流程圖。該流程中,本文共使用三類字典信息:
(1)字形變化字典。一個漢字在漢日字典中可能存在多種不同字形,因此在構建字典時,可以枚舉每種字形情況進行對應關系抽取。Unihan Database(http://unicode.org/charts/unihan.html)為Unicode Consortium的中日韓三語的知識數據庫。該數據庫中包含每個漢字的變型(variants)特征信息,該特征信息記錄了日語漢字與漢語漢字之間的關系。本文采用variants對日語漢字進行字形變化,若兩個漢字之間通過variants存在聯系,則說明兩個漢字可以相互轉化。
(2)漢日漢字字典。本文使用Kanconvit(http://kanconvit.ta2o.net)中的漢日漢字轉化表作為漢日漢字字典,該字典共包含了1 159個詞表變型(variants)不同的漢字對信息。
(3)繁簡漢字字典。如表2所示,繁簡漢字之間并非簡單的一一對應關系。本文使用Chinese Encoding Converter(http://www.mandarintools.com/zhcode.html)中的繁簡漢字轉化表作為繁簡漢字字典。該表含有6 740對繁簡單詞轉化信息。
本文通過上述方法與資源構建簡體漢字與日語漢字轉化表。
本文使用EDR日漢對照詞典(http://www2.nict.go.jp/out-promotion/techtransfer/EDR/J_index.html)作 為 使用詞典,該詞典包含363 971個詞典條目,其中包括同義詞、部分同義詞,本文僅使用詞典中的同義詞作為詞典信息。

圖1 日語漢字轉化為簡體漢語漢字流程
在EDR詞典中,存在如表3所示情況,相同語義的詞并沒有對應關系。因此,本文使用兩個步驟對詞典進行整合:(1)使用漢日漢字對照表將日語的漢字轉化為漢語漢字;(2)若任意兩行詞典信息中存在相同詞,則認為兩行詞典中的所有詞均為同義詞,并將兩行的數據合并。

表3 詞典中同義詞信息樣例
通過上述兩個步驟,獲得最終的日漢對照詞典。
Bai等[9]表明調整分詞粒度使得雙語詞素間達到一一對齊關系,能優化對齊結果,從而提升機器翻譯精度。本文使用漢日漢字對照表以及日漢詞典對雙語平行語料進行分詞粒度處理,抽取出雙語分詞粒度不同的單詞對,以進行下一步工作。
抽取過程主要包含以下兩個方面:
(1)抽取字表信息相同的詞對:若某一端單詞通過漢日漢字對照表進行漢字轉化,得到的結果與另一端的連續單詞序列完全相同,則稱該詞對的字表信息相同。例如,漢語端單詞“中國人”通過對照表可轉化為“中國人”,同時日語端分詞結果存在單詞序列“中國人”,則“中國人”與“中國人”的字表信息相同。通過漢日漢字對照表,抽取所有字表信息相同但雙語端分詞粒度不同的詞對。
(2)抽取字典信息相同的詞對:如果字表信息不同,則依據字典信息,抽取單語端為詞,另一語言端為詞序列,并且存在于詞典中的詞對。例如,日語端“刻削な(殘忍的)”,通過詞典信息可以查詢到該單詞漢語端應為“殘忍的”,在漢語分詞結果中,“殘忍的”被切分為“殘忍”和“的”兩個單詞。通過詞典抽取字典信息相同,漢日雙語分詞粒度不同的詞對。
本文使用CWMT2011漢日新聞語料進行測試,通過本節所述方法進行詞對抽取。本文對字表信息或字典信息相同,但分詞粒度不同的詞語進行歸納總結,主要存在以下幾類漢日切分中的不同。
以下兩節將從(1)漢語細粒度分析;(2)日語細粒度分析兩個方面進行雙語分詞粒度差異分析。
漢語端單詞被切分為細粒度的原因主要如下幾類:
(1)漢語中出現的日語專有名詞無法正確切分。主要包括日語中特有的命名實體,即人名、地名、組織名等。例如“山田”為日本人名,而漢語分詞時無法識別,切分為“山田”造成錯誤。
(2)漢語結構助詞。漢語中結構助詞“的”、“地”、“得”用法較為復雜,例如“恐れながら(冒昧地)”、“うれしい(高興的)”、“思わず(不由得)”等。中文端將結構助詞單獨成詞,日語端由于語法及語義的原因,漢語結構助詞信息往往包含于日語單詞中,從而造成漢日切分粒度不同。
(3)日語縮略語。日語存在大量的漢語縮略語,例如日語端單詞“急變(突然變化)”,漢語端將該詞切分成多個單詞“突然”和“變化”,造成漢日分詞粒度不同。
(4)漢語“不”字問題?!安弧痹跐h語中常表示對后續詞的否定,被獨立切分成詞。而日語語法中一般使用詞尾變化表示否定意義,例如“つまらない(不值錢)”中,使用后綴“ない”表示否定,而漢語端切分為“不”和“值錢”兩個單詞,類似的還有“めちゃくちゃ(不合理)”、“不仲(不和睦)”、“不作法(不禮貌)”等,日語端均為一個單詞,而漢語端為多個單詞,造成切分粒度不同。
(5)日語熟語。日語存在的固有熟語,例如“おはよう(您早)”、“乗り物(交通工具)”、“乗り合い(公共馬車)”等,在漢語端均切分為多個詞語。
(6)日語動詞后綴問題。類似于“不”字,日語均使用后綴變化進行動詞的時態等變化,因此“乗れる(能乘坐)”、“吐き出せる(能吐出)”等詞的漢語端粒度均無法與日語端一致。需要注意的是,日語中不同詞所使用的否定意義的詞綴不同,不易將日語端詞綴進行切分。
日語端單詞被切分為細粒度的原因主要如下幾類:
(1)數詞、時間詞。漢語分詞將數詞和相關的后續詞合并,日語端則分開處理。例如“16日”,“1.95 V”等均進行了分割。
(2)漢語專有名詞。主要包括漢語中的專有名詞例如人名“丁美媛”、“一年生”、“中央軍事委員會”等日語中均無法進行正確切分。
(3)漢語熟語。漢語中存在一些固定用語的情況,如“一海知義(一海知義)”、“一瞬間(一瞬間)”等,由于固定用語并不存在于日語分詞詞典中,日語分詞中無法與漢語端粒度相對應。
(4)詞類后綴。在漢語中“市”、“縣”、“部”、“街”、“人”、“化”等詞語后綴均與相關詞匯合并為一個詞,而日語中將此類詞單獨成詞。
3.2與3.3節的分析表明,由于漢日分詞工具分詞結果的不同,漢日雙語分詞粒度差異嚴重,雙語粒度并沒有達到一一對應的效果。
本文使用3.1節所述方法,通過漢日漢字轉化詞典、日漢對照詞典,從分詞后的語料中,抽取分詞粒度不相同,但字表信息相同,或字典信息相同的詞對。
本文處理中,只考慮抽取的詞對中,存在一端為單詞的情況。對于字表與字典信息相同的詞對,采取不同的處理方式。
若該詞對字典信息相同,則將詞對的任意端都合并成一個單詞處理。
若該詞對字表信息相同,由于可以正確獲取到每個單詞的對應信息,因此,可以使用如下兩種方法處理。
(1)詞對中一端單詞依據另一語言端的詞序列,切分成與另一語言端序列一致的單詞序列。
(2)將分詞結果為詞序列的一端,合并成一個單詞進行處理。
例如,中文端單詞“中國人”,為一個單詞,而日語端為詞序列“中國人”。既可以考慮使用方法1,將中文端“中國人”切分為詞序列“中國人”;也可以考慮參照方法2,將日語端詞序列“中國人”合并為單詞“中國人”。
下一章對本節提出方法進行實驗測試,研究分詞粒度變化對漢日雙語統計機器翻譯系統性能的變化。
本文使用CWMT2011漢日新聞語料,使用經過處理后的282 476句對作為實驗訓練集,498句對作為開發集,948句對作為測試集。使用NLPIR2013(http://ictclas.nlpir.org)作為漢語分詞工具,選用mecab(https://code.google.com/p/mecab/)作為日文分詞工具。本文所有實驗均采用 moses(http://www.statmt.org/moses)進行翻譯模型的訓練以及解碼工作,使用GIZA++(http://code.google.com/p/giza-pp/)作為對齊工具,Srilm(http://www.speech.sri.com/projects/srilm/)構建語言模型。漢日語言模型均使用5-gram模型;moses中使用grow-diagfinal-and優化對齊結果。實驗結果均使用BLEU及NIST作為測評標準。
Wang等[6-7]提出細粒度的分詞結果能提升統計機器翻譯系統的性能。本文為驗證當雙語分詞粒度不同時,雙語粒度融合與統計機器的影響,使用3.4節所述方法對雙語粒度不同的詞對進行抽取,對訓練語料進行如下處理,得到不同的分詞結果:
(1)使用分詞工具進行分詞的基線結果(baseline)。
(2)雙語分詞粒度不同的詞對中,漢語端詞序列合并為單詞(cn-mix)。
(3)雙語分詞粒度不同的詞對中,日語端詞序列合并為單詞(ja-mix)。
(4)雙語分詞粒度不同的詞對中,雙語端詞序列合并為單詞(both-mix)。
(5)雙語分詞粒度不同的詞對中,漢語端單詞根據日語端詞序列粒度,進行切分,形成詞序列(cn-split)。
(6)雙語分詞粒度不同的詞對中,日語端單詞根據漢語端詞序列粒度,進行切分,形成詞序列(ja-split)。
(7)將方法(5)與方法(6)的結果進行融合,得到雙語粒度均進行細切分的結果(both-split)。
對于上述7種分詞粒度不同的分詞結果,在漢日與日漢兩個方向,分別進行一組基于短語的統計機器翻譯性能測試。
經統計,在282 476句對的訓練語料中,僅存在23 274句對需要進行分詞粒度調整,存在粒度調整的語料占全部語料的比例較小。因此本文抽取出存在粒度調整的23 274句對,并且從剩余句對中隨機抽取80 000句對與其混合,提高粒度調整語料占所有語料的比例,再次在漢日與日漢兩個方向進行一組實驗。上述四組實驗的結果如表4所示。
通過3.2節的實驗結果可以得到如下結論:
(1)通過對雙語分詞粒度進行調整,能提升漢日雙語間統計機器翻譯系統的性能。
(2)并非所有的粒度調整都能提升統計機器翻譯系統的性能。
本文提出一種衡量雙語語料平行句對間的粒度差異的方法,其表達式如公式(1)所示:

其中,Corpus為雙語語料,Ci與Ji分別為源語言與目標語言的第i個句子,len(Ci)與len(Ji)分別為Ci與Ji的句子分詞后的詞總數,N為雙語語料的句對總數。
本文定義,根據指定雙語語料Corpus中所有句子計算出的dis(Corpus),為該語料中雙語的絕對粒度差值。同時,雙語語料與雙語語料B間分詞粒度若存在差異,令A中存在分詞粒度差異的句對集為A′,B中存在分詞粒度差異的句對集為B′,定義dis(A′)為A、B語料對間A的相對粒度差值,dis(B′)為A、B語料對間的B相對粒度差值,根據公式(2)比較語料與語料相對粒度差值之間的差異。

表4 不同分詞粒度與數據規模下漢日統計機器翻譯性能

圖2 漢日雙語機器翻譯中相對粒度差值差異與BLEU影響

根據上述定義,本文以baseline為基準,同組的其余實驗均與baseline進行比較,根據公式(2)計算,其中,T為同組其余實驗中的任意一組。本文比較與統計機器翻譯中BLEU值之間的關系,得到如下結果,圖2為3.2節大規模訓練集的實驗中,漢日(左圖)與日漢(右圖)的翻譯性能BLEU值與之間的關系結果圖。
圖2中橫軸為diff(baseline,T),豎軸為T的機器翻譯性能評價指標BLEU值。圖2左圖表明,在本文實驗條件下,漢日統計機器翻譯的性能與相對粒度差值之間存在正相關關系,即相對于baseline而言,訓練語料分詞的相對粒度越小,統計機器翻譯系統的性能越好。圖2右圖中除去一個特殊點外其余結果表明,日漢統計機器翻譯中也存在與漢日統計機器翻譯結果相同的性質。由于絕對粒度與相對粒度差值呈正相關關系,依據圖2結果,本文推測,雙語語料的絕對粒度差值在一定范圍內時,粒度差值與統計機器翻譯的性能呈正相關關系。
本文通過使用現有開源資源構建漢日漢字對照表,并使用構建的漢字對照表對EDR詞典進行優化。通過根據上述方法構建的資源,對漢日雙語語料的不同分詞粒度進行數據分析,在一定程度上解析了漢日分詞粒度不同現象產生的原因。
本文提出了使用漢日漢字對照表及詞典信息對雙語分詞粒度進行調整的方法。實驗結果表明,本文提出的方法能有效地調節雙語分詞粒度,提升漢日雙語間統計機器翻譯系統的性能。本文根據實驗結果,對漢日雙語統計機器翻譯性能與雙語句對粒度上的差異進行了分析與預測。
今后工作中,將繼續擴大詞典規模、補充漢日漢字對照表,進一步驗證本文提出的方法的有效性,對漢日雙語統計機器翻譯性能與雙語句對間詞數量上的差異進行更加深入的分析與研究,并且嘗試在層次短語模型中測試本方法的實用性與可擴展性。同時,對于在基礎分詞中分詞粒度不同的詞對,將根據詞對的特征信息如詞性等,對詞對進行置換操作,從而提升統計機器翻譯的系統性能。
[1]Chu C,Nakazawa T,Kawahara D,et al.Exploiting shared Chinese characters in Chinese word segmentation optimization forChinese-Japanese machine translation[C]//EAMT 2012,Proceedings of the 16th Annual Conference of the European Association for Machine Translation,Trento,2012:35-42.
[2]Chang P C,Galley M,Manning C D.Optimizing Chinese word segmentation for machine translation performance[C]//Proceedings of the 3rd Workshop on Statistical Machine Translation.[S.l.]:Association for Computational Linguistics,2008:224-232.
[3]Zhang R,Yasuda K,Sumita E.Improved statistical machine translation by multiple Chinese word segmentation[C]//Proceedings of the 3rd Workshop on Statistical Machine Translation.[S.l.]:Association for Computational Linguistics,2008:216-223.
[4]Xu J,Zens R,Ney H.Do we need Chinese word segmentation for statistical machine translation[C]//Proceedings of the 3rd SIGHAN Workshop on Chinese Language Learning,2004:122-128.
[5]奚寧,李博淵,黃書劍,等.一種適用于機器翻譯的漢語分詞方法[J].中文信息學報,2012,26(3):54-58.
[6]Wang Y,Uchimoto K,Kazama J,et al.Adapting Chinese word segmentation formachine translation based on short units[C]//LREC 2010:Proceedings of the 7th International Conference on Language Resources and Evaluation,La Valetta,Malta,2010:1758-1764.
[7]Wang Y,Kazama J,Tsuruoka Y,et al.Improving Chinese word segmentation and POS tagging with semi-supervised methods using large auto-analyzed data[C]//Proceedings of 5th International Joint Conference on Natural Language Processing,2011:309-317.
[8]Ma Y,Way A.Bilingually motivated domain-adapted word segmentation forstatistical machinetranslation[C]//Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics.[S.l.]:Association for Computational Linguistics,2009:549-557.
[9]Bai M H,Chen K J,Chang J S.Improving word alignment by adjusting Chinese word segmentation[C]//Proceedings of the 3rd International Joint Conference on Natural Language Processing,2008:249-256.
[10]Dyer C,Muresan S,Resnik P.Generalizing word lattice translation[R].[S.l.]:Inst for Advanced Computer Studies,College Park,Maryland Univ,2008.
[11]Chu C,Nakazawa T,Kurohashi S.Japanese-Chinese phrase alignment using common Chinese characters information[C]//Proceedings of MT Summit,2011,13:475-482.
[12]Chu C,Nakazawa T,Kurohashi S.Chinese characters mapping table of Japanese,traditional Chinese and simplified Chinese[C]//Proceedings of the 8th Conference on International Language Resources and Evaluation(LREC’12),2012.
[13]Goh C L,Asahara M,Matsumoto Y.Chinese word segmentation by classification of characters[J].Computational Linguistics and Chinese Language Processing,2005,10(3):381-396.