摘 要:結合一個基于格語法的日漢機器翻譯系統,針對現有系統日語動詞格框架缺乏的現狀,提出一種日語動詞格框架自動構造方法。該方法基于類比與統計思想,從現有的少量人工構造的動詞格框架和大量生語料出發,自動構造日語動詞格框架。
關鍵詞:機器翻譯; 日語; 格語法; 動詞格框架; 構造; 規則; 統計
中圖分類號:TP391.2文獻標志碼:A
文章編號:1001-3695(2007)06-0066-03
0 引言
從實現方式來看,機器翻譯可以分為基于規則和基于語料庫(基于統計和基于實例)兩種途徑。基于規則的日漢機器翻譯系統主要包括日語分析、轉換和漢語生成。在日語分析中,根據日語語法的特點[1],采用基于短語結構文法和格語法[2]的句法、語義分析技術。分析過程中對格短語深層格設置的準確與否,對最終機器翻譯結果的準確生成有很重要的影響。格短語深層格設置的依據是日語動詞格框架詞典,因此翻譯系統動詞格框架詞典的完備性越好,翻譯的效果就越好。本文結合一個日漢機器翻譯系統,針對該系統日語動詞格框架缺乏的問題,提出了一個自動構造日語動詞格框架的方法。
目前,日漢機器翻譯系統中僅收錄了1 800多個動詞的具體格框架,而對一個21萬日文單句的語料分析,動詞格框架的命中率只有37.5%;另一方面,本系統所使用的日漢詞典中收錄的動詞有近10 000條。因此增大動詞格框架的規模,提高動詞格框架的命中率,對分析結果的準確性以及對翻譯結果的質量有很重要的影響。
文獻[3,4]均對日語動詞格框架的自動構造作了研究,但實驗中并未考慮格短語深層格的確定。
本文首先介紹了日漢機器翻譯系統分析模塊的基本框架;根據當前系統的需求提出了一個日語動詞格框架自動構造方法;最后列出了一部分實驗結果,并作了簡要分析。
1 翻譯系統分析模塊基本框架
在本文的日漢機器翻譯系統中,日語分析基于日語“句節”的短語結構文法和格語法進行,采用句法、語義分析一體化的分析策略。分析結果為帶有深層格標記的日語句法樹。
例如對于日語句子“私は明日學校へ行かない。”,其分析結果[5]如下:
通用格框架的設立是為了在即使對應的動詞格框架不存在的情況下,也能根據通用規則對每個格短語確定深層格,保證了分析結果的完備性。從式(4)中可以看出,通用格框架忽略動詞,只考慮表層格和語義碼,無法區分處理特殊動詞,因此不可避免地帶來了分析結果準確性的降低。
2 動詞格框架自動構造
單靠人力整理日語中每個動詞的格框架固然可以保證準確性,但是耗費大量的人力物力卻仍然難以保證完備性。隨著動詞格框架規模的擴大,常用的動詞格框架已經被收錄,發現新的動詞格框架會變得更加困難。如果已有足夠龐大的日語樹庫作為支撐,那么動詞格框架的抽取也會變得比較簡單。現實情況下,足夠龐大的日語樹庫很難獲取,但足夠龐大的日文生語料卻有很多。
基于上述問題,本文提出一個日語動詞格框架的自動構造方法。該方法基于類比與統計思想,根據對生語料的分析,結合已有的動詞格框架自動構造出新的動詞格框架。構造過程分為抽取搭配結構、格框架構造兩個階段。
2.1 抽取搭配結構
根據系統的分析規則對日語生語料進行淺層句法分析,即不作語義分析,僅將日語句子轉換成規范的句法樹結構。例如,對于日語句子“私は明日學校へ行かない?!?,淺層句法分析結果如下:
從以上句法樹中可以提取出動詞短語與格短語的搭配結構,構成(〈動詞〉, 〈語義碼〉, 〈格助詞〉)的三元組。其中〈語義碼〉為與動詞搭配的格短語中心詞的語義碼;〈格助詞〉為格短語的格助詞。例如上例中,提取出下面三個三元組:
2.2 格框架構造
首先給出下文需要用到的幾個集合定義。
2.3 動詞距離的計算
3 實驗結果分析
經過上述算法構造出的動詞格框架基本覆蓋了生語料中的所有動詞。但是因為分詞、句法分析模塊的準確性不夠高,以及語料可能的稀疏,會造成部分格框架的不準確。結果需要經過人工校對篩選。
下面列出一部分得到的動詞格框架結果:
將擴充前后的翻譯結果進行對比,發現擴充后糾正了許多由于深層格設置錯誤導致的錯誤翻譯。表1列出一部分糾正案例以及錯誤原因。例如在第一個例子中,格短語“私たちの町に”的深層格原先被錯誤地設置為SPA(在某個地方),現被糾正為STO(去某個地方,帶有方向性)。因此現在的翻譯結果也能更準確地表達“暴風雨”接近的“方向性”了。
4 結束語
本文在日語動詞格框架自動構造方面進行了一點嘗試,自動構造經人工篩選后的結果與現有動詞格框架合并后,用于日漢機器翻譯系統,提高了日語分析以及漢語生成的準確性,改善了翻譯質量。
在未來的工作中,將進一步研究日語動詞的使用規律。在如何更好地利用可靠的搭配信息以及更多的特征計算動詞相似度方面作進一步的研究。
本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。