摘 要: 本文介紹了外貿函電平行語料庫的構建,重點探討了外貿函電平行語料庫中的語塊提取和并列結構處理,使平行語料庫的外貿函電機器翻譯的質量得到提高。
關鍵詞: 平行語料庫 外貿函電 機器翻譯 應用
“平行語料”(Parallel Texts)是指使用不同語言撰寫、相互間具有“翻譯關系”的文本。在計算語言學界,它有別于“對比語料”(Comparable Texts),后者也使用不同的語言撰寫,并且針對同一主題,但相互之間卻不存在直接的“翻譯關系”。人類歷史上曾有過各式各樣的平行語料。埃及出土的羅塞塔石碑,其碑文用兩種語言、三種文字刻成,是頗具盛名的古代的平行語料。通過比較石碑上的文字,法國古代語學者商博良解讀了古埃及的象形文字。此外,用不同語言對照書寫的契約協議、宗教經典、文學作品也在不同的時期和不同的領域影響著人們的生活。20世紀50年代末,平行語料開始出現在機器翻譯研究中。由于當時計算機的存儲空間和計算能力有限,而大量文本數據的輸入又相當困難,所以平行語料庫的作用并沒有得到太多的關注。70年代末期,翻譯資源的收集工作在Xerox PARC、Brigham Young 等研究中心廣泛地開展起來。1987年,Martin Kay 和 Martin Roscheisen 提出了最早的平行語料自動對齊算法。之后各種對齊方法層出不窮,對齊后的平行語料也被系統地應用到自然語言處理中,包括建立翻譯記憶、編纂詞典和雙語術語表、跨語言信息檢索、計算機輔助教學、語言對比研究等。
外貿函電是國際貿易中進行業務往來的重要工具,屬于專門用途英語的范疇。機器翻譯(MT)是一項技術,它允許我們用某種語言輸入文本然后由計算機將其翻譯為(從其自身的字典資源)另外一種語言。MT的目標不是完美的翻譯,事實上沒有計算機能夠做到這一點;而是盡可能地向用戶提供其閱讀內容的大意。面對海量的外貿信函文件,傳統的人工翻譯已不能滿足時代需要。以Google為典型代表機器翻譯作為突破語言障礙的重要技術手段,因其較高的建設效率和翻譯質量得到了越來越多的重視,成為當前研究的熱點之一。
1.外貿函電平行語料庫的構建
外貿函電是一種相對比較正式的公務文書,其一般目的是建立和保持良好的業務關系、獲得或發布供求信息、達成合作和交易等。我們構建的商務信函平行語料庫的語料收集范圍為商務業務信函,分為建立業務關系函、產品推銷函、資信調查函、詢盤函、發盤函、還盤函、訂購函、銷售確認函、簽約函、催證審證函、裝運通知函、付款方式函、索賠函、保險函等,這些信函涉及外貿活動的全過程。在語料庫語言學理論的指導下,我們通過初步建立一個100萬詞次的英漢雙語商務信函平行語料庫(包括兩個子庫:英漢商務信函平行語料庫,漢英商務信函平行語料庫)。該庫為動態的、開放的,可以自動獲取服務于機器翻譯的知識資源。
2.外貿函電平行語料庫中的語塊提取
語塊提取是近年來語料庫語言學和機器翻譯研究領域的重點課題。濮建忠教授(2003)把“語塊”(chunks)定義為:“語塊(詞塊)是以詞形或詞為基本單位,由連續或非連續的兩個或多個詞形或詞組合而成的,允許抽象度高于詞的單位出現的,有一定使用頻率、結構相對完整、能表達一定意義的,有心理現實性的語言形式,以整體形式儲存在大腦中,并可作為預制組塊供人們提取使用的多詞單位。”外貿函電中的語言大多是具有一定的言語程式或行話,如:Enclosed please find...(隨函附寄……,請查收),cash on delivery(貨到付款)等。Sinclair(1991)認為:那些出現頻率高的詞匯串成了英語中基本的語言單位,大約70%的英語語言由存儲于人體大腦的語言板塊構成。確定一個多詞單位是否為語塊,可以從語塊的三個重要特征加以界定和區分,即語塊共現的頻率性、語塊儲存和提取的整體性、語塊可記憶的韻律性。我們在語塊理論的指導下,從結構和功能上明確英漢外貿函電中的語塊特征,從而確定提取的具體對象。商務信函語塊可分為4種情況:
(1)多詞詞匯,如:buy cheap and sell dear,firm offer等。
(2)習慣搭配,如:...for your reference,an offer subject to...等。
(3)慣用表達式,如:As requested,...,Enclosed please find...等。
(4)句型框架,如:We look forward to hearing from you...等。
為了進行商務信函平行語料庫中的語塊提取,我們提出了一套特有的提取方法——外貿函電語塊提取法。
外貿函電平行語料庫中的語塊提取是基于實例的外貿函電機器翻譯的重要方法,為進一步對大規模各種專業的雙語語料利用計算機自動提取語塊提出思路和設想。
3.基于平行語料庫的外貿函電機器翻譯中并列結構的處理
在外貿函電機器翻譯研究的探索實踐中,我們逐漸認識到,單純使用一種方法難以處理自然語言中各種復雜現象。所以,我們提出了在統計機器翻譯基礎上引入特定語法結構的一種方法——并列結構的英漢翻譯轉換方法。基于商務信函平行語料庫,通過句法分析研究并列結構的形式化構成、連接詞的前后管轄范圍、內部嵌套情況及并列結構前后臨界搭配的情況,并制定可行句法轉換規則。
并列結構是最普遍的一種復雜結構,它推動了句子復雜化和簡單化的雙向活動,但目前的算法對并列結構的處理錯誤比較嚴重。英語有許多復雜的句子,它們往往有許多嵌套或者不嵌套的并列結構,翻譯系統如果將并列的轄域和層次關系及前后界限分析錯誤,就會嚴重影響翻譯的結果。例如,帶有連接詞“and”的并列結構,通過Google翻譯系統的測試,得到如下譯文:
原文:We all understand that Chinese slippers are very popular in your market for the superior quality and competitive price of their products and service.
譯文:大家都明白,中國拖鞋在您的市場很受歡迎的高品質及他們的產品和服務競爭力的價格。
分析:該譯句第一個and的后半部分轄域判斷過長,造成錯誤。可以看出統計機器翻譯對并列結構等復雜結構的處理并不理想。即便是在局部翻譯處理正確的情況下,結構翻譯錯誤往往會造成整體譯文不知所云。我們的研究方法:(1)參照北大雙語語料庫加工標注規范,利用雙語對齊軟件及人工校正達到外貿函電平行語料庫的句子級對齊。(2)通過基于統計學手段尋找測試語料中的并列結構,確定相當數目的測試集,并按照當代語言學理論及形式化理論對其分類。(3)將各類測試集送入Google統計翻譯系統進行翻譯,得出譯文,分析錯誤原因,進行錯誤歸類。(4)將各類測試集送入基于統計的句法分析系統,分析結果,制定規則。
經過Standard Parser(經典統計句法分析器)的分析,例句的分析結果如下:
……
(PP (IN for)
(NP
(NP (DT the) (JJ superior)
(ADJP (NN quality)
(CC and)
(JJ competitive))
(NN price))
(PP (IN of)
(NP (PRP$ their) (NNS products)
(CC and)
(NN service)))))……
通過基于統計的句法分析器進行分析,例句中的并列結構分析完全正確。
4.結語
綜上所述,平行語料庫在外貿函電機器翻譯中的應用研究具有多方面的意義。
(1)它是國家科技支撐子課題HNC機器翻譯引擎轉換處理研究的組成部分,為研制HNC經貿機器翻譯系統創造必需的條件。
(2)它構建的外貿平行語料庫為英漢雙語外貿函電學習者、翻譯學習者及工作者的研究與學習起到輔助作用。
(3)它構建的外貿函電平行語料庫中的語塊提取方法,為進一步對大規模各種專業的雙語語料利用計算機自動提取語塊提出思路和設想。
(4)語塊提取與并列結構處理為英漢統計機器翻譯和機器輔助翻譯的譯準率提高起到重要作用。
參考文獻:
[1]馮志偉.機器翻譯研究[M].北京:中國對外翻譯出版公司,2004.
[2]濮建忠.英語詞匯教學中的類聯接、搭配與詞塊[J].外語教學與研究,2003.6.
[3]張新紅,李明.商務英語翻譯[M].北京:高等教育出版社,2003.