計算機輔助翻譯雙語語料庫的研建

2013-07-30 04:07:32藍瞻瞻

電子測試 2013年9期

藍瞻瞻

（北京林業大學外語學院，100083）

0 引言

計算機輔助翻譯和機器翻譯的核心問題都是語料庫的問題，語料庫就像譯員大腦儲存的知識。語料庫出現的歷史較長，但計算機化的語料庫才算得真正意義上的語料庫（李毅鵬，2012）。翻譯軟件的語料庫就是儲存海量的相互對應的雙語語料的數據庫。通過語料庫，可以建立詞匯、短語和句子甚至段落的固定譯法；在翻譯陌生文本的時候，利用翻譯算法，就能從語料庫中快速、準確地查詢到所對應的譯文或近似的譯文。隨著語料庫的變大，重復的數據越來越多，那么翻譯的質量就會越來越高，而且速度將越來越快。

1 翻譯軟件對語料庫的要求

一個好的翻譯軟件最根本的要求并不在于它的功能有多么強大，界面有多么直觀，操作有多么簡單，最根本的在于它的語料庫有多大。而目前國內最大英漢平行語料庫是王克非教授主持的“通用型漢英平行語料庫”，據稱有3000萬字詞（北京外國語大學—中國外語教育研究中心，2012）。另外，北京大學、中科院等也建立了一定規模的漢英雙語語料庫。但這些語料庫都不對外開放，不適合一般性研究。而且他們對數據的收集很大部分依賴于人工挑選和甄別，如果沒有大型團隊做支撐，幾乎是不可能完成的任務。

然而隨著互聯網的發展，雙語網站越來越多，若能將網絡資源利用起來，將能建成較大規模的雙語語料庫。本研究試圖從通過平行網頁的頁面結構來進行雙語網頁的挖掘，從而建成大規模的雙語語料庫。

2 網頁雙語語料的獲取過程

2.1 雙語網站的獲取

如何確定一個網站具有英漢雙語平行對應的資料？本研究并沒有研發相關的軟件，主要利用網絡搜索引擎——谷歌（http：//www.google.com）。

我們認為，英文網頁中應該含有“English”，“English Version”，“英文”，“英文版”等詞，中文網頁中應該含有“Chinese”，“ Chinese Version”，“簡體中文”，“中文版”等詞。因此，利用進行搜索的關鍵詞有16種組合，分別為：

（1）English+Chinese

（2）English+Chinese Version

（3）English +簡體中文

（4）English+中文版

（5）English Version+Chinese

（6）English Version+ Chinese Version

（7）English Version+簡體中文

（8）English Version+中文版

（9）英文+Chinese

（10）英文+ Chinese Version

（11）英文+簡體中文

（12）英文+中文版

（13）英文版+Chinese

（14）英文版+ Chinese Version

（15）英文版+簡體中文

（16）英文版+中文版

2.2 獲取網頁的雙語材料

網頁URL 包含了四個組成部分：協議前綴、域名、路徑名和文件名。一般情況下，只會路徑名和文件名有所不同，而且大多數情況下只是路徑稍有改變。

以聯合國網站為例，“聯合國憲章”的中文地址為：

http：//www.un.org/zh/documents/charter/index.shtml

英文地址為：

http：//www.un.org/en/documents/charter/index.shtml

那么，它們的協議前綴、域名、路徑名和文件名如下：

將URL 地址看做字符串，則URL 命名相似性轉化為求取兩個字符串的相似程度。

算法描述如下：

分別將中英文網頁URL 除協議前綴后的字符串按“/”拆分成數組分別存于S[i]，T[j]，如下所示：

S[i]={“www.un.org”，” zh”，“documents “，” charter”，index.shtml }

T[j]={“www.un.org”，” en”，“documents “，” charter”，index.shtml }

相似度計算公式：相似度=Kq*q/（Kq*q+Kr*r+Ks*s）（Kq ＞0，Kr＞=0，Ka＞=0）

其中，q 是字符串數組S[i]和字符串數組T[j]中都存在的字符串的總數，s 是字符串數組S[i]中存在，T[j]中不存在的字符串的總數，r 是字符串數組T[j]中存在，字符串字符串S[i]中不存在的字符串總數.Kq，Kr 和ka 分別是q，r，s的權重，根據實際的計算情況設定權重值，假設我們設Kq=2，Kr=Ks=1，則兩個URL 字符串相似度為：2*4/（2*4+1*1+1*1）=0.8；

可以根據實際情況設定相似度標準！比如大于0.8則可能是雙語網站中相應雙語頁面。

然后，利用“弘一網童”，將正文獲取下來

3 對應中英文句子的步驟

利用Visual Studio2005，先設計一個劃分段落的模塊，用于提取中英文網頁中的文本，順序是這樣的：先按序遍歷HTML標記，直到遇到

最后根據

取互譯文本段S 和T，文本段S的句子存于S[i]，文本段T的句子存于T[j]。

（1：1）關系系數權值：q＞0

（1：2）關系系數權值：r＞0

（2：1）關系系統權值：t＞0

對齊度=（S[i].length/T[j]）*q+（S[i].length/（T[j].length+ T[j+1].length））*r+（（S[i].length+ S[i+1].length）/ T[j].length）*t

運行后，可以讓句子一一對應起來。

表4-1 “聯合國憲章”的雙語網址

4 結論

本研究通過對雙語網站的獲取，然后根據URL 命名規律獲取網頁的雙語材料，設定函數將段落層次和句子進行對齊。實驗表明，這種方法針對中英文網頁句子的對齊問題而言，取得比較優的句子對齊效果。本實驗中選取的是非常規范的雙語網站——聯合國的網站進行舉例說明，但現實中很多雙語網站都不規范，給段落層次和句子的對齊問題帶來很大的困難，這要求在設定參數和模型時，要有更大的靈活度，從而實現更好的對齊效果。

[1]梁三云.機器翻譯與計算機輔助翻譯比較分析[J].外語電化教學，2004年12月，42-45.

[2]李毅鵬.語料庫翻譯學研究探索[J].常州信息職業技術學院學報，2012年6月，71-73

[3]熊秋平，管新潮.基于工作研究的計算機輔助翻譯系統CorpTrans 軟件設計[J].工業工程與管理，2011年4月，134-138.

[4]北京外國語大學—中國外語教育研究中心.雙語平行語料庫的創建及應用研究（2000－2003）[OL/BD]，http：//www.sinotefl.ac.cn/a/keyanxiangmu/jiaoyuburenwensh ekezhongdianyanjiuj/20050726/219.html，2012年10月.

[5]王瑩.從互聯網上挖掘雙語預料的研究與實現[D].華東師范大學2010年碩士論文.

[6]潘娣.機器翻譯的利弊以及發展前景[J].安徽文學.2008（9）：30.

[7]史曉東.Machine Translation -A practitioner's Approach[D]，國防科學技術大學博士學位論文，1994.

[8]趙鐵軍.漢英雙向機器翻譯中基于模式方法與混合策略的研究[D].博士學位論文，哈爾濱工業大學，1998

[9]Hutehins，J.The Development and Use of Machine Translation Systems and Computer-Based Translation Tools [J].Journal of Chinese Information Processing，13（6），1999，l-13.

[10]John Hutchins.A New Era in Machine Translation Research [J].Aslib Proceedings，1995，47（10）：211-219.

[11]Yang，J.and Lange，E.SYSTRAN on Alta Vista：A User Study on Real-time Machine Translation on the Internet [M].In：AMTA，1998，275-285.