藍(lán)瞻瞻
(北京林業(yè)大學(xué)外語學(xué)院,100083)
計算機(jī)輔助翻譯和機(jī)器翻譯的核心問題都是語料庫的問題,語料庫就像譯員大腦儲存的知識。語料庫出現(xiàn)的歷史較長,但計算機(jī)化的語料庫才算得真正意義上的語料庫(李毅鵬,2012)。翻譯軟件的語料庫就是儲存海量的相互對應(yīng)的雙語語料的數(shù)據(jù)庫。通過語料庫,可以建立詞匯、短語和句子甚至段落的固定譯法;在翻譯陌生文本的時候,利用翻譯算法,就能從語料庫中快速、準(zhǔn)確地查詢到所對應(yīng)的譯文或近似的譯文。隨著語料庫的變大,重復(fù)的數(shù)據(jù)越來越多,那么翻譯的質(zhì)量就會越來越高,而且速度將越來越快。
一個好的翻譯軟件最根本的要求并不在于它的功能有多么強大,界面有多么直觀,操作有多么簡單,最根本的在于它的語料庫有多大。而目前國內(nèi)最大英漢平行語料庫是王克非教授主持的“通用型漢英平行語料庫”,據(jù)稱有3000萬字詞(北京外國語大學(xué)—中國外語教育研究中心,2012)。另外,北京大學(xué)、中科院等也建立了一定規(guī)模的漢英雙語語料庫。但這些語料庫都不對外開放,不適合一般性研究。而且他們對數(shù)據(jù)的收集很大部分依賴于人工挑選和甄別,如果沒有大型團(tuán)隊做支撐,幾乎是不可能完成的任務(wù)。
然而隨著互聯(lián)網(wǎng)的發(fā)展,雙語網(wǎng)站越來越多,若能將網(wǎng)絡(luò)資源利用起來,將能建成較大規(guī)模的雙語語料庫。本研究試圖從通過平行網(wǎng)頁的頁面結(jié)構(gòu)來進(jìn)行雙語網(wǎng)頁的挖掘,從而建成大規(guī)模的雙語語料庫。
如何確定一個網(wǎng)站具有英漢雙語平行對應(yīng)的資料?本研究并沒有研發(fā)相關(guān)的軟件,主要利用網(wǎng)絡(luò)搜索引擎——谷歌(http://www.google.com)。
我們認(rèn)為,英文網(wǎng)頁中應(yīng)該含有“English”,“English Version”,“英文”,“英文版”等詞,中文網(wǎng)頁中應(yīng)該含有“Chinese”,“ Chinese Version”,“簡體中文”,“中文版”等詞。因此,利用進(jìn)行搜索的關(guān)鍵詞有16種組合,分別為:
(1)English+Chinese
(2)English+Chinese Version
(3)English +簡體中文
(4)English+中文版
(5)English Version+Chinese
(6)English Version+ Chinese Version
(7)English Version+簡體中文
(8)English Version+中文版
(9)英文+Chinese
(10)英文+ Chinese Version
(11)英文+簡體中文
(12)英文+中文版
(13)英文版+Chinese
(14)英文版+ Chinese Version
(15)英文版+簡體中文
(16)英文版+中文版
網(wǎng)頁URL 包含了四個組成部分:協(xié)議前綴、域名、路徑名和文件名。一般情況下,只會路徑名和文件名有所不同,而且大多數(shù)情況下只是路徑稍有改變。
以聯(lián)合國網(wǎng)站為例,“聯(lián)合國憲章”的中文地址為:
http://www.un.org/zh/documents/charter/index.shtml
英文地址為:
http://www.un.org/en/documents/charter/index.shtml
那么,它們的協(xié)議前綴、域名、路徑名和文件名如下:
將URL 地址看做字符串,則URL 命名相似性轉(zhuǎn)化為求取兩個字符串的相似程度。
算法描述如下:
分別將中英文網(wǎng)頁URL 除協(xié)議前綴后的字符串按“/”拆分成數(shù)組分別存于S[i],T[j],如下所示:
S[i]={“www.un.org”,” zh”,“documents “,” charter”,index.shtml }
T[j]={“www.un.org”,” en”,“documents “,” charter”,index.shtml }
相似度計算公式:相似度=Kq*q/(Kq*q+Kr*r+Ks*s)(Kq >0,Kr>=0,Ka>=0)
其中,q 是字符串?dāng)?shù)組S[i]和字符串?dāng)?shù)組T[j]中都存在的字符串的總數(shù),s 是字符串?dāng)?shù)組S[i]中存在,T[j]中不存在的字符串的總數(shù),r 是字符串?dāng)?shù)組T[j]中存在,字符串字符串S[i]中不存在的字符串總數(shù).Kq,Kr 和ka 分別是q,r,s的權(quán)重,根據(jù)實際的計算情況設(shè)定權(quán)重值,假設(shè)我們設(shè)Kq=2,Kr=Ks=1,則兩個URL 字符串相似度為:2*4/(2*4+1*1+1*1)=0.8;
可以根據(jù)實際情況設(shè)定相似度標(biāo)準(zhǔn)!比如大于0.8則可能是雙語網(wǎng)站中相應(yīng)雙語頁面。
然后,利用“弘一網(wǎng)童”,將正文獲取下來
利用Visual Studio2005,先設(shè)計一個劃分段落的模塊,用于提取中英文網(wǎng)頁中的文本,順序是這樣的:先按序遍歷HTML標(biāo)記,直到遇到
最后根據(jù)
取互譯文本段S 和T,文本段S的句子存于S[i],文本段T的句子存于T[j]。
(1:1)關(guān)系系數(shù)權(quán)值:q>0
(1:2)關(guān)系系數(shù)權(quán)值:r>0
(2:1)關(guān)系系統(tǒng)權(quán)值:t>0
對齊度=(S[i].length/T[j])*q+(S[i].length/(T[j].length+ T[j+1].length))*r+((S[i].length+ S[i+1].length)/ T[j].length)*t
運行后,可以讓句子一一對應(yīng)起來。

表4-1 “聯(lián)合國憲章”的雙語網(wǎng)址
本研究通過對雙語網(wǎng)站的獲取,然后根據(jù)URL 命名規(guī)律獲取網(wǎng)頁的雙語材料,設(shè)定函數(shù)將段落層次和句子進(jìn)行對齊。實驗表明,這種方法針對中英文網(wǎng)頁句子的對齊問題而言,取得比較優(yōu)的句子對齊效果。本實驗中選取的是非常規(guī)范的雙語網(wǎng)站——聯(lián)合國的網(wǎng)站進(jìn)行舉例說明,但現(xiàn)實中很多雙語網(wǎng)站都不規(guī)范,給段落層次和句子的對齊問題帶來很大的困難,這要求在設(shè)定參數(shù)和模型時,要有更大的靈活度,從而實現(xiàn)更好的對齊效果。
[1]梁三云.機(jī)器翻譯與計算機(jī)輔助翻譯比較分析[J].外語電化教學(xué),2004年12月,42-45.
[2]李毅鵬.語料庫翻譯學(xué)研究探索[J].常州信息職業(yè)技術(shù)學(xué)院學(xué)報,2012年6月,71-73
[3]熊秋平,管新潮.基于工作研究的計算機(jī)輔助翻譯系統(tǒng)CorpTrans 軟件設(shè)計[J].工業(yè)工程與管理,2011年4月,134-138.
[4]北京外國語大學(xué)—中國外語教育研究中心.雙語平行語料庫的創(chuàng)建及應(yīng)用研究(2000-2003)[OL/BD],http://www.sinotefl.ac.cn/a/keyanxiangmu/jiaoyuburenwensh ekezhongdianyanjiuj/20050726/219.html,2012年10月.
[5]王瑩.從互聯(lián)網(wǎng)上挖掘雙語預(yù)料的研究與實現(xiàn)[D].華東師范大學(xué)2010年碩士論文.
[6]潘娣.機(jī)器翻譯的利弊以及發(fā)展前景[J].安徽文學(xué).2008(9):30.
[7]史曉東.Machine Translation -A practitioner's Approach[D],國防科學(xué)技術(shù)大學(xué)博士學(xué)位論文,1994.
[8]趙鐵軍.漢英雙向機(jī)器翻譯中基于模式方法與混合策略的研究[D].博士學(xué)位論文,哈爾濱工業(yè)大學(xué),1998
[9]Hutehins,J.The Development and Use of Machine Translation Systems and Computer-Based Translation Tools [J].Journal of Chinese Information Processing,13(6),1999,l-13.
[10]John Hutchins.A New Era in Machine Translation Research [J].Aslib Proceedings,1995,47(10):211-219.
[11]Yang,J.and Lange,E.SYSTRAN on Alta Vista:A User Study on Real-time Machine Translation on the Internet [M].In:AMTA,1998,275-285.