999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

計算機(jī)輔助翻譯雙語語料庫的研建

2013-07-30 04:07:32藍(lán)瞻瞻
電子測試 2013年9期
關(guān)鍵詞:英文文本

藍(lán)瞻瞻

(北京林業(yè)大學(xué)外語學(xué)院,100083)

0 引言

計算機(jī)輔助翻譯和機(jī)器翻譯的核心問題都是語料庫的問題,語料庫就像譯員大腦儲存的知識。語料庫出現(xiàn)的歷史較長,但計算機(jī)化的語料庫才算得真正意義上的語料庫(李毅鵬,2012)。翻譯軟件的語料庫就是儲存海量的相互對應(yīng)的雙語語料的數(shù)據(jù)庫。通過語料庫,可以建立詞匯、短語和句子甚至段落的固定譯法;在翻譯陌生文本的時候,利用翻譯算法,就能從語料庫中快速、準(zhǔn)確地查詢到所對應(yīng)的譯文或近似的譯文。隨著語料庫的變大,重復(fù)的數(shù)據(jù)越來越多,那么翻譯的質(zhì)量就會越來越高,而且速度將越來越快。

1 翻譯軟件對語料庫的要求

一個好的翻譯軟件最根本的要求并不在于它的功能有多么強大,界面有多么直觀,操作有多么簡單,最根本的在于它的語料庫有多大。而目前國內(nèi)最大英漢平行語料庫是王克非教授主持的“通用型漢英平行語料庫”,據(jù)稱有3000萬字詞(北京外國語大學(xué)—中國外語教育研究中心,2012)。另外,北京大學(xué)、中科院等也建立了一定規(guī)模的漢英雙語語料庫。但這些語料庫都不對外開放,不適合一般性研究。而且他們對數(shù)據(jù)的收集很大部分依賴于人工挑選和甄別,如果沒有大型團(tuán)隊做支撐,幾乎是不可能完成的任務(wù)。

然而隨著互聯(lián)網(wǎng)的發(fā)展,雙語網(wǎng)站越來越多,若能將網(wǎng)絡(luò)資源利用起來,將能建成較大規(guī)模的雙語語料庫。本研究試圖從通過平行網(wǎng)頁的頁面結(jié)構(gòu)來進(jìn)行雙語網(wǎng)頁的挖掘,從而建成大規(guī)模的雙語語料庫。

2 網(wǎng)頁雙語語料的獲取過程

2.1 雙語網(wǎng)站的獲取

如何確定一個網(wǎng)站具有英漢雙語平行對應(yīng)的資料?本研究并沒有研發(fā)相關(guān)的軟件,主要利用網(wǎng)絡(luò)搜索引擎——谷歌(http://www.google.com)。

我們認(rèn)為,英文網(wǎng)頁中應(yīng)該含有“English”,“English Version”,“英文”,“英文版”等詞,中文網(wǎng)頁中應(yīng)該含有“Chinese”,“ Chinese Version”,“簡體中文”,“中文版”等詞。因此,利用進(jìn)行搜索的關(guān)鍵詞有16種組合,分別為:

(1)English+Chinese

(2)English+Chinese Version

(3)English +簡體中文

(4)English+中文版

(5)English Version+Chinese

(6)English Version+ Chinese Version

(7)English Version+簡體中文

(8)English Version+中文版

(9)英文+Chinese

(10)英文+ Chinese Version

(11)英文+簡體中文

(12)英文+中文版

(13)英文版+Chinese

(14)英文版+ Chinese Version

(15)英文版+簡體中文

(16)英文版+中文版

2.2 獲取網(wǎng)頁的雙語材料

網(wǎng)頁URL 包含了四個組成部分:協(xié)議前綴、域名、路徑名和文件名。一般情況下,只會路徑名和文件名有所不同,而且大多數(shù)情況下只是路徑稍有改變。

以聯(lián)合國網(wǎng)站為例,“聯(lián)合國憲章”的中文地址為:

http://www.un.org/zh/documents/charter/index.shtml

英文地址為:

http://www.un.org/en/documents/charter/index.shtml

那么,它們的協(xié)議前綴、域名、路徑名和文件名如下:

將URL 地址看做字符串,則URL 命名相似性轉(zhuǎn)化為求取兩個字符串的相似程度。

算法描述如下:

分別將中英文網(wǎng)頁URL 除協(xié)議前綴后的字符串按“/”拆分成數(shù)組分別存于S[i],T[j],如下所示:

S[i]={“www.un.org”,” zh”,“documents “,” charter”,index.shtml }

T[j]={“www.un.org”,” en”,“documents “,” charter”,index.shtml }

相似度計算公式:相似度=Kq*q/(Kq*q+Kr*r+Ks*s)(Kq >0,Kr>=0,Ka>=0)

其中,q 是字符串?dāng)?shù)組S[i]和字符串?dāng)?shù)組T[j]中都存在的字符串的總數(shù),s 是字符串?dāng)?shù)組S[i]中存在,T[j]中不存在的字符串的總數(shù),r 是字符串?dāng)?shù)組T[j]中存在,字符串字符串S[i]中不存在的字符串總數(shù).Kq,Kr 和ka 分別是q,r,s的權(quán)重,根據(jù)實際的計算情況設(shè)定權(quán)重值,假設(shè)我們設(shè)Kq=2,Kr=Ks=1,則兩個URL 字符串相似度為:2*4/(2*4+1*1+1*1)=0.8;

可以根據(jù)實際情況設(shè)定相似度標(biāo)準(zhǔn)!比如大于0.8則可能是雙語網(wǎng)站中相應(yīng)雙語頁面。

然后,利用“弘一網(wǎng)童”,將正文獲取下來

3 對應(yīng)中英文句子的步驟

利用Visual Studio2005,先設(shè)計一個劃分段落的模塊,用于提取中英文網(wǎng)頁中的文本,順序是這樣的:先按序遍歷HTML標(biāo)記,直到遇到

最后根據(jù)

取互譯文本段S 和T,文本段S的句子存于S[i],文本段T的句子存于T[j]。

(1:1)關(guān)系系數(shù)權(quán)值:q>0

(1:2)關(guān)系系數(shù)權(quán)值:r>0

(2:1)關(guān)系系統(tǒng)權(quán)值:t>0

對齊度=(S[i].length/T[j])*q+(S[i].length/(T[j].length+ T[j+1].length))*r+((S[i].length+ S[i+1].length)/ T[j].length)*t

運行后,可以讓句子一一對應(yīng)起來。

表4-1 “聯(lián)合國憲章”的雙語網(wǎng)址

4 結(jié)論

本研究通過對雙語網(wǎng)站的獲取,然后根據(jù)URL 命名規(guī)律獲取網(wǎng)頁的雙語材料,設(shè)定函數(shù)將段落層次和句子進(jìn)行對齊。實驗表明,這種方法針對中英文網(wǎng)頁句子的對齊問題而言,取得比較優(yōu)的句子對齊效果。本實驗中選取的是非常規(guī)范的雙語網(wǎng)站——聯(lián)合國的網(wǎng)站進(jìn)行舉例說明,但現(xiàn)實中很多雙語網(wǎng)站都不規(guī)范,給段落層次和句子的對齊問題帶來很大的困難,這要求在設(shè)定參數(shù)和模型時,要有更大的靈活度,從而實現(xiàn)更好的對齊效果。

[1]梁三云.機(jī)器翻譯與計算機(jī)輔助翻譯比較分析[J].外語電化教學(xué),2004年12月,42-45.

[2]李毅鵬.語料庫翻譯學(xué)研究探索[J].常州信息職業(yè)技術(shù)學(xué)院學(xué)報,2012年6月,71-73

[3]熊秋平,管新潮.基于工作研究的計算機(jī)輔助翻譯系統(tǒng)CorpTrans 軟件設(shè)計[J].工業(yè)工程與管理,2011年4月,134-138.

[4]北京外國語大學(xué)—中國外語教育研究中心.雙語平行語料庫的創(chuàng)建及應(yīng)用研究(2000-2003)[OL/BD],http://www.sinotefl.ac.cn/a/keyanxiangmu/jiaoyuburenwensh ekezhongdianyanjiuj/20050726/219.html,2012年10月.

[5]王瑩.從互聯(lián)網(wǎng)上挖掘雙語預(yù)料的研究與實現(xiàn)[D].華東師范大學(xué)2010年碩士論文.

[6]潘娣.機(jī)器翻譯的利弊以及發(fā)展前景[J].安徽文學(xué).2008(9):30.

[7]史曉東.Machine Translation -A practitioner's Approach[D],國防科學(xué)技術(shù)大學(xué)博士學(xué)位論文,1994.

[8]趙鐵軍.漢英雙向機(jī)器翻譯中基于模式方法與混合策略的研究[D].博士學(xué)位論文,哈爾濱工業(yè)大學(xué),1998

[9]Hutehins,J.The Development and Use of Machine Translation Systems and Computer-Based Translation Tools [J].Journal of Chinese Information Processing,13(6),1999,l-13.

[10]John Hutchins.A New Era in Machine Translation Research [J].Aslib Proceedings,1995,47(10):211-219.

[11]Yang,J.and Lange,E.SYSTRAN on Alta Vista:A User Study on Real-time Machine Translation on the Internet [M].In:AMTA,1998,275-285.

猜你喜歡
英文文本
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
英文摘要
英文摘要
英文摘要
財經(jīng)(2016年19期)2016-08-11 08:17:03
英文摘要
英文摘要
英文摘要
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 五月婷婷导航| 亚洲第一香蕉视频| 国产丝袜啪啪| 97狠狠操| 久草青青在线视频| 免费毛片网站在线观看| 99久久精品国产自免费| 亚洲无码精彩视频在线观看| 黄色在线不卡| 国产熟女一级毛片| 色欲色欲久久综合网| 国产精品亚洲一区二区三区在线观看| 亚洲精品成人片在线观看| AV不卡国产在线观看| 午夜天堂视频| 亚洲天堂视频在线观看| 这里只有精品国产| 免费女人18毛片a级毛片视频| 美美女高清毛片视频免费观看| 亚洲精品va| 超碰色了色| 精品久久香蕉国产线看观看gif| 国产啪在线91| 亚洲三级片在线看| 67194成是人免费无码| 女同国产精品一区二区| 国产激爽大片在线播放| 人妻91无码色偷偷色噜噜噜| 日韩麻豆小视频| a在线亚洲男人的天堂试看| 亚洲天堂免费观看| 久久精品国产免费观看频道| 久久狠狠色噜噜狠狠狠狠97视色| 久996视频精品免费观看| 免费人成网站在线高清| 国产午夜一级毛片| 午夜成人在线视频| 欧美日本在线| 欧美亚洲日韩不卡在线在线观看| 激情六月丁香婷婷四房播| 亚洲精品视频免费看| 一级福利视频| 国产在线观看第二页| 国产精品无码一区二区桃花视频| 免费毛片网站在线观看| 日韩欧美中文字幕一本| 婷婷久久综合九色综合88| 天堂岛国av无码免费无禁网站 | 亚洲首页在线观看| 欧美精品H在线播放| 婷婷色中文| 国产主播喷水| 久久精品aⅴ无码中文字幕 | 亚洲欧美成aⅴ人在线观看| 搞黄网站免费观看| 九九热在线视频| 国产一区二区三区日韩精品| 在线看AV天堂| 久久永久视频| 国产成人精品亚洲77美色| 无码人中文字幕| 爱爱影院18禁免费| av性天堂网| 第一区免费在线观看| 国产真实乱子伦精品视手机观看| 亚洲永久色| 99性视频| 妇女自拍偷自拍亚洲精品| 亚洲最大情网站在线观看| 国产在线视频欧美亚综合| 成年人免费国产视频| 国产成人精品一区二区| 2021最新国产精品网站| 亚洲国产精品成人久久综合影院| 久久久久无码国产精品不卡| 免费无码AV片在线观看中文| 青草视频在线观看国产| 亚洲日本中文字幕天堂网| 69av在线| 99草精品视频| 男女男精品视频| 国产超碰一区二区三区|