999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于句子與基于字符串的兩種翻譯記憶模式的分析

2018-03-27 12:34:28羅煦四川傳媒學(xué)院
傳播力研究 2018年13期
關(guān)鍵詞:記憶文本

羅煦 四川傳媒學(xué)院

1966年,自動(dòng)語(yǔ)言處理咨詢委員會(huì)(ALPAC)發(fā)布的一份報(bào)告初步定義了歐洲煤鋼鐵協(xié)會(huì)(CECA)所使用的早期的翻譯記憶系統(tǒng)為:“包含上下文的自動(dòng)字典查詢。[...]翻譯者用下劃線表示他想要的幫助。然后將整個(gè)句子按鍵打開(kāi)并送入計(jì)算機(jī)。計(jì)算機(jī)通過(guò)搜索程序并打印出與問(wèn)題句子最明顯匹配(在詞匯項(xiàng)目中)的一個(gè)句子或多個(gè)句子。譯者然后檢索打印出來(lái)的所需項(xiàng)目的上下文以及它們?cè)谠次募谐霈F(xiàn)的順序?!?ALPAC 1966,27)這個(gè)系統(tǒng)的出現(xiàn),為了為現(xiàn)代翻譯記憶系統(tǒng)的發(fā)展鋪平道路,一些關(guān)鍵特征如文本對(duì)齊,自動(dòng)匹配和檢索被創(chuàng)造了出來(lái)。

一、翻譯記憶

翻譯記憶(TM)是一個(gè)存儲(chǔ)“段”的數(shù)據(jù)庫(kù),它存儲(chǔ)著之前翻譯過(guò)的句子,段落或類似句子的單位(列表中的標(biāo)題,標(biāo)題或元素),借以此幫助翻譯人員。翻譯記憶通常與專用計(jì)算機(jī)輔助翻譯(CAT)工具,文字處理程序,術(shù)語(yǔ)管理系統(tǒng),多語(yǔ)言字典或甚至原始機(jī)器翻譯輸出結(jié)合使用。雖然翻譯人員可用的技術(shù)范圍包括從電子詞典和詞匯提取工具到高度復(fù)雜的翻譯環(huán)境等各個(gè)領(lǐng)域,但翻譯及一系統(tǒng)存儲(chǔ)和檢索能力以非凡的速度發(fā)展,因而對(duì)翻譯這個(gè)行業(yè)帶來(lái)了變革。因此,就像在翻譯和翻譯之間架起了一座橋梁。當(dāng)翻譯人員使用翻譯記憶庫(kù)工具翻譯新文本時(shí),該工具會(huì)識(shí)別新文本片段和存儲(chǔ)的源文本之間的相似性。在此過(guò)程中,搜索和檢索功能是所有翻譯記憶工具的基本功能。

現(xiàn)如今,翻譯行業(yè)正在為今后幾年的需求大幅增長(zhǎng)做好準(zhǔn)備。根據(jù)Common Sense Advisory的調(diào)查,語(yǔ)言服務(wù)市場(chǎng)2015年的增長(zhǎng)率為6.46%。雖然語(yǔ)言技術(shù)只占整個(gè)語(yǔ)言服務(wù)市場(chǎng)的2.8%,但它確實(shí)表明了語(yǔ)言技術(shù)發(fā)展的巨大潛力。Common Sense Advisory將名為翻譯自動(dòng)化軟件的三家大型公司列為混合語(yǔ)言服務(wù)提供商,向所有市場(chǎng)利益相關(guān)者銷售服務(wù),包括SDL,STAR和TransPerfect。他們的套裝包括翻譯記憶庫(kù),術(shù)語(yǔ)管理和TMS。

而翻譯記憶最新發(fā)展是“文本記憶”,這一概念與翻譯記憶相反。這也是LISA OSCAR(前本地化產(chǎn)業(yè)標(biāo)準(zhǔn)協(xié)會(huì)出臺(tái)的標(biāo)準(zhǔn))的基礎(chǔ)。在xml:tm中的文本內(nèi)存包含“譯者內(nèi)存”和“翻譯記憶”。譯者記憶用于記錄譯者編輯當(dāng)中出現(xiàn)的改動(dòng)。翻譯記憶則使用譯者記憶中的信息來(lái)實(shí)現(xiàn)翻譯記憶匹配。雖然主要針對(duì)XML文檔,但可以將XML:tm用于任何可以轉(zhuǎn)換為XLIFF格式的文檔。

翻譯記憶模式是指翻譯記憶存儲(chǔ)的方式。根據(jù)國(guó)內(nèi)研究人員(王華偉,崔啟良2005,107)的分類,目前有兩種翻譯記憶模式。一種是基于句子的模式(SB),其中翻譯記憶以翻譯單元的形式存儲(chǔ)。另一種是雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串(CSB)模式。目前,SB模式被應(yīng)用于大多數(shù)翻譯記憶工具。因此,本文在比較兩種模型時(shí)將更重視前者。

二、基于句子的翻譯記憶模式(SB)

就該模式而言,翻譯記憶系統(tǒng)是一種特殊類型的支持工具,它維護(hù)源語(yǔ)言和目標(biāo)語(yǔ)言對(duì)的數(shù)據(jù)庫(kù),并自動(dòng)檢索數(shù)據(jù)庫(kù)中出現(xiàn)的新文本中的這些句子的翻譯。換句話說(shuō),每個(gè)源語(yǔ)句與目標(biāo)語(yǔ)句中的語(yǔ)句完全匹配。在這一模式中,翻譯記憶系統(tǒng)將根據(jù)句子級(jí)別搜索和檢索數(shù)據(jù)。

(一)基于句子模式的優(yōu)勢(shì)

為什么句子是大多數(shù)翻譯記憶工具選擇的首選翻譯單元?語(yǔ)料庫(kù)對(duì)在不同層面都差異甚大,比如文本、段落、句子、短語(yǔ)和詞語(yǔ)層面。一些像黃俊紅這樣的學(xué)者(2007,21)認(rèn)為,對(duì)齊單位越小,它傳達(dá)的語(yǔ)言信息就越多。然而,Bowker(2002,56)認(rèn)為,詞匯層次上的對(duì)齊非常困難,容易被誤解,因?yàn)榇蠖鄶?shù)自然語(yǔ)言可以找到它們之間的確切等價(jià)關(guān)系,而段落對(duì)太寬而無(wú)法搜索和檢索。因此,詞匯對(duì)齊應(yīng)該是構(gòu)建雙語(yǔ)平行語(yǔ)料庫(kù)最合適的方法。

此外,通常來(lái)講,這樣的匹配也是高度精確的。盡管能夠訪問(wèn)比句子更小的片段的工具可能會(huì)產(chǎn)生更多的匹配,但使用該句子作為基本單元的顯著益處在于,出現(xiàn)的匹配更有可能是相關(guān)的。這被認(rèn)為是高精度,低召回的搜素形式。

這種基于句子的模型的另一個(gè)優(yōu)點(diǎn)是它基于容易識(shí)別的單位(句子)進(jìn)行操作;系統(tǒng)可以根據(jù)形式標(biāo)準(zhǔn)(例如開(kāi)頭的大寫(xiě)字母,最后的標(biāo)點(diǎn)符號(hào))快速且比較容易地確定每個(gè)句子的開(kāi)始和結(jié)束。但是,當(dāng)文本中出現(xiàn)含有句點(diǎn)的縮寫(xiě)詞時(shí)就會(huì)出現(xiàn)問(wèn)題,但這可以在一定程度上用停用列表來(lái)幫助程序識(shí)別和忽略這些縮寫(xiě)(Bowker 2002,95)。

任何以句對(duì)形式存在的翻譯記憶數(shù)據(jù)庫(kù)都促進(jìn)了翻譯記憶系統(tǒng)在不同系統(tǒng)和用戶之間的可交換性,因?yàn)槭袌?chǎng)上大多數(shù)翻譯記憶系統(tǒng)使用該模式,而另一方面得歸功于本地化行業(yè)標(biāo)準(zhǔn)協(xié)會(huì)(LISA),因?yàn)樗_(kāi)發(fā)了TMX(翻譯記憶交換),這是一種標(biāo)準(zhǔn)格式,允許翻譯單元從一個(gè)翻譯記憶程序中導(dǎo)出并在另一個(gè)中重新打開(kāi),而不會(huì)丟失附加到這些單元的信息。

(二)基于句子模式的劣勢(shì)

最明顯的缺點(diǎn)在于源文本和目標(biāo)文本之間由于句子結(jié)構(gòu)不同而導(dǎo)致的對(duì)齊問(wèn)題。有時(shí)需要將兩個(gè)源語(yǔ)言句子合并成一個(gè)目標(biāo)語(yǔ)言句子,或者將一個(gè)源語(yǔ)言句子分解成兩個(gè)目標(biāo)語(yǔ)言句子,特別是在由很多分句組成的長(zhǎng)句中(Bedard 1998,25)。

第二個(gè)明顯的缺點(diǎn)是匹配算法。匹配是通過(guò)字符匹配過(guò)程實(shí)現(xiàn)的,通過(guò)計(jì)算兩個(gè)段或子段中相同和相同順序的字符串?dāng)?shù)量。此計(jì)算以匹配值的形式表示,通常為百分比。這種匹配方式只考慮了語(yǔ)言因素,而不是語(yǔ)句所表達(dá)的意思。一些研究人員用以下三句話進(jìn)行了測(cè)試:

(1) The wild child is destroying his new toy.

(2) The wild chief is destroying his new tool.

(3) The wild children are destroying their new toy.

事實(shí)證明,(2)和(1)比(3)和(1)匹配得更好,而我們都知道(1)和(3)在意義上更接近的事實(shí),因?yàn)榭紤]到兩個(gè)句子只有單數(shù) 和復(fù)數(shù)形式。由于TM系統(tǒng)僅考慮共同字的數(shù)量,所以這個(gè)結(jié)果出來(lái)了。這種結(jié)果算法甚至?xí)a(chǎn)生無(wú)用匹配的更大風(fēng)險(xiǎn),這被稱為“噪聲”。

三、雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串翻譯記憶模式

雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式允許用戶看到更廣泛的匹配上下文(即整個(gè)段落或文本而不僅僅是一個(gè)單獨(dú)的段)。此外,用戶可以利用更大塊的重復(fù)或相似的文本,如段落或頁(yè)面,而不僅僅是在句子層面上運(yùn)作。

(一)雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式的優(yōu)勢(shì)

在雙語(yǔ)語(yǔ)料庫(kù)中搜索字符串,而非在單獨(dú)的句對(duì)中查找匹配,這一模式的優(yōu)點(diǎn)在于能夠完整保存句子層面之外的上下文。用戶可以看到更廣泛的上下文匹配內(nèi)容,即整個(gè)段落或文本,而不僅僅是一個(gè)單獨(dú)的片段。

此外,用戶可以利用更大塊的重復(fù)或相似的文本,如段落或頁(yè)面,而不是在句子層面進(jìn)行操作。例如,如果要翻譯的文本中有大量重復(fù)的材料集中在大塊中(可能是更新或修訂的情況),雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式的翻譯記憶系統(tǒng)具有能夠立刻識(shí)別和處理多個(gè)連續(xù)的相同句子。

在基于句子模式的翻譯記憶系統(tǒng)中,精確對(duì)準(zhǔn)非常重要。這意味著創(chuàng)建和維護(hù)數(shù)據(jù)庫(kù)必須花費(fèi)更多的時(shí)間。相反,當(dāng)在雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式中保留上下文時(shí),可以在翻譯過(guò)程中用很少額外的努力來(lái)糾正錯(cuò)誤對(duì)齊。

(二)雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式的劣勢(shì)

盡管擁有能夠拾取短字符串的優(yōu)點(diǎn),但該模式可能以子段塊的形式產(chǎn)生更多的“噪音”,因?yàn)樵撓到y(tǒng)可能識(shí)別許多兩個(gè)三字的字符串。

此外,當(dāng)前文本的翻譯通常不會(huì)被添加到翻譯記憶中或者在翻譯過(guò)程完成之后才被驗(yàn)證,從而使用戶難以地利用內(nèi)部重復(fù)。這意味著,對(duì)于基于句子的模型,一旦翻譯完成,新的句對(duì)就可以很容易地從同一個(gè)數(shù)據(jù)庫(kù)中檢索出來(lái)。而在基于雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式中,直到整個(gè)翻譯完成并添加到數(shù)據(jù)庫(kù)之前,新文本的內(nèi)容才能以雙語(yǔ)語(yǔ)料的格式進(jìn)行搜索。即使在翻譯過(guò)程中將術(shù)語(yǔ)和表達(dá)方式添加到術(shù)語(yǔ)銀行,除非用戶在每次添加后重復(fù)每個(gè)過(guò)程,否則這些術(shù)語(yǔ)和表達(dá)方式不會(huì)被識(shí)別為內(nèi)部重復(fù)。

最后,雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式不太可能在系統(tǒng)和用戶之間轉(zhuǎn)移,因?yàn)門MX標(biāo)準(zhǔn)格式是基于句子模式發(fā)明的。

本文的主要目的是分析兩種翻譯記憶模型:基于句子的模式和雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式。但是,目前雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式的翻譯記憶系統(tǒng)幾乎已經(jīng)在市場(chǎng)上消失了。本文仍詳細(xì)分析了雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式,旨在為翻譯記憶系統(tǒng)的新功能的研究和開(kāi)發(fā)提供參考,因?yàn)樗哂衅洫?dú)特的優(yōu)勢(shì)。

[1]ALPAC,Language and Machines:Computers in Translation and Linguistics.A report by the Automatic Language Processing Advisory Committee,Division of Behavioral Sciences,National Academy of Sciences,National Research Council,Washington,DC.1996.

[2]王華偉,崔啟亮.軟件本地化[M].北京:電子工業(yè)出版社,2005.

[3]Bedard,Claude.“Jamais plus vous ne traduirez,ou les memoires des traduction,deuxieme partie”,Circuit,vol.61,1998:23.

[4]Bowker,Lynne.Computer-Aided Translation Technology:A Practical Introduction,University of Ottawa Press,2002.

[5]黃俊紅,范云,黃萍.雙語(yǔ)平行語(yǔ)料庫(kù)對(duì)齊技術(shù)述評(píng)[J].外語(yǔ)電化教學(xué),2007(118):21-25.

猜你喜歡
記憶文本
夏天的記憶
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
記憶中的他們
端午記憶
絲綢之路(2016年9期)2016-05-14 14:36:33
兒時(shí)的記憶(四)
兒時(shí)的記憶(四)
記憶翻新
海外文摘(2016年4期)2016-04-15 22:28:55
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 丁香五月婷婷激情基地| 精品国产一区91在线| 亚洲码在线中文在线观看| 国产成人亚洲精品蜜芽影院| 久久激情影院| 亚洲国产欧美国产综合久久 | 亚瑟天堂久久一区二区影院| 亚洲日韩高清在线亚洲专区| 亚洲AV一二三区无码AV蜜桃| 国产在线视频二区| 国产福利大秀91| 国产精品 欧美激情 在线播放 | 美女毛片在线| 久久熟女AV| 精品福利网| 中文精品久久久久国产网址| 91原创视频在线| 国产91精品调教在线播放| 亚洲天堂2014| 亚洲午夜福利精品无码| 久久永久免费人妻精品| 精品视频在线观看你懂的一区| 亚洲欧美另类色图| 亚洲天堂成人在线观看| 久久亚洲中文字幕精品一区| 亚洲有码在线播放| 国产91麻豆免费观看| 国产高清国内精品福利| 日韩国产欧美精品在线| 久久精品视频一| 亚洲AV无码久久精品色欲| 偷拍久久网| 国产精品成人一区二区| 萌白酱国产一区二区| 伊人激情综合网| 玩两个丰满老熟女久久网| 91综合色区亚洲熟妇p| 亚洲侵犯无码网址在线观看| 手机在线看片不卡中文字幕| 日韩色图区| 伊人久久福利中文字幕| 亚洲色图欧美| 热re99久久精品国99热| 99视频精品全国免费品| 欧美不卡在线视频| 手机看片1024久久精品你懂的| 99热这里只有精品在线观看| 欧美日在线观看| 91在线播放国产| 国产黄在线免费观看| a毛片免费在线观看| 日韩成人免费网站| 亚洲日本中文综合在线| 伊伊人成亚洲综合人网7777| 欧美一级高清片欧美国产欧美| 亚洲人成日本在线观看| 中文字幕欧美日韩| 午夜福利在线观看成人| 国产福利拍拍拍| 超碰免费91| 99精品视频在线观看免费播放| 国产精品部在线观看| 欧美日韩精品一区二区视频| 小蝌蚪亚洲精品国产| 91国内外精品自在线播放| 亚洲第一精品福利| 欧美日韩综合网| 精品久久人人爽人人玩人人妻| 一级片免费网站| 91香蕉视频下载网站| 伊人激情久久综合中文字幕| 久无码久无码av无码| 色网站免费在线观看| 中文字幕在线播放不卡| 天堂中文在线资源| 国产精品入口麻豆| 99热在线只有精品| 3p叠罗汉国产精品久久| 99re免费视频| 婷婷综合色| 无码 在线 在线| 国产人人乐人人爱|