999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

應用文漢英雙語平行語料庫研制與應用

2012-04-01 22:18:41兵謝家成
長江大學學報(社會科學版) 2012年2期
關鍵詞:文本研究

熊 兵謝家成

(1.華中師范大學 外國語學院,湖北 武漢 430079;2.長江大學 外國語學院,湖北 荊州 434023)

應用文漢英雙語平行語料庫研制與應用

熊 兵1謝家成2

(1.華中師范大學 外國語學院,湖北 武漢 430079;2.長江大學 外國語學院,湖北 荊州 434023)

雙語語料庫主要有平行語料庫(parallel corpus)和對比語料庫(comparable corpus)兩種形式。平行語料庫由于其獨特的優勢受到國內外研究者的高度關注。應用文漢英雙語平行語料庫屬于專門用途全文語料庫,目前規模約200萬字/詞,中遠期規模為600萬字/詞。建成后,將主要用于4個方面的研究:語言與語言對比研究、應用文翻譯研究、翻譯教學研究、資源提取與機器輔助翻譯運用研究。

應用文;英漢平行語料庫;翻譯研究;翻譯教學

雙語語料庫是相對于單語語料庫而言的。雙語語料庫主要有平行語料庫(parallel corpus)和對比語料庫(comparable corpus)兩種形式。平行語料庫能同時提取原文和目的語對應譯文;對比語料庫則包含兩個語域或者話題類似的雙語語料,即具有可對比性的雙語語料。這兩種語料庫涉及兩種語言,因而被廣泛應用于雙語對比研究、翻譯研究與翻譯教學等相關領域。

平行語料庫由于其獨特的優勢受到國內外研究者的高度關注,從上個世紀90年代開始,國內外的一些機構和研究者開始建設多種類型的平行語料庫并進行應用研究。不過,目前國內高校和研究機構建設的平行語料庫主要是通用型的平行語料庫或文學翻譯語料庫,以應用文為主體的平行語料庫只有某些分支的語料庫,如法律平行語料庫、旅游平行語料庫、商務語料庫等。另外,此類研究大多著眼于個別的語言現象或翻譯現象。筆者擬構建國內首個具有較大規模的綜合性應用文漢英雙語平行語料庫,并以此為基礎,進行更為廣泛而系統的應用文文體特征、翻譯特征及翻譯教學研究。同時,本語料庫的建設,對于翻譯實務,如機器輔助翻譯也具有十分積極的作用。總之,隨著國家政治、經濟、文化等各項事業的飛速發展以及對外交流活動的日益頻繁,對應用文文本的翻譯需求也與日俱增,本語料庫的建成將能夠滿足這種需求。這對于國民經濟的發展和中外經濟、文化的交流將具有積極的推動作用。

一、雙語平行語料庫的構建及應用研究現狀綜述

雙語語料庫的構建始于上世紀90年代中后期。目前已有若干所大學、研究機構或研究者建立了多種類型的雙語平行語料庫。在國外,英國曼徹斯特大學科技學院(UMIST)翻譯研究中心1995年創建了世界上第一個翻譯語料庫(Translational English Corpus)。該語料庫主要收集從各國語言翻譯成英語的文本,目前已有上千萬詞的語料。不過,它并不要求必須雙語對齊,因此并不是雙語平行語料庫,而是對比語料庫。在國內,最早建立起較大規模雙語平行語料庫的是北京外國語大學中國外語教育研究中心,該中心2004年初步建成了“新型雙語對應語料庫”(含漢英、漢日兩個雙語平行語料庫)[1],規模為3000萬詞次。在其中的漢英雙語平行語料庫中,語料文本類型主要有文學類、人文類、社科類和科技類。受國家社科基金重大規劃課題資助,該語料庫目前正在進行擴展,目標為1億詞次的超大規模綜合性通用英漢/漢英平行語料庫。另外,一些學者也建設了具有一定規模的綜合性通用英漢/漢英平行語料庫,如李德俊[2],[3]主持建設,以漢英詞典研編為主要目的,規模為2000萬詞次的英漢平行語料庫;衛乃興[4]主持建設,以研究探討英漢對等表達為目的的規模約900萬詞次的英漢平行語料庫。一些機構,如哈爾濱工業大學(英漢雙語語料庫,40萬對)、中科院軟件所(英漢雙語語料庫,15萬對)等,也建設了規模不等的英漢/漢英綜合性平行語料庫。

除了綜合性通用英漢/漢英平行語料庫外,國內學者還構建了一些針對某一特定文本的英漢/漢英平行語料庫,如針對特定文學作品的翻譯平行語料庫,有《紅樓夢》漢英平行語料庫[5]、莎士比亞戲劇英漢平行語料庫[6]、紹興文理學院的中國古典文學英譯雙語平行語料庫等。

專門用途英漢雙語平行語料庫也是雙語平行語料庫的重要類型,典型的有商務英漢雙語平行語料庫[7]、雙語旅游語料庫[8]、中國法律法規漢英平行語料庫等。這些專門用途英漢平行語料庫主要為單一用途的語料庫,或規模有限,或并未公開、無法獲取,因此,有必要建設更為全面、規模更大的開放型應用文平行語料庫。

雙語平行語料庫的相關研究可大致分為兩大類別:

一是探討如何科學規劃、高效構建各種類型的英漢/漢英平行語料庫[1],[7],[8],如設計理論、操作程序,包括文本的轉換、語料的標注、語料的對齊等。

二是雙語平行語料庫的相關應用研究,主要包括以下幾個方面:

利用雙語語料庫進行翻譯研究。目前利用雙語語料庫進行翻譯研究已得到廣泛重視[9]。雙語語料庫翻譯研究在研究方法上以語言學和翻譯理論為指導,以概率和統計為手段,以雙語真實語料為對象,對翻譯進行歷時或共時的研究[10],因此語料庫方法與Gideon Toury[11]所提出的描寫翻譯研究有很多交合點。可以說,基于語料庫的翻譯研究為認識、研究翻譯現象提供了新的思路和方法[12],[13],因而被廣泛應用于翻譯研究,尤其是翻譯特征研究及對翻譯共性的研究[14],如利用對比語料庫探討翻譯漢語的詞匯特征[15]、文學翻譯中人稱代詞的顯化和變異[16],以及利用漢英雙語平行語料庫分析英譯漢文本的詞類分布、詞匯組合等方面的語言特征等[17]。也有考察特定作品翻譯特征的研究,如基于《紅樓夢》語料庫的漢英習語及其翻譯研究等[18]。目前基于雙語語料庫的翻譯研究主要是針對文學翻譯,不過對非文學翻譯的研究也正日益受到關注,如利用雙語旅游語料庫對旅游宣傳文本的翻譯研究[8]。在對翻譯特征的研究方法方面,除了充分利用語料庫技術手段外,也有研究者利用人工分析標注的方法,對文本翻譯進行語篇、功能等層次的深入研究。如利用Werlich[19](P150)提出的平行文本比較模式對文本內部構成規則(internal composition rules,即文本構成的基本因素及其組合規則,如開頭、順序形式、文本結構、文本單位和結尾等)進行分析和歸納,挖掘中英文酒店文宣在文本慣例上呈現出的不同特點[8]。另外,也有研究基于雙語語料庫并結合體裁分析考察專門用途英語翻譯[20]。這些研究表明,語料庫檢索手段與人工標注相結合能更全面、更深入地探討文本的翻譯特征。

雙語平行語料庫也被用于漢英對比研究。這些研究大多利用雙語平行語料庫進行英漢對比個案研究,如“so…that”的漢語對應結構研究[21]、“把”字句研究[22]、“一……就”的英譯對比研究等[23]。基于平行語料庫的英漢對比研究有助于深入了解英漢雙語轉換規律,不僅適用于一些特定的疑難表達,也可用于大規模的雙語對等表達提取,尤其是應用文翻譯中的術語提取。實際上,基于平行語料庫的對等詞提取研究目前已成為平行語料庫研究的一個熱點(如衛乃興[4],李文中[24]),這類研究不僅有助于翻譯實踐,也有助于各種詞典的編纂。國內一些機構和研究者還研制了相應的對應表達提取工具和詞典編纂輔助工具[2]。這些研究有助于雙語語料庫資源的有效獲取與運用。

雙語平行語料庫在翻譯培訓[25]、語言及翻譯教學[26],[27]、機器輔助翻譯教學[7]等方面也受到了廣泛關注。比如通過自建或在線語料庫,教師精心設計學習點[26]或學生自主探究學習,通過檢索軟件在語料庫中提取并呈現相關索引,供學生練習和討論,教師隨后作總結,有助于翻譯教學。

二、應用文漢英雙語平行語料庫的構建

語料庫構建中最重要的因素是語料的代表性,語料的代表性與語料庫的設計目的密切相關。筆者擬構建具有較大規模的應用文漢英雙語平行語料庫(屬于專門用途全文語料庫),目前規模約200萬字/詞(為統計方便,中文部分按字數計算,英文部分按詞數計算),中遠期規模為600萬字/詞。本語料庫的設計目的主要是進行與應用文相關的雙語對比研究、翻譯研究及翻譯教學與翻譯實務研究。下面從語料的構成、選取與錄入、整理、對齊、標注等方面分別進行介紹。

語料的構成。本研究將應用文定義為“人們在工作、生活、學習中為處理實際事務而寫作,有著實用性特點,并形成慣用格式的文本”。具體類別包括新聞文本、廣告文本、旅游宣傳文本、合同協議、演說詞、公文信函、說明書、求職信、公示語、菜譜,等等。與此相應,整個語料庫包括7個子庫:新聞文本子庫、廣告文本子庫、旅游宣傳文本子庫、合同協議文本子庫、演說詞文本子庫、公文信函文本子庫、其他類型文本子庫(包括說明書、求職信、公示語、菜譜等)。本語料庫文本類別包括漢語原創文本、對應英語譯本、英語原創文本、對應漢語譯本4種。根據以上語域類別分層抽樣、均衡抽樣,使入庫語料具有較好的代表性。收錄比例注意協調、均衡,英譯漢稍多于漢譯英。

語料的選取與錄入。語料的選擇決定著語料庫的典型性、代表性,因此語料的選擇與監控也是語料庫建設的關鍵。語料庫所收錄的文本絕大部分來源于以下途徑:網上的電子文本或CD-ROM光盤,網上數字圖書館,以紙質形式呈現的印刷品、書籍或宣傳頁等。這些材料都通過互聯網下載、格式轉換、文本電子掃描、人工錄入等各種方式轉為TXT文檔。由于語言材料數量多,質量難免良莠不齊,這就凸顯了語料選取的原則——必須挑選語言質量高的文本。文本若含有明顯的語法、用詞或印刷上的錯誤,均不收錄;語料選取時應注意譯本的質量,力避太過貼近原文句法結構以致僵硬的譯文和太過自由的意譯,因為本語料庫除了用于語言研究外,還會用于教學,嚴謹選材顯得尤為重要。為確保收集的文本質量與內容符合標準,本語料庫在建設中實行多層把關制,以甄別、核實文本的代表性。

語料的整理。選取好的語料之后,還需對其進行加工處理。對所有的語料都要進行降噪處理,清除雜質、冗余符號等無關信息。有些文本帶有插圖、照片、標志、字體等非言語因素,是應用文文本中不可缺少的一部分,但在轉換成電子文本語料后,這些非言語因素都必須去除,以方便標注和日后檢索。作為補償,將對具有這些特征的文本在其電子文本的篇頭和文中進行標注,方便研究者和學習者查找相應的原始文檔。語料的篇頭標注也是語料整理的重要環節,詳細的篇頭標注能為所收錄語料提供必要的信息,如文本類型、百科分類、篇名、作者名、作者背景、譯者名、譯者背景、年代、出版信息或其他來源、文本字數、有無非言語因素等。

語料的對齊。平行語料庫建設過程中很重要的一環是語料的對齊。整理后的中英文語料首先借助Winalign工具,實現以句為單位的粗略對齊,然后人工檢查,以方便Paraconc檢索。

語料的標注。整理對齊后的語料還需進一步做機器自動標注。中文語料用中科院計算技術研究所開發的“漢語詞匯分析系統”(ICTCLAS)進行分詞處理,以方便進一步檢索和研究。為了更深入、更廣泛地探索應用文的語篇結構,還對不同類型的文本分別選取少量典型的樣本,根據體裁分析方法,基于功能進行語步(move)的人工標注。這種標注有助于揭示應用文文本的語篇構成特色。

語料整理對齊并標注后,統一將文本轉換成XML格式,方便傳播和檢索。

三、應用文漢英雙語平行語料庫的應用展望

本語料庫建成后,將主要用于4個方面的研究。

第一,語言與語言對比研究。利用本平行語料庫,開展基于應用文語料的語言與語言對比研究。既有將應用文作為整體與通用語言的對比研究,也有針對具體應用文類型的分類研究,還可以結合譯文,開展英漢雙語對比研究,重點考察英漢應用文在詞匯、句法、語篇和文體上的共性和差異,以此揭示該文本類型中特有的語言現象和規律。這種基于大量語料的實證研究,相比傳統的經驗式或感悟式個案研究,具有更高的可信度。

第二,應用文翻譯研究。主要包括微觀和宏觀兩個方面。微觀方面,研究翻譯轉換規律,主要集中于應用文文本翻譯過程中詞法和句法層面的轉換機制,前者如詞類轉換情況,后者如各種句式的轉換情況,特別是應用文英漢互譯中漢語某些特有的句式(如無主句、“把”字句、意念被動句等)的轉換機制。宏觀方面,以實證和量化的方式對應用文翻譯的文體、風格、翻譯共性等進行研究,根據大量語料對譯者個人偏愛的語言表達形式(如詞類/標記比率、句子長度、詞頻、句型、搭配方式、敘事結構等)加以分析,從中發現更有說服力的翻譯文體/風格表征及其表現手段。另外,還可對以下問題進行研究:應用文翻譯與普通翻譯在語言特點上是否存在共性?是否具有另外的特點?這些特點與特定文本類型或特定時期的翻譯規范是否有關?

第三,翻譯教學研究。應用文翻譯教學及其研究是目前翻譯教學中的一個重要環節。本語料庫的構建解決了大量應用文語料的存儲及其定性/定量分析的問題。基于多維度的研究發現以及較大規模的雙語語料庫平臺,教師可精心設計數據驅動教學(data-driven learning),如利用語料庫檢索軟件生成的索引幫助學習者發掘雙語轉換的規律,從中揣摩職業譯員所用的翻譯策略,學習他們常用的方法與技巧,提升應用文翻譯的綜合轉換能力。

第四,資源提取與機器輔助翻譯運用研究。具有較大規模的應用文漢英雙語平行語料庫是一種寶貴的資源,通過多種語料庫手段,能夠提取豐富的雙語對比表達,尤其是術語表達。這些術語表達,以及平行語料本身,可充分用于目前的機器輔助翻譯。

綜上所述,本語料庫具有很好的應用前景,有助于深入探討英漢應用文文體特征的異同,以及英漢應用文互譯時在詞匯、句法及語篇層次轉換方面的特色、翻譯策略等。這些對比研究成果以及作為豐富資源的雙語語料庫平臺的建成,將有助于培養高素質的應用型翻譯人才,促進針對應用文的機器輔助翻譯實踐與研究。

[1]王克非.新型雙語語料庫的設計與構建[J].中國翻譯,2004(6).

[2]李德俊.基于英漢平行語料庫的詞典編寫系統CpsDict的研制[J].現代外語,2006(4).

[3]李德俊.完全對等、零對等的考察與漢英雙語詞典研編——基于平行語料庫的研究[J].辭書研究,2009(2).

[4]衛乃興.基于語料庫的對比短語學研究[J].外國語,2011(4).

[5]劉澤權.《紅樓夢》中英文平行語料庫的創建[J].當代語言學,2008(4).

[6]胡開寶.莎士比亞戲劇英漢平行語料庫的創建與應用[J].外語研究,2009(5).

[7]王立非.高校《機輔商務翻譯》課程建設及教學系統的研發[J].中國翻譯,2011(2).

[8]李德超,王克非.新型雙語旅游語料庫的研制和應用[J].現代外語,2010(1).

[9]Laviosa,S.Corpus-based Translation Studies:Theory,Findings and Applications[M].Amsterdam:Rodopi,2002.

[10]王克非,黃立波.語料庫翻譯學的幾個術語[J].四川外語學院學報,2007(6).

[11]Toury,G.Descriptive Translation Studies and Beyond[M].Amsterdam and Philadelphia:Benjamins,1995.

[12]秦洪武,王克非.基于語料庫的語言對比和翻譯研究[J].外語電化教學,2006(6).

[13]王克非.語料庫翻譯學——新研究范式[J].中國外語,2006(3).

[14]王克非,黃立波.語料庫翻譯學十五年[J].中國外語,2008(6).

[15]王克非,胡顯耀.基于語料庫的翻譯漢語詞匯特征研究[J].中國翻譯,2008(6).

[16]王克非,胡顯耀.漢語文學翻譯中人稱代詞的顯化和變異[J].中國外語,2010(4).

[17]秦洪武,王克非.基于對應語料庫的英譯漢語言特征分析[J].外語教學與研究,2009(2).

[18]劉澤權.《紅樓夢》中的習語及其翻譯研究[J].外語教學與研究,2008(6).

[19]Werlich,E.A Text Grammar of English[M].Heidelberg:Quelle and Meyer,1982.

[20]謝家成.基于體裁分析的專門用途語篇翻譯模式及運用[J].上海翻譯,2010(2).

[21]秦洪武,王克非.基于語料庫的翻譯語言分析——以“so…that”的漢語對應結構為例[J].現代外語,2004(1).

[22]王克非.漢語把字句的特點、分布及英譯研究[J].外語與外語教學,2003(12).

[23]謝家成.“一……就”的英譯——兼談英漢平行語料庫輔助漢譯英調查[J].中國科技翻譯,2004(2).

[24]李文中.平行語料庫設計及對應單位識別[J].當代外語研究,2010(9).

[25]Zanettin,F.Bilingual Comparable Corpora and the Training of Translators[J].Meta,1998(4).

[26]秦洪武,王克非.對應語料庫在翻譯教學中的應用:理論依據和實施原則[J].中國翻譯,2007(5).

[27]王克非,秦洪武,王海霞.雙語對應語料庫翻譯教學平臺的應用初探[J].外語電化教學,2007(6).

Development and Application of Chinese-English Bilingual Parallel Corpus for Practical Writing

XIONG Bing (Philosophy Department,Central China Normal University,Wuhan Hubei 430079)
XIE Jia-cheng (School of Foreign Studies,Yangtze University,Jingzhou Hubei 434023)

Bilingual corpus has two main forms:parallel corpus and comparable,and much attention is paid to the former at home and abroad due to its unique advantages.Chinese-English bilingual parallel corpus for practical writing belongs to special purpose full text corpus,with a size of about 2million characters/word at present and a size of 6million characters/word in the future.It would be mainly used in the following 4areas of research:language and contrastive study of languages,translation research on practical writing,translation teaching research,research on resource extraction and machine-assisted translation application.

practical writing;parallel corpus;translation research;translation teaching

H315

A

1673-1395(2012)02-0075-04

2012-01-02

教育部人文社科規劃基金項目(10YJA740104)

熊兵(1967-),男,湖北武漢人,教授,博士生導師,主要從事英漢語言對比與翻譯研究。

責任編輯 強 琛 E-mail:qiangchen42@163.com

猜你喜歡
文本研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
在808DA上文本顯示的改善
EMA伺服控制系統研究
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
新版C-NCAP側面碰撞假人損傷研究
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 五月婷婷激情四射| 国产一级毛片在线| 亚洲天堂精品视频| 久久国产乱子| 高清无码手机在线观看| 欧美日韩国产在线播放| 亚欧美国产综合| 午夜福利视频一区| 国产亚洲精品自在久久不卡| 亚洲成A人V欧美综合| 色悠久久久久久久综合网伊人| 在线观看国产精美视频| 精品一區二區久久久久久久網站 | 专干老肥熟女视频网站| 色吊丝av中文字幕| 日韩AV无码一区| 国产女人爽到高潮的免费视频| 九色在线观看视频| 91精品国产麻豆国产自产在线| 热思思久久免费视频| 伊人色在线视频| 欧美精品一二三区| 三级国产在线观看| 欧美成人第一页| 亚洲精品免费网站| 国产成人精品日本亚洲77美色| 免费国产黄线在线观看| 国产福利一区在线| 啪啪啪亚洲无码| 欧美专区在线观看| 亚洲欧美不卡| 偷拍久久网| 国产无码高清视频不卡| 萌白酱国产一区二区| 色综合久久88色综合天天提莫| 五月天综合网亚洲综合天堂网| 五月婷婷亚洲综合| 91免费国产高清观看| 国产一级毛片高清完整视频版| 黄色不卡视频| 亚洲高清资源| 午夜老司机永久免费看片| 国产女人爽到高潮的免费视频| 久久成人免费| 国产精品一区在线观看你懂的| 国产男人的天堂| 美美女高清毛片视频免费观看| 日本免费一区视频| 一级毛片视频免费| 日本AⅤ精品一区二区三区日| 国产精品yjizz视频网一二区| yjizz国产在线视频网| 久久精品国产精品青草app| 国产精品视频猛进猛出| 欧洲成人免费视频| 色偷偷综合网| 人妻夜夜爽天天爽| 91久久天天躁狠狠躁夜夜| 美女被操91视频| 青青青草国产| 激情五月婷婷综合网| 久久毛片网| 国产成人亚洲综合A∨在线播放| 五月天天天色| 久久精品国产电影| 国产va在线观看免费| 久久久久久高潮白浆| 99热精品久久| 国产97区一区二区三区无码| 毛片免费在线视频| 美女被操黄色视频网站| 国产精品露脸视频| 色综合五月| 啪啪免费视频一区二区| 97国产精品视频自在拍| 丰满人妻被猛烈进入无码| 真实国产精品vr专区| 国产成人1024精品下载| 亚洲一区二区三区国产精品| 日本免费福利视频| 国产精品一区二区久久精品无码| 亚洲欧洲综合|