陳少琛
(寧波工程學院外國語學院,浙江 寧波 315211)
語料庫語言學的興起為翻譯研究提供了一個新的視角和方法,推動了翻譯相關的語料庫建設,為翻譯學開啟了新的研究范式。Baker[1]在1993年闡述了語料庫在譯學研究中的作用,為語料庫翻譯學研究開辟了新的天地。通過語料庫的方法,可對源語文本和翻譯語料進行統計、比較和分析,以研究翻譯語言特征、譯者風格和翻譯規范,因此,語料庫翻譯學成為譯學研究的重要領域[2]。在各類語料庫中,與翻譯關系最為緊密的莫過于雙語平行語料庫。雙語平行語料庫被廣泛應用于語言研究、翻譯研究、外語教學和跨語言信息檢索,可為翻譯教學和研究提供可靠的翻譯實例和量化數據[3]。國內研發了多個通用雙語平行語料庫,包括中國科學院漢英平行語料庫、南京大學雙語詞典研究中心英漢雙語平行語料庫、清華大學中英平行語料庫、北京外國語大學雙語平行語料庫等,其在語言學研究和自然信息處理中的作用愈發重要[4]。
但是,目前的英漢平行語料庫多為通用語料庫,針對性不強,且大多無法公開訪問,難以滿足特定領域的翻譯教學和研究需求。因此,筆者特構建小型商務文本英漢平行語料庫,以滿足商務領域翻譯資源建設、翻譯理論和技巧學習、翻譯實踐應用等需求,可為商務文本的語言特征對比、文體風格分析和翻譯研究提供可靠的數據,為學生的學習和實踐提供真實的語料。
本語料庫建設的目的是服務商務翻譯的教學和研究,因此在語料構成方面依照商務文本的類型設定,分成幾大類:公司介紹、產品推介、貿易單證、企業年報、招股章程、行業報告、經濟政策、商業新聞等。每一大類的語料規模盡量均衡,并兼顧英漢和漢英兩種方向,其中英漢約占1/3,漢英約占2/3。
語料選取把握三個原則:真實性、相關性和高質量。本語料庫大部分語料都是在商務場景中被實際運用的語料,來源主要為企業網站、政府網站、經濟論壇、新聞網站、權威教材等,確保語料的真實性。語料的選取嚴格依照語料庫的內容分類進行采樣,每個大類確保一定的語料數量,保證語料內容與商務主題高度相關。此外,為了確保譯文的質量,在語料采集時嚴格控制語料來源,僅選擇權威網站或教材的雙語材料,比如,企業材料選擇大型跨國企業或在境外上市的中國公司的官網資源,從其中文網站和英文網站上獲取對應的雙語語料,新聞語料從提供雙語文本的網站獲取,如China Daily、Financial Times等。
所有語料實現源語和目的語文本句級對齊,并進行分詞和詞性標注,便于考察文本特征、分析源語文本和目的語文本之間對應關系、探討翻譯策略和方法,以滿足教學和研究的需要。
1.2.1 語料的采集
語料的采集分成三種類型:網頁抓取、文檔下載和紙質教材。網頁語料主要從目標站點抓取,保存為TXT文件。以文檔形式存在的語料從相關網站下載,多為PDF格式,使用PDF編輯器轉換為Word格式保存。紙質教材通過掃描,保存為圖片格式,然后通過圖文識別軟件識別文字,導出保存為TXT文件。
1.2.2 語料的清洗
使用EmEditor對文本進行降噪處理,利用正則表達式和查找、替換的功能,去除多余的空行、回車、字符和其他不利于后期處理的干擾信息,添加必要的標記符號,編輯后的文本統一保存為TXT文件,編碼為utf-8格式。
1.2.3 語料的對齊
語料的對齊使用ABBYY Aligner進行英漢雙語的自動對齊,再輔以人工校對和調整,依照原文句子對齊,進行適當的切分或合并。所有語料實現句級對齊,導出TMX格式文件和雙語對照的Word文件,TMX文件保存用于翻譯記憶庫,Word文件進一步轉換成TXT文件,原文和譯文分成兩個文檔,文件名相同,英文文檔文件名后添加“.EN”,中文文檔添加“.CN”。
1.2.4 語料的標注
為了實現中文文本的檢索和統計,需要先進行分詞和詞性標注。中文的分詞和詞性標注使用NLPIR-Parser系統(ICTCLAS分詞系統)[5],該系統分詞的準確率較高。利用該分詞系統,完成對中文文本的分詞和詞性賦碼。英文文本的詞性標注采用TreeTagger軟件。軟件標注詞性后,進行人工檢查和調整。
語料的檢索主要使用ParaConc和WordSmith。Para-Conc主要利用其平行文本的檢索功能,對某些字符匹配的對應翻譯進行檢索,利用熱詞搜索功能,對字符常用的對應譯詞進行統計,利用詞頻統計功能,對不同文本的詞頻進行統計和比較。WordSmith主要用于:統計語料的形符、類符、平均句長和詞長等數據,以分析語料的語言特征;進行某些詞匯的檢索,統計詞頻,制作關鍵詞詞表。
目前本語料庫的規模約為100萬字詞,涵蓋八大商務主題,所有對齊語料各有三個版本,即tmx格式版本、未標注詞性版本和完成分詞和詞性標注版本,可滿足不同的需求。
不同類型的商務文本有著不同的語言特征和文體風格,這對翻譯策略和方法的選擇有著重要的意義,在商務翻譯教學中,需要提高學生的文體意識,確保譯文符合文體風格方面的要求。因此,可以利用本平行語料庫,對不同類別的商務文本進行類符/形符比、詞匯密度、平均句長、高頻詞等方面進行統計和比較,以分析各類文本的語言特征,從而歸納總結特定文本類型的文體風格,并可對原創文本和翻譯文本進行語言特征的對比,以考察翻譯文本特有的語言特征。
通過語料檢索,可以考察源語文本和翻譯文本在詞匯層面的對應關系,統計特定詞匯的使用情況,包括詞頻、詞語搭配、語義韻等,加深學生對特定詞匯使用的認識。還可以通過獲取具體的翻譯數據,統計特定詞匯對應的常用譯詞,結合譯詞所在句子的上下文,分析翻譯中詞義選擇的考量因素,總結詞義選擇的方法。
翻譯策略和方法的教學是商務翻譯教學的重點,在教學中可以利用本英漢平行語料庫,對特定商務術語、文化詞匯和修辭性表達的檢索,獲得大量的翻譯實例,結合例子,分析針對某些特定的表達,譯文中做出了哪些調整,采用何種翻譯策略和方法,分析其背后的原因,總結翻譯策略和方法使用的原則,以此提高學生的翻譯能力。
完成句級對齊的語料可以作為學生進行翻譯實踐練習的輔助材料,為學生的練習提供術語和翻譯實例參考??山Y合Trados、Wordfast等機輔翻譯軟件,導入雙語對齊的語料,一方面可制作成術語表,規范術語的使用,另一方面導入記憶庫,輔助學生的翻譯過程,為學生掌握基礎的翻譯技術提供語料的支撐。
商務翻譯是應用翻譯的重要組成部分,商務翻譯的研究和教學需要跟上時代的發展。商務英漢平行語料庫的建設,可為商務翻譯研究提供真實的語言數據,對商務翻譯的語言特征進行充分的描述,揭示商務文本的文體特征和翻譯規律。利用語料庫的資源,可以改進商務翻譯教學的模式,為現有的教學內容提供有效的補充,改變傳統基于教材的學習方式,融入語料庫手段,培養學生利用語言數據和語料庫技術的能力,以探索語言差異和語言轉換的規律。希望通過本語料庫的建設,幫助實現翻譯研究、翻譯教學和實踐的有機結合,為商務翻譯的研究和教學貢獻一份力量。