陳華妮,王迪
(中國民用航空飛行學(xué)院,四川廣漢 618307)
在國家“一帶一路”的政策背景下,為響應(yīng)中華文化“走出去”以及國家語言能力建設(shè)號(hào)召,國內(nèi)各大高校相繼大力開展信息時(shí)代語言服務(wù)人才培養(yǎng)模式研究,探索新型語言服務(wù)人才培養(yǎng)的特色道路。同時(shí),大數(shù)據(jù)和語言技術(shù)的飛速發(fā)展也給高校外語專業(yè)語言服務(wù)人才的培養(yǎng)理念和培養(yǎng)方式上的調(diào)整帶來了前所未有的機(jī)遇[1-3]。
語料庫語言學(xué)作為最具活力、 發(fā)展最為迅速的語言學(xué)領(lǐng)域之一,越來越多地被應(yīng)用于語言學(xué)各分支的研究中。隨著翻譯技術(shù)的普及,越來越多的學(xué)者和譯者投入到語料庫的研究和實(shí)踐中。語料庫建設(shè)、研究和實(shí)踐也日益成為外語專業(yè)學(xué)科發(fā)展的重點(diǎn)方向之一。
語料庫研究是外國語言學(xué)及應(yīng)用語言學(xué)專業(yè)學(xué)科人才需掌握的必不可少技能。與此同時(shí),翻譯專業(yè)在學(xué)科建設(shè)上也對(duì)語料提出了明確要求。在2010年5月7日,國務(wù)院學(xué)位委員會(huì)下發(fā)《關(guān)于開展新增碩士專業(yè)學(xué)位授權(quán)點(diǎn)審核工作的通知》(學(xué)位〔2010〕20號(hào)),其附件1~15《翻譯碩士專業(yè)學(xué)位授權(quán)點(diǎn)基本條件》中“教學(xué)條件”中明確規(guī)定:“申請(qǐng)?jiān)O(shè)立筆譯方向的,須擁有專用筆譯實(shí)驗(yàn)室及供筆譯教學(xué)使用的翻譯軟件或資料庫”[4-6]。
近年來,在全球化的浪潮下,我國民航飛速發(fā)展,我國民航業(yè)國際交流也與日俱增,極大地刺激了民航翻譯的需求。平行翻譯語料庫可以對(duì)民航翻譯研究和實(shí)踐提供很好的翻譯實(shí)例和量化數(shù)據(jù)。該研究針對(duì)民航英漢平行雙語翻譯語料庫進(jìn)行了總體設(shè)計(jì),建成了小型民航英漢平行翻譯語料庫。該研究旨在通過加強(qiáng)民航英漢平行翻譯語料庫建設(shè)從而促進(jìn)我國民航翻譯研究和實(shí)踐的進(jìn)一步發(fā)展。
該研究的主要研究內(nèi)容為民航英漢平行翻譯語料庫的建立和術(shù)語庫的建設(shè)。該研究建成了2 個(gè)小型民航英漢平行翻譯語料庫和1 個(gè)民航翻譯術(shù)語庫。該研究的意義主要有以下3 個(gè)方面。
為學(xué)院一線翻譯教師提供更多教學(xué)案例,擺脫以前基于經(jīng)驗(yàn)的教學(xué)模式,教授學(xué)生掌握預(yù)翻譯、項(xiàng)目術(shù)語準(zhǔn)備、術(shù)語統(tǒng)一、語料信息檢索、協(xié)同翻譯等當(dāng)下翻譯流程的關(guān)鍵環(huán)節(jié),使學(xué)生所學(xué)與將來工作無縫對(duì)接,提高學(xué)生的競爭力[7-9]。
為MTI 以及BTI 學(xué)生提供一個(gè)檢索平臺(tái),學(xué)生可隨時(shí)查找民航翻譯實(shí)例,便于定期回顧,查漏補(bǔ)缺,形成一套翻譯自主學(xué)習(xí)平臺(tái)。
在進(jìn)行民航的翻譯實(shí)踐時(shí),幫助譯者快速查找相關(guān)譯文表達(dá),提高翻譯工作效率及準(zhǔn)確率。
基于該語料庫建設(shè)可進(jìn)一步開展各項(xiàng)研究,為學(xué)校在翻譯教學(xué)與研究方面提供更豐富的研究素材和工具。利用平行語料檢索技術(shù),研究人員可以獲取豐富的雙語句對(duì)表達(dá),通過對(duì)比,進(jìn)一步發(fā)現(xiàn)語言特點(diǎn)[10-13]。
《民航英漢平行翻譯語料庫建立與研究》研究工作主要分為以下幾個(gè)階段。
第一階段:語料庫相關(guān)資料搜集。
通過互聯(lián)網(wǎng)以及數(shù)字圖書館,收集并整理與平行翻譯語料庫相關(guān)的文獻(xiàn)。通過互聯(lián)網(wǎng)以及數(shù)字圖書館,搜集各類民航英漢雙語語料數(shù)據(jù)。
第二階段:語料庫建設(shè)總體規(guī)劃。
在文獻(xiàn)研究的基礎(chǔ)上,完成民航英漢平行雙語語料庫建設(shè)的總體設(shè)計(jì)方案。
第三階段:英漢雙語語料加工。
獲取雙語語料數(shù)據(jù)后,完成語料加工工作,如語料提取、語料降噪等。民航英漢平行雙語語料庫建設(shè)時(shí)語料加工采用的部分技術(shù)方法包括以下幾點(diǎn)。
(1)語料提取:將搜集的PDF 雙語語料轉(zhuǎn)成可編輯的Word 文檔。主要方法如下:首先,將PDF 中的文字復(fù)制粘貼到Word 文檔中。其次,對(duì)于無法復(fù)制粘貼的文字采用多種方法進(jìn)行處理,如使用Adobe Acrobat Pro DC 進(jìn)行轉(zhuǎn)換;使用福昕高級(jí)PDF編輯器進(jìn)行轉(zhuǎn)換; 使用ABBY Finereader 進(jìn)行OCR識(shí)別轉(zhuǎn)換;使用在線網(wǎng)站進(jìn)行轉(zhuǎn)換,如https://www.cleverpdf.com/等;使用Tmxmall 的工具箱進(jìn)行轉(zhuǎn)換;使用手機(jī)OCR 識(shí)別APP,如搜狗輸入法文字識(shí)別、OCR掃描王等進(jìn)行轉(zhuǎn)換;使用WPS 進(jìn)行轉(zhuǎn)換等[14-18]。
(2)語料清洗:對(duì)Word 格式語料進(jìn)行預(yù)處理。主要工作包括: 將Word 文檔中所有的軟回車替換成硬回車;處理Word 文檔中的句子斷句異常;自動(dòng)編號(hào)(序號(hào))換成文字編號(hào);將文檔中的紅色代碼批量選中并刪除;批量替換刪除<>中的代碼;去除多余空格和“-”;處理表格識(shí)別混亂;識(shí)別混亂的圖文框和圖表;處理上下標(biāo)無法識(shí)別;處理頁眉、頁腳、頁碼和目錄混亂;提取中英文文檔中的中文/英文[19]。
(3)語料分類:根據(jù)文本的類型將語料進(jìn)行分類,以建成不同類型的民航英漢平行翻譯語料庫。
第四階段:英漢雙語語料對(duì)齊及術(shù)語庫建設(shè)。
使用在線對(duì)齊工具Tmxmall Aligner 進(jìn)行語料對(duì)齊。使用Tmxmall Aligner 將長段落原文譯文自動(dòng)拆分為多句,借助在線對(duì)齊工具實(shí)現(xiàn)一對(duì)多、多對(duì)多智能對(duì)齊并以tmx 格式導(dǎo)出[20-23]。
將導(dǎo)出的tmx 格式文件導(dǎo)入語帆術(shù)語寶,完成術(shù)語提取及術(shù)語庫建設(shè)。主要的建庫方法為:使用云帆術(shù)語寶提取術(shù)語提取詞頻為1 的術(shù)語,并逐一驗(yàn)證,刪除重復(fù)部分,保留一詞多譯;提取詞頻為2 的術(shù)語,并逐一驗(yàn)證,刪除重復(fù)部分,保留一詞多譯;以tbx 以及Excel 格式導(dǎo)出,按字母順序排序; 在YICAT 平臺(tái)創(chuàng)建術(shù)語庫,并將導(dǎo)出的tbx 格式文件導(dǎo)入新建的術(shù)語庫,完成術(shù)語庫創(chuàng)建[24-27]。
第五階段:英漢雙語對(duì)齊語料入庫。
將對(duì)齊的語料分類導(dǎo)入YICAT 平臺(tái)記憶庫,建成2 個(gè)民航英漢平行翻譯語料庫。用戶選擇檢索模式,在檢索框中輸入關(guān)鍵詞并選擇檢索范圍,即可進(jìn)行檢索。
該研究的主要成果為:建成A330/A340 飛行機(jī)組操作手冊(cè)語平行翻譯語料庫和DA42 NG 飛機(jī)飛行手冊(cè)平行翻譯語料庫; 建成DA42 NG 飛機(jī)飛行手冊(cè)術(shù)語庫。該研究主要在以下兩個(gè)方面體現(xiàn)了創(chuàng)新性。
第一,國內(nèi)外平行翻譯語料庫研究多涉及英語和歐洲語言,涉及漢語的英漢/漢英平行翻譯語料庫研究十分有限,這與漢語作為世界上大語種的地位極不相稱,與當(dāng)前翻譯研究的需要也不相適應(yīng)。該語料庫的建設(shè)是英漢/漢英平行翻譯語料庫建設(shè)的有利補(bǔ)充。
第二,現(xiàn)有的平行翻譯語料庫多以一般性文本題材為主,很少有針對(duì)某一文類的專門用途英語的平行語料庫。民航英漢平行翻譯語料庫屬于英漢專門用途英語平行語料庫,它的設(shè)計(jì)和建立是平行翻譯語料庫研究領(lǐng)域的一個(gè)有利補(bǔ)充。
首先,該平行翻譯語料庫收集真實(shí)的翻譯語言,民航翻譯人員能通過翻譯語料庫查找到更多的翻譯實(shí)例。因此,該語料庫能很好地促進(jìn)民航翻譯實(shí)踐。
其次,該平行翻譯語料庫的建立提供了基于雙語對(duì)齊語料的檢索平臺(tái),促進(jìn)了民航翻譯研究和實(shí)踐。民航翻譯人員和研究人員可進(jìn)行多方面檢索,有助于翻譯規(guī)范和翻譯理論的驗(yàn)證。
最后,該平行翻譯語料庫的建立為機(jī)型手冊(cè)翻譯任務(wù)提供支持。2020年,該平行翻譯語料庫為DA42、SR20、M2 等民航機(jī)型手冊(cè)翻譯任務(wù)的順利完成提供了有力支持。
建設(shè)英漢平行雙語語料庫為語料庫研究和翻譯實(shí)踐服務(wù)已經(jīng)成為新時(shí)代語言研究者必不可少的重要組成部分。通過語料庫管理語料,可在檢索語料時(shí)增強(qiáng)針對(duì)性,提高準(zhǔn)確率和效率;在翻譯實(shí)踐時(shí),參考利用已建成的語料庫,可以避免重復(fù)性勞動(dòng),提升翻譯效率。該研究通過民航英漢平行翻譯語料庫的建立,為基于語料庫的民航翻譯實(shí)踐和研究提供了借鑒和幫助。民航翻譯研究人員應(yīng)進(jìn)一步建設(shè)大型民航英漢平行翻譯語料庫,進(jìn)一步提高檢索語料的針對(duì)性和準(zhǔn)確率,促進(jìn)民航翻譯質(zhì)量的提升以及民航翻譯研究的發(fā)展。