張夙艷 丁 玫
(山東建筑大學 外國語學院,山東 濟南 250100)
多模態(tài)語料庫是指視頻、音頻、圖像、文字語料等多種信息進行集成整合,使用者運用計算機通過多模態(tài)方法對其進行加工、檢索、應用的大型語料集合[1]。平行語料庫是由原文文本及其平行對應的譯文文本構(gòu)成的雙語或多語語料庫,其雙語對應程度可有詞級、句級和段級幾種,是機輔(器)翻譯的核心要素。當前,我國多模態(tài)語料庫的研究與建設(shè)正處在發(fā)展階段,顧曰國教授已于2013年建立起包含三個子庫(話語活動庫、幼兒成人庫、網(wǎng)上良師庫)的“SCCSD”多模態(tài)語料庫;2014年,中國社會科學院與北京外國語大學聯(lián)手建立了中國多語言多模態(tài)語料庫暨大數(shù)據(jù)研究中心,旨在全面推動我國多模態(tài)語料庫的研創(chuàng)與發(fā)展;上海交通大學的劉劍自2014年起就開始建設(shè)多模態(tài)口譯平行語料庫,利用跨平臺多媒體標注軟件ELAN對音頻、視頻語料進行切分、多層次標注、分析、建檔與檢索,實現(xiàn)了原文、譯文與對應音頻和視頻的同步呈現(xiàn)[2]。但目前,國內(nèi)還沒有具有一定影響力的多模態(tài)、多語種的建筑工程平行語料庫,僅有少部分小型建筑工程英漢雙語平行語料庫,建庫目的是嘗試實現(xiàn)建筑英語詞匯的在線索引、數(shù)據(jù)共享、檢索、查詢、下載等服務(wù),所需語料庫技術(shù)主要涉及對齊、術(shù)語標注、檢索與提取[3-4]。這些小型建筑工程語料庫提供的應用遠遠無法滿足日益發(fā)展的建筑行業(yè)語言服務(wù)、教學實踐及學術(shù)研究的需求。當前,積極建設(shè)多模態(tài)、多語種的建筑工程平行語料庫,開發(fā)研究多模態(tài)、多語種的語料信息加工處理技術(shù)成為當務(wù)之急[5]。
大規(guī)模多模態(tài)、多語種建筑工程平行語料庫語料的采集要遵守權(quán)威性原則,無論是圖文材料,還是音頻、視頻材料,都要從國家級的權(quán)威出版物或者官方網(wǎng)站上通過隨機抽取的辦法獲取。不同語料的錄入采用不同的方式:對于圖文資料,主要采用手動錄入(電腦鍵盤敲擊)和光電掃描錄入(OCR技術(shù))兩種方式;對于音頻、視頻語料和圖像,則采用Elan、Python等多模態(tài)語料處理軟件進行轉(zhuǎn)寫、切分、標注等。語料錄入完成后,還需要進行校對,以便控制語料質(zhì)量。另外,文本語料的添加、錄入還可以借助計算機輔助翻譯生成的翻譯記憶庫。當前,翻譯記憶技術(shù)的提高及翻譯記憶庫的發(fā)展為平行語料庫提供了大量素材及技術(shù)支持,主要體現(xiàn)在質(zhì)和量兩個方面。在質(zhì)的方面,隨著譯者對記憶庫提供的語料的編輯、翻譯水平不斷提高,記憶庫中語料的匹配度也越來越高,平行語料庫的語料質(zhì)量得到保障;在量的方面,翻譯記憶庫的動態(tài)擴充使得庫中的語料源源不斷。此外,當前大多數(shù)翻譯軟件的記憶系統(tǒng)都內(nèi)置了翻譯記憶、術(shù)語管理、文本對齊、機器翻譯、自動匹配、項目管理等功能,省去了之前人工去噪、對齊、檢索等多項工作。這些都對雙語平行語料庫的創(chuàng)建起到了推進作用。多模態(tài)語料的存儲需要根據(jù)描述語料屬性的元數(shù)據(jù)信息分門別類地進行存儲。
這里的語料對齊主要是指文字語料的對齊。平行語料庫需要對不同語種的語料進行句級對齊處理,目前比較常見的對齊工具包括Paraconc、Bilingual-sentence-aligner、CTK(Champollion Tool Kit)、Vanille Aligner、Hunalign、Tmxmall Aligner等,可根據(jù)建庫要求和用途選擇合適的工具。
多模態(tài)語料加工涉及文字、音頻、視頻以及動、靜態(tài)圖像等多符號語料的標注和處理,常用的多模態(tài)語料加工工具有Elan、Python、Anvil等。針對某些加工效果的要求,還需要研發(fā)新的軟件與加工工具。
平行語料庫文字類檢索工具包括WordSmith Tools、Paraconc、Multiconcord等,多模態(tài)類語料檢索工具包括Elan、Python等。日常檢索可實現(xiàn)的功能包括術(shù)語表生成、詞頻統(tǒng)計、關(guān)鍵詞索引、全文索引、搭配詞提取、語料比較等。語料庫建成后,后期的更新、維護與管理包括確保新語料的及時補錄、維持庫中語料類別的平衡比例、對新語料進行加工處理、確保語料檢索的準確性與速度等。
現(xiàn)階段對多模態(tài)語料進行加工的軟件主要有Anvil、Elan、Python等。比如,上海交通大學劉劍建設(shè)的多模態(tài)口譯平行語料庫,就是利用跨平臺多媒體標注軟件ELAN對音頻、視頻語料進行切分、多層次標注、分析、建檔與檢索,實現(xiàn)了原文、譯文與對應音視頻的同步呈現(xiàn)。但是,針對不同研究目的與應用需求,仍需要研究開發(fā)具有更多功能的處理軟件,以便更好地進行語料加工與處理。
多語種語料庫加工技術(shù)需要通曉多種語言的研究人員,而且建筑工程平行語料庫的建設(shè)還需要具有建筑知識的專業(yè)人才,這極大制約了該類語料庫的建設(shè)與應用。同時,因為當前開發(fā)的大多數(shù)加工軟件只兼容英語和漢語文本,這也加大了該類語料庫建設(shè)與應用的難度。因此,在數(shù)據(jù)庫建設(shè)初始階段,可以先全力進行英漢雙語建筑工程平行語料庫的創(chuàng)建,待英漢平行語料庫創(chuàng)建經(jīng)驗成熟后,再推廣到多語種建筑工程平行語料庫的建設(shè)和應用研究上。
在“一帶一路”建設(shè)大規(guī)模推進的當下,中國與沿線國家的建筑工程合作項目不斷增多,以大型多模態(tài)、多語種建筑工程平行語料庫為基礎(chǔ)提供的研究成果必將為更多海外工程的順利推進提供高效服務(wù),具有重要的現(xiàn)實意義和極高的應用價值。
多語種平行語料庫是機輔(器)翻譯的基礎(chǔ),建立大規(guī)模、多語種的平行語料庫,為和多個國家合作項目的語言服務(wù)提供了保障,同時也有力促進了了語言服務(wù)工作的質(zhì)量與效率。
多模態(tài)、多語種語料庫和術(shù)語庫的建成對建筑類文獻保存、信息查詢、學術(shù)研究、技術(shù)咨詢、對外合作等具有重要的現(xiàn)實意義。同時,多模態(tài)、多語種建筑平行語料庫還可為建筑工程雙語詞典編纂,特別是可視化、多模態(tài)雙語詞典的實現(xiàn)提供可能。多模態(tài)、多語種建筑工程平行語料庫的創(chuàng)建將彌補國內(nèi)建筑類雙語平行語料庫建設(shè)的不足,其技術(shù)開發(fā)與利用不僅將極大擴展我國語料庫研究規(guī)模,而且將有力推動國家建筑事業(yè)的信息化建設(shè)與發(fā)展。
一個高質(zhì)量的建筑工程語料庫存有大量的語料和教學資源,不僅對建筑工程專業(yè)教學有巨大的推動作用,而且對建筑工程翻譯教學與實踐起著重要的支撐作用。對于建筑工程專業(yè)教學,多模態(tài)語料庫不僅是教材編寫的源泉,而且可為其提供專業(yè)術(shù)語、專業(yè)圖片、專業(yè)視頻的檢索與提取。特別是建筑方向的口譯教學,利用多模態(tài)語料庫,教師能創(chuàng)設(shè)虛擬的仿真口譯實訓實驗室,讓口譯學習者感受到來自口譯現(xiàn)場的挑戰(zhàn),體會在緊張、有壓力的氛圍下進行口譯工作,從而獲得更好的口譯訓練效果。