文任彬
自上世紀50年代以來,以計算機技術為依托的語料庫研究開始出現并快速發展,最初主要集中于語言學、詞匯學、詞典編撰等領域,進入20世紀90年代末,語料庫開始與翻譯研究結合,為翻譯研究注入了新的靈感和活力,而21世紀以來,基于語料庫的翻譯研究的相關主題受到了越來越多翻譯學者和大學教師的偏愛,大家開始嘗試將語料庫應用于各個具體領域的翻譯實踐中,例如:建筑英語語料庫建設,人工智能背景下金融領域的語料庫建設,《黃帝內經》英譯語料庫建設等等。
在此基礎上,很多學者也將目光轉向了語料庫研究的微觀方向和技術層面。語料庫是按照一定的語言原則,運用隨機抽樣方法,收集自然出現的連續的語言,運用文本或話語片段而建立的具有一定容量的大型電子文本庫。因此最重要的幾個關鍵因素就是對語料的選擇,對詞頻的準確把握和對文本的標識和賦碼。首先在語料的選擇上,雙語語料庫建設者應選擇高質量的,權威的英漢翻譯素材,例如專業課的雙語教材;國家官方新聞網站的文章;著名翻譯家的譯著等。根據英語和漢語的特點,選擇合適的句子做為數據存儲的最小單位,設定對齊類型為一對多(原文對應多段譯文)和多對一(譯文對應多段原文),最大限度地滿足檢索者對翻譯學習和研究的要求。除了對語料文本的挑選和處理,翻譯語料庫的主要建設工作還包括檢索平臺的搭建。語言處理人員在導入語料和對語料進行對齊標注之后,軟件支持人員設計高性能的檢索語言。以目前使用較多的語料庫檢索語言SQL為例,需要將語料庫建設者導入的素材轉化為可以用計算機執行的SQL語句。經過語料庫使用者的檢索之后,在最終的用戶界面顯示檢索的結果,并且能夠進行排序、導出、保存等操作。
由于近年來高校大學英語課程改革的推進,翻譯教學被大學英語教師們重視,并成為課程體系中重要的一部分。在大學英語四六級考試中,翻譯題型占據相當一部分比例的分值,并且學生在走上工作崗位之后,需要具備一定的英語翻譯技能,這些都要求我們不斷轉變和豐富現有的翻譯教學手段,然而目前的大學英語翻譯教學仍然存在一定的問題。首先體現在課上部分,由于課堂教學時間受課程規劃的嚴格限制,不可能給學生很多的時間進行思考和分析,翻譯教學主要是以教師為中心來進行,教師盡可能多的將所準備的翻譯理論知識和經典范例講解給學生,而學生在整個教學過程中的大部分情況下只是一個被動的接受者,能夠發揮主觀能動性的時間很少。
在課下部分,我們會使用超星學習通和U校園平臺為學生布置各種形式的線上翻譯作業,例如四六級真題練習,學生之間互相批改對方的翻譯篇章,對常用漢英翻譯表達方式的積累等。但由于沒有一個相應的客觀評價體系,學生無法正確地對自己的翻譯水平做出評價,從而不能達到翻譯練習的預期目的。并且大部分的翻譯練習為主觀題,教師需要一個批閱和反饋的周期,由于翻譯本身的難度,學生翻譯水平的提高也是個耗費漫長時間的過程,綜述以上因素,部分學生難以堅持翻譯練習,慢慢的也就失去了課后進行翻譯練習的興趣。
因此我們亟需尋找新的教學方法來改變翻譯教學的現狀,由于語料庫自身強大的功能和語料庫教學具有的自主性、開放性的特點,我們相信將語料庫這一工具引入大學英語課程可以極大地促進學生的學習自主性。目前國內外最具代表性和影響力的大型語料庫主要有:英國的翻譯英語語料庫(TEC);英國國家語料庫(British National Corpus,BNC);布朗語料庫(Brown Corpus);我國上海交通大學的JD-EST 語料庫等,但是這些大型語料庫或因為網絡壁壘的原因,或因為不對公眾開放的原因,目前尚且無法被普通大學教師使用。建立大型語料庫需要輸入至少5000萬詞以上的素材,這需要投入大量的人力和資源,普通學校短期內難以做到這一點,因此本篇文章主要研究面向本校師生的,小型雙語語料庫的建設。在本語料庫投入使用并不斷完善之后,將面向大眾開放,并尋求同類院校的合作,不斷擴大該語料庫的規模。
在語料庫設計之初,我們首先明確該語料庫的規模和服務對象。由于人力和資金投入的限制,目前該語料庫主要服務對象為我校本科階段全體非英語專業學生,目的是幫助學生們在大學英語四六級考試中的翻譯部分取得理想的成績,并且具備所學專業的基本翻譯實踐能力。語料庫的內容主要分為2013年12月份(題型改革之后)-2022年6月共計18場次108套大學英語四六級翻譯真題,以及結合我校的專業特色所總結的建筑工程、金融財會、機械智能、法律、文史哲五大板塊,我們最終的目標詞條為100萬詞左右,預測可以基本滿足教學研究與學生翻譯學習的需要。
其次建設語料庫最重要的部分之一就是對語料素材進行篩選和存儲。由于目前我們的語料庫容量有限,所以跳過了抽樣的環節,更多地關注輸入語料的來源和質量。例如目前的四六級翻譯真題為漢譯英,我們除了選取官方公布的參考答案,本著一對多的對齊原則,我們也篩選了一些英語培訓機構和網絡上發布的質量高的英譯版本,每篇被選定的篇章都由至少三名教師進行檢查核對,杜絕任何翻譯錯誤和用語不規范現象。而其他五大專業方向的板塊,素材主要來源于權威出版社出版的專業課雙語教材,相關行業的新聞網站和權威專家的譯著等。為了保證所選素材的實用性和前沿性,我們咨詢了學校相關專業的專業課教師,聽取了他們對于行業教材和著作選取的建議。
將語料庫素材轉換為計算機執行語言是語料庫建設最復雜和繁瑣的步驟之一。在此主要介紹需要大學英語教師完成的部分:分詞和賦碼。與英語單詞不同,中文單詞是由一個或多個漢字組成。一個漢字可能代表一個音節,但它不一定構成一個單詞。所以對中英文素材進行恰當的分詞是非常必要的。目前,中文文本可以使用Autotag 或 ICTCLAS 3.0 進行單詞分詞。前者由臺灣中文信息處理集團開發,后者由中國科學院計算技術研究所開發。為了促進該語料庫的長期發展和提高學生的使用體驗,賦碼也是非常必要的,綜合比較幾種賦碼方式,我們最后選擇了更適合小型語料庫的詞類賦碼。目前自動詞類賦碼技術已經基本成熟,對英語基本上可以通過計算機自動賦碼,且賦碼正確率在96%~97%左右。不管是分詞還是賦碼過程,都需要語料庫創建者們層層把關,并對數據庫進行定期的備份與維護。
近年來,我校不斷進行包括英語課程在內的課程體系改革,語料庫在大學英語課堂的引入就是我們的一次嘗試和探索,具體分為課上和課下兩個部分。首先在課堂講授和練習部分,語料庫的引入能夠使翻譯教學的內容更加深入和全面,使學生的課堂學習更有效率。教師設置相應的任務,學生通過檢索語料庫快速獲取信息。而語料庫中積累的大量翻譯教學素材,能夠使翻譯學習者們充分利用英漢雙語平行對應的語料觀察翻譯語言,掌握英漢兩種語言在翻譯過程中的轉換規律,了解某些特定詞或結構的轉換原則。翻譯語料庫的語料都是來源于真實的譯本語言,所以具有時效性,客觀性和真實性,學生在學習過程中不僅能獲得翻譯表達方式的積累,并且可以潛移默化地掌握翻譯理論及認識翻譯的本質。
學生在接觸一個新詞匯的用法時,大部分是通過老師的講解或查閱詞典。但詞典所能提供的例句數量有限,并且語言情境相對單一,語料庫的引入可以填補這部分的空白。例如2021年12月四級翻譯真題中的句子:“長久以來,大運河對中國的經濟發展發揮了重要作用,有力地促進了……。”這句話中出現了四級考試中的高頻詞匯“促進了”,通過對語料庫的檢索,學生不僅可以掌握例如promote;improve;enhance;facilitate;advance;boost等詞的具體用法,還可以了解到在其他試卷中這些詞匯的考察情況。
語料庫在課下部分引入的最大優勢就是能充分調動學生翻譯學習的自主性和積極性。根據我們問卷調查的結果顯示,在四六級考試中相對于閱讀和聽力題型,翻譯和寫作兩個部分是大部分學生都認為非常重要,但是短時間內又很難提高分數的。翻譯不僅需要學生具備相當數目的英漢表達方式的儲備,還需要熟悉各種句型的銜接,并且四六級考試對單詞的拼寫和語法細節都有很高的要求。這需要平時的積累和不間斷的練習,因此課下學習時間的利用變得尤為重要。教師在向學生詳細介紹語料庫的使用方法之后,通過小組合作和翻轉課堂的形式,以5-8人小組為單位布置開放性作業,例如:漢譯英時某些情況下選擇主動或被動表達式的深層原因;通過詞頻統計出特定體裁和語境下最常用的翻譯詞匯;四六級考試和你所學專業在句子解構和句子復雜程度方面的偏好等等。學生通過使用語料庫完成任務之后,教師隨機抽取小組在課堂上向同學們分享自己的觀點。
翻譯語料庫可以使翻譯教學的內容更具真實性和時效性,使教學的形式更加豐富多樣,提升了學生翻譯學習的積極性和學習效率。語料庫的創建涉及到語料庫的設計,素材的采集、整理和加工,以及創建語料庫之后的分詞、賦碼、后期維護和管理。目前本校語料庫的建設仍然處于初級階段,作為語料庫的建設人員任重而道遠,之后我們會尋求與同類院校進行合作,以共享共建為目標,將語料庫進行橫向和縱深的拓展。我們相信,隨著語料庫翻譯研究的深入,會促進更多語料庫的創建以及計算機技術的發展,語料庫將在高校翻譯教學中發揮更大的作用。