劉雨婷
(成都理工大學 外國語學院,四川 成都 610000)
簡言之,語料庫就是大量單個語料的處理整合。通過計算機語言分析,對語料進行標注解析而建成的大型電子文本語料庫。語料庫的語料收集也有相應要求,第一,要為真實的實戰語言材料。第二,這些語料必須要經過轉錄轉寫,加工處理,數據分析才能被使用,成為語料庫資源。
從出現開始,語料庫就一直在不斷的完善與發展,因為不同語言學家的認識和看法不同,導致語料庫的定義也不完全相同。如阿特金斯認為語料庫是“按照明確的設計標準,為某一具體目的而集成的大型文本庫”。赫努認為語料庫是“由大量收集的書面語或口頭語構成,并通過計算機儲存和處理,用于語言學研究的文本庫”。分析不同學者的觀點可以看出,語料庫的作用在于語料的收集和整理,但是收集整合的標準和定義是不一樣的。赫努提出的計算機儲存與處理正是目前語料庫建設的技術特點。語料庫不是普通的電子文檔,它的建設對于語言的研究,以及實踐學習都意義重大。在搜集整理語料時,應考慮到不同領域語料的抽樣,且不同類型材料的抽樣比應相對平衡。
口譯實踐教學語料庫顧名思義是運用于口譯教學活動的實踐教學語料庫,依靠大數據時代,現代計算機技術的運用,依靠口譯教學理論為指導,檢索應用為一體的多功能口譯實踐教學資源庫。口譯實踐教學語料庫數據應全部來自于真實的實戰口譯,用一線的實踐材料來進行教學。不管是對學生的口譯教學還是學生日常的口譯訓練,最終的目的都是為了口譯實踐。
口譯實踐語料庫,可劃分為若干種不同的實戰情況。幫助學生提前在不同的場合,針對不同的對象,進行實戰口譯訓練。時代在不斷進步,傳統的口譯教學模式已經不能滿足學生的訓練需求,建設口譯教學語料庫能讓學生快速有效的獲取實戰口譯資料,讓學生日常口譯訓練貼近實戰,更好更快融入口譯員的角色。在傳統的口譯學習教學中,老師的教學材料非常有限,同時學生使用的口譯訓練材料也比較老舊,無法緊貼時事。書本中的口譯教學材料往往與實踐有較大差別,真實的口譯實踐活動更為復雜,情況也較為多變。
1.規模較小
現有的口譯語料庫都是小規模,專一性的語料庫,不具有普遍性,大數據的特點。口譯語料庫的建設與研究已有近二十年的歷史,因為口譯語料庫建設不足,所以運用不廣泛,已建投入使用的口譯語料庫很少,而口譯實踐教學語料庫更是寥寥無幾。已有的語料庫都較為單一且數據量不足。相較于筆譯語料庫,口譯語料庫的建設難度相對較大。且口譯語料庫的材料是將現場真實口譯活動的音頻或視頻,通過計算機程序進行轉化和標注制成,搜集和轉化的復雜程度都要高于筆譯語料庫。
2.技術局限
近年來,筆譯語料庫建設加快,很多計算機輔助翻譯技術應運而生,但口譯語料庫發展仍然緩慢。筆譯語料庫可以做到句句對應,乃至字字對應,但對于口譯語料庫來說,做到信息對等即可。不能以建設筆譯語料庫的標準來要求口譯語料庫。再者,口譯語料庫的建設難度相對較大。譯員在口譯時,會出現大量語氣詞,停頓,口譯時還會對講話人的內容進行重組、解釋、增補或省略。因此在建設口譯語料庫時,應借鑒語言學對于信息單位的界定,處理口譯信息單位如何劃分的問題,從而實現口譯語料庫信息對等。
3.搜集困難
口譯語料庫數據搜集也相對困難,我們一般采用錄音、錄像等手段對口譯數據進行收集,這些數據往往較為零散,且質量不穩定,需要用技術手段對音頻進行處理。分析目前已有的口譯語料庫發現,現有的語料庫還沒有做到有組織,規范的口譯語料數據收集。
以前的口譯語料庫多數只運用于研究,現在越來越多的機構和公司,投入資金來研發研究與實踐運用型口譯語料庫,推動了口譯語料庫的發展。目前,國外研發較早且比較成熟的口譯語料庫有日本名古屋大學的英日雙語同傳語料庫(SIDB),但主要運用于英日和日英同傳,并不能服務于英中和中英的口譯活動。但它為口譯語料庫的發展開辟道路,具有引領作用。國內較早進行研發的語料庫是上海交通大學的“漢英會議口譯語料庫”(CECIC),收集的語料都來源于一線口譯員的實踐口譯材料。還有兩會期間總理答記者問的漢英交替傳譯語料庫(CEIPPC)。以上這些都是口譯語料庫,并不為口譯實踐教學活動而服務,因此我們需要建設專門的語料庫,為口譯實踐教學服務。除此之外,國內許多口譯語料庫來源并非來自于一線口譯人員的實戰,而是搜集國內一些英語考試的學生口譯,數據不夠真實與客觀。
不管是為了幫助英語口譯專業學生口譯學習,還是提高翻譯效率,提升譯文準確性,增強檢索的針對性,語料庫的建設都必不可少,語料庫的發展也是大勢所趨。隨著“一帶一路”建設的推進,越來越多的譯者去到沿線國家,輔助工程,交通,醫療建設,他們的語料是最新也是最與時俱進的。再者,越來越多的國際會議,我們聽到中國聲音,中國擔當,而這一切交流的基礎是語言。因此譯員作用體現明顯,而口譯員的語料對語言學研究,以及一代又一代高端語言人才培養提供助力。口譯領域實踐范例正是口譯專業學生學習所缺乏的,也是口譯實踐語料研究所需要的。
1.分層原則
通過錄影或錄音搜集語料,隨后通過計算機對原語與譯語語料進行嚴格轉寫和標注,為后期語料制作做準備。分析現有的口譯語料庫發現,已建的口譯語料庫涵蓋范圍較窄,一般只涵蓋一次活動,會議或專題,且語料庫容量也大概在10 萬至20萬之間,研究與實踐教學價值有限。對于英語口譯專業實踐教學語料庫建設,我們可以用圖表1,分層級的方法劃分口譯語料庫,不同層級的劃分與分類,方便語料庫整合的同時也方便口譯實踐教學分專題進行。

圖表1
用不同層級劃分語料庫,一方面有助于口譯實踐教學,另一方面口譯信息存儲更加規范便捷,方便調取。
2.動態原則
動態搜集口譯語料庫數據,是本語料庫極具挑戰的一部分,也是本英語口譯專業實踐口譯語料庫的一大特色。為實現動態原則,建立語料庫時需要每月搜集數據分析處理,對語料庫進行更新,這樣才能確保口譯實踐教學語料庫的時效性,突出口譯即時性的特點。幫助學習者動態接觸到真實翻譯活動中產出的口譯語料。
我們建設英語專業口譯實踐教學語料庫,那么英語專業口譯實踐教學語料庫則作為A 級總庫,再根據工作模式、專業領域、場合、語言層級、語種、時間、客戶等類別劃分B 級子庫,圖表2 是根據不同類別劃分出來的B 級子庫。類別選擇不同,那么所建立的B 級子庫也有所不同,如圖表2 所示:

圖表2
對B 級子庫進行劃分以后,我們還可以劃分出不同領域更小的分支,即C 級子庫。例如,專業領域類別中,B 級子庫-經濟類,我們可以再細分為金融會議口譯語料、亞太經合組織論壇語料、金磚國家論壇口譯語料、G20 峰會講話口譯語料、博鰲論壇講話口譯語料和世界貿組織口譯語料等,組成C 級子庫。
如此,對口譯實踐教學語料庫層層遞分,有助于我們將之前已有的口譯語料庫或零散的口譯語料庫進行分類分析,形成口譯實踐教學專用語料庫,同時也能推動口譯語料庫研究,對口譯語料庫建設做出貢獻。
本語料庫的建立不僅能幫助學習者從口譯實踐的角度來學習口譯,還能為實踐口語語料庫的應用研究提供大量可靠數據。英語口譯實踐教學語料庫本身對口譯語料庫的建設也起到輔助作用,壯大口譯語料庫。通過口譯實踐教學語料庫,分析譯者口譯時所使用的單詞,短語,句子,甚至連接詞、語氣詞等,分析不同環境下口譯者所采用的翻譯方法與策略,研究口譯活動中語言與文化的發展規律。
語料庫建設任重而道遠,筆譯語料庫如此,口譯語料庫更甚。科技的進步和計算機技術的發展,都會加快語料庫的建設。目前,許多公司正對語料庫進行研發與建設,例如,騰訊AI Lab,YiCAT 等。真實的口譯數據、不斷完善與進步的語料處理手段、縝密的設計標準,專業的分析軟件,都有助于英語口譯實踐教學語料庫的建設與發展。近年來,隨著課改的深入,中國對傳統的課堂教學模式進行改革,從傳統的老師掌控課堂,到現在以學生引領課堂開展教學,新的課堂教學模式越來越傾向于學生的自主學習。與此同時,口譯實踐教學模式也在與時俱進,不斷發展的口譯語料庫,通過激發學生潛力,有助于他們創造性思維發展。不僅如此,口譯大數據給口譯學習者帶來更多學習便利的同時,也推動了學者們對口譯活動的深入研究。