周龍英,張莉洲
(九江學院 外國語學院,江西 九江332005)
面向雙語教學的平行語料庫構建及應用
周龍英,張莉洲
(九江學院 外國語學院,江西 九江332005)
本文的研究目標是要建立一個專門面向雙語教學,充分考慮學生和英語教師的需求的,以英語教材為主的雙語平行語料庫。在此基礎之上討論了該語料庫的構建及其重點和難點工作。同時對語料庫的應用進行了科學調研,明確了本次研究的價值所在。
雙語教學;平行語料庫;可行性;應用價值
語料庫(Corpus)是為了語言研究按照一定的原則收集和組織的真實的自然語言作品(書面的和口頭的)的集合。其中,以雙語(或多語)平行語料庫為基礎的應用日益增多。憑借這種雙語語料庫,可以比較兩種語言的異同,利用它開展廣泛的雙語教學與研究、翻譯研究(包括自動翻譯)以及編撰雙語詞典,具有巨大的潛在研究價值。[1]
然而,為數不多的英雙語語料庫因受建庫目的和最終用戶類型等因素的影響,與單語語料庫相比,無論是在規模、質量,還是加工深度都相差甚遠,僅用于語言學研究、法律、翻譯或詞典編纂等特定領域。雙語語料庫自身建設亦缺乏系統性。同時,在高校教學方面,由于大多數雙語教學的開設是選擇專業的主課程,所要求的語料各不相同,所以這些語料庫并不適合不同專業的雙語教學的語料要求,這就為雙語教學帶來了很多不便。
創建及應用面向雙語教學的英漢平行語料庫,可以為學生實現自主化、個性化、立體化外語學習提供切實的保障,推動大學英語課程改革和專業雙語教學的具體實施。因此,本研究力圖建立一個專門面向雙語教學,充分考慮學生和英語教師的需求的以大學英語教材為主的,英漢雙語平行語料庫。本研究的開展將把語料庫與英漢雙語教學有效地結合起來。
漢英/英漢平行語料庫的建設過程包括總體設計、數據庫框架設計、語料收集、語料導入、雙語句子對齊、雙語句子分詞、語料校對等步驟。在總體設計上,漢英/英漢平行語料庫包含若干專科語料庫;在數據庫建設時,采用群組分布式操作模式和以句子為基本存儲單位的關系型數據庫;在語料導入時,語料將統一以txt文本形式進入數據庫;在對齊和分詞時,采用計算機程序運作與人工校對相結合的方法。借鑒語言學語料庫的檢索功能,設計了關鍵詞檢索、模糊檢索、搭配檢索、句型檢索、對譯詞詞頻統計、檢索結果自動排序等6項適用于雙語教學及研究的檢索項目。
(一)漢英/英漢平行翻譯語料庫的總體設計:
1.建庫目的:為面向雙語教學的研究和實踐提供實證支持。
2.語料庫規模:中小型的、開放式的,平行語料庫約100萬字詞,研究者可隨時根據需要添加英漢/漢英雙語對應的語料。
3.選材規則:選材涉及各個領域,保證語料的均衡性。英語語料主要來源于大學英語(修訂本)、新編大學英語、21世紀大學英語、全新版大學英語等教材課文,漢語譯文來源于上述教材相對應的教師參考書。
4.漢英比例:全庫包括漢語原文數據庫、英語譯文數據庫、英語原文數據庫和漢語譯文數據庫等文本庫,英譯漢和漢譯英語料各占全庫語料的50%。
5.子庫設置:啟動檢索平臺時,可根據研究需要調入不同的子庫文本。我們根據選材類別把語料存為獨立版本及各種層級相連的子庫:即設英文、中文兩個獨立版本的總庫;其中英文和中文總庫下各分設:大學英語 (修訂本)、新編大學英語、二十一世紀大學英語、全新版大學英語四類教材一級子庫,各級子庫下面根據教材的第一、二、三、四冊再分為不同的二級子庫。同時添加網上能下載的雙語對照小說、雙語雜志、雙語新聞等雙語語料。[3]
(二)雙語平行語料庫數據組織模式選擇
1.EML標記語言和群組分布式操作模式
用EML(Extend Marking Language)標記語言,并且在此基礎上設計多用戶并發操作模式,即群組分布式操作模式。整個語料庫建設系統和使用系統由若干臺聯網計算機組成,其中一臺計算機充當服務器,存儲大量的數據,其余計算機通過局域網訪問服務器,通過訪問獲得需要加工的數據。群組分布式操作模式下,用戶或創建人員只要與服務器相連即可操作雙語語料庫。[4]
2.以句子為基本存儲單位
漢英/英漢平行語料庫由漢語和英語兩種語言組成,在數據庫研發階段,主要從語言學角度對這兩種語言進行對比和分析。在計算機處理語料時,要對漢語進行詞性標注,對英語進行類符歸類識別。漢英/英漢平行語料庫宜采用基于句子的數據庫存儲,可將詞性標注工作交給專門的分詞軟件進行處理,該項工作可在檢索平臺的建設階段完成。
3.采用關系型數據庫
目前關系型數據庫已經成為數據庫的主流,關系型數據庫管理系統也層出不窮,比較著名的有SQL/DS、DBZ、Oracle、SQLServer、dBase等。SQLServer是具有客戶/服務器結構的數據庫管理系統,該軟件能快速處理龐大數據。因而本研究主要使用SQLServer數據庫管理系統。
(三)數據庫基本表
數據庫的最基本存儲單位是表,漢英/英漢平行語料庫的基本表包括兩大類:語料基本信息類表和對譯關系類表。語料基本信息類表主要用來詳細精確記錄文本的作者、作品名、譯者、章節、段落、句子編號等信息,語料基本信息類表包括原文句子表、譯文句子表、作品信息表、作者/譯者信息表等。
(一)語料預處理
語料預處理分兩個步驟,一是整理原始語料,是入庫的語料具有統一的格式和規范;二是語料分句導入,通過對標點符號的判斷完成分句工作,繼而導入以句子為基本存儲單位的雙語語料庫。
(二)對齊與分詞處理
語料導入數據庫只是語料庫建設的初級階段,其工作量僅占整個語料庫建設的10%,而大量的工作,是語料的對齊與分詞。語料對齊是實現中英文雙語可鏈接式檢索的前提,分詞是進行詞頻統計或搜索對譯詞的關鍵。
1.句子對齊
在目前的計算機水平下,句子對齊要采用先計算機對齊后人工審核的方式。對齊順序:按照“作品一>篇章一>段落一>句子”的先后順序進行對齊。首先建立作品對應關系,存入表articlRe;建立篇章對譯關系,存入表Ch即terR;建立段落對譯關系,存入表parRa;建立句子對譯關系,存入表esntenCeR,同時對原文和譯文基本屬性進行標注,更新表sentenee_init和sentenee_trans。[5]
計算機自動對齊方法:以句子為基本單位,采用逐步順序基于原文譯文長度的對齊方法。計算機對齊只能作為輔助,更多的還需要依靠人工對齊。
2.句子分詞
本文借鑒其它研究成果,結合所設計的關系性雙語語料庫,提出基于詞和句子規則的詞語對齊方法。
分詞流程:
(1)讀入句子;
(2)對句子按照標點符號進行初次分割,分割出子句;
(3)對子句做正向最大構詞假設,在詞典中搜索是否匹配(期間可利用子句結構形式規則進行正向最大值的約束);
(4)無匹配,減小構詞長度,并利用子句結構形式規則進行正向最大值的約束,尋求詞典匹配;
(5)直到詞典匹配為止,將此詞作為已分詞語進行處理;
(6)該詞去掉后的子句,轉到步驟(3);
(7)無詞典匹配,則更新詞典,并將此次作為已分詞語進行處理。正反匹配所得的詞再進行匹配,能夠完全匹配才算成功,否則進行人工分詞。[6]
(三)語料庫管理
由于語料庫的數據處理往往達到海量(上百萬條記錄),數據的維護也是多層次的,往往是多人同時處理數據,數據并發處理情況非常突出。所以要建立與數據維護相適應的管理機制,具體包括:(1)創建數據維護日志,記錄語料庫操作信息;(2)對數據庫進行備份與恢復;(3)在數據系統的安全性設置方面,對用戶操作進行加密處理,避免網絡攻擊,確保信息安全和數據不失真;(4)如果數據無法在一臺計算機上操作執行,可以使用工作組機制,分布式操作。[7]
語料索引工具的資源共享,使我們能夠有效地利用語料庫進行英語教學和學習。目前,英語單語的共享索引工具有MicroConcord(Tim Johns&Mike Scott)、Wordsmith Tools(Mike Scott)、TACTWEB和Concordance 1.1.3(R.J.C.Watt)。它們的基本功能包括了詞表生成、語篇統計、“帶語境的關鍵詞”索引、排序、搭配詞統計、詞語形式統計、主題詞提取、詞叢統計、聯想詞統計及重組等。Paraconc(Michael Barlow)雙語索引工具具有漢英平行檢索和帶語境的關鍵詞檢索的功能。[8]
(一)英漢翻譯教學
雙語平行語料庫及其索引可提供句子及篇章級的英漢對譯,因此學生可以做各種英漢互譯練習;低年級或基礎較差的學生可以借助漢語的解釋更好地理解英語課文;學生還可通過對英漢語篇的對比來加深對英語篇章的理解和認識等。[9]
(二)雙語情景教學
學生可以通過語料庫索引所提供的語境進行詞匯練習,通過對大量的真實的語境的觀察,配合該詞或該語法規律的使用頻率,驗證詞典、語法書中所給的定義和語法規律,從而發現更為真實準確的定義和規律,使學習的過程變成自我探索和自我發現的過程。而教師有了基于語料庫的詞頻統計,就可以知道哪些詞匯及其用法需要掌握,需要在教學中投入更多時間。在解釋詞或搭配的意義和用法時,可以借助語料庫檢索軟件在語料庫中尋找以該語言為母語的人對該詞的使用或搭配的生動、真實的例句。語料庫詞匯檢索還可以避免教師選擇過時的表達法。[10]
(三)雙語語言練習及測試
由于語料庫索引提供索引詞用法的真實語境、詞匯搭配及頻率信息,通過詞語索引可以開發出實時詞匯練習、同義詞比較、搭配詞組練習等。這樣便可以極大地減輕教師的工作量,并且使題目更具真實性和可靠性。
雙語平行語料庫和檢索工具對雙語教學起到了很大的促進作用。它在幫助學生自學英語,提高雙語能力方面是其它教科書和工具書所不能替代的。同時它又能幫助教師制作出準確的詞匯教學大綱和詞表,編排科學的練習。大量例證已經表明,雙語平行語料庫在大學語教學上有著廣闊的使用前景和潛在的開發價值。語料庫只是一個工具,對語料的收集、整理和使用都要求使用者具備語言學、外語教學等多方面知識。教師應樹立實證思想,對英漢語義、語法、語篇對比、英漢雙語搭配、英漢互譯規律等有敏銳意識,經常求證語料庫,以促進雙語教學。[11]
(注:本論文是九江學院校級課題《面向雙語教學的平行語料庫構建及應用研究》階段性成果之一。)
[1][3]王克非,等.雙語對應語料庫:研制與應用[M].北京:外語教學與研究出版社,2003.
[2][4][5][6]錢之瑩.漢英/英漢平行翻譯語料庫的設計及其在翻譯中的應用[D].華東師范大學優秀碩士論文,2005-04.
[7]常寶寶,等.雙語語料庫收集整理加工任務說明書以及相關規范[EB/ 0L].Http://www.icl.pku.edu.cn/icl-groups/parallel/workspace/973MT-specification-of-ParaCorpus-V1.0.Pdf,2002.
[8]鄧飛.向教學的英漢雙語平行語料庫的創建及其應用[J].惠州學院學報(社會科學版),2005-08,25(4).
[9]王克非.雙語平行語料庫在翻譯教學上的用途 [J].外語電化教學,2004,(6).
[10]Rundell M.The BNC-a spoken corpus[J].Modern English Teacher, 1995,(4):13-15.
[11]謝家成.小型英漢平行語料庫的建立與運用[J].解放軍外國語學院學報,2004-05,27(3).