呂雪芬
(皖江工學院基礎部,馬鞍山 243000)
語料庫已經廣泛運用于語言學的各個方面,如語言學習、語言交流、語言翻譯等。平行語料庫屬于雙語語料庫中最重要的語料庫之一,是指能將源語文本與其譯語文本進行全文檢索并對照顯示的語料庫。與單語料庫、字典、詞典等比較,具有獨特優勢,如具備雙語對照、時效性高、語言應用領域廣泛等,可廣泛運用于語言翻譯研究、教學、培訓、雙語比較等,也可以作為各類培訓教學輔助工具使用[1]。此外,近些年來,隨著大數據技術開發與深度學習的快速發展,使雙語平行語料庫在翻譯領域得到更加廣泛的運用,由此成為學術界研究的熱門領域。因此加強英漢雙語平行語料庫的構建及應用研究,對于研究英、漢兩種語言教學均具有重要的現實意義。
語料庫是指為了便于語言研究,依據一定方法、原則,采集與組織口頭與書面自然語言的作品的集合體[2]。英漢雙語平行語料庫是指采用英、漢兩種不同語言進行平行對照、對齊的一類新型的語料庫,通過利用語料庫,對英、漢兩種不同語言進行語言比較、翻譯以及編寫兩種語言詞典等研究,具有深厚的潛在研究價值[2]。
建構主義學習理論是在20世紀60年代由瑞士心理學家皮亞杰首次提出來的。其核心內容是以構建作為學習目標,學習者主動、積極學習作為主體,而教師與環境僅具有輔助作用,是間接地促進、幫助學習者進行學習。建構主義主要強調兩大內容,一是強調學習者認知主體作用,即主動、積極學習;二是強調教師輔助、指導作用,教師扮演幫助者角色。建構主義是在吸收、借鑒相關理論的基礎上,提出來的一種新型教學思想,尤其對于語言教學有著重要的影響與作用[3]。建構主義學習理論是在21世紀初才引進我國,并在外語教學領域產生了很大的影響。
雙語語料的難度主要表現在語料采集、對齊整理等方面,因此相較于單語語料庫的構建,無論是在語料收集還是語料整理上均表現出一定難度。英漢平行語料庫構成的核心主要有兩部分:一為電子文檔形式,主要運用于儲存電腦中;二為定位搜索軟件,主要運用于管理語料。因此本文研究英漢雙語平行語料庫構建,從這兩方面著手[4]。
構建英漢雙語平行語料庫的目的主要是便于教學,構建的宗旨將會要求整個語料庫必須具備兼收并蓄功能,在語料選擇方面,盡量選取那些與教學有關的語域,并且還要與學習者語言與興趣相符。
英漢雙語平行語料庫總體設計如圖1所示。
圖1 英漢雙語平行語料庫總體設計
構建英漢雙語平行語料庫的目的,是為了便于更好地對英漢雙語進行教學、翻譯、研究。 本文構建的英漢雙語語料庫的規模為中小型,字詞大約在100萬左右,研究者能夠隨時依據研究的實際需要增加英漢相對應的語料。語料選材,其規則通常涉及到每個領域,同時還要保障選擇語料的均衡性。英、漢兩種語言比例,指全語料庫中包括了數個不同類型的數據庫,其中有英語原文數據庫、漢語原文數據庫、英語與漢語互譯數據庫等,在這些數據庫中,英、漢兩種語言分別各占一半。子庫設置,在正式打開搜索平臺過程中,依照實際需要調入不同的子庫文本。本文按照不同的語言材料類型,把語料存為獨立版本及各種層級相連的子庫,即設置了英、漢兩個單獨版本的總語料庫。
在互聯網上能夠搜索、下載到非常豐富的英漢對照語料,比如英漢對照的各種圖書、新聞、文字、圖片等,是采集相關語料最主要的來源方式。由于互聯網資源是動態變化的,所以應經常搜索,及時下載。其搜索形式應以“英漢對照、雙語對照 ”等詞語作為搜索詞,借助多種不同引擎進行搜索,每一次都會帶來不同的收獲。此外也可以利用國內大型的英文學習平臺,從中尋找有關英漢對照文本。不過,為了采集到一些特殊語料文本來提高語庫中的語料質量,采用掃描儀收集語料也是不錯的方法,因為當前掃描儀技術比較先進,識別率較高,為錄入所需要文本帶來極大的便利性。
通常Paraconc1.0軟件在處理雙語語料過程中,一定會進行雙語語料對齊。所謂語料對齊,是把原語與譯語分開,各自獨立儲存于一個文本中,但是要使這兩個不同文本中的語料相互對齊,對齊方式主要分為兩種:一種是各段相互之間對齊,另一種是各句相互之間對齊,而平行語料庫是以各句之間自動對齊作為研究核心。因為英語句與句之間表現出近似性,已有專門的計算機軟件,比如Multiconcord軟件就可以自行完成各句對齊,但是由于漢語與英語兩種語言之間具有明顯的區別,比如標點、句式以及語法等,因此在翻譯實踐中,一般不以句作為單位進行翻譯。目前自動句對齊的精準性不是很高,僅達到了60%,此工作仍需要通過人工來完成。盡管句對齊有益于搜索之后的英漢雙語比較,但是考慮到語料處理起來比較困難,本文運用各段相互之間對齊,對于教學來說,更加有利于獲取豐富的語境。Word軟件是平行語料庫中所選擇的第一個對齊整理工具。(1)運用Word軟件查詢替換功能把語料文本中相關字符清除,比如多余硬回車符、以及段首空格等。該語料庫文本主要指下載過程中使用的一種純文本形式進行粘貼。例如借助于查找“^P^P”,而且還把它替代成“^P”(^P作為段落標志),可以快速地刪除多余空行,其它技巧可在實踐中學習。(2)把所采集到的英、漢雙語語料依照英、漢兩種語言單獨分開進行copy到兩個不同的文本中[5]。(3)再借助“格式/項目符號”在英漢平行語料庫中,在各段落之前均增添一個段落符號,在此選取數字。只有采用此方法,兩個文本中每段語料之前均添加了段落符號。(4)再對這兩個文本中的英漢段落是否對齊進行核對,倘若未對齊,還將對段落進行合理拆分處理。此外,如果段落篇幅過長,將對搜索之后語句對照帶來不利影響,需要將較長的段落拆分成數個較短的段落。
2.4.1 采用EML對英漢雙語平行語料庫的語言進行標記及多用戶并發操作形式 采用EML對英漢雙語平行語料庫語言進行標記,而且立足于此,設計群組分布式操作(多用戶并發操作)形式。英漢雙語平行語料庫由多臺聯網計算機共同構成,其中有一臺計算機替代服務器,該服務器中儲存了非常豐富的數據,其它計算機則借助于局域網訪問服務器,再通過服務器而取得需要處理的相關數據。在此類運作形式下,用戶通常只要與服務器進行連接就能夠應用英漢雙語平行語料庫[6]。
2.4.2 基于句子作為儲存的基本單位 本文所構建的英漢雙語平行語料庫主要由英、漢兩種不同的語言構成,在對其數據庫進行設計時,基于語言學的維度,重點對這兩種語言進行研究。在計算機對英、漢兩種語料實現處理過程中,還要分別對這兩種語言進行處理,比如對前者需要實現歸類識別,對后者需要實現詞性標注。英漢雙語平行語料庫,比較適合借助句子數據庫進行儲備與保存,可將語料庫中的詞性標注工作轉交給相關分詞計算機系統進行處理,此工作在構建檢索平臺時期就能夠完成。此外,為了更加有利于語料的選取與維護,還需要將語料實現合理歸類、儲存。文本語料歸類與命名依據“先語域,再加標題;或者來源,再加語言”的原則進行實施。關于語域大致可以分為散文、應用文、新聞、口語等,再依據語料來源進一步細分。兩個平行文本中的文件名應該統一,只不過最終各自增加了不同字母符來分辨不同的語言文本,通常增加的字符為“chn”或者“eng”[7]。
2.4.3 運用關系型數據庫 在當前語料庫領域,應用最廣泛的數據庫為關系型數據庫,該數據庫管理系統類型豐富多彩,比較著名的數據庫有Oracle、DBZ以及SQLServer等。由于SQLServer數據庫帶有客戶/服務器結構,在數據處理方面具有較強的功能,本文構建的英漢雙語平行語料庫也是采用該類型數據庫。
通過檢索英語關鍵詞,可從英漢雙語平行語料庫中查詢到非常豐富的詞匯、搭配以及構詞法等方面的真實語料或案例,給英語學習者帶來極大便利,有助于英語學習內化。因此英漢雙語平行語料庫不但具有替代英語單語語料庫的功能,而且還能夠借助相應的中文譯文,了解到英語難點以及所表達含意等,有利于學習者對英語詞義進行準確了解、掌握,同時還能夠掌握相對應的不同漢語等詞語。
通過檢索漢語關鍵詞,可查詢到與漢語所對應的英語表達形式。倘若與英語詞典、漢語詞典等進行比較,那英漢雙語平行語料庫表現出很多優勢。由于語料包含內容較多、更新速度快、語境頗豐,可以檢索到漢英詞典中許多無法提供的內容,尤其能夠檢索到一些比較新的詞語比如新冠疫情、二次元、給力等。此外,還具有良好的搜索功能。通過對關鍵詞進行搜索,尤其對于那些間斷性、搭配性詞語搜索,能夠對兩種語言互譯等實現全面查詢。這有利于揭示雙語相互轉換對應關系,以及選擇最優翻譯對等詞,從而使英語表達能力更加豐富。例如以“與自己過不去”作為研究對象分析本文構建的語料庫對中文翻譯成英文調查的較大影響。搜索結果具體見圖2。
圖2 搜索結果
此外,還有:(1)If things must go contrary with me, and I must go contrary myself let me go contrary in my parish.
(2)I am heavy company for myself.
(3)to be the torment of myself.等,(實例略,以上都來源于《大衛.科波菲爾德》)[8]。
倘若把漢語表達式擴展成為“與……過不去”,就能夠獲得更多的例句,比如:(1)與大家過不去的就是你/It's you who can't get along with everyone.
(2)他認為王先生總是與他有點過不去/He thinks Mr. Wang always has a bit of a problem with him.
(3)她有意與弟弟過不去,惹他生氣/She deliberately had trouble with her younger brother, making him angry.
語料庫不但可以提供非常豐富的英漢雙語對照實例,而且還能用來對各種不同主題或者話題進行查詢,具備文本庫的功能。倘若以“生活、計算機、工作”等為關鍵詞能夠查詢到許多與之有關的內容,雙擊所需要語言實例還可以彈出另一窗口,再通過此窗口,將會顯示該語例所在的更大語境,這將有利于促進語言表達深度與廣度進一步擴大,以便于達到符合以主題作為核心教學的策略。
英漢對譯的句子與篇章均是由雙語平行語料庫或者它的索引所提供,所以學習者能夠做各種不同類型的英漢互譯練習,年級較低或者成績較差的學習者能夠借助于漢語的翻譯解釋更好地理解英語相關知識,學習者還能夠利用對英語與中文兩種語言文章來加強對英語與漢語知識的理解與掌握。
學習者倘若要進行詞語練習,可以通過英漢平行語料庫索引所提供的相關語境,通過觀察實際應用過程中語境的詞語搭配、語法規律的應用頻率,以及語法有關書籍、文章中所闡述的概念與語法規律,從而挖掘出更精準的概念與語法規律,使學習者學習過程轉變成自我發現與探索過程。而教師基于英漢平行語料庫的詞頻統計數據,能夠知道哪些詞匯用法需要學習者掌握,需要在實際教學中投入更多時間。在對意義與用法進行搭配或注釋,能夠通過語料庫搜索軟件在語料庫中找到以此語言作為母語的人,以及對此詞的應用或者搭配的例句[9]。
借助于語料庫索引所提供的相關信息,例如詞匯搭配、詞語應用頻率以及實際語境等,能夠開發出英漢雙語各種不同練習,比如語匯練習、近義詞練習等,從而有效減少教師教學的工作量,使題目更接近現實,更具可靠性。
隨著互聯網的快速發展,英漢雙語文本日益豐富,為采集英漢雙語語料帶來了極大的方便,對于構建英漢雙語平行語料庫發揮重要的作用。不過英漢平行語料庫構建也可以通過小組共同協作,或者通過網絡與有著同樣興趣、愛好的人交換語料。也可組織學習者自行、主動去采集、整理相關語料,不但能夠培養學習者構建語料庫的能力,而且還能夠加深對語料庫的認識與興趣。總之,構建英漢雙語平行語料庫僅需要設計明確的目標,遵循統一、規范的原則即可。此外,由于英漢雙語平行語料庫受到自身條件的一些約束,它無法完全替代單語語料庫,這兩種語料庫具有很強的互補性。