呂劍濤,姚銀燕
(廣東外語外貿大學英語教育學院,廣州 510006)
語料庫包含大量詞匯在自然語境中的真實使用記錄,其應用價值從上世紀初就受到了學界的關注[2]。就詞匯教學而論,語料庫蘊含兩方面的重要信息:需要學習的詞匯和詞匯在各種語境下的使用方法。語料庫中的文本不是人為創造,乃是日常生活的各種真實交際需求產出的自然話語,與傳統詞典刻板的注釋相比,更容易啟發學習者掌握詞義和配搭[3],使學習者從被動記憶詞匯信息轉化為主動揣摩詞匯的含義,以及在真實語境下的各種使用方式[4-5]。
現有文獻大多通過語料庫軟件搜索和詞頻統計功能得到服務于英語詞匯教學的信息。依靠這種人工搜索統計的方式耗時耗力,且人工方式往往未能窮盡語料庫中的所有學習者信息,一定程度局限了語料庫在英語詞匯教學中的效力。使用自然語言處理技術中的文本對比技術可以解決以上兩點不足。由計算機自動找出學習者語料庫和本族語者語料庫中類似的文本,就可以直接當作詞匯教學學習資料,讓學習者不但可以結合自然話語的上下文學習生詞,且可以比較二語學習者文本和本族語者文本間的語篇、句法、詞匯差異,教師也可以幫助學習者分析兩種文本間的語言差異,并鼓勵學習者按照本族語者文本的語言使用策略習慣對二語學習者文本進行改編改寫,以此引導學習者嘗試就所學詞匯作即時產出。
此外,現有文獻大多通過詞頻和共現規律抽取出需掌握的詞匯[6-7],或直接從語料庫中搜索出已有詞匯出現過的文本[8-9],甚少研究能夠以各種不同英語交際能力為出發點抽取出相關的詞匯。中國英語能力等級量表(China’s Stan?dards of English language ability,CSE)全面地描述了各種語言交際能力。以CSE為出發點搜索語料庫中每種能力對應的詞匯,能避免以統計為導向學習詞匯帶來的盲目性,使所學詞匯與某一交際能力對應,加強學習詞匯的動力,使詞匯學習真正滿足各種日常生活工作的交際需求。
本文提出使用文本對比技術和中國英語能力等級量表發掘語料庫中的詞匯信息,減少教師使用語料庫時人工搜索、文本分析的工作量,同時使基于語料庫的詞匯教學更系統化,實現詞匯學習以提升語言交際能力為導向。
語料庫(corpus)是將一定量的真實話語(書面或口語)收集起來的語言文本數據集[10]。語料庫的應用價值在于其可借鑒性,為各種學習自然語言為目的的活動提供客觀真實的語言使用情況統計數據。
在英語詞匯的教學中,教師一般靠經驗教授詞匯的相關知識,教師對詞匯的掌握熟練運用程度往往不如母語說話者。同時,無論是中國教師或學生,都或多或少受到母語負遷移的影響,將母語(中文)的詞匯使用習慣帶到英語詞匯教學中,很難將注意力放到學習非母語習慣的詞匯和用法上。這造成了中國英語學習者經常需要問母語說話者:“這個意思你們一般會怎么表達?”或者母語對話人有時聽懂了英語學習者想表達的內容后,會用更地道的語言說出同一內容,并會解釋到,他們一般不會用某個詞匯,或該詞匯一般不會在這種情況使用等。
可見,進行詞匯學習一個較理想的條件是,英語學習者即使在沒有母語說話人詢問的情況下仍能了解到詞匯兩方面的重要信息:第一,在某一交際需求下應該使用哪些特定詞匯?第二,這些詞匯具體是怎么使用的,如何與其它詞匯配搭使用?在何種語法結構中使用?雖然現有英語教材一般已給出以上兩方面詞匯信息,但大多不夠系統,且一般依靠教材編寫人的經驗給出,非語料庫驅動。語料庫中包含豐富的以上兩種詞匯信息,對詞匯教學有絕對的參考指導作用。
雖然語料庫包含豐富的、有教學價值的詞匯信息,但語料庫本身只是大量真實語料的聚積,一般并未預先加工處理提取出任何詞匯信息,需要借助語料庫分析軟件進行人工分析和歸納,某種程度上制約了語料庫大范圍應用到英語詞匯教學中。如語料庫的詞匯信息挖掘能實現智能化、自動化,就可以極大降低提取詞匯信息所需的時間和勞動力成本。
文本對比就是比較兩個文本的相似度,廣泛應用于文本信息檢索領域[11]。文本對比技術就“查重”這一目的大致可分為語句重復和內容重復兩類。語句重復就是比較兩個文本間的句子中重復使用的單詞和按同一順序重復出現的單詞的數量,數量越高表示文本相似度越高。然而,語句重復對比技術太過注重語言的形式,忽略了語言中裝載的內容:兩個文本可以在用詞完全不相同的情況下表達類似的內容,文本間從內容上看相似度依然極高。
內容重復檢索更適用于語料庫詞匯信息篩選。如上所說,中國英語學習者受母語負遷移的影響,英語詞匯的使用習慣與英語作為母語的說話人有較大區別。尤其是已習得一定詞匯量的學習者,困難之處并不是表達出某一內容,而是用較地道的詞匯表達出同一內容。因此,如果對比英語學習者語料庫和母語說話人語料庫間同一話題的語料,就可發現兩者想表達的內容是類似的,只是用詞有所區別。使用內容重復檢索技術即可自動檢測出分別來自兩個語料庫的相似度較高的文本,并將其作為教學資料。兩個文本間相似的詞匯也可以自動標注出來,幫助教師和學習者將注意力放到中英詞匯使用習慣差異上。
較接近內容重復檢索性質的文本對比技術是語義相似度計算。其主要思想是通過語義建立起詞匯間的遠近親疏關系,作為計算文本相似度的依據。常用語義詞典有WordNet、FrameNet和MindNet。WordNet的語義關系比較適合用來辨認學習者和母語說話人表達同一語義時詞匯使用習慣差異,而FrameNet和MindNet的優勢在于能通過詞語使用搭配識別出內容相似的文本,從而為學習者提供表達類似語義更為地道的詞語組合。下面簡單介紹一下這三個語義詞典的語義關系建構方式。
WordNet主要將同一詞類(parts of speech)的詞匯建立語義鏈接[12]。如名詞標注頻率最高的是層級關系(super-subordinate relation)。層級自上而下為比上一層級更進一步細化的名詞,如bed為furniture的下一層級,bunkbed為bed的下一層級。反過來,bunkbed和bed是furniture這一名詞大類的組成部分。同一層級內的詞匯(syn?sets)之間是同義詞關系(synonymy),如car和au?tomobile。對動詞也同樣建立層級結構的語義關系,這些層級由動作不同的方面或組成部分決定,如talk的一個特點是聲量,所以其下一層級的單詞為whisper,同時talk作為communicate語義的一部分,上一層級的單詞為communicate。
WordNet建立詞匯語義關系的方法對搜索比對語料庫相似內容文本,以及標注出相似內容文本間語義關系接近詞匯,作為英語詞匯教學資料都有極高的實用價值,因為英語學習者往往不會交替使用同一層級的詞匯,或者不會使用下一層級的詞匯。
FrameNet通過框架語義學理論進行語義關系建構[13]。一個語義框架描述的是某種事件、關系、實體和參與者。比如,烹飪這一概念常包含某人、食物、餐具和廚具等要素。在FrameNet中,烹飪這個概念就作為一個框架,其要素就是該框架的元素(frame elements)。能激活框架的單詞稱作詞匯單元(lexical units)??蚣芘c框架之間再通過繼承、使用、部分、視覺等層級關系連接。借助建立框架,詞匯被框架以及框架間的關系連接。
英語學習者和母語說話人使用詞匯的差異也體現在框架的差異上,有些是同一框架內要素使用的差異,有些則是框架間層級關系的差異,如英語學習者表達類似內容可能使用了母框架要素中的單詞,而母語說話人則使用了子框架要素中的單詞,或者相反。這些信息對詞匯學習十分有意義,是通過簡單的單詞共現統計而得到的詞匯搭配信息所不能比擬的。
MindNet是通過邏輯結構(logical form)分析得到兩個單詞間的語義關系[14]。邏輯結構分析由語法分析器(parser)執行,執行對象是詞典、百科全書和自由文本中用來注釋詞匯的句子。MindNet的邏輯結構分析是自動進行的,得到這些邏輯結構后,將其匯聚成一個更大的邏輯結構,并根據各個邏輯結構在語料庫中出現的頻率給其賦予概率化的權重。
由于MindNet是基于詞典中的語句建構語義關系,其應用到自然話語內容對比判別的適用性受到了一定的局限。
中國英語學習者往往喜歡脫離語境,單純透過記憶中文解釋去學習詞匯。語料庫為學習者提供了豐富的詞匯固定搭配、常用語法方面的信息。與普通詞典相比,這些信息不是直接用文字呈現給讀者,而是隱含在大量的真實話語中,從而為學習者自主總結詞匯使用規律提供條件,使學習者從過去將詞匯當作知識去記憶變成透過觀察掌握詞匯的使用方法,這種以使用為目的的詞匯學習行為更符合語言學習的規律。許多研究已表明,使用語料庫進行詞匯教學的效果比傳統詞匯知識灌輸更理想,且提高了學習者的自主學習能力[5,15]。
然而,要進一步提高學習詞匯的動力,必須將詞匯學習和語言交際能力提高聯系起來。也就是說,詞匯學習應該是以提高交際能力為目的。實施某種交際能力到底有可能要使用哪些詞匯?在開展詞匯教學前必須向學習者交待清楚,才能明確目標,有的放矢。這里涉及兩個問題:第一,中國英語學習者需掌握的語言交際能力有哪些?第二,如何就某一語言交際能力在語料庫中搜索出與該能力對應的詞匯信息?第一個問題可以參照中國英語能力等級量表[1]解決。第二個問題的解決可以通過自然語言處理技術中的文本關鍵詞提取技術。先提取出語料庫中文本的關鍵詞,然后與能力量表的描述語進行匹配[16],就可找到與某一能力描述語對應的文本,作為提高該交際能力的詞匯學習資料。
融入兩個部件后的英語詞匯教學資料生成步驟如圖1所示。首先,先分別提取出學習者語料庫和母語說話者語料庫中文本的關鍵詞,作為選取文本的依據;然后,將兩個語料庫中文本關鍵詞與英語量表描述語進行匹配,選中匹配成功的文本組成與特定描述語對應的對比語料庫;接著,使用文本對比技術將對比語料庫中類似的文本抽出,作為詞匯教學資料,將兩個類似文本中語義相近的詞匯自動標注,母語說話人產出的文本中被標注出來的單詞就是學習者改變原來詞匯使用習慣需要學習使用的詞匯。

圖1 英語詞匯教學資料生成步驟
本文在探討語料庫在英語詞匯教學中優勢的基礎上,進一步提出了拓寬語料庫應用前景要融入的兩個語言學和人工智能部件,即中國英語能力等級量表和文本對比技術。這兩個部件可以免去許多手動分析語料庫工作量的同時,進一步使詞匯教學向交際能力為導向的方向發展。