摘 要: 本文介紹了小型語料庫的構建步驟和具體在教學中的應用,并介紹了一些語料庫構建的工具和軟件。結合實際,對個人語料庫建設提出了一些意見。
關鍵詞: 小型語料庫 英語教學 模式構建
一、引言
語料庫語言學(corpus linguistics)是20世紀中后期興起的一門語言學研究領域。語料庫語言學是指專門對大規模儲存于計算機里的語料庫進行研究的學問。語料庫是一個由大量在真實情況下使用的語言信息集成的、可供計算機檢索的、專門作研究使用的巨型資料庫。它以其容量大、語料真實、檢索快捷準確等獨特的優勢在現代語言學研究和語言教育匯中發揮著越來越重要的作用(何安平,2004)。隨著計算機技術的高速發展,語料庫語言學也隨之成為現代語言學的一個最重要的分支。目前語料庫已經廣泛地應用在語言學研究的諸多方面,如詞典編撰、教材編寫、語言教學、語言本質研究、文學研究、翻譯比較等。通常這些研究都是比較大型的語料庫或是少數研究者進行研究的工具,對英語教學的意義不大。一些大規模的語料庫針在條件有限的情況下很難獲得,費用很高。而且大多數通用語料庫的建設目的是為了語言現象調查研究或是詞典等的編撰,對于英語普通學習者來說不是很適用。另外,由于大型語料庫講求平衡語料庫選取語料,在教學方面不如臨時自建的小型語料庫更有針對性。所以在英語教學當中,建設小型的學習者語料庫是十分必要和有成效的。筆者根據個人建庫的實例從構建小型語料庫的可實施性,以及小型語料庫的構建方法等方面作具體論述。
二、小型語料庫的構建
建立小型語料庫首先需要明確一些問題和因素。Graeme(2000)指出建立語料庫要考慮的因素有建庫的目的、語料品種、取樣標準、規模、代表性、設備、存貯方式與格式等。筆者認為這些因素當中建庫的目的尤為重要。這一點Sinclair在他的《語料庫、索引與搭配》也指出,語料庫的構建,他首先考慮的是建庫的目的。
通常人們認為構建語料庫是一項很費事費力的工程,甚至認為它很神秘,其實構建個人的小型語料庫是很可行的。對于教師來說,完全可以自己構建一個教學語料庫,用來指導教學工作。例如學生寫作的語料庫。
(一)語料的選擇與分類
為了保證語料的真實性,語料可以從網上或是光盤獲取,也可以自己收集學生的資料。網上語料豐富,本身就是一個巨大的語料庫。可以運用各種搜索引擎,例如百度、Google、Yahoo等。也可以運用一些數字圖書館、電子圖書來收集你想要的資料。收集的語料也不是簡單的堆砌,必須根據一定的原則來分類。筆者收集的語料庫是英語專業學生的口語語料庫。語料來自于日常對學生的口語測試,通過錄音的形式獲得最原始的材料,所以筆者的語料屬于口語語料。口語語料庫構建的工作量很大。首先是話題的選擇,筆者共選擇十個方面一百個話題進行口語測試,耗時半年的時間。之后的工作是對原始語料進行轉寫以便獲得純文本。轉寫遵循的是真實原則、完整原則和準確原則。之后的分類再以語域為主,來源時間兼顧的原則進行細分。分類后的語料文件名也要保持統一,并盡可能地體現分類信息。比如筆者對關于教育類的語料統一命名為“education+time+來源”,這樣便于查找。
(二)語料標注
語料整理好之后要對其進行標注。把語料的有用信息用符號一一標注出來,以便用檢索軟件進行查找。標注有很多類型,主要是詞性標注、句法標注及對篇章的具體信息進行創造性的標注。筆者主要運用的是詞性標注。筆者著重介紹詞性標注的工具及方法。
常用的詞性標注軟件是CLAWS,他的準確率很高,達到99%。我們比較熟悉的BNC就是用CLAWS標注的,但是此軟件是付費的。對于英語教師來說,有一些免費又準確率很高的軟件可以選擇。GoTagger就是很好的一款軟件,他是Goto Kazuaki(日本)所開發的一款簡便的詞性賦碼軟件,以Delphi寫成,所以不需要ActiveX或Dll文件而可以直接在Windows上運行。我們可以在http://uluru.lang.osaka-u.ac.jp/~k-goto/use_gotagger_e.html網站上獲得此軟件。GoTagger不兼容中文,所以電腦中的文件夾以英文來命名會方便查找。經過賦碼的文件會自動保存。GoTagger的優點是可以批量處理文件,將我們需要的大量文件一次性處理。
語料經過收集分類和賦碼之后存儲在文件夾下,小型語料庫的構建就基本上完成了。這些工作看似簡單,卻需要花費大量的人力和精力。建好的語料庫就可以進行索引了。在這里介紹些比較好的檢索軟件,例如Wordsmith,Sara,AntConc, Concordance等。比如Concordance從最初的語料獲取到檢索都很方便。它使用的是Windows界面,提供了眾多功能,可以生成此表、索引、詞語搭配記憶各種數據統計、查看關鍵詞的上下文等。
三、結語
個人小型教學語料庫的構建是未來語言教學的一個發展方向。它的好處顯而易見,有效方便而且簡單易行。同時這也可以是一個師生共同協作的活動,師生共同完成效果更佳。但是語料庫只是一個工具,教師要合理而有效地運用它,而不能過分依賴它。教師還可以探索出更多類型更多方面的語料庫,以便更好地應用到教學當中。總之,筆者希望越來越多的教師可以加入到小型教學語料庫的構建隊伍中來,加大語料庫教學的普及。
參考文獻:
[1]Dash,N.S.Corpus Linguistics and Language Teaching.India:New Delhi,2005.
[2]Kennedy,Graeme.An Introduction to Corpus Linguistics.Beijing:Foreign Language Teaching and Research Press,2000.
[3]何安平.語料庫語言學在教學中的應用.廣州:廣東高等教育出版社,2004.
[4]濮建忠,李文中.語料庫索引在外語教學中的應用.解放軍外國語學院學報,2001,(2).
[5]衛乃興,李文中,濮建忠等.語料庫應用研究.上海:上海外語教育出版社,2005.
[6]楊惠中主編.語料庫語言學導論.上海:上海外語教育出版社,2002.