曾利霞
(懷化學院外國語言文學系,湖南懷化418008)
語料庫能成規模地將零散的書面或口語語料匯集起來,加以系統管理和開發,并利用軟件進行自動檢索;其優勢是可以批量地獲取人們言語行為的信息,便于發現規律和趨勢以用于研究與教學[1]。國內基于語料庫的教學研究的絕對數量越來越大,將語料庫應用于外語教學的趨勢也越來越明顯[2]。隨著語料庫語言學的興起,國內外學者們致力于學習者語料庫的開發,陸續建立起了多個大規模的語料庫,如國外 LLC(Longman Learners' Corpus)、BNC(British National Corpus)、ANC(American National Corpus)、 LOCNESS(Louvain Corpus of Native English Essays)等語料庫,國內CLEC(Chinese Learners' English Corpus)、 MSEE(Middle School Educational English)、COLSEC(Chinese Learners'Spoken English Corpus)、
SWECCL 1.0和SWECCL 2.0等語料庫。學習者語料庫的建設已經成為當今語料庫語言學研究的重點之一[3],這些大規模語料庫的建成為之后的各種相關研究提供了堅實而有價值的數據資源。
隨著語料庫建設和輔助英語教學知識的進一步普及與相關技術的飛速發展,廣大一線教師可以在充分學習專家們的語料庫建設經驗后,從自己的教學與研究需求出發建設小型專用的語料庫。這種小型專用語料庫有著種種優勢:目標明確、語料收集針對性強、語料能不斷擴展、及時更新、自主設計、靈活標注[4]。目前越來越多的小規模的語料庫已經建成或正在建設中,涵蓋了口語語料、書面語語料、雙語語料、對比語料、特殊英語語料等不同類型和范圍。這些語料庫是國內英語學習者語料庫總體建設的有效補充,為建設者們的教學和科研提供了真實的語料,具有實際的研究和教學指導雙重意義。
HUEMWEC的建設和使用有著重要的意義。首先,該語料庫的建立及應用將推動我校英語專業學生根據各自需求和興趣,進行探索式—發現式—驗證式學習。其次,該語料庫的建立有助于相關一線教師避免主觀和偏頗,科學地、理性地、全面地掌握學生的語言學習情況和語言特點,找出學生寫作中相對普遍存在的問題,從而開展有的放矢的教學。再次,該語料庫的建設是國內學習者語料庫總體建設的補充。因此,該語料庫的建設是必要的。
語料庫的建立是一項非常費時費力的工作。一個大型、系統語料庫的建立可能需要研究者們付出數年甚至數十年的努力。但是,基于本校師生教學與研究需求的微型語料庫庫容量相對較小,標注和分析也相對容易,而且可以在教學過程中不斷補充,因而難度大大降低。另外,筆者開展同行之間的合作,并集合了幾位感興趣的高年級學生,共同致力于HUEMWEC的建設和發展。因此,該語料庫的建設具有可行性。
小型專用語料庫HUEMWEC具有以下四個主要特點:
(一)微型。與CLEC、COLSEC等大型的普遍適用于英語學習者、庫容量為數百萬詞次的語料庫不同,初步建成的HUEMWEC僅收集了640篇懷化學院2010級學生專四模擬考試作文,約13萬詞次。
(二)本地化。HUEMWEC主要用于本校英語專業師生教與學的分析、反思、發展與研究,從而為本校及同等水平學校的英語教學提供參考,因此,它的語料僅限于本校英語專業學生書面英語。但是,筆者及其團隊采用大型語料庫的賦碼和標注符號,以便在一定條件下資源共享。
(三)發展性。HUEMWEC收錄的語料可以識別來源并且可進行歷時的跟蹤調查。目前該語料庫初步建成,但筆者及其團隊將根據教學和研究的需求繼續致力于該庫的擴大和完善,收錄不同年級學生不同時期的書面英語語料,以便動態地掌握其書面語言能力的變化。
(四)參與性。當前及后續的建庫,都由筆者與同事合作指導若干高年級學生開展語料的收集、輸機、校對、賦碼、標注和入庫等工作。學生的參與一方面出于分散勞動強度的要求;另一方面,參與的學生也為自己畢業論文的撰寫獲取了實證性的數據。
(一)語料的來源與分類保存
HUEMWEC語料來自懷化學院2010級兩次專四模擬考試寫作語料。試卷批改之后輸入計算機存檔。這些未經處理的語料叫做生文本 (raw text)。存檔時把每一個生文本作為獨立文件用學號單獨命名存為純文本(.txt)格式,便于讓軟件識別和添加新的文件。
(二)語料的整理、賦碼與標注
將生文本合并后進行簡單的整理和加工。首先,利用“文本整理器”軟件批量進行去除段落首尾空格、去除首跳格、去除段落間空行、全角標點變半角標點等處理[5],然后重新命名該整理文本并保存。接著,在文本頭用尖括號標出該語篇的作者姓名、性別、年級、班級、文本字數這些基本信息,便于之后的研究與繼續建設。然后,利用德國斯圖加特大學計算語言學研究所Helmut Schmid設計的TreeTagger免費工具對其進行自動詞性賦碼操作并另命名保存。最后,手動進行一些簡單的錯誤標注。錯誤標注是基于表1對錯誤標注的賦碼進行的。

表1
簡單來說,在完成規劃、語料收集、輸機、校對、賦碼、標注、入庫這些工作后,HUEMWEC初步建成。筆者及其團隊會在今后的教學中不斷添加新的語料并根據不同的需求補充標注,使其發揮更大的作用。
HUEMWEC的建成和后續發展可以在以下四個方面發揮積極作用:
(一)促進自主型和探究型學習模式的培養
本族語語料庫可以為語言學習者提供真實的、地道的目的語表達方式,而作為學習者語料庫的HUEMWEC能夠清楚地反應出本校英語專業學生綜合的語言水平和普遍存在的語言使用問題。兩者結合起來使用,學生在老師的指導下使用易于操作的檢索軟件如文本分析程序Writer's Workbench,進行對比、分析、探索、發現、總結,在自我探究的過程中發展語言能力。這種探究式的學習方法可以延伸到課堂之外,學生掌握了這種方法以后可以隨時利用檢索工具,解決自己學習中遇到的各種疑問,從而達到自主學習的目的。
(二)確定學生中間語中的典型錯誤,增強教學的針對性
筆者和同事在教學過程中發現學生中間語中存在的錯誤數量大種類多,那么哪些是值得進一步關注的典型錯誤呢?教師幫助學生認識到自己在語言使用中的錯誤并改正它們的顯性教學方式比一味給學習者提供正確語言輸入的隱性教學方式更容易使學生在語言學習方面取得進步[6]。HUEMWEC建成之后,就可以利用該語料庫數據分析本系學生錯誤的類型、特點和原因,相應地給予針對性的指導。例如,筆者在批改作業的時候發現學生常產出這樣的句子“Venice is greatly benefited from its extensive contact with China”, 檢索 HUEMWEC后發現該類型的錯誤具有非常強的代表性。目前,筆者正致力于統計該類型的錯誤,分析原因,以期在今后的教學中給學生明確、有效的指導。
(三)為教和學的評價與反思提供更全面的依據
與考試成績相比,HUEMWEC的檢索數據更能全面地反映出本校學生綜合語言水平與老師的教學效果。通過分析該語料庫數據,可以掌握學生語言在詞匯、句子結構、格式、斷句、銜接手段等各方面的特點,從而實質性地評價教和學的效果。另外,隨著HUEMWEC的擴充,縱向比較學生不同時期的書面語言,可以動態地了解教學對學生語言能力發展的干預效果及學生語言能力的發展。
(四)為高年級學生撰寫畢業論文提供數據支持
在興趣的驅動下,2010級幾位學生選擇寫作基于語料庫研究的畢業論文,如基于HUEMWEC的懷化學院英語專業學生寫作現狀分析、語法錯誤分析、冠詞誤用分析等。他們在HUEMWEC基礎上根據自己的需求進行再加工,不但豐富了自己的研究素材,也為HUEMWEC的建設做出了貢獻。
盡管HUEMWEC的建設還需要不斷的豐富和完善,但是我們在收集整理的過程中一邊分析、一邊利用語料為教學服務,已經取得了初步成效。筆者相信,通過團隊的力量和研究的擴展與繼續,HUEMWEC的標注會更細,內容也會更加充實。同時,它在培養學生英語寫作能力和自主學習能力、促進相關課程的教學效果及師生的科研等方面會得到更廣泛的應用。
向參與HUEMWEC建庫工作的段海霞、唐潔瓊、黃春等同學誠表謝意。
[1]劉學惠.英語師范生課堂話語的建庫、分析和應用[J].外語電化教學,2006,(5):42-46.
[2]刑富坤.語料庫:值得教育技術學關注的新型學習資源 [J].解放軍外國語學院學報,2006,(2):67-70.
[3]甑鳳超,張霞.語料庫語言學發展趨勢展望[J].外語界,2004,(4):74-77.
[4]謝家成.論個人教學語料庫的構建 [J].外語電化教學,2003,(3):30-33.
[5]梁茂成,李文中,許家金,等.語料庫應用教程 [M].北京:外語教學與研究出版社,2010.
[6]Carroll,S.&Swain,M.Explicit and Implicit Negative Feedback:An Emperical Study of the Learning of Linguistic Generalization[J].Studies in Second Language Acquisition.1993,(15):357-366.