毛文偉
【摘要】建立學習者語料庫能為二語習得等方面的研究提供新的思路和方法。但是,迄今為止的語料庫建設由于缺乏統一的平臺支持,存在著協同困難、重復勞動多以及升級、版權保護難等問題。通過構建整合型學習者語料庫建設應用平臺則能夠極大地提高建設的效率和效果。
【關鍵詞】學習者語料庫;外語教學;中介語;B/S架構;賦碼
一 序言
自世界上第一個機讀英語語料庫——布朗語料庫(Brown)創建以來,語料庫在語法、詞匯、文體等不同領域逐漸得到廣泛應用。以推進二語習得或中介語研究為目的的學習者語料庫建設雖稍顯滯后,但近年來也不斷取得新的成果。朗文學習者語料庫LLC(Longman Learners Corpus)、學習者英語國際語料庫ICLE(International Corpus of Learner English) 以及香港科技大學語料庫HKUST (Hong Kong University of Science and Technology Corpus)都處在不斷完善和發展的階段[1]。通過國內學者的多年努力,中國學習者英語語料庫CLEC(Chinese Learner English Corpus)、中國大學學習者英語口語語料庫COLSEC(College Learners Spoken English Corpus)和英語專業學習者語料庫CEM(Corpus for English Majors)也先后建成,對我國二語習得研究和教學改革起到了巨大的推動作用,成為研究外語教學規律不可或缺的基本素材。
但是,這些語料庫在開發過程中都沒有特定軟件平臺的支撐1。數據由建設者分頭輸入、處理后再匯總在一起。盡管入門門檻較低,發布后也沒有日常運營開支,但存在著協同困難、重復勞動多、升級繁瑣以及版權保護方面的難題。隨著因特網技術的不斷發展,軟件平臺的體系結構從過去的單用戶發展到今天的C/S(客戶機/服務器)和B/S(瀏覽器/服務器)架構。這些平臺體系的出現為語料庫建設提供了嶄新的技術手段。在很大程度上,避免了數據分發、匯總、格式統一以及升級過程中的重復勞動,提高了建庫效率,降低了出錯概率。本文擬以中國日語學習者語料庫CJLC(Chinese Japanese Learners Corpus)的構建為例,探討整和型語料庫建設應用平臺的方案設計及實現。
二 單用戶系統開發模式的局限
如上所述,現有的語料庫多為分散開發模式。建設者只須具備基本的字處理軟件使用能力即可參與開發,入門門檻不高。發布后也無需日常運營開支。但是,這種開發方式也存在著明顯不足。首先,語料庫建設是一項龐大的工程,為了保證語料的質量和開發效率,需要多人協同進行。由于缺乏平臺支撐,在輸入、校對、標注、修正等各個階段,都必須反復進行語料的分發和匯總,重復勞動多,也容易出現差錯。其次,為了提高語料的可用性,還需要對語料進行標注。但是,僅憑字處理軟件或Dreamweaver等HTML編輯工具,很難對語料進行深度標注。在賦碼過程中,所有錯誤碼和數據標簽都須手工輸入,既不直觀,加重了標注者的負擔,又提高了出錯的幾率。楊惠中等[2]指出,在中國大學學習者英語口語語料庫(COLSEC)素材的匯總過程中,觀察到了文本標簽嵌套錯誤、標簽拼寫錯誤、標簽設定不一致、全角半角不一致、錯誤碼設置過多等諸多問題。這些都需要人工校對加以修正。而在發布之后,由于語料庫分散在不同用戶手中,使得開發者難以迅速、高效地對語料進行統一升級和擴充,也不利于版權保護。
運用基于B/S架構的整合型語料庫開發應用平臺2以有效地解決這些問題,提高語料庫開發效率。在B/S結構平臺的支撐下,用戶界面通過IE等WWW瀏覽器來實現,數據統一存儲在服務器端,主要事務邏輯也在服務器端完成。由此簡化了建庫流程,實現了數據的自動分發和匯總,系統升級更為快捷方便。同時,由于支持Unicode,便于實現多語言界面,也給語料庫的建設者和使用者帶來了很多方便。
三 中國日語學習者語料庫(CJLC)的總體規劃
中國日語學習者語料庫(CJLC)為國家社會科學基金項目“中國日語學習者語料庫的建設與研究”的建設內容之一,于2008年6月啟動。該語料庫以反映中國日語學習者的實際學習情況為目標。通過全面、系統地收集我國高校日語專業學生的語料,客觀、翔實、準確地反映我國日語專業學生的語言習得和發展狀況。它的建成將填補國內外在這一領域的空白,為我國高校日語專業教學大綱、課程設置、教學內容、教學標準、教學方法、詞匯表的制定和完善以及教學評估提供客觀依據,并有力地推動兩語研究的發展。
本語料庫平臺分為建庫和應用兩大子系統。各下屬模塊的具體功能如下表1所示。每個模塊都具有不同界面,需要特定權限方能顯示和進入。系統管理員根據實際需要為用戶靈活分配權限,通過網絡完成輸入、標注、校對、檢索和管理等各項工作。由于數據庫存在于服務器端,可以實現多用戶共享,所以數據的輸入和標注等不同階段的工作可以同步進行,互不干擾。當然,對于某一特定語料來說,還是需要按照一定流程完成輸入、標注等一系列工作(詳見圖1)。
在互聯網應用的初期,開發者多使用C或Perl等CGI語言進行Web開發。現在,已有C#/ASP.NET、JSP和PHP5等多種方案可供選擇。本課題組選擇了AMP(Apache/MySQL/PHP)解決方案,即以PHP5編寫語料庫開發平臺,MySQL作為數據庫,Apache為Web服務器發布軟件。這些都是遵循GPL的開放源碼軟件,不必繳納軟件使用費。這在很大程度上降低了開發費用。同時,又擁有豐富的資源可供使用、修改或重組。在成本和可用資源方面,勝過了C#/ASP.NET/IIS解決方案。