999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

整合型學習者語料庫平臺的規劃與實現

2009-06-02 06:32:18毛文偉
現代教育技術 2009年9期

毛文偉

【摘要】建立學習者語料庫能為二語習得等方面的研究提供新的思路和方法。但是,迄今為止的語料庫建設由于缺乏統一的平臺支持,存在著協同困難、重復勞動多以及升級、版權保護難等問題。通過構建整合型學習者語料庫建設應用平臺則能夠極大地提高建設的效率和效果。

【關鍵詞】學習者語料庫;外語教學;中介語;B/S架構;賦碼

一 序言

自世界上第一個機讀英語語料庫——布朗語料庫(Brown)創建以來,語料庫在語法、詞匯、文體等不同領域逐漸得到廣泛應用。以推進二語習得或中介語研究為目的的學習者語料庫建設雖稍顯滯后,但近年來也不斷取得新的成果。朗文學習者語料庫LLC(Longman Learners Corpus)、學習者英語國際語料庫ICLE(International Corpus of Learner English) 以及香港科技大學語料庫HKUST (Hong Kong University of Science and Technology Corpus)都處在不斷完善和發展的階段[1]。通過國內學者的多年努力,中國學習者英語語料庫CLEC(Chinese Learner English Corpus)、中國大學學習者英語口語語料庫COLSEC(College Learners Spoken English Corpus)和英語專業學習者語料庫CEM(Corpus for English Majors)也先后建成,對我國二語習得研究和教學改革起到了巨大的推動作用,成為研究外語教學規律不可或缺的基本素材。

但是,這些語料庫在開發過程中都沒有特定軟件平臺的支撐1。數據由建設者分頭輸入、處理后再匯總在一起。盡管入門門檻較低,發布后也沒有日常運營開支,但存在著協同困難、重復勞動多、升級繁瑣以及版權保護方面的難題。隨著因特網技術的不斷發展,軟件平臺的體系結構從過去的單用戶發展到今天的C/S(客戶機/服務器)和B/S(瀏覽器/服務器)架構。這些平臺體系的出現為語料庫建設提供了嶄新的技術手段。在很大程度上,避免了數據分發、匯總、格式統一以及升級過程中的重復勞動,提高了建庫效率,降低了出錯概率。本文擬以中國日語學習者語料庫CJLC(Chinese Japanese Learners Corpus)的構建為例,探討整和型語料庫建設應用平臺的方案設計及實現。

二 單用戶系統開發模式的局限

如上所述,現有的語料庫多為分散開發模式。建設者只須具備基本的字處理軟件使用能力即可參與開發,入門門檻不高。發布后也無需日常運營開支。但是,這種開發方式也存在著明顯不足。首先,語料庫建設是一項龐大的工程,為了保證語料的質量和開發效率,需要多人協同進行。由于缺乏平臺支撐,在輸入、校對、標注、修正等各個階段,都必須反復進行語料的分發和匯總,重復勞動多,也容易出現差錯。其次,為了提高語料的可用性,還需要對語料進行標注。但是,僅憑字處理軟件或Dreamweaver等HTML編輯工具,很難對語料進行深度標注。在賦碼過程中,所有錯誤碼和數據標簽都須手工輸入,既不直觀,加重了標注者的負擔,又提高了出錯的幾率。楊惠中等[2]指出,在中國大學學習者英語口語語料庫(COLSEC)素材的匯總過程中,觀察到了文本標簽嵌套錯誤、標簽拼寫錯誤、標簽設定不一致、全角半角不一致、錯誤碼設置過多等諸多問題。這些都需要人工校對加以修正。而在發布之后,由于語料庫分散在不同用戶手中,使得開發者難以迅速、高效地對語料進行統一升級和擴充,也不利于版權保護。

運用基于B/S架構的整合型語料庫開發應用平臺2以有效地解決這些問題,提高語料庫開發效率。在B/S結構平臺的支撐下,用戶界面通過IE等WWW瀏覽器來實現,數據統一存儲在服務器端,主要事務邏輯也在服務器端完成。由此簡化了建庫流程,實現了數據的自動分發和匯總,系統升級更為快捷方便。同時,由于支持Unicode,便于實現多語言界面,也給語料庫的建設者和使用者帶來了很多方便。

三 中國日語學習者語料庫(CJLC)的總體規劃

中國日語學習者語料庫(CJLC)為國家社會科學基金項目“中國日語學習者語料庫的建設與研究”的建設內容之一,于2008年6月啟動。該語料庫以反映中國日語學習者的實際學習情況為目標。通過全面、系統地收集我國高校日語專業學生的語料,客觀、翔實、準確地反映我國日語專業學生的語言習得和發展狀況。它的建成將填補國內外在這一領域的空白,為我國高校日語專業教學大綱、課程設置、教學內容、教學標準、教學方法、詞匯表的制定和完善以及教學評估提供客觀依據,并有力地推動兩語研究的發展。

本語料庫平臺分為建庫和應用兩大子系統。各下屬模塊的具體功能如下表1所示。每個模塊都具有不同界面,需要特定權限方能顯示和進入。系統管理員根據實際需要為用戶靈活分配權限,通過網絡完成輸入、標注、校對、檢索和管理等各項工作。由于數據庫存在于服務器端,可以實現多用戶共享,所以數據的輸入和標注等不同階段的工作可以同步進行,互不干擾。當然,對于某一特定語料來說,還是需要按照一定流程完成輸入、標注等一系列工作(詳見圖1)。

在互聯網應用的初期,開發者多使用C或Perl等CGI語言進行Web開發。現在,已有C#/ASP.NET、JSP和PHP5等多種方案可供選擇。本課題組選擇了AMP(Apache/MySQL/PHP)解決方案,即以PHP5編寫語料庫開發平臺,MySQL作為數據庫,Apache為Web服務器發布軟件。這些都是遵循GPL的開放源碼軟件,不必繳納軟件使用費。這在很大程度上降低了開發費用。同時,又擁有豐富的資源可供使用、修改或重組。在成本和可用資源方面,勝過了C#/ASP.NET/IIS解決方案。

主站蜘蛛池模板: 国产亚洲欧美在线中文bt天堂 | 国精品91人妻无码一区二区三区| 国产亚洲精久久久久久久91| 亚洲欧美激情小说另类| 精品人妻系列无码专区久久| 99精品视频九九精品| 91视频青青草| 欧美中文一区| 亚洲成A人V欧美综合| 国产一区二区三区在线精品专区| igao国产精品| 2020亚洲精品无码| 国产福利一区视频| 亚洲视频免费在线| 国产性爱网站| 99视频在线免费看| 精品三级在线| 农村乱人伦一区二区| 亚洲区第一页| 国产视频你懂得| 欧美啪啪一区| 国产精鲁鲁网在线视频| 国产美女无遮挡免费视频| 亚洲伊人电影| 粉嫩国产白浆在线观看| 欧美在线视频不卡| 亚洲国产无码有码| 呦系列视频一区二区三区| 国产亚卅精品无码| 美女内射视频WWW网站午夜| 久精品色妇丰满人妻| 女人18一级毛片免费观看| AV色爱天堂网| 综合天天色| 成人噜噜噜视频在线观看| 一级看片免费视频| 国产乱肥老妇精品视频| 国产99视频在线| 98精品全国免费观看视频| 亚洲国产亚综合在线区| 久久久久88色偷偷| 国产女人18水真多毛片18精品| 成人福利在线免费观看| 日本欧美一二三区色视频| 福利视频一区| 国产成人91精品| 国产精品污视频| 中国黄色一级视频| 国产在线无码av完整版在线观看| 午夜国产精品视频黄 | 国产激情无码一区二区三区免费| 亚洲视频一区| 99热这里只有精品久久免费| 亚洲综合经典在线一区二区| 手机在线看片不卡中文字幕| 欧美在线中文字幕| 久久久受www免费人成| 日本伊人色综合网| 亚洲成人福利网站| 成人中文在线| 欧美成人精品欧美一级乱黄| 欧美在线黄| 国产青青操| 色婷婷色丁香| 白浆视频在线观看| 亚洲综合一区国产精品| 伊人网址在线| 精品国产自在在线在线观看| 成人午夜视频在线| 91精品免费高清在线| 亚洲三级影院| 欧美一区日韩一区中文字幕页| 99re热精品视频中文字幕不卡| 国产成人亚洲精品无码电影| 青草视频久久| 一级毛片在线播放| 91在线国内在线播放老师| 亚洲欧美另类中文字幕| 色哟哟国产精品| 国产理论最新国产精品视频| 亚洲男人的天堂在线| 日韩区欧美区|