999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網絡語料庫分析系統CQPweb的建設及應用

2017-01-05 12:31:25劉萍吳良平
中國大學教學 2016年5期

劉萍 吳良平

摘要:新一代網絡語料庫分析系統CQPweb具有詞頻分析、搭配分析、分布分析、索引行以及主題詞分析等多種分析功能。CQPweb于2014年首次引入國內,目前國內已建成三個CQPweb,更多語料庫研究者期待著創建自己的CQPweb。鑒于此,本文以HZAUCQPweb為例,詳細介紹了CQPweb的創建流程,所要求的環境條件、技術要求、CQPweb的體系結構、管理權限等。HZAU CQPweb建成后,被應用于學術寫作教學,探討了CQPweb的三個主要分析功能,即詞頻、搭配、分布分析功能在解答寫作困惑方面的作用。應用研究揭示:基于CQPweb的數據驅動學習在提高學生的語言意識、促進主動學習和知識內化等諸多方面優勢凸顯。本研究旨在促進CQPweb在國內的推廣應用。

關鍵詞:CQPweb;平臺建設;數據驅動學習;學術寫作教學

一、引言

近年來,隨著計算機技術的進步,語料庫開發與建設迅猛發展。然而技術門檻與版權問題阻礙了語料庫資源的共享。最新一代網絡語料庫分析系統CQPweb極大地簡化了語料庫檢索操作,很大程度上消除了技術障礙。同時,CQPweb將語料庫文本儲存于網絡服務器,用戶無法復制或重構語料庫文本,使語料庫版權得到保護。因而,有很多語料庫研究者期待架構自己的CQPweb,上載自建的語料庫,用于教學與科研。鑒于此,本文以HZAU CQPweb為例,介紹CQPweb的建構流程及其應用。集易用性、兼容性與強大功能于一體的CQPweb特別適合數據驅動學習(data-driven learning)。在教學中采用CQPweb,引入數字驅動學習的教學理念,將促進教學方法、教學手段的更新。CQPweb充分利用數據索引,能對大規模文本進行快速處理,符合大數據時代特征,代表著今后語料庫分析工具的發展趨勢。

二、概述

1.cQPweb的發展歷程

CQPweb是第四代基于網絡的語料庫分析系統(McEnery&Hardie 2012:44),其主要分析功能包括:索引行、搭配、詞頻、關鍵詞、分布分析等。CQP(Corpus Query Processor)最初由德國斯圖加特大學于1994年在Solaris平臺開發(Christ 1994)。1998年,StefanEvert以Linux為平臺繼續開發(Evert 2008)。2006年Hoffman&Evert結合了兩個單獨的查詢技術語料庫工作平臺Corpus Workbench(CWB,CQP為其核心組件)和MySQL關系數據庫,產生了新一代以CWB/CQP和MySQL為后臺的語料庫分析系統BNCweb,既提高了系統的操作性能,又給予CWB/CQP一個更友好的用戶界面。但是,該系統只能檢索英國國家語料庫BNC,不兼容其他語料庫。為了突破此局限,蘭卡斯特大學Andrew Hardie用PHP語言改寫了BNCweb,更全面的數據模型使其兼容幾乎所有類型的語料庫,他將改進后的系統命名為CQPweb。2008年,首個CQPweb問世,它以開源軟件形式發布,此后不斷推出新版本。

2.cQPweb的優勢特征

CQPweb采用瀏覽器一服務器的分布式數據處理方式,能實現跨平臺檢索,在功能性、易用性、靈活性三個方面實現了重大突破。Hardie認為對語料庫兼容并收的靈活性是CQPweb的主要創新特點(Hardie 2012:380)。相對于其他語料庫分析工具,CQPweb優勢突顯。目前廣泛使用的第三代語料庫分析工具,

如WordSmith Tools、MonoConc、AntConc等,雖然擁有良好的圖形用戶界面,易用性高,但是它們不支持數據索引或復雜檢索,因而檢索速度和功能大為遜色。還有一些語料庫工具雖然檢索功能強大,但易用性差。例如德國斯圖加特大學的CWB/CQP支持大型語料庫的快速、復雜檢索,但其檢索技術門檻高,多數普通研究者不會使用。另外一些語料庫檢索工具雖然易用,并且功能強大,但是兼容性差。例如上述BNCweb僅能針對BNC檢索,無法加載用戶自建語料庫。相比之下,CQPweb以常人熟知的瀏覽器為用戶端,采用標準化的語料格式,能加載和檢索任意語料,在功能、易用、靈活三者之間取得了較好平衡,成為目前功能最為全面的網絡語料庫分析系統。

3.國內外cQPweb的開發與應用

在國外,CQPweb以其獨特的優勢受到用戶青睞,目前,英、美、德、西班牙、加拿大等多個國家的大學和研究機構采用了CQPweb,服務于教學和科研(許家金、吳良平2014:12),取得了良好的效果。例如蘭卡斯特大學在語料庫語言學教學中采用了CQPweb,因為語料庫檢索操作被大大簡化,學生有更多精力聚焦于教學內容本身,因而學習效率得到提高(Hardie 2012:387)。另一方面,CQPweb的兼容性極大地拓展了其適用范圍,它甚至成為人文科學、社會科學領域研究者的研究利器。例如Maatz(2014)利用CQPweb進行對比研究,發現精神分裂癥患者對第一人稱代詞“I”的使用多于正常人,這一發現有助于精神分裂癥患者的病理研究。

在國內,CQPweb作為一個新概念、新事物,2014年由許家金、吳良平(2014)發表的專題論文首次引介。同年,國內第一個CQPweb系統“北京外國語大學多語種在線語料庫檢索平臺BFSU CQPweb”問世。該系統公開發布了代表7種語言的33個不同類型的語料庫,促進了語料庫資源與工具的共享,同時促進了基于語料庫網絡平臺的語言研究。在BFSU CQPweb示范效應的影響下,香港理工大學、華中農業大學也先后架構了各自基于校園網的CQPweb。這些先驅CQPweb系統使國內語料庫研究者體驗了CQPweb的強大功能、便利操作,以及它對語料庫版權有良好的保護,因而激發了一批語料庫研究者創建CQPweb的熱情。他們紛紛在論壇、網站等學術陣地尋求創建CQPweb的技術與流程。然而,現有的相關文獻少之又少,僅有的一篇中文文獻(許家金、吳良平2014)未有涉及CQPweb的具體創建流程及其在學科教學中的具體應用。

鑒于此,本研究詳細介紹華中農業大學CQPweb(以下簡稱HZAU CQPweb)的創建流程及應用研究,旨在為同類研究提供參考借鑒。

三、H7AU GOPweb的創建流程

HZAU CQPweb為農科英語語料庫網絡系統平臺,采用CQPweb v3.0.7作為建構基礎。建構網絡型CQPweb需要兩個基本條件:(1)CQPweb系統;(2)CQPweb專有格式語料庫。CQPweb(自帶安裝說明文檔)可從其官方網站自行下載與安裝。專有格式語料庫安裝到CQPweb系統后,用戶方能檢索。以HZAUCQPweb為例,我們從環境條件、技術要求、體系結構、管理權限等方面闡述CQPweb的建設流程。

1.創建cQPweb的技術參數與準備條件

CQPweb系統實為運行在Linux操作系統的一套開源程序,其主要構成元素為后臺OpenCorpus Workbench 3.0+和用戶界面CQPweb。軟件條件為:GNU Linux 2.6+、Apache-2.0+、MySQL-5.0+、PHP5.3+、Perl-5.8+。硬件條件為:32位或64位Intel/AMD處理器、雙倍于語料庫大小的空閑硬盤空間,以及適量內存(假設1億詞次規模的語料大小為1GB,將其架設在CQPweb平臺上所需的硬盤空間則約為2GB。依此類推)。HZAU CQPweb采用64位Linux,4GB內存,目前運行良好。

CQPweb可處理復雜數據類型語料,但對輸入文件格式要求嚴苛。在上載文本前,需要對文本進行清潔與處理,以減少出錯幾率,涉及多個步驟:(1)刪除源文本中的頁眉、頁腳、圖表及說明、參考文獻等語言學信息不強的部分;(2)切割與提取論文的各章節部分;(3)統一采用UTF-8編碼;(4)去除空行、行首與行尾空格等空白;(5)轉換全角符號至半角;(6)刪除異字(如英文文本中夾雜的漢字);(7)添加詞性賦碼;(8)轉換語料格式為CQPweb專有格式。專有格式是CQPweb能加載任意語料,成為通用語料庫分析系統的關鍵。其中論文章節部分的切割、提取需要專業背景知識。HZAU CQPweb建設中,調動了不同農科專業方向的博士生參與此項工作,以確保語料提取、加工的質量。

2.HZAU cQPweb兩個數據模型與語料庫的三層構架

CQPweb的檢索功能的實現依靠兩個數據模型:語料庫文本數據模型和語料庫元信息模型。前者支持一般檢索,后者支持分類檢索。兩個數據模型的結構描述如下:

語料庫文本數據模型采用一行一單詞的豎排格式,每個單詞后面可帶詞性、詞形還原等若干標注成分(Hardie 2012:390)。在文本數據模型中,每個單詞都標注了詞性賦碼,單詞與詞性賦碼之間由制表符分隔,并排成CQPweb專有豎排格式。

語料庫元信息指與語料相關的文本結構信息或社會語言學信息,如章節號、刊物來源等信息。語料庫元信息模型分為兩欄,左邊為文本的ID,右邊為文本的學科分類元信息。如果有一文本的ID為D01,其對應的學科元信息為DWKX,那么元信息模型中的D01DWKX解讀為“動物科學(DWKX)文本庫中的第1個文本”。文件ID與元信息之間由制表符分隔。元信息用于CQPweb限定條件檢索(Restricted query),例如將帶有DWKX(動物科學)元信息數據的所有文本可作為一個學科大類進行檢索。HZAU CQP web能夠實現章節部分的分類檢索也是基于同樣的原理。

上述兩個數據模型運行在CQPweb后臺的服務器上,而在HZAU CQPweb前端的瀏覽器網頁上(http://211.69.132.28/)呈現給用戶的是語料庫的三層架構:第一層是農科專業期刊論文語料庫,收錄英語母語者發表的期刊論文。第二層是漢語母語學習者語料庫,收錄農科專業的碩士生、博士生撰寫的英語學術論文。這兩個語料庫構架一樣,均由按照章節部分和學科分類的兩個子庫構成:章節子庫包含摘要(ABS)、引言(1NT)、方法(MET)、結果(RET)、討論(DIS)、結論(CON)6個庫;學科子庫包含植物科學(ZWKX)、動物科學(DWKX)、生命科學(SMKE)、園藝林學(YYLX)、農業經濟(NYJJ)等9個庫。第三層是對比語料庫,包括經過授權的英語母語學習者語料庫BAWE和文學作品語料庫DICKENS,主要用于對比研究。

3.cQPweb的系統結構與管理員權限

作為一套開源程序的集合,CQPweb系統主要分為服務器端和用戶端兩個部分,包括多個相互聯系的組件。檢索過程開始于用戶在瀏覽器的用戶界面輸入查詢語句,服務器端收到查詢請求后,與CWB和MySQL兩者進行交互,將最終結果通過瀏覽器呈現給查詢用戶,至此檢索完畢。在檢索過程中,用戶的任務僅為輸入恰當查詢語句(參看許家金、吳良平2014:14),而后一切交由CQPweb自動運行處理。

系統管理員權限為:(1)語料庫管理;(2)用戶管理。在語料庫管理方面,管理員可安裝、修改、刪除語料庫,根據需要隨時展示或隱藏特定語料庫,還可以修改系統配置文件,對用戶界面進行視覺效果調整。例如使用不同背景顏色區分不同語料庫,降低認知負荷,便于同一系統上大批量部署語料庫。在用戶管理方面,系統管理員可創建單個用戶或批量用戶,并根據實際需要對用戶進行分組,賦予不同訪問權限,例如僅對某一特定用戶組開放某一特定語料庫。這種靈活的用戶組策略便于管理不同權限的語料庫,也為同一系統部署不同權限的語料庫提供了可能。

四、COPweb的多種分析功能在學術寫作教學中的應用

HZAU CQPweb建成后,我們將其應用于農科專業博士生學術英語寫作課程教學,在教學中,引入數據驅動學習(Data DrivenLearning,簡稱DDL)的教學理念。數據驅動學習由Tim Johns(1991)提出,其主要思想為:學習者作為研究者,通過對大量語料數據的觀察,自己歸納、發現語言使用規律。教師作為引導者,為學生提供語料庫資源與工具,指引學習者探索、發現。在DDL教學理念的指導下,傳統上由教師講授的部分內容被轉化成學生的自主學習任務,以促進學生借助語料庫,自己探求語言困惑的答案,從而掌握DDL學習方法,達到授人以漁的目的。

采用DDL的學習方式后,教師引導學生嘗試利用CQPweb平臺上的各種檢索分析工具,如詞頻、搭配、分布、索引行以及主題詞分析等,解答寫作實踐中的疑問。限于篇幅,在此僅展示CQPweb的三個主要的分析功能:詞頻分析、搭配分析與分布分析在寫作教學中的應用情況。

1.詞頻分析與搭配分析

在英語寫作過程中學生常遭遇選詞與搭配方面困惑,例如學術英語論文寫作中一篇論文常要多次用到“研究”一詞,寫作者常糾結于多用research,還是多用studV,表示“關于……的研究”這兩個名詞到底與介詞of還是on的搭配更為頻繁?英、漢母語寫作者在選詞與搭配上有無差異呢?CQPweb的檢索結果如表1所示:

cQPweb的頻數解析(Frequency breakdown)功能顯示的數據表明:表達“研究”之意時,英、漢母語者都更多地傾向使用study(studies)而不是research(es)。study of的出現頻率比study on高。相反,research on的搭配比research of多。雖然英、漢母語者對這二詞的選詞與搭配傾向總體一致,但是期刊論文語料庫與學習者語料庫的對比結果表明:英、漢語母語者在搭配用法的頻次上存在顯著差異,漢語母語者使用studV on、research on以及research of這三詞的搭配顯著高于英語母語者(p

頻次與搭配分析結果不言而喻地解決了學生寫作中選詞用語的困惑。CQPweb分析數據呈現出英、漢母語者在語言使用上的差異,揭示出漢語母語者總體上存在對某些語言現象的過度使用或誤用。該分析有利于學生提高其語言敏感性,使其有意識地在選詞用語上接近英語母語者,從而提高語言使用的準確性和適切性,該分析也有利于教師提高教學針對性。

2.分布分析

本研究中的學術英語寫作主要涉及科技英語論文寫作。時態的使用時常困惑著科技論文的寫作者。把握不同時態在科技論文各部分的總體分布,有助于提高時態使用的準確性。現在時與過去時是科技英語論文最常用的兩種時態,這兩種時態在科技論文不同部分的分布情況如何呢?

科技英語論文常用被動語態,作為被動語態標志的be動詞在科技論文中使用頻繁,具有一定的代表性。我們不妨以be動詞的現在時和過去時為例,研究兩種時態在科技論文各部分的分布情況。我們以is和are代表現在時(科技論文中少有be動詞的第一人稱單數形式am),以was和were代表過去時。CQPweb的分布分析功能(distribution)以圖表形式呈現出be動詞的現在時與過去時在論文各部分的分布情況如下:

圖1顯示:be動詞的現在時在討論(DIS)、引言(INT)、結論(CON)部分用得較多,在結果(RES)使用較少,方法部分(MET)使用最少。圖2的顯示結果與圖1互補:be動詞的過去時在方法部分(MET)使用最多,結果部分(RES)次之,在結論(CON)和討論(DIS)部分較少。從DDL教學理念出發,在學生觀察CQPweb提供的數據及圖表之后,教師應引導學生對數據進行討論分析,以便學生自己發現時態使用的規律。討論得出以下結論:時態的使用因論文各部分寫作內容的差異而不同:方法部分主要描述實驗材料的獲取,陳述事件,因而多用過去式;結果部分描述瞬時觀察到的事實與數據,具有時效性,因而多用過去式;結論部分描述對觀察結果提煉后得出的一般規律,因而多用現在時。

傳統教學中,時態的使用規律往往由教師傳授,采用DDL學習方法后,語言使用規律通過學生自己觀察、討論而發現。數據驅動的探究式、發現式的DDL學習方式比教師的生硬灌輸更能發揮學習者的主觀能動性,促使學習者主動探究,有利于語言知識內化吸收。而CQPweb系統平臺為DDL學習提供了便捷條件。

基于HZAU CQPweb的學術英語寫作課程結束后,DDL學習情況的問卷調查結果表明:總體來說,師生對教學中采用CQPweb持積極肯定的態度。師生一致認同:利用CQPweb提供的語料庫資源與工具,進行數據驅動學習,有利于提高教學的針對性和學生的語言意識、促進主動學習和知識內化。但是,HZAUCQPweb的實際應用也表明:初次使用CQPweb的師生普遍認為語料庫檢索操作仍然不夠方便,對詞匯層面以上語言現象的檢索感覺困難。

五、結語

本文概述了新一代網絡語料庫分析系統CQPweb的發展歷程、功能優勢、國內外CQPweb的開發與應用。總體而言,CQPweb在國外發展快,應用廣,在國內處于起步階段,尚需推廣。本文以HZAU CQPweb為例,介紹了CQPweb的建設流程,包括建設的環境條件、技術要求、體系結構、管理權限等。HZAUCQPweb建成后,應用于學術英語寫作教學。應用研究表明,師生普遍認同CQPweb對寫作教學的促進作用,支持基于CQPweb的數據驅動學習方式,同時,用戶也反映CQPweb易用性有待進一步提高。目前,作為新生事物的CQPweb的開發與應用發展迅速,幾乎每月都有新版的CQPweb推出(源自CQPweb系統信息)。國內學者應該實時跟進國外的新發展,同時也嘗試開發一些本土化的分析功能,以滿足國內基于網絡語料庫分析系統的語言教學與研究之需。

主站蜘蛛池模板: 91无码网站| AV在线天堂进入| 国产高潮视频在线观看| 青草视频免费在线观看| 色成人亚洲| 毛片国产精品完整版| 青青草综合网| 国产精品视频999| 亚洲VA中文字幕| 国产精品原创不卡在线| 欧美日韩导航| 国产综合精品一区二区| 国产精品伦视频观看免费| 亚洲精品色AV无码看| 欧美亚洲国产一区| 伊人久热这里只有精品视频99| 国产乱人免费视频| 久久精品欧美一区二区| 欧美一级在线播放| 99久久99视频| 一级毛片基地| 色AV色 综合网站| 一级毛片基地| 国产精欧美一区二区三区| 国内精品小视频在线| 亚洲无码免费黄色网址| 国产欧美网站| 在线无码私拍| 久久男人视频| 国产一线在线| 欧美啪啪网| 97视频免费在线观看| 亚洲人成网7777777国产| 一级爱做片免费观看久久| 免费精品一区二区h| 伊人福利视频| 欧美在线精品怡红院| 欧美精品一区在线看| 亚洲性影院| 全色黄大色大片免费久久老太| 9cao视频精品| 亚洲国产91人成在线| 久久99热66这里只有精品一| 精品国产91爱| 国产一区二区三区在线观看视频| 在线观看91香蕉国产免费| 亚洲第一视频网| 欧美视频在线不卡| 麻豆精品视频在线原创| 亚洲精品桃花岛av在线| 色婷婷电影网| 亚洲av无码牛牛影视在线二区| 色综合综合网| 伊人精品成人久久综合| 超薄丝袜足j国产在线视频| 国产香蕉在线| 日韩毛片基地| 国产无吗一区二区三区在线欢| 狠狠色丁香婷婷| 夜夜拍夜夜爽| 亚洲国产第一区二区香蕉| 精品少妇三级亚洲| 99这里只有精品在线| 性色一区| 91欧美在线| 国模在线视频一区二区三区| 中文字幕色在线| 国产成人免费观看在线视频| 国产精品一区二区无码免费看片| 福利小视频在线播放| 国产一二三区视频| 亚洲人成网7777777国产| 91青青视频| 亚洲色图欧美在线| 色亚洲成人| 无码高潮喷水专区久久| 一级黄色欧美| 欧美精品v| 国产美女精品一区二区| 国产美女一级毛片| 91亚洲国产视频| 91网址在线播放|