999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

英語(yǔ)專業(yè)四級(jí)詞匯自主學(xué)習(xí)語(yǔ)料庫(kù)的設(shè)計(jì)和技術(shù)實(shí)現(xiàn)

2010-10-10 00:30:12李文良付海辰
唐山學(xué)院學(xué)報(bào) 2010年5期
關(guān)鍵詞:詞匯文本設(shè)計(jì)

李文良,付海辰

(唐山學(xué)院a.外語(yǔ)系;b.計(jì)算機(jī)系,河北唐山 063000)

英語(yǔ)專業(yè)四級(jí)詞匯自主學(xué)習(xí)語(yǔ)料庫(kù)的設(shè)計(jì)和技術(shù)實(shí)現(xiàn)

李文良a,付海辰b

(唐山學(xué)院a.外語(yǔ)系;b.計(jì)算機(jī)系,河北唐山 063000)

主要從語(yǔ)料庫(kù)的建設(shè)前提、語(yǔ)料庫(kù)的設(shè)計(jì)和技術(shù)實(shí)現(xiàn)以及語(yǔ)料庫(kù)的檢索三個(gè)方面分析了英語(yǔ)專業(yè)四級(jí)詞匯自主學(xué)習(xí)語(yǔ)料庫(kù)的建設(shè)問(wèn)題。

語(yǔ)料庫(kù);設(shè)計(jì);技術(shù)實(shí)現(xiàn);檢索

隨著計(jì)算機(jī)技術(shù)的發(fā)展,英語(yǔ)語(yǔ)料庫(kù)在中國(guó)也得到了迅速的發(fā)展。語(yǔ)料庫(kù)方法在詞典編纂、語(yǔ)言研究和語(yǔ)言教學(xué)等方面得到了越來(lái)越多的應(yīng)用。英語(yǔ)語(yǔ)料庫(kù)在英語(yǔ)語(yǔ)言教學(xué)和研究方面有著十分重要的作用。它可以提供真實(shí)語(yǔ)料,提供數(shù)據(jù)的統(tǒng)計(jì),根據(jù)數(shù)據(jù)驗(yàn)證現(xiàn)行的語(yǔ)言學(xué)習(xí)理論并能據(jù)此建立新的理論。英語(yǔ)專業(yè)四級(jí)詞匯自主學(xué)習(xí)語(yǔ)料庫(kù)通過(guò)語(yǔ)料庫(kù)和語(yǔ)料庫(kù)索引工具把語(yǔ)境共現(xiàn)、語(yǔ)料庫(kù)的文本展現(xiàn)和網(wǎng)絡(luò)互動(dòng)進(jìn)行有機(jī)結(jié)合,為外語(yǔ)學(xué)習(xí)者提供一種自然的語(yǔ)言學(xué)習(xí)環(huán)境,從而促進(jìn)學(xué)習(xí)者對(duì)外語(yǔ)詞匯的自主學(xué)習(xí)。適合學(xué)習(xí)者多樣化的語(yǔ)料庫(kù)的建立,還能改變單純依靠教材進(jìn)行外語(yǔ)學(xué)習(xí)的被動(dòng)局面,解決了語(yǔ)言學(xué)習(xí)材料的真實(shí)性和多元化問(wèn)題,適應(yīng)立體化、網(wǎng)絡(luò)化、個(gè)性化外語(yǔ)教學(xué)和學(xué)習(xí)的實(shí)際需要,使外語(yǔ)教學(xué)朝著個(gè)性化學(xué)習(xí)、不受時(shí)間和地點(diǎn)限制的學(xué)習(xí)、主動(dòng)式學(xué)習(xí)的方向發(fā)展。利用語(yǔ)料庫(kù)對(duì)英語(yǔ)專業(yè)學(xué)生進(jìn)行四級(jí)詞匯自主學(xué)習(xí)和研究,首先需要建立英語(yǔ)專業(yè)四級(jí)詞匯自主學(xué)習(xí)語(yǔ)料庫(kù)。本文主要針對(duì)語(yǔ)料庫(kù)技術(shù)的發(fā)展和語(yǔ)料庫(kù)建設(shè)問(wèn)題中出現(xiàn)的關(guān)鍵問(wèn)題進(jìn)行逐一探討。

1 語(yǔ)料庫(kù)技術(shù)和語(yǔ)料庫(kù)研究的發(fā)展

語(yǔ)料庫(kù)技術(shù)的發(fā)展大致經(jīng)歷了四個(gè)階段。

第一階段:人工采集語(yǔ)料階段。語(yǔ)料靠人工閱讀采集而來(lái)。在當(dāng)時(shí)的技術(shù)條件下,研究者會(huì)花大量時(shí)間閱讀書(shū)籍、報(bào)刊,搜集語(yǔ)料。但此種方法費(fèi)時(shí)、費(fèi)力,效率低,而且資料的質(zhì)量無(wú)法保證。

第二階段:計(jì)算機(jī)語(yǔ)料庫(kù)的建立與 KW IC(上下文關(guān)鍵詞)檢索階段。計(jì)算機(jī)語(yǔ)料庫(kù)的建立和檢索工具的開(kāi)發(fā),在語(yǔ)料庫(kù)的規(guī)模、覆蓋面、典型性上,都優(yōu)于人工搜集。人們可以把更多精力投入到更有意義的語(yǔ)料庫(kù)技術(shù)實(shí)現(xiàn)上。多種英語(yǔ)語(yǔ)料庫(kù)檢索工具得以開(kāi)發(fā),如WordSmith,Sara,TACT等。這些檢索工具的一個(gè)共同特點(diǎn)是通過(guò) KW IC形式,將被檢索詞置于上下文中,顯示其用法。但通過(guò) KW IC檢索時(shí),檢索得到的語(yǔ)料行數(shù)不能太多,否則就難以觀察。對(duì)語(yǔ)料的概括和小結(jié)仍存在一定缺陷。

第三階段:Word Sketch Engine(簡(jiǎn)稱WSE,詞匯描述引擎)檢索階段。英國(guó)Brighton大學(xué)的 Kilgrarriff和 Tugwell等人開(kāi)發(fā)的軟件“Wo rd Sketch Engine”可較直觀地顯示詞的常見(jiàn)搭配以及出現(xiàn)頻率和顯著度(salience)。用 WSE檢索結(jié)果分三欄排列:第一欄顯示被檢索詞的搭配或句法結(jié)構(gòu);第二欄為每一搭配或結(jié)構(gòu)在英國(guó)國(guó)家語(yǔ)料庫(kù)(British Na-tional Corpus)中的頻數(shù);第三欄則是搭配或結(jié)構(gòu)的顯著度。WSE檢索工具已經(jīng)商業(yè)化,進(jìn)行詞典的編纂,還輔助開(kāi)發(fā)了英語(yǔ)義類詞典。

第四階段:FrameNet(框架網(wǎng))檢索階段。此種檢索繼承了前兩代檢索工具的優(yōu)點(diǎn),而且對(duì)詞義更敏感。

綜上所述,各個(gè)階段的語(yǔ)料庫(kù)技術(shù)都有自身的特點(diǎn)。就目前我們建立英語(yǔ)專業(yè)四級(jí)詞匯自主學(xué)習(xí)語(yǔ)料庫(kù)而言,主要還是使用第二階段的英語(yǔ)語(yǔ)料檢索工具。

英語(yǔ)語(yǔ)料庫(kù)研究的發(fā)展經(jīng)歷了三個(gè)階段。運(yùn)用語(yǔ)料庫(kù)進(jìn)行語(yǔ)言研究最早可以追溯到19世紀(jì)末,當(dāng)時(shí)的研究手段還只停留在卡片制作和人工檢索的階段,其成果也僅用作編纂語(yǔ)法書(shū)或詞典的參考;20世紀(jì)60年代至90年代是語(yǔ)料庫(kù)語(yǔ)言學(xué)發(fā)展的第二個(gè)階段,世界各地都開(kāi)始建設(shè)自己的語(yǔ)料庫(kù)并且開(kāi)始跨國(guó)聯(lián)合建立國(guó)際性的語(yǔ)料庫(kù),20世紀(jì)90年代中期是語(yǔ)料庫(kù)語(yǔ)言學(xué)發(fā)展的第三個(gè)階段。語(yǔ)料庫(kù)語(yǔ)言學(xué)一般被認(rèn)為是20世紀(jì)60年代初期發(fā)展起來(lái)的一門新興的語(yǔ)言研究科學(xué)。我們目前是利用自己開(kāi)發(fā)的英語(yǔ)專業(yè)四級(jí)詞匯學(xué)習(xí)語(yǔ)料庫(kù)進(jìn)行四級(jí)詞匯自主學(xué)習(xí)的研究。

2 語(yǔ)料庫(kù)的設(shè)計(jì)和技術(shù)實(shí)現(xiàn)

2.1 語(yǔ)料庫(kù)的建設(shè)前提

研究學(xué)生利用英語(yǔ)專業(yè)四級(jí)詞匯學(xué)習(xí)語(yǔ)料庫(kù)進(jìn)行學(xué)習(xí)的前提,便是要建立四級(jí)詞匯學(xué)習(xí)的語(yǔ)料庫(kù)。語(yǔ)料庫(kù)的建設(shè)主要包括兩大方面:一是語(yǔ)料庫(kù)文本,二是語(yǔ)料庫(kù)檢索軟件。在具體選擇語(yǔ)料庫(kù)文本和語(yǔ)料庫(kù)檢索軟件之前,需要明確幾個(gè)問(wèn)題:

(1)語(yǔ)料庫(kù)研究的目的和設(shè)計(jì)。針對(duì)的主要是即將參加英語(yǔ)專業(yè)四級(jí)考試,需要通過(guò)大量語(yǔ)料來(lái)鞏固、完善詞匯學(xué)習(xí)的英語(yǔ)專業(yè)學(xué)生。在此基礎(chǔ)上,根據(jù)學(xué)生利用語(yǔ)料庫(kù)進(jìn)行詞匯學(xué)習(xí)的過(guò)程和結(jié)果,對(duì)詞匯自主學(xué)習(xí)模式進(jìn)行探討。

(2)語(yǔ)料庫(kù)的整體設(shè)計(jì)。英語(yǔ)專業(yè)四級(jí)是指英語(yǔ)專業(yè)的學(xué)生在大學(xué)階段英語(yǔ)專業(yè)學(xué)習(xí)第四個(gè)學(xué)期所應(yīng)達(dá)到的水平。所以語(yǔ)料庫(kù)中的文本包括現(xiàn)行英語(yǔ)專業(yè)前四個(gè)學(xué)期的教材和專業(yè)四級(jí)閱讀文章、網(wǎng)上相關(guān)四級(jí)詞匯內(nèi)容、各種英文電子期刊雜志等等。

(3)語(yǔ)料庫(kù)文本的整理。語(yǔ)料來(lái)源于課本、輔導(dǎo)材料和電子文本,但要把這些材料應(yīng)用到語(yǔ)料庫(kù),還需要做相應(yīng)的加工和處理,我們把這個(gè)過(guò)程稱作清潔。文本不清潔會(huì)導(dǎo)致在日后的使用和分析上的不準(zhǔn)確。因此這一過(guò)程非常重要。

取樣的平衡、設(shè)計(jì)容量、語(yǔ)料來(lái)源等都會(huì)對(duì)日后的研究產(chǎn)生一定的影響。在建庫(kù)之后,我們可以借助語(yǔ)料庫(kù)進(jìn)行學(xué)習(xí)或者帶著問(wèn)題進(jìn)行研究,并在此基礎(chǔ)上進(jìn)行數(shù)據(jù)統(tǒng)計(jì)和分析。整個(gè)工作流程見(jiàn)圖1。

2.2 語(yǔ)料庫(kù)的設(shè)計(jì)和技術(shù)實(shí)現(xiàn)

(1)建庫(kù)所需工具和軟件。在語(yǔ)料庫(kù)建設(shè)前,要確保有一些好用的文本編輯器,如 EditPad、EditPlus等;建庫(kù)所需文本掃描得到的圖形文件,需要相應(yīng)的識(shí)別軟件,如 AB-BYYFineReader等;如果來(lái)源于網(wǎng)絡(luò),可能需要解壓縮軟件W in RAR,W inZIP,如果是CAJ或是PDF格式文件,則需要AdobeReader或是CAJViewer,還需要相應(yīng)的轉(zhuǎn)換軟件把格式改為文本格式。

圖1 流程圖

(2)語(yǔ)料庫(kù)的設(shè)計(jì)。語(yǔ)料庫(kù)的設(shè)計(jì)首先包括語(yǔ)料的類型問(wèn)題,以及確定各種語(yǔ)料所占的比例:對(duì)于英語(yǔ)專業(yè)四級(jí)詞匯學(xué)習(xí)語(yǔ)料庫(kù)來(lái)說(shuō),語(yǔ)料類型豐富,包括人文、地理、歷史、科技、邏輯、新聞等多種類型。設(shè)計(jì)時(shí)可以大概有一比例,在語(yǔ)料庫(kù)建成后可以再進(jìn)行詳細(xì)統(tǒng)計(jì)。對(duì)于語(yǔ)料的大小,由于此語(yǔ)料庫(kù)語(yǔ)料來(lái)源有課本、考試和網(wǎng)絡(luò),所以語(yǔ)料長(zhǎng)短會(huì)有差別,但按照《英語(yǔ)專業(yè)四級(jí)考試大綱》的要求,一般語(yǔ)料長(zhǎng)度都應(yīng)在500個(gè)單詞以上。

語(yǔ)料庫(kù)語(yǔ)料的獲取方法問(wèn)題:此語(yǔ)料庫(kù)獲取語(yǔ)料的主要渠道為英語(yǔ)專業(yè)所用教材、專業(yè)四級(jí)考試材料和網(wǎng)絡(luò)。因?yàn)閷I(yè)所用教材是按照《英語(yǔ)專業(yè)四級(jí)考試大綱》所要求的詞匯進(jìn)行編寫,所以涉及到了大部分專業(yè)四級(jí)詞匯。而《英語(yǔ)專業(yè)四級(jí)考試大綱》按照《高等學(xué)校英語(yǔ)專業(yè)教學(xué)大綱》要求編寫而成,并且根據(jù)歷年考試實(shí)際情況進(jìn)行微調(diào),所以試題存在代表性和平衡性。而從網(wǎng)絡(luò)獲取部分語(yǔ)料則是考慮到了英語(yǔ)的實(shí)時(shí)更新性和與時(shí)俱進(jìn)性。語(yǔ)料是活的,是在不斷更新和進(jìn)步的。但網(wǎng)絡(luò)獲取我們主要選取了一些權(quán)威網(wǎng)站的語(yǔ)料,這些網(wǎng)站均為英、美主要報(bào)刊和雜志,以確保語(yǔ)料的真實(shí)性和有效性。

文本的整理和清潔:整理清潔文本的原因是由于通過(guò)鍵盤錄入、掃描識(shí)別、網(wǎng)絡(luò)下載或是PDF文件等方式得到的文本,在單詞拼寫、文字符號(hào)、空格段落和標(biāo)點(diǎn)符號(hào)等方面都存在著一定的問(wèn)題。如果文本不干凈,會(huì)導(dǎo)致后期分析結(jié)果不準(zhǔn)確。圖2和圖3通過(guò)文本片段說(shuō)明這個(gè)問(wèn)題。

圖2 問(wèn)題文本

在圖2問(wèn)題文本中,可以看到文本格式存在很多問(wèn)題:單詞間空格多余、有空段、出現(xiàn)硬回車、出現(xiàn)全角符號(hào)等。這樣的文本在后期應(yīng)用中存在諸多問(wèn)題,通過(guò)文本清潔后如圖3所示。

圖3 清潔文本

由于建庫(kù)需要大量文本,對(duì)于文本出現(xiàn)的格式問(wèn)題,也可使用軟件“文本整理器”進(jìn)行批量整理,清潔文本。文本處理器的功能如圖4所示。但仍有可能存在文本不清潔的問(wèn)題。這時(shí)候則需要借助正則表達(dá)式進(jìn)行進(jìn)一步清理。

(1)在AntConc主界面File菜單中Open File中瀏覽并選定文本。如果需要選擇某一文件夾下所有文本,則在File菜單中選擇“Open Dir…”,瀏覽并選定文件夾。如圖 5所示。

圖5 操作頁(yè)面一

圖4 文本處理器的功能

文本的標(biāo)注。語(yǔ)料庫(kù)標(biāo)注的深度,取決于語(yǔ)料庫(kù)建設(shè)的設(shè)計(jì)目標(biāo)和研究需求。語(yǔ)料庫(kù)既可以不加任何標(biāo)注,也可以添加多層次標(biāo)注。標(biāo)注信息的復(fù)雜程度決定了技術(shù)要求和研發(fā)成本的提高。目前的標(biāo)注語(yǔ)言多采用Extensible Mark-up Language(簡(jiǎn)稱XML)。此語(yǔ)言靈活度高、擴(kuò)展性強(qiáng)、句法嚴(yán)謹(jǐn)。由于篇幅所限,標(biāo)注問(wèn)題另行撰文。

2.3 語(yǔ)料庫(kù)的檢索

語(yǔ)料庫(kù)建設(shè)完成后。可以利用 AntConc進(jìn)行簡(jiǎn)單檢索。激活軟件后,按以下步驟操作:

(2)點(diǎn)擊AntConc主界面上方的Conco rdance選項(xiàng),在檢索項(xiàng)中輸入需要檢索的四級(jí)詞匯。如圖6所示。在檢索項(xiàng)輸入框上方的檢索模式區(qū)域進(jìn)行選擇。如只想了解選定詞的準(zhǔn)確形式,就選擇“wo rds”模式下檢索;如想檢索詞綴則在“Regex”模式下能得到較為理想的結(jié)果。或者,可以利用通配符來(lái)滿足多種檢索需要。如需進(jìn)行復(fù)雜檢索,仍需使用正則表達(dá)式進(jìn)行。

圖6 操作頁(yè)面二

3 結(jié)語(yǔ)

語(yǔ)料庫(kù)在外語(yǔ)教學(xué)和研究中發(fā)揮著越來(lái)越重要的作用。相應(yīng)的對(duì)于語(yǔ)料庫(kù)的設(shè)計(jì)、軟件開(kāi)發(fā)和應(yīng)用也會(huì)得到促進(jìn)和發(fā)展。這需要英語(yǔ)專業(yè)和計(jì)算機(jī)專業(yè)人員相結(jié)合,共同進(jìn)行語(yǔ)料庫(kù)開(kāi)發(fā)和建設(shè)。

(責(zé)任編校:李聰明)

The Design and Techn ical Realization of TEM 4 Vocabulary Corpus Based on Autonomous Learn ing

LIWen-lianga,FU Hai-chenb

(a.Department of Foreign Languages Tangshan College,Tangshan 063000,China;b.Department of Computer Sciences Tangshan College,Tangshan 063000,China)

The paper analyzes the construction of TEM 4 vocabulary corpus from the perspectives of the p recondition,the design and technical realization and the searching based on autonomic learning.

corpus;design;technical realization;searching

H319.3

A

1672-349X(2010)05-0090-02

2010-08-20

河北省教育廳立項(xiàng)課題(SZ091120)

李文良(1962-),男,教授,碩士,主要從事英語(yǔ)語(yǔ)言文學(xué)教學(xué)與研究。

猜你喜歡
詞匯文本設(shè)計(jì)
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
瞞天過(guò)海——仿生設(shè)計(jì)萌到家
設(shè)計(jì)秀
海峽姐妹(2017年7期)2017-07-31 19:08:17
有種設(shè)計(jì)叫而專
Coco薇(2017年5期)2017-06-05 08:53:16
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
如何快速走進(jìn)文本
主站蜘蛛池模板: 亚洲国产欧美目韩成人综合| 亚洲中文字幕av无码区| www成人国产在线观看网站| 日韩人妻少妇一区二区| 伊人久久久大香线蕉综合直播| 国产三级a| 中文成人在线| 免费毛片视频| 国产91av在线| 国产精品漂亮美女在线观看| 亚洲精品在线影院| 亚洲第七页| 成人看片欧美一区二区| 精品一区二区三区无码视频无码| 日韩久草视频| 亚洲视频免费在线看| 国产精品成人一区二区| 成人免费黄色小视频| 国产福利观看| 国产精品视频系列专区| 亚洲天堂自拍| 蜜桃视频一区二区三区| 久草性视频| 青青热久麻豆精品视频在线观看| 毛片在线看网站| 人人妻人人澡人人爽欧美一区| 日本福利视频网站| 91探花国产综合在线精品| 免费看av在线网站网址| 免费视频在线2021入口| 久久亚洲黄色视频| 国产小视频免费| 国产成人亚洲欧美激情| 国产区福利小视频在线观看尤物| 欧美国产视频| 国产人妖视频一区在线观看| 一本大道香蕉中文日本不卡高清二区| 亚洲欧美日本国产综合在线| 青草娱乐极品免费视频| 日本免费福利视频| 国产亚洲精品无码专| 欧美亚洲国产日韩电影在线| 精品国产自| 国产日韩欧美在线播放| 欧美啪啪一区| 日本黄色a视频| 2021国产v亚洲v天堂无码| a欧美在线| 伊人国产无码高清视频| 无码一区二区三区视频在线播放| 在线无码九区| 婷婷伊人五月| 国产一级做美女做受视频| 午夜国产在线观看| 在线免费亚洲无码视频| www欧美在线观看| 中文字幕精品一区二区三区视频| 亚洲天堂网站在线| 免费一级毛片不卡在线播放| 欧洲熟妇精品视频| 欧美三級片黃色三級片黃色1| 久久天天躁狠狠躁夜夜躁| 欧美特黄一级大黄录像| 久久鸭综合久久国产| 欧美一级黄片一区2区| 久久久受www免费人成| 22sihu国产精品视频影视资讯| 国产精品流白浆在线观看| 亚洲av日韩av制服丝袜| 国产91全国探花系列在线播放| 亚洲精品国产自在现线最新| 亚洲福利视频一区二区| 色婷婷在线影院| 日本91视频| 亚洲国产日韩在线成人蜜芽| 毛片最新网址| 亚洲综合久久一本伊一区| 国内丰满少妇猛烈精品播| 99视频全部免费| 99在线视频免费观看| 亚洲精品无码不卡在线播放| 天天视频在线91频|