999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

針對(duì)網(wǎng)絡(luò)用作語料庫相關(guān)研究的文獻(xiàn)綜述

2023-12-29 03:55:57張世偉
校園英語·中旬 2023年8期
關(guān)鍵詞:文本研究

摘 要:自20世紀(jì)90年代起,網(wǎng)絡(luò)用作語料庫(Web as Corpus,簡稱WaC)已經(jīng)成為獲取大量文本數(shù)據(jù)的主要方式,其分析研究可被用作驗(yàn)證很多語言學(xué)假設(shè)的證據(jù),其他應(yīng)用方法還包括:自然語言處理工具和方法的評(píng)估,計(jì)算機(jī)詞典編纂,以及對(duì)趨勢(shì)或話題監(jiān)測(cè)的大量文本實(shí)操分析。基于網(wǎng)絡(luò)來構(gòu)建語料庫的優(yōu)勢(shì)有很多,例如低成本、效率高、實(shí)效好;但其弊端依然顯著,例如,非常有限的源數(shù)據(jù)(metadata)、難以自動(dòng)化清理網(wǎng)絡(luò)文本內(nèi)容等。這篇文獻(xiàn)綜述聚焦網(wǎng)絡(luò)用作語料庫過往相關(guān)研究,尤其是WaC經(jīng)典示例和爬蟲技術(shù)所面臨的挑戰(zhàn)。

關(guān)鍵詞:網(wǎng)絡(luò)用作語料庫 (Web as Corpus/WaC);語料庫語言學(xué)(Corpus Linguistics);語料庫構(gòu)建(Corpus construction);爬蟲(Crawling)

作者簡介:張世偉,英國肯特大學(xué)精算學(xué)研究生,外國語言學(xué)及應(yīng)用語言學(xué)專業(yè)在讀。

一、前言

語料庫語言學(xué)(Corpus Linguistics)通常是指為了語言學(xué)研究的目的,以一種有原則的方式對(duì)機(jī)器可讀的口語和書面語言樣本進(jìn)行的研究。語料庫語言學(xué)的研究對(duì)象是自然語言,它關(guān)注真實(shí)語境中的語言使用情況。因此,它經(jīng)常與喬姆斯基的語言學(xué)觀點(diǎn)形成對(duì)比,后者強(qiáng)調(diào)語言能力,并經(jīng)常以虛構(gòu)的例子作為探索語言的基礎(chǔ)。

在20世紀(jì)60年代,一百萬詞的Brown語料庫開啟了基于基于計(jì)算機(jī)的語言學(xué)研究;隨后到80年代初期,Sinclair 和 Atkins的COBUILD項(xiàng)目語料庫達(dá)到了八百萬詞;再有自從1988年起Atkins帶頭建構(gòu)的British National Corpus (BNC)的詞容量達(dá)到1億詞;1989年,語料庫發(fā)展開始進(jìn)入計(jì)算機(jī)語言學(xué)階段,雖然初期很多人質(zhì)疑它的學(xué)科性,但1993年Computational Linguistics - Association for Computational Linguistics期刊發(fā)表的Church與Mercer合著的Using Large Corpora一文有很大反響;在1999年的ACL會(huì)議上,網(wǎng)絡(luò)在語料庫中的應(yīng)用才開始被廣泛討論,網(wǎng)絡(luò)語料庫研究才慢慢多起來。

二、網(wǎng)絡(luò)用作語料庫的經(jīng)典案例

2005年英國伯明翰大學(xué)舉辦的WaC研討會(huì)上曾有專家指出,網(wǎng)絡(luò)用作語料庫(WaC)的主要模式分三類:

1.通過搜索引擎獲得特定關(guān)鍵詞的使用次數(shù);

2.在引擎檢索網(wǎng)頁上檢索關(guān)鍵詞,將搜索結(jié)果下載下來, 分析歸納整理建成一個(gè)新的語料庫;

3.利用網(wǎng)絡(luò)爬蟲技術(shù),搭建一個(gè)可以同時(shí)間處理海量數(shù)據(jù)的特定檢索語料庫引擎。

本文列舉了幾個(gè)比較有代表性的網(wǎng)絡(luò)用作語料庫(WaC)案例:

(一)WebCorp

WebCorp語料庫 (又稱“WebCorp Live”),是由Birm-ingham City University的英語研究發(fā)展部門(RDUES)于1998年創(chuàng)建,并一直維護(hù)至今,被語料庫學(xué)者、詞典編纂者、語言老師和學(xué)生、出版商、記者、廣告商和其他領(lǐng)域的研究者廣泛使用。它提供一系列的分析工具,允許用戶將互聯(lián)網(wǎng)當(dāng)作一個(gè)語料庫,其從互聯(lián)網(wǎng)上抓取語言數(shù)據(jù),揭露某個(gè)詞匯或短語是如何使用的,提供給用戶一個(gè)有質(zhì)量保證的原始的或分析后的語言學(xué)輸出,尤其針對(duì)無法在字典或傳統(tǒng)語料庫中展現(xiàn)的一些新詞或生僻詞。通過從互聯(lián)網(wǎng)頁面抓取檢索表(concordance lines),WebCorp界面提供給用戶很多可自定義的語言研究功能。

(二)iWeb

iWeb語料庫,是由Brigham Young University于2018年發(fā)布,抓取了近9萬5千個(gè)網(wǎng)站的2200多萬的網(wǎng)頁的文本,其庫容有140億詞,是COCA語料庫(5.6億詞)的25倍,是英國國家語料庫BNC(1億詞)的140倍。該語料庫提供了前6萬個(gè)高頻詞的詳覽功能,用戶可聽其發(fā)音,觀看語境視頻和該詞的谷歌相關(guān)圖片,還具有翻譯成其他語種和單詞收藏功能等。此外,用戶輸入關(guān)鍵詞后,iWeb其檢索僅需2-3秒,便可生成一個(gè)“虛擬語料庫”,提供多種有用信息,包括頻次、定義、同義詞、詞網(wǎng)條目、關(guān)聯(lián)話題、搭配詞、詞塊、索引行和相關(guān)網(wǎng)站,該語料庫受到眾多語言學(xué)習(xí)者、教師和研究人員的歡迎。

(三)WaCky

WaCky(The Web-As-Corpus Kool Yinitiative)語料庫由University of Bologn創(chuàng)建和維護(hù),其是基于網(wǎng)絡(luò)文本資源構(gòu)建的幾個(gè)語料庫的集合,包括ukWaC(英語)、deWaC (德語)、itWaC (意大利語)、frWaC (法語),既可提供在線檢索界面,又可以下載完整的語錄庫原生數(shù)據(jù)。其中ukWaC其庫容有20億詞,其只爬取以“.uk”結(jié)尾的英國域名網(wǎng)站,以及將BNC的中頻詞(medium-frequency words)作為“種子”,該語料庫可通過TreeTggger將文本進(jìn)行詞性標(biāo)記(POS-tagging)和詞形還原(lemmatization)。

(四)KWiCFinder

KWiCFinder(Key Word in Context) 在線搜索工具,在1999年的CALICO會(huì)議上正式發(fā)布,其通過一個(gè)單獨(dú)的程序創(chuàng)建研究結(jié)果的緩存副本,該程序需要下載并在桌面上運(yùn)行。通過上文提到的在線工具,可以收集詞表、詞性、搭配的主要信息,以及URL、時(shí)間、文本域的開銷信息,作為語料庫的來源。從這個(gè)角度來看,網(wǎng)絡(luò)不僅是語料庫的“surrogate替代品”,也是語料庫文本的來源。因?yàn)榈谌Z料庫的數(shù)據(jù)不限于印刷文本,而是電子文本,這比印刷文本更容易獲得,以節(jié)省勞動(dòng)力成本和語料庫建設(shè)費(fèi)用。遺憾的是,KWiCFinder目前已經(jīng)不再繼續(xù)維護(hù)和更新了,只能對(duì)其已涵蓋的文本進(jìn)行相應(yīng)研究。

三、網(wǎng)絡(luò)用作語料庫中爬蟲技術(shù)面臨的挑戰(zhàn)

搭建互聯(lián)網(wǎng)用作語料庫(Web as a Corpus)的4個(gè)步驟:

Select the “seed” URLs

Retrieve pages by crawling

Clean up the data

Annotate the data

爬蟲(crawling)是一個(gè)簡單的過程;然而,只有復(fù)雜的程序?qū)崿F(xiàn)才能讓人成功地進(jìn)行大規(guī)模爬網(wǎng)。當(dāng)前爬蟲技術(shù)面臨以下6個(gè)方面挑戰(zhàn):

效率:當(dāng)檢索到更多頁面時(shí),發(fā)現(xiàn)的URL隊(duì)列會(huì)變得非常大。因此,爬蟲程序必須能夠以內(nèi)存高效的方式管理如此大的列表。

重復(fù):爬蟲程序必須確保只將尚未看到的URL添加到列表中。

原則:爬蟲程序必須遵守網(wǎng)站管理員在網(wǎng)站機(jī)器人中指定的指令txt文件。然而,它也應(yīng)該避免在短時(shí)間內(nèi)用數(shù)千個(gè)請(qǐng)求敲打同一個(gè)站點(diǎn),并提供聯(lián)系爬網(wǎng)所有者的簡單方法。

陷阱:爬蟲程序應(yīng)該避免“蜘蛛陷阱”,即試圖阻止它的惡意網(wǎng)站,例如,通過引誘它進(jìn)入一個(gè)循環(huán),它將繼續(xù)下載帶有隨機(jī)文本的動(dòng)態(tài)生成頁面。

定制:爬蟲器應(yīng)該易于定制,并且考慮到大型爬蟲程序可能需要幾周時(shí)間才能完成,因此應(yīng)該可以監(jiān)控正在進(jìn)行的爬蟲,動(dòng)態(tài)更改參數(shù)。

文件處理:考慮到一個(gè)大型爬網(wǎng)將檢索數(shù)百萬個(gè)文檔,爬網(wǎng)程序應(yīng)該以智能的方式處理檢索到的數(shù)據(jù)。

2022年5月,在法國馬賽舉行的第12屆網(wǎng)絡(luò)用作語料庫研討會(huì)上,Barbaresi等WAC詳細(xì)論述了當(dāng)前在擴(kuò)大素描引擎(Sketch Engine)的背景下構(gòu)建網(wǎng)絡(luò)語料庫,網(wǎng)絡(luò)爬取(web crawling)文本信息時(shí)可能面臨的困難和挑戰(zhàn),并對(duì)應(yīng)對(duì)辦法進(jìn)行了討論,主要包括以下幾個(gè)方面:

機(jī)器翻譯普遍存在于網(wǎng)絡(luò),翻譯質(zhì)量較低,尤其是小眾語種的翻譯。

應(yīng)對(duì)方法:采用半自動(dòng)化方法,即讓以該小眾語種為母語的人員檢查語料庫詞庫。

垃圾網(wǎng)站的存在也會(huì)將非自然的和不需要的內(nèi)容帶入到語料庫中,并且這些垃圾網(wǎng)站在與標(biāo)準(zhǔn)的商業(yè)搜索引擎“對(duì)弈”的這些年中,也在不斷地提供自己的文本生成算法,包括使用NLP方法。

應(yīng)對(duì)方法:其實(shí)一個(gè)有經(jīng)驗(yàn)的NLP工程師在幾分鐘內(nèi)就可以甄別出是否是垃圾網(wǎng)站;選擇可信的種子域(seed domains)去爬蟲;語料庫研究者利用搭配(collocations)、正則表達(dá)式(regular expression)等分析工具去甄別出垃圾網(wǎng)站內(nèi)容,并批量剔除掉。

當(dāng)用瀏覽器從網(wǎng)絡(luò)上爬取文本時(shí),一般來說,瀏覽器都對(duì)這些文本進(jìn)行了渲染(rendered)以保證用戶瀏覽的體驗(yàn)感和功能性,但這就會(huì)使得爬蟲處理速度下降。

應(yīng)對(duì)方法:以headless模式運(yùn)行該瀏覽器,這樣文本就會(huì)被以HTML形式展現(xiàn);只要大部分網(wǎng)站不停止為非智能手機(jī)提供文本回退(textual fallback)功能,問題就可以得到解決。

越來越多優(yōu)質(zhì)的報(bào)紙或新聞網(wǎng)站已不再免費(fèi),需要用戶付費(fèi)訂購或給予限量的免費(fèi)閱讀權(quán)限,如果將來這些優(yōu)質(zhì)文本都需要付費(fèi),那互聯(lián)網(wǎng)語料庫的建設(shè)成本將會(huì)大大提高。

應(yīng)對(duì)辦法:只要某一領(lǐng)域的免費(fèi)文本資源依然占據(jù)多數(shù),那就不會(huì)成為大問題。

參考文獻(xiàn):

[1]Baroni M, Bernardini S, Ferraresi A, Zanchetta E. The WaCky Wide Web: A Collection of Very Large Linguistically Processed Web-Crawled Corpora[J]. Language Resources and Evaluation, 2009(3):209-226.

[2]Kilgarriff A, Grefenstette G.Introduction to the special issue on the Web as corpus[J]. Computational Linguistics, 2003(3):333-347.

[3]Wette. The Routledge handbook of applied linguistics [Book Review][J]. New Zealand Studies in Applied Linguistics, 2014(1):62-63.

[4]丁政.互聯(lián)網(wǎng)用作語料庫的原理與實(shí)踐[J].洛陽師范學(xué)院學(xué)報(bào),2008(2):93-95.

猜你喜歡
文本研究
FMS與YBT相關(guān)性的實(shí)證研究
2020年國內(nèi)翻譯研究述評(píng)
遼代千人邑研究述論
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
在808DA上文本顯示的改善
EMA伺服控制系統(tǒng)研究
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
新版C-NCAP側(cè)面碰撞假人損傷研究
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 欧美有码在线| av天堂最新版在线| 色吊丝av中文字幕| 男女性色大片免费网站| 亚洲va在线观看| 国产一级片网址| 老熟妇喷水一区二区三区| 天天摸天天操免费播放小视频| 免费高清a毛片| 亚洲一本大道在线| 国产成人无码AV在线播放动漫| 四虎在线高清无码| 中文字幕调教一区二区视频| 视频二区中文无码| 国产精品一区不卡| 日韩 欧美 小说 综合网 另类| 久久99精品国产麻豆宅宅| 久久美女精品| 日韩精品一区二区三区视频免费看| 91国内在线视频| 久996视频精品免费观看| 亚洲天天更新| 国产成人久久777777| 人妻少妇乱子伦精品无码专区毛片| 国产精品色婷婷在线观看| 成年免费在线观看| 小说区 亚洲 自拍 另类| 91在线一9|永久视频在线| 被公侵犯人妻少妇一区二区三区| 四虎精品黑人视频| 亚洲熟女偷拍| 欧美综合在线观看| 午夜日本永久乱码免费播放片| 亚洲欧美日韩另类在线一| 99精品高清在线播放| 欧美亚洲第一页| 国产91特黄特色A级毛片| 国产成熟女人性满足视频| 久久综合一个色综合网| 中文字幕免费视频| 波多野结衣视频一区二区 | 全免费a级毛片免费看不卡| 日韩天堂在线观看| 亚洲国产天堂在线观看| 成人免费网站在线观看| 国产成人久久综合一区| 91精品国产综合久久不国产大片| 精品伊人久久久久7777人| 国产精品久久自在自2021| 亚洲天堂区| 伦伦影院精品一区| 91在线免费公开视频| 怡春院欧美一区二区三区免费| 国产青榴视频| 国产精品偷伦视频免费观看国产| 亚洲精品亚洲人成在线| 日韩美毛片| 亚洲第一页在线观看| 国产在线观看第二页| 狼友视频一区二区三区| 特级做a爰片毛片免费69| 国产欧美自拍视频| 日本一本在线视频| 国产精品嫩草影院视频| 午夜欧美理论2019理论| 久久精品只有这里有| 欧美黄网站免费观看| 国产视频一区二区在线观看| 99热最新在线| 奇米影视狠狠精品7777| 日韩欧美国产三级| 亚洲美女高潮久久久久久久| 1级黄色毛片| 国产高清自拍视频| 国产91丝袜在线播放动漫 | 中国精品久久| 国产人免费人成免费视频| 中国一级特黄视频| 亚洲AⅤ无码日韩AV无码网站| 熟妇丰满人妻| 国模在线视频一区二区三区| 国产av色站网站|