999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Perl & R在語(yǔ)料庫(kù)語(yǔ)言學(xué)中的應(yīng)用

2018-02-01 10:48:49劉磊朱敏
軟件導(dǎo)刊 2018年1期
關(guān)鍵詞:語(yǔ)義詞匯文本

劉磊+朱敏

摘要:

語(yǔ)料庫(kù)語(yǔ)言學(xué)需要從大規(guī)模文本提取語(yǔ)言特征,通過量化分析研究語(yǔ)言規(guī)律。現(xiàn)有語(yǔ)料庫(kù)工具過于注重索引和檢索功能,無法開展涉及復(fù)雜統(tǒng)計(jì)的多因素分析。通過3個(gè)基于語(yǔ)料庫(kù)的研究實(shí)例,探討編程語(yǔ)言Perl和R在研究方法層面的應(yīng)用。結(jié)果表明,Perl和R能夠處理大規(guī)模文本,進(jìn)行多變量統(tǒng)計(jì)與可視化分析,可以彌補(bǔ)現(xiàn)有語(yǔ)料庫(kù)軟件的不足,幫助研究者分析數(shù)據(jù)與驗(yàn)證假設(shè),為后續(xù)定性研究奠定基礎(chǔ)。

關(guān)鍵詞:

語(yǔ)料庫(kù)語(yǔ)言學(xué);語(yǔ)料庫(kù)工具;Perl;R

DOIDOI:10.11907/rjdk.172822

中圖分類號(hào):TP312

文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2018)001005303

Abstract:Corpus linguistics aims to find language patterns based on linguistic features extracted from largescale texts. However, current corpus tools are dedicated to developing concordance and search functions while lack of functions to perform multivariate statistical analysis. This paper illustrates with three case studies how programming languages such as Perl & R can be used in corpusbased linguistic studies. It is found that Perl can extract linguistic features from texts and organize them in formats that are amenable to statistical analysis in R. When combined, these two kinds of software can help researchers explore the linguistic data and validate search hypothesis in a more flexible way and complement the functions of readymade corpus tools.

Key Words:corpus linguistics; corpus tools; Perl; R

0引言

基于語(yǔ)料庫(kù)的語(yǔ)言學(xué)研究需要借助工具處理大量文本文件,提取其中的語(yǔ)言特征進(jìn)行統(tǒng)計(jì)分析。目前,語(yǔ)料庫(kù)工具已由第一代單機(jī)版進(jìn)化到第四代網(wǎng)絡(luò)版,界面更加友好,運(yùn)行速度更快,可以幫助研究者開展基于詞表、搭配和主題詞等功能的研究[12]。但現(xiàn)有工具過于注重檢索和索引功能,無法處理涉及復(fù)雜數(shù)據(jù)的多變量統(tǒng)計(jì)問題,研究者仍需編寫程序滿足特定的研究需求。本文探討如何用編程語(yǔ)言Perl和R解決現(xiàn)有工具面臨的技術(shù)問題,幫助研究者開展基于語(yǔ)料庫(kù)的量化實(shí)證研究。

1Perl & R簡(jiǎn)介

Perl的模式匹配功能強(qiáng)大,擅長(zhǎng)從大規(guī)模語(yǔ)料中提取各種詞匯和語(yǔ)法特征[3];R支持描述性、推論性和探索性統(tǒng)計(jì)以及數(shù)據(jù)可視化分析,在基于用法的語(yǔ)言學(xué)(usagebased linguistics)研究中應(yīng)用廣泛[4]。使用Perl & R開展量化研究涉及以下3個(gè)步驟:①建立子語(yǔ)料庫(kù)。語(yǔ)料庫(kù)通常包括豐富的元信息,如國(guó)別、區(qū)域、年代和文本類型等。Perl可以根據(jù)元信息從大型通用語(yǔ)料庫(kù)提取文本,構(gòu)建面向特定研究問題的子語(yǔ)料庫(kù);②檢索語(yǔ)言特征。Perl可以從經(jīng)過詞性或句法標(biāo)注的語(yǔ)料中提取詞匯語(yǔ)法特征,構(gòu)建特征矩陣;③進(jìn)行統(tǒng)計(jì)分析。用R處理步驟②得到的矩陣,分析特征變量間的關(guān)系,并以可視化方式呈現(xiàn)結(jié)果。

本文通過3個(gè)案例說明如何結(jié)合Perl和R開展基于語(yǔ)料庫(kù)的語(yǔ)言學(xué)研究。

2案例分析

2.1短語(yǔ)框架

在語(yǔ)料庫(kù)語(yǔ)言學(xué)中,短語(yǔ)框架是指由兩個(gè)以上詞語(yǔ)構(gòu)成,反復(fù)出現(xiàn)的連續(xù)或非連續(xù)詞語(yǔ)組合[5]。Sinclair[6]將語(yǔ)言中的短語(yǔ)化傾向稱為習(xí)語(yǔ)原則,是意義研究的基本單位。短語(yǔ)并不是完全固定的,在具體語(yǔ)境中,其內(nèi)部會(huì)產(chǎn)生變化,例如4詞短語(yǔ)框架“as * as the”中的 “*” 可由不同單詞替換,如“as well as the”、“as far as the”和“as soon as the”等。

本案例考察BNC語(yǔ)料庫(kù)國(guó)際事務(wù)類文本中3~6詞短語(yǔ)框架的分布情況,只考慮框架內(nèi)部的位置變化,一個(gè)n詞短語(yǔ)框架包含n-2種類型,例如5詞短語(yǔ)框架包括以下3種類型:A * C D E、A B * D E和A B C * E。具體研究步驟如下:①?gòu)腂NC語(yǔ)料庫(kù)選取有關(guān)世界事務(wù)的文本61篇,共2 325 465詞;②提取子語(yǔ)料庫(kù)中的連續(xù)n詞序列,統(tǒng)計(jì)其頻率和覆蓋率。有些序列的頻率雖高但覆蓋率低,如“the labour league of youth”共出現(xiàn)18次,但只出現(xiàn)在1個(gè)文本中。本研究關(guān)注反映語(yǔ)體一般屬性的n詞序列,將覆蓋率的值設(shè)定為大于等于5,排除類似上例話題性較強(qiáng)的專有名詞;③從連續(xù)多詞序列中提取多詞短語(yǔ)框架,統(tǒng)計(jì)其形符和類符頻率以及各框架槽位中的詞匯分布。

如表1所示,短語(yǔ)框架的類符數(shù)差異較大,如“in the * of the”的種類最多,而“by * end of the”只有一種類型“by the end of the”。進(jìn)一步分析后發(fā)現(xiàn),“in the * of the”槽位中的詞匯類型可分為以下3類:事件內(nèi)容(如“in the hands of the”)、事件時(shí)間或地點(diǎn)(如“in the middle of the”、“in the center of the”)和事件敘述方式(如“in the case of the”)。本案例的統(tǒng)計(jì)數(shù)據(jù)只反映了短語(yǔ)框架的總體分布趨勢(shì),研究者還需借助索引行觀察短語(yǔ)的具體語(yǔ)境,分析其意義和功能。endprint

2.2語(yǔ)體變異

語(yǔ)體變異源于變異社會(huì)語(yǔ)言學(xué),指語(yǔ)言隨時(shí)間、地域、場(chǎng)合以及使用者年齡、性別和社會(huì)階層不同而變化的現(xiàn)象。本案例研究英語(yǔ)情態(tài)動(dòng)詞“can”的后續(xù)實(shí)義動(dòng)詞語(yǔ)態(tài)在小說、新聞、通用和學(xué)術(shù)語(yǔ)體中的變化趨勢(shì),所用語(yǔ)料來自CRWON和CLOB語(yǔ)料庫(kù),共2 029 895詞。本研究用Perl提取與“can”共現(xiàn)的實(shí)義動(dòng)詞,然后使用R的對(duì)數(shù)線性模型分析動(dòng)詞語(yǔ)態(tài)在各語(yǔ)體中的分布是否存在顯著差異,得到表2所示的統(tǒng)計(jì)結(jié)果。

由表2可知,“can + 動(dòng)詞”結(jié)構(gòu)的語(yǔ)態(tài)(Voice)與文本類型(Genre)顯著相關(guān)。具體來說,與小說相比,新聞、通用和學(xué)術(shù)文體中動(dòng)詞被動(dòng)與主動(dòng)語(yǔ)氣的比值分別上升了3.8、5.3和12.6倍,計(jì)算方法如式(1)所示。其中OD為比值比(odds ratio),本例中代表各語(yǔ)體被動(dòng)與主動(dòng)語(yǔ)氣的比值,e≈2.718,estimate為表2 參數(shù)估計(jì)列的值[7]。

小說文本常用“can+主動(dòng)語(yǔ)氣”表明說話人的意愿,如“I know that I dont look old enough to handle this job but I assure you I can do it”;而學(xué)術(shù)文體在用can表達(dá)某一命題的可能性時(shí),經(jīng)常要隱藏事件的實(shí)施者,減少個(gè)人觀點(diǎn)的表達(dá),如“The actant analysis is a device that can theoretically be used to analyse any real or thematised action”。本案例說明除了對(duì)比不同語(yǔ)料間的詞頻差異外,語(yǔ)料庫(kù)語(yǔ)言學(xué)研究還可擴(kuò)展到語(yǔ)法層面,利用Perl和R提取語(yǔ)法結(jié)構(gòu),分析詞匯與語(yǔ)法間的相互關(guān)系。

2.3詞匯語(yǔ)義

基于語(yǔ)料庫(kù)的詞匯語(yǔ)義研究與搭配密切相關(guān),與中心詞共現(xiàn)的搭配詞可以反映該詞的語(yǔ)義特征,出現(xiàn)在相似語(yǔ)境的詞匯意義也相似[8]。表3說明了如何利用搭配詞分析中心詞“apricot”、“pineapple”、“digital”和“information”之間的語(yǔ)義關(guān)系,表中數(shù)字代表中心詞與搭配詞的共現(xiàn)頻率,用于構(gòu)建描述詞匯的特征向量[9],如f apricot = [01001101],f digital = [00111010]。

得到特征向量后,可根據(jù)式(2)計(jì)算向量間的歐幾里德距離,建立詞匯距離矩陣,然后使用聚類算法分析詞匯的意義聯(lián)系,從定量的角度驗(yàn)證人們對(duì)語(yǔ)言的直覺認(rèn)識(shí)。

本案例聚焦程度副詞“fairly”、“fucking”、“pretty”、“really”、“so”和“very”之間的語(yǔ)義關(guān)系。研究數(shù)據(jù)從BNC口語(yǔ)語(yǔ)料選取,共153篇,4 219 309詞。具體步驟如下:從語(yǔ)料提取上述6個(gè)強(qiáng)調(diào)詞所修飾的形容詞,然后按表3格式輸出搭配詞的種類和頻數(shù),最后用R進(jìn)行聚類分析。結(jié)果如圖1所示,其中縱軸為詞匯間的語(yǔ)義距離,如“very”與“really”之間距離最小,語(yǔ)義最接近。

圖1強(qiáng)調(diào)詞聚類

進(jìn)一步觀察發(fā)現(xiàn),“very”和“really”的高頻搭配詞都是“good”和“nice”,兩者合計(jì)占到各自搭配詞總數(shù)的29.6%和27.6%;低頻搭配詞如“small”和“expensive”的比例也相似,均為0.1%左右,因此兩者語(yǔ)義關(guān)系最近。另外,“so”的常見搭配是“funny”(6.5%)和“bad”(5.5%);“fairly”的高頻搭配是“easy”(5.5%)和“good”(4.8%),雖然被歸為一類,但由于距離較大,兩者意義還是相差較遠(yuǎn)。聚類分析為研究詞匯語(yǔ)義關(guān)系提供了新的視角,但也有其局限性。如“fucking”和“pretty”兩詞因?yàn)榇钆湓~相似,在層級(jí)圖上距離接近,但兩詞的使用可能與使用者性別有關(guān),需要考慮更多變量加以區(qū)分。

3結(jié)語(yǔ)

從以上案例可以看出,Perl可以快速?gòu)拇笠?guī)模語(yǔ)料提取各種語(yǔ)言特征及其頻率,構(gòu)建詞-詞或詞-文本共現(xiàn)矩陣,R擅長(zhǎng)矩陣處理和統(tǒng)計(jì)分析。兩者結(jié)合可以幫助研究者分析數(shù)據(jù),初步形成研究假設(shè),為后續(xù)定性研究奠定基礎(chǔ)。需要注意的是,工具是研究的“利器”,但研究者還需學(xué)習(xí)語(yǔ)言學(xué)理論,專注語(yǔ)言層面的分析,擴(kuò)展研究思路和視角。

參考文獻(xiàn):

[1]梁茂成.梁茂成談?wù)Z料庫(kù)語(yǔ)言學(xué)與計(jì)算機(jī)技術(shù)[J].語(yǔ)料庫(kù)語(yǔ)言學(xué),2015(2):1525.

[2]許家金,吳良平.基于網(wǎng)絡(luò)的第四代語(yǔ)料庫(kù)分析工具CQPWeb及應(yīng)用實(shí)例[J].外語(yǔ)電化教學(xué),2014(5):1015.

[3]NUGUES P M. Language processing with perl and prolog,second edition[M].Berlin:Springer,2014.

[4]LEVSHINA N. How to do linguistics with R[M].Amsterdam:John Benjamins,2015.

[5]RMER U. Establishing the phraseological profile of a text type:the construction of meaning in academic book reviews[J]. English Text Construction,2010,3(1):95119.

[6]SINCLAIR J. Trust the text: language, corpus and discourse[M].London:Routledge,2004.

[7]AGRESTI A. An introduction to categorical data analysis,second edition[M].Hoboken,NJ:Wiley,2007.

[8]梁茂成.語(yǔ)料庫(kù)語(yǔ)言學(xué)研究的兩種范式:淵源、分析及前景[J].外語(yǔ)教學(xué)與研究,2012,44(3):323335.

[9]JURAFSKY D,MARTIN J H. Speech and language processing:an introduction to natural language processing[M]. Upper Saddle River,NJ:Prentice Hall,2009.

(責(zé)任編輯:何麗)endprint

猜你喜歡
語(yǔ)義詞匯文本
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
語(yǔ)言與語(yǔ)義
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語(yǔ)義模糊
如何快速走進(jìn)文本
主站蜘蛛池模板: 国产区人妖精品人妖精品视频| 亚洲国产在一区二区三区| 亚洲成人动漫在线观看| 欧美午夜视频在线| 色偷偷av男人的天堂不卡| 国产精品19p| 成人a免费α片在线视频网站| 国产欧美在线观看视频| 国产成人免费手机在线观看视频| 在线播放精品一区二区啪视频| 中文字幕 日韩 欧美| 国产精品亚洲а∨天堂免下载| 亚洲天堂精品在线观看| 欧美视频二区| 波多野结衣一二三| 免费一级毛片不卡在线播放 | 中文字幕亚洲专区第19页| 99精品伊人久久久大香线蕉| 国产精品久久久久久久伊一| 在线播放国产99re| 亚洲欧美自拍中文| 天天摸夜夜操| 国产真实二区一区在线亚洲| 欧美人与牲动交a欧美精品| 欧美日韩午夜| 亚洲日本中文综合在线| 国产特级毛片| 91美女在线| 国产男女XX00免费观看| 免费看黄片一区二区三区| 在线观看免费人成视频色快速| 国产成人免费视频精品一区二区| 找国产毛片看| 成人福利在线观看| 日韩欧美高清视频| 国产精品一区在线麻豆| 无码'专区第一页| 亚洲精品无码久久久久苍井空| 国产日韩欧美视频| 亚洲Av激情网五月天| 国产欧美日韩综合一区在线播放| 一本一道波多野结衣av黑人在线| 色综合网址| 99精品热视频这里只有精品7| 香蕉久久国产超碰青草| 国产激情第一页| 亚洲成人免费看| 91精品aⅴ无码中文字字幕蜜桃| 欧美成人综合视频| 99久久国产自偷自偷免费一区| 国产AV毛片| 国产成人福利在线视老湿机| 国产成人综合久久精品尤物| 亚洲an第二区国产精品| 日日噜噜夜夜狠狠视频| 日本人妻丰满熟妇区| 欧美一级特黄aaaaaa在线看片| 色135综合网| 91久久国产综合精品女同我| 色婷婷在线影院| 色天堂无毒不卡| 国产一区二区三区夜色| 欧美中文字幕第一页线路一| 香蕉色综合| 无码粉嫩虎白一线天在线观看| 欧美精品成人| 亚洲无限乱码| 日韩精品中文字幕一区三区| 色AV色 综合网站| 香蕉久久国产精品免| 又猛又黄又爽无遮挡的视频网站| 91在线视频福利| 久久久久久国产精品mv| 亚洲国产精品一区二区第一页免| 国产人人干| 成人精品午夜福利在线播放| 中文字幕在线一区二区在线| 国产91av在线| 毛片免费视频| 久热中文字幕在线| 老司机精品一区在线视频 | 日本国产一区在线观看|