999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語料庫研究的常用方法

2016-11-16 13:47:55孫若紅
關鍵詞:文本語言

孫若紅,劉 巖

(沈陽師范大學 外國語學院,遼寧 沈陽 110034;沈陽工程學院 公共外語教學部,遼寧 沈陽 110136)

語料庫研究的常用方法

孫若紅1,劉 巖2

(沈陽師范大學 外國語學院,遼寧 沈陽 110034;沈陽工程學院 公共外語教學部,遼寧 沈陽 110136)

語料庫語言學中的量化不僅僅是語言特征的簡單計數,而是對復雜的數據進行精確的數學分析,從雜亂的數據中尋找規律,力求比較確切地揭示不同體裁的文本、甚至是不同語言之間真正存在的差異。語料庫相關研究中應用的基本方法主要有詞語索引以及頻數的標準化、卡方檢驗、Z值、T值和M I值計算等常用的統計方法。

詞語索引;頻數的標準化;卡方檢驗;Z值;T值;M I值

語料庫語言研究的主要特點是定量與定性分析相結合,因為語料庫收集了大量的自然語言文本,能夠為定性分析提供客觀的數據支持。但語料庫語言學中的量化不僅僅是語言特征的簡單計數,而是對復雜的數據進行精確的數學分析,從雜亂的數據中尋找規律,力求比較確切地揭示不同體裁的文本、甚至是不同語言之間真正存在的差異,而不是因抽樣導致的偶然現象,這就要用到各種不同的研究方法。因此,本文主要介紹語料庫相關研究中應用的基本方法,如詞語索引以及頻數的標準化、卡方檢驗、Z值、T值和MI值計算等常用的統計方法。

一、詞語索引

詞語索引是最基本的語料庫分析手段,大多數研究都是通過觀察和分析導出的索引行來找出語言規律并對其進行解釋的。那么,常用的語料庫檢索工具有哪些?索引行是如何呈現的?從索引行提供的語言數據中我們能觀察到什么?

(一)常用的語料庫檢索工具

建成語料庫僅僅是完成了語料的收集、整理和加工,基于語料庫的調查研究必須依靠各種檢索工具。目前,我國語料庫研究者應用較多的檢索工具主要有WordSmith Tools和AntConc,當然還有很多功能各異的專用工具或針對專門語料庫設計的檢索軟件。WordSmith是英國利物浦大學語料庫語言學家M.Scott在MicroConcord基礎上重新設計的檢索工具,由英國牛津大學出版社出版。該工具主要有詞表(WordList)、檢索(Concord)和主題詞提取(KeyWord)等三大功能,提供單詞或短語出現的語境和頻率、文本的主題意義等信息,使研究者可以從不同角度分析詞匯的運用。WordSmith受版權保護,如不購買,只能使用功能受到限制的演示版。AntConc則是一款免費軟件,設計者為日本早稻田大學的Laurence Anthony,其功能與WordSmith類似,既支持簡單檢索,也支持利用正則表達式進行的復雜檢索。

(二)索引行及其提供的語言信息

詞語索引是一個被搜索詞語及其所處語境的集合[1]。索引軟件一般以被搜索詞語為中心將索引行顯示在電腦屏幕上,出現在屏幕中間的被搜索詞語稱作節點詞(node word),有時也被稱作關鍵詞(key word)或搜索詞(search word),它們左邊和右邊的詞匯構成了它們所處的語境(見圖1)。索引行能為我們提供關于語言使用的多種信息:如“典型性”“中心性”、近義詞意義的差別以及意義與型式之間的關系等。

圖1 詞語索引行樣本

傳統的語言描述注重區分某種語言中“正確的”和“不正確的”話語,但卻很少關注實際語言運用中哪些話語經常出現,哪些話語極少出現。語料庫雖然不能而且也無法決定哪些話語是“正確的”或“不正確的”,但它能夠提供關于語言使用的“中心性”(centrality)和“典型性”(typicality)方面的信息。所謂典型性是指某個單詞或短語常用的意義、搭配或用法,如recipe for的典型意義是其隱喻意義,而不是字面意義。介詞for后面的詞匯多為名詞或名詞短語,它們的意義既有消極的(如disaster、trouble等),也有積極的(如successful learning、happiness、successful relationship等)或中性的(如game-bird stuffings),而且含有消極意義的名詞或短語略多一些。當recipe for具有隱喻意義時,其前面的詞匯通常是BE和限定詞a。可見,雖然短語recipe for有一系列不同的意義、搭配和語法語境,但它的典型用法是用于“something is a recipe for something bad/good/neutral”這一型式中。

“中心性”是指某一范疇的最常用的用法,而不是單個的詞匯。例如:在英語中,現在進行時表示現在(如he is listening to music at the moment)、未來(如he is leavingfor NewYork tomorrow)或不表示具體的時間(如she is always complaining)。但是,現在進行時表示未來或不表示具體時間的用法相對較少出現,所以指“現在”才是該時態的中心用法。

除了“典型性”和“中心性”等語言規律外,觀察語料庫中近義詞的典型用法可以澄清它們之間意義上的差別。這是詞典無法辦到的,因為詞典是分別定義詞語的,而不是采用對比的方法。例如:詞典對big、large和great三個近義詞的定義是類似的,甚至用其中的一個詞去定義另外兩個詞。雖然這些詞表面看來意義相似,但它們的典型搭配卻在很大程度上存在差異。Biber利用Longman-Lancaster Corpus對上述三個詞右1搭配詞的研究證明了這一點。big常用于表示實際大小,large最常用于表示數量,而great除與deal搭配表示數量外,還表示“強度”、“大小”等更廣泛的意義[2]。

(三)索引行的抽樣

語料庫研究的優勢之一是樣本量大,客觀性強。但是,由于語料庫的規模不斷擴大,我們也面臨著如何處理大量語料的問題。例如:DISCUSSION在BNC中出現的頻數為8 356次,索引行數為8 349行;在COCA中,其出現的頻數和索引行數同為33 945,而逐一分析成千上萬個索引行是不可能實現的。這時,我們需要借鑒Sinclair所倡導的對索引行進行抽樣的方法。首先,任意抽取30個索引行,觀察詞語的使用型式;然后,再抽取30行,觀察是否有新的使用型式出現;以此類推,直到沒有新的型式出現為止。

BNC中DISCUSSION的前30個索引行顯示,緊跟在其后面出現的詞為event,of,with,by,paper;在之后的 30行中,又出現了 on,about,to,that;在61-90行中,除了已出現的部分詞語外,又增加了in,document,whether。仔細分析上述90個索引行,可以總結出下面的規律:當DISCUSSION后面出現名詞時(如event,paper,document),DISCUSSION作定語,限定后面的名詞;DISCUSSION后面的of,on,about介詞短語說明討論的對象;with短語說明討論的參與者;by短語引出的是討論的主體;that和whether引導同位語從句,說明討論的具體內容。另外兩個詞to與in的出現與DISCUSSION無關,to的出現是動詞cut的要求,“cut…to…”表示“縮減到何種程度”,而in則出現在了短語in principle(原則上,基本上)當中。請看圖1中的索引行例證。

以上分析表明,Sinclair提出的索引行抽樣方法是切實可行的。我們可以通過觀察少量的索引行形成初步的假設,之后再增加索引行的數量反復驗證并修正假設,直到最終得出符合語言事實的結論。

二、語料庫的常用統計方法

基于語料庫的對比中介語分析(CIA)主要有兩個研究維度:一是中介語與目的語之間的對比分析,二是中介語之間的對比分析。那么,在進行對比中介語分析時如何將定性與定量分析技術結合起來,以使研究結果更科學、更有說服力呢?

(一)描述統計

語料庫中樣本的存儲方式是非常靈活的,可以把每個文本作為一個獨立的文件存儲,也可以對文本進行分類,把屬于同一類型的文本作為一個文件存儲。因此,對語料庫所做的描述統計是指對其中每個文本、每一類文本或整個語料庫的總體特征的統計。這些特征包括:文件的大小(bytes,字節數)、文件的形符數(tokens,單詞的數量)、類符數(types,不同單詞的數量)、類符形符比(type/token ratio)、平均詞長(average word length)、句子數(sentences)、句長(paragraph length)、句長標準差(standard deviation of sentence length)、段落數(paragraphs)、段落長度(paragraph length)、段落長標準差(standard deviation of paragraph length)以及按字母數計算的單詞數量(如1字母單詞、2字母單詞)等。應用Wordsmith的詞表工具可以進行上述統計分析。

(二)頻數統計的標準化

運用語料庫的方法統計不同文本中某些語言特征的頻率時,確保數據的可比性是非常重要的。例如:DISCUSSION一詞在英國國家語料庫(BNC)中出現的頻數為8 356次,而在美國當代英語語料庫(COCA)中出現的頻數為33 945次。那么,是否可以說DISCUSSION在美國當代英語語料庫中更常用呢?顯然,這樣的結論是錯誤的,因為COCA的容量約為BNC的4.5倍,DISCUSSION出現的機會更多,簡單地比較原始數據無法準確地描述該詞在兩個語料庫中的使用情況。這時,我們可以將原始數據“標準化”,也就是計算DISCUSSION在兩個語料庫中出現的“標準化頻數”,之后就可以比較了。標準化頻數的計算方法為:用檢索項的實際觀察頻數(如8 356、33 945)除以總體頻數(文本或語料庫的總詞數),然后再乘以1百(1千、1萬、百萬)得到檢索項平均每百(千、萬、百萬)詞的出現頻率。

(三)頻數差異檢驗

在基于語料庫的對比中介語分析中還常常需要檢驗數據之間的差異是偶然的,還是具有顯著性。在語料庫語言學中,最常用的方法是卡方檢驗(chi-squared test或x2)。與其他顯著性檢驗相比,卡方檢驗的主要優勢在于它無需假定數據是正態分布的,而多數語言數據也恰恰不服從正態分布[3]。卡方檢驗的主要缺點是:當頻數很小時,它的可靠性很差。所以,在計算卡方值時不能用比例數據,如百分數等。

卡方檢驗比較的是某個語言特征在語料庫中的實際觀察頻數和預期頻數之間的差異。預期頻數與觀察頻數越接近,觀察頻數為偶然結果的可能性越大。相反,預期頻數與觀察頻數之間的差異越大,觀察頻數越可能受到了非偶然因素的影響。

計算卡方值非常方便、實用的工具是梁茂成、李文中、許家金等開發的 Chi-Square Calculator。DISCUSSION在BNC和COCA中分別出現8 356次和33 945次,那么,這兩個頻數之間是否存在顯著差異呢?只要打開上述工具的工作表,分別輸入BNC和COCA的總字數,然后在數據表中輸入DISCUSSION在兩個語料庫中的頻數,就會得到如圖2所示的卡方值及其對應的顯著性水平的p值。

圖2 DISCUSSION在BNC和COCA中出現的頻數比較

圖中的卡方值為70.2619,p值為0.000,說明DISCUSSION在兩個語料庫中出現的頻率具有顯著差異。

(四)Z值、T值和MI值

學習者的心理詞匯不僅僅由單個的詞組成,還包括更大的短語單位。因此,識別語篇中詞語的共現形式和短語對自然語言處理和語言教學具有重要意義。但是,在連續的語篇中,每個詞都是與其他詞一起出現的,如何確認哪些共現的詞語屬于顯著搭配而不是偶然共現呢?最常用的三個計算搭配顯著性的方法是互信息值(MI值)、Z值(Z-score)和T值(T-score)。

在語料庫中,一個詞與另外一個詞的互信息值表明兩個詞關系的緊密程度。換句話說,一個詞只與某個詞共現,而不會出現在其他詞附近時,其互信息值就會非常大。反之,一個詞與另外一個詞共現頻率很高,但與其他詞的共現頻率也很高,其互信息值就會很小。例如:solve與problem的共現頻率高,互信息值也高,但the與problem的共現頻率很高,互信息值卻很低,說明the也以很高的頻率出現在其他詞附近[4]。Hunston提出互信息值大于“3”的搭配詞為顯著搭配詞[5]。在BNC中,與suggestion一詞構成強搭配的部分動詞及其互信息值如下:refutes(9.20)、refuted(7.52)、refute(7.15)、rejects(6.15)、reject(5.11)、rejected(4.82)。這表明refute和reject的各種形式都是suggestion的顯著搭配詞。

圖3 按Z值高低排序的搭配結果

Z值比較的是被研究詞匯(節點詞)周圍一定語境范圍內(例如:節點詞右各5個詞)所有搭配詞的實際出現頻數與它們的期望頻數之間的差距。Z值越高,某一詞匯與節點詞之間的搭配力就越強。研究者通常把Z值定為“2”,也就是說,Z值超過2的搭配詞是有顯著意義的搭配詞。圖3是利用BFSUCollocator提取的LOCNESS語料庫(TheLouvainCorpusofNative EnglishEssays)中that一詞的搭配情況。

從圖中可以看到,Z值較高的that的搭配詞主要是動詞,如argue,agree,assume,admit等,再觀察含節點詞和搭配詞的索引行,我們發現這些動詞都出現在節點詞that的左側,體現了that作為連接詞引出賓語從句這一常見用法。

通過計算互信息值和Z值可以從語料庫中提取“多詞單位”,即我們通常所說的慣用語和多詞名詞短語。互信息值和Z值的另外一個作用是提取語料庫中詞語的一般搭配形式,進而將某一詞語的不同搭配進行分組,以便確定該詞的不同意義。例如:在BNC中,strong的顯著搭配詞主要有winds,swimmer,supporter,ties,resemblance,attachment,correlation和形容詞immensely等,這些詞與strong的共現頻率相對較高,MI值均大于3。powerful的顯著搭配詞主要有lobby,tool,weapon,ally,header,locomotives和形容詞immensely等,它們與powerful的共現頻率和MI值也相對較高。除了形容詞immensely是strong和powerful的共同搭配詞外,其他搭配詞似乎沒有規律可循。盡管如此,上述搭配詞還是體現了strong和powerful的一些細微差別,有助于提高學習者詞語使用的準確性和地道性。

如果說MI值測量的是兩個詞語之間聯系的密切程度,那么T值測量的是詞語搭配的確定性,因為T值計算出的搭配詞以高頻詞為主。T值約定俗成的臨界值為“2”。Z值和T值的差異則體現在以下兩個方面:1.兩者在計算方法上有細小的差異,前者更為簡單。2.Z值用于檢驗小樣本時不夠準確,只適用于大樣本的檢驗;T值即可用于小樣本的檢驗也可用于大樣本的檢驗。但是,在語料庫語言學研究中,個體數量小于30的小樣本非常少見,屬于大樣本。所以,Z值在實際研究中更為常用。

三、結語

MI值、Z值和T值都可用于計算詞語的搭配強度,但它們有各自的優缺點。MI值和Z值容易將低頻詞視作某一詞語的強搭配詞,即偏重低頻詞,而T值有偏重高頻詞的問題。因此,我們很難說哪種搭配統計方法更合理。在實際運用中,應結合研究的需要選擇適當的統計方法,或兼顧不同的統計方法。

[1]Sinclair,J.Corpus,Concordance,Collocation[M]. Oxford:Oxford UniversityPress,1991:32.

[2]Biber,D.et al.Corpus Linguistics[M].北京:外語教學與研究出版社,2000:44-52.

[3]McEnery,T.&A.Wilson.Corpus Linguistics[M]. Edinburgh:Edinburgh UniversityPress,1996:61-84.

[4]衛乃興,李文中,濮建忠.語料庫應用研究[M].上海:上海外語教育出版社,2005:121.

[5]Hunston,S.Corpora in Applied Linguistics[M].北京:世界圖書出版公司北京公司,2006:71.

Methodology of Corpus Research

Sun Ruohong1,Liu Yan2
(1.College ofForeign Languages,ShenyangNormal University,ShenyangLiaoning110034;2.Department ofForeign Languages ShenyangInstitute ofEngineering,ShenyangLiaoning110136)

The quantitative research of corpus linguistics doesn’t mean the simple counting of language characteristics.Rather,it refers to the precise mathematical analysis of data.The purpose of such research is to reveal the differences in language use between different genres oftext or even different languages.The frequentlyused research methods include concordancing and statistical methods like standardized frequency,chi-square test,Z-score,T-score and MI-score.Concordance lines provide a variety of information about language use like“centrality”,“typicality”and the sense differences between synonyms.MI-score,Z-score and T-score are usually used to calculate the strength of collocation,but they have their own advantages and disadvantages.MI-score and Z-score are biased towards low-frequency words,while T-score are biased towards high-frequency words.Therefore,in practice,research needs should be taken into account in the selection of statistical methods,and another way out is to employ different statistical methods.

concordancing;standardizedfrequency;chi-squaretest;Z-score;T-score;MI-score

H 313

A

1674-5450(2016)02-0072-04

2015-10-25

教育部人文社會科學研究規劃基金項目(11YJA740078)

孫若紅,女,天津人,沈陽師范大學教授,主要從事語料庫語言學及英語教學研究。

【責任編輯:趙踐責任校對:詹麗】

猜你喜歡
文本語言
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讓語言描寫搖曳多姿
多向度交往對語言磨蝕的補正之道
累積動態分析下的同聲傳譯語言壓縮
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
我有我語言
主站蜘蛛池模板: 亚洲日韩在线满18点击进入| 国产精品久久久久鬼色| 五月天福利视频| 国产日本欧美亚洲精品视| 在线免费看黄的网站| 狠狠色综合久久狠狠色综合| 国产自在自线午夜精品视频| 中文字幕无码av专区久久| 第九色区aⅴ天堂久久香| 找国产毛片看| 国产精品成人一区二区不卡| 久久综合色88| 欧美精品另类| 91av国产在线| 久久久久九九精品影院| 精品日韩亚洲欧美高清a| 欧美精品在线看| 久爱午夜精品免费视频| 亚洲日韩日本中文在线| 亚洲国语自产一区第二页| 黄色成年视频| 99这里只有精品6| 黄色在线网| 国产午夜人做人免费视频| 国产人成午夜免费看| 玖玖精品在线| 深爱婷婷激情网| 制服丝袜无码每日更新| 国内熟女少妇一线天| 在线观看热码亚洲av每日更新| 国产xx在线观看| 国产高颜值露脸在线观看| 露脸一二三区国语对白| 中文字幕在线永久在线视频2020| 午夜无码一区二区三区在线app| 成人福利在线观看| www.99在线观看| 国产黑丝一区| 国产一级视频在线观看网站| 亚洲性日韩精品一区二区| 色综合久久88| 精品成人一区二区三区电影 | 综合亚洲网| 亚洲日韩AV无码一区二区三区人| 国产成人AV综合久久| 亚洲成人黄色在线观看| 亚洲伊人久久精品影院| 四虎影视无码永久免费观看| 99在线观看视频免费| 波多野结衣无码视频在线观看| 久久9966精品国产免费| 久久精品国产精品国产一区| 亚洲最黄视频| 欧美不卡二区| 国产另类视频| 日韩美毛片| 无码 在线 在线| 久久久受www免费人成| 在线毛片免费| www精品久久| 国产极品美女在线播放| 一级毛片免费的| 午夜日b视频| 日韩欧美中文字幕在线韩免费| h网站在线播放| 国产91精品久久| 国产屁屁影院| 精品91自产拍在线| 又黄又湿又爽的视频| 国产人妖视频一区在线观看| 手机看片1024久久精品你懂的| 91麻豆精品国产91久久久久| 视频二区国产精品职场同事| 午夜少妇精品视频小电影| 毛片久久久| 欧美一区中文字幕| 91在线视频福利| 中文字幕资源站| 又猛又黄又爽无遮挡的视频网站| 中国一级特黄大片在线观看| 91亚洲免费视频| 1769国产精品免费视频|