999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

詞頻研究新成果——《當代美語頻率詞典:詞匯素描、搭配和主題詞表》評介*

2013-06-01 08:03:38朱玉彬
辭書研究 2013年4期
關鍵詞:詞匯

朱玉彬

章宜華、雍和明(2007:406)指出:“從語言內容處理上講,當代詞典學需要有認知學、社會學、語言學包括詞匯學、語義學、句法學、語用學以及翻譯學等學科的理論支持;從語言處理的技術上講,需要計算機科學、信息學、統計學以及語料庫的支持。”運用計算機技術進行詞典編纂,是當代詞典學的一個重要特征,而詞頻詞典的編纂更離不開計算機技術的支持。作為勞特里奇(Routledge)系列頻率詞典的一種,美國楊百翰大學(Brigham Young University)語言學和英語語言系Mark Davies教授、Dee Gardner副教授編纂的《當代美語頻率詞典:詞匯素描、搭配和主題詞表》(A Frequency Dictionary of Contemporary American English:Word Sketches,Collocates,and Thematic Lists;以下簡稱《當代美語頻率詞典》)于2010年2月出版[1]。這是一部利用語料庫和自然語言處理技術編纂的,可供美語學習者、英語教師及語言研究者參考的實用工具書。該書展現的5000常用詞的頻率、搭配等語言信息基本反映了當代美語使用的真實情況。

一、主要內容

本詞典的核心部分是詞目索引,即在當代美國英語中最為常用的5000個詞按照不同的分類標準分成三種類型的索引。其中主索引是優化后按照由高到低的頻次順序排列的

5000個詞目詞(詞匯原型,即lemma[2]),每個詞目詞包含信息如下:

詞目序號(1,2,3,…5000) 詞目詞 詞性

搭配詞(按照詞性歸類,每類搭配詞又按照頻率由多到少的順序排列)

原始頻次 |散布指數(0.00—1.00)(語域標記:S—口語,F—小說,M—雜志,N—報紙,A—學術期刊)

例如第2203號詞目:

2203 enable v

noun.student,system.,technology.,program.,teacher,.user,information,.researcher,skill.,software.,.individual,process.,development,.scientist,tool.miscwill.,.us,develop,design.,thus.

15117|0.91 A

在enable這一詞條中,noun表示可在中心詞enable前后各四詞的范圍內,構成搭配同現結構的名詞,其中最常見的搭配同現詞是student;misc表示其他一些詞性的搭配同現詞。這里所有的搭配同現詞也都是詞匯原型,并按照由高到低的出現頻次排列。一些搭配同現詞前后的“.”表示中心詞所在位置,如“.scientist”表示enable scientists。詞條末尾的語域標記(本例為A,即學術期刊語域)不是每一個詞條都有,只有當某一詞匯原型在某一個語域中出現的頻率至少是其在整個語料庫中出現頻率的一半時,才使用相應的一個或幾個語域符號標示出該詞匯原型出現頻率最高的語域。因此,像the,break等通用詞是沒有語域標記的。關于修正詞匯原型原始頻次的散布系數(本例為0.91)將在下一節介紹。

第二個索引是字母順序索引,即按照英文字母表的順序排列這5008個詞目,每個詞目的格式如下:

中心詞 詞性 詞目序號(與主索引的詞目序號一致)

其后的第三個索引是詞性索引,即按照英語的基本詞性(如動詞、名詞、形容詞等)將上述詞目分類,每個詞類中的詞目按照主索引的詞目序號升序排列,即最常見的詞目(詞目序號最小)排在最前面。每個條目的格式如下:

詞目序號(與主索引的詞目序號一致) 中心詞

這三個索引通過詞目序號連成一體,其中主索引所占的頁數將近另外兩個索引總頁數的四倍。

筆者根據該詞典前面的縮略符號(p.ix)將詞典詞目分成三大類,分別統計如下:

實義詞統計表*

功能詞統計表*

語法標記(詞)統計表*

三大類詞匯各自所占比重

此外,《當代美語頻率詞典》前后共收錄了31個主題詞表。其中有關于動物、身體部位、服飾、顏色、情感等的主題詞表15個,每個主題詞表中的詞目按照出現頻次降序排列。如“動物”主題詞表列舉了前80個詞,并在每個詞的右下角給出了該詞在整個語料庫中的原始頻次,前面五個依次為:dogn49897,fishn41277,birdn35610,horsen30042,chickenn23955(p.15)。由于一些表示動物的詞有比喻義,或是一些體育運動隊的吉祥物,它們實際的使用頻次可能會增加,編纂者細心地為這些詞語加了圓括號,如排于該主題詞表中第20位的pig8048等(p.15)。接著是口語、小說、流行雜志、報紙、學術期刊這五種語域的主題詞表5張,然后是11張關于英語語言知識的主題詞表,包括美語新詞、美式英語和英式英語、不規則名詞復數、短語動詞、單詞長度(Zipf定律)等主題詞表,每個詞表基本都按照原始頻次來排列詞目。這些主題詞表是極具價值的英語教學材料。

二、編纂特色

1.語料來源權威

詞頻詞典的質量取決于供計算機抽取詞頻的語料庫的質量。對于一個平衡語料庫來說,容量問題和代表性問題最為關鍵?!懂敶勒Z頻率詞典》的語言信息抽取自當代美語語料庫(Corpus of Contemporary American English,COCA)。該語料庫從1990年開始每年收錄2000萬詞的最新資料,包含超過15萬個文本文件,迄今為止已達4億詞,堪稱全球英語語料庫中的“巨無霸”(參見http:∥www.americancorpus.org)。它比1990年開始籌建的1億詞的美國國家語料庫(American National Corpus,ANC)還要大三倍,且美國國家語料庫目前也只完成了2200萬詞的收錄及詳細標注工作(參見http:∥www.americannationalcorpus.org)。鑒于當代美語語料庫按照年份每年收錄2000萬詞,完全可以將其作為當代美語的監控語料庫。

就語料庫的代表性而言,該詞頻詞典編纂時,當代美語語料庫一共涵蓋了由五個語域構成的五個子庫(pp.3—4):(1)口語子庫包括從150個電視與廣播節目的無腳本對話轉寫的文本,覆蓋全美主要的電視及廣播媒體,共7900萬詞;(2)小說子庫涵蓋從文學雜志、兒童雜志以及流行雜志搜集到的小說及戲劇文本,1990年至今出版的小說的第一版第一章和電影腳本,共7600萬詞;(3)雜志子庫覆蓋全美100多種雜志,按照年份和雜志類別共搜集8100萬詞;(4)報紙子庫包括全美10種主要報紙,按照不同版面分類搜集了7600萬詞;(5)學術期刊語域包括近100本同行評審的學術期刊,覆蓋了美國國會圖書館分類標準的全部代碼,每年抽取一定詞量形成本子庫的文本文件,共7600萬詞。因此,在這樣一個容量巨大(3.88億詞)、抽樣均衡的大型平衡語料庫的基礎上抽取的詞頻信息,是可以充分反映當代美語詞匯的使用情況的。

2.詞目排序科學

本詞典的詞目排序不是簡單地按照詞目的原始頻次降序排列,而是運用了自然語言處理技術中的“散布系數(dispersion index)”來優化原始的詞匯頻次,這就形成了最終排序時采用的數值,其計算公式為“頻次值=原始頻次×散布系數”。因為一些詞目(特別是一些科技術語,如計算機術語cache)可能會較多出現在某一個或幾個語域中,若按照未經修正的原始頻次排序,并不能充分反映語言使用的真實情況,而根據優化后的詞目頻次重新排序,則可以大大減少誤差。

3.搭配信息豐富

自然語言處理領域中,運用信息論中的互信息(Mutual Information,MI)數值來測算兩詞或表達之間的同現關系是從20世紀90年代初開始的。Church&Hanks于1990年提出用“點互信息(Pointwise Mutual Information)”的方法計量單詞或表達式的同現情況。具體而言就是,設定一個語料庫中的兩個單詞w1和w2,P(w1,w2)和freq(w1,w2)表示兩詞同現的概率和頻次,P(w1)和freq(w1)是w1在整個語料庫中單獨出現的概率和頻次,P(w2)和freq(w2)是w2單獨出現的概率和頻次,N是語料庫的總詞數,則單詞w1和w2共現的互信息其實就是兩個詞語共現概率除以兩詞單獨出現概率乘積的對數,公式演算過程如下:

在自然語言處理領域,研究者發現互信息在稀疏數據集上會出現很大問題,即對于那些出現頻次較低的單詞而言,不能達到預期的測試效果(Manning&Schütze 1999/2003:182)。有研究者建議將詞頻的最小值設定為3,即只關注出現頻次在3次以上的兩個詞語之間的互信息,但是這也不能完全解決互信息的一些問題(Manning&Schütze 1999/2003:182)。因為互信息在本質上是“測量兩詞語間互不相關性的一種好方法”(Manning&Schütze 1999/2003:182)。盡管互信息在測量兩個詞語的同現情況方面不是十分理想,但使用互信息的一個顯著優勢是可以提供更多的搭配同現信息。因為“互信息的數值越接近0,則說明兩詞越是獨立出現”(Manning&Schütze 1999/2003:182),即兩詞之間共現的可能性越小;反之,數值越大,則說明這兩個詞語越會在一起出現。具體到實際操作中,《當代美語頻率詞典》的編纂者編寫出一個程序去檢索整個語料庫,然后統計出包括節點詞(node word)及其前后四個詞在內的序列(共計9個詞的檢索行)的總頻次,然后邀請至少四名本族語為美語的使用者進行人工鑒別(p.6)。之后為了獲得更多有效的搭配信息,兩位編者通過初步的抽樣試點計算之后將互信息臨界值設定為2.5(p.6),這樣可以包括更多的同現詞,最后確定錄入本詞典中每個詞目的搭配詞。

4.電子資源配套

特別值得一提的是,本詞典還配備供不同使用者使用的電子版本。電子版在收詞數目、搭配同現詞的數量等方面均與紙質版有所不同。電子介質的詞典又有三種版本:PDF版本、txt文本文件版本和Excel表格版本,且區分了商用和學術研究用的購買價格。該詞典的電子版本最多收錄了2萬個詞目,每個詞目帶有200~300個搭配詞,提供了非常豐富的搭配信息。(參見 http:∥www.wordfrequency.info/purchase.asp)

三、不足之處

《當代美語頻率詞典》也有一些問題:

(1)詞典“縮略符號”一頁提供的詞目加起來一共有5045個(參見本文第一節的最后一張統計表格),這與詞典正文部分收錄的5000個最為常用的詞目在數目上有些差異。在詞典的三個索引中,兼類詞按照詞性單獨列為詞典詞目,并單獨配有相應的詞目序號,所以不可能出現不同詞性的詞同屬一個詞目而造成詞匯數目“縮水”。筆者曾就此發電子郵件咨詢過主編Davies教授。Davies教授指出:《當代美語頻率詞典》的正文是5000條詞目,確實比根據詞典前面的詞類縮略符號一頁提供的數據統計出的結果少了1%左右的詞目,但這不影響整部詞典統計數據的可靠性。筆者推測,這一問題可能是因截取點定在第5000個詞目后,沒有相應地修改“縮略符號”頁上提供的詞目數造成的。

(2)關于“冠詞”類中詞目擴大化的問題,筆者也曾向Davies教授求教。Davies教授指出,在前2萬個詞目中,屬于冠詞范疇的詞目依次為(括號內的數字是根據當代美語語料庫算出的最新詞目序號):the(1),a(5),his(25),their(36),her(42),my(44),your(69),its(78),our(79),no(93),every(172),thy(10226),his/her(12456),yer(19414),并進一步指出其理據來源于蘭開斯特大學開發的CLAW賦碼器的第七版賦碼集(C7 Tagset)(參見http:∥ucrel.lancs.ac.uk/claws)對于此類詞匯的賦碼。筆者查看了C7賦碼集,上述這些詞匯的賦碼為:

這三個詞類的確都是以A開頭的,AT1作為AT的一個相關詞類,包含了a和an這兩個傳統語法界定的“不定冠詞”。但是,將APPGE歸入“冠詞”的做法畢竟有違一般的語法觀念?;谡Z料庫編纂的《朗文英語口語和筆語語法》(Biberet al.1999/2000)用不同術語指稱這些詞:definite article(the),indefinite article(a,an),possessive determiner(his,your)和quantifier(no)。因此,對“冠詞”范疇擴大化的問題還是有必要向讀者做出一些說明的,不然很多讀者會產生疑惑。比如可以從這幾類詞的功能上加以說明,他們都能修飾名詞,并對被修飾的詞加以限制說明。

(3)《當代美語頻率詞典》的數據基礎是詞匯形式的出現頻率,而不是其語義的出現頻率。盡管兩位編纂者根據詞性對搭配詞進行了歸類,但是它們最多只能反映出詞匯語義的粗顆粒度差異,對于詞匯語義的細顆粒度差異,還需要真正基于語義標注的大型平衡語料庫助一臂之力。其實這也是大多數基于形式出現頻率編纂的詞頻詞典的共同缺陷。值得關注的是,現在國際上已有很多研究者正在積極地進行詞匯句法語義標注的理論研究與工程實踐,希望將來研究者可以編纂出實用的語義頻率詞典。

上述問題不過是《當代美語頻率詞典》這塊美玉上的幾個瑕疵。能從一個4億詞(最初編制的主索引是從3.8億詞的語料庫中抽取,參見Davies 2009)的當代美語語料庫中提取如此豐富準確的詞頻信息,單就這一項艱辛的工作來說已實屬不易。黃昌寧和李娟子(2002:172)指出:詞頻統計信息在“決定詞典的收詞,編寫語言教科書和開發自然語言處理系統的機器詞典等諸多方面都有重要的參考價值”。《當代美語頻率詞典》向語言學習者、語言教師及研究者提供了當代美語詞匯使用的實際情況,其應用價值是不言而喻的。希望國內研究者可以充分利用這部詞典的研究成果,并結合在英國國家語料庫基礎上編纂的《英語書面語與口語的詞匯頻率》(Leechet al.2001)一書,在英語教學、英漢詞典編纂與語言研究中取得更多的成果。

附 注

[1]本文直接引證《當代美語頻率詞典:詞匯素描、搭配和主題詞表》的有關內容時,只標出頁碼(如:p.6)。

[2]有研究者將lemma譯為“削尾詞”,這里我們稱為“詞匯原型”。

1.黃昌寧,李娟子.語料庫語言學.北京:商務印書館,2002.

2.章宜華,雍和明.當代詞典學.北京:商務印書館,2007.

3.Biber D.et al.Longman Grammar of Spoken and Written English.Beijing:Foreign Language Teaching and Research Press,1999/2000.

4.Church K W,Hanks P.Word Association Norms,Mutual Information,and Lexicography.Computational Linguistics,1990(1):22—29.

5.Davies M.The 385+Million Word Corpus of Contemporary American English(1990—2008+):Design,Architecture,and Linguistic Insights.International Journal of Corpus Linguistics,2009(2):159—190.

6.Davies M,Gardner D.A Frequency Dictionary of Contemporary American English:Word Sketches,Collocates,and Thematic Lists.London/New York:Routledge,2010.

7.Leech G.et al.Word Frequencies in Written and Spoken English Based on the British National Corpus.London:Longman,2001.

8.Manning C D,Schütze H.Foundations of Statistical Natural Language Processing.Cambridge:The MIT Press,1999/2003.

9.Oakes M P.Statistics for Corpus Linguistics.Edinburgh:Edinburgh University Press,1998.

猜你喜歡
詞匯
2021年本刊一些常用詞匯可直接用縮寫(二)
2021年本刊一些常用詞匯可直接用縮寫(一)
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2017年35期)2017-10-10 02:45:28
一些常用詞匯可直接用縮寫
山東醫藥(2017年33期)2017-10-09 12:31:41
詞匯小達人
一些常用詞匯可直接用縮寫
山東醫藥(2014年48期)2014-12-02 04:34:34
一些常用詞匯可直接用縮寫
山東醫藥(2014年34期)2014-12-02 04:33:52
主站蜘蛛池模板: 亚洲a免费| 亚洲AV无码精品无码久久蜜桃| 天天色天天综合网| 日韩无码视频专区| 无码啪啪精品天堂浪潮av| 试看120秒男女啪啪免费| 国产97视频在线| 2022国产无码在线| 免费观看国产小粉嫩喷水| 91探花国产综合在线精品| 台湾AV国片精品女同性| 日本三区视频| 国产一级小视频| 欧美一道本| 国产免费网址| 久操线在视频在线观看| 国产欧美专区在线观看| 国产美女视频黄a视频全免费网站| 国产区在线看| 浮力影院国产第一页| 亚洲天堂网在线视频| 9966国产精品视频| 一级爆乳无码av| 国产成熟女人性满足视频| 国产一区在线观看无码| 国产精品视频导航| 四虎永久免费网站| 久青草免费视频| 国产成人精品日本亚洲77美色| 国产成人精品一区二区不卡| 国产精品久久自在自线观看| 亚洲精品在线影院| 伊人色综合久久天天| 亚洲人成网7777777国产| 国产av剧情无码精品色午夜| 老司机午夜精品视频你懂的| 国产人成午夜免费看| 国产精品嫩草影院视频| 国产av剧情无码精品色午夜| 精品午夜国产福利观看| 国产视频一区二区在线观看| 午夜视频www| 狠狠色狠狠综合久久| 四虎影视永久在线精品| 亚洲日本中文字幕乱码中文 | 亚洲天堂视频在线观看免费| 国产三级韩国三级理| 久久永久免费人妻精品| 久久99蜜桃精品久久久久小说| 欧美激情福利| 国语少妇高潮| 亚洲视频二| 亚洲人成网址| 激情综合图区| 视频一区亚洲| 久久国产高清视频| 久久情精品国产品免费| 日韩免费中文字幕| 亚洲性色永久网址| 91麻豆久久久| 久久久久亚洲av成人网人人软件| 无码中文AⅤ在线观看| 日韩欧美国产成人| 欧美成人h精品网站| 国产一级毛片网站| 久久精品人人做人人| 污视频日本| 国产人在线成免费视频| 91精品日韩人妻无码久久| 成人精品亚洲| 无码专区第一页| 免费看av在线网站网址| 亚洲A∨无码精品午夜在线观看| 四虎国产成人免费观看| 亚洲国产日韩一区| 日本一本正道综合久久dvd | 国产成人亚洲日韩欧美电影| 99热这里只有精品在线观看| 欧美亚洲国产精品久久蜜芽| 无码内射在线| 亚国产欧美在线人成| 亚洲自偷自拍另类小说|