999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文詞頻分布與齊夫定律的漢語適用性初探

2010-12-31 00:00:00何鳳遠
現代語文 2010年10期

摘 要:本文試圖通過對漢語語料的詞頻統計與分析,證明齊夫定律的漢語適用性,以期對中文詞頻分布機理的探索有所裨益。

關鍵詞:詞頻 齊夫定律 漢語適用性

詞語頻次的觀念古已有之,人們也很早就發現了語言中詞語使用頻次的差異。但那時人們對詞語使用頻次特征的把握,仍處于感性階段。19世紀以來,隨著語言學的發展,以及對諸如音素、語素和詞等各種語言單位認識的提高,人們開始有了較為明確的“基本詞匯”的概念。在飛速發展的語言學理論的指導下,出于文學風格和速記研究的需要,人們開始對這些語言成分進行計量分析,統計出這些語言成分在一定的篇章范圍內出現的頻次,試圖總結出這些語言成分的使用頻次的規律,以更好地認識語言以及對語言和文獻進行分析。這些工作中代表性的成果就是各種頻率詞典的出現。

1898年,德國語言學家F.W.Kaeding在5000名速記人員和800名合作者的幫助下,歷時七年,手工統計了以報刊為主要語料來源的資料,所統計的總詞匯量達10,910,777條,而其中頻次在4以上的詞共有79716個,這些統計結果被編纂成了世界上第一部頻率詞典“Haufigkeits Worterbuch der Deutschen Sprache”(《德語頻率詞典》),這也被普遍認為是第一次現代意義上的以統計調查方法完成的詞匯研究工作。

到了20世紀初,美國教育學家兼心理學家E.L.Thorndike先后編寫了Teacher's Word Book of 20,000 Words(《教師二萬詞詞書》)和Teacher's Word Book of 30,000 Words(《教師三萬詞詞書》),對英語的詞匯作了大量的頻率統計工作。

此后各種語言的頻率詞典大量涌現,形式也多種多樣。而隨著不同語言中有關詞頻資料的大量積累,詞語頻次的特征也不斷被揭示,人們開始從理論上思考詞頻差異的現象,并嘗試總結出詞頻現象的規律來。由于頻率詞典實際上就是一種詞表,而其中詞的出現頻次與詞的等級是最基本的兩個數據,規定了一個詞在詞表中的地位和性質,因此人們首先著重研究的就是這兩個基本數據之間的相互關系,以揭示詞的序號的分布規律。艾思杜、貢東、齊夫、朱斯和芒代爾布羅等學者先后對這個問題進行了大量的探索,分別做出了自己的貢獻,并最終確立和完善了齊夫定律。

齊夫定律由哈佛大學教授、著名語言學家和情報學家喬治·金斯利·齊夫(George Kingsye Zipf)于1935年提出和確立。在艾思杜、貢東等人有關詞頻分布規律數學模型的基礎上,他根據其提出的“最省力法則”理論,通過定量化的形式對文獻中詞語出現的頻次進行了統計和分析,揭示了文獻中詞頻分布的機理和規律,是數理語言學和文獻信息計量學中最為基本的經驗定律之一。后來,朱斯和芒代爾布羅又相繼對其進行了修正和完善,使其更加符合語言的現實狀況。

齊夫在前人研究的基礎上,收集了大量統計材料,并進行了系統的分析,發現在任何一篇文章中,詞的出現頻率都服從如下規律:

如果把一篇較長文章(約5,000)中每個詞出現的頻次統計起來,按照高頻詞在前、低頻詞在后的遞減順序排列,并用自然數給這些詞編上等級序號,即頻次最高的詞等級為1,頻次次之的等級為2……頻次最小的詞等級為D(或L)。若用f表示頻次,r表示等級序號,則有:f·r=C,其中C為常數。但這里的常數并不是絕對不變的恒量,而是圍繞一個中心數值上下波動。上式與齊夫以前驗證過的定量形式是一致的,人們亦稱該式為齊夫定律(或稱齊夫第一定律)。

根據文獻中出現的詞頻與等級序號的統計數據,建立f與r的直角坐標系,用橫坐標表示詞的等級序號r,縱坐標表示相應的頻次f,就可以得到一條雙曲線,即齊夫分布曲線。如果等級序號r與頻次f都取對數坐標,則上圖中的圖像就變成一條直線,即齊夫分布對數曲線。這種類型的分布,就叫做齊夫分布。

齊夫定律提出幾十年來,語言學家們通過統計各種自然語言(尤其是印歐語系的語言)的文獻對其進行了驗證,發現均大致符合其提出的定量化規律。但漢語是否適用齊夫定律的問題,并未得到根本解決。本文試圖通過對中文文獻詞頻的統計和分析,來做一些驗證性工作。

一、統計語料、統計手段及分詞原則

本文的統計樣本語料為王蒙的小說《堅硬的稀粥》中的前十八個段落,統計手段為人工分詞,輔以計算機計數。分詞時所依據的原則是:

(一)根據漢語自身的語言特點,以齊夫定律理論為基礎,再參照《現代漢語詞典》條目所列出的詞語形態,以保留詞語語義的完整性為前提。

(二)人名、地名等專有名詞均作為獨立的詞來劃分。

(三)確定詞語等級時,依據并列法,即將同頻詞不論多少均作為一個詞來對待,以其在語料中的詞頻序值為詞語級值。

(四)統計時,標點符號等非漢字書寫符號不計入內。

二、統計數據

此段語料共有4094個書寫符號,其中漢字共有4076個,累計總詞數為2354個,不同詞數為1010個。

表一:齊夫第一定律統計數據表

詞級r頻次f詞級對數lgr頻次對數lgff·rlgf·lgrlgfrlgf+lgr

110702.02938377810702.0293842.029384

2570.3010299961.7558748561140.5285712.0569052.056905

3440.4771212551.6434526761320.7841262.1205742.120574

4420.6020599911.623249291680.9772932.2253092.225309

5350.6989700041.5440680441751.0792572.2430382.243038

6310.778151251.4913616941861.1605052.2695132.269513

7290.845098041.4623979982031.235872.3074962.307496

8260.9030899871.4149733482081.2778482.3180632.318063

9230.9542425091.3617278362071.2994192.315972.31597

101811.2552725051801.2552732.2552732.255273

11171.0413926851.2304489211871.2813812.2718422.271842

12151.0791812461.1760912591801.2692162.2552732.255273

13141.1139433521.1461280361821.2767222.2600712.260071

14131.1461280361.1139433521821.2767222.2600712.260071

15121.1760912591.0791812461801.2692162.2552732.255273

16111.2041199831.0413926851761.2539622.2455132.245513

17101.23044892111701.2304492.2304492.230449

1891.2552725050.9542425091621.1978342.2095152.209515

1981.2787536010.9030899871521.154832.1818442.181844

2071.3010299960.845098041401.0994982.1461282.146128

2161.3222192950.778151251261.0288872.1003712.100371

2251.3424226810.6989700041100.9383132.0413932.041393

2341.3617278360.602059991920.8198421.9637881.963788

2431.3802112420.477121255720.6585281.8573321.857332

2521.3979400090.301029996500.4208221.698971.69897

2611.41497334802601.4149731.414973

(說明:詞級r表示樣本中每個詞的詞語等級,以遞增順序排列;頻率f表示樣本中每個詞的出現頻次,以遞減順序排列。Lgr和Lgf分別為詞級值和頻次值的常用對數。)

下面分別是依據表一的統計數據繪出的齊夫分布曲線和齊夫對數分布曲線:

圖一:齊夫分布曲線 圖二:齊夫對數分布曲線

三、統計結果分析

從表一的數據可以看出,除了頻次4以下的低頻詞外,頻次f與詞級r的乘積均比較平穩,基本圍繞著一個常數上下波動,而齊夫分布曲線呈現出較為明顯的雙曲線特征,齊夫對數分布曲線也大致呈現出直線的趨勢,斜率也在45°左右,符合齊夫第一定律的設定,可見,統計結果中的詞頻分布呈現出較為明顯的齊夫分布規律。

參考文獻:

[1]王蒙.堅硬的稀粥[M].北京:人民文學出版社,2003.

[2]葛本儀.現代漢語詞匯學[M].濟南:山東人民出版社,2004.

[3]馮志偉.齊普夫定律的來龍去脈[J].情報科學,1983,(2).

[4]許文霞.齊普夫定律與中文詞頻分布機理[J].情報科學,1986,(1).

[5]王崇德,來玲.漢語文集的齊夫分布[J].情報科學,1989,(2).

(何鳳遠 合肥 安徽大學中文系 230039)

主站蜘蛛池模板: 国产美女精品在线| 色综合五月| 免费国产高清精品一区在线| 精品一区二区三区自慰喷水| 91精品国产自产在线老师啪l| 一级毛片高清| 国产毛片不卡| 久久久久国色AV免费观看性色| 亚洲女同欧美在线| 亚洲欧美综合在线观看| 久久福利片| 免费av一区二区三区在线| 暴力调教一区二区三区| 高清无码不卡视频| 日韩视频免费| 2020精品极品国产色在线观看| 久久久久久久久久国产精品| 一区二区三区在线不卡免费| 天堂成人av| 国产幂在线无码精品| 女人18毛片一级毛片在线 | 国产欧美性爱网| 人妻91无码色偷偷色噜噜噜| 在线无码av一区二区三区| 在线无码九区| 四虎永久在线精品影院| 欧美日韩亚洲国产| 偷拍久久网| 四虎精品国产AV二区| 伊人成人在线视频| 5555国产在线观看| 2021国产乱人伦在线播放| 色婷婷狠狠干| 在线观看91香蕉国产免费| 免费无遮挡AV| 国产乱人伦偷精品视频AAA| 国产又爽又黄无遮挡免费观看 | 五月天综合网亚洲综合天堂网| 欧美不卡视频一区发布| 波多野结衣亚洲一区| 国产男人的天堂| 日韩精品无码一级毛片免费| 亚洲视频免| 全部毛片免费看| 4虎影视国产在线观看精品| 亚洲二区视频| 91精品在线视频观看| 91在线激情在线观看| 久久精品亚洲专区| 亚洲二区视频| 亚洲人在线| 国产女人18毛片水真多1| 国产精品久久国产精麻豆99网站| 免费人成黄页在线观看国产| 国产成人精品优优av| 韩日午夜在线资源一区二区| 亚洲男女天堂| 国产成人精品视频一区二区电影 | 日韩欧美视频第一区在线观看| 91青青在线视频| 亚洲午夜综合网| 中国成人在线视频| 欧美精品1区| 亚洲AV人人澡人人双人| 欧美人与性动交a欧美精品| 综合人妻久久一区二区精品| 综合亚洲网| 91热爆在线| 欧美在线三级| 在线无码av一区二区三区| 亚洲综合狠狠| 在线国产欧美| 91啦中文字幕| 九九视频在线免费观看| 久久久久亚洲AV成人人电影软件| 91香蕉视频下载网站| 亚洲第一成年人网站| 国模沟沟一区二区三区| 国产二级毛片| 香蕉视频国产精品人| 婷婷亚洲综合五月天在线| 国产亚卅精品无码|