中文詞頻分布與齊夫定律的漢語適用性初探

2010-12-31 00:00:00何鳳遠

現代語文 2010年10期

摘要：本文試圖通過對漢語語料的詞頻統計與分析，證明齊夫定律的漢語適用性，以期對中文詞頻分布機理的探索有所裨益。

關鍵詞：詞頻齊夫定律漢語適用性

詞語頻次的觀念古已有之，人們也很早就發現了語言中詞語使用頻次的差異。但那時人們對詞語使用頻次特征的把握，仍處于感性階段。19世紀以來，隨著語言學的發展，以及對諸如音素、語素和詞等各種語言單位認識的提高，人們開始有了較為明確的“基本詞匯”的概念。在飛速發展的語言學理論的指導下，出于文學風格和速記研究的需要，人們開始對這些語言成分進行計量分析，統計出這些語言成分在一定的篇章范圍內出現的頻次，試圖總結出這些語言成分的使用頻次的規律，以更好地認識語言以及對語言和文獻進行分析。這些工作中代表性的成果就是各種頻率詞典的出現。

1898年，德國語言學家F.W.Kaeding在5000名速記人員和800名合作者的幫助下，歷時七年，手工統計了以報刊為主要語料來源的資料，所統計的總詞匯量達10，910，777條，而其中頻次在4以上的詞共有79716個，這些統計結果被編纂成了世界上第一部頻率詞典“Haufigkeits Worterbuch der Deutschen Sprache”（《德語頻率詞典》），這也被普遍認為是第一次現代意義上的以統計調查方法完成的詞匯研究工作。

到了20世紀初，美國教育學家兼心理學家E.L.Thorndike先后編寫了Teacher's Word Book of 20，000 Words（《教師二萬詞詞書》）和Teacher's Word Book of 30，000 Words（《教師三萬詞詞書》），對英語的詞匯作了大量的頻率統計工作。

此后各種語言的頻率詞典大量涌現，形式也多種多樣。而隨著不同語言中有關詞頻資料的大量積累，詞語頻次的特征也不斷被揭示，人們開始從理論上思考詞頻差異的現象，并嘗試總結出詞頻現象的規律來。由于頻率詞典實際上就是一種詞表，而其中詞的出現頻次與詞的等級是最基本的兩個數據，規定了一個詞在詞表中的地位和性質，因此人們首先著重研究的就是這兩個基本數據之間的相互關系，以揭示詞的序號的分布規律。艾思杜、貢東、齊夫、朱斯和芒代爾布羅等學者先后對這個問題進行了大量的探索，分別做出了自己的貢獻，并最終確立和完善了齊夫定律。

齊夫定律由哈佛大學教授、著名語言學家和情報學家喬治·金斯利·齊夫（George Kingsye Zipf）于1935年提出和確立。在艾思杜、貢東等人有關詞頻分布規律數學模型的基礎上，他根據其提出的“最省力法則”理論，通過定量化的形式對文獻中詞語出現的頻次進行了統計和分析，揭示了文獻中詞頻分布的機理和規律，是數理語言學和文獻信息計量學中最為基本的經驗定律之一。后來，朱斯和芒代爾布羅又相繼對其進行了修正和完善，使其更加符合語言的現實狀況。

齊夫在前人研究的基礎上，收集了大量統計材料，并進行了系統的分析，發現在任何一篇文章中，詞的出現頻率都服從如下規律：

如果把一篇較長文章（約5，000）中每個詞出現的頻次統計起來，按照高頻詞在前、低頻詞在后的遞減順序排列，并用自然數給這些詞編上等級序號，即頻次最高的詞等級為1，頻次次之的等級為2……頻次最小的詞等級為D（或L）。若用f表示頻次，r表示等級序號，則有：f·r=C，其中C為常數。但這里的常數并不是絕對不變的恒量，而是圍繞一個中心數值上下波動。上式與齊夫以前驗證過的定量形式是一致的，人們亦稱該式為齊夫定律（或稱齊夫第一定律）。

根據文獻中出現的詞頻與等級序號的統計數據，建立f與r的直角坐標系，用橫坐標表示詞的等級序號r，縱坐標表示相應的頻次f，就可以得到一條雙曲線，即齊夫分布曲線。如果等級序號r與頻次f都取對數坐標，則上圖中的圖像就變成一條直線，即齊夫分布對數曲線。這種類型的分布，就叫做齊夫分布。

齊夫定律提出幾十年來，語言學家們通過統計各種自然語言（尤其是印歐語系的語言）的文獻對其進行了驗證，發現均大致符合其提出的定量化規律。但漢語是否適用齊夫定律的問題，并未得到根本解決。本文試圖通過對中文文獻詞頻的統計和分析，來做一些驗證性工作。

一、統計語料、統計手段及分詞原則

本文的統計樣本語料為王蒙的小說《堅硬的稀粥》中的前十八個段落，統計手段為人工分詞，輔以計算機計數。分詞時所依據的原則是：

（一）根據漢語自身的語言特點，以齊夫定律理論為基礎，再參照《現代漢語詞典》條目所列出的詞語形態，以保留詞語語義的完整性為前提。

（二）人名、地名等專有名詞均作為獨立的詞來劃分。

（三）確定詞語等級時，依據并列法，即將同頻詞不論多少均作為一個詞來對待，以其在語料中的詞頻序值為詞語級值。

（四）統計時，標點符號等非漢字書寫符號不計入內。

二、統計數據

此段語料共有4094個書寫符號，其中漢字共有4076個，累計總詞數為2354個，不同詞數為1010個。

表一：齊夫第一定律統計數據表

詞級r頻次f詞級對數lgr頻次對數lgff·rlgf·lgrlgfrlgf+lgr

110702.02938377810702.0293842.029384

2570.3010299961.7558748561140.5285712.0569052.056905

3440.4771212551.6434526761320.7841262.1205742.120574

4420.6020599911.623249291680.9772932.2253092.225309

5350.6989700041.5440680441751.0792572.2430382.243038

6310.778151251.4913616941861.1605052.2695132.269513

7290.845098041.4623979982031.235872.3074962.307496

8260.9030899871.4149733482081.2778482.3180632.318063

9230.9542425091.3617278362071.2994192.315972.31597

101811.2552725051801.2552732.2552732.255273

11171.0413926851.2304489211871.2813812.2718422.271842

12151.0791812461.1760912591801.2692162.2552732.255273

13141.1139433521.1461280361821.2767222.2600712.260071

14131.1461280361.1139433521821.2767222.2600712.260071

15121.1760912591.0791812461801.2692162.2552732.255273

16111.2041199831.0413926851761.2539622.2455132.245513

17101.23044892111701.2304492.2304492.230449

1891.2552725050.9542425091621.1978342.2095152.209515

1981.2787536010.9030899871521.154832.1818442.181844

2071.3010299960.845098041401.0994982.1461282.146128

2161.3222192950.778151251261.0288872.1003712.100371

2251.3424226810.6989700041100.9383132.0413932.041393

2341.3617278360.602059991920.8198421.9637881.963788

2431.3802112420.477121255720.6585281.8573321.857332

2521.3979400090.301029996500.4208221.698971.69897

2611.41497334802601.4149731.414973

（說明：詞級r表示樣本中每個詞的詞語等級，以遞增順序排列；頻率f表示樣本中每個詞的出現頻次，以遞減順序排列。Lgr和Lgf分別為詞級值和頻次值的常用對數。）

下面分別是依據表一的統計數據繪出的齊夫分布曲線和齊夫對數分布曲線：

圖一：齊夫分布曲線圖二：齊夫對數分布曲線

三、統計結果分析

從表一的數據可以看出，除了頻次4以下的低頻詞外，頻次f與詞級r的乘積均比較平穩，基本圍繞著一個常數上下波動，而齊夫分布曲線呈現出較為明顯的雙曲線特征，齊夫對數分布曲線也大致呈現出直線的趨勢，斜率也在45°左右，符合齊夫第一定律的設定，可見，統計結果中的詞頻分布呈現出較為明顯的齊夫分布規律。

參考文獻：

[1]王蒙.堅硬的稀粥[M].北京：人民文學出版社，2003.

[2]葛本儀.現代漢語詞匯學[M].濟南：山東人民出版社，2004.

[3]馮志偉.齊普夫定律的來龍去脈[J].情報科學，1983，（2）.

[4]許文霞.齊普夫定律與中文詞頻分布機理[J].情報科學，1986，（1）.

[5]王崇德，來玲.漢語文集的齊夫分布[J].情報科學，1989，（2）.

（何鳳遠合肥安徽大學中文系 230039）

現代語文2010年10期

現代語文的其它文章: 英漢致使移動構式對比研究; 古漢字的“網絡新生”; 現代漢語中一種主賓同形異指的格式; 文學翻譯中顯化處理及其認知理據; “一個媽媽的女兒”歧義分析; 用實驗語音學的方法確定崇明方言聲調系統