齊普夫定律對朝鮮語適用性的測定

2017-11-27 08:58:04崔榮一

中文信息學報 2017年5期

關鍵詞：語言

崔榮一,趙雪

(延邊大學計算機科學與技術學院智能信息處理研究室，吉林延吉 133000)

齊普夫定律對朝鮮語適用性的測定

崔榮一,趙雪

(延邊大學計算機科學與技術學院智能信息處理研究室，吉林延吉 133000)

該文目的在于驗證齊普夫定律對朝鮮語的適用性。首先統計了朝鮮語大規模語料中的文字及字母兩種語言單位的頻率分布，然后利用最小二乘法對文字頻率分布曲線進行了擬合，最后計算了文字字頻齊普夫定律的參數估計值。實驗結果表明，朝鮮語的文字和字母的頻率與頻級關系都近似符合齊普夫定律，驗證了齊普夫定律對朝鮮語的適用性，這對朝鮮語的信息處理與研究具有重要的現實意義。

朝鮮語信息處理；齊普夫定律；文字頻率；最小二乘法

1 引言

齊普夫定律是描述詞匯分布規律的重要定律之一，它表達了人們在使用語言進行交流時所遵從的省力法則：講話的人和聽話的人都想達到省力的平衡，說話人只想使用少量的常用詞進行交流，聽話的人希望使用沒有歧義的、形式和意義之間完全一一對應的多樣化的詞來理解。齊普夫定律指出人們使用的語言中存在著少量的高頻詞和大量的低頻詞。

全世界使用朝鮮語(韓語)的人口約有8 000萬人，是使用人數位居世界第12位的語言[1-2]。朝鮮語是中國朝鮮族和朝鮮半島的主要交流語言，在中朝韓三國之間信息傳播和社會、文化、經濟等建設與發展中起著重要的作用。因此，采用科學方法研究朝鮮語語言文字對我國朝鮮族文明的發展及國際間朝鮮語信息交流都具有重要意義。

本文目的在于考察齊普夫定律對朝鮮語的適用性問題。為此收集整理朝鮮語文本語料并統計獲得了文字和字母的分布規律，以此為據考察朝鮮語的字母和文字的分布是否符合齊普夫定律，并通過模型參數計算，驗證齊普夫定律適用于朝鮮語文本的情況。研究齊普夫定律對朝鮮語的適用性，有益于朝鮮文字的技術性研究，對建立基于統計的朝鮮語語言模型、朝鮮文字的輸入輸出、文字識別、發音模式等信息化處理具有重要的現實意義。

本文主要內容及結構安排如下：第二節介紹相關研究工作現狀，第三節介紹齊普夫定律的主要內容，第四節介紹齊普夫定律適用于朝鮮語的實驗，第五節介紹擬合評價策略，最后對相關工作進行總結和展望。

2 相關研究

近年來，許多學者對齊普夫定律對多語種的適用性進行了深入地分析研究。Alexander Gelbukh和Grigori Sidorov以英語和俄語為例，驗證過齊普夫定律對它們的適用性，對39篇文本中的250萬個英文詞匯和200萬個俄語詞匯進行統計分析，計算出齊普夫定律中的α參數值分別為0.970.06和0.890.07[3]。

在中文文本方面，文獻[4]對現代漢語計算語言模型中的語言單位的頻率和頻級關系進行了較為詳細地探討，發現現代漢語中的字、詞、二元對等語言單位的頻率和頻級之間的關系近似遵循齊普夫定律，反映了不同層次的漢語語言單位對齊普夫定律的普遍適應性。文獻[5]在漢字字頻分布方面做了更為細致的研究，并指出使用齊普夫定律描述漢字字頻分布會產生諸如累計頻率部分失真等問題，最后用齊普夫定律描述了漢字字頻分布的尾部，并驗證其屬于較好的擬合情況。

在日文方面，Kip Turner對從利茲大學獲得的日語大規模文本語料進行詞頻統計與分析，得到日語的口語比書面語更符合齊普夫定律的結論[6]。在藏文文本方面，王維蘭統計分析了藏文語言單位頻率和頻級的關系，證實了現代藏文在字丁、音節等語言單位上，其頻率和頻級關系也近似符合于齊普夫定律[7]。在印第安語系方面，B D Jayaram基于印度的涵蓋四種不同內容、不同語言的語料庫，分析研究了文字頻率和頻級分布，通過擬合得出其中三種語言的詞頻符合齊普夫定律的結論[8]。

S W Choi研究了朝鮮語文本中字詞符合齊普夫規律的情況，并與英文和法文情況進行了對比，發現冪指數參數依賴于語種而不依賴于語料類型和規模[9]。此研究工作并未考察朝鮮文字母的統計分布規律，而且語料僅限于韓國文檔，影響了其結果的廣泛性。

3 齊普夫定律

齊普夫定律是20世紀40年代由美國哈佛大學語言學家Zipf發現的，是反映英文單詞詞頻分布的經驗規律，描述了詞頻和詞級間存在的聯系，揭示了語言學中普遍存在的統計規律。根據齊普夫定律，語言中的常用高頻詞數量較少，低頻詞的數量很大。該定律被廣泛地應用于多個領域，如文獻計量學、文本特征選擇、詞典編撰、機器翻譯和關鍵詞抽取等。

對于一個有K個詞組成的總長度為L的語料庫，若將詞語出現的頻率(即詞頻)記作pr，將該詞的詞頻排位(即頻級)記為r，則齊普夫定律可表示為式(1)。

其中C為一個大于零的常數，因此式(1)表明某個詞匯出現的頻率和頻級的乘積。這條定律說明，人們一般偏好比較常用的詞匯，而不是生僻的詞匯。若將pr和r的關系在雙對數坐標系中表示，所繪制出的曲線幾乎為一條直線，并且斜率近似為-1。為了準確求解這一斜率，齊普夫定律還可以推廣為式(2)。

其中α為待定常數，r為頻級：r=1,2,…,n。對式(2)兩邊取對數后整理得到式(3)。

在雙對數坐標系下，α即為直線的斜率，logC是直線在y軸上的截距，如圖1所示。

圖1 齊普夫定律曲線

在不同語種的實驗中，經驗數據表明α≈1。不同語言之間的α表現得十分相似，但并不完全一樣，比如英文文本表現得非常符合，但是中文和其他語種的文本并不嚴格符合。

4 齊普夫定律對朝鮮語的適用性

本文利用網頁爬取技術獲取了兩千萬字規模的朝鮮語文本語料，其中包含韓國和中國的朝鮮語文本，涵蓋的內容包括學術、法律、經濟、體育和文學等領域。在所獲文本語料上統計朝鮮文字和字母的頻率，并分析其分布規律，最后研究了朝鮮文字的頻率和頻級之間的關系，以驗證齊普夫定律對朝鮮語的適用性。

4.1 朝鮮文字分布特征

對整體語料進行文字統計分析，得出以下研究結論。

(1) 高頻區。由頻級為1到20的文字組成，20個文字的累積字頻為27.39 %。根據韓國KSC—5601標準字符集，可以認為現代常用的朝鮮文字有2 350個[9]，因此高頻區數量占整體文字數量的20/2 350?0.85%。可以看出，朝鮮文字的頻率分布極不均勻，常用的朝鮮文字往往是以助詞、前綴、后綴等形式出現的，這是高頻區文字數量小但累計頻率卻相對較高的根本原因。

(2) 中頻區。由頻級為21到320之間的文字組成，累積字頻為35.27 %。高頻部分和中頻部分詞級為1到320之間的累積字頻分布為27.39%+35.27%=62.66%。中頻部分的文字頻率與頻級分布對于整體文字頻率分布來講具有普遍的代表意義。

(3) 低頻區。由所有頻級大于321的文字組成，其累積字頻為38.34%，而占常用文字的(2 350-320)/2 350=86.38%。雖然這部分文字的累積頻率小，但文字數量占整個常用文字的比例卻很大。由此看出，占整體文字數量比例大的文字在語料中出現的次數少，表達含義也十分有限，在宏觀上符合“80-20”原則。

文獻[5]指出，齊普夫定律在描述低頻詞的分布上存在一定的缺陷，所以需對字頻分布曲線的中間部分及對應的中頻區進行擬合，并計算參數的估計值。

4.2 朝鮮語字母分布特征

朝鮮語文字由初聲、中聲、終聲三個類別的字母組成。對朝鮮語語料中的字母按照類別進行統計，并在雙對數坐標系下繪制朝鮮語字母分布曲線，結果如圖2所示。

圖2 朝鮮語初聲、中聲、終聲字母分布曲線

該圖反映了三種不同類別字母的頻率與頻級關系，圖中橫坐標為頻級的對數值，縱坐標為頻率的對數值。不同類別字母之間的頻率與頻級關系存在著一定的差異。根據曲線的走勢可以看出，初聲、中聲、終聲類別字母的頻率與頻級之間呈現負相關關系，即隨著頻級的增加，頻率逐漸減少。該曲線的走勢與齊普夫曲線的走勢大致相同，所以我們推斷朝鮮語字母的頻率、頻級關系近似遵從齊普夫定律。

4.3 朝鮮文字頻率與頻級關系

按照出現頻率由高到底的順序賦予不同文字由小到大遞增的頻級，并在雙對數坐標系下繪制出朝鮮語文字頻率分布曲線如圖3所示。

圖3 文字頻率分布

圖3中，橫坐標為文字頻級的對數值，縱坐標為文字頻率的對數值。可以觀察出頻率與頻級呈現負相關關系，即隨著文字頻級的增大，文字的頻率逐漸降低，這與齊普夫定律對于英文詞頻分布的描述相符合。由此我們推斷，齊普夫定律同樣也適用于朝鮮文字字頻分布。為了驗證我們的推斷，用最小二乘法對文字頻率分布曲線進行擬合，以獲得文字頻率與頻級之間關系的最佳函數擬合，并計算齊普夫定律的參數估計值。

齊普夫分布曲線頭部和尾部一般偏離整個擬合曲線。經過字頻統計發現，字頻分布的中間部分分布更為平穩，對于真實的字頻分布更具有代表性。因此，利用最小二乘法對字頻分布曲線的中部進行擬合，最后獲得齊普夫定律中參數α的估計值。圖4所示是文字頻率分布曲線的分段擬合直線圖，擬合后的直線能夠較好地貼合于字頻分布曲線，說明最小二乘法能夠較好地對字頻分布曲線進行擬合。

圖4 文字頻率分布曲線的分段擬合直線

計算擬合直線的斜率即為齊普夫定律中參數α的估計值，表1是部分實驗數據。

表1 部分實驗數據

在以上十次實驗結果中，參數α的值在1.433 30.09之間。計算整體實驗中的全部數據，得到參數α的平均值約為1.453，參數C值的分布更加類似于某種概率分布，受樣本具體情況的影響，這里不做具體討論。R2為復相關系數，是用以評價擬合優度的統計指標；σ是剩余標準差，即殘差，用來衡量擬合后公式的精確度。

5 擬合策略評價

最小二乘法是一種常用的數據處理方法。從n對觀測數(x1,y1)，(x2,y2)，…，(xn,yn)確定出x與y之間對應關系y=f(x)的一種最佳估計，使得觀測值與估計值之差(即偏差)的平方和最小[10]。該方法能盡量消除偶然誤差的影響，可求出最可靠、最可能出現的結果。

一般情況下，采用復相關系數R2和剩余標準差σ相結合的策略來評價最小二乘法擬合的情況。復相關系數滿足0lt;R2lt;1，R2越接近于1，表明對樣本數據擬合程度越高，擬合越有意義。通常若R2在0.8以上，則認為擬合優度較高。本文中R2是文字頻率與頻級之間的相關關系r的平方。然而，單純利用復相關系數不能說明擬合得到的經驗公式的精確度，需要結合剩余標準差σ 一起評價擬合的程度。

剩余標準差 σ 用來檢測經驗公式的可靠程度，其表現形式為式(4)。

式(4)中S剩表示剩余平方和，f剩表示自由度。剩余標準差σ可以看作自變量固定時，衡量所有隨機因素對因變量一次觀測的平均變差大小。剩余標準差σ 越接近于0，擬合的可靠程度就越高。在實際問題中，σ往往較大。如表1中十次實驗數據，所有的復相關關系R2都大于0.8，且σ的最小值可達0.639，說明擬合效果良好。

6 結論

本文通過統計朝鮮語語料獲得了文字和字母的分布規律，觀察和分析發現朝鮮語字母和文字的頻率-頻級關系都遵從齊普夫定律。本文利用最小二乘法對文字分布曲線進行擬合，計算了齊普夫定律參數α的估計值，采用復相關系數R2和剩余標準差σ綜合評價擬合結果，驗證了齊普夫定律對朝鮮語語種的適用性。

鑒于中、朝、韓三國朝鮮民族使用文字的規范和習慣不完全相同，分別對三國的語料進行分析，揭示朝鮮語在中、朝、韓三國使用的統計特征和差異，是下一步待深入研究的內容。

[1] Ostler N. 語言帝國:世界語言史[M]. 章璐, 梵非, 蔣哲杰,等，譯. 上海：上海人民出版社, 2011: 476.

[2] 樸太秀. 朝鮮民族的語言文字[J].黑龍江民族叢刊,1998(4):99-100.

[3] Gelbukh A, Sidorov G. Zipf and heaps vaws’ coefficients depend on language[C]//International conference on intelligent text processing and computational linguistics, Mexico City, Mexico, 2001: 332-335.

[4] 關毅,王曉龍,張凱. 現代漢語計算語言模型中語言單位的頻度-頻級關系[J].中文信息學報,1999,13(2):8-15.

[5] 游榮彥. Zipf定律與漢字字頻分布[J].中文信息學報,2000,14(3):60-65.

[6] Turner K. Visualizing Zipf’s law in Japanese [EB/OL]. http://classes.soe.ucsc.edu/cmps161/Winter12/projects/katurner/proj/paper/paper.pdf.

[7] 王維蘭. 現代藏語語言單位頻率和頻級關系的統計分析[J]. 科學技術與工程, 2004,4(5):413-417.

[8] Jayaram B D, Vidya M N. Zipf’s law for Indian languages[J]. Journal of Quantitative Linguistics, 2008,15(4):293-315.

[9] Choi S W. Some statistical properties and Zipf’s law in Korean text corpus[J]. Journal of Quantitative Linguistics, 2000, 7(1): 19-30.

[10] 田垅, 劉宗田. 最小二乘法分段直線擬合[J]. 計算機科學, 2012, 39(6):482-483.

崔榮一(1962—)，通信作者，博士，教授，主要研究領域為智能計算、模式識別、機器學習、自然語言處理。

E-mail： cuirongyi@ybu.edu.cn

趙雪(1991—)，工程碩士，主要研究領域為文本信息處理。

E-mail： 383169216@qq.com

OnZipf’sLawinKoreanLanguage

CUI Rongyi, ZHAO Xue

(Intelligent Information Processing Lab., Department of Computer Science and Technology, Yanbian University, Yanji, Jilin 133000, China)

This paper aims to verify the Zipf’s law in Korean language. Firstly, the statistical distribution is investigated for two linguistic units, words and alphabets, on a massive Korean text corpus. Then the least square method is adopted to simulate the curve of rank-frequency distribution of words in Korean text. Finally, the estimation values of the parameter of Zipf’s law is calculated. The experimental results show that the relationship between frequency and rank of both linguistic units falls into the Zipf’s law in Korean language.

information processing of Korean language; Zipf’s law; word frequency; least square method

1003-0077(2017)05-0081-04

TP391

2015-03-16定稿日期2016-04-23

國家語委“十二五”科研規劃項目(YB125-178);吉林省科技發展計劃項目(20140101186JC)