藏文字同現網絡的小世界效應和無標度特性才

2018-11-16 07:57:44智杰孫茂松才讓卓瑪

中文信息學報 2018年10期

智杰, 孫茂松,才讓卓瑪

(1. 青海師范大學計算機學院藏文信息處理教育部重點實驗室，青海西寧 810008；

0 引言

語言文字是人類智慧和文明的結晶，是經過漫長演化形成的復雜系統[1]。復雜網絡從全局的視角來研究復雜系統，無論網絡的結構有多復雜，其規模有多大，它都采用節點和邊兩大基本要素來研究復雜的網絡系統，復雜網絡已經成為研究復雜性科學與復雜系統的強有力工具。目前，復雜網絡的研究和應用不僅滲透到數學、計算機科學、物理、化學、生物和工程技術等各個學科，而且已經在社會、政治、軍事、醫藥、經濟、管理和語言[2-3]等各個層面、各個領域都得到了廣泛應用。

語言同現網絡是用復雜網絡方法研究語言網絡的特征，不同語言包括不同層級的同現網絡，英語的基本組成單位是詞，因此英語主要包括詞同現網絡、句同現網絡和語義同現網絡；漢語的基本組成單位是字，因此漢語主要包括字同現網絡、詞同現網絡、句同現網絡和語義同現網絡[4]；藏文同現網絡的層級與漢語相同，也包括字同現網絡、詞同現網絡、句同現網絡和語義同現網絡。Sole[5]指出語言的各個層級上都體現了復雜網絡的小世界效應和無標度特性。國內外學者已在字同現網絡、詞同現網絡、詞法網絡、句法網絡和語義網絡等方面開展了相應的研究，證明英語、漢語各層級上的同現網絡都具有復雜網絡的小世界效應和無標度特性，揭示了這些語言的內部結構特征。本文以藏文字為研究對象，通過建立藏文字的同現網絡，驗證其小世界效應和無標度特性，一方面驗證復雜網絡的普適性，另一方面揭示藏文字的內部結構特征。本文結構如下：第1節介紹語言同現網絡的相關研究工作，包括語言同現網絡的構建方法和小世界效應、無標度特性分析；第2節介紹復雜網絡的小世界效應和無標度特性；第3節是藏文字同現網絡的小世界效應和無標度特性分析，包括藏文字同現網絡的構建方法、藏語語料選取及預處理、實驗數據及藏文字同現網絡的小世界效應和無標度性分析；第4節是結論與展望。

1 研究現狀

從語言同現網絡的構建方法來看，采用n階Markov同現模型和相似性同現模型兩種[4,6]。n階Markov同現網構造方法是：在一個句子中，兩個語言單位在n階Markov鏈的條件下存在同現關系，則連接網絡中相應的兩個節點。對語料中的所有句子進行上述處理，便可構造出語言單位的同現網絡。語言工程的實踐表明，n階Markov鏈中的n取2比較合適，因為句子中兩個詞的鄰接同現最常見。雖然也存在一些間隔大于1的相關語言單位對，但如果在模型中考慮此種遠距離關聯，則會引入大量的無關語言對，降低語言同現網絡對真實情況反映的準確性。相似性同現模型是G?rnerup和Karlgren[7]從認識語言普遍性和特殊性考慮，通過語言單位間的相似性而建立的同現網絡模型。在這個模型中，節點是語言單位，語言單位間如果在相似上下文中同現則對應節點被連接。n階Markov同現模型通過上下文的順序制約關系揭示語言單位間的聯系，相似性同現模型通過上下文的相似性制約關系揭示語言單位間的聯系。字同現網絡構建方法主要采用n階Markov同現模型，如文獻[8-9]采用n階Markov同現模型建立了漢字的同現網絡；詞法、句法和語義同現網絡可采用n階Markov同現模型和相似性模型，如文獻[10]采用n階Markov同現模型建立了英語詞的同現網絡，文獻[11]采用n階Markov同現模型建立了漢語詞的同現網絡，文獻[12]采用相似性模型建立了漢語依存句法網絡，文獻[13-15]都采用相似性模型分別建立了英語句法網絡和概念網。

從語言同現網絡特征分析方面來看，Cancho和Sole[13]基于規模為107個詞的英語國家語料庫(BNC)上構造了一個英語詞同現網絡，該網絡表現出小世界效應和無標度特性，它們還根據詞與詞之間的句法結構關系構造了句法網絡[13-14]，也具有復雜網絡的基本特征。Motter和Moura等[15]根據概念間的相似性構建了英語的概念網，該網絡表現出復雜網絡的基本特征。梁偉等[8]基于古代魏晉南北朝、近代以及現代漢語等4個不同時期的散文，建立了字同現網絡，研究發現99.6%的網絡具有無標度特性，95%的網絡具有小世界特性。林楓等[9]以創作于不同歷史時期的《三國志》(文言文)和《三國演義》(半文半白)為語料，構建漢字同現關系網絡，研究發現兩個不同時期的漢字網絡具有相似的統計特征，在整體上都具有小世界性和無標度性。劉知遠、孫茂松等[11-12]建立了漢語詞同現網絡和漢語依存句法網絡，并從復雜網絡的角度分別對這些網絡進行了系統的實驗考察，實驗結果表明漢語詞同現網絡和漢語依存句法網絡都具有復雜網絡的小世界效應和無標度特性。

國內少數民族語言信息處理方面，迄今為止在同現網絡方面的研究未見文獻報道。藏語語言同現網絡層級與漢語類同，包括字同現網絡、詞同現網絡、句法同現網絡及語義同現網絡。藏語語言同現網絡的研究尚未見相關文獻報道[16]。本文通過收集整理藏語語料，構建了97個藏文字同現網絡，通過計算其直徑、平均度、平均最短路徑長度、平均聚類系數及度分布，分析了藏文字同現網絡的小世界效應和無標度特性，實驗表明所有藏文字同現網絡都具有小世界效應和無標度特性。

2 復雜網絡的小世界效應和無標度特性

復雜網絡是具有自組織、自相似、吸引子、小世界、無標度中部分或全部性質的網絡，Erdos和Renyi建立的隨機圖理論(ER模型)是研究復雜網絡結構的基本理論[17]。復雜網絡的定量與定性特征的科學理解已成為網絡時代科學研究中一個極其重要的挑戰性項目[18-19]，雖然人們不斷對ER模型進行擴展以使其更接近真實網絡，但由于大多數實際的復雜網絡并不是隨機連接，因而ER模型作為復雜網絡的模型存在著一定的缺陷，于是人們開始了“小世界”和“無標度”效應的實驗研究[20-21]。

小世界效應是同現網絡的主要統計特性，由平均最短路徑長L和聚類系數C刻畫[8,11]。具有小世界性質的網絡的平均最短路徑會很短，遠小于網絡規模。頂點i的聚類系數Ci描述網絡中與該頂點直接相連的頂點之間的連接關系，即與該頂點直接相鄰的頂點間實際存在的邊數占最大可能存在的邊數的比例，因而聚類系數用于描述一個頂點鄰居之間的相互連接的緊密程度，即網絡的集團化程度，是網絡拓撲的另一個重要參數。如果同現網絡的平均最短路徑L≈Lr，且聚類系數C?Cr，則稱該網絡具有小世界效應。對一個有N個頂點的網絡，在極端情況下，當網絡所有頂點均為孤立頂點時，C=0；當網絡所有頂點為全耦合頂點時，每個頂點與其余N-1個頂點均有連接，C=1。

無標度特性是同現網絡的又一個重要統計特性，由網絡中節點度分布p(k)刻畫節點間的關系。即在一個同現網絡的節點中，大部分節點(Hub點)只和幾個節點連接，而有極少數節點和很多的節點連接，少數的節點往往擁有大量的連接，一般而言它們符合zipf定律(也就是2/8馬太定律)。網絡是靠這幾個Hub節點支撐起來的，它們的狀態對網絡性能有極大影響。p(k)定義為網絡中隨機選取一個節點其度恰好為k的概率，若度分布p(k)滿足冪律分布：p(k)∝k-γ，其中γ為正常數，則稱該網絡具有無標度特性[18]。無標度網絡的無標度性是描述大量復雜系統整體上嚴重不均勻分布的一種內在性質。

3 藏文字同現網絡的小世界效應和無標度特性

3.1 藏文字同現網絡構建方法

圖1 藏文字同現網絡示意圖

3.2 語料選取及預處理

在構建藏文字同現網絡時，我們收集整理了藏文詩歌、散文、政治、佛教、教材和口語等不同體裁的六類具有代表性的藏語語料，每一類語料包括15篇文章。為了便于與漢字同現網絡做比較，除口語類型外其他每篇文章的平均字數控制在1 700～4 950之間[8,22]，口語類型語料的字數有意取得較小(平均字數975)，是為了考察小語料下藏文字同現網絡是否也具有小世界效應和無標度特性。語料體裁、大小及來源見表1。

表1 同現網絡構建用語料分布表

3.3 藏文字同現網絡的小世界效應和無標度特性

3.3.1 實驗數據

為了從多方位考察藏文字的同現網絡特征，我們把語料按不同體裁分成詩歌、散文、政治、佛教、教材和口語等六類，每類選擇了15篇大小基本相同的文章，根據我們確定的藏文字同現網絡構建規則從小語料集、大語料集和全集語料等三個層面分別建立字同現網絡，實驗考察藏文字同現網絡的小世界效應和無標度特性。小語料集指詩歌、散文、政治、佛教、教材和口語等六類不同體裁語料中的每一篇文章，對每一個小語料建立一個字同現網絡，共構建了90個同現網絡；大語料集指每類體裁語料中的15篇小語料合并得到的6種不同體裁的語料，對每一類體裁的語料構建一個字同現網絡，共構建了6個同現網絡；全集語料指所有語料合并得到的整體語料，構建了1個字同現網絡。對建立的97個藏文字同現網絡，統計了所含藏文字個數Length、同現網絡頂點數N、邊數E、直徑D、平均度、平均最短路徑長度L、平均最短路徑長度參照系數Lr、平均聚類系數C、平均聚類系數參照系數Cr和冪律指數γ等統計參數。小語料集上藏文字同現網絡平均統計參數見表2，相應同現網絡的L、C和γ的分布見圖2；大語料集上藏文字同現網絡的統計參數見表3，相應同現網絡的L、C和γ的分布見圖3；全集語料上藏文字的統計參數見表4。為了便于比較藏語與漢語字同現網絡的相關統計參數，表中列出了漢語的字同現網絡的統計參數，表2、表3中漢語字同現網絡的統計參數來自文獻[8]，表4中漢語字同現網絡的統計參數來自文獻[22]。

表2 小語料集上藏文字同現網絡的基本數據(平均值)表

續表

圖2 小語料集上藏文字同現網絡的L、C和γ平均值分布圖

語種類型LengthNEDLLrC/%Cr/%γ藏語詩歌25 8201 3968 102711.607 42.731 22.953 78.273 30.832 11.136 9散文72 0691 81714 476715.934 02.660 42.710 99.165 30.877 41.120 9政治47 0991 37813 128719.053 72.702 82.452 611.875 61.383 71.132 6佛教36 4731 2205 97279.790 22.783 03.115 07.422 10.803 11.159 7教材28 9241 77410 950712.345 02.769 92.769 96.602 70.696 31.186 2口語14 6221 1105 829710.502 72.881 62.981 87.897 00.947 01.182 8均值37 5011 4499 743713.205 52.754 82.830 78.539 30.923 31.153 2漢語均值52 9193 50026 942915.423 62.959 12.986 418.575 60.444 61.452 7

圖3 大語料集上藏文字同現網絡的L、C和γ值分布圖

語種LengthNEDLLrC/%Cr/%γ藏語225 0433 19441 943726.263 62.564 42.469 011.539 80.822 51.086 4漢語415 9684 52096 512842.700 02.490 02.240 038.070 00.950 01.190 0

3.3.2 藏文字同現網絡的小世界效應

以上實驗數據體現了藏文字同現網絡的以下特征：

(1) 在藏文字同現網絡的統計參數中除平均度外，其他統計參數比較穩定，只是隨語料大小的變化有小的波動，并不隨語料大小的變化而有較大的變化，說明選取語料規模的大小對藏文字同現網絡的統計參數沒有太大的影響。

(2) 從直徑D和平均度的分布情況來看，在小語料集和大語料集上，藏語的直徑比漢語的小，平均度比漢語的大；在全集語料上，藏語的直徑、平均度與漢語的基本相同。說明語料規模比較小時藏文字與字之間的間隔比漢字的小，字之間的關聯度比漢字強。隨著語料規模的增加，藏語和漢語的直徑和平均度基本相同，字之間的間隔趨于穩定。

(3) 97個藏文字同現網絡都具有小的平均最短路徑L，且L≈Lr。散文類的平均最短路徑長度最小，口語類的平均最短路徑長度最大，說明對任意給定的兩個藏文字，在平均意義下連接這兩個藏文字所經過的路徑上的字數散文類最少，口語類最多，反映了散文類用字比較集中，而口語類用字較分散。在小語料集上藏文字同現網絡的平均最短路徑長度小于漢語的平均最短路徑長度，但隨著語料字數的增加，藏語和漢語的平均最短路徑長度基本相同，說明字數較少時藏語的用字比漢語的用字集中，但字數達到一定規模時藏語和漢語的用字集中程度基本相同。

(4) 97個藏文字同現網絡的C?Cr，散文和政治類的聚類系數C最大，教材類的聚類系數C最小，說明散文和政治類中字的相互連接程度最緊密，教材類用字較松散。語料規模相當時，藏文字同現網絡的聚類系數比漢字的大，說明藏文字間的集團化程度比漢字的大。

由以上分析可知，在小語料集、大語料集和全集語料上藏文字同現網絡都表現出了小世界效應，而且表明藏文用字較為集中，兩個藏文字間最多間隔7個字，字間聯系較為緊密，字間的集團化程度明顯。

3.3.3 藏文字同現網絡的無標度特性

我們分析了構建的97個藏文字同現網絡的度分布情況，與其他語言網絡的度分布類似，網絡中Hub節點擁有極其多的連接，而大多數節點只有很少的連接，Hub點對無標度網絡的運行起著主導作用，呈現“胖尾”現象。說明藏文字同現網絡的度分布服從冪律分布，顯示了無標度特性。雙對數坐標下各類大語料和全集語料的字同現網絡度的分布見圖4。

圖4 雙對數坐標下各類大語料集及全集語料的度分布圖

一般而言，冪律指數γ在(2,3]時此網絡具有優先鏈接機制，在(1,2]時除了優先鏈接機制外可能存在其他鏈接機制。由實驗數據可見我們建立的97個藏文字同現網絡的冪律指數基本相同(與語料的大小幾乎無關系)，冪律指數γ∈(1,2]，比漢字的冪律指數小，是一類冪律指數在1～2之間的無標度網絡，與文獻[24-25]的理論相吻合，也說明這些網絡除優先鏈接機制外還有其他的鏈接機制。經分析網絡的演化模型，發現這些網絡除了具有優先鏈接機制外，還與藏文中不自由虛詞的添加受其前導字的后加字制約有關，這種現象符合藏文字的實際應用情況，也更好地揭示了藏文字間的搭配不僅與同現度有關，而且受前導字的后加字影響。為此我們在每類語料中選了一篇文章，過濾其中的不自由虛詞，用同樣的方法建立字同現網絡，觀察了其冪律指數的變化情況，實驗表明其冪律指數有了明顯的增加，其γ∈(1.5,2.4]，實驗結果與理論分析相吻合。

4 結論與展望

為了揭示藏語字同現網絡的小世界效應和無標度特性，對藏語中具有代表性的詩歌、散文、政治、佛教、教材和口語等六大類體裁共90篇文章，建立了97個藏文字同現網絡，并研究了它們的統計特征，實驗數據表明所有藏文字同現網絡都具有小世界效應和無標度特征。

從整體來看，建立的字同現網絡中，語料規模相當的情況下，藏文字同現網絡的直徑和平均最短路徑長度比漢字的小，平均度和聚類系數比漢字的大，說明藏文字之間的關聯度比漢字的強，用字也較為集中，集團化程度也比較明顯。構建的97個藏文字同現網絡中Hub點的節點擁有極其多的連接，而大多數節點只有很少量的連接，度分布呈現“胖尾”現象，說明藏文字同現網絡的度分布服從冪律分布，冪律指數基本相同，γ∈(1,2]是一類冪律指數在1～2之間的無標度網絡。藏文字的同現網絡不僅具有優先鏈接機制，還與不自由虛詞的添加受其前導字的后加字制約有關。

總之，本文所建立的藏文字同現網絡較好地反映了藏文字的同現特征，較全面地揭示了藏文字的統計特性。今后將在該研究成果的基礎上進一步研究藏文詞同現網絡統計特征，從同現網絡角度分析藏文詞的統計特性。