用語圖分析揭示語言系統中的隱性規律
——贏家通吃和贏多輸少算法

2015-04-21 10:52:08陳振寧陳振宇

中文信息學報 2015年5期

陳振寧，陳振宇

(1.浙江大學人文學院，浙江杭州 310058；2.復旦大學中日語言文學系，上海 200433)

陳振寧1，陳振宇2

(1.浙江大學人文學院，浙江杭州 310058；2.復旦大學中日語言文學系，上海 200433)

該文用“圖”這一數學工具，通過定量分析來揭示語言系統中的隱性規律，設計了“贏家通吃”和“贏多輸少”兩種生成算法，將理想算法“步步競爭、擇優而行”的博弈論思路貫徹到非理想狀態。兩種新算法都較前人有更好的概括能力。贏多輸少算法更兼顧了充分概括和適度概括均衡。生成語圖后，該設計著重準確率的最小簡圖和著重覆蓋率的最大簡圖歸納算法，挖掘控制的主流規則、分析語言系統的語言學規律。在最小簡圖基礎上提出控制度公式以評價語言系統。

隱性規律;圖論;博弈論;規則挖掘

1 引論

類型學在跨語言比較研究中引入語義地圖(Semantic Maps)理論，它以基元(即所調查的語言項目)為“點(node)”，根據這些基元項的共現“關系(relationship)”連接成“邊(edge)”，生成一個“圖(graph)”。然后用這一地圖去挖掘各項目間的規律。[1-3]這種地圖其實就是“圖論(graph theory)”研究的內容[4]；這種關系，是研究在“交際”中形成的“隱性控制”關系。

另外，“語義地圖”并不限于狹義的語義。“任何形式、語義甚至語用項目，只要對象個體間具備某種聯系，或者說相關性”，就都可以研究[1，3]。因此，本文擴展這一術語為“語圖”(Graphs of Languages)。

1.1 交際—控制理論

交際-控制是一個社會學概念。“社會”(society)是人的集合，但僅僅把人弄到一起還不夠，其中必須有一套內在控制機制，令人群成為有類別有等差、一體運行的集體。粗略地講，“社會=成員集合+控制機制”。

社會存在著兩種控制模式[5]:

1) 顯性控制: 成員產生明確的關于某種運行規則的認識，這一規則“外化”于社會，有明確標記，相對獨立、靜止。

2) 隱性控制: 未曾事先規定任何規則的社會在其自身的運行中，會自發地形成運行機制，但它僅僅是現在的、當下的、自動地形成著。

隱性控制難以認識與把握，具有模糊性、即時性、變化性等特征，即難以識別，又可能產生過強的識別。“錯誤理解”(mis-understanding)和“過度理解”(over-understanding)都是對事實的非真實反映。所以，隱性控制最需要定量的分析。

“交際-控制理論”把隱性控制機制看成是一系列交際過程中呈現的即時的事實，試圖通過對論域中的交際活動的定量分析，來構建隱性控制機制的輪廓。

在交際的過程中，各個成員(稱為“基元”)參與交際的程度并不一樣，其中有的參與程度高，從而成為“控制中心”，并形成一定的“控制路徑”，對整個系統起著主要的甚至是決定性的作用[5-6]。例如，一個俱樂部有A、B、C三個成員，假定他們有兩種共現情況，分別如表1、表2所示(其中“+”號表示共現關系，“yes數”表示共現成員的數量)。

表1 三基元的理想控制關系ABCyes數++2++2+++3表2 三基元的理想非控制關系ABCyes數++2++2++2+++3

根據Haspelmath、Haan,Ferdinand提出的理想狀態下的經典繪制算法[3，7](簡稱理想算法)，我們只考慮這些基元之間共現關系的“有無”: 無共現的點不能連接；有共現的點則加以連接；三以上多元共現要核對“兩兩排他共現”以避免出現“圈”(cycle)。因此從表1、表2分別生成兩個關系圖，如圖1、圖2所示。

圖1 三基元的理想控制關系圖2 三基元的理想非控制關系

表1、表2都有A、B、C三者共現。但在表1中，B、C之間并無兩兩排他共現，所以B與C之間沒有直接關系，是經由A作為“中間人”才能溝通，因此在圖1中有以下隱性規律: A點作為輻射中心，B、C只能和A點直接交際，A可視為星(star)圖的中心，是典型的隱性控制中心: B與C共現時，一定是A溝通的，因此A一定出現。

在表2中，A、B、C兩兩之間都有直接關系，是圖論中的“完全圖”(complete graph)，因為任意兩點之間都有邊，所以整幅圖的關系“均勻劃一”，所有成員“人人平等”，沒有任何控制關系，也稱為“空地圖”。

圖3是基于上述原理構建的不定代詞(indefinite pronoun)各個功能項之間的關系地圖[7]，可以看到，其中有很好的控制關系，如(2)控制(1)，(6)控制(7)，(8)控制(9)；但功能項(3)、(4)、(5)之間是完全圖，(4)、(5)、(8)、(6)是“圈”(cycle)，都無法找到隱性控制者。

圖3 世界語言中“不定代詞”各功能項之間的關系

注意，排除調查數據有誤，確實可能有無法去除的圈，說明這一系統局部仍處于“自由競爭”狀態，本身不具有穩定的隱性規律[5]。

1.2 非理想系統已有分析算法: 完全加權

現實中的真實數據并不總是理想的，大多數情況下，基元之間的共現關系并不是絕對的“有無”，而是以不同頻次體現出來的相對“多少”傾向。Cysouw 研究跨語言人稱語義時就遇到這個問題。他將人稱語義分解為八個基元，調查了這些基元的跨語言共現，如表3所示[7]。

表3 人稱八個基元的共現情況表

注：人稱八基元含義: 1第一人稱；2第二人稱；3第三人稱；12、123、13第一人稱復數；23第二人稱復數；33第三人稱復數

人稱基元的共現很復雜，光看“有無”無法獲取有價值信息，但不同共現間的頻次差異很大。Cysouw提出了基于共現頻次高低的加權算法[8]: n個基元共現，認為它們兩兩之間全部存在同一關系，于是直接兩兩全部連接起來形成n*(n-1)/2條邊，所有n*(n-1)/2條邊都直接加上共現頻次f作為權重，如表4所示。

表4 完全加權生成的人稱語圖權重矩陣

這樣，每個共現記錄局部是完全圖，表4中所有邊的權重都大于0，所以本文簡稱其為完全加權算法。顯然，完全加權生成的語圖包含大量的圈。Cysouw按主觀判斷刪略一定的“粗邊”得到揭示跨語言人稱語義蘊含規律的簡圖。全圖如圖4，因為主觀取舍的不確定性，簡圖有多幅，如圖5、圖6所示。

圖4 完全加權生成的人稱全圖

圖5 簡圖1圖6 簡圖2

完全加權不兼容理想算法，圖4控制能力差，無法很好地歸納規律。這就產生了一系列問題，例如，

問題1 基元3、13、33有共現且頻次為5，這三個基元的兩兩排他共現見表5。

表5 3、13、23的兩兩排他共現

這個局部共現明明是理想狀態，應生成控制鏈(chain)3-33-13，卻被完全加權處理為圈3-13-33-3，其中本應權重為0的3-13在表4中有權重5。

問題2 基元12-13完全加權后累計權重181，是圖4中第三“粗”的，兩幅簡圖都刪掉了它。邊 1-13權重68，相對較“細”，卻在簡圖中保留。這樣做不是基于算法而是基于研究者的直覺，其主觀性很難操作。

國外其他學者的研究也多以局部完全加權為基礎[9]。在國內，郭銳提出的完全關聯度算法[2]大體上也是一種完全圖，所以未能避免有關的問題。

1.3 本文的研究目標與技術路線

本研究致力于解決在非理想狀況下系統的隱性控制規律分析問題。我們認為:

1. 加權算法引入共現頻次來處理非理想數據是合理的。這一點上我們的技術路線與它相同: 定量分析，按頻次為每條邊逐步累計加權[5]，按權重之和確定傾向性，得到一語言系統的控制規律“主流”(mainstream)。

2. 我們不同意完全加權，這種在每個局部生成完全圖的做法反而違背了定量分析的要求，不符合圖論與隱性控制的基本原理，和理想算法在數學方法上相悖，最終概括力度太弱。我們的技術路線修訂為: 每一步計算累計都綜合其他記錄提供的競爭參數，按競爭參數定量分析，設計博弈論(Game Theory)的優先決策算法，對“贏家”和“輸家”邊給予不同的加權策略。

另外，隱性控制的探索還要注意兩點: 充分概括，建立具有充分概括力的算法，把各基元、各邊之間的不平等關系充分地體現出來；適度概括: 過強的概括力可能會把較小的差異“放大”為顯著的區別，“過猶不及”，需加以壓制。

就已有的研究看，尚未能找到充分概括的算法是主要矛盾，但也不能忽視次要矛盾，在找到充分概括的道路后應關注適度概括。

2 我們的方案

2.1 贏家通吃算法[6]

贏家通吃將理想算法的基本原則擴展到非理想狀態:

1. 對每個n≥3的多元共現，提供競爭參數“兩兩獨立共現頻次”，按參數大小競爭。先計算局部共現中所有“兩兩對子”的兩兩獨立共現頻次，再按從大到小順序排列這些兩兩對子，選取頻次大的n-1個對子為“贏家”，剩下的對子都是“輸家”；

2. “優勝劣汰”博弈策略: 贏家獲得全部加權，輸家無加權。

其中，兩兩獨立共現包括: 1.兩兩排他共現；2.不同多點共現中出現的兩點單獨共現。

以表3中人稱12、123、13三者共現100次的記錄為例。12、123、13能形成最多三個對子: 12-123、123-13和12-13。這三個對子的“兩兩獨立共現頻次”計算如表6所示。

表6 12、123、13的兩兩獨立共現頻次

然后，保留n-1=2個“贏家”: 兩兩獨立共現頻次相對大的12-123、123-13全部加權100；剩下12-13是輸家，無加權。如圖7所示。

圖7 贏家通吃生成的12、123、13局部語圖

對人稱語義應用贏家通吃算法，可得到權重矩陣如表7，語圖如圖8。因為兼容理想算法，理想狀態下明確可以刪除的邊權重都為0。

表7 “贏家通吃”生成的人稱語圖權重矩陣

圖8 贏家通吃生成的人稱全圖

最后，贏家通吃算法設計了簡單的歸納算法: 嚴格按權重闕值“刪細留粗”。如果設置闕值為35，得到完全加權主觀簡化的簡圖5；設置闕值為30，得到完全加權的簡圖6。

注意，贏家算法中每個局部的贏家選擇n-1個，遵循的是圖論的如下定理及其推論[4]。

定理1 n個頂點的連通圖是一顆樹，當且僅當它有n-1條邊。

推論1 每個連通圖均包含一棵支撐樹。

由此，不考慮全圖本身可能是“森林”、圖中有“歧義”、“可恢復邊”*森林：由幾棵彼此不連通的樹構成的圖[4]。歧義和可恢復邊的數學定義見節3。等特殊情況，選取競爭參數相對最大的n-1條邊，是為了歸納局部語圖的“最大支撐子樹(max spanning subtree)”。

這意味著贏家通吃算法局部最大限度地加強概括力度，反過來說可能造成概括過度: 贏家與輸家差別不大時，完全不賦予輸家權重可能不太合理。

2.2 贏多輸少算法

贏多輸少對贏家通吃可能出現的過度概括進行均衡: 博弈采取“優多劣少”，按照兩兩共現頻次的“多少”傾向程度，對贏家輸家按比例加權。這樣也能在加權策略上更徹底地貫徹定量分析方法。

分配比例理論上應按“連接所有基元的路”來分配，但這樣算法復雜度高達O(n!)*“n個基元共現于同一語言形式”的數學定義: n個基元共現于同一語言形式，是指基元間至少存在一條能夠連接所有基元的非圈最長“路(path)”。并有推論: 推論: 每個局部最多可能有n!/2條連接所有基元的路。于是，比例以“路”為單位來分配，就要計算n!/2條路，算法復雜度為O(n!)，以階乘增長。。為降低算法復雜度，本文采用一個近似的比例分配算法: 前面n-2個贏家都直接100%加權；最后一個(第n-1個)贏家和所有輸家一起按比例分配加權。這樣連接所有基元的路最多可能有n-1條，算法復雜度降為O(n)。

如對前述12、123、13局部共現運用贏多數少算法生成，結果如表8和圖9所示。

表8 贏多輸少按12、123、13的兩兩獨立共現頻次比例加權

圖9 “贏多輸少”生成的12、123、13局部語圖

贏多輸少算法的概括能力趨向于“均衡”，各邊粗細差異圖9比圖7小。

1. 輸家12-13不再“徹底失敗”，多少能分配到一些權重，劣勢不那么明顯；

2. 處于贏家末位的“小贏家”13-123的競爭參數并不比輸家高多少，分到的權重被“壓低”，優勢不那么明顯。

贏多輸少算法生成人稱語圖的權重矩陣如表9，全圖如圖10所示。

表9 “贏多輸少”算法生成的人稱語圖權重矩陣

圖10 “贏多輸少”生成的人稱全圖

贏多輸少權重為0的邊比贏家通吃少，如邊 2-33，表7中權重0，表9中權重0.33。這是因為 2-33出現過的局部其實不是理想狀態，但因為 2-33的兩兩獨立共現頻次很低，次次當輸家。在贏家通吃算法輸家無法加權，被“偽裝”成了理想狀態下的斷路。贏多輸少算法對輸家多少有權重，剝除了2-33的“偽裝”。

3 歸納算法和非理想系統的評價

本文前述討論的算法都是語圖的“生成”算法。在理想狀態或數據很少的時候，研究者很容易看出一個圖的性質: 典型的控制？典型的無控制？還是居于其間的狀態？

但數據量較大的非理想數據復雜性高，使得任何生成算法得到的語圖都太過復雜，無法主觀評判全圖性質，因此: 1.需要用可操作的算法進行簡化，但現有簡化或者太主觀(等于沒有算法)、或者太簡單(闕值簡化)、或者只對基元分類根本沒有控制關系(MDS算法等[1-3])；2.也需要提供評估參數，迄今為止尚未看到有研究者提出這一問題。

為此本文設計了兩種歸納算法做規律“挖掘(mining)”。根據挖掘出的規律，進一步評估不同生成算法的合理性，同時提出對非理想系統隱性規則“強弱”的評價參數。

3.1 最小簡圖和控制度

主要思想: 找到每個基元“關聯性最強”的關系。

操作流程: 從任意基元出發，檢查基元P關聯的所有邊，保留且只保留權重最大的一條邊；以此類推，直到遍歷所有基元。

這一算法保留最少的邊,同時保證保留下來的邊權重最大，因此挖掘的是“主流中最簡約控制規律”。因為最簡約，所以能最大程度上保證規則的準確率。

在最簡約的最小簡圖基礎上，我們引入“控制度”這一概念，其計算公式為式(1)。

(1)

式中∑e∈GminW(e)為最小簡圖的權重之和，∑e∈GminamW(e)為最小簡圖歧義邊的權重之和，∑e∈GsuperW(e)為全圖的權重之和。

其中“歧義”定義為: 點P有歧義邊，指和P關聯的邊中，權重相等的邊數m大于等于2，這m條邊則是“關于點P有歧義的邊”。

簡化如果遇到點P有“權重最大的m條歧義邊”，就無法確定點P到底通過誰主要和其他邊相連，因此m條邊都不可刪除，留在簡圖內形成無法簡化的子圈。無法簡化的子圈無法預測控制路徑，對控制度無貢獻，因此需要減去。

歸納算法可以獨立應用，我們對前文各算法生成的人稱語圖應用最小簡圖歸納算法，得到圖11、

圖11 完全加權的人稱最小簡圖

圖12、圖13。再根據最小簡圖計算各算法控制度如表10所示。

圖12 贏家通吃的人稱最小簡圖

圖13 贏多輸少的人稱最小簡圖

各算法的最小簡圖拓撲結構一致，可見最小簡圖因為“最簡約”準確率確實可觀。

表10 跨語言人稱系統的各算法控制度

各算法的最小簡圖還和前文Cysouw憑主觀簡化得到的簡圖1(圖5)拓撲一致，可見“語言學家的直覺”確實是有數學規律可循的。

最小簡圖所揭示的規律比MDS等基元分類法更全面。

1. 可以確定分類: 人稱8基元分成三類，第一人稱(1、13、123、12)、第二人稱(2-23)和第三人稱(3-33)；

2. 可以確定最主流的控制路徑: 第一人稱內部控制路徑為1-13-123-12；“我”與“我們”間的主要控制中心是排斥聽者13；“我們”中包含三方的123居于主要控制中心位置，各排斥了某一方的12和13之間語義關系疏遠；

3. 第二人稱、第三人稱內部只包含兩個基元，談不上控制路徑，只表示各自的單復數之間關系最緊密。

盡管最小簡圖拓撲結構一致，權重差異卻很大，各算法所得控制度頗為不同。

完全加權所得控制度頗低，近58%的控制度意味人稱系統很“松散”，“最主流”的一、二、三人稱之間混淆得很厲害，但研究者直覺上對“人稱三分”的規律性評價是較強的[8]，這就產生了矛盾。

兩種贏家算法算出人稱系統控制度高達80%以上，雖然略有差異而在一個數量級中，因此更加合理。

3.2 最大簡圖

2.1節論及贏家通吃算法在局部生成“最大支撐子樹”，這正是一種歸納算法: 刪除語圖中任意圈里權重相對最小的邊，從而把語圖中每個圈都“打破”，最后必然得到語圖權重最大的支撐子樹。

所謂“最大”支撐子樹，主要是: 1.保留的邊權重相對最大；2.子樹支撐全圖，最大限度連通所有基元，挖掘的是“覆蓋率最大的主流控制規律”，因此稱之為“最大簡圖”。

各算法的人稱語圖可生成最大簡圖如圖14、圖15、圖16所示。

圖14 完全加權的人稱最大簡圖

圖15 贏家通吃的人稱最大簡圖

圖16 贏多輸少的人稱最大簡圖

所有最大簡圖在“主流”上依舊是拓撲一致的，且與Cysouw主觀刪減得出的簡圖6一致。可見這一算法的準確率還是很高，同時語言學家的直覺有數學規律可循。

但是，圖中有三條不同的虛線邊。虛線邊的權重比最大簡圖中的“最細邊”高，這意味著有些權重可以躋身“主流”之列的關系十分“糾結”，很難概括明晰的控制路徑，由此而成的圈是“可保留的圈”，相應的虛線邊本文稱之為“可恢復邊”。如果硬要刪除不免過度概括。

問題是語圖的生成算法不同，可恢復邊的情況就不同。不同算法得到人稱語圖可恢復邊共計三條: 1-123、1-12、13-12。

1. 1-123: “我(1)”和典型的“我們(123)”完全沒有兩兩獨立共現，恰恰是理想的沒有關聯的基元。完全加權不兼容理想算法，因其在1、123、13三點共現中出現過，每次都給1-123完全加權，最終其權重較高可恢復，是不合適的。贏家二算法在1、123、13中都只連接1-13，保持權重為0。

2. 1-12: “我(1)”和“咱們(12)”的兩兩獨立共現頻次為1，是一個“非主流”規律。完全加權因其在1、12、123、13四點的多點場合里共現過，局部完全圖累計較高權重，把“非主流”推成了“主流”，也不大合適。贏家通吃算法把輸家1-12斷開，贏多輸少則保持其為非主流。

3. 12-13: 兩個不太典型的“我們”間兩兩獨立共現頻次為2,相對較低。但是，它們主要在包含12、123、13三點的多點場合共現，“我們”集成12、123、13是極其主流的現象，有關共現頻次數百，遠超其他所有共現。因此，12-13“瘦死的駱駝比馬大”，獲得較高權重。

這確實是非常特殊的情況，贏多輸少也能將其挑選出來。而贏家通吃算法因其生成時先行局部最大概括，所有輸家都被直接“殺掉”，不免出現概括過度的“誤殺”。

4 案例分析

4.1 漢語常用動詞和時間標記的搭配

郭銳調查的漢語常用動詞和時間標記搭配如表11[10]所示。

表11 漢語動詞與時間標記的搭配

注： “了I”指動詞可加“了”表示事件的開始，“了F”表示事件的完結；“時量I”指動詞加時量成分表示事件持續的時量，“時量F”表示事件完始后的時量。

暫不考慮第一行不能和所有時間標記搭配的動詞，整理其他各行數據，各算法生成的最小簡圖如圖17、圖18、圖19所示，最大簡圖如圖20、圖21、圖22 所示。

圖17 完全加權的時間標記最小簡圖

圖18 贏家通吃的時間標記最小簡圖

圖19 贏多輸少的時間標記最小簡圖

圖20 完全加權的時間標記最大簡圖

圖21 贏家通吃的時間標記最大簡圖

圖22 贏多輸少的時間標記最大簡圖

所有最小簡圖拓撲一致，“最主流”的規律準確率高:

1. 漢語的時間標記統為一類;

2. 不論歧義，基本上是以“過”為控制中心的星圖;

語言學解釋: “過”的語義模型包含事件“開始、持續、結束”階段整體，因此分別控制表開始的“了I”、結束的“了F(結束)”、持續的“著、在”。

3. “時量I、時量F”分別只與“了I、了F”關聯，符合其語言學定義;

4. “在”有歧義，“在”和表結束的“3F”也聯系緊密。

“在、著”都表示持續階段，其中“在”是動態持續，“著”是靜態持續。那么，我們是否可以考慮: 動態和靜態的差異在于，動態更傾向于結束，而靜態的結束點相對“遙遙無期”？

各算法最大簡圖的主流是一致的。“可復活邊”差異很大。

贏家二算法沒有可復活邊，最大簡圖和最小簡圖合一了。可見在這兩種算法中，主流控制規律是很明晰的。

完全加權算法卻大大不同，它的可復活邊極多，各種關聯糾結在一起。似乎“漢語時間標記關聯混亂，幾乎難以確定規律”，但這正是完全加權違背了理想算法所造成的“誤會”。

例如，“了I、了F”，它們的語言學定義就是分化“了”的兩種情況，不可能出現大量糾纏不清的關聯。但完全加權后邊“了I-了F”的權重高達1 463，顯然不合理。

計算時間標記系統各算法的控制度，如表12所示。

表12 時間標記系統的各算法控制度

完全加權算法的控制度極低，這與其可復活邊畸多的現象一致。贏家通吃和贏多輸少的控制度相對很高，因為它們沒有可復活邊，主流控制規律明晰。

確實，漢語是顯性規律很少的語言，漢語的“時間標記”沒有徹底標記化，時間標記系統沒有100%控制度。

但是，研究者普遍稱之為時間“標記”，將之歸類為“虛詞/功能詞”，漢語時間標記即使沒有完全標記化，其標記程度還是比較高的，贏家二算法明顯比完全加權更符合“語言學家的直覺”。

值得注意的是時間標記系統里控制度最高的不是贏家通吃，而是贏多輸少。

究其原因在于歧義: 遇到歧義無法取舍，贏家通吃會直接給予所有歧義邊都加權100%，贏多輸少則認為“m個歧義=m條機會相當比例均等的路”，因此給每條歧義邊1/m加權。所以歧義邊越多、越“重”的系統中，贏家通吃的歧義會比贏多輸少“重”得多，按公式1反而減弱了控制度。

可見，贏家二算法的概括力度高低不可一概而論，有待深入研究。

4.2 多個語言系統控制度參數研究

對于不同的系統，我們需比較它們的控制度。作為社會性系統，其隱性控制的程度會有差異，呈現出一種動態的梯級，其中一端是最為嚴格的控制系統，其控制度為1，即最小簡圖與全圖完全一樣，這種系統就可以直接顯性化了；另一端則是完全沒有隱性控制的自由狀態的系統，控制度為零，即無法抽取出最小簡圖。

1.1節中的表1理想狀態下控制度為1，表2完全無控制則為0，大部分系統則居于中間。我們對語言現象做了大量的實證研究，其控制度如表13所示。

表13 不同系統控制度參數舉隅

上述研究中，同一語言內部一般的系統控制度普遍高，跨語言的對比分析中則有高有低這可能是兩個原因造成的，

1. 同一語言內部共性普遍較強，跨語言間的共性偏弱；

2. 同一語言內部數據調查容易些，數據多歧義易分化；跨語言調查困難，數據不足導致歧義畸多。

5 結論

語圖是一種研究系統規律的工具: 在多基元共現調查數據的基礎上，通過算法生成一張語圖，再從中歸納隱性規律。

以“理想數據”為出發點的理想算法遵循圖論的原則，是一種極好的算法。但對現實中大量出現的“非理想數據”無能為力。而過去采用“完全加權”或與之本質相同的算法(如“完全關聯度”等)來處理“非理想數據”，導致算法在每個局部沒有概括力，生成的整個語圖概括度偏弱。本文的研究即致力于解決這一問題，同時也注意到需要避免概括過度。

筆者提出的“贏家”二算法，試圖在非理想數據中繼續貫徹理想算法的策略: 生成時步步按整體情況統計的“兩兩獨立共現”頻次計算各邊的優先順序，對n基元共現取n-1個邊為贏家，其余為輸家，通過“優勝劣汰”博弈優化，大大增加了概括力度。

其中，贏家通吃把共現頻次只賦予贏家，在每個局部達到最大概括，從而使整個語圖概括力度最大化，缺點是造成過度概括。贏多輸少則更注意兼顧均衡，對贏家與輸家按比例分配權重，在保證概括力度的同時防止出現過度概括。

本文還提出了前人尚未考慮到的問題，即對“非理想數據”如何評估其規律化的程度。為此引入了最小簡圖，并通過它與全圖的權重比較計算出系統的控制度參數。

挖掘規律要兼顧準確率和覆蓋率。最小簡圖的“準確率”最大，但“覆蓋率”不足。為此，本文又構建了“最大簡圖”分析。

文中對語言學若干案例進行了研究，贏家二算法較之過去的算法更吻合系統的數據表現和語言學解釋。贏多輸少的歸納更適中，尤其在著重覆蓋率的最大簡圖算法中所得簡圖更精確。另外,通過對若干語言系統的贏家二算法控制度進行比較，確實是參數取值越大，系統規律性越高。以上具體研究，還需要更多的檢驗和深入研究。

筆者為本文討論的所有算法編制了程序，可在本文兩位作者建設的網站“永新語言學(http://www.newlinguistcs.org)”輸入數據自動計算權重控制度、繪制語圖。據作者所知，本文研究至少在國內尚屬首創，雖然具有填補空白的功效，但也難免會考慮不夠周全。網站的目的既是為廣大同行提供可資運用的技術手段，也是為了請研究者們提出批評意見。

[1] 曹晉.語義地圖理論及方法[J].語文研究,2012(2)：3-6.

[2] 郭銳.語義地圖概念的最小關聯原則和關聯度[A].李小凡,張敏,郭銳.漢語多功能語法形式的語義地圖研究[M].北京:商務印書館,2015,152-172.

[3] H.Martin,The geometry of grammatical meaning:semantic maps and cross-linguistic comparison[C]//Proceedings of the New Psychology of Language:Cognitive and Functional Approaches to Language Structure.Mahwah,NJ.Erlbaum.2003:211-242.

[4] Reinhard Diestel,于青林,王濤譯.圖論(第四版)[M].北京:高等教育出版社,2013.

[5] 陳振宇,陳振寧.通過地圖分析揭示語法學中的隱性規律——“加權最少邊地圖”[J].中國語文,2015,05:428-438.

[6] Nooy, Mrvar, Batagelj，等. 蜘蛛: 社會網絡分析技術(第二版)[M].北京:世界圖書出版公司,2012.

[7] H Martin.Indefinite Pronouns[M].Oxford:Clarendon,1997.

[8] C Michael.Building Semantic Maps:the Case of Person Marking[M].M Miestamo & B Walchli.New Challenges in typology:Broadening the horizons and redefining the foundations.Berlin:Mouton,2007:225-248.

[9] Ferdinand de Haan. On Representing Semantic Maps[EB/OL]. URL:http://emeld.org/workshop/2004/deHaan-paper.doc.2004.

[10] 郭銳.漢語動詞的過程結構[J].中國語文,1993,06:410-419.

[11] 亢世勇.面向信息處理的現代漢語語法研究[M].上海:上海辭書出版社,2004.

[12] 陸丙甫,屈正林.語義投射連續性假說：原理和引申——兼論定語標記的不同功能基礎[M].語言學論叢(第四十二輯).北京:商務印書館,2010:112-128.

[13] 吳福祥. 從“得”義動詞到補語標記——東南亞語言的一種語法化區域[J]. 中國語文,2009,03:195-211，287.

Revealing Covert Laws in Language Systems Through Graphs——Algorithms of Winner-Get-All & Winner-More-Loser-Less

CHEN Zhenning1, CHEN Zhenyu2

(1. School of Humanities, Zhejiang University, Hangzhou, Zhejiang 310058, China;2. Department of Chinese Langage and Literature, Fudan University, Shanghai 200433, China)

We tried to reveal convert laws with quantitative analysis through graphs and designed two generating algorithms of language graphs: Winner-get-all and Winner-more-loser-less, which extend the game theory used by idea-algorithm to none-perfect state. Compared to previous methods, the proposed two algorithms have better generalization capability. Especially, we balance between full and modest generation in the Winner-more-loser-less algorithm. There are two kinds of inductive algorithms to mine mainstream rules and analyze linguistic laws: Min-Subgraphs for accuracy, as well as Max-Subgraphs for coverage. A formula for control degree based on min-subgraphs is put forward to evaluate language systems.

covert laws; graph theory; game theory; rules mining

陳振寧(1977—),博士研究生,主要研究領域為計算語言學。E-mail:706867589@qq.com陳振宇(1968—),通信作者,副教授,主要研究領域為漢語句法語義。E-mail:chenzhenyu@fudan.edu.cn

1003-0077(2015)05-0020-11

2015-08-10 定稿日期： 2015-09-26

教育部人文社會科學規劃基金“現代漢語句法與語義計算研究”(13YJA740005)

TP391

中文信息學報2015年5期

中文信息學報的其它文章: 一種改進的社交媒體文本規范化方法; 基于單語語料的面向日語假名的日漢人名翻譯對抽取方法; 多領域中文依存樹庫構建與影響統計句法分析因素之分析; 面向普通未登錄詞理解的二字詞語義構詞研究; 利用詞的分布式表示改進作文跑題檢測; 基于模糊推理機的漢語主觀句識別

用語圖分析揭示語言系統中的隱性規律——贏家通吃和贏多輸少算法

1 引論

2 我們的方案

3 歸納算法和非理想系統的評價

4 案例分析

5 結論

用語圖分析揭示語言系統中的隱性規律
——贏家通吃和贏多輸少算法