——贏家通吃和贏多輸少算法"/>
999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?陳振寧,陳振宇
(1.浙江大學 人文學院,浙江 杭州 310058;2.復旦大學 中日語言文學系,上海 200433)
?
用語圖分析揭示語言系統中的隱性規律
——贏家通吃和贏多輸少算法
陳振寧1,陳振宇2
(1.浙江大學 人文學院,浙江 杭州 310058;2.復旦大學 中日語言文學系,上海 200433)
該文用“圖”這一數學工具,通過定量分析來揭示語言系統中的隱性規律,設計了“贏家通吃”和“贏多輸少”兩種生成算法,將理想算法“步步競爭、擇優而行”的博弈論思路貫徹到非理想狀態。兩種新算法都較前人有更好的概括能力。贏多輸少算法更兼顧了充分概括和適度概括均衡。生成語圖后,該設計著重準確率的最小簡圖和著重覆蓋率的最大簡圖歸納算法,挖掘控制的主流規則、分析語言系統的語言學規律。在最小簡圖基礎上提出控制度公式以評價語言系統。
隱性規律;圖論;博弈論;規則挖掘
類型學在跨語言比較研究中引入語義地圖(Semantic Maps)理論,它以基元(即所調查的語言項目)為“點(node)”,根據這些基元項的共現“關系(relationship)”連接成“邊(edge)”,生成一個“圖(graph)”。然后用這一地圖去挖掘各項目間的規律。[1-3]這種地圖其實就是“圖論(graph theory)”研究的內容[4];這種關系,是研究在“交際”中形成的“隱性控制”關系。
另外,“語義地圖”并不限于狹義的語義。“任何形式、語義甚至語用項目,只要對象個體間具備某種聯系,或者說相關性”,就都可以研究[1,3]。因此,本文擴展這一術語為“語圖”(Graphs of Languages)。
1.1 交際—控制理論
交際-控制是一個社會學概念。“社會”(society)是人的集合,但僅僅把人弄到一起還不夠,其中必須有一套內在控制機制,令人群成為有類別有等差、一體運行的集體。粗略地講,“社會=成員集合+控制機制”。
社會存在著兩種控制模式[5]:
1) 顯性控制: 成員產生明確的關于某種運行規則的認識,這一規則“外化”于社會,有明確標記,相對獨立、靜止。
2) 隱性控制: 未曾事先規定任何規則的社會在其自身的運行中,會自發地形成運行機制,但它僅僅是現在的、當下的、自動地形成著。
隱性控制難以認識與把握,具有模糊性、即時性、變化性等特征,即難以識別,又可能產生過強的識別。“錯誤理解”(mis-understanding)和“過度理解”(over-understanding)都是對事實的非真實反映。所以,隱性控制最需要定量的分析。
“交際-控制理論”把隱性控制機制看成是一系列交際過程中呈現的即時的事實,試圖通過對論域中的交際活動的定量分析,來構建隱性控制機制的輪廓。
在交際的過程中,各個成員(稱為“基元”)參與交際的程度并不一樣,其中有的參與程度高,從而成為“控制中心”,并形成一定的“控制路徑”,對整個系統起著主要的甚至是決定性的作用[5-6]。例如,一個俱樂部有A、B、C三個成員,假定他們有兩種共現情況,分別如表1、表2所示(其中“+”號表示共現關系,“yes數”表示共現成員的數量)。

表1 三基元的理想控制關系ABCyes數++2++2+++3表2 三基元的理想非控制關系ABCyes數++2++2++2+++3
根據Haspelmath、Haan,Ferdinand提出的理想狀態下的經典繪制算法[3,7](簡稱理想算法),我們只考慮這些基元之間共現關系的“有無”: 無共現的點不能連接;有共現的點則加以連接;三以上多元共現要核對“兩兩排他共現”以避免出現“圈”(cycle)。因此從表1、表2分別生成兩個關系圖,如圖1、圖2所示。

圖1 三基元的理想控制關系圖2 三基元的理想非控制關系
表1、表2都有A、B、C三者共現。但在表1中,B、C之間并無兩兩排他共現,所以B與C之間沒有直接關系,是經由A作為“中間人”才能溝通,因此在圖1中有以下隱性規律: A點作為輻射中心,B、C只能和A點直接交際,A可視為星(star)圖的中心,是典型的隱性控制中心: B與C共現時,一定是A溝通的,因此A一定出現。
在表2中,A、B、C兩兩之間都有直接關系,是圖論中的“完全圖”(complete graph),因為任意兩點之間都有邊,所以整幅圖的關系“均勻劃一”,所有成員“人人平等”,沒有任何控制關系,也稱為“空地圖”。
圖3是基于上述原理構建的不定代詞(indefinite pronoun)各個功能項之間的關系地圖[7],可以看到,其中有很好的控制關系,如(2)控制(1),(6)控制(7),(8)控制(9);但功能項(3)、(4)、(5)之間是完全圖,(4)、(5)、(8)、(6)是“圈”(cycle),都無法找到隱性控制者。

圖3 世界語言中“不定代詞”各功能項之間的關系
注意,排除調查數據有誤,確實可能有無法去除的圈,說明這一系統局部仍處于“自由競爭”狀態,本身不具有穩定的隱性規律[5]。
1.2 非理想系統已有分析算法: 完全加權
現實中的真實數據并不總是理想的,大多數情況下,基元之間的共現關系并不是絕對的“有無”,而是以不同頻次體現出來的相對“多少”傾向。Cysouw 研究跨語言人稱語義時就遇到這個問題。他將人稱語義分解為八個基元,調查了這些基元的跨語言共現,如表3所示[7]。

表3 人稱八個基元的共現情況表
注: 人稱八基元含義: 1第一人稱;2第二人稱;3第三人稱;12、123、13第一人稱復數;23第二人稱復數;33第三人稱復數
人稱基元的共現很復雜,光看“有無”無法獲取有價值信息,但不同共現間的頻次差異很大。Cysouw提出了基于共現頻次高低的加權算法[8]: n個基元共現,認為它們兩兩之間全部存在同一關系,于是直接兩兩全部連接起來形成n*(n-1)/2條邊,所有n*(n-1)/2條邊都直接加上共現頻次f作為權重,如表4所示。

表4 完全加權生成的人稱語圖權重矩陣
這樣,每個共現記錄局部是完全圖,表4中所有邊的權重都大于0,所以本文簡稱其為完全加權算法。顯然,完全加權生成的語圖包含大量的圈。Cysouw按主觀判斷刪略一定的“粗邊”得到揭示跨語言人稱語義蘊含規律的簡圖。全圖如圖4,因為主觀取舍的不確定性,簡圖有多幅,如圖5、圖6所示。

圖4 完全加權生成的人稱全圖

圖5 簡圖1圖6 簡圖2
完全加權不兼容理想算法,圖4控制能力差,無法很好地歸納規律。這就產生了一系列問題,例如,
問題1 基元3、13、33有共現且頻次為5,這三個基元的兩兩排他共現見表5。

表5 3、13、23的兩兩排他共現
這個局部共現明明是理想狀態,應生成控制鏈(chain)3-33-13,卻被完全加權處理為圈3-13-33-3,其中本應權重為0的3-13在表4中有權重5。
問題2 基元12-13完全加權后累計權重181,是圖4中第三“粗”的,兩幅簡圖都刪掉了它。邊 1-13權重68,相對較“細”,卻在簡圖中保留。這樣做不是基于算法而是基于研究者的直覺,其主觀性很難操作。
國外其他學者的研究也多以局部完全加權為基礎[9]。在國內,郭銳提出的完全關聯度算法[2]大體上也是一種完全圖,所以未能避免有關的問題。
1.3 本文的研究目標與技術路線
本研究致力于解決在非理想狀況下系統的隱性控制規律分析問題。我們認為:
1. 加權算法引入共現頻次來處理非理想數據是合理的。這一點上我們的技術路線與它相同: 定量分析,按頻次為每條邊逐步累計加權[5],按權重之和確定傾向性,得到一語言系統的控制規律“主流”(mainstream)。
2. 我們不同意完全加權,這種在每個局部生成完全圖的做法反而違背了定量分析的要求,不符合圖論與隱性控制的基本原理,和理想算法在數學方法上相悖,最終概括力度太弱。我們的技術路線修訂為: 每一步計算累計都綜合其他記錄提供的競爭參數,按競爭參數定量分析,設計博弈論(Game Theory)的優先決策算法,對“贏家”和“輸家”邊給予不同的加權策略。
另外,隱性控制的探索還要注意兩點: 充分概括,建立具有充分概括力的算法,把各基元、各邊之間的不平等關系充分地體現出來;適度概括: 過強的概括力可能會把較小的差異“放大”為顯著的區別,“過猶不及”,需加以壓制。
就已有的研究看,尚未能找到充分概括的算法是主要矛盾,但也不能忽視次要矛盾,在找到充分概括的道路后應關注適度概括。
2.1 贏家通吃算法[6]
贏家通吃將理想算法的基本原則擴展到非理想狀態:
1. 對每個n≥3的多元共現,提供競爭參數“兩兩獨立共現頻次”,按參數大小競爭。先計算局部共現中所有“兩兩對子”的兩兩獨立共現頻次,再按從大到小順序排列這些兩兩對子,選取頻次大的n-1個對子為“贏家”,剩下的對子都是“輸家”;
2. “優勝劣汰”博弈策略: 贏家獲得全部加權,輸家無加權。
其中,兩兩獨立共現包括: 1.兩兩排他共現;2.不同多點共現中出現的兩點單獨共現。
以表3中人稱12、123、13三者共現100次的記錄為例。12、123、13能形成最多三個對子: 12-123、123-13和12-13。這三個對子的“兩兩獨立共現頻次”計算如表6所示。

表6 12、123、13的兩兩獨立共現頻次
然后,保留n-1=2個“贏家”: 兩兩獨立共現頻次相對大的12-123、123-13全部加權100;剩下12-13是輸家,無加權。如圖7所示。

圖7 贏家通吃生成的12、123、13局部語圖
對人稱語義應用贏家通吃算法,可得到權重矩陣如表7,語圖如圖8。因為兼容理想算法,理想狀態下明確可以刪除的邊權重都為0。

表7 “贏家通吃”生成的人稱語圖權重矩陣

圖8 贏家通吃生成的人稱全圖
最后,贏家通吃算法設計了簡單的歸納算法: 嚴格按權重闕值“刪細留粗”。如果設置闕值為35,得到完全加權主觀簡化的簡圖5;設置闕值為30,得到完全加權的簡圖6。
注意,贏家算法中每個局部的贏家選擇n-1個,遵循的是圖論的如下定理及其推論[4]。
定理1 n個頂點的連通圖是一顆樹,當且僅當它有n-1條邊。
推論1 每個連通圖均包含一棵支撐樹。
由此,不考慮全圖本身可能是“森林”、圖中有“歧義”、“可恢復邊”*森林:由幾棵彼此不連通的樹構成的圖[4]。歧義和可恢復邊的數學定義見節3。等特殊情況,選取競爭參數相對最大的n-1條邊,是為了歸納局部語圖的“最大支撐子樹(max spanning subtree)”。
這意味著贏家通吃算法局部最大限度地加強概括力度,反過來說可能造成概括過度: 贏家與輸家差別不大時,完全不賦予輸家權重可能不太合理。
2.2 贏多輸少算法
贏多輸少對贏家通吃可能出現的過度概括進行均衡: 博弈采取“優多劣少”,按照兩兩共現頻次的“多少”傾向程度,對贏家輸家按比例加權。這樣也能在加權策略上更徹底地貫徹定量分析方法。
分配比例理論上應按“連接所有基元的路”來分配,但這樣算法復雜度高達O(n!)*“n個基元共現于同一語言形式”的數學定義: n個基元共現于同一語言形式,是指基元間至少存在一條能夠連接所有基元的非圈最長“路(path)”。并有推論: 推論: 每個局部最多可能有n!/2條連接所有基元的路。于是,比例以“路”為單位來分配,就要計算n!/2條路,算法復雜度為O(n!),以階乘增長。。為降低算法復雜度,本文采用一個近似的比例分配算法: 前面n-2個贏家都直接100%加權;最后一個(第n-1個)贏家和所有輸家一起按比例分配加權。這樣連接所有基元的路最多可能有n-1條,算法復雜度降為O(n)。
如對前述12、123、13局部共現運用贏多數少算法生成,結果如表8和圖9所示。

表8 贏多輸少按12、123、13的兩兩獨立共現頻次比例加權

圖9 “贏多輸少”生成的12、123、13局部語圖
贏多輸少算法的概括能力趨向于“均衡”,各邊粗細差異圖9比圖7小。
1. 輸家12-13不再“徹底失敗”,多少能分配到一些權重,劣勢不那么明顯;
2. 處于贏家末位的“小贏家”13-123的競爭參數并不比輸家高多少,分到的權重被“壓低”,優勢不那么明顯。
贏多輸少算法生成人稱語圖的權重矩陣如表9,全圖如圖10所示。

表9 “贏多輸少”算法生成的人稱語圖權重矩陣

圖10 “贏多輸少”生成的人稱全圖
贏多輸少權重為0的邊比贏家通吃少,如邊 2-33,表7中權重0,表9中權重0.33。這是因為 2-33出現過的局部其實不是理想狀態,但因為 2-33的兩兩獨立共現頻次很低,次次當輸家。在贏家通吃算法輸家無法加權,被“偽裝”成了理想狀態下的斷路。贏多輸少算法對輸家多少有權重,剝除了2-33的“偽裝”。
本文前述討論的算法都是語圖的“生成”算法。在理想狀態或數據很少的時候,研究者很容易看出一個圖的性質: 典型的控制?典型的無控制?還是居于其間的狀態?
但數據量較大的非理想數據復雜性高,使得任何生成算法得到的語圖都太過復雜,無法主觀評判全圖性質,因此: 1.需要用可操作的算法進行簡化,但現有簡化或者太主觀(等于沒有算法)、或者太簡單(闕值簡化)、或者只對基元分類根本沒有控制關系(MDS算法等[1-3]);2.也需要提供評估參數,迄今為止尚未看到有研究者提出這一問題。
為此本文設計了兩種歸納算法做規律“挖掘(mining)”。根據挖掘出的規律,進一步評估不同生成算法的合理性,同時提出對非理想系統隱性規則“強弱”的評價參數。
3.1 最小簡圖和控制度
主要思想: 找到每個基元“關聯性最強”的關系。
操作流程: 從任意基元出發,檢查基元P關聯的所有邊,保留且只保留權重最大的一條邊;以此類推,直到遍歷所有基元。
這一算法保留最少的邊,同時保證保留下來的邊權重最大,因此挖掘的是“主流中最簡約控制規律”。因為最簡約,所以能最大程度上保證規則的準確率。
在最簡約的最小簡圖基礎上,我們引入“控制度”這一概念,其計算公式為式(1)。
(1)
式中∑e∈GminW(e)為最小簡圖的權重之和,∑e∈GminamW(e)為最小簡圖歧義邊的權重之和,∑e∈GsuperW(e)為全圖的權重之和。
其中“歧義”定義為: 點P有歧義邊,指和P關聯的邊中,權重相等的邊數m大于等于2,這m條邊則是“關于點P有歧義的邊”。
簡化如果遇到點P有“權重最大的m條歧義邊”,就無法確定點P到底通過誰主要和其他邊相連,因此m條邊都不可刪除,留在簡圖內形成無法簡化的子圈。無法簡化的子圈無法預測控制路徑,對控制度無貢獻,因此需要減去。
歸納算法可以獨立應用,我們對前文各算法生成的人稱語圖應用最小簡圖歸納算法, 得到圖11、

圖11 完全加權的人稱最小簡圖
圖12、圖13。再根據最小簡圖計算各算法控制度如表10所示。

圖12 贏家通吃的人稱最小簡圖

圖13 贏多輸少的人稱最小簡圖
各算法的最小簡圖拓撲結構一致,可見最小簡圖因為“最簡約”準確率確實可觀。

表10 跨語言人稱系統的各算法控制度
各算法的最小簡圖還和前文Cysouw憑主觀簡化得到的簡圖1(圖5)拓撲一致,可見“語言學家的直覺”確實是有數學規律可循的。
最小簡圖所揭示的規律比MDS等基元分類法更全面。
1. 可以確定分類: 人稱8基元分成三類,第一人稱(1、13、123、12)、第二人稱(2-23)和第三人稱(3-33);
2. 可以確定最主流的控制路徑: 第一人稱內部控制路徑為1-13-123-12;“我”與“我們”間的主要控制中心是排斥聽者13;“我們”中包含三方的123居于主要控制中心位置,各排斥了某一方的12和13之間語義關系疏遠;
3. 第二人稱、第三人稱內部只包含兩個基元,談不上控制路徑,只表示各自的單復數之間關系最緊密。
盡管最小簡圖拓撲結構一致,權重差異卻很大,各算法所得控制度頗為不同。
完全加權所得控制度頗低,近58%的控制度意味人稱系統很“松散”,“最主流”的一、二、三人稱之間混淆得很厲害,但研究者直覺上對“人稱三分”的規律性評價是較強的[8],這就產生了矛盾。
兩種贏家算法算出人稱系統控制度高達80%以上,雖然略有差異而在一個數量級中,因此更加合理。
3.2 最大簡圖
2.1節論及贏家通吃算法在局部生成“最大支撐子樹”,這正是一種歸納算法: 刪除語圖中任意圈里權重相對最小的邊,從而把語圖中每個圈都“打破”,最后必然得到語圖權重最大的支撐子樹。
所謂“最大”支撐子樹,主要是: 1.保留的邊權重相對最大;2.子樹支撐全圖,最大限度連通所有基元,挖掘的是“覆蓋率最大的主流控制規律”,因此稱之為“最大簡圖”。
各算法的人稱語圖可生成最大簡圖如圖14、圖15、圖16所示。

圖14 完全加權的人稱最大簡圖

圖15 贏家通吃的人稱最大簡圖

圖16 贏多輸少的人稱最大簡圖
所有最大簡圖在“主流”上依舊是拓撲一致的,且與Cysouw主觀刪減得出的簡圖6一致。可見這一算法的準確率還是很高,同時語言學家的直覺有數學規律可循。
但是,圖中有三條不同的虛線邊。虛線邊的權重比最大簡圖中的“最細邊”高,這意味著有些權重可以躋身“主流”之列的關系十分“糾結”,很難概括明晰的控制路徑,由此而成的圈是“可保留的圈”,相應的虛線邊本文稱之為“可恢復邊”。如果硬要刪除不免過度概括。
問題是語圖的生成算法不同,可恢復邊的情況就不同。不同算法得到人稱語圖可恢復邊共計三條: 1-123、1-12、13-12。
1. 1-123: “我(1)”和典型的“我們(123)”完全沒有兩兩獨立共現,恰恰是理想的沒有關聯的基元。完全加權不兼容理想算法,因其在1、123、13三點共現中出現過,每次都給1-123完全加權,最終其權重較高可恢復,是不合適的。贏家二算法在1、123、13中都只連接1-13,保持權重為0。
2. 1-12: “我(1)”和“咱們(12)”的兩兩獨立共現頻次為1,是一個“非主流”規律。完全加權因其在1、12、123、13四點的多點場合里共現過,局部完全圖累計較高權重,把“非主流”推成了“主流”,也不大合適。贏家通吃算法把輸家1-12斷開,贏多輸少則保持其為非主流。
3. 12-13: 兩個不太典型的“我們”間兩兩獨立共現頻次為2,相對較低。但是,它們主要在包含12、123、13三點的多點場合共現,“我們”集成12、123、13是極其主流的現象,有關共現頻次數百,遠超其他所有共現。因此,12-13“瘦死的駱駝比馬大”,獲得較高權重。
這確實是非常特殊的情況,贏多輸少也能將其挑選出來。而贏家通吃算法因其生成時先行局部最大概括,所有輸家都被直接“殺掉”,不免出現概括過度的“誤殺”。
4.1 漢語常用動詞和時間標記的搭配
郭銳調查的漢語常用動詞和時間標記搭配如表11[10]所示。

表11 漢語動詞與時間標記的搭配
注: “了I”指動詞可加“了”表示事件的開始,“了F”表示事件的完結;“時量I”指動詞加時量成分表示事件持續的時量,“時量F”表示事件完始后的時量。
暫不考慮第一行不能和所有時間標記搭配的動詞,整理其他各行數據,各算法生成的最小簡圖如圖17、圖18、圖19所示,最大簡圖如圖20、圖21、圖22 所示。

圖17 完全加權的時間標記最小簡圖

圖18 贏家通吃的時間標記最小簡圖

圖19 贏多輸少的時間標記最小簡圖

圖20 完全加權的時間標記最大簡圖

圖21 贏家通吃的時間標記最大簡圖

圖22 贏多輸少的時間標記最大簡圖
所有最小簡圖拓撲一致,“最主流”的規律準確率高:
1. 漢語的時間標記統為一類;
2. 不論歧義,基本上是以“過”為控制中心的星圖;
語言學解釋: “過”的語義模型包含事件“開始、持續、結束”階段整體,因此分別控制表開始的“了I”、結束的“了F(結束)”、持續的“著、在”。
3. “時量I、時量F”分別只與“了I、了F”關聯,符合其語言學定義;
4. “在”有歧義,“在”和表結束的“3F”也聯系緊密。
“在、著”都表示持續階段,其中“在”是動態持續,“著”是靜態持續。那么,我們是否可以考慮: 動態和靜態的差異在于,動態更傾向于結束,而靜態的結束點相對“遙遙無期”?
各算法最大簡圖的主流是一致的。“可復活邊”差異很大。
贏家二算法沒有可復活邊,最大簡圖和最小簡圖合一了。可見在這兩種算法中,主流控制規律是很明晰的。
完全加權算法卻大大不同,它的可復活邊極多,各種關聯糾結在一起。似乎“漢語時間標記關聯混亂,幾乎難以確定規律”,但這正是完全加權違背了理想算法所造成的“誤會”。
例如,“了I、了F”,它們的語言學定義就是分化“了”的兩種情況,不可能出現大量糾纏不清的關聯。但完全加權后邊“了I-了F”的權重高達1 463,顯然不合理。
計算時間標記系統各算法的控制度,如表12所示。

表12 時間標記系統的各算法控制度
完全加權算法的控制度極低,這與其可復活邊畸多的現象一致。贏家通吃和贏多輸少的控制度相對很高,因為它們沒有可復活邊,主流控制規律明晰。
確實,漢語是顯性規律很少的語言,漢語的“時間標記”沒有徹底標記化,時間標記系統沒有100%控制度。
但是,研究者普遍稱之為時間“標記”,將之歸類為“虛詞/功能詞”,漢語時間標記即使沒有完全標記化,其標記程度還是比較高的,贏家二算法明顯比完全加權更符合“語言學家的直覺”。
值得注意的是時間標記系統里控制度最高的不是贏家通吃,而是贏多輸少。
究其原因在于歧義: 遇到歧義無法取舍,贏家通吃會直接給予所有歧義邊都加權100%,贏多輸少則認為“m個歧義=m條機會相當比例均等的路”,因此給每條歧義邊1/m加權。所以歧義邊越多、越“重”的系統中,贏家通吃的歧義會比贏多輸少“重”得多,按公式1反而減弱了控制度。
可見,贏家二算法的概括力度高低不可一概而論,有待深入研究。
4.2 多個語言系統控制度參數研究
對于不同的系統,我們需比較它們的控制度。作為社會性系統,其隱性控制的程度會有差異,呈現出一種動態的梯級,其中一端是最為嚴格的控制系統,其控制度為1,即最小簡圖與全圖完全一樣,這種系統就可以直接顯性化了;另一端則是完全沒有隱性控制的自由狀態的系統,控制度為零,即無法抽取出最小簡圖。
1.1節中的表1理想狀態下控制度為1,表2完全無控制則為0,大部分系統則居于中間。我們對語言現象做了大量的實證研究,其控制度如表13所示。

表13 不同系統控制度參數舉隅
上述研究中,同一語言內部一般的系統控制度普遍高,跨語言的對比分析中則有高有低這可能是兩個原因造成的,
1. 同一語言內部共性普遍較強,跨語言間的共性偏弱;
2. 同一語言內部數據調查容易些,數據多歧義易分化;跨語言調查困難,數據不足導致歧義畸多。
語圖是一種研究系統規律的工具: 在多基元共現調查數據的基礎上,通過算法生成一張語圖,再從中歸納隱性規律。
以“理想數據”為出發點的理想算法遵循圖論的原則,是一種極好的算法。但對現實中大量出現的“非理想數據”無能為力。而過去采用“完全加權”或與之本質相同的算法(如“完全關聯度”等)來處理“非理想數據”,導致算法在每個局部沒有概括力,生成的整個語圖概括度偏弱。本文的研究即致力于解決這一問題,同時也注意到需要避免概括過度。
筆者提出的“贏家”二算法,試圖在非理想數據中繼續貫徹理想算法的策略: 生成時步步按整體情況統計的“兩兩獨立共現”頻次計算各邊的優先順序,對n基元共現取n-1個邊為贏家,其余為輸家,通過“優勝劣汰”博弈優化,大大增加了概括力度。
其中,贏家通吃把共現頻次只賦予贏家,在每個局部達到最大概括,從而使整個語圖概括力度最大化,缺點是造成過度概括。贏多輸少則更注意兼顧均衡,對贏家與輸家按比例分配權重,在保證概括力度的同時防止出現過度概括。
本文還提出了前人尚未考慮到的問題,即對“非理想數據”如何評估其規律化的程度。為此引入了最小簡圖,并通過它與全圖的權重比較計算出系統的控制度參數。
挖掘規律要兼顧準確率和覆蓋率。最小簡圖的“準確率”最大,但“覆蓋率”不足。為此,本文又構建了“最大簡圖”分析。
文中對語言學若干案例進行了研究,贏家二算法較之過去的算法更吻合系統的數據表現和語言學解釋。贏多輸少的歸納更適中,尤其在著重覆蓋率的最大簡圖算法中所得簡圖更精確。另外,通過對若干語言系統的贏家二算法控制度進行比較,確實是參數取值越大,系統規律性越高。以上具體研究,還需要更多的檢驗和深入研究。
筆者為本文討論的所有算法編制了程序,可在本文兩位作者建設的網站“永新語言學(http://www.newlinguistcs.org)”輸入數據自動計算權重控制度、繪制語圖。據作者所知,本文研究至少在國內尚屬首創,雖然具有填補空白的功效,但也難免會考慮不夠周全。網站的目的既是為廣大同行提供可資運用的技術手段,也是為了請研究者們提出批評意見。
[1] 曹晉.語義地圖理論及方法[J].語文研究,2012(2):3-6.
[2] 郭銳.語義地圖概念的最小關聯原則和關聯度[A].李小凡,張敏,郭銳.漢語多功能語法形式的語義地圖研究[M].北京:商務印書館,2015,152-172.
[3] H.Martin,The geometry of grammatical meaning:semantic maps and cross-linguistic comparison[C]//Proceedings of the New Psychology of Language:Cognitive and Functional Approaches to Language Structure.Mahwah,NJ.Erlbaum.2003:211-242.
[4] Reinhard Diestel,于青林,王濤譯.圖論(第四版)[M].北京:高等教育出版社,2013.
[5] 陳振宇,陳振寧.通過地圖分析揭示語法學中的隱性規律——“加權最少邊地圖”[J].中國語文,2015,05:428-438.
[6] Nooy, Mrvar, Batagelj,等. 蜘蛛: 社會網絡分析技術(第二版)[M].北京:世界圖書出版公司,2012.
[7] H Martin.Indefinite Pronouns[M].Oxford:Clarendon,1997.
[8] C Michael.Building Semantic Maps:the Case of Person Marking[M].M Miestamo & B Walchli.New Challenges in typology:Broadening the horizons and redefining the foundations.Berlin:Mouton,2007:225-248.
[9] Ferdinand de Haan. On Representing Semantic Maps[EB/OL]. URL:http://emeld.org/workshop/2004/deHaan-paper.doc.2004.
[10] 郭銳.漢語動詞的過程結構[J].中國語文,1993,06:410-419.
[11] 亢世勇.面向信息處理的現代漢語語法研究[M].上海:上海辭書出版社,2004.
[12] 陸丙甫,屈正林.語義投射連續性假說:原理和引申——兼論定語標記的不同功能基礎[M].語言學論叢(第四十二輯).北京:商務印書館,2010:112-128.
[13] 吳福祥. 從“得”義動詞到補語標記——東南亞語言的一種語法化區域[J]. 中國語文,2009,03:195-211,287.
Revealing Covert Laws in Language Systems Through Graphs——Algorithms of Winner-Get-All & Winner-More-Loser-Less
CHEN Zhenning1, CHEN Zhenyu2
(1. School of Humanities, Zhejiang University, Hangzhou, Zhejiang 310058, China;2. Department of Chinese Langage and Literature, Fudan University, Shanghai 200433, China)
We tried to reveal convert laws with quantitative analysis through graphs and designed two generating algorithms of language graphs: Winner-get-all and Winner-more-loser-less, which extend the game theory used by idea-algorithm to none-perfect state. Compared to previous methods, the proposed two algorithms have better generalization capability. Especially, we balance between full and modest generation in the Winner-more-loser-less algorithm. There are two kinds of inductive algorithms to mine mainstream rules and analyze linguistic laws: Min-Subgraphs for accuracy, as well as Max-Subgraphs for coverage. A formula for control degree based on min-subgraphs is put forward to evaluate language systems.
covert laws; graph theory; game theory; rules mining

陳振寧(1977—),博士研究生,主要研究領域為計算語言學。E-mail:706867589@qq.com陳振宇(1968—),通信作者,副教授,主要研究領域為漢語句法語義。E-mail:chenzhenyu@fudan.edu.cn
1003-0077(2015)05-0020-11
2015-08-10 定稿日期: 2015-09-26
教育部人文社會科學規劃基金“現代漢語句法與語義計算研究”(13YJA740005)
TP391
A