劉 剛,傅瑋萍,馬鶯歌
(哈爾濱工程大學 計算機科學與技術學院,黑龍江 哈爾濱 150001)
中國社會保障政策體系逐漸趨于碎片化發展態勢,導致了城市社保制度與農村社保制度的互相割離,私有經濟以及與國有經濟社會保險制度不同,多種社會保險政策同時生效的不良狀況[1]。為有效地緩解并預防社保政策中的碎片化現象,本文通過分析政策碎片之間深層的內在聯系,實現碎片化政策的重新組織。在此基礎上對結構化的政策網絡進行碎片消解,使政策網絡結構更加明晰。除此之外,本文基于結構化的政策網絡,在新政策的制定過程中,對碎片化政策的產生加以預防。本文所提出的政策分析與制定計算機仿真技術,可以幫助決策者清晰看到政策的體系結構,并預測新政策在該政策體系中的地位,為有效地消減和預防政策碎片化現象提供有效的解決方案。
1.1.1 國內外研究現狀
政策網絡研究起始于20世紀90年代初,幾位數學科學家及諾貝爾獎獲得者共同提出了政策系統的網絡結構及其特征。發展到目前,主要有三種研究方向: 英國傳統、美國傳統以及荷蘭和德國傳統[2]。T.Lowi、H.Heclo等美國學派研究者著眼于政策網絡的微觀層次,通過模擬政策在制定的流程節點間的互動,來分析預測政策制定和執行的效果及網絡的形態演化。而英國傳統將分析重點放在不同政策部門之間的結構關系上。從政策體制本身入手,分析政策網絡的拓撲結構及影響。以荷蘭、德國領域專家為首的學者從宏觀層次上進行政策網絡理論研究,將政策網絡看成一種全新的國家治理手段[3]。
我國政策網絡理論研究起步較晚,近些年開始逐漸流行,成果較少。目前,只有很少的政策網絡理論成果問世[4-5]。文獻[6]對政策網絡的方方面面進行了細致而又全面的介紹,包含: 政策網絡起源、政策網絡的不同釋義、政策網絡要素及其作用、政策網絡的研究意義,以及具體的政策網絡的理論研究手段。然而,不同派別的研究人員對于政策網絡理論的認識并不統一,對于政策網絡中的基礎定義各執一詞。鑒于此種情況,系統深入地研究政策網絡理論是十分重要的[7-8]。
政策血緣挖掘理論是政策網絡研究的一個新方向。文獻[9]形式化地定義了政策族譜樹的概念,用于描述顯性的政策體系樹狀結構,在此基礎上形成了政策森林的概念。該理論的基本思想是,挖掘政策體系中不能從政策族譜樹中體現的政策碎片之間的隱藏關系。并稱這種關系為隱性政策血緣關系,稱不同政策中形成這種隱性政策血緣的因素為隱性政策基因。
文獻[10]利用隱性政策血緣挖掘理論,闡述了一種有效的隱性政策血緣關系的挖掘方法。將隱性基因引入文本進行相似度計算中,從而發現了常規政策語言相似關系探究手段所無法提取的隱性政策血緣關系。除此之外,文獻[11]在文獻[10]建立的政策網絡基礎上,利用節點的介數計算,挖掘政策血緣網絡中的顯性政策要點。通過對網絡政策血緣的傳播演化規律進行探索,實現了基于網絡政策血緣負載模型的建立。基于該負載模型,定義并計算政策血緣網絡中節點的脆性度,并據此進行衡量政策血緣網絡里網絡節點的重要度,從而挖掘出網絡中的脆性點。
1.1.2 現存理論的不足
盡管上述理論從不同方面對政策進行了深入的研究,并取得了豐富的研究成果。然而針對政策碎片化問題時,上述方法仍存在著如下不足:
(1) 政策模型分析。政策模型分析主要通過基于Agent進行政策實施環境建模,通過政策與政策執行環境之間的互動,研究分析政策的執行效果,以及環境對政策延邊的影響。然而這些研究方法是從政策外部對政策進行分析,并未深入剖析政策內部深層的層次結構。面對政策碎片化問題時,只能分析碎片政策對社會的影響,并不能分析或解決政策碎片化對于政策系統本身帶來的影響。
(2) 政策網絡分析。政策網絡分析將政策體系看作復雜網絡系統架構,是從復雜網絡系統演化的角度上研究政策系統本身的演變過程,并通過演化算法預測政策體系未來的發展趨勢。政策網絡分析方法網絡的構建,完全拋開了現實世界的真實網絡,只是通過演化生成網絡與實際網絡進行對比校正網絡演化模型及其參數。除此之外,面對政策碎片化問題,只能預測政策系統的碎片化趨勢,并不能有效地提出解決并預防政策碎片化現象。
(3) 隱性政策血緣理論。該理論基于真實政策網絡,對其結構進行深層挖掘。并在此基礎上對政策節點的重要性以及脆弱性進行了深層的研究。然而該理論中并未提出針對建成的網絡進行碎片化的治理與防護的措施,這使得該理論對于政策碎片化問題的解決顯得不夠完善。
本文從上述結論出發,立足于現階段的已有研究成果,提出一種全新的政策分析方法。本方法基于隱性政策血緣理論,引入政策文本處理的語義理解,并基于“知網”的政策詞語相似度和依存句法分析算法,實現政策血緣網絡的構建。在此基礎上,基于層次聚類思想,提出政策血緣網絡層次演化方法,提取政策血緣網絡的樹狀結構,并在此結構基礎上提出新政策的判余與位置鎖定。
深入研究新中國成立后的政策體系演化過程,可以發現,所有政策均由憲法衍化而來,因而目前所有有效或已失效的政策都因與憲法之間的祖孫關系而存在內在的聯系,稱之為政策血緣關系。例如,在我國的社會保障體系中,政策之間的政策血緣關系如圖1所示。
圖1中所展示的即為一顆政策族譜樹,它描述了圖中節點的父子關系。由圖可知,樹中路徑距離較遠的政策節點之間的血緣關系應當較為薄弱[10]。

圖1 中華人民共和國社保體系結構示意
1.2.1 政策基因
家族政策通過家族基因來傳播和繼承政策血緣關系[11]。同理,政策族譜樹的衍化過程中傳遞的主要內容便是政策基因。政策基因具體到以自然語言書寫的政策文本中,即可以是政策概念、政策詞語、政策條款、政策段落或政策篇章,視具體情況而定。
1.2.2 政策血緣網絡
正是政策之間隱性血緣關系的存在,使政策譜系樹中不同的分支之間存在了或強或弱的聯系,形成網狀結構,稱之為政策血緣網絡,這種網絡以政策文本為網絡頂點,政策文本之間的血緣關系作為邊,兩個政策文本間的相似度作為權值,下面進行形式化定義,如式(1)所示。
G=(V,E,W)
(1)
其中,V是頂點集合,該集合有限非空,V中的每個節點代表真實政策系統中的政策文本。E為邊的集合集,任意ej∈E(G),使得ej=(vi,vj),且ej=(vi,vj)表示政策網絡節點之間的政策血緣關系。頂點之間的相似度W為網絡中邊的權值。
復雜網絡從本質上講是具有一定特性和拓撲復雜性的圖,一個由著名學者錢學森提出的較為嚴謹的定義為: 如果一個網絡具有自組織、自相似、吸引子、小世界以及無標度中的部分或全部性質,則該網絡是復雜網絡[12]。
聚類分析是將所需處理的數據對象的集合按照它們的相似度分成多個聚類簇或數據對象子集的過程,是一種常用的數據挖掘方法。
文獻[13]綜合上述分類方法,對聚類算法進行如圖2所示的分類,并對每一類聚類算法進行簡要介紹。圖2中,根據聚類算法是否需要在聚類之前輸入參數,將聚類方法分為參數方法和非參數方法。在參數聚類方法中,又可分為軟聚類方法(模糊聚類方法)、劃分聚類方法和基于模型的聚類方法。

圖2 聚類方法分類
觀察中華人民共和國人力資源與社會保障部官方網站中公開的社保相關政策體系,該體系中將社保政策分為八大類,其主要組織形式如圖3所示。

圖3 社會保險政策體系
對于上述不同類別的政策子系統,其內部又可根據不同的側重分出不同的子類,每個子類包含若干相關政策。有些政策的組織形式是彼此隔離,互不相關的。從內容上來講,它們或實施的受體相似或相關,或實施辦法相似或相關,這種聯系并沒能從政策族譜樹中體現,這就是政策間的隱性血緣關系。挖掘這種政策間的隱性血緣,并根據這種天然的聯系構建隱性政策網絡,將是解決政策碎片化問題的有力工具。
政策血緣網絡是一個由微觀、中觀、宏觀三個層面構成的政策網絡體系。其中,微觀層次的政策血緣網絡是從政策基因的角度上來考慮的;中觀政策血緣網絡是從政策細胞的角度上來考慮的;而宏觀政策血緣網絡是從政策文本的角度上來研究政策血緣網絡。
定義1(政策個體) 對于政策文本集C={L1,L2,…,Ln},C所包含的每一個獨立的政策文本Li即為一個政策個體。
定義2(政策細胞) 對于政策文本L={M1,M2, …,Mn},L所包含n個政策條款M1,M2, …,Mn即為組成L的n個政策細胞。
定義3(政策基因) 對于政策細胞M={S1,S2, …,Sn},M所包含的m個政策詞語S1,S2, …,Sn即為M的m個政策基因。
政策細胞作為政策個體的基本單位,是政策個體所攜帶信息的最小單位載體,而政策基因作為政策細胞內的遺傳物質對于政策細胞的形態以及功能特點起到決定性的作用,進而決定對政策個體的形態以及所攜帶的信息。
將《中華人民共和國社會保險法》的第二章 “基本養老保險”的前兩句和第三章“基本醫療保險”的前兩句分別當作兩個政策個體,如表1所示。那么對于政策個體L1,組成它的政策細胞為L1M1和L1M2,L1M1和L1M2任何政策條款的改變都會直接引起政策個體L1結構上的改變。而對于政策細胞L1M1={S1,S2,S3}={基本,養老,保險},S1,S2,S3分別是對政策細胞產生決定性作用的組成部分。

表1 政策個體的一個例子
綜上所述,政策血緣網絡體系的結構如圖4所示。

圖4 政策血緣網絡體系結構示意圖
首先對于三層政策血緣網絡體系加以形式化定義:
定義4(三層政策網絡) 微觀政策網絡Snet(V1,E1,W1),中觀政策網絡Mnet(V2,E2,W2)及宏觀政策網絡Lnet(V3,E3,W3),它們都是加權無向網絡,其中:
網絡節點的集合分別為V1={S1,S2,…,Sn},V2={M1,M2,…,Mn},V3={L1,L2,…,Ln},其中Si為政策基因,Mi為政策細胞,Li為政策個體;邊的集合都表示為E={e1,e2,…,em},集合中的元素分別描述了節點間的相似關系;邊的權值的集合表示為W,集合中元素為邊所連接的節點對應的政策基因(政策細胞或政策個體)間的相似度值。
明確了由微觀到宏觀的三層政策血緣網絡,下面可以形式化定義政策血緣網絡體系的概念:
定義5(政策血緣網絡體系) 政策血緣網絡體系可形式化為PNS=(Lnet,Mnet,Snet,R(L,M),R(M,S)),其中: (1)Lnet,Mnet,Snet依次分別為宏觀,中觀和微觀政策血緣網絡;(2)R(L,M)={e1lm,e2lm, …,enlm}為宏觀政策血緣網絡與中觀政策血緣網絡之間的邊的集合,集合內元素eilm表示宏觀政策血緣網絡節點Lp對于中觀政策血緣網絡中節點Mc的包含關系(Lp,Mc, weight);(3)R(M,S)={e1ms,e2ms, …,enms}為中觀政策血緣網絡與微觀政策血緣網絡之間的邊的集合,集合內元素eims表示中觀政策血緣網絡節點Mp對于微觀政策血緣網絡中節點Sc的包含關系(Mp,Sc, weight)。
政策血緣網絡體系的構建主要包括體系中節點的發現,節點間關系的挖掘,節點間關系權重的計算。其中,政策血緣網絡體系中的節點包括政策個體、政策細胞以及政策基因。政策個體即政策篇章,政策細胞為政策篇章中所包含的政策條款,而政策基因則為政策條款中的政策詞語。本文規定,政策篇章中的每句話作為政策條款。而獲取政策基因的關鍵在于對政策文本進行分詞,因此政策血緣網絡體系構建的節點發現主要依靠基于標點的政策條款獲取和政策文本分詞技術來實現。
政策血緣網絡體系中主要存在兩種類型的邊: (1)網內邊: 各層網絡內部節點之間的邊;(2)網際邊: 聯通不同層次網絡之間的邊。每個下層節點都存在一條指向上層節點的被包含關系的邊。網際邊的權值由如下公式計算,對于上層節點i,以及下層節點j,聯通i和j之間邊的權值為:
(2)
政策血緣網絡體系中,邊的挖掘以及權值計算主要分為兩部分,其一是網際邊的權值計算,這項工作可由式(2)實現;另一部分則為網內邊的權值計算,具體到三個層次的政策血緣網絡。微觀網絡的網內邊權值由政策基因相似度計算得來。中觀網絡的網內邊權值由政策條款的相似度計算得來,宏觀網絡的網內邊權值由政策個體的相似度計算得來,實現了上述過程,便可實現政策血緣網絡的構建,其構建過程如圖5所示。

圖5 政策網絡體系構建流程
圖5中,政策血緣網絡體系的構建主要分為兩個步驟。首先根據宏觀網絡中政策個體包含條款的數量建立宏觀網絡與中觀網絡之間的網際邊,網際邊的權值由公式(2)計算。依次通過中文分詞,依存對提取算法,計算每個政策細胞內部包含的政策基因數量,根據公式建立中觀網絡與微觀網絡之間的網際邊。至此體系框架構建完成。
然后,基于《知網》的詞語相似度計算方法[14-15],實現政策基因的相似度計算,得到微觀網絡中網內邊的權值;利用依存句法分析方法[16-19]對政策細胞進行句法分析,將政策細胞間的相似度計算轉化為政策細胞句法分析樹之間的相似度計算,從而利用句法分析樹匹配的方法[20]實現政策細胞相似度計算,得到中觀網絡中網內邊的權值;基于向量空間模型[21]將政策個體表示為政策細胞的特征向量,將兩個政策個體所包含的政策細胞之間相似度的期望作為政策個體的相似度值,從而得到宏觀網絡的網內邊權值。整個政策血緣網絡體系的構建,算法如下:

算法1 政策血緣網絡體系構建算法輸入: 政策個體集合C={Text1, Text2,…, Textn}輸出: 政策血緣網絡體系PNS=(Lnet, Mnet, Snet, R(L, M), R(M, S))PNS=(Lnet, Mnet, Snet, R(L, M), R (M, S))for 每一個 政策文本Texti in C { Li=Texti; Lnet=Lnet∪{ Li} 根據標點符號, 提取Li中的政策條款Li={item1, i-tem2, … , itemn} for 每一個政策條款 itemj in Li { Mj= itemj; R(L, M)=R(L, M) ∪C (Li, Mj, 1/l); Mnet=Mnet∪Mj 對Mi進行分詞,得到政策基因序列Mj={word1, word2, … ,wordm} for 每一個政策詞語wordk in Mj{ Sk=wordk; R(M, S)=R(M, S)∪C (Mj, Sk, 1/m); Snet=Snet∪Sk } } }for Li, Lj in Lnet{ for Mi in Li,Mj in Lj{ for Si in Mi,Sj in Mj{ 計算并返回Sim (Si, Sj) Snet=Snet∪Sim (Si, Sj) } 計算并返回Sim (Mi, Mj) Mnet=Mnet∪Sim (Mi, Mj) } 計算Sim (Li, Lj) Lnet=Lnet∪Sim (Li, Lj)}
通過第二節的敘述,實現了政策血緣網絡體系的構建。該體系使從微觀、中觀和宏觀三個不同的角度觀察政策血緣網絡體系的結構成為可能。無論從哪個角度來看,政策血緣網絡都是沒有層次的扁平化網絡。當面對越來越嚴重的政策碎片化問題時,僅僅依靠該網絡體系并不能對政策的碎片管理和消減產生直接貢獻。解決政策碎片化問題的關鍵是對宏觀政策網絡進行層級劃分,實現同功能政策的替代或分解,減少平行政策數量。因此,本文提出應用劃分聚類方法,實現政策網絡節點的聚類,從而延緩碎片化。
3.1.1 自底向上的層次聚類方法AGNES
自底向上的層次聚類的基本思想是,對于待聚類數據集合,首先將集合中的每一個數據都看做是一個類,然后根據一定的計算標準計算不同類之間的相似度,合并相似度滿足要求的類,形成新的類,照此過程進行迭代,直到數據集中所有的數據都合并到一個大類中。其主要步驟描述如下:
(1)首先把數據集合中的每個數據初始化為一個初始類。(2)對于每個類,利用既定的相似度計算方法,兩兩計算不同類之間的相似度。(3)選擇相似度符合實驗法要求的類,將這些類合并為一個類。(4)重復步驟(2)~(3),直到數據集中所有的類聚集都凝聚為一個大類。
AGNES算法是一種硬聚類方法,每個類中的節點只明確的歸屬于一個類,這必將導致某些節點間相似關系的忽視。除此之外,AGNES算法中只考慮了節點之間的相似關系,并未考慮節點之間的包含關系。在實際的政策網絡節點中,其政策個體可能是另一個政策的子政策。AGNES中,某個類一旦形成,那么該類中的任何節點將永遠從屬于該類,并不能隨著該類節點的增多而偏移向其他的類。如果某個合并的決策在后來被證明是不好的選擇,在AGNES算法中是無法退回并修正的,這將導致聚類結果的偏差愈加增大。為此,本文提出一種新的層次聚類方法PBNAP(Policy Blood Network Architecture Partition)。該方法基于AGNES算法思想,并加以改進,適用于在政策血緣網絡的基礎上進行網絡層次劃分。
3.1.2 宏觀政策血緣網絡層級劃分算法PBNAP
政策細胞指政策條款,政策個體指包含了多個政策條款的政策篇章。政策細胞的相似度采用基于依存句分析及依存樹匹配相結合的方法,而政策個體間的相似度值是政策細胞相似度的期望值。由于政策個體中包含了政策細胞,故兩者的相似度值可以進行比較,從而定義政策個體的相異度如下:
對于政策個體L1和L2,其相似度為Sim(L1,L2),設L1所包含的所有政策細胞中,與L2中任意節點間相似度都小于Sim(L1,L2)的節點個數為nsub,則稱nsub與L1的比值為L1相對于L2的相異度。形式化定義如下:
定義6(相異度) 對于政策個體L1和L2,設L1與L2之間的相似度為Sim(L1,L2),L1的子集SubL1與L2的子集SubL2形成以兩政策節點之間的二元關系為元素的集合,S={ (3) L2相對于L1的相異度與上述公式類似。由上述定義可知,政策個體之間的相異度反映的是政策個體的個性程度。Dif(L1,L2)越大,說明在政策個體L1中,其包含的政策細胞與L2中政策細胞相異的就越多,政策個體L1相對于L2的個性程 度 就 越 大。那么對于政策個體L1和L2,在推斷他們之間的包含關系時,假設相異度閾值β是一個較小的常數,則由相異度可以得到如下推斷: (1) 若min{Dif(L1,L2),Dif(L2,L1)}>β,則說明,L1和L2不具有父子關系; (2)若Dif(L1,L2)>β>Dif(L2,L1),則L2是L1的子政策; (3)反之,若Dif(L2,L1)>β>Dif(L1,L2),則L1是L2的子政策;(4)若min{Dif(L1,L2),Dif(L2,L1)}≤β,則L1和L2是完全相同的兩個節點; 定義7(政策個體之間的包含度) 對于政策個體L1對L2的包容度定義為政策個體L2從屬于政策個體L1,其計算如式(4)所示。 (4) 由式(4)可知,當C(L1,L2) >1時,說明L2是L1的子政策;當C(L1,L2)∈(0,1)時,說明L1是L2的子政策。當C(L1,L2)=0時,說明L2與L1互為冗余政策;而當C(L1,L2)=-1時,說明L1與L2之間無父子關系。 對于已構建好的政策血緣網絡,首選在宏觀政策血緣網絡LNet中選取度最低(即度為1)的n個節點SubLNet0={L1,L2,…,Ln}作為最底層的葉子節點(網絡中度數最小的節點必定為葉子節點)。關于?Li∈SubLNet0,其只存在一個鄰居節點,設為pLi。假設網絡是連通圖的前提下,那么其鄰居節點pLi必定會有另外的 鄰 居 節 點。 故pLi的 度 一 定大于1,且其鄰居節點pLi為Li的父節點。由此網絡中初始形成了n個由SubLNet中節點以及其鄰居節點形成類。之后,對于SubLNet中所有節點的鄰居節點形成的集合NebSubLNet0,對?Li∈NebSubLNet0滿足Li沒有父節點。首先,確定其鄰居節點集合Neb={LiN1,LiN2,…,LiNm},然后,對于?LiNj∈NebLi且滿足Sim(Li,LiNj)以及LiNj沒有父節點和子節點,分別計算C(Li,LiNj),根據包含度確定這Li和LiNj之間的父子關系。反復迭代,直至網絡中最后一個節點的位置確定。算法的示意圖如圖6所示。 圖6 PBNAP算法流程示意圖 綜上所述,政策血緣網絡層次劃分算法描述如下: 算法2 政策血緣網絡層次劃分算法輸入: 政策血緣網絡體系PNS,包含度閾值β輸出: 宏觀層次的政策血緣網絡Lnet中的父子關系集合Rfor節點Li in Lnet{ for節點Lj in Lnet{ 計算Li與Lj之間的包含度C(Li, Lj) IfC(Li, Lj) > 0 && C(Li, Lj) < 1 { R=R∪{(Lj, Li)} }else if C(Li, Lj) > 1{ R=R∪{(Li, Lj)} }else if C(Li, Lj)=0{ R=R∪{(Li, Lj)} } } } 通過3.1節介紹的理論,實現了扁平化宏觀政策血緣網絡的樹狀層次劃分。然而這種樹狀層次的形成是以犧牲政策個體內部比重較小的政策細胞之間的相似度為代價的。在實際的政策網絡中,政策碎片化的正向傳播體現在政策個體之間時,不僅沒有鮮明的體系層次,且從政策文本內容上來講,還存在著不同政策個體所包含的政策細胞之間的交叉。針對此問題,本文在層次化宏觀政策血緣網絡的基礎上,對中觀的政策細胞網絡進行演化,消減網絡中的碎片化節點。 在物理學中的萬有引力定律中,任意兩個質點通過連心線方向上的力相互吸引。該引力大小與它們質量的乘積成正比,與它們距離的平方成反比,與兩物體的化學組成和其間介質種類無關。故可以如下定義政策個體之間的吸引力。 定義8(政策個體之間吸引力) 政策個體之間吸引力表示文本之間的相互吸引程度,它與文本的長度成正比,與文本之間的距離成反比。 對于政策個體L1={M11,M12,…,M1n}和L2={M21,M22,…,M2n},由上文可以計算L1,L2之間的相似度Sim(L1,L2),則文本之間的距離為: (5) 那么L1,L2之間的吸引力F(L1,L2)的計算公式為: (6) 對于政策文本L1和L2,它們所包含的內容越多,相似度越大,則它們之間的吸引力越強。對于一個政策細胞M和一個政策個體L,在考量它們之間的吸引力F(L,M)時可以將政策細胞M看成是一篇只由一條政策條款組成的政策個體,表示為長度為1的空間向量,那么它們之間吸引力可簡化為式(7): F(L,M)=|L|×Sim(L,M) (7) 由此本文提出基于政策文本吸引力的政策文本去碎片化方法,其中政策森林的構建過程如圖7所示。 圖7 政策森林構建 具體的去碎片化算法描述如下: 算法3 政策血緣網絡層去碎片化算法輸入: 政策血緣網絡體系PNS,Lnet的層次結構R(節點父子關系),相似度閾值γ輸出: 政策血緣森林for Li in Lnet { for Lj in Lnet { if ( Li, Lj ) 不屬于R { for Mx屬于Li { 續表 通過政策血緣網絡的去碎片化,刪除了層次政策血緣網絡中的非父子關系,從而構建了有一棵或多棵政策血緣樹構成的政策血緣森林。下面對政策血緣樹進行形式化定義: 定義9(政策血緣樹)T(V,E, root(T))為一棵由政策文本組成的樹,滿足: (1)該樹中,有且只有一個根節點root(T); (2)頂點集合V={L1,L2,…,Ln}中元素為政策文本; (3)邊集合E={ek=

3.2 政策網絡的去碎片化演化



經過前面的介紹,已經可以將現存的碎片化政策進行層次構建,并消除了層次化血緣網絡體系中的碎片化條款,從而形成政策血緣森林。在新政策制定的過程當中,政策制定者難以掌握所有現存政策信息,因此產生新的政策碎片。如何利用上面提出的層次化的政策血緣網絡對新政策進行定位至關重要。本文提出一種基于樹的層次檢索的方法。對于新政策,在政策血緣森林中尋找與新政策節點相似的已存在的政策個體,通過與這些節點的匹配為政策制定者提供政策定位的輔助信息。
3.3.1 政策血緣網絡層次有序化
層次化的政策血緣網絡的實質是一棵或多棵政策血緣樹組成的政策森林。每棵政策樹中的父子節點之間的關系存在著相似度大,及包含度大的特點。這棵政策血緣樹的兄弟節點對于父節點來說是平等的。它們所處的位置與它們與父節點的聯系緊密程度無關,這不利于政策的逐層檢索。因此,本文在前文所構建的政策血緣樹的基礎上,提出一種政策文本包含度的無序政策樹有序化算法,其流程如圖8所示。

圖8 政策樹有序化示例
對于圖中政策血緣樹T={L1,L2,…,L11},按廣度優先的順序對T進行層次遍歷,對于遍歷中的每個非葉子節點Li,設其直系子節點集合為Child(Li)=={Li1,Li2,…,Lin},對于?Lij∈Child(Li),由加權樹的邊的權值可以得到Li對其子節點Lij的包含度C(Li,Lij),對Li的所有子節點按照包含度的由大到小進行排序,分別作為Li由左到右的孩子節點。繼續迭代,直至政策血緣樹T中所有的非葉節點的子節點全部有序排列。
3.3.2 新政策的位置鎖定
應用上文構建的政策血緣有序樹所構成的政策血緣森林,對于新制定的政策,本文提出一種基于有序樹檢索的政策碎片預防機制。該機制可以執行在新政策的制定和修訂的過程中,用于檢驗新政策相對于已存在的政策樹的冗余度,及對于非冗余政策在政策森林中插入位置的確定。其大致流程如圖9所示。

圖9 新政策的插入
如圖9所示,對于一個新制定的政策Lnew,首先計算政策森林F={T1,T2,…,Tn}中所有樹根節點對于Lnew的包含度Croot(F,Lnew),其中Croot(F,Lnew)包含的內容為Croot(F,Lnew)={C(root(T1Lnew)),C(root(T2Lnew)),…,C(root(TnLnew))}。Croot(F,Lnew)中,如果其最大元素Max(C(root(TnLnew)))<0,則將政策Lnew作為政策森 林F的 新 政
策樹;若存在Lnew對某個跟節點的包含度大于所有根節點對于Lnew的包含度,則Lnew為該根節點的父節點;否則Lnew的從屬于對于Lnew包含度最大的政策樹,下面從該樹的根節點開始,迭代計算Lnew與本次迭代的父節點的子節點中,尋找Lnew的下次迭代父節點,直到找到Lnew的直系父節點。尋找的過程如圖10所示。

圖10 新政策判余與位置鎖定
圖10中,已知本層父節點為L,本層父節點對新政策Lnew的包含度為C(L,Lnew),則在判斷下一層節點時會遇到三種情況:
(1)C(L,Lnew) >C(L,LLC),其中LLC為L的最左孩子。此時若Sim(LLC,Lnew)
(2)C(L,Lnew) >C(L,LRC),其中LRC為L的最右孩子。此時若Sim(LRC,Lnew)
(3)C(L,LCi)
具體的位置鎖定算法描述如下:

算法4 新政策節點的插入位置鎖定輸入: 政策個體Lnew,有序化政策血緣森林F輸出: 經過插入操作的政策森林F計算Lnew與F中所有根節點的包含度if max ( C( Lnew, root(T) ) )=0{ Lnew 為冗余政策}else if max ( C( Lnew, root(T) ) ) > 1{ Lnew 為政策血緣樹的新的根節點}else if max ( C( Lnew, root(T) ) ) < 0{ Lnew 為政策森林中的一棵新樹}else{ Lnew 為樹T的子節點, 按包含度確定Lnew鄰居兄弟節點 if存在包含關系, 則遍歷下一層 else{ 在兄弟節點之間插入Lnew }}
本實驗以中華人民共和國人力資源與社會保障部網站上,政府公開法律法規的養老保險菜單中,城鎮職工基本養老保險目錄下的10個養老保險相關政策文本為例,驗證文中研究技術的有效性。實驗中使用的每一個政策文本,均保存為txt格式。實驗分為四個階段,分別為:
(1) 政策文本相似度計算。通過依存句法分析方法,基于《知網》的詞語相似度計算方法,政策細胞相似度計算方法,以及政策個體相似度計算方法,實現政策文本相似度計算。
(2) 依據政策文本相似度計算結果,構建城鎮職工養老保險政策血緣網絡體系。探究各層次城鎮職工養老保險政策血緣網絡特點。
(3) 在政策血緣網絡體系的基礎上,對宏觀政策網絡進行層次劃分,去碎片演化,觀察樹狀政策血緣網絡結構特征。
(4) 在政策血緣森林的基礎上,分別對一個新政策個體及數據集中某政策個體的部分政策細胞稍加改動作為“新政策”,對新政策的冗余判斷及位置鎖定仿真。在此,本文僅展現重要步驟的實驗結果,省略了某些中間過程的結果。
經過了政策基因、政策細胞和政策個體之間的相似度計算之后,可以分別構建微觀政策血緣網絡、中觀政策血緣網絡和宏觀政策血緣網絡。其中,微觀政策網絡共14 885個節點,中觀政策血緣網絡節點共644個,宏觀政策網絡節點共10個。三層網絡構建結果分別如圖11~13所示。

圖11 微觀政策血緣網絡
由圖11中,隨著節點度的由小增大,節點的顏色由深至淺逐漸變化。而邊的顏色由深至淺是由邊的權重(節點相似度)由大變小導致的。由微觀層次的政策網絡圖可以看出,微觀層次的網絡節點度分布滿足無標度特性。
圖12為中觀層次的政策血緣網絡。由圖可知: 中觀層次的政策網絡節點的度分布也明顯具有無標度的特性。該圖中節點越大,顏色越深,度越大;邊顏色越深權值越大。圖12可以較為明顯的看出實驗數據及中的不同政策文本間,第五條政策細胞的相似度比較大。

圖12 中觀政策血緣網絡
由圖12可以看出,政策L1、L2、L3、L4、L5、L6、L7、L8、L9的第5個條款M5相似度較大,且與其他同一政策文本內的其他政策細胞基本不相似,由此可以推斷該條款為政策文本中的通用性文字,與特定政策相關性不大。而對于圖中類似于L8M1、L6M4等節點,其度較大。說明與其相似的政策細胞較多,從而可以推斷該條款包含內容較廣,后續有可能細化成多個政策細胞或者獨立的政策。
圖13為宏觀政策血緣網絡的網絡圖,由圖可知,政策文本L8、L5、L2與較多的政策之間存在著相似關系,因此可能成為政策樹的根節點。而L5與L4、L3與L8、L8與L2之間存在著較強的相似關系,因此有可能成為具有父子關系的節點。

圖13 宏觀政策血緣網絡
4.2.1 政策血緣網絡的層次劃分
對于構建好的宏觀政策血緣網絡,僅僅能感性的從中觀察出可能的節點間關系。而且該政策網絡是扁平的,并不存在明顯的層次結構。針對此問題,本階段主要對上一階段構建的宏觀層次的政策網絡進行層次劃分、政策樹的構建等相關處理,以提取出宏觀層次的政策血緣網絡中的層次結構。首先,要對宏觀政策血緣網絡中的層次結構進行提取。本實驗中,相異度閾值β選定為0.896,各政策個體之間的包含度計算部分結果見表2。

表2 政策個體包含度計算部分結果
經試驗反復調試,本實驗采用包含度閾值c為0.3,則政策個體中,包含度大于3或大于0小于0.3的為存在父子關系的節點,則由政策個體之間的包含度,將宏觀層次的政策網絡進行層級劃分,結果如圖14所示。

圖14 宏觀政策血緣網絡層級劃分
圖14中,節點間較寬的邊即為有政策節點之間的包含度所提取出的父子關系,節點之間的邊顏色越深,則該邊兩段所連接的父子節點中,父節點對于子節點的包含度越大。而包含所述內容較多的節點,其包含的子節點越多。如圖中節點L8的直系孩子節點為L2,L3,L6,而節點L6的直系孩子節點只有L5,那么由此可以初步推斷,L8比L6包含更多的政策信息。
4.2.2 政策血緣網絡的去碎片化演化
層次化的政策血緣網絡中還存在著很多相似度較大的非父-子關系的節點。針對這樣的節點,分析其內部相似度較大的政策細胞,并計算這種條款與對應節點之間的萬有引力。對于層次化的宏觀政策血緣網絡中的非父子節點,分別檢索這些非父子節點內部條款見的相似度。當相似度大于閾值γ大于0.5時,則對該政策細胞與對方政策個體的萬有引力進行計算。并將該政策細胞劃分到萬有引力較大的政策個體中,經過去碎片化演化的政策血緣網絡形成政策血緣森林。如圖15所示。
由圖15可知,由實驗數據集中這10個政策文本組成的宏觀政策血緣網絡經過去碎片化演化形成的政策血緣森林為兩棵政策血緣樹。其中一棵樹只有一個根節點L10,另一棵樹中包含9個政策個體,L8為根節點。對于樹中的父子節點,其對于子節點的包含度越大,邊的顏色越深。對于一個根節點,其子節點的個數越多,意味著該節點越有可能包含更多的信息。而對于一對指定的父子節點,其包含度越大,說明父節點與子節點父子關系的可靠性就越大。

圖15 政策血緣森林
4.2.3 政策血緣森林的有序化
上面所構建的政策血緣森林中的政策血緣樹是無序樹。即對父節點來說,其與某個子節點間包含關系的大小與該節點位置無關,這種無序狀態不利于樹的檢索與插入操作。因此,本實驗對上述政策血緣森林進行包含度的排序,得到有序化的政策血緣森林,其過程如圖16所示。

圖16 政策血緣有序森林
圖16中,在經過有序化的政策森里共包含兩棵政策有序樹,其根節點分別為L8和L10,其中L10為只有一個節點構成的政策樹。而在以L8為根節點的政策有序樹中,隨著父子節點間邊的由深至淺,所有父節點的子節點均按照父節點對其包含度由大到小排列。
4.2.4 新政策位置鎖定
對于上述有序化的政策血緣森林,假設有L11為新政策節點,本文將演示該政策在政策血緣森林中進行親緣關系尋找與位置鎖定的過程。該過程通過計算原有政策森林中的各節點對于新的政策節點的包含度,進而判斷原有政策節點與新政策節點之間的潛在父子關系。首先計算該節點與政策森林中所有節點之間的包含度和相似度,計算結果見表3。

表3 新政策與政策血緣森林節點之間的相似度與包含度

圖17 新節點的插入
圖17中,經過包含度和相似度的計算,新政策L11為非冗余節點,且是政策L6的左孩子。圖中節點的大小表示節點孩子數目的多少,而邊的粗細表示父子節點間包含關系的強弱。
本文提出一種自動化的政策系統結構分析方法,通過分析政策之間深層聯系,實現碎片化政策的網絡結構組織,并進行碎片消解,形成結構清晰的政策網絡,實現基于該政策網絡的新政策碎片預防。本文提出的政策分析與制定計算機輔助技術,可以幫助決策者直觀地把握政策的體系結構,預測新政策在該政策體系中的地位,為有效地消減和預防政策碎片化現象提供了有效的解決方案。目前,本文提出的方法尚未完全成熟。如政策文本相似度計算算法,仍處于犧牲算法效率換取算法精確度的階段,尚不足以處理大規模的文本集。未來的工作主要集中在此類算法的性能優化上,以充分發揮本政策血緣網絡體系及演化方法在現實政策分析中的重要作用。
[1] 馮瑩. 碎片與重塑社保制度公平之路[N]. 人民法院報,2010-05-17.
[2] 朱亞鵬.公共政策研究的政策網絡分析視角[J].中山大學學報, 2008: 80-83.
[3] Ismael Blanco, Vivien Lowndes, Lawrence Pratchett. Policy Networks and Governance Networks: Towards Greater Conceptual Clarity[J]. Political Studies Review, 2011: 25.
[4] 楊代福.政策網絡理論途徑的缺失與修正.理論月刊,
2008(3):82-85.
[5] 譚羚雁, 婁成武. 保障性住房政策過程的中央與地方政府關系——政策網絡理論的分析與應用[J]. 公共管理學報, 2012, 09(1):52-63.
[6] 朱春奎.政策網絡與政策工具:理論基礎與中國實踐[M].上海:復旦大學出版, 2012.
[7] 唐云鋒, 許少鵬. 政策網絡理論及其對我國政策過程的啟示[J]. 中共浙江省委黨校學報, 2012, 28(2):40-45.
[8] 范如國.制度演化及其復雜性理論[M]. 北京: 科學出版社, 2011.
[9] 劉剛.面向領域的軟件需求一致性驗證方法研究[D]. 哈爾濱工程大學博士學位論文, 2008:21-54.
[10] 劉影. 面向領域的隱形政策血緣挖掘方法研究[D]. 哈爾濱工程大學碩士學位論文, 2013:14-33.
[11] 路彩霞. 基于語義的領域政策要點分析與形式化方法研究[D].哈爾濱工程大學碩士學位論文, 2014:8-46.
[12] 盧志剛,劉俊榮,劉寶旭. 基于GTST-MLD的復雜網絡風險評估方法[J]. 計算機科學, 2014.14-23.
[13] 陳寶樓. K-Means算法研究及在文本聚類中的應用[D]. 安徽大學碩士學位論文, 2013.23-46.
[14] 張瑞霞, 楊國增, 吳慧欣. 基于《知網》的漢語未登錄詞語義相似度計算[J]. 中文信息學報, 2012, 26(1):16-21.
[15] 朱新華, 馬潤聰, 孫柳,等. 基于知網與詞林的詞語語義相似度計算[J]. 中文信息學報, 2016, 30(4):29-36.
[16] 陳功,羅森林,陳開江,等.結合結構下文及詞匯信息的漢語句法分析方法[J]. 中文信息學報, 2012(1): 9-15.
[17] Calvo H, Gambino O J, Gelbukh A, et al. Dependency syntax analysis using grammar induction and a lexical categories precedence system[C]//Proceedings of the Computational Linguistics and Intelligent Text Processing -, International Conference, Cicling 2011, Tokyo, Japan, February 20-26, 2011. Proceedings. DBLP, 2011:109-120.
[18] 車萬翔,張梅山,劉挺.基于主動學習的中文依存句法分析[J].中文信息學報, 2012(2):18-22.
[19] 辛霄,范士喜,王軒,等.基于最大熵的依存句法分析[J].中文信息學報, 2009(2):18-22.
[20] 黎琛. 基于依存樹相似度計算的漢語復句關系詞自動識別[D]. 華中師范大學碩士學位論文, 2015.
[21] Abril D, Navarroarribas G, Torra V. Vector Space Model Anonymization[J]. 2013, 256:141-150.