王裕根



摘 要:法治指數評估不僅涉及對“法治”定義的解讀,而且涉及社會學方法意義上的概念化操作。WGI對法治的評估建立在不同潛在數據庫的基礎上,采用“未觀測組合模型”進行測量。全面理清WGI法治指數的概念操作方法、數據整合和收集方法及其結果的反思與平衡,會發現WGI法治指數評估采用的數據處理模型本質上是一個“去偽存真”的過程,其數據采集過程、數據庫之間的關聯度、數據透明度以及樣本偏差性等因子共同構成法治指數結果的可信度因素。我國法治指數評估要在借鑒WGI法治指數評估經驗的基礎上,不斷在實踐中完善法治評估主體、數據生成與結果應用的方法,從而充分發揮法治評估在測度法治發展水平以及推進法治建設方面的重要作用。
關鍵詞:法治;定量;WGI法治指數
黨的十八屆三中全會指出,要加快國家治理體系和治理能力現代化建設,推進法治中國,建立科學的法治建設指標體系和考核標準。盡管世界各國對“法治”觀念定義不盡相同,但“法治”觀念在實踐中能夠被量化的事實越來越成為學界共識。對“法治”概念進行操作化研究,并借助社會統計學以及數學計算知識得出系列量化評估數據,能夠形成衡量一國法治發展水平的“法治指數”(the rule of law index)。雖然法治指數在監測和評估法治發展狀況方面具有重大意義,但法治指數的評估并不是簡單意義上的收集法治數據,運用數理統計方法處理數據,從而得出法治評估數據,它其實體現的是一種認識法治的思維方法,一種在生活中發現法治微觀形態的具體實踐。因而對待法治評估的量化,采用何種“法治”概念化指標操作,以及如何在過程當中體現評估的科學性,依然是法治指數評估活動必須持續關注的問題。顯然,深入這些問題的實質,就必須全面整體辯證地看待法治指數評估,充分認識到量化“法治”的科學性及其限度?;诖耍疚囊匀蛑卫碇笜耍╳orldwide governance indicators,簡稱WGI,下同)法治指數為研究個案(case study),對其內部構造、邏輯結構、計算方法以及結果運用等方面進行深入研究,以期對WGI法治指數有個反思性的理解,從而在理論和實踐層面不斷推進中國法治指數評估不斷向前發展。
一、WGI中的“法治”觀
自1996年開始,來自世界銀行的Kaufmann,Daniel 和 Kraay,Aart和 Zoido,Pablo(以下簡稱KKZ)三位學者建議,在整合來自國際政府組織和非政府組織的各種指標數據基礎上,發展一套能夠有效評估世界各國治理狀況的全球治理指標體系 KKZ綜合廣義和狹義的“治理”概念之后,把治理定義為“一個國家權力運行的傳統和機制”。在此定義下,主要包括三個方面內容:(a)政府的選舉、監督和替代的過程;(b)政府有效制定和推行合理政策的能力;(c)公民和國家得到調整經濟和社會關系的制度的尊重。同時,用六個聚合性維度測量“治理”觀念:發言權與問責(Voice and Accountability)、政局穩定與無暴力(Political Stability and Absence of Violence)、政府效能(Government Effectiveness)、監管質量(Regulatory Quality)、法治(Rule of Law)以及腐敗控制(Corruption Control),形成全球治理指標體系。。自1996年至2014年,世界銀行共發布16份全球治理指數報告,其中1996年至2002年每兩年發布一次,2003年至2014年每一年發布一次。在歷份的全球治理指數報告中,對不同國家法治狀況進行評估并計算相應的法治指數是世界銀行全球治理指數的重要組成部分?!胺ㄖ巍敝笜俗鳛楹饬咳蛑卫硭搅鶄€重要標準之一,通過對法治水平的測量,可以判斷出一國的政治和經濟環境,并將影響投資者的投資行為和決策。
在全球治理指標體系下,“法治”這個聚合性指標來自不同數據庫的變量得出。這些數據庫分為代表性數據庫和非代表性數據庫,代表性數據庫包含了許多國家并且用作這些國家的法治指標可能是世界上所有國家的共性指標,也即涵蓋了大部分發達國家和發展中國家的所有指標。非代表性數據庫要么覆蓋具體的區域范圍(例如,拉美民主動態調查只覆蓋拉丁美洲國家);要么覆蓋特殊的收入水平國家(世界銀行國家政策與制度評估只針對發展中國家)。測量“法治”觀念的數據庫有23個數據庫,其中代表性數據庫9個,非代表性數據庫14個。按照數據庫類型劃分,民間調查組織和官方組織分別都有7個,商業信息提供者有3個,非政府組織有6個。其中,民間調查組織和官方組織數據庫分別占所有數據庫總和的34%,而商業信息提供者和非政府組織所占比例分別為10%和22%。詳見下表1和圖1:
從測量“法治”觀念的數據庫分布類型和比例來看,官方組織以外的數據庫類型占大多數,這有利于減少樣本偏見,保證數據來源的多樣性和客觀性。另一方面,數據庫來源的多樣性能盡可能地測量一國“法治”真實值,使得不同國家之間的比較具有意義。從測量形式上看,代表性數據庫和非代表性數據庫通過專家評估、民意調查等方式測量不同國家的“法治”觀念,直接反映了一國公民、組織和機構對“法治”觀念的感知,間接反映了一國法治發展狀況。從代表性和非代表性數據庫所測量的“法治”內容來看,包括七個方面的“法治”觀念:財產權利保護、司法獨立與司法公信、行政責任、規則的治理、犯罪控制、知識產權保護。因此,如果僅從定性分析的角度看,這七個法治觀念基本都是法治建設和發展的重點內容,但能否用量化分析工具對“法治”觀念準確測量法治發展水平,則須借助科學的統計方法和量化工具。
測量方法貫穿著不同學科復雜的技術思維,也是自然科學的核心觀念(Ginsburg,2011)。與WJP法治指數 2006年美國律師協會前主席威廉·紐康姆(William H.Neukom)創立了一個名為世界正義工程(The World Justice Project)的非營利組織,該組織在微軟、通用、福特等跨國公司的基金會提供大筆經濟支持的前提下,于2008年發布了一套獨立的法治指數。此后,于2010年公布了世界正義工程法治指數第一份報告,至2015年已連續公布了5份研究報告。 從2015年WJP法治指數最新報告得出,WJP“法治”的四項基本原則下,設置9個一級指標和47個二級指標,并在此指標體系下運用專家咨詢和民意調查的方式直接獲得“一手”(first hand)數據測量法治水平,最終運用加權平均法來計算國家整體的法治水平。參見,The World Justice Project Rule of Law Index(2010-2015),http://world justice project.org.最大的區別就在于,WGI法治指數是基于不同數據庫對法治內容或觀念測量得來的數據,采用一種聚合性方法(aggregation method)構建“法治”的組合性指標(composite indicator),通過未觀測組合模型(unobserved components model,以下簡稱UCM)的統計方法來處理不同數據庫之間對同一國家的“法治”觀念測量數據之間的內在聯系。這種內在聯系體現了一國真實的法治水平,從而生成“法治指數”。與觀測到的測量數據不同,WGI法治指數體現為一種“未觀測值”。在KKZ看來,UCM統計方法至少有以下三個方面的優勢(Kaufmann et al.,2011):一是UCM方法用共同單元重新把數據標度,有助于保存潛在數據資源最基本的信息;二是UCM方法提供正常的邏輯架構,可以根據指標數據的精確程度來加權重新標度的指標,而不是簡單的不加權平均;UCM方法的第三個優勢本身強調了與“法治”組合性指標相關的不確定性,適用UCM統計方法的前提是為了說明這樣一個事實:每一個數據的“法治”變量提供的是不完整的信息,而這種信息蘊含了難以直接觀測到的深層次潛在“法治”觀念。UCM提供了一套合理且更加包容的能夠連接不同數據資源的方法,運用UCM處理不同數據庫之間“法治”指標數據的過程,本質上一個“數據提取”(single extraction)的過程。它建立在數理統計技術以及標準誤差估計值的基礎上,能對各個潛在數據庫的數據信息進行“去偽存真”,從而得出各國真實的“法治”估計值。
二、UCM的“去偽存真”
(一)權重配置
在區分了每一個數據庫與“法治”觀念相關的變量之后,接下來的問題便是,如何最佳地組合不同數據庫的測量信息,以最大可能地準確測出一國真實的法治水平。顯然,運用UCM模型離不開對不同數據庫之間提供的數據信息有效性的估計。UCM模型一個關鍵假設是:不同數據庫之間的誤差是獨立的或不相關聯的,因此不同數據庫之間高強度的數據聯系不是數據庫之間的測量誤差關聯,而是反映數據庫測量數據的高度準確性。在KKZ看來,這種高度準確性的關聯表明,不同數據庫測量的信息是豐富有效的。因而,在對代表性數據庫之間分配權重時,相比那些弱相關的數據庫,應該給那些強相關的數據庫確定低的誤差變量并配置高的權重。在構建“法治”組合性指標時,KKZ須對代表性和非代表性數據庫的權重進行配置,具體分為五個步驟:(1)識別各個數據庫內部與“法治”相關的變量,然后通過聚合方法計算這些變量,得出每一個數據庫的一個簡單而不加權平均的數據。例如,在“世界市場在線中心”組織的調查中,只有“司法獨立和犯罪”兩個變量與法治有關,用簡單的算術平均法把這兩個變量求出一個代表“世界市場在線”調查組織測量法治觀念的指標數據。(2)運用公式計算每一個數據庫的指標數據之后,根據各數據庫覆蓋國家的數量和發展水平,確定是否是代表性數據庫和非代表性數據庫。(3)在對法治組合性指標估計值進行聚合計算過程中,對代表性數據庫形成的指標數據進行權重配置。所不同的是,在聚合法治組合性指標時,不是用簡單的平均賦權,而是根據其相互關聯程度配置權重。低的誤差變量和強的關聯性,表明該數據庫提供的信息越豐富,則配以高的權重。(4)對非代表性數據庫形成的指標數據進行相關回歸分析(regress),獲取誤差變量和參數的估計值。如果與權重配置高的數據庫之間的關聯很大,并且得到的誤差估計值也低,則配以高的權重。(5)對法治組合性指標的每一數據庫配以新的權重,重新計算法治組合性指標估計值(Christiane Arndt和Charles Oman)。顯然,代表性數據庫和非代表性數據庫的權重配置過程不一樣,前者運用最大似然函數功能對誤差變量和參數進行估計,從而確定權重配置,后者考慮到不同數據庫之間測量的國家和指標的不連續性,則采用相關回歸分析法對誤差變量和參數值進行估計,進行確定權重配置。但是,二者都遵循同樣的假設:每一個數據庫都是獨立的、不相關聯的;誤差變量與權重配置成反比關系。
按照上述數據處理步驟,可以得出WGI對中國的法治評估值(1996—2014),具體詳見表2。
通過上表的分析可知,世界銀行全球治理指標體系對中國的法治評估所采用的數據庫資源整體上呈增加趨勢,而標準誤差呈下降趨勢。從統計學原理來看,數據庫資源越豐富,采取的法治觀念數據信息越多,標準誤差將逐漸降低,也即數據庫越充分,標準誤差越小,這種關聯性充分體現在上述表格當中,具體詳見圖2。當然,僅從上表的估計值來看,很難看出中國法治發展變化情況,但是這并不否定借助具體數據的技術中立性來分析和描述UCM的內部邏輯架構。
(三)結果反思與平衡
在整個計算過程中,確定代表性數據庫和非代表性數據庫的權重非常重要,甚至可以說,權重設置的準確性與否決定了測量偏見的程度有多大。在可能存在相互關聯的數據庫之間配置權重,不是一個在指標理論上的“重要性”問題,而是考慮到一個不同數據之間的一個“信息重合”問題。在對一個國家真實的法治估計值計算后,需充分考慮該估計值的誤差問題。
而根據KZZ體系的推斷,如果該國的可利用“法治”觀念信息越多,則標準方差越小,也就是說,k的值越大,這些獨立數據資源就越準確,則σk2 越小?!胺ㄖ巍惫烙嬛档臉藴收`差對于法治估計值的信度和效度是必不可少的,因為固有的不確定性是測定估計值時就存在的。例如,不管什么時候,比較兩個國家的法治值,或者比較一個國家在不同時期的法治值,總會聯系兩個法治的估計值并給出90%的置信區間,也就是說,法治估計值是標準方差的+/-1.64倍。這個值域,即“邊際誤差”,可以用以下敘述來解釋:根據觀測數據,那些真實但未觀測到的數值有90%的可能性在此區間。一個相當有用的基本原則是:當兩個國家的這些邊際誤差重疊時,或者是同一時間的兩個點,它們的治理估計差值是非常小的,對統計分析幾乎沒有什么影響。
在估計各國“法治”水平中,存在“邊際誤差”不僅是一個使用主觀數據庫來測量法治值的結果,而且更反映了一個基本事實:用可利用的數據資源來表示標準性概念是不完善的。例如,采用問卷調查來測量各國“司法獨立”觀念認知,顯然是不能準確測量各國“法治”的全部觀念。況且,在發展水平不同的國家,有著不同的社會、法律和政治傳統以及不同的信仰和期待,這使得嘗試比較各個國家的公共的正義觀念沒有太大意義(Jim Parsons,2011)。但WGI法治指數的一個核心優勢是:研究者充分認識到它的不完善性,除此之外,當他們比較不同國家或者不同時間的法治估計值時,讓WGI法治指數適用者正面考慮用此方法存在邊際誤差,并提供量化完善技術把這種不完善性充分考慮進去。
三、批判與回應:WGI法治指數爭議性問題探究
在KKZ公布的系列工作性文章中,提及同行學者對WGI指標體系及其統計方法的批判。這些批判都直接或間接地揭示了用聚合性方法估計WGI六個組成性指標可能存在的問題。針對這些批判,KKZ都做了回應。在批判和回應之間,能夠清晰可見WGI“法治”組合性指標的路徑依賴及其潛在風險,分析這些爭議性問題將從整體上把握WGI法治指數生成的科學依據及其限度。
(一)是否可用于比較?
這種比較既包括“法治”估計值在同一時間段不同國家之間的比較,也包括同一國家在不同時間段的比較。KKZ建立這種比較的前提是,假定世界平均值是不變的,因此一個國家的相對位置在同一時間段的比較和相對位置隨著時間段的變化比較都是有意義的。但是批評者認為,在不考慮世界平均值變化的情況下,這種比較不能看出國家內部變化及不同國家之間法治水平的升降。此外,由于數據庫每一年都在變動,國家在同一時間段的比較和同一國家在不同時間段的比較,不能建立在潛在的兩個極不相同的數據庫基礎之上,因而很難比較。
為了回應上述批判,KZZ選取了近三年更新的數據庫,并對潛在數據庫做連續性估計以尋找有利證據證明世界平均水平是否存在顯著的變化。但最終表明,這些數據庫沒有表明世界平均值存在顯著的變化,也說明把世界平均值設定為0是沒有太大關系的。而針對兩個國家可能不出現在同一數據庫的測量中或者同一國家不能連續出現在同一數據庫等極端情形,KKZ認為,“法治”組合性指標的聚合性優勢就在于,盡管缺乏共同的數據庫,它仍能使不同國家做比較。因為,聚合性方法能夠提供一種科學合理的方式使不同的潛在數據置于同一個共同單元之中,使沒有出現在同一數據庫中的國家進行比較。聚合性指標的一個品質就在于,把不同的數據庫的指標數據轉換成共同的單元,并且不考慮是否為共同的數據庫情況下做一個比較。當然,這也要考慮標準誤差。
上述批評與回應,主要圍繞KZZ構建治理指標體系的目的展開,那就是在不同國家之間和時間段之間能否用于比較各國法治發展水平,這種比較的前提是不同數據庫之間存在的大量的潛在“法治”觀念信息,對此,KZZ用聚合性方法并考慮誤差的前提下,來解決不同國家之間比較的問題。如果僅從目的來看,很難說這種比較是沒有意義的,但也應該看到其缺陷之所在。無可否認的是,KZZ開創了UCM聚合性方法來解決不同數據庫之間的信息聯系和提取的問題,因而從本質上說UCM模型對數據的處理就是一個“去偽存真”的過程,目的是得出各國真實的法治估計值。但是,UCM模型又是建立在許多個前提假設基礎之上的,其中一個關鍵假設是:不同數據庫的誤差是相互獨立并且不相關的,并以此為前提分別配置代表性數據指標和非代表性數據指標的權重。但這種“假設”是否現實?這就涉及UCM測量的數據庫之間關聯度問題。
(二)數據庫之間不相關?
這是許多批評者都質疑的地方??梢哉f,一個核心假設在KKZ本身看來都不太現實的是:數據庫的誤差是不相關聯的。在批評者看來,至少以下四個方面的事實能夠足以證明數據庫之間的誤差存在相互關聯:(1)一個數據庫的專家主觀評估數據可能成為其他數據庫的來源或者影響其他數據庫專家的評估,例如,在法治觀念測量數據庫體系中,國家政策和風險評估的數據可能成為或影響遺產基金會組織專家的評估。(2)兩個數據庫的數據來源可能都來源第三方數據庫的專家評估。例如,“自由之家”評估可能成為兩個不同的數據庫的來源。(3)數據庫中的數據來源往往受國家的經濟發展水平或者財政、政治危機的影響,因為具有時間性和不穩定性。(4)由于對數據庫的問卷回答帶有具體的文化語境,而不同數據庫的問卷調查往往來自同一國家居民的回答,因而具有相關性。上述事實的存在使得KKZ指標體系的信賴度大打折扣。由于數據庫之間的指標數據存在關聯,這使得每一數據庫提供的“法治”觀念信息并沒有像KKZ所設想的那樣是非常充分的,并且邊際誤差比實際計算還要大。例如,不同的數據庫之間,尤其是商業風險評級機構之間在評估中產生的關聯誤差,使得并沒有像它們顯現的那樣提供豐富的法治觀念信息。帶來的后果便是,相互關聯的數據庫配置較高的權重的合理性將減損,進而跨國間比較的正當性缺失。
為了解決這種問題,KKZ希望通過相關的統計和技術手段,來證明這種關聯性很小或者不存在。在KKZ看來,數據庫之間的關聯并不是整個數據庫指標數據之間的系統特征。然而,評價這種批評有多大的重要性很難,因為來自不同數據庫“法治”觀念的高度聯系要么確實歸因于觀念誤差,要么是基于這樣一個事實:這些數據資源事實上準確測量了不同國家“法治”觀念的差異,因此就很有必要相互采納。通過比較商業風險評級機構(經常被認為最能證明“群體思維”)提供的排名,KKZ提出一種新的計算方式區分這兩種產生關聯性的原因。最終驚訝地發現,相比公司問卷調查,這些數據資源相互之間沒有關聯性,這就把數據資源之間的相互關聯的偏見引向懷疑。
毫無疑問,不同數據庫之間存在相互關聯的誤差,問題是如何采用科學的統計方法使得這種誤差減少到最低程度。雖然KZZ提出的關鍵“假設”畢竟與現實不符,但是如果沒有這個關鍵“假設”,KZZ聚合性方法的理論基礎將不存在,也就很難建構整個“法治”量化指標體系的正當性。畢竟,建構“法治”指標的正當性是,數據庫指標之間必須是測量“法治”觀念,從這種意義上講,數據庫之間必須是相互關聯的。但每一個數據庫的測量必須與其他數據庫在測量形式和方法上都不同,因而又必須是相互區別的。而在現實中,每一個數據庫在測量時,為了不低估同一國家“法治”水平就必須提高數據的準確性,于是希望采用獨立的數據庫信息來補充或印證已有的數據庫信息,這就不可避免會引用其他相關的數據庫或者受其影響,而這種現實總是會與KZZ的“假設”存在沖突。因此應該認識到,用UCM聚合性方法估計不同法治水平的國家并在不同國家之間比較,有其固有缺陷。
(三)樣本偏見
在批評者看來,即便假設成立,那么各個數據數據庫之間也存在樣本偏見。涵蓋“法治”觀念測量的代表性數據庫和非代表性數據代表不同利益相關者,包括從民意調查到專家評估再到商業調查的差異。由于存在不同的利益主體,再加上問卷回答者往往受國家經濟發展水平和政治、財政危機的影響,這就不可避免形成樣本偏見。批評者堅信,由于存在樣本偏見,各個數據庫的數據指標提供的信息不太準確,造成權重配置不合理,使得聚合性指標方法不能準確衡量一國的法治水平。例如,在經濟學人智庫調查中,商業經營者希望更少的管制和低的稅收,但合理的稅收和適當管制有利于維護公共利益。如果測量“法治”觀念只注重商業人士的觀念,那么就不可避免形成樣本偏見。這樣,不但影響準確評估一個國家法治發展狀況,而且不能為發展中國家提供發達國家的法治衡量標準的準確信號,因而不能有效為本國改革和發展提供參照和解決對策。除此之外,有些商業精英階層評估法治狀況經常受國家發展水平影響。也就是說,那些發展水平高的國家,法治水平得分就高。然而,在過去的十年里,商業精英階層對發展中國家財政經濟危機的主觀偏見,表明投資者的信心水平并不是建立在一個國家真實的治理水平之上的。
為了回應上述爭議,KKZ宣稱他們依賴的數據庫不僅來自商業組織,也有來自非商業組織和個體的數據。并在報告中,他們進一步說到,其數據來源不僅包括跨國商業調查組織的數據,還包括非政府組織和多邊機構提供的數據。而在所有的商業調查組織中,所有受訪者并非都是商業精英或外國投資者,也有相當一部分的調查者是公司員工。在他們看來最關鍵的問題是,商業精英階層是否本質上與其他社會成員對“法治”觀念有著截然不同的觀點。事實上,不同類型的數據庫的相關系數是一致的。這也就表明,商業精英的評估與其他類型的受訪者并不是明顯不同。KZZ認為,這種批評的背后隱含了另外一種相關批評,那就是專家評估不僅僅會形成偏見,而且可能是錯誤的評估。因此,在批評者看來,專家主觀評估與家庭問卷調查的關聯性很弱。家庭式的問卷調查更能捕捉“法治”信息的客觀性,而專家評估更顯微弱。但在KZZ看來,并沒有明顯證據證明專家評估存在測量誤差,而家庭問卷調查就沒有測量誤差。在一個對國家抽樣的更大樣本中,專家評估和家庭問卷調查的關聯性很低將是不太現實的。因此,KZZ認為,商業調查、專家評估以及家庭問卷調查是相互關聯,直接測量反映“法治”觀念信息的代表性樣本。
盡管如此,由于社會研究中人的特殊性和社會現象的復雜性等因素(風笑天,2009),數據采集的樣本偏見始終是存在的,并直接影響最終的法治測量水平。再加之研究者本人的價值觀影響了社會實證研究的客觀性,“法治”的社會實證研究就存在天然的局限性(任岳鵬,2009)。因為,法治觀念的代表性數據庫和非代表性數據,本身是對不同國家的個人、組織潛意識的法治觀念最直接測量,這種測量不但帶有主觀性,而且具有不確定性。“法治”觀念變量本是法治水平不完美的代表,很難從根本上去衡量真實的水平。從統計學的原理來看,各個數據庫的生成從源頭上就含著樣本偏見。從某種意義上講,意識到樣本偏見就是要揭開WGI中的法治指數“遮羞布”,至少在兩個方面具有重要意義:一是提醒數據庫的制作者采用科學的統計方法和多樣的數據類型,以最大可能減少樣本偏見的誤差;二是提醒數據庫的使用者,尤其是“法治”組合性指標數據使用者不要過度解讀某些數據,在使用時保持謹慎的態度。
(四)缺乏透明
這也是批評者較為關注的。每一個數據庫差異化的變量是如何與其他變量結合成一個數據庫的代表性指標數據的?數據庫給國家排名的系列標準是什么?等等,這都是KZZ治理指標體系缺乏透明性的表現。例如,在“全球在線市場”的調查中,怎樣把“司法獨立”和“犯罪”這兩個法治變量結合成一個該數據庫的組合性指標數據,數據庫內部變量的計算過程如何,KKZ并沒有做詳細說明。由于指標之間沒有一個演算過程,使得人們很難理解每一個數據庫指標數據的生成過程,就更加難理解作為用聚合性方法計算之后的“法治”組合性指標,更遑論如何使用好它。另外,有些數據庫是難以查閱到的,有的甚至需要花費高昂的價錢才能獲取。由于構成組合性指標的數據庫數據不公開透明,這就使得缺乏一定同行學者的批評和使用。
作為回應,KKZ表示,對于構建組合性指標的指標數據已經向公眾公開,大部分數據庫數據都已經進入公眾視野,公眾可以通過其官方網站查閱,同時也能在世行官網中查閱。但是,其他通過商業風險評級機構和商業信息調查得到的數據資源只能用商業手段獲取。為了做到最大透明,這些組織原則上同意使用這些保密數據用作計算治理指標。但至今仍沒有向公眾完全公開的數據庫包括世界銀行國家政策與制度評估(Country Policy and Institutional Assessment,以下簡稱CPIA),還包括非洲發展銀行和亞洲發展銀行的評估。因為涉及這些組織機構政策的披露,并且也不是構建組合性指標所需要的,所以沒有公開。當然,KKZ自己也意識到,接受公眾審查WGI指標體系數據具有重要意義。因此,除了CPIA的數據之外,所有的數據庫的分散數據以及組合性指標的聚合數據都已向公眾開放,這足以保證數據向使用者開放和同行的審查。甚至在KKZ看來,這種披露程度已經超過經濟專業領域的公開標準。
顯然,對于數據使用者而言,是希望能夠全面掌握WGI全部數據,不僅是為了全面理解,更是為了準確使用KKZ指標體系的方法。但事實上,出于保護數據發布者的商業秘密,要做到完全公布又是不太可能的。然而,這并不否定公開WGI“法治”組合性指標構建體系的重要性。換言之,公開透明的指標體系模型是完善KZZ組合性指標體系的重要途徑。這里可能需要進一步考量的是,由何人公開、向誰公開、公開的內容和形式如何等問題。因不同的指標體系的量化主體和目的不同,公開的內容和形式也不盡相同。就KKZ“法治”指標體系而言,如果能夠進一步公開不同數據庫的指標數據以及如何用聚合性方法演算成單一的組合性指標,將有助于使用者更好地理解量化一國“法治”評估水平的技術手段。僅公布量化模型和公式,還不足以告訴使用者或者研究者一國“法治”評估水平是如何生成的。
從對KKZ指標體系的批評和回應中可以看出,量化“法治”觀念最關鍵的三步是采集數據、分析數據、處理數據。采集數據是前提,分析數據建立在系列假設基礎之上,而處理數據決定了最終結果。從某種意義上說,批評者產生樣本偏見的質疑及對關聯性假設的質疑,大都來自于KKZ采集和分析數據的過程。對數據結果是否可用于比較以及對公開透明性的質疑則貫穿于采集、分析以及處理數據的全過程。其中,數據分析和處理是整個量化評估過程的關鍵,所以就決定了同行學者批評的主攻方向。
毫不奇怪的是,也許在KKZ看來,其數據處理和分析模式已經是萬無一失,但批評者總是以一種“完美的眼光”去挑剔聚合性方法在分析處理數據時的不足。從目的上看,無論是批判還是回應,誤差變量和測量結果的邊際誤差是批評者和KKZ都希望極力避免的。但實際上,任何一個“法治”測量指標體系都存在誤差,一方面,這是因為“法治”本身一個復雜的社會現象,難以全面測量,測量結果不可避免存在誤差;另一方面,“法治”觀念在社會生活中總是具有相對的穩定性和一致性,尤其是對KKZ“法治”組合指標體系來講,其“法治”變量并不是“法治”觀念的全部代表,僅靠科學的統計方法是難以消除誤差的存在。或許,評估設計者能做的只能是保持謹慎的態度以最大可能減少誤差。所以,如果不考慮指標生成的具體語境(context),即便得出全球治理組合性指標是多么地準確和可信,那仍然可能是錯誤的結論(Juan Carlos Botero et al.,2011)。這一點為KKZ所認同,同時KKZ認為全球治理指標體系的一個核心優勢是:研究者充分認識到它的不完善性,除此之外,當他們比較不同國家或者不同時間的值時,讓WGI使用者正面考慮用此方法存在邊際誤差并提供量化完善工具把這種不完善性充分考慮進去。
四、結語
仔細分析WGI法治指數的邏輯框架、內在結構以及結果應用等方面的量化實踐之后,我們發現WGI法治指數評估在評估主體、數據來源以及結果應用等方面對我國當前法治評估實踐具有重要借鑒意義。從評估主體上看,WGI法治指數評估采用第三方學術機構進行評估,有利于保證評估主體的中立性;從數據來源來看,WGI法治指數評估盡可能采取數據來源不同的多方面數據庫進行評估,有利于保證樣本的真實性,提升了評估的效度;從結果應用來看,KKZ在設計評估指標時要求使用者在應用評估結果時要注意指標的生成語境,正面考慮標準誤差問題,有利于科學看待評估結果的限度。因此,為充分發揮法治評估在測度法治發展水平、找準法治建設方向以及推進法治改革方面的重要作用,我國法治指數評估應充分借鑒WGI法治指數評估在評估主體、數據來源以及結果運用等方面的經驗實踐進一步完善和改進。這就要求,首先在評估主體方面,要改變以往政府主導的法治績效考核方式,注重充分調動學術機構、科研院所等第三方社會評估機構的力量積極參與法治建設的評估,以確保評估主體的中立性;其次在法治評估數據生成方面,需要建立多方面的數據來源渠道,保證量化樣本的代表性和真實性,不斷減少數據的生成和處理時產生的標準誤差;最后在評估結果方面,不應夸大法治評估結果,而應該結合數據的生成語境來分析結果的適用范圍,正確區分數據之間的相關性和因果關系,注重定性分析與定量描述的結合。
總之,由于我國法治評估起步較晚,法治評估方法還不成熟,因此需要借鑒域外法治評估經驗不斷實踐。從某種意義上講,不斷實踐可能是支撐法治指數評估體系日趨完善的強大動力,這是因為法治指數評估體系本身是一個具有實踐品質的動態機制。只有通過不斷和反復實踐,才可能在實踐中不斷發現法治指數評估體系暴露出的各種問題,找準問題方向、尋求改進措施,進而在新的層面上提出完善對策。再加之,由于法治建設具有普遍性和特殊性,域外法治評估的理論和實踐經驗也只有在中國法治建設具體實踐中,才可能印證其生命力。
參考文獻:
[1] 風笑天,2009,《社會學研究方法》(第三版),中國人民大學出版社。[Feng Xiaotian,2009,“Sociological Research Methods”(Third Edition),Renmin University of China Press.]
[2] 任岳鵬,2009,《法的社會實證研究能與不能》,《政治與法律》第8期。[Ren Yuepeng,2009,“Social and Empirical Studies of Law Can and Can not”,Politics and Law,8.]
[3] Christiane Arndt and Charles Oman,2006,“Uses and Abuses of Governance Indicators”,Development Centre Studies by OECD,pp.49-55,pp.103-105.
[4] Ginsburg,Tom,2011,“Pitfalls of Measuring the Rule of Law”,Hague Journal on the Rule of Law,Vol.3,No.2,p.274.
[5] Jim Parsons,2011,“Developing Clusters of Indicators: An Alternative Approach to Measuring the Provision of Justice”,Hague Journal on the Rule of Law,p.179.
[6] Juan Carlos Botero et al.,2011,“Indices and Indicators of Justice,Governance, and the Rule of Law: An Overview”,Hague Journal on the Rule of Law,p.158.
[7] Kaufmann,Daniel et al.,2007,“Worldwide Governance Indicators Project: Answering the Critics”,World Bank Policy Research Working Paper,No.4149,pp.12-14.
[8] Kaufmann,Daniel et al.,2011,“The Worldwide Governance Indicators: Methodology and Analytical Issues”,Hague Journal on the Rule of Law,pp.220-246,pp.237-239.