張萌萌 楊雪冬
20世紀30年代,西方社會出現了所謂的“社會指標運動”,一系列指標被開發出來,以測量社會發展程度和公共政策實施,目的逐漸明確,方法日益系統。①Clifford W.Cobb, Craig Rixford, Lessons Learned From The History Of Social Indicators, San Francisco: Redefining Progress, 1998.這種思路在1970年代擴散到國際領域。進入21世紀后,出現了各類指標與排名的繁榮,公私機構紛紛投入其中,對全球社會生活的各個方面進行評估,形成了蔚為大觀的“指標產業”,吸引了大量資源,也推動了數據、方法和分析工具的迅速發展。政治類評估指數也位列其中,隨之發展。“聯合國發展計劃”的一份調查報告表明:當前關于治理方面——如政治腐敗、公民自由、性別平等、人權、經濟競爭力、新聞自由、政治穩定、環境表現、人類發展——的指數共有165種之多。其中,83%的指數是在1991年到2006年間研發的,50%的指數是在2001年到2006年間研發的。②奧代德?勒文海姆著,朱劍編譯:《考核國家:國際“治理指數”的福柯式視角》,《探索》2016年第4期。
政治評估指數是指,通過確定現代政治系統整體或某個領域運行應遵循的原則或者應達到的標準,對其進行細分和可測量化,并運用到對全球范圍內多個國家(或地區)政治運行的測量和評估上,以打分或排名的形式發布評估結果的研究項目。評估內容主要可分為政治制度分類、政治規范遵守以及政治系統運行績效。根據不完全統計,專注政治類指標并獲得學界認可的評估指數約有60套,①Princeton University library, “Political & Governance Indicators”, https://libguides.princeton.edu/politics/indicators, 2022-09-24.如果將安全、政治傳播、社會治理或人類發展等領域也納入廣義的政治體系,相關指數則達到上百套。
政治評估指數從需求、目標到構建的機制與影響,都迥異于經濟、社會等其他類型的指標。盡管政治類評估指標被普遍認為帶有明顯的價值判斷,有將西方體制理想化之嫌,但是依然有諸多機構先后參與其中,少數指標體系產生了全球性的影響,甚至成為測量各國乃至全球民主、法治、人權、治理等發展的標尺。這一看似矛盾的現狀促使我們關注并深入探究政治類評估指數的發展、現狀、構建的機制與產生的影響,進而討論現有政治類指數存在的問題和政治發展評估遭遇的普遍困境。對這些指數的再評估,不僅有助于我們全面認識各國政治發展道路的差異性,也有利于更深入地思考中國政治發展道路的全球意義。
本文分為四個部分。第一部分簡要概述政治發展評估指數的發展過程;第二部分從上百個指數中選擇了10個在世界上具有較大影響的評估指數,對指數的構建主體、理論框架、評估方法以及影響力進行評析;第三部分著重討論這些評估指數在分析政治發展的復雜現實中,所做出的貢獻和存在的缺陷;第四部分是結論。
二戰結束后,隨著一大批前殖民地國家取得獨立,開始現代國家制度建設,政治發展問題成為學術研究的重點。冷戰激發的制度間競爭,又使得何種政治發展道路道路更優、哪些制度設計更好等問題,迫切需要獲得理論論證。以統計方法為代表的定量研究方法的不斷發展和改進,為將政治發展這個抽象而復雜的現象具象化提供了技術條件。因此,伴隨著各種類型經濟發展評估指數的繁榮,政治類評估指數也開始在比較政治學等學科中出現了。目前仍被視為所謂三大“民主指數”(政體指數、自由指數和民主多樣性指數)中的兩項始于20世紀60、70年代。
冷戰結束后,西方社會陷入了“歷史終結”的欣喜之中,政治發展似乎有了統一而“唯一”的衡量標準,政治評估也隨之掀起了第一波浪潮。這個時期出現的評估指數致力于倡導自由民主模式,探索評價“不可評價”的社會與政治現象,②Simon Bell, Stephen Morse, Sustainability Indicators: Measuring the Immeasurable?, London: Earthscan, 2008.比如民主(政體指數)、自由(自由指數)或腐敗(腐敗感知指數)。學術界與實務界的“科學化”與“量化”熱潮,以及冷戰結束以后非政府組織,尤其是國際發展與援助機構影響力的不斷提升,援助分配原則的可操作化改革,極大地推動了政治評價指數的發展。以民主規范為指導原則的國際組織和援助國家主體在很大程度上決定了指數的重點關注領域和評價標準。
21世紀的第一個十年是政治評價指數發展的第二波浪潮。政治評價指標更加偏向于客觀評估方法,數據來源和評估維度也更加多樣化,并將關注的重點轉向“治理”需求。第二代指數致力于彌合評估與決策之間的鴻溝,與第一代指數相比,評估對象在政治上更加易于接受,客觀性和透明度方面也都有很大的改進。 20世紀末主流發展理念的挫敗,發展中國家的政策反饋以及對第一代指數的批評都推動了這一階段變革的快速發展。各種私人和公共機構加入指數評估的行列,不止覆蓋了政治制度,也包括更為廣義的治理以及社會發展的方方面面。在這一時期,一方面創建機構更為多樣,測量對象更為多樣,另一方面對于評估對象也有了更有針對性的分類。一些指數集中關注特定類型的國家,比如失敗國家指數(后更名為脆弱國家指數)。相較于早期指數,這一時期的指數更具有針對性。二代指數的構建目的和訴求不僅是做出極度簡化和抽象的排名,而更加致力于做出具體的診斷并提出解決的辦法。③Stephanie E.Trapnell, “Actionable Governance Indicators: Turning Measurement Into Reform”, Hague Journal on the Rule of Law,Vol.3, No.2, 2011, pp.317-48; Tero Erkkil?, “Global Governance Indices as Policy Instruments: Actionability, Transparency and Comparative Policy Analysis”, Journal of Comparative Policy Analysis: Research and Practice, Vol.18, No.4, 2016, pp.382-402.
21世紀的第二個十年迎來政治評估指數的第三波浪潮。這個時期出現的指數一般被稱為第三代指數。基于對二代指數的全面評估與反思,評估界對第三代指數提出了更高的要求,但從結果來看,高質量新指數的產出遠不及預期,一代和二代指數仍然是政治評價指數的主導。在構建方法上,由于政治發展理念的復雜化,量化技術的發展以及數據來源的進一步豐富,出現了多個復合其他指數的集成指數,其中最為引人注目的是世界銀行的全球治理指數(WGI)。該指數綜合大量與治理相關的指標數據,用以詮釋國家間的治理水平差異。指標構成和數據來源的多元化也造成了評價標準和理念和混雜,民主制度、政治原則、績效表現在一些指數中彼此重疊,這一特點在三代指數中尤其突出。同時,服務決策和發展實踐仍然是這一階段的首要任務。
這些評估方法和指標體系,分布已經超越了傳統政治學的研究范圍,橫跨了整個社會科學領域。這些發展主要得益于三方面原因:首先,在理論方面,20世紀90年代以來經濟學的新制度理論轉向推動了制度研究的全面發展,測量制度與發展結果之間的關系成為學術熱點。其次,在技術方面,測量和評估程序更加成熟,基礎數據日益豐富可得;最后,在需求方面,各國政府、國際組織和商業機構對指標信息的需求不斷增長。
從目前的指數版圖來看,存在三大類評估框架:政治制度的類型、政治規范的遵守和制度運行的績效(見圖1)。按照數據最終呈現形式,現有指數也可以劃分為排名指數和面板指數,①Hazel Feigenblatt, “Governance Indicators and the Broken Feedback Loop Leveraging Communications for Impact”, in Helmut K.Anheier, Matthias Haber, Mark A.Kayser (eds.), Governance Indicators: Approaches, Progress, Promise, New York: Oxford University Press, 2018, pp.315-349.前者提供一個單一排名,而后者則對不同指標進行單獨打分,這一類指數往往也稱為數據集或數據庫,但仍被視為廣義評估指數。

圖1 三大類政治評估指數(來源:作者自制)
本文從現有的近百種評估指數中篩選了10種,包括屬于政治制度類的3種;屬于政治規范類的4種;以及屬于制度績效類的3種。選擇標準主要有四個:一是評估內容,指數評估的具體內容屬于定義中三種主要類型的一種。二是發布周期,指數在推出以后,必須周期性連續發布。三是覆蓋范圍,指數必須覆蓋多個國家,且以國家為評估的基本單位。四是影響力,指數在學術界、大眾媒體或政策實務界有較大的傳播效果或政策影響。
1.政體指數(Polity)
政體指數研究于20世紀60年代末由美國馬里蘭大學政治學學者發起,第一代數據發表于1975年,后續研究由“系統性和平中心”(Center for Systemic Peace)主持。項目由美國中央情報局旗下的政治不穩定工作組(Political Instability Task Force)資助(資助于2020年2月終止)。最新的“政體第五代指數”(Polity 5)由第四代指數(Polity IV)改造發展而來,記錄和監測1800年以來167個國家政權模式和政權的變化。①Center for Systemic Peace,“ The Polity Project: About Polity”, https://www.systemicpeace.org/polityproject.html, 2022-08-24.第五代指數目前仍在開發和改造過程中,政治學研究中廣泛使用的仍然是第四代指數。
政體指數的獨特之處在于它關注制度中民主與專制相伴而非相互排斥的形式。這一觀點設想了一個治理權威的譜系,從完全制度化的獨裁,到混合的或不完全的威權政權,再到完全制度化的民主。政體指標的測量方法是開創性的,但同時也受到大量的質疑和批評:一是政體指數判定民主或專制的各項指標主要集中在體制設定方面,不涉及制度績效和公民權利。二是對政治體制的評估也更為偏重行政系統。盡管指數設定中包含對選舉的考察,但對于選舉本身的測量是較為粗糙的。三是對美國歷史的美化,比如將1842年的美國列為全世界唯一的民主國家,事實上此時的美國仍是少數實行奴隸制的國家。四是評估指數對于西方國家的殖民主義歷史選擇了回避,比如1900年之前的非洲地區被簡單處理為“無數據”。②Adam Johnson, “Vox’s CIA-Backed ‘Democracy’ Standard Is OK With Slavery and Women Not Voting”, Fairness & Accuracy in Reporting, https://fair.org/home/voxs-cia-backed-democracy-standard-is-ok-with-slavery-and-women-not-voting/, 2022-08-24.
2.民主多樣性指數(Varieties of Democracy/V-Dem)
民主多樣性研究所創立于2014年,總部設在瑞典哥德堡大學政治學系。民主多樣性指數致力于在世界范圍內測量和評估民主發展,資助機構非常多元,包括歐盟委員會等多家政府機構、世界銀行、多家非政府機構以及高校、研究所等學術機構。③V-Dem, “The V-Dem Project: About the Project and Methodology”, https://www.v-dem.net/project.html, 2022-08-24.
與其他主要政治評估指標相比,民主多樣性指數的創建時間較晚,但這也使得該指數在創始之初就能夠利用最新的測評方法以及豐富的數據來源。其樣本規模、專家數量、數據多樣性和測量方法之復雜程度,都是早期政治評估指數難以企及的。指數由五個民主原則一級指標構成,包括選舉、自由、參與、協商和平等。再進一步分解為82項二級指標和400多項三級指標,其中約半數為來自官方文件的客觀事實指標,其余一半為專家主觀評估。④Staffan I.Lindberg, Jan Teorell, Michael Coppedge, John Gerring et al., “V-Dem: A new way to measure democracy”, Journal of Democracy, Vol.25, No.3, 2014, pp.159–169.
民主多樣性指數的創始目的是建立一個比較民主政治的數據庫,但在近年來逐漸向政策領域發展。民主多樣性指數中的多項指標也成為其他重要治理指數的數據來源,比如世界銀行的全球治理指標、“透明國際”的清廉指數和美國國際發展署的自力更生國家指數(Journey to Self-Reliance Country Roadmap)。⑤USAID, “FY 2021 USAID Journey to Self-Reliance Country Roadmap Methodology Guide”, https://roadmaps.usaid.gov/docs/FY_2021_USAID_Journey_to_Self-Reliance_Country_Roadmap_Methodology_Guide.pdf, 2022-08-24.但總體來說,民主多樣性指數的曝光率不及世界自由指數這樣的老牌政治評估指數。
3.民主指數(Democracy Index)
英國經濟學人集團旗下的經濟學人智庫(EIU)從2006年開始發布民主指數。民主指數測量全球167個國家和地區的民主狀況,幾乎涵蓋了全世界的所有人口和世界上絕大多數國家(微型國家除外)。⑥EIU, “Democracy Index 2020: In Sickness and in Health?”, https://www.eiu.com/n/campaigns/democracy-index-2020/, 2022-08-24.民主指數包括5個一級指標下的60個二級指標,測量選舉過程和多元化、政府職能、政治參與、政治文化和公民自由。
依托以《經濟學人》周刊為旗幟的經濟學人集團,民主指數在媒體曝光度和公眾關注程度上具有明顯的優勢,但多年來也受到各種質疑和批評。首先,該指數并沒有披露評估專家的身份,經濟學人智庫沒有說明他們是智庫的工作人員還是外部專家,也沒有提供其數量、所在行業、職業或國籍的任何信息。其次,民主指數的評估與打分過程存在極大的模糊性、不確定性。為了獲得一致性得分,指數對于民主相關變量進行了極簡化處理,這無疑會對指數的準確性造成影響。①Peter Tasker, “The Flawed ‘Science’ behind Democracy Rankings”, Nikkei Asia, https://asia.nikkei.com/NAR/Articles/Peter-Tasker-The-flawed-science-behind-democracy-rankings, 2022-08-24.
1.世界自由指數(Freedom in the World)
世界自由指數由位于美國華盛頓特區的非營利組織“自由之家”(Freedom House)于1972年開始正式發布。盡管在官方網站上聲明“(世界自由)報告是在美國國家民主基金會、美林家族基金會、谷歌公司和禮來基金會的慷慨支持下完成的。《世界自由》不接受政府資助”,②Freedom House, “About the Report”, https://freedomhouse.org/report/freedom-world, 2022-08-20.但“自由之家”的歷年財務報告顯示來自聯邦政府的資助一直以來都是該組織最重要的財源,且數量和比例都在逐漸增加。 2020年資助規模達到近4600萬美元,超過全部資金來源的90%。③Freedom House, “Financial Statements”, https://freedomhouse.org/sites/default/files/2021-05/Freedom_House_FY2020_Audited_Financial_Statements.pdf, 2022-08-20.
世界自由指數是全球最具影響力的政治評估指數之一。無論從媒體曝光度、學術參考還是政治決策方面,自由指數都有相當的影響力。④Tim Büthe, “Beyond Supply and Demand: A Political-Economic Conceptual Model”, in Davis, Fisher, Kingsbury, Merry (eds.),Governance by Indicators: Global Power through Classification and Rankings, Oxford: Oxford University Press, 2012, p.50; Matthias Haber, Olga Kononykhina, “A Comparative Classification and Assessment of Governance Indices”, in Helmut K.Anheier, Matthias Haber, Mark A.Kayser(eds.), Governance Indicators: Approaches, Progress, Promise, pp.11-42.與許多政治評估指數發布機構不同,“自由之家”在世界政治中非常活躍,從人員、資金到活動都與美國政府聯系緊密。在理論框架方面,有學者指出世界自由指數對民主的定義過于片面,過分強調民主較為正式的方面,而未能捕捉到非正式但真實的權力關系和影響途徑,并經常導致事實上的民主偏離。因此,某個國家可以“在形式上看起來自由民主,但在實際運作中可能相當不自由”。⑤Wouter P.Veenendaal, “Democracy in Microstates: Why Smallness Does Not Produce a Democratic Political System”,Democratization, Vol.22, No.1, 2015, pp.92–112.此外,在測量方法上,依賴觀察和主觀判斷的專家打分法也難以避免系統性偏見的產生。
2.法治指數(Rule of Law Index/RoLI)
世界正義項目(World Justice Project)從2008年開始發布法治指數,該項目由美國律師協會發起,旨在評估各國在法制建設及遵守法律方面的情況。該項目最初由比爾和梅琳達蓋茨基金會通過美國律師協會資助,目前得到多個組織、公司和私人基金會的財務支持。
法治指數對于“法治”的定義包括四項基本原則:責任、公正法律、開放政府以及無障礙和公正的爭議解決。⑥The World Justice Project, “Rule of Law Index 2020”, https://worldjusticeproject.org/sites/default/files/documents/WJP-ROLI-2020-Online_0.pdf, 2022-06-21.值得強調的是,法治指數是少數幾個獨立收集公眾數據的指標之一。對普通公眾的一般性調查降低了對專家的依賴以及可能產生的評估偏見。但該指數也有局限性,社會調查方法存在的一些固有問題在法治指數調查中同樣難以克服,專家調查由于隔年進行一次,調查時間可能對調查結果產生一定影響。調查結果并不能體現變量之間的因果關系,也難以直接用于政策改革。
3.腐敗感知指數(Corruption Perceptions Index/CPI)
腐敗感知指數是由非政府組織“透明國際”建立的清廉指數排行榜,反映全球商人、學者及風險分析人員對世界各地腐敗狀況的觀察和感受。“透明國際”總部設在德國柏林,由世界銀行負責非洲地區項目的前官員于1993年成立。“透明國際”的主要資助來源包括多個國家和地區的政府機構、多邊組織和基金會等。⑦Transparency International, “Who Support Us”, https://www.transparency.org/en/the-organisation/who-supports-us, 2022-06-22.從1995年開始,腐敗感知指數對各國“公共部門腐敗感知水平”進行排名。⑧Transparency International, “Our Story”, https://www.transparency.org/en/our-story, 2022-06-22.腐敗感知指數將腐敗定義為“濫用委托權力以謀取私利”。由于腐敗行為的隱蔽性以及難以衡量腐敗的絕對程度,腐敗感知指數測量的是人們對腐敗的看法。
腐敗感知指數是世界范圍內使用最廣泛的腐敗指數,受到各類機構和全球媒體的廣泛關注,也被國際發展和援助組織用來指導資源分配。對腐敗感知指數的批評主要集中于測量方法上。比如,有學者指出,腐敗是一個過于復雜的概念,不能用一個分數來衡量。通過衡量人們對腐敗的看法,而不是腐敗本身,指數可能只是在強化現有的刻板印象;指數只衡量公共部門的腐敗程度,而忽略了私營部門。①Dan Hough, “Here’s this Year’s (Flawed) Corruption Perception Index.Those Flaws are Useful”, The Washington Post, 2016-01-27.此外,由于腐敗感知指數的數據收集并不面向普通公眾,因此被認為存在嚴重的精英偏見,并由此引發不當的政策反應。②Alex Cobham, “Corrupting Perceptions”, Foreign Policy, 2013-07-22.作為對腐敗感知指數的補充,“透明國際”推出了全球腐敗晴雨表,面向普通公眾進行社會調查。但全球腐敗晴雨表的規模、曝光度和影響力都遠遠不及腐敗感知指數。
4.全球和平指數(Global Peace Index/GPI)
全球和平指數是一套測量國家或地區和平程度的指標,由經濟與和平研究所(Institute for Economics & Peace,IEP)于2007年首次發布。指標的部分數據由英國經濟學人智庫(EIU)的專家小組收集。研究所的創立者澳大利亞企業家兼慈善家史蒂夫?基利亞(Steve Killelea)曾兩次獲提名諾貝爾和平獎。目前,研究所受到包括澳大利亞政府、全球多個政府間組織和基金會的資助。③Institute for Economics & Peace, “About”, https://www.economicsandpeace.org/about/, 2022-01-31.
全球和平指數測量國家卷入當前國內和國際沖突的程度,評估一個國家內部的和諧或不和諧程度。指標分為三個關鍵的主題類別:尚未平息的國內和國際沖突、國內和諧或動亂程度以及軍事化水平。全球和平指數使用的數據以客觀數據為主,來源廣泛,包括國際戰略研究所、世界銀行、斯德哥爾摩國際和平研究所、聯合國毒品和犯罪問題辦公室等等。個別指標由于缺乏數據,會與經濟學人智庫合作進行定性評估。④Institue for Economics & Peace, “Global Peace Index 2021”, https://www.economicsandpeace.org/wp-content/uploads/2021/06/GPI-2021-web.pdf, 2022-01-31.
除了為學術研究提供數據和評估標準,全球和平指數也為各國政府提供決策依據,尤其在促進旅游產業和建設國家品牌方面,并為非政府組織和私營部門提供項目活動信息,幫助它們選擇項目的重點領域,評估風險。因此,全球和平指數自發布以來獲得新聞媒體、各國實務界和國際組織的普遍關注。也有批評指出全球和平指數結果的不合理性,這種情況主要源于定義和平以及分配指標權重的困難性。⑤Jay Ulfelder, “The Trouble with Combining, or Why I’m Not Touting the Global Peace Index”, https://dartthrowingchimp.wordpress.com/2012/06/12/the-trouble-with-combining-or-why-im-not-touting-the-global-peace-index/, 2022-01-31.
1.國家政策和機構評估(Country Policy and Institutional Assessment/CPIA)
以世界銀行為代表的國際金融機構從20世紀70年代開始著手設計針對受援國家的國別政策和體制評估。國家政策和機構評估始于1977年,在相當長一段時期內,一直是一項內部評估,指導世行國際開發協會(IDA)向發展中國家提供貸款和贈款。自2006年以來,國家政策和機構評估的數據向公眾開放。⑥The World Bank, “The World Bank’s Country Policy and Institutional Assessment: An IEG Evaluation”, https://openknowledge.worldbank.org/handle/10986/13547, 2022-01-21.其每年評估借款國的經濟管理、結構政策和公共部門績效,評估結果用于指導資源分配,匯報國家援助戰略和世界銀行貸款活動,因此國家政策和機構評估的國家總評分被稱為“世界銀行國際開發協會資源分配指標”(IRAI)。
國家政策和機構評估旨在從績效角度評估國家當前投入的政策和制度的質量,測量國家支持可持續增長和減貧的程度,從而有效吸收發展援助的能力。其中特別列出了脆弱國家這一分類,使其能夠從基于績效的援助分配中獲得豁免。⑦World Bank, “Information Note: The World Bank’s Harmonized List of Fragile Situations”, https://www.worldbank.org/content/dam/Worldbank/document/Fragilityandconflict/FragileSituations_Information%20Note.pdf, 2022-01-21.國家政策和機構評估的評估標準和評估方法也一直受到質疑,比如各項評估標準中存在一定的重疊,專家評估的主觀性問題。此外,國家政策和機構評估是在董事會國家的要求下建立的診斷性工具,由世行內部專家制定,因而反映的是所屬機構對于善治的政策和機構設置偏好。①The World Bank, “The World Bank’s Country Policy and Institutional Assessment: An IEG Evaluation”, https://openknowledge.worldbank.org/handle/10986/13547, 2022-02-21.
2.脆弱國家指數(Fragile States Index/FSI)
總部位于美國華盛頓特區的智庫和平基金會和美國《外交政策》雜志從2005年開始發布失敗國家指數(Failed States Index),對世界各國總體的社會穩定性進行排名。 2014年,該指數更名為脆弱國家指數(Fragile States Index),旨在建立一套預警機制,有效應對國家脆弱性問題。和平基金會創立于20世紀50年代,當時主要關注冷戰背景下的核不擴散問題。冷戰結束后,和平基金會將注意力轉向弱小國家,以及更為廣泛的暴力沖突、國家脆弱性、安全和人權等問題。目前,和平基金會的合作者和資助來源包括數十個教育機構、政府組織、政府間組織、私營企業以及基金會。②FFP, “Who We are”, https://fundforpeace.org/who-we-are/, 2021-12-20.
脆弱國家指數的起源可以追溯到和平基金會的沖突評估系統工具(CAST)的創建,該工具開發于20世紀90年代,旨在為決策者和一線工作者提供理解和測量復雜環境中的沖突驅動因素和動態的框架。從2004年開始,和平基金會與《外交政策》合作,以此框架為基礎,推出了失敗國家指數,進一步對國家進行評估和排名。由于對理論、理念到評估方法的一系列調整,失敗國家指數在更名為脆弱國家指數后,評估的重心在一定程度上由安全轉向發展。
盡管脆弱國家指數自發布以來就受到廣泛關注,但各種批評也一直伴隨左右。“失敗國家”這一名稱多年來一直飽受爭議。批評者指出“失敗國家”暗示著無可挽救。這一爭議也是2014年指數更名的原因之一。③FFP, “From Failed to Fragile: Renaming the Index”, https://fundforpeace.org/2014/06/24/from-failed-to-fragile-renaming-theindex/, 2021-12-20.此外,批評者對于脆弱國家指數作為政策工具的有效性提出質疑,認為指數只關注癥狀,忽視造成現狀的原因或可能的治愈方法。④Lionel Beehner, Joseph Young, “Is Ranking Failed or Fragile States a Futile Business?”, The Washington Post, 2014-07-14,https://www.washingtonpost.com/news/monkey-cage/wp/2014/07/14/is-ranking-failed-or-fragile-states-a-futile-business/, 2011-12-21; Miles M.Evers, “The Fatally Flawed Fragile States Index”, The National Interest, https://nationalinterest.org/blog/thebuzz/the-fatally-flawed-fragile-states-index-10878, 2021-12-25.
3.世界治理指數(Worldwide Governance Indicators/WGI)
世界治理指數從2002年開始發布,該指數是衡量一國政府公共治理成效方面最為權威的指標體系。與機構內的一些其他指標數據不同,世界治理指數并不指導世界銀行的資源分配。⑤WGI, “Introduction”, https://info.worldbank.org/governance/wgi/Home/Documents#doc-intro, 2021-12-26.其評估內容包括六個方面:言論和問責、政治穩定和暴力削減、政府效能、監管質量、法治、腐敗控制。⑥World Bank, “Worldwide Governance Indicators”, https://info.worldbank.org/governance/wgi/, 2021-12-26.
世界治理指數強調評估、理論發展和政策之間的聯系,“讓治理問題的相關探討更加實證化”,⑦Kaufmann D., Kraay A., “Governance Indicators: Where Are We, Where Should We Be Going?”, World Bank Policy Research Working Papers, https://elibrary.worldbank.org/doi/abs/10.1596/1813-9450-4370, 2021-12-26.是當前諸多治理定量研究中嚴謹度最高、影響力最大、使用面最廣的綜合指標之一。治理指標為蓬勃的治理實證研究提供數據支持,學術界使用世界治理指數來驗證治理與增長之間的關系,⑧Daniel Kaufmann, Aart Kraay, “Growth Without Governance”, World Bank Policy Research Working Papers, 2002, https://ssrn.com/abstract=316861, 2021-12-26; Daniel Kaufmann, Aart Kraay, Massimo Mastruzzi, “Governance Matters VI: Governance Indicators for 1996-2006”, World Bank Policy Research Working Paper, https://ssrn.com/abstract=999979, 2021-12-26; Marcus J.Kurtz, Andrew Schrank, “Growth and Governance: Models, Measures, and Mechanisms”, Journal of Politics, No.69, 2007, pp.538-554.為世界各地的決策者提供了政策改革和監測的工具,國際發展實務界也可以用其作為政策討論尤其是對外援助方面的政策依據,比如千禧挑戰公司(MCC)就使用世界治理指數的部分指標來選擇援助國家。⑨MCC, “Who We Select: Control of Corruption Indicator”, https://www.mcc.gov/who-we-select/indicator/control-of-corruptionindicator, 2021-12-27.對于世界治理指數的分析和批評也始終存在。比如,有學者指出其對于治理的定義過于寬泛,難以真正對政府績效進行評估。①Anna Persson, Bo Rothstein, Jan Teorell, “Why Anticorruption Reforms Fail-Systemic Corruption as a Collective Action Problem”,Governance, Vol.26, No.3, 2012, pp.449-471.六個一級指標之間的邊界并不明確,對于何為“善治”,何為“惡治”并沒有明確的標準。②Laura Langbein, Stephen Knack, “The Worldwide Governance Indicators: Six, One, or None?”, Journal of Development Studies,Vol.46, No.2, 2010, pp.350-370.其復雜的指標來源和變量也對數據使用者造成困擾。在一些情況下,同一指標不同國家的數據可能來自多個不同的數據源,這也使得無論是時間上還是空間上的比較都存在問題。對于數據源的選擇依據,指數也并沒有充分的說明。雖然數據來源中既包括面向普通公眾的社會調查,也包括專家評估和公司調查,但前者的權重偏低,專家偏見仍然沒有得到有效克服。此外,很難使用該指數來直接指導治理實踐,指數更多的是對現狀的描述,對于其成因和影響,以及如何應對,并沒有給出指導意見。③M.A.Thomas, “What Do the Worldwide Governance Indicators Measure?”, European Journal of Development Research, Vol.22,No.1, 2009, pp.31-54.
1.構建主體
對指數構建主體及其資金來源的考察是探討指數構建機制的開始,建構主體與指標的構建方式和影響力密切相關,但卻往往受到研究者的忽略。從以上指數的發布機構來看,可以分為三大類。
第一類是政府間機構,尤其是作為“知識銀行”④世界銀行:《我們是誰》,https://www.shihang.org/zh/what-we-do,2022-01-03。的世界銀行發布了多項重要指數,以指導和援助世界各國的發展。世界銀行自20世紀90年代中期重新定位為援助與發展的知識和數據銀行,⑤Don Cohen, Bruno Laporte, “The Evolution of the Knowledge Bank”, https://web.worldbank.org/archive/website01537/WEB/IMAGES/EVOLUTIO.PDF, 2022-01-03.各種量化指標的輸出是出于資金分配科學化和透明度的需求,反映世界銀行早期作為傳統金融機構的定位,更體現出向世界,尤其是發展中地區提供經濟發展知識的新的定位。一方面,作為布雷頓森林機構的重要組成部分,世界銀行的發展理念以及運行機制在實踐中發揮了重要重要,同時也體現在世行發布的各種數據與知識中。機構對于市場、政府與治理的態度,影響甚至決定著數據的呈現方式和深層詮釋,因此,針對世界銀行發布的各項指標體系,我們經常能夠看到“過度反映機構偏好”的批評。盡管多邊組織與屬地明確的其他機構相比,更不容易受到少數主權國家的施壓,但來自自身定位、發展路徑甚至是股東國或核心成員的影響是難以避免的。另一方面,作為世界最大的發展援助機構,世界銀行的數據和知識源自發展實踐一線,也能夠進一步推廣應用于發展實踐,形成知識的良性循環,并產生更為實在的政策影響力,這是其他類型的指標構建主體難以企及的。但從另一個角度來看,符合機構發展理念的評估對象更加可能受到機構資源的青睞,從而獲得更多的發展機會,體現出指標知識背后的權力關系。
第二類組織是跨國非政府組織,比如“自由之家”和“透明國際”。這一類組織往往是某種國際規范的倡導者(Norm Entrepreneur),因此,指標評估的內容相對單一。指數傳播承載著機構倡導的理念。作為非營利機構,這些組織受到持續的外部資助。盡管各家機構都高度強調自身的獨立性,但從機構建立的初衷到人員和機構運行的財務支持,都能夠看到以美國為代表的西方大國的影子。一些機構與媒體集團合作,進一步保證指標的曝光度,形成對從學術界到普通公眾以及政策實務界的廣泛影響力。
第三類是學術研究機構,包括高校、研究所和智庫。指標構建的初衷往往是學術性的探索,比如尋找民主制度與其他發展變量之間的因果關系,或者為廣泛的學術研究提供基礎數據。以高校為依托的指標發布主體相對具有更高的獨立性,但對面向公眾的大眾媒體和政策實務界的影響力要遠遠低于學術影響力。不管從指數的呈現方式、平臺用戶體驗還是傳播途徑的曝光程度來說,都往往存在多種不足。因此,有批評者擔心這樣的指數研究其實是“數據墳墓”。
值得注意的是,三類構建主體都集中于西方發達國家,也更多受到西方機構的資助,但其影響力絕非只局限于西方世界,而是定義著整個世界,影響著各國公眾對于本國和其他國家的看法以及各種資源的流動。
2.構建方法
根據測量方法,政治評估指數可以分為兩類:根據受訪專家感知來構建,或使用量化數據和客觀事實來構建。前者被稱為感知測量,后者被稱為客觀測量。一些指數也會將二者結合,使用復合測量方法。使用何種方法,受到多種因素的影響,包括評估內容、評估目的、技術發展以及機構可獲得的資源等。基于感知的測量方法主要優勢在于靈活性,而客觀測量方法的最大特點就是嚴謹性。
如果評估內容較為模糊,缺乏明確而廣受認可的概念,且難以明確定義測量標準,比如“腐敗”,那么基于專家感知的主觀打分法無疑是最佳選擇。如果測量內容框架明確、標準清楚,以客觀數據為基礎的測量方法不但可操作,也更具有可信度。從評估目的來說,提供打分,尤其是優劣排名的指數更傾向于使用專家感知方法,而數據庫或與之類似的面板指數則更多依賴客觀數據。從技術發展角度來看,早期指數多使用不太依賴信息技術和統計科學的專家感知打分方法,使用客觀數據的評估指數則出現相對較晚,一般為二代指數。
此外,大范圍收集第一手的跨國信息,對指數構建機構的財力資源和信息渠道都有很高的要求。盡管面向公眾的隨機抽樣問卷調查受到普遍認可,但在評估指數中非常少見,在本文介紹的各大指數中,僅有法治指數使用問卷調查方法,且調查周期和樣本數量都不盡如人意。出于同樣的原因,集成第三方二手數據,直接越過邀請專家打分或收集統計數據,無疑能夠節省大量資源,從而更大程度地拓展評估內容和對象。比如全球治理指數覆蓋了與治理相關的各種指標,無論是時間跨度還是地理范圍都相當可觀。
總體來看,專家感知仍然是政治評估指數中最為常用的測量方法。一方面,由于政治評估指數重在“評估”,運用專家的知識和理論針對社會現實進行綜合分析更能彰顯“評估”的深度。另一方面,政治評估中很多內容,在不同國家不同語境內可能存在很大的事實差異,比如“腐敗”在美國的表現與印度非常不同,而客觀數據所要求的嚴謹的跨越性在這樣的跨國評估難以實現,也是沒有意義的。
3.影響范圍與強度
一項評估指數的影響范圍與強度,同樣與指數構建的機構、目的和評估的內容密切相關。一般來說,學術機構發布的指數往往局限于學術界,這些指數在建設伊始就致力于理論探索。比如美國馬里蘭大學的政體指數明確提出指數研究的目的就是“科學研究和量化分析”,①Center for Systemic Peace, “Our Mission”, http://www.systemicpeace.org/mission.html, 2022-01-04.而瑞典哥德堡大學的民主多樣性指數極為復雜的指標體系和評估結果也使得大眾媒體和公眾望而卻步。與此形成鮮明對比的是非政府組織發布的評估指數,這些指數本身就承載著倡導某種政治規范乃至意識形態的任務,通過大眾媒體影響公眾輿論,進而改變政策實踐是其根本的出發點。比如“自由之家”提出世界自由指數“對學者和實踐者要同樣有用”。②Freedom House, “About Freedom in the World”, https://freedomhouse.org/report-types/freedom-world, 2022-01-04.以世界銀行為代表的政府間組織所發布的指數由于與資源分配和發展實踐密切相關,在政策實務界影響更為廣泛。
指數的影響力同樣也受到發布機構的影響。學術機構除了發布自己的指數外,廣泛參與各種指數研究的討論和批評,增加引用率,加入“隱性的學院”,③Diana Crane, Invisible Colleges, Chicago: University of Chicago Press, 1972.必然能夠提高指數在學術界的影響力。但要超越學術范圍,觸及非學術受眾,則更加困難。與之相比,受到大國支持和與媒體集團合作的非政府組織往往能夠獲得大眾傳播的優勢。同時,指數的呈現方式也在一定程度上決定了傳播的效果,與媒體產業掛鉤的指數往往比學術機構更加關注用戶體驗,也會在公共關系和傳播方面投入更多資源,借助多種平臺宣傳研究成果。此外,一般性的傳播技巧,比如引人注目的標題,以及明顯表達褒貶評價的排名都更容易受到大眾媒體的青睞。如何在科學性、嚴謹性和傳播力之間取得平衡,是所有公開發布的評估指數必須面對的挑戰。
最后,要獲得政策實務界的認可,引導政策制定,引起改革和政治發展,更是多數政治評估指數可望而不可及的最終影響力。政府間組織與實務界的關系相對更加直接,而非政府組織和學術機構要想影響政治實踐,路線無疑會非常曲折。一套指數要在形成廣泛傳播和認可的前提下,形成巨大的壓力,借助國際社會或本國公眾的輿論,才有可能帶來真正的政策改變。除此之外,只有當指數結果剛好與政治家的訴求相吻合時,才會被奉為改革的科學依據。①Rush Doshi, Judith G.Kelley, Beth A.Simmons, “The Power of Ranking: The Ease of Doing Business Indicator and Global Regulatory Behavior”, International Organization, Vol.73, No.3, 2019, pp.611-643.

表1 十種政治發展評估指數比較(來源:作者自制)
政治評估指數的需求與力量何在?為什么一國政府會關注某一個排名或打分?事實上,指數只是對現有信息的重新組合和詮釋,卻釋放出強大的規范力量。指數的魅力在很大程度上歸功于其通過打分和排名制定標準,進行比較,進而構建聲譽的能力,通過重新配置和詮釋比較性信息來激發人們對于國家能力和地位的關注,這種關注進而轉化為壓力,影響和推動政策實踐。這一過程始于對某個問題的命名,提出一個概念,進而設立評估標準,以象征的力量②Pierre Bourdieu, “Social Space and Symbolic Power”, Sociological Theory, Vol.7, No.1, 1989, pp.14-25.通過影響話語最終影響決策。指數具有強大的議程設置功能,按照其自身偏好設定優劣標準,通過有效的政治傳播,形塑公眾、組織和決策者對于制度合法性的思考。
1.知識建構
評估指數建構了一套將各國復雜多樣的政治發展具象化、可視化、可比較的知識體系。指數所使用的數據不一定是第一手的,但在數據基礎上進行的評估卻是全新的。政治發展領域的各種概念和標準往往缺乏普遍的共識。政治評估指數通過系統性的指標框架,將政治現象的各種性質、強度、數量進行標準化定義。盡管這種定義往往引來爭議和批評,但討論本身對于知識的形成和積累就是有意義的。對于民主、發展、廉政、法治概念的爭論幾乎存在于所有相關指數的討論中,這種討論能夠進一步推動知識的發展。收集新的數據固然是重要的,但找到一個框架、整理和檢驗各種信息,檢視各種詮釋數據的角度,討論可能的因果關系同樣重要。
一套指數的形成往往借助眾多專家的貢獻。指數構建的過程也是相關領域的專家形成共識的過程,這種共識往往是更為廣泛的社會和政治共識的基礎。各國專家與決策者形成的網絡能夠進一步跨越地理邊界,廣泛影響國際政治。
指數提供了對象國家國內政治的豐富信息。公開發布意味著包括一般公眾、利益團體、商業團體、治理機構等各種受眾都能夠利用指數提供的比較性信息,形成政策需求。指數特有的優劣比較更容易對后進者形成壓力。政治評估指數能夠形成系統性知識,為現實政治活動提供合法性和動員力,并最終引發政策變化。從這種意義上說,知識就是力量。①Kevin E.Davis, Sally Engle Merry, Benedict Kingsbury, The Quiet Power of Indicators: Measuring Governance, Corruption, and the Rule of Law, Cambridge: Cambridge University Press, 2015.
2.價值倡導
在多元的世界中對一種政治價值形成共識,往往是一個緩慢而艱難的過程。政治評估指數的構建主體,尤其是非政府組織,通過測量和發布指數來倡導相應的政治規范。政府間組織同樣也是推動規范形成的有效平臺。民主、自由、廉政、法治等各種應當被普遍遵循、但在實踐中參差不齊的價值規范,通過各種指數得以測量和比較形成道德壓力。國家期望在國際社會獲得聲譽,因為積極的集體判斷代表著穩定性和可預見性,能夠增加合作的可能。②Ian Johnstone, “The Power of Interpretive Communities”, in Michael Barnett, Raymond Duvall (eds.), Power in Global Governance,Cambridge: Cambridge University Press, 2005, p.187.而“點名”和“羞辱”則是改變和降低不良行為的主要工具。政治評估指數使得這一機制更加科學化,不但有理,而且有據。
由于政治評估指數的周期性特點,每年定時發布的各類指數可以形成一種“監測”機制。指數發布者和其他主體的持續關注能夠影響評估對象,逐漸內化評估標準,調整行動,形成自我規范的霍恩索效應。③John G.Adair, “The Hawthorne Effect: A Reconsideration of the Methodological Artifact”, Journal of Applied Psychology, Vol.69,No.2, 1984, pp.334-45.一國評估結果的上升或下降,尤其是下降,也能提供一定的預警作用,提醒或迫使相關主體采取措施。
3.實踐引導
政治評估指數,尤其是績效表現指數,具有對最佳實踐的推廣和示范功能。一方面,在國際發展領域,以世界銀行為代表的政府間機構發布的評估指數與援助和貸款的分配直接掛鉤,以保證資金投入的有效性。指數成為重要的資源分配和援助政策的決策工具。在這種情況下,高度依賴國際援助的發展中國家尤為關注評估結果,在一定程度上將評估結果內化為本國制度建設。另一方面,在國內層面,測量政治系統運行的績效能夠明確制度安排是否能夠達到其預期的效果,發現影響政策實施的障礙,并進一步通過從以往成功或失敗中吸取的教訓提供對策。同時,績效測量結果也向公眾和其他國內國際利益相關方提供了治理系統運行的信息,從而有助于獲得進一步的認可和支持。
21世紀以來,對政策導向指標的呼吁不斷增加,為政策實踐提供有效依據已經成為新指數的重要目標。指標產業的發展也從關注國家排名拓展到提供系統性績效表現評估。國際機構、非政府組織、學術機構與各種國家層面和地方或部門次級主體的合作推動了作為政策依據的指標產業,而有據可依的決策過程又可以進一步推動善治。科學化、系統性的證據對于缺乏數據采集和分析能力的發展中國家尤其寶貴。指數與國家政策部門的合作可以帶來雙贏,一方面指數可以獲得受到評估對象認可的更為準確的一手信息,另一方面政策部門也能夠得到量身定制的政策依據和決策建議。
1.創建主體的“中心主義”偏向
盡管政治評估指數的創建主體具有多樣性,涵蓋了從學術機構、私人機構、國際組織到非政府組織等多種形式,但一個無法忽視的問題是,這些指數創建機構基本都位于發達國家,尤以美國和歐洲為主,來自發展中國家的價值和標準難以在主流政治評估指數中得以表達。
指數力量的一個重要來源是其創造者的公信力和權威。社會心理學研究指出合法權威的來源之一是信任,是對行為者公允、博學和能力的認可。①Wendy Nelson Espeland, Michael Sauder, “Rankings and Reactivity: How Public Measures Recreate Social Worlds”, American Journal of Sociology, Vol.113, No.1, 2007, pp.1-40.要被視為權威,行為者自己也往往要被認定為特定行為規范的典范,才能享有規范的權力。②Kathryn Sikkink, “Human Rights, Principled Issue-Networks, and Sovereignty in Latin America”, International Organization,Vol.47, No.3, 1993, pp.411-41.同時,權威也可以來源于能力,依據則是其現有的權力和財富。反映在指數實踐中,全球主要的政治評估指數,乃至于整個指數行業都集中于西方發達國家。這些國家以權威的姿態,用其設定的規范來評估他國。此外,網絡中心性也與權威密切相關。在社會和政治網絡中處于中心位置的行動者能夠更有力地設置議程。③R.Charli Carpenter, “Vetting the Advocacy Agenda: Network Centrality and the Paradox of Weapons Norms”, International Organization, Vol.65, No.1, 2011, pp.69-102.美國政府駐世界各地的組織機構與美國各大非政府組織形成一個龐大的信息網絡,能夠有效挖掘和傳遞各種信息,這無疑是美國評估指數發達的重要原因之一。此外,發達國家更為成熟的理論、方法和數據技術,以及對于評估研究的資源投入優勢都在一定程度上解釋了現有指數創建者的地理分布。
可以說,整個指數產業已經形成了從生產到消費的路徑依賴。各類政治評估指數以西方政治理論為基礎,以西方國家為理想模型,以西方專家團隊為評估主體,服務于西方大國的外交與貿易戰略。廣大發展中國家在各種指數排名中只能擔任被評估的角色,既無法對評估結果提出意見,也無法貢獻具有本國特色的發展經驗。以中國為代表的一些發展中國家,尤其是新興國家,近年來也在不斷嘗試構建體現本國經驗與價值的評估體系,但從效果來看,遠遠無法撼動主流評估指數的主導地位。
指數產業經過20世紀90年代開始的爆發式發展,在21世紀的第一個十年引發了針對指數體系本身的一系列思考和批評。④Charles P.Oman, Christiane Arndt, Uses and Abuses of Governance Indicators, Paris: OECD, 2006; Romina Bandura, “A Survey of Composite Indices Measuring Country Performance: 2008 Update”, UNDP/ODS Working Paper, New York: UNDP, 2008; Robert I.Rotberg, On Governance: What It Is, What It Means and Its Policy Uses, Waterloo, ON: Centre for International Governance Innovation, 2015; Helmut K.Anheier, Matthias Haber, Mark A.Kayser (eds.), Governance Indicators: Approaches, Progress Promise.這些討論針對評估指數的概念基礎、評估方法和影響力等諸多方面都進行了反思,然而,與指標生產者和資助者相關的政治經濟學分析卻始終沒有引起重視。評估指標由發達國家生產似乎成為一種無可爭議的事實,從學術界到政策界,從指標的生產者到數據的使用者都默認其合理。顯然,多數指標務求覆蓋盡可能多的國家,無論發展中國家還是發達國家都是其評估的對象,甚至一些指標尤為關注發展中國家,但評估者,也就是指標的生產者卻集中在發達國家一側,這樣明顯的失衡卻未能引起研究者的注意,可以說是一種怪現象。
一方面,西方國家的指數生產者既是裁判又是運動員,是行業的領導者、標準設定者也是市場的壟斷者;另一方面,對于指標科學的評價和反思往往仍然是指標生產者,也就是說,評估指標從生產到評價再到批評,形成了一個閉環。因此,針對各大指數的分析和批評往往是技術性的,關注數據采集和評估方法,而指標生產體系中的不平等和權力關系,并不是從業者關注的話題。
指數構建機構在分布上的失衡不僅僅是價值評價和聲譽問題。政治評估指數,以及更為廣泛的治理相關指數,與全球治理框架密切相關,與之相關的話語權決定著全球治理的角色分配和權力關系。本國的政治體制、治理效果是否得到國際社會的認可,與貿易、合作和發展機會密切相關。可以說,指數創建機構的分布失衡是全球治理框架不平等的表現或延續。政治評估指標要獲得可持續的健康發展,以開放的態度接納來自發展中國家的經驗、價值和理念本身就是一種民主化的體現。
2.對政治發展衡量的“簡單化”傾向
政治發展是一個復雜的長期過程。無論指數的目的是傳播理念還是制定政策,解決何為政治發展的規范性問題都是一個不可避免的先決條件。只有在確定了政治發展目標之后,才能設計指標來評估現狀與目標之間的距離,或者指導實現政治發展目標的政策。如果政治發展的目標是民主制度,那么對正式制度的測量就會成為評估的核心。而如果政治發展的目標是制度高效運行,那么制度設計再完善,也不能保證其有效性,只有從制度的實際運行績效出發,以績效結果為導向才能評估各國的政治發展水平。
發展可以被理解為一種結果,或者一個過程。①Alan Thomas, “Development as Practice in a Liberal Capitalist World”, Journal of International Development, Vol.12, No.6, 2000,pp.773-787.基于過程或程序設定的定義是最簡單的。基于制度設定的政治發展不以其結果來評價政治發展。因此,在一個制度運行低效的社會,或者一個高度依靠非正式制度的社會,對制度設定的測量既無法準確衡量其政治發展水平,也無法指導改革和政策制定。一個顯示完善選舉制度的民主指標并不一定表明政治昌明。同樣,與西方主流民主制度迥異的政治體制,從治理結果上也可以被評估為高速發展。以中國為代表的新興國家不斷挑戰甚至顛覆著現有的各類政治評估體系的理論預設和指標選取,以西方經驗為基礎的評估體系難以解釋為什么中國依靠一套迥異于西方的制度體系,實現了經濟的持續增長和社會的長期穩定。
此外,現有政治評估指數的另一個問題是從抽象概念向具體指標的轉化問題。這一問題在各類指數中普遍存在,但在政治類指數中尤為突出。開展一項評估包括兩個關鍵步驟。首先必須定義用于構建政治評估的信息來源,這是對測量內容的定義。其次再定義如何將各種信息聚合進一個指數之中,由此完成從觀察到指數的投射。一套指數即使使用了受到一致認可的概念框架,但如何準確找到反映抽象概念的相關指標仍然非常困難。舉例來說,本文介紹的幾大民主指數,對于具體指標的選取都各不相同。顯然,民主是一個復雜的概念,包括選舉、法治、協商等多種元素,但并不直接等同于這些元素。因此,對于具體指標的選擇必然帶來質疑和爭議。
同時,在指數的生產過程中,極易出現的一種情況是只選擇可以直接測量的指標,忽略難以測量但實際上非常關鍵的指標。政治評估指標往往涉及到決策過程或公眾心理,此種數據的獲得和測量顯然是非常困難的,數據的準確性也往往受到質疑。在一些情況下,指數只能選擇一些指標來間接反映概念框架中的某些要素,例如以新聞自由來反映誠信進而反映一個國家的清廉程度。一些概念雖然可以直接度量,但只能以較為粗略的方式加以度量,比如依靠專家的主觀印象。
最后,概念和指標數據脫節的情況還可能出現在評估對象的單位上。政治評估指數普遍以國別為基本單位,無論是民主、和平或政府質量,其背后的理論假設都是基于國家層面的,因而相應的指標數據也往往是匯總數據。而事實上,在治理實踐中,區域間、機構間和部門間的差異性是巨大的,對低層級數據的加總聚合可能會掩蓋重要的因果關系和關鍵變化,造成數據偏差進而與現實脫節。
3.構建與測量方法的“偏頗化”傾向
專家主觀感知打分是現有政治評估指數最常見的測量方法。與客觀測量方法相比,這種方法能夠獲取更多的信息,但研究者相對難以把控信息的質量,可靠性存疑。客觀指標則正相反,數據可靠,但可用信息相對有限。用感知測量方法時,研究者能夠決定專家的選擇,提問的內容和方式以及如何使用調查結果,但不能指定受訪專家用來構建感知的信息來源,也無法控制專家的評估標準。感知測量的一個重要特點就是從研究者到受訪專家的權力轉移。其靈活性在很大程度上也來源于此。考慮到政治評估的許多內容或是缺乏嚴謹的系統性信息(尤其是跨國比較信息),或是難以給出準確的衡量標準(比如公正或腐敗),這種靈活性無疑是一個巨大的優點。此外,感知方法的靈活性一方面使得可測量的內容范圍大大拓寬,另一方面也可以借助專家的知識,超越研究者的認知局限,大規模拓展指數的信息范圍。
但同時,靈活性的代價也是不可忽視的。首要問題就是偏見。偏見的產生可能基于幾方面原因。首先是信息滲透,研究者無法控制專家的信息來源以及由此產生的認知。對某一具體指標的評估很可能受到一些外部信息的影響,比如對腐敗的評估可能受到新聞自由相關信息的影響。信息的互相滲透可能使得指標設定失去意義,控制腐敗、法治、問責等等各種信息纏結在一起,專家只是基于一個總體的印象對不同內容進行評估。這種情況對于使用評估指數進行理論驗證時尤為有害。比如指數使用者想要驗證民主與政府透明度之間的關系,但專家對于民主的打分正是基于政府透明度的,那么驗證結果必然是二者高度相關。不過,信息滲透對于指數排名來說并不是一個嚴重的問題,甚至可能有一定的助益。對一個國家政治經濟信息的普遍了解可能使得專家的打分更加符合實際,提高評估的準確性。此外,感知方法還存在透明度的問題。我們永遠無法完全掌握專家是基于何種信息何種原則進行的評估,無法對結果進行復驗,或者在復驗時獲得截然不同的結果。透明度問題可以通過精確問題、附加錨定信息、增加受訪專家數量或使用測量模型得到緩解。
在使用客觀測量方法時,研究者能夠決定信息內容以及賦值標準。這無疑確保了指數的透明度和可復驗性。從信息來源到評估標準,客觀測量方法都是高度透明的。使用同樣尺度對同樣內容的評估必然產生相同的結果。但同時,這也意味著客觀測量指數高度依賴研究者的理論和判斷,其使用的信息往往是比較有限的,測量對象也更加狹窄,受限于研究者的知識、經驗和想象力。此外,高度的嚴謹性對比較信息(尤其是跨國信息)完整程度要求更高,這會進一步縮小指數內容的覆蓋范圍。
此外,從指數構建方法來劃分,除了傳統的感知、客觀測量及其復合指數,還有一類常見方法——集成指數。這一類指數的構建者并不采集一手數據,而是根據一定的理論框架,將第三方指數或社會調查的數據納入自己的指標系統,經過一定的標準化程序,最終形成一個新的指數。這一類指數節省了數據搜集階段的大量資源,相應地能夠擴大指標范圍和規模,因此往往覆蓋較長時間跨度內多個領域的大量數據,最為典型的就是世界銀行的全球治理指數(WGI)。但這樣的指數構建方法同樣存在一定的問題。首先,由于指標數據來自不同的信息源,要確保理論和概念的一致性是非常困難的,而在此基礎上進行的比較難以克服跨越性問題。其次,在指標集成的過程中,必然要對各種變量進行標準化處理。如果指標本身就來自第三方指數,那么數據可能已經經歷了多輪標準化,這可能造成數據的變形。最后,如果集成指數使用的是數據源的部分數據而非全部,就需考慮源數據的各個變量是否是獨立的,將數據從原本語境中抽離是否會造成失真。總之,使用集成構建方法,需要對數據源進行非常謹慎的選擇和處理。
4.評估影響的“有限性”
政治評估指數產生影響力的原因之一在于其賦予評估對象聲譽和地位的能力。通過對信息的比較和詮釋,指數可以廣泛影響國際社會對于成功國家和有效制度的標準,形成一種社會壓力,迫使評估對象接受并遵守評估結果以及其背后的價值標準。比較形成判斷,賦予被比較者地位和身份。在這個過程中,公約得以形成。不同的國家根據這個共同的尺度進行比較,形成一種高度簡化的世界觀。
評估指數影響力可以分為傳播和行為改變兩種形式。在傳播層面,評估指數的影響力主要存在于兩個群體——學術界和包括政策制定者以及一般公眾的非學術界。盡管對于傳播效果的直接測量是十分困難的,但這兩個方向分別可以通過學術引用和媒體曝光率進行間接的評估。從現有研究來看,①Matthias Haber, Olga Kononykhina, “A Comparative Classification and Assessment of Governance Indices”, in Helmut K.Anheier,Matthias Haber, Mark A.Kayser (eds.), Governance Indicators: Approaches, Progress, Promise, 2018, pp.11-42.評估指數在學界的影響力遠遠高于非學術界。相較于經濟或社會指數,政治類指數的這一特點尤為突出。換句說話,一些活躍于科研項目和學術文獻中的指數研究在很大程度上并沒有轉化為政策依據和公眾關注,艱深的理論探討和復雜的測量方法可能永遠不會影響非學術受眾。
當然,一部分評估指數的主要構建目的就在于理論驗證,本文中介紹的一些政治體制評估指數強調概念界定和制度規范,多由學術機構創建,其參與者和受眾都主要集中在學術研究界,并不追求媒體曝光率,對政策實務界的影響即使存在,也往往是間接的。由于該類指標的目標受眾就是學術群體,傳播范圍的相對有限并不算是問題。但對于關注政治系統運行、與政策密切相關的指數來說,政策實務界的關注至關重要。而對于本文總結的第二類評估指數,即以廉政、自由、法治等政治價值為測量對象的指數,以推動制度革新和社會進步為目的,尤其需要一般公眾和政策界的關注。如果不能進行有效的傳播,那無疑是真正的數據墳墓。通過自上而下的排名系統吸引媒體曝光正是一種有效的傳播策略。
政治評估指數研究經過二三十年的發展,從概念框架到測量方法都更加精深化、復雜化,但也造成了成果與公眾認知之間的鴻溝。尤其是面板指數,其結果往往無法用易于理解的語言簡單概括,普通公眾也難以將其與自身經驗相聯系。如果研究者不能夠放下身段為公眾闡釋指標的意義,引起公眾興趣,就很難獲得以受眾為導向的大眾媒體的青睞。而在互聯網時代,雖然傳播主體可以在一定程度上跨越傳統媒體渠道,但如果不能搭建用戶友好的數據平臺,制作面向公眾的傳播形式,在各種新興內容的擠壓下,就會造成更為嚴重的傳播劣勢。
在傳播基礎上,更為有效的影響力表現在行為改變,對于評估指數來說,也就是其可以成為政策制定或改革的依據。尤其是在指數中排名落后的國家,指數通過媒體傳播形成民意壓力。利益團體可以利用評估指數提供的信息要求制度變革。同時,通過長期對政策和機構進行監測和評估,成功的指數可以在一定程度上使評估對象內化其評價標準,為避免評分降級而進行自我規范。此外,評估指數通過比較形成跨國壓力,進而影響國際合作、投資和援助。
要真正引導政策變化,形成壓力是必要條件,但不是充分條件。在壓力之下,評估對象還需要具體的政策指導才能最終完成政策變革。盡管近十年來的指數研究已經注意到對政策實務的指導性,但現有指數仍然多是對現狀的測量和描述。既缺乏對因果關系的挖掘,也難以直接轉化為政策依據。高度抽象化的評估指標也許可以描述何為“善治”,但無法告訴實踐者如何獲得“善果”。例如,脆弱國家指數通過貧困、沖突等指標測量一國的脆弱程度,但這些指標難以用來指導高度脆弱國家或其他相關主體通過何種舉措或干預來改善該國的脆弱性。盡管世界各國都認識到與制度運行相關的政策依據對于決策和治理的重要性,并且隨著技術進步,數據的數量和質量也在不斷增加,但生成、收集、合成和使用指數為決策提供信息仍然存在困難。決策者要從大量復雜的信息中識別對政策有用的數據,理解數據的意義,與自身政策環境相結合,無疑是非常困難的。
指數以數字反映現象,數字本身是中立的,但當指標被用于揭示問題、指導決策時,這些數字就具有了價值判斷和政治性,反映出指數生產者以及消費者的理念和目標。政治評估指數尤其體現了數字的客觀性與指向的政治性之間的緊張關系。政治評估指數究竟揭示的是政治世界的真相和理想愿景,還是個別國家或組織規訓他國的“科學化”工具?顯然,在現有的指數版圖中,兩種性質同時存在,而其存在的合理性就在于二者微妙的平衡——以知識提供規范的權力。三十年間的迅速發展反映了世界對于政治評估指數旺盛的需求。同時,能夠獲得普遍認可、有效回應各種批評并指導政策實踐的新型政治評估指數仍在孕育之中。
21世紀已經進入第三個十年,全球治理框架在多種力量的共同作用下正在動態中逐漸形成。雖然傳統的權力主體仍然主導著國際政治,但無論學術界還是實務界,都已經意識到多種隱形權力以微妙的方式影響著國家間的權力分配。政治評估指數正是以這樣一種形式影響甚至改變著全世界關于制度、規范、績效與發展的觀念,以非強制性卻有效的方式規范著全世界,引導決策者的政策行為和公眾輿論。這些指數不僅是對實踐或現象的測量和描述,更重要的是對評估目標施加壓力,施加指數背后的意識形態和價值準則。
本文介紹的三類政治評估指數,其評估內容、目的和影響范圍各有側重,發展方向也不盡相同。政治制度評估指數要拓展其影響范圍,獲得更為廣泛的認可,應超越舊有政治理論的窠臼,關照當今世界的發展現實,以更加開放包容的標準評估全球多樣化的制度設定。政治規范評估指數要避免成為“抹黑”的工具,要有效倡導政治道德,其評估專家和標準都應更加客觀中立。“點名”和“批評”是政治規范指數發揮影響力的有效方法,但無論是“點名”還是“批評”,都需建立在客觀事實的基礎上,避免成為詆毀“他者”的托詞,才能受到評估對象的接受和認可,真正將道德規范內化進制度的設定和運行中。最后,考察治理績效的評估指數應發展更加有效的評估方法,提高數據的收集、加工和分析的技術水平,真正以高度精煉的數字準確反映復雜的治理實踐。
總體來說,無論是現有指數的升級發展還是推陳出新構建新一代指數,增加包容性、客觀性和有效性的目的都是提高指數的影響力。在政治評估指數的主要受眾,即學術界、一般公眾和政策實務界中,后二者更難突破,又正是指數最重要的影響對象,可以說,指數所帶來的權力正是源于對這兩個群體的影響。要提高對一般公眾的影響力,在不損失科學性的前提下,應注意提高指數的用戶親和性,增加對公共關系的投入,與傳統媒體合作或運營新媒體傳播,以多種形式提高公共曝光率。對于政策實務界,則應增加合作互動,在收集第一手信息的同時也了解實務界的需求,讓數據能夠更加直接的指導實踐,彌合指數與政策實踐的鴻溝。
中國作為全球治理的積極倡導者和推動者,在構建制度性話語權的過程中,應該更積極地參與全球政治評估指數的建構,對中國成功的政治發展經驗和制度建設做法進行學理化、普遍化研究,以形成基于中國經驗同時關照廣大發展中國家政治發展前景的評估指數體系,推動全球政治評估指數版圖的多樣化。客觀地說,目前,中國在全球政治評估體系中,仍然處于非常被動的狀態。盡管近年來,許多中國學者進行了探索性研究,嘗試建立新的政治評估體系,但效果并不理想。這在一定程度上是由于我們對現有的全球政治評估指數仍然缺乏系統的理解和充分的分析,本文正是期望能夠于此做出微薄的貢獻。