基于CIPP 模式的中國智庫成果質量評價研究*

2023-09-20 08:15:30韓瑞珍楊思洛

智庫理論與實踐 2023年4期

■ 韓瑞珍楊思洛

1 武漢體育學院新聞傳播學院武漢 430079

2 武漢大學信息管理學院武漢 430079

1 前言

智庫作為能夠對公共政策制定產生影響的咨詢機構，承擔著推進國家治理體系和治理能力現代化、增強國家軟實力的戰略任務。當前，黨和政府面臨世界格局之變、國際秩序之變、科學技術之變、中國全球化發展崛起之變、社會形態及發展范式之變[1]：對內，擔負著實現中華民族偉大復興的歷史使命；對外，需要發出中國聲音、體現中國氣派，推動構建人類命運共同體。在“世界百年未有之大變局”的激蕩時刻，無疑需要智庫積極、主動地貢獻高質量的研究成果，為前瞻性、全局性、戰略性和民主性的科學決策提供研判和支撐。

然而，現有的智庫成果通常難以匹配智庫被賦予的時代使命和任務。一方面，智庫整體缺乏高質量的研究成果，智庫成果創新力不足，智庫成果同質化、形式化現象嚴重，造成資源的極大浪費與決策的低效率；另一方面，即便是知名智庫的研究成果質量也是參差不齊，在政策影響力和國際話語權提升上亦有較大的發展空間。評價具有引導功能，有什么樣的評價指揮棒，就有什么樣的智庫建設導向[2]。評價引領和促進智庫成果質量全面提升是智庫在大變局時代應時而動的當務之急。本文基于CIPP（content evaluation（背景評價）、input evaluation（輸入評價）、process evaluation（過程評價）、product evaluation（結果））評價模式理念，嘗試構建科學、合理、全面的智庫成果質量評價體系，為智庫成果質量樹立標桿，為相關管理部門進行有效管理和資源配置提供依據。

2 國內外相關研究進展

智庫評價源于西方發達國家，評價方法主要采用定性研究、定量研究、定性定量結合研究，例如，安德魯·里奇(Andrew Rich）采用定量分析方法分析了不同類型智庫實現影響力的行為差異[3]。從智庫評價的主體來看，國外智庫主要有3 種評價模式：①以市場主導評價的美國模式、以協會等第三方主導評價的德國模式、以政府主導評價的日韓模式[4]；②評價對象通常分為綜合性智庫評價和分類智庫評價，如麥甘團隊發布的《全球智庫研究報告》是全球性、綜合性的智庫評價，美國全球發展中心專門針對美國高校智庫進行排名，英國智庫研究機構則對智庫財務透明度進行評價；③評價內容主要集中于智庫影響力的評價和排名，而有關智庫成果的評價通常作為其中一項重要指標。

目前，國內較為系統的智庫成果評價主要集中在第三方評價機構對智庫的評價之中。由中國社會科學評價研究院起草的《人文社會科學智庫評價指標體系》[5]于2021 年5 月正式發布，其明確規定了“公開、客觀、公正、科學、獨立”五大評價原則，設置吸引力、管理力、影響力三大一級評價指標，14 項二級評價指標，為社會科學智庫評價指明方向。此外，上海社科院智庫研究中心、南京大學中國智庫研究與評價中心、浙江工業大學全球智庫研究中心等研究機構將智庫測評的理論、方法和評價體系應用于智庫評價，各評價機構構建了不同的評價指標體系，形成各自的特色，不斷豐富和完善智庫評價體系。各省市政府部門牽頭舉辦的優秀智庫成果評選活動，是評價具體應用之一。例如，湖北省教育廳開展的“湖北高校智庫優秀決策咨詢研究成果”評選；湖南省社會科學院組織的“年度十大智庫創新成果”評選；天津市市委教育工作委員會、市教育委員會組織的“天津市年度高校智庫優秀決策咨詢研究成果”評選等。這些評選活動激發了智庫研究人員的熱情，促進了高質量智庫成果產出和效用發揮，但是這些評選活動尚未形成系統的評價體系，也沒有形成常態化的評價機制。

根據對國內外文獻調研發現，智庫成果評價通常涵蓋在智庫影響力評價體系中，研究者過度關注智庫影響力，極易誤導智庫和社會媒體追逐形式上的宣傳造勢，而忽視了智庫成果質量這一智庫生存和發展最為本質的要素。專門的智庫成果評價也存在一些問題，如未根據智庫成果的差異性進行分類評價，評價指標過度強調采納、批示，評價體系缺乏引導性等[6]。在評價指標的設置、評價方法的選用、評價數據的獲取等方面需要進一步商榷、探索并逐步完善。

3 智庫成果質量整體評價模型構建

評價模型是智庫成果質量評價的基礎和支撐，評價指標是為整體評價服務的，確定評價指標體系前，需要確立智庫成果質量評價模型。為克服評價單一視角，提升評價的科學性與可靠性，基于系統思維從影響評價的各要素、關系和結構等方面考慮，本文設計了包含評價主體、評價過程、評價對象的智庫成果質量的評價模型，如圖1所示。

圖1 智庫成果質量的評價模型Figure 1 Evaluation model for the quality of think tank achievements

評價主體應納入政府主管部門的力量。中國特色新型智庫最根本的特征是黨管智庫，政府主管部門擔負組織生產和監管質量的責任[7]。智庫成果嚴把質量關，旨在增強服務黨和政府決策的針對性和時效性。因此，政府主管部門作為主體責任人和利益相關人理應納入評價主體一方。

在整個評價過程中，智庫成果質量評價指標體系的設計是核心和重點。目前的評價體系以單一的結果評價為主，評價目的也局限于證明或優選，而忽略了評價的真正價值和意義，即評價是為了更好地促進質量提升，并為管理者提供決策信息服務。為彌補單一評價視角的不足，本文借鑒了CIPP 評價模式理念。CIPP 評價模式是由美國學者斯塔弗爾比姆（Stufflebeam）提出的，是一個指導人事、產品、機構或系統評價的綜合框架，包含背景評價、輸入評價、過程評價和結果評價[8]，該模式核心理念是“評價最重要的目的不在于證明，而在于改進”。智庫成果質量高低受到研究人員、環境、資源、研究過程、受眾需求等諸多因素的影響和制約，將這些因素納入評價指標，契合CIPP 評價模式理念，評價結果直接體現質量問題歸因，實現“以評促改、以評促建”的評價目的。同時，評價指標體系不是孤立存在的，與評價標準、評價環境、評價規范、評價類型、評價流程和評價方法等各體系之間相互聯系、相互作用，共同構成評價的有機整體。需要注意的是，不同評價主體面對不同評價對象，評價側重點也有所不同，質量評價遵循分類評價原則，在評價價值標準、評價指標設計上體現差異性。

3.1 智庫成果質量評價標準

智庫成果研究主要依托社會科學的知識體系和研究方法展開[9]，智庫成果質量的評價沿用社會科學成果評價標準，分為真理性標準和價值性標準兩類。

真理性標準是人文社會科學研究成果評價的首要標準[10]。智庫成果質量評價的真理性標準是科學性、創新性和邏輯性。其中，科學性是指研究內容反映事物本質和規律，研究結論是可以檢驗和證偽的；創新性是指對現有理論知識、思想觀念、思維模式等進行發展和突破，提出新的思想，解決新的問題；邏輯性是指智庫成果研究內容符合邏輯的嚴密性，文本形式符合邏輯的結構性。

價值性標準重在實際應用，指的是功利性、實用性價值。智庫成果質量評價的價值性標準包含政治價值標準、理論價值標準和社會價值標準。其中，政治價值標準是由智庫成果的本質屬性所決定的，體現出政府決策這一政策活動包含民主政治與民主參與的核心價值；理論價值標準是智庫成果學術性的要求，進行基礎研究的智庫成果要有理論的創新和突破；社會價值標準在于智庫及其成果的轉化能夠引領社會思潮、引導公共輿論，以及受智庫成果影響的公共政策的實施所帶來的社會效益。

智庫成果并非純學理研究，要實現智力賦能決策活動與民主參與價值標準的耦合統一，評價智庫成果質量需兼顧和融合兩種評價標準。

3.2 智庫成果質量評價環境

科學評價作為社會系統的子系統，必然受到社會環境因素的影響和制約。影響智庫成果質量評價的環境因素主要來自政治環境和文化環境。

首先是政治環境。政府信息公開程度、信息披露制度完善程度，以及政務工作透明化、完善化程度等政治環境直接影響智庫成果評價。其次是文化環境。文化環境不只是“人情”，但“重人情、講關系”的傳統會影響評價的公平和客觀，因此需要建立科學的評價體系，去規范和監管。因此，一方面，在評價中樹立“公正、公開、公平”的規則意識，利用定量評價的客觀性和公開性彌補定性評價中人為因素的干擾；另一方面，要建立全面的智庫成果質量評價規范體系，對評價主體和評價行為進行有效約束和監管。

3.3 質量評價規范和程序

質量評價規范是對質量評價主體和評價過程的監督和管理，質量評價會受到各種環境和人為因素的影響。在評價中，難免會有失公正和客觀，嚴謹、完善的質量評價規范是進行科學、客觀、公正評價的基礎和保障。質量評價規范一方面，是來自外部相關政策法律、行業規范的約束以及社會監督等；另一方面，是來自評價機構內部的質量控制和管理，包括完善的智庫成果評價制度體系，以及從技術和行為兩個層面實施的智庫內部質量控制機制。

智庫成果評價程序包括準備、實施、得出結論、結果應用和信息反饋等一系列的環節。第一步，確定評價對象并進行分類。對某一智庫全部成果進行評價，通常是自身改進型評價；對多家智庫代表成果進行評價，則是評優排名的評價。不同類型的智庫成果面向不同受眾、不同目的，不能采用統一標準進行評價和衡量，需要依據每種類型的獨特性和針對性進行分類評價。第二步，進行成果查新，以確保評價對象的學術規范和原創性。第三步，最后的評價程序依次是評價指標選取、方法確定、專家遴選、結果公示與監督、評價意見反饋、評價申訴、評價時間、評價周期等事項。

3.4 質量評價方法

依照不同的評價主體，質量評價有3 種評價方式，包括：上級主管部門的審核、組織內部的自我評定以及獨立的第三方機構測評。每一種評價方式都有相應的評價方法。智庫成果不同于物質成果，又區別于一般的思想成果。鑒于智庫成果的特殊性以及評價的復雜性，評價方法的選用也較為復雜，需要借助多指標綜合評價方法，即將反映智庫成果質量的多個指標信息聯合起來得到一個綜合指標，據此反映智庫成果質量整體情況[11]。構建智庫成果質量評價體系時，充分利用比較主成分分析法、層次分析法（the analytic hierarchy process，AHP）、主觀評定法、模糊綜合評價法等多指標綜合評價方法，開展定性研究與定量研究相結合、主觀評價與客觀評價相結合的評價研究。

科學、高效的智庫成果質量評價依賴智庫成果評價體系中的各環節要素，在各種先進信息技術輔助下實現有機融合、共同作用。例如，培育和凈化影響質量評價的環境體系，建立和完善約束智庫成果質量評價主體和評價行為的規則體系；構建科學合理的智庫成果質量評價指標體系等，以確保評價的順利運轉和評價結果的公正、可信。

4 智庫成果質量PRICE 評價指標體系

評價指標體系是智庫成果質量評價的核心內容和關鍵環節。智庫成果質量評價存在評價對象的多樣性（包括研究報告、圖書、論文等）、評價層次的差異性、評價數據的難獲得性等特征。為更好地反映和實現評價目標，應在獨立性、分類評價、代表性以及動態性等評價原則指導下科學設計和選定評價指標。智庫成果質量評價指標體系如表1 所示。

表1 智庫成果質量評價指標體系Table 1 Evaluation index system for the quality of thinktank achievements

4.1 指標體系的構建流程

科學、合理的評價指標體系是進行智庫成果質量評價的基礎和前提。首先，遵循相關指標體系構建原則，采用文獻調研法、智庫機構咨詢和專家訪談等方式初步確定指標框架，多種方法的運用可以有效避免指標中可能出現的偏頗；其次，通過問卷調查法、指標因素法、層次分析群策法等，對初始的評價指標進行篩選，并確定權重；最后，確立指標框架。智庫成果質量的評價指標體系具體構建流程見圖2。

智庫成果質量受到由多重具體要素構成的復雜系統的影響。智庫成果質量評價具有多維度性，評價目標具有多層次性。為適應多維度和多層次的評價要求，依據智庫成果質量要素的復雜程度，采用由準則層（一級指標）、領域層（二級指標）和單項考核指標（具體觀測點）構成的樹狀式指標體系結構。

4.2 評價指標的遴選與分析

智庫成果有不同的類型，從成果形式上，可分為咨詢研究報告類、專著圖書類、期刊類、簡報簡訊類、論文類、聽證會證詞類等智庫成果；從研究內容上，主要分為對策建議類、應用理論類、分析預測類、政策闡釋類等類型。不同的智庫成果具有不同的特點，有不同的質量要求，因此，應有相應的指標體系。基于同類比較、分類評價的思想，以及考慮到樣本的代表性和數據的可獲取性，針對公開出版發行的研究報告類智庫成果設計指標體系。基于CIPP 評價模式，結合影響智庫成果質量的關鍵要素，確定5 個一級評價指標（準則層）：環境支持（environment）、資源保障（resouce）、內容質量（content）、過程監管（process）、影響效果（influence）。其中，環境支持對應背景評價，是指在特定的環境下評定成果產出的背景、資源和機會；資源保障對應輸入評價，對達到目標所需的條件、資源等進行評價，其實質是對成果質量的保障性和效用性進行評價；影響效果對應結果評價，是對成果目標達到、智庫功能實現程度所做的評價；考慮智庫成果的知識性，增加內容本身質量指標，實現智庫成果的全程評價、過程評價和反饋性評價。五個一級指標的首字母可以組合成英文單詞“PRICE”（價值），契合了智庫成果質量評價的內涵價值。

對于二級指標（領域層）的確定，參考智庫成果特征、質量基本要素等，對智庫成果的選題、問題分析、信息分析、策略與驗證、風險評估等步驟進行分析，遵循評價指標設定原則，選擇有代表性、可獲得性和簡便的指標。同時，結合智庫成果類型的特點和要求確定指標的范圍，利用頻度統計法對國內外相關文獻進行頻度統計，選擇使用頻度較高的指標[12]。在初步選出評估指標的基礎上，依據專家咨詢的反饋意見對指標進行修正調整。基于上述頻度統計法、理論分析法和專家咨詢法三種方法，設計具有科學性、代表性的二級指標體系[13]。

4.2.1 環境支持高質量的智庫成果離不開優質智庫環境的支持，包括智庫內部環境和社會整體環境。出于評價的簡便考慮，僅設置與成果質量密切相關的內部環境的二級指標：成果質量管理制度、文化氛圍以及智庫規模和層次。智庫成果研究者的知識層次、認識深度、日常習慣等參差不齊，質量意識也相差甚遠[14]。人的意識決定行為，行為決定工作質量，也直接決定了成果質量。質量管理制度以外在力量強制和約束智庫研究人員注重成果質量，是形成良好質量意識的硬性保障。質量文化氛圍提供了一種軟性的、內在的、情感性的約束。兩者有效結合有利于形成研究者優品、精品質量意識。智庫的規模和層次在一定程度上代表智庫的水平，也是智庫成果質量的重要基礎，特別是對于一些知名的大型智庫，其成果質量也往往更有保障。

4.2.2 資源保障人力、物力、財力等資源是智庫研發成果的前提。研究人員水平、智庫的信息化

以及研究經費保障直接影響智庫成果的質量，因此，遴選這三項作為評價的二級指標。研究人員的研究能力、政策預判和分析能力，研究團隊學科、專業結構等，是研究人員素質和水平的重要觀測點。在網絡環境下，智庫的研發也從簡單原始的手工作坊式轉變為智能化、自動化和網絡化的團隊研究模式，因此，智庫的信息化水平相當重要。研究經費是保證智庫正常順利運轉的必要條件，只有穩定充足的資金，才能建設科學完備的信息平臺，才能流暢運用和擴大傳播渠道進行廣泛而深入的產品推介，并且有助于吸引全球頂級人才的加盟和合作。這些是產生高質量思想成果的重要因素。

4.2.3 過程監管過程監管主要評價智庫成果研發過程中的相關因素。科學、嚴謹、規范的研究過程是高質量成果的基礎。遴選研究選題與規劃、信息源與研究方法和成果傳播過程作為二級指標。研究選題的觀測點集中在針對性和前瞻性，選擇黨委政府和社會民生亟待解決的重大課題，預測事關國家全局的重大問題及未來發展變化態勢[15]；信息來源的真實性和可靠性、研究方法的科學性與適用性是智庫成果研發的關鍵一步，故被納入研究過程評價中，以切實保障成果源頭質量；傳播過程是智庫發揮效用、實現影響的重要環節，多元、暢通的傳播渠道，以及靈活、有效的傳播方式是傳播過程質量的主要評測點。

4.2.4 內容質量內容質量是智庫成果質量的核心，主要從成果內容、成果結論和成果結構三個方面測評。其中，成果內容是否具有思想性、價值性和創新性是內容質量的重要觀測點；智庫成果中有針對性的應急預案和戰略部署關涉國計民生，結論應精準可行、經得起實踐的驗證；智庫成果結構要以方便用戶使用為目的，論據充分，論證嚴密，語言通俗精煉。

4.2.5 影響效果影響效果是檢驗智庫成果質量的重要標準，依據智庫的功能，遴選成果政策影響、成果學術影響和成果社會影響作為二級指標。智庫成果主要為政府部門決策服務，相關政策影響主要是指智庫成果被采納或被領導審閱和批示，或引起決策層固有思想模式改變等；雖然智庫成果并不是單純的學術研究，但也應體現其學術價值，為后續研究提供參考和借鑒；成果社會影響可以從被媒體廣泛報道，引起社會價值的積極變化等方面測評。

4.3 評價指標權重和評價等級集

在權重的設置上，邀請專家針對智庫成果評價側重點，利用層次分析法進行權重分析。3 位專家分別來自智庫機構和高校，專業領域分別是智庫管理、科學評價、經濟管理領域。在指標體系中，共有3 位專家參與遞階層次結構中12 個評價指標權重系數的確定[16]。基于群決策思想，對3 位專家的判斷結果進行算術平均加權運算得到最終的權值（見圖3）。

圖3 智庫成果質量的評價指標體系及權重Figure 3 Evaluation index system and weight of think tank achievements’ quality

5 研究報告類智庫成果質量評價實證

5.1 評價樣本簡介

從智庫的代表性、權威性以及成果數據的可獲得性考慮，研究選擇3 個不同類型的智庫，分別是政府官方智庫代表“X”、社會科學研究院智庫代表“Y”以及高校智庫代表“Z”。基于同類比較的原則，從這3 個智庫的研究成果中選取關于區域發展的智庫成果作為評價樣本，載體形式為研究報告，出版的年份為2020 年，分別以《X報告》《Y 報告》《Z 報告》指代。

5.2 評價具體過程與方法

依據評價指標設計智庫成果質量評價表（模糊綜合評價法問卷調查表），依據指標程度的層級確定相應的等級。質量管理相關規章制度依據其完備程度劃分為非常完備、比較完備、有相關制度和沒有相關制度四個層級，分別對應的評價等級為優秀、良好、中等、較差；研究選題指標中選題與國家內政外交戰略全局密切相關的重大問題等級為優秀，重要問題則為良好，一般問題則為中等，選題滯后或無關選題則為較差。本研究特邀請了經濟管理領域與智庫研究領域的5 位專家進行評價。

評價調查結果的處理采用了層次分析法和模糊綜合評價法相結合的方法。為滿足對后期評價結果進行單值化處理的要求，需要為各個評價選擇等級的隸屬度賦予相應分數，設計的分值向量集C=(5,4,3,2)，分別對應即優秀、良好、中等、較差4 個等級；將專家評價的結果導入評測表，并計算得到其綜合評價結果。考慮到在實際的評價中，智庫成果各個指標均得到5 分，才能獲得優秀等級，這顯然是不合理的，而且綜合得分通常不是整數，因此，本研究以分數區間來對應相應的等級（見表2）。

表2 3 個報告類智庫成果的綜合評價得分Table 2 Comprehensive evaluation scores of threereporting think tanks achievements

評價采用定性與定量相結合的方法。對于定性指標（如選題的重要程度、內容的創新性與成果結構完整性等），由評價專家依據自身專業學識和經驗進行主觀評判；對于定量指標（如成果被引用、被報道的次數等），則利用搜索引擎挖掘和分析相關數據并并進行客觀評價。評價信息數據獲取來源主要有智庫官方網站、主流媒體、搜索引擎、學術數據庫、網上書店等。

5.3 評價結果分析

通過上述定性（專家主觀評判法）與定量（數據挖掘、數理統計方法）相結合的綜合評價方法，得出的結果如表2 所示。智庫成果質量的評價綜合得分是由各個指標得分根據數與量的衡量匯總的結果；智庫成果指標的得分以專家根據各觀察點的判斷得出，總指標得分是根據各項指標的權重，加權匯總后得出的分值。研究結果表明，3 項成果得分都不太高（表3），其中，《X 報告》和《Y 報告》的質量等級為良好，而《Z 報告》則得分較低。本文所選擇的3 家智庫是3 種不同類型中較高水平的智庫，在一定程度上代表了中國較高水平智庫的成果質量，理應產出更高質量的成果，為各級政府決策提供高水平的智力支持。但是，從3 家智庫成果質量得分可以看出，智庫成果質量與智庫的地位和責任擔當尚不能完全匹配，與黨和政府的期許仍有一定的差距，這也反映出中國智庫成果整體質量水平有待進一步提升。

表3 3 項成果具體指標評價得分Table 3 Evaluation score of specific indicators of threeachievements

詳細對比分析每項智庫成果的具體指標得分情況（表3），可以看出，3 家智庫成果存在的問題主要有三方面。一是環境支持指標分值低。智庫缺乏專門質量管理和質量控制的各項規章制度，尚未形成重視質量的文化價值理念和氛圍，一定程度上反映出智庫質量意識普遍相對較為薄弱。二是過程監管指標中的成果傳播過程普遍得分較低。3 家智庫只在智庫官網和購書網站上查詢到相關信息，鮮少能從其他新聞媒體、社交媒體、新書推介會、智庫峰會、論壇等渠道獲取成果的介紹或推廣信息。智庫對成果的傳播和推介工作重視程度不足，宣傳推廣成果力度還遠遠不夠。三是內容質量上還有很大的提升空間。智庫成果多是短期的、被動的和應對的，缺乏戰略性、前沿性、原創性研究成果，在對接政府需求、提出切實可行的政策建議方面仍有待進一步改進和提升[17]。四是智庫成果的影響力不高。智庫成果影響力的大小取決于智庫本身以及智庫成果從生產到傳播再到利用各環節的質量水平，并受到學術環境、政治環境和社會環境的影響和制約。因此，提升智庫成果的影響力，依賴智庫、黨政機構、學術界、媒體、社會之間的協調合作、共同作用。

6 結論

智庫成果不同于經濟性成果，也有別于一般思想性成果。智庫成果的特殊屬性與智庫成果質量影響因素的多樣性決定了智庫成果質量評價的多維性和復雜性。本研究初步構建了智庫成果質量評價體系。并進行了可操作性的模擬評價。但仍然存在以下問題，需要在后續的研究中不斷完善和拓展。

一方面，本研究中指標權重的確立是通過AHP 群策法進行的，層次分析法是一種主觀賦值法，更多的是專家定性認識，缺乏定量數據的支撐，因此，指標權重的賦值還缺乏科學、權威的實驗性驗證。后續的研究中，可以利用主客觀綜合集成賦值法使指標權重的設置更加科學、合理。另一方面，因為時間和資源的限制，本文選取3種不同類型的智庫成果進行可操作性的模擬評價，單類型、少樣本的評價結果只是管中窺豹，未能呈現中國智庫成果整體質量水平。后續的研究中，會進行多種類型、大量樣本的智庫成果質量評價分析，使所得的評價結果更加真實、可信、客觀、全面。