■韋芷晴 李剛
1 南京大學信息管理學院 南京 210023
2 東莞松山湖未來學校 東莞 523000
20 世紀30 年代,在卡內基基金會(Carnegie Foundation)的資助下,俄亥俄州立大學教授拉爾夫·泰勒(Ralph Tyler)啟動了“八年研究”[1],形成了《史密斯·泰勒報告》,并提出了最早的、較為完備的評價理論模式——行為目標評價模式,對評價理論和實踐產生了深遠影響[2]。此后,有些評價學專家在理論研究和實踐操作中發(fā)現泰勒模式存在弊端,在不斷研究和反思的基礎上,提出了許多新的評價理論和方法,羅伯特·斯塔克(Robert Stake)就是其中之一。1967 年,斯塔克進一步充實和發(fā)展了泰勒模式,發(fā)表《教育評價的全貌》(The Countenance of Educational Evaluation),提出教育評價的全貌模式(countenance model)[3],并于1975 年提出回應式評價模式(responsive evaluation model)[4]。1981 年,庫巴(Guba)和林肯(Lincoln)發(fā)表了《有效的評價》(Effective Evaluation),提出評價的出發(fā)點應該是回應評價利益相關者的要求,并提出“建構性評價方法”,進一步發(fā)展了回應式評價理論[5]。自此,回應式評價理論被廣泛地應用于教育評估、政策評估、醫(yī)療服務評估等領域。
斯塔克將幾十年來理論研究、教學工作和評價實踐中的經驗和心得整理成Standards-Based and Responsive Evaluation,并于2004 年由SAGE 出版。目前國內主流的智庫評價方法基本受傳統指標性評價理論的影響,缺乏對回應式評價理論的了解,因此,“南大智庫文叢”的主編單位南京大學智庫研究與評價中心(以下簡稱“中心”)決心引進這本經典教科書,并將其翻譯為《智庫與教育評價大師課:基于標準的評價與回應式評價》(以下簡稱《基于標準的評價與回應式評價》)①《智庫與教育評價大師課:基于標準的評價與回應式評價》于2021 年8 月出版,由南京大學智庫研究與評價中心基于SAGE 出版的2004 版Standards-Based and Responsive Evaluation 翻譯而成,譯著書名由南京大學出版社根據原書書名調整翻譯而來。,從而為智庫界創(chuàng)新智庫評價思路與方法提供理論參考。
《基于標準的評價與回應式評價》主要介紹了兩種評價方式:以測量為導向的評價方法和以經驗為導向的評價方法,即基于標準的評價方法和回應式評價方法。除此之外,該著作對相關術語(如標準、評價者、評價對象等)進行了解釋,對評價的工作環(huán)節(jié)(如數據收集、分析、綜合推理、元評價等)內容做出說明。基于標準的評價和回應式評價理論、評價方法的選擇與應用,對評價工作進行質量控制,是著作的核心內容。
《基于標準的評價與回應式評價》圍繞基于標準的評價及回應式評價展開,這兩種評價模式在評價導向、評價流程、評價方法、報告呈現等方面存在區(qū)別。
2.1.1 評價導向 基于標準的評價以目標為導向,需要緊緊圍繞既定目標展開,提出的研究問題、收集的數據需要聚焦于評價對象的目標,通過一系列嚴密科學的數據收集、評價分析以衡量目標是否達成。然而,斯塔克認為,評價對象的部分價值是隱性的,具有延時性,僅通過指標并不能完整地呈現其成效與價值。而回應式評價更關注的是實踐而不是結果,通過發(fā)現、解釋委托人、利益相關者所關注的關鍵議題(issues),完成對評價對象成效與價值的理解和判斷,從而發(fā)現其中所存在的問題、不足。回應式評價可以犧牲測量的準確性以換取對委托人、利益相關者的有用性。
2.1.2 評價流程 基于標準的評價是一個線性過程,分為計劃階段、數據收集階段、分析階段和解釋階段,如圖1 所示。基于標準的評價強調科學性,若評價者在評價過程中產生新的想法,則應作為一個新的研究開展,而不是更改正在進行中的研究問題、標準制定和數據收集。而回應式評價的步驟可以描述為“回應時鐘”(the responsive clock),如圖2 所示。了解項目運作、收集定性和定量的數據、分析質量水平、報道評價結果等工作,均在“回應時鐘”當中。“回應時鐘”的方向并不固定,可以順時針、逆時針甚至可以跳躍,時鐘當中的事件完成之后可以接入其他的任何事件,事件與事件也可以同時發(fā)生。例如,評價者可能會在分析數據資料過程中不斷提高對評價對象及其背景的了解程度,進一步明確評價目的,調整原先的數據收集方式,并開展新一輪的數據收集。

圖1 基于標準的評價流程Figure 1 Process of standards-based evaluation

圖2 回應式評價流程:回應時鐘Figure 2 Process of responsive evaluation:the responsive clock
2.1.3 評價方法 基于標準的評價是一種高度理性的方式。其要求評價者圍繞評價對象所要實現的目標,選擇評價指標和標準。其后基于擬定的評價指標收集可測量的數據,并將所收集的數據聚合、統計分析,通過數據與標準的比較,衡量目標是否達成。所有明確指標和標準、數據收集整理、數據分析、綜合推理工作均不允許帶入過多評價者的個人偏向和個人觀點。
回應式評價認為釋義比標準測量更重要。因此,在開展評價的過程中,一方面,回應式評價者主動與委托人及利益相關者溝通、協商和討論,掌握其需求與關注的議題;另一方面,評價者對評價對象進行觀察、感知、描述,了解評價對象的具體情況,對議題進行分析解釋與反饋,并最終得到對評價對象成效與價值的總結陳述。與基于標準的評價不同,回應式評價更依賴評價者個人的詮釋與判斷,因此,回應式評價更需要評價者將自己的個人觀點融入評價工作當中,不斷地對自身的觀點進行擴充、質疑、修正、精煉。
2.1.4 報告呈現 撰寫評價報告的目的在于指明評價對象成效和價值,并完整地描述評價對象情況及評價方法。這兩種評價方式在報告內容與報告風格上存在差別:基于標準的評價重視科學性,其評價報告是以描述項目績效為主要內容,更多地呈現詳細的數據獲取途徑、獲取來源、評價標準,章節(jié)標題可能更傾向于說明所收集到的數據或所探究的問題;回應式評價的報告注重呈現樣本或個案,利用敘事和情節(jié)描繪評價對象特性,評價者在報告中基于個人經驗及專業(yè)基礎得出對評價對象成效及價值的判斷。
從總體上看,基于標準的評價方法是一種高度理性的方法,客觀性更強,在明確目標的基礎上開展評價,具有更強的可操作性。但是,基于標準的評價過分專注結果與目標,忽視了目標以外的現象及其價值。而回應式評價強調對評價對象進行更全面的理解和描述,更關心利益相關者的需求,強調溝通、解釋與回應。回應式評價并不排斥量化的方法,提倡質性研究與量化研究的結合。然而,回應式評價存在時間成本高、對評價者能力素質要求高等局限。
關于如何選擇評價方法的問題,斯塔克認為,評價具有情境性,評價方法的應用不可能放之四海而皆準。斯塔克指出,評價工作應符合實踐需要,故評價方法的選擇很大程度上取決于現場的情況。為了做出反應迅速、適配度高的評價,評價方法需要在“此時此地”使用,從而滿足當下利益相關方的評價需求。以項目評價為例,對于規(guī)模較小、復雜性較高、相互之間差異度較低的項目,評價者主要想獲得項目運行的親身認知從而評判其成效及價值,其可能更傾向于選擇回應式評價方法;如果評價對象可以用操作術語或指標變量表達,如任務時間、成果數量、績效等級等,那么評價者可能更傾向于依賴基于標準的評價方法。
基于標準的評價與回應式評價并無孰優(yōu)孰劣之分,斯塔克一直提倡將兩種評價方法結合起來。例如,通過回應式評價方法了解相關人員對評價對象績效的觀點和看法,有助于形成和完善基于標準的評價策略;而通過基于標準的評價方法收集、分析數據,可以幫助回應式評價者更好地描述和判斷評價對象的相關情況。然而,斯塔克指出在實際運用過程中,由于思維方式與側重點不同,兩種方法并不能完全平衡和完美融合,只能將其中一個方法作為評價的主要方式,而另一個發(fā)揮補充和完善的作用。
《基于標準的評價與回應式評價》中多次提到了評價者的個人偏向(bias)問題。評價者的主張和傾向均是評價者的個人偏向,有時候個人偏向會削弱證據的效力,影響評價結果的準確性和有效性。為了防止個人偏向對評價產生負面影響,斯塔克認為,關鍵在于控制個人偏向,而不是消除個人偏向。因此,其提出要堅持懷疑主義,不斷地對評價活動進行修正和完善以保證評價工作質量,其中包括評價者的自我懷疑與外部的元評價(meta-evaluation)。
斯塔克一直強調評價者需要有持續(xù)自我質疑的倫理觀,其指出,“一項沒有自我質疑的評價工作就像是缺少了新娘的婚禮”。自我懷疑精神應貫穿于評價工作的各個流程,評價者需要不斷地對評價對象每個方面保持懷疑以及對自己所進行工作保持懷疑態(tài)度,同時通過廣泛征詢他人意見,不斷檢查反思評價工作,保證自己的思維不被固化。斯塔克甚至認為評價者可以建立一套機制,形成對評價工作各方面內容的自覺懷疑,包括對評價的目標意義、員工貢獻度、證據可信度以及推斷有效性、評價工作整體性等進行審視。
外部的元評價是指由外部人員或第三方人員執(zhí)行的、以正式或非正式形式對評價工作質量進行的評價。元評價并非對評價工作“成功”或“失敗”的簡單評判。一方面,其可以指出評價過程和結果所存在的問題并提供改進建議;另一方面,其為評價的全面性、完整性補充新的觀點、新的視角。因此,斯塔克建議邀請外部評價者評判評價計劃、選擇的研究工具以及撰寫報告所采取的策略,或者邀請信息提供者進行人員檢查(member check),檢查評價者的訪談記錄、編碼等是否與其所提供的內容一致。
斯塔克運用豐富的案例、圖片和詩歌闡釋評價理論,利用非虛構對話反映書評價思想,讓讀者仿佛身處于生動有趣的課堂當中,享受實實在在的“大師課”。
第一,運用豐富的案例、圖片和詩歌闡釋理論。斯塔克為了避免書中僅有乏味的理論說教,運用了豐富的案例、圖片、詩歌等來闡釋評價相關的理論問題。例如,運用羅切斯特理工學院失聰學生的教師培訓項目說明創(chuàng)建評價項目調查表的注意事項,采用漫畫《清晨鏡像》解釋“評價對象”這一概念,采用漫畫《規(guī)格的轉變》解釋了何為目標陳述中潛在的錯誤表達等。讀者可通過實際的案例、生動的漫畫和詩歌領會作者闡釋的概念。
第二,利用虛構對話反映作者的評價思想。伽利略有時會利用虛構對話的形式發(fā)表理論。斯塔克借鑒伽利略的做法,虛構了老板薩格雷多先生及評價者菲利斯兩個人物,在每一章節(jié)最后的“小故事”部分呈現兩者的對話,以此反映這一章節(jié)中陳述的理論和想法。讀完整本著作后再重新回顧兩個人物的對話,則可以進一步了解著作探討的問題。
《基于標準的評價與回應式評價》除了對傳統的基于標準的評價理論與方法進行總結外,更重要的是詳細地闡釋了回應式評價理論。例如,此書譯者李剛教授認為,回應式評價理論顛覆了評價就是話語權的概念,這是對傳統的定量、指標化和結構化評價理論與方法的一次革命。
第一,拓寬了評價的視野。傳統的定量、指標化和結構化評價理論與方法,主要是目標導向、結果導向的,評價所提出的指標和標準局限于既定目標,注重通過嚴密科學的測量方式衡量既定目標的達成程度。而回應式評價意識到評價對象的復雜性,其突破了僅聚焦于目標與結果的局限,期望通過全面、深入的案例研究,對評價對象的背景、運行情況以及取得的結果做出描述和判斷,為委托人及利益相關者提供有用信息,從而促進效果的改善與問題的解決。
第二,將多元價值觀引入評價工作。回應式評價理論不再嚴格劃分評價的主體與客體,其認為項目參與者、利益相關者均具備評判成效與價值的資格和能力,鼓勵多元主體參與到評價工作當中。甚至,認為切實參與到項目當中、參與到機構發(fā)展與建設當中的人更能夠對項目與機構做出準確的評價。回應式評價理論認為,評價的有效性應體現為對委托方、評價對象及其他利益相關者的有用性。
第三,提出了動態(tài)靈活的評價運作方式。評價不再是單向的、線性的過程,評價的每一個環(huán)節(jié)均在評價時鐘當中,各個環(huán)節(jié)的順序并不是固定的,可以順時針、逆時針甚至是跳躍進行。在回應時鐘當中,評價者不斷與相關參與者、利益相關者溝通與交流,不斷地明確評價議題、調整評價計劃,為評價委托人解答其所關心的問題,提供有用服務。
目前,智庫評價指標更多的是以基于標準的評價為指導,以結果導向的、通用的評價指標體系評價不同類型的智庫,容易忽視智庫的個性與發(fā)展?jié)摿Α;貞皆u價理論超越評價主客體兩分法,關注評價者與委托人、評價對象、利益相關者之間的互動,強調評價工作的情境性與評價對象的復雜性,可以為解決智庫評價工作存在的問題提供新思路、新視角。
在智庫評價中,作為評價者的智庫主管部門或者是第三方評價機構,常常是按照其研究的一套標準來評價智庫發(fā)展水平,作為評價對象的智庫被客體化、簡單化,評價結果有時并不能完整地、全面地呈現智庫的發(fā)展水平,智庫所具備的主體性和獨特性容易被忽視。在回應式評價理論當中,評價對象不僅是評價客體,更是信息提供者。評價對象中的主要參與者不僅可以作為合作者幫助評價者對評價的關鍵問題做出決策,也可以成為評價活動的共同主導者。目前,國內外智庫評價逐漸呈現出評價主體多元化趨勢,包括政府部門、第三方機構、高校科研機構、地方社科院、主流媒體等[6]。除這些機構外,智庫評價還要發(fā)揮智庫自身的評價作用。智庫評價者通過加強與參與智庫工作的相關人員進行溝通、交流、互動,促使其對本智庫發(fā)展水平做出理解性評價,從智庫自身的視角補充智庫評價工作的內容。
除此之外,還可以進一步增強智庫自我評價的主體作用,構建智庫自評機制。例如,日本智庫專門建設內部評價機構,聘請外部專家評估智庫成果;美國蘭德公司通過制定研究成果質量標準以加強智庫成果的質量控制等[7]。智庫可以通過設置專門部門、設立評價標準與制度、加強與外部評價專家合作等方式,加強智庫自評體系建設。
回應式評價理論要求評價工作要充分考慮利益相關者的訴求,這種關注貫穿于評價設計、實施、分析、結果宣傳等各個環(huán)節(jié)。智庫的建設發(fā)展涉及多個利益群體,包括政府部門、企事業(yè)單位、新聞媒體、公眾等。不同的智庫利益相關者對智庫有不同的利益訴求與互動方式。政府不僅是智庫的主要服務對象,還是智庫的引導者;企事業(yè)單位、新聞媒體、公眾等則主要是智庫產品的需求方。智庫利益相關者是智庫評價結果的關注者與利用者。為了提高不同利益群體對智庫評價的認同度與信任感,可以將回應式評價理論融入智庫評價當中,讓智庫評價者不斷回應利益相關者的關切,以保證智庫評價內容的全面性。在評價設計階段,讓政府部門、企事業(yè)單位、新聞媒體、公眾等利益相關者了解智庫評價的目的與意圖,深入調研、了解其想法與關注的焦點問題,在此基礎上不斷修正智庫評價方案與評價標準。在評價實施階段,尤其注意基于不同利益群體的視角收集、處理、解讀評價所需的信息。在評價分析環(huán)節(jié),注重分析不同利益群體的訴求,使其價值取向及期望成為智庫評價分析的基礎。在評價結果宣傳階段,除了向評價委托方提交評價報告與解讀外,在評價委托方等允許的條件下,向相關利益群體公布評價結果。通過對利益相關者期望及價值取向的關注與回應,不斷提升各個利益相關者對智庫評價的認同感。
目前,智庫評價遵循量化思維,大部分指標是按照績效導向的評價方法,通過批示的數量級別、論文發(fā)表的數量及刊物的層次區(qū)別成果產出能力,這種量化傾向往往容易忽視智庫思想產品的特點,將智庫評價簡單化、片面化,掩蓋了智庫的差異與個性。公共政策制定從醞釀到發(fā)布需要經歷漫長過程,智庫所發(fā)揮的作用也需要一定的時間才能反映[7],而且智庫在公共政策中發(fā)揮的作用難以測定[8]。回應式評價理論認為評價對象具有復雜性,難以通過一個通用的指標、單一的方法就能測量。因此,斯塔克認為評價應該持續(xù)與利益相關者進行溝通,從而發(fā)現關鍵問題、全面收集數據資料、綜合利用多種工具。智庫評價也應當轉變評價理念,意識到智庫及其成果的復雜性。一方面,提升評價資料收集的全面性,不僅聚焦于結果因素,還加強對智庫及其成果的背景信息、研究過程、運營過程等信息資料的收集與分析,更加全面地理解智庫及其成果的成效與價值;另一方面,將智庫評價理解為溝通與交流、解釋與理解、建議與改進的過程,除了呈現智庫績效高低之外,更應通過與利益相關者的持續(xù)溝通,發(fā)現問題及其成因,并提出有針對性的建議,真正達到“以評促建”的目的。此外,可以不斷細化、完善智庫分類評價,加強對不同智庫發(fā)展特點、發(fā)展優(yōu)勢、專業(yè)價值的研究,在評價中尊重智庫個性特征。
我國智庫評價實踐主要有兩種類型:一是智庫主管單位以績效考評為目的,自主開展或委托第三方機構開展的智庫績效評價;二是智庫評價機構基于本機構建立的智庫評價指標體系連續(xù)開展的智庫測評。然而,我國智庫評價實踐尚處于探索階段,評價指標體系構建、評價工作開展等仍然有待進一步優(yōu)化、完善的空間。為進一步評判智庫評價實踐是否科學、準確、合理,可以在智庫評價實踐中引入元評價工作內容。
元評價有多種類型。按照評價介入節(jié)點的不同,可以分為總結性元評價(summative meta-evaluation)與形成性元評價(formative meta-evaluation)。前者是在評價結束后對評價過程及結果進行的“事后”梳理和評判,后者是在評價實施開展甚至是籌備階段就已經介入的“事中”和“事前”指引[9]。按照評價者的不同,可以分為內部元評價及外部元評價,前者源于評價體系的自身審視,后者由相關外部專家以中立角度開展[10]。可以從以下三方面將元評價工作引入智庫評價中。其一,鼓勵智庫評價研究者對相關研究機構開展的智庫評價工作進行總結性元評價研究,例如,已有研究從獨立性、功能性、相關性、效度、信度和功能性5 個維度對《中國智庫報告》等5 組國內智庫評價報告進行了比較研究[11]。其二,在主管單位單獨開展或委托的智庫績效評價中,可以邀請評價專家介入智庫績效評價活動的事前或事中,以發(fā)現評價方案、評價標準、評價方法和工具中的問題,并提出修正建議。其三,專業(yè)智庫評價機構可以建立內部元評價機制,形成內部元評價指標體系,及時對評價設計、實施、數據信息采集、評價分析與報告撰寫等工作進行反思與糾偏。
《基于標準的評價與回應式評價》是評價理論的經典著作,該書作者斯塔克是深入評價理論研究、教學工作以及評價實踐多年的資深專家,其更多地從概念上說明了評價工作的主要任務與注意事項,具有指導性和啟發(fā)性。該書所提出的回應式評價理論,是對傳統教育評價概念框架的革新與突破,更具有彈性和應變性,更適合多元的、動態(tài)的、復雜的客觀世界。雖然智庫評價研究與實踐在我國已經得到了重視和發(fā)展,但是仍然存在某些問題,希望智庫界能夠從《基于標準的評價與回應式評價》中獲得新啟發(fā),得到優(yōu)化完善智庫評價理論和方法的新靈感。