姚繼軍
2020年10月13日,中共中央、國務院印發了《深化新時代教育評價改革總體方案》(以下簡稱《總體方案》),提出“到2035年,基本形成富有時代特征、彰顯中國特色、體現世界水平的教育評價體系”。自此,我國以教育評價改革為突破口,開啟了新時代教育綜合改革的新征程。
《總體方案》直面當前教育改革與發展過程中的問題和矛盾,提出“提高教育評價的科學性、專業性、客觀性”的原則要求。這既是對當前教育評價過程中存在問題的回應,也指明了教育評價改革的必由之路。就全球的教育改革而言,基于科學證據進行決策與改革已經成為世界主要發達國家的共識。在這一過程中,如何實現更為科學有效的評價,是教育循證改革(Evidence-Based Reform)的核心任務和目標。本文通過分析西方國家循證改革過程中的教育評價變革,力圖為我國教育評價的改革提供可以“攻玉”的“他山之石”。
循證教育研究的“執牛耳者”、美國霍普金斯大學教授Robert Slavin,在2002年發表《循證教育政策:轉變教育實踐與研究》一文,認為在既往的教育改革中,由于缺少嚴謹的科學證據,從而使一些看上去熱鬧無比的改革,實際上只是“流行時尚”和“品位特征”的改變,這種變化猶如鐘擺來回往復卻并非科學和技術的進步。[1]
在缺失嚴謹科學證據的情況下,人們往往只能根據經驗、情懷來進行決策和選擇教育教學策略,這難免會帶來誤判和效率低下等問題。20世紀80年代,興起于臨床醫學領域的循證醫學(Evidence-Based Medicine),著力于對“最佳證據”的追求,這樣的思路及方法迅速向其他社會科學領域滲透,形成了席卷全球的“循證思潮”。1996年,Hargreaves首次提出了“循證教育學”(Evidence-Based Education)的概念,認為教育學的研究和實踐也應該像循證醫學一樣,嚴格遵守循證研究證據,來改進教育實踐。[2]20世紀末到21世紀初,這樣的理念受到了西方學界與官方的廣泛認可。各國政府、學術組織、研究者和實踐者們,采取了大量的行動推進循證教育的研究和實踐,在這一背景下,教育循證改革取得了顯著成效。
就教育循證改革的本質而言,循證改革是將教育政策制訂和教育實踐建構于“最佳證據”基礎之上的一種努力,它要求在進行教育改革時,首先要收集和獲得足夠的科學證據,在進行科學評價之后再實施具體的教育干預、對策或政策。在這一過程中,最關鍵的要素是證據本身的質量,這就對教育評價的科學性和專業性提出了更高要求。我國的國情、教情雖有別于其他發達國家,但這種立足于科學證據的教育發展與改進思路,仍對我國有重要的借鑒價值。在未來相當長的一段時間內,我國都面臨著推進教育高質量發展、實現教育現代化、建設教育強國的艱巨任務。這無疑會對科學決策和科學育人提出更高的標準,要求我們在尊重科學規律的基礎上,運用科學手段,實現科學發展。
教育評價的變革既是教育循證改革的內容,又是推動教育循證改革不斷深化的重要力量,在教育循證改革過程中扮演著重要角色,其自身也受教育循證改革的影響進而不斷變革。
為教育改革提供“最佳證據”是循證改革背景下教育評價的核心任務。這意味著教育評價為教育實踐提供的證據,必須要滿足一定的標準與要求,以確保證據的有效性。以美國為例,該國在《每個學生都成功法案》(Every Student Succeeds Act,ESSA)中,以聯邦法律的形式定義了證據的強度,包括:強證據(strong evidence),指最少有一個良好設計或應用的實驗研究;中等強度證據(moderate evidence),指最少有一個良好設計或應用的準實驗研究;有前景的證據(promising evidence),指最少有一個良好設計或應用,在統計上控制選擇偏誤的相關性研究。在這些證據中,實驗研究和準實驗研究被給予了更多的關注,甚至被定義為評價和研究中的“金標準”。這是因為,相對于簡單的數據描述和相關性研究,實驗研究能夠較好地控制混淆變量,進而更好地揭示因果關系。
循證改革對證據的高標準,在很大程度上是通過更為科學規范的評價流程和方法來實現的。以美國有效教學策略網(簡稱WWC,網址為:http://ies.ed.gov/ncee/wwc/)為例,該網站為美國教育科學研究所直接管理的教育證據網站,通過對各種教育項目、產品、實踐及政策進行評估,免費向公眾提供教育的“最佳證據”。除此之外,該網站還頒布了證據評價的手冊,詳細闡釋了相關評價的流程和方法。相比傳統的基于經驗的評價而言,這些流程和方法更加嚴謹縝密,對評價樣本的篩選和處理更嚴格,更能夠保證評估結果的穩健性。近二十年來,包括WWC在內的諸多循證教育機構和研究者,通過不斷完善證據評價的方法和流程,不但構建循證教育學的方法體系及評價標準,而且使相關評價更為科學、嚴謹與專業,為教育的決策者與實踐者提供了大量科學證據,促進了教育循證改革的不斷深化。
人們之所以對循證改革寄予厚望,很大程度上是因為循證改革在一開始,就具有鮮明的“理實結合”特征。它通過專業的研究和評價,為實踐工作者提供具有操作性的證據,從而完成優化教育政策和改進教育教學的使命。例如,2007年歐盟委員會教育、視聽及文化執行署(Education,Audiovisual and Culture Executive Agency,EACEA)針對PISA評價中所發現的問題,啟動了“為了學生學業的領導力改進”項目(Leadership Improvement for Student Achieve?ment,LISA)。這個項目聯合學術界和實踐界的力量,共同探究學校領導力與成績之間的關系、作用機制及學校領導的改進之路。同時該項目基于科學的評價,不但發現了實踐中存在的問題,而且通過進一步的證據收集和評價,為實踐的改進提供了扎實的科學證據,實現了教育研究、教育政策和教育教學實踐的良性互動。[3]173在循證改革背景下,有很多的評價通過干預實驗的方式實施,這同樣促進了學界和實踐界的合作。以美國約翰斯·霍普金斯大學Slavin教授和Madden教授發起的“為了所有人的成功”(Success for All,SFA)項目為例,該項目通過與學校合作,在學校實施以提高學生學業表現為目的的干預實驗,并通過持續的評價給學校提供綜合性的改進建議,推進學校層面的改革,提高學生的成績。
在教育循證改革的背景下,世界發達國家高度重視證據的權威性和普適性:一方面,發起并推進了諸如PISA這樣的國際監測評估項目,以獲得跨國評估數據,進而比較不同文化背景和制度框架下教育體系的運作,為各國政府提供反思、干預和完善教育政策的線索;[4]另一方面,各國均高度重視對國際評估證據的應用。以德國為例,2006年德國各聯邦文教部長聯席會議頒布了《教育監測全局戰略》,該戰略將PISA、TIMSS、PIRLS、TALIS等國際大規模教育評價的結果作為“全局戰略”的支柱之一,與德國國內的學業水平評價、學校評估及國家教育發展評價結果一起,“為所有州的循證式教育政策奠定共同基石”。[3]174這樣的舉措,使該國內部的教育改革能夠得到更廣范圍的證據支持,從而在充分吸收他國經驗的基礎上,更為順利和有效地實施。
無論是教育的實踐改進,還是教育政策的制定與完善,都需要“言之有理”且“言之有據”。西方國家的教育循證改革為改進我國的教育評價工作,提供了有益借鑒。
就我國當前的教育評價工作而言,雖然在科學化水平上有了長足的進步,但毋庸諱言的是,依然存在著大量不嚴謹、不科學的現象。樹立教育評價的證據意識,要求評價主體無論在評價指標的設定、評價的實施,還是結果的分析過程中,都必須堅持“基于證據”的理念,將評價的隨意性降到最低。與此同時,還應當嚴格把控證據的質量,著力尋找和納入具有更高信度和效度的證據,進而為教育改革與實踐提供更為穩健的評價結果。
教育評價的結果是否科學、是否可靠、是否有效,很大程度上取決于評價主體的專業能力和水準。就我國現狀而言,掌握前沿方法技術的評估機構和人員仍然不足,尤其缺少類似WWC這樣的具備研制、修訂證據標準及評價流程的專業機構。因此,在整合當前力量,組建和壯大證據收集、分析和評價的專業機構的同時,加大對評價專業人才的培養和培訓力度,同樣是改進我國教育評價工作的當務之急。
西方教育循證改革極大地推進了學術研究和教育實踐的結合,除了建立證據數據庫,向所有人公布經評估獲得的有效證據外,很多國家還通過立法規定,教育改革與決策必須有科學證據支撐,這就在制度層面保證了研究證據的使用和轉化。而以實驗干預的方式進行評價,并以評價的結果推動學校改進和政策完善,則更是研究和實踐相互結合、相互促進的有效途徑。這些有效的方法,對轉變我國教育評價方式,形成評價與實踐雙向促進的教育改革與發展機制,具有重要的參考價值。
需要指出的是,循證背景下的教育評價雖然高度重視證據的獲得和使用,但這并不意味著這樣的評價是無涉價值的。Biesta認為,價值是教育實踐不可或缺的組成部分,證據需要經過價值的過濾,才能避免教育改革過程中出現價值和證據的二元對立。[5]正因如此,Whitehurst認為循證教育(Evidence-Based Education)應該由“實證證據”(包括以科學基礎研究和實證信息)和“專業智慧”(包括個人經歷和共識)兩部分構成。[6]這意味著,在教育評價過程中,既要高度重視證據,也不能被證據牽著鼻子走,必須堅持立德樹人、全面發展的價值導向,通過充分發揮科學評價指揮棒的作用,提高教育治理的水平,辦好人民滿意的教育。