張青華
2018 年9 月,習近平總書記指出,要深化教育體制改革,健全立德樹人落實機制,扭轉不科學的教育評價導向,堅決克服唯分數、唯升學、唯文憑、唯論文、唯帽子的頑瘴痼疾,從根本上解決教育評價指揮棒問題。2020 年10 月13 日,中共中央、國務院引發《深化新時代教育評價改革總體方案》(以下簡稱《教育評價方案》),明確要求堅持科學有效,改進結果評價,強化過程評價,探索增值評價,健全綜合評價,充分利用信息技術,提高教育評價的科學性、專業性、客觀性。到2035 年,基本形成富有時代特征、彰顯中國特色、體現世界水平的教育評價體系。可見,增值評價的理論與實踐研究已經成為當前教育評價改革的重要任務。
增值評價起源于20 世紀六十年代美國的學校效能研究,其研究的目的是更客觀、更科學地評估學校、教師在學生成長進步過程中的作用。近三十年來,增值評價在美國、英國、中國香港等地得到較為廣泛的應用。1992 年美國田納西州開發了田納西增值評價系統(Tennessee Value Added Assessment System,簡稱TVAAS),對測試型課程進行增值評價,2012 年又開發了學生成長檔案袋模式(Student Growth Portfolio Models,簡稱Portfolios)對非測試型課程進行評價,TVAAS 和Portfolios 兩者互為補充[1]。英國從1992 年開始探索增值評價,到2002 年在英格蘭和威爾士推廣,2006 年在全國實施。英國增值評價的技術由最初的控制背景因素的多水平模型,到目前在中學和大學過渡學段(16-18 歲)增值評價中保留多水平模型,在英格蘭地區基礎教育增值評價則采用簡單的均值計算方法[2]。我國的香港特區政府2000 年建立香港學校增值資料系統(Schools Value Added Information System,簡稱SVAIS),采用多層模型為學校提供年度增值評價研究報告[3-4]。
國內近二十多年來對增值評價進行了多方面的研究與實踐應用。增值評價的研究主要有兩方面:一方面應用增值評價方法進行實證研究,如馬曉強(2006)對河北省保定市普通高中學校的增值實證研究[5],王家美(2009)對江西省上饒市30 所高級中學語文學科進行的教育增值評估實證研究[6],杜屏(2011)對基于我國西部五省調研數據的農村初級中學學校效能的增值性評價實證分析[7],王帥鳴(2020)基于成長百分等級模型開展增值評價的實證研究[8]等;另一方面對增值評價模型方法進行探索研究,如萬兵濤(2019)教學質量增值評價中數學模型的選擇與應用[9],周園(2020)教育增值評價中嵌套數據增長百分位估計方法探析:多水平線性分位數回歸模型的應用[10]等。國內增值評價在研究探索的過程中也進行了實踐應用,如天津趙彤璐(2014)利用大規模考試數據開展學業增值評價[11],蘇州羅強(2020)利用義務教育階段監測數據進行增值評價[12],還有溫州、北京等地也都開展了增值評價的一些探索性實踐應用。
學業增值評價是以學生的學業進步程度作為尺度依據,間接地對學校、教師幫助學生學業提升的程度進行評價。它是對學校效能、教師績效進行評價的方式之一。由于它是對學生的學業水平進步程度的評價,充分考慮了學生學業水平變化過程中的前因與后果的關系,因此與結果評價相比(對學生最終的學業水平的絕對高與低進行評價),能夠更為客觀、更科學地反映學生的學業發展變化,能夠更公正地評價學校、教師在學生學業變化過程中的作用。
就目前國內增值評價的研究與發展的現狀而言,對于增值評價的探索應該是多方面的。一方面應加強對德、體、美、勞增值評價的探索。學校對于學生的效能不僅限于學業的傳授,還有在德、體、美、勞等方面對學生的全面塑造。由于德、體、美、勞很難通過可操作性、可量化的工具——測試來進行評價,因此國內在這些方面的增值評價研究相對較少。針對德、體、美、勞增值評價的現狀,除借鑒國外在這方面有關經驗之外,還需要結合國內實際教育情況進行方法與實踐的探索研究。另一方面加強對學業的增值評價探索。雖然近二十多年來國內對學業的增值評價進行了諸多的研究與實踐應用,但并沒有得到大規模廣泛的開展。在學業增值評價由理念、研究、走向實踐應用的探索過程中,需要探尋實現理念的方法和有效途徑,需要思考諸如學生學業用什么工具來測量,測量后用什么方法來計算學業的增長,如何對學業增長的情況進行判斷(評價指標體系的設計),以及在實踐中對評價的結果如何解釋、科學恰當地使用等。以下就學業增值評價探索過程中需要關注的五個主要方面的問題進行探討。
學業測驗工具是進行增值評價的基石。用于增值評價的測驗質量,即測驗能否對學生的學業發展變化進行科學、準確的測量,是影響學業增值評價結果的科學性、可靠性和準確性程度的重要影響因素之一。從教育測量學的角度而言,學業測驗質量至少包含了四個層面的內涵:第一測驗工具的信度,即測驗的測量結果具有一致性、穩定性及可靠性。第二測驗工具的效度,即測驗是否能夠測出所要測的目標,如學生的學科知識、能力、核心素養等。第三測驗工具應具有合理的總體難度,以及合理的難度結構,能夠將不同層次水平學生的真實水平測量出來。對于學業增值評價而言,測驗的對象是廣大的學生群體,在學生的學業水平差異程度較大的情況下,如果測驗難度結構不合理,試卷難度過于容易,高水平學生都會作答,會導致無法測量出他們的真實水平。而試卷難度太大,會導致低水平學生作答不出來,也無法測量出其真實水平,從而使增值評價的結果不可靠。第四測驗的試題具有較好的區分度。依據測驗的測試目標,每道試題能有效區分相應層次水平的學生,從而使測驗對不同學生水平達到預定的區分效果。因此用于增值評價的學業測驗應該具有高質量,從而保證學業增值評價結果的可信、可靠。
增值模型是進行增值評價研究與應用的核心技術。目前國內外增值評價采用的主要模型有多層線性模型、學生成長百分等級模型(Student Growth Percentile)等。無論哪一種增值模型都不可能解決所有的問題,或多或少會有一定的局限性。如多層線性模型的優點是通過排除影響學生學業變化的學校以外的背景因素(個人背景、家庭社會經濟等),純粹獲取學校教育對學生進步的影響。它強調的是學校的“凈效應”。然而影響學生學業變化的學校之外的因素一方面不可能窮盡地找到,另一方面也存在能否收集到這些因素的數據。而且,模型本身的兩個假設——線性和方差齊性,實際數據未必一定都能夠滿足。學生成長百分等級模型的優點在于考慮了不同水平學生群體在其相同起點水平群體中各自的學業增長幅度。它是通過計算一名學生在水平相似的一組學生中相對位置的變化來對“成長”進行評估的。模型假設與考生起始水平相同的群體在第二次所得的分數呈正態分布,當參與評價的學生群體數量并不大時,實際數據并不一定能滿足該假設。因此在進行增值評價研究或實踐應用時,選擇或開發模型要充分考慮實際可操作性(模型考慮的有關變量是否可收集到)、評價結果的準確性(模型可能帶來的誤差量)、評價結果的可理解性(模型得出的評價結果是否通俗易懂)、評價結果的運用目的(用于高風險問責或用于改進)等諸多方面的因素。
學業增值評價通過其模型能夠計算出每名學生的增值量,進而獲得學校、班級的增值量。如何通過模型計算的增值結果對區域、學校、班級、學生進行評價,需要設計評價的指標體系。指標體系設計的合理與否關系到學業增值評價的目的是否能夠實現,能否保證評價的結果對不同評價對象公平公正。
在設計學業增值評價指標體系時一方面要考慮評價結果的使用者是誰,不同的使用者(全市、區域、學校的行政領導),他們的需求、關注點是什么,有什么不同。例如,對于全市教育行政領導而言,可能更關注整體的學業增值情況,以及各區域整體增值情況。對于學校而言,可能更關注各學科的增值、不同教師的增值、不同起始水平的學生增值有何不同,以及如何通過增值評價提供的有價值信息,發現教育教學中存在的問題,從而改進教育教學。因此針對不同的使用者,增值評價指標體系的設計側重點應該有所區別,同時在設計指標體系時要考慮對使用者而言指標體系是否科學、能否提供有價值的信息、是否簡單易懂便于使用。另一方面要考慮設計的指標體系對于被評價者而言,是否科學、公平,如不同層次水平的被評價者,他們增值對應的參照群體設置是否合理等。
目前,國內外對于學業增值評價結果的使用主要有兩方面:一方面用于學校效能、教師績效的問責;另一方面根據增值評價的結果,研究影響學校效能、教師績效的因素,對學校、教師的教育教學進行改進。無論增值評價的結果是用于問責,還是用于改進,應該充分認識到學業增值評價是利用學生學業進步程度的結果,間接地對學校效能、教師績效進行評價。測驗工具的信度、效度無論有多高,對學生學業真實水平的測量仍會存在測量誤差;無論采用什么最優的模型,都不可能把與學校無法控制的因素窮盡地納入模型,從而達到無偏估計。由于數據收集、模型等因素存在隨機誤差、系統性誤差,因此對于學業增值評價的結果需要客觀、謹慎地使用,尤其是用于學校、教師高利害的問責,學業增值評價的結果應該作為問責的依據之一,而不是唯一依據。
學業增值評價從研究到實踐應用,首先都會面臨有關數據的收集,諸如學生個人的縱向成績和有關的背景信息、學校、班級等信息;其次信息收集后需要進行儲存、管理、運用;再次根據研究或應用的需要,進行相應的數據統計分析,最后得到增值評價的分析結果或報告。在整個學業增值評價研究的探索和實踐應用過程中每一步都離不開信息系統的支撐,需要全面考慮實際情況,系統地進行設計和構建增值評價所需要的信息收集、管理、分析系統,為學業增值評價的開展提供有力的信息技術保障。
國內二十多年對增值評價的研究一方面傳播了增值評價的先進理念,另一方面基于理念在實踐中進行了積極有益的嘗試和探索。然而增值評價在國內并沒有形成大規模的應用,其原因是多方面的:第一,用于增值評價的數據資料獲取不易。目前國內用于增值評價的主要是中考、高考、國家義務教育監測、區域階段性監測等考生測驗數據。這些高質量的測驗數據主要由國家、不同省市的教育考試機構掌握,對這些數據的使用需要具有一定的權限。獨自開發用于增值評價的測驗,一方面人力、物力、財力成本很高,另一方面會加重學生的測試負擔。第二,增值評價的模型有關問題。首先國內外常用模型都具有較嚴的模型假設,而現實收集的數據資料并不一定能很好滿足模型的這些假設;其次模型的計算較為復雜,需要專業人員;再次模型計算的結果對于許多增值評價結果的使用者而言較難理解。第三,用于增值評價的指標體系過于籠統,從而導致增值評價結果無法滿足用于改進教育教學的需要。目前國內的眾多研究還處于使用不同的增值評價模型對同一批學生兩次測試數據計算出學校的增值量,進而與按最終測試成績進行的結果評價的排名進行對比。這樣的研究結果雖然比結果評價更為客觀、合理,但與改進教育教學的目標還有差距。
實現增值評價由理念到廣泛應用,在目前國情條件下可以考慮:一方面加強高校與省、市教育考試機構的合作,充分發揮高校專業人員的科研優勢、教育考試機構的數據資源優勢,共同協作。另一方面完善增值評價指標體系,細化區域、學校、班級及其不同層次水平學生的增值結果,為實現增值評價的教育教學改進功能提供科學、客觀、有價值的依據。同時,還要加強對使用者的增值指標專業知識的培訓,只有使用者能夠理解,增值評價才能得以推廣使用。此外,為實現增值評價應用目標,還應加強信息化系統團隊的構建。增值評價從最初的數據收集到最后評價結果報告輸出,每一步都離不開信息化系統,信息化系統既需要財力支持,也需要專業的測量、統計、計算機等專業人員通力合作,這是一般的研究者無法單獨完成的。