● 北京語言大學 謝小慶

進行成長評估,可以有兩種思路:一是高起點、高水平,一步到位;二是低起點、低水平,第一步先“做起來”,第二步再力爭逐步“做得好”。如有條件,當然可以選擇第一種思路。本文介紹的“等值”和“殘差”兩種方法,屬于第二種思路。

2020年6月30日,由習近平總書記主持召開的中央全面深化改革委員會第十四次會議審議通過了《深化新時代教育評價改革總體方案》。10月13日,中共中央和國務院印發了這一總體方案。《深化新時代教育評價改革總體方案》的“總體要求”中提出:“改進結果評價,強化過程評價,探索增值評價,健全綜合評價”。《深化新時代教育評價改革總體方案》已經為未來教育評價改革指明了方向,理清了思路。這就是:以“倡四評(結果、過程、增值、綜合)”實現“破五唯(分數、升學、文憑、論文、帽子)”。未來,教育評價改革的一個重要思路就是,以成長(增值)評估來完善和補充原有的達標(結果)評估。
所謂成長評估模型是指一組定義、計算方法和規則,可以根據學生兩個或多個時間點的表現,做出與學生、班級、教師和學校有關的解釋。(王曉平,齊森,謝小慶《美國學校“成長測量”的7種主要方法》,2018年刊于《中國考試》第6期)進行成長評估,不僅可以更準確地了解學生實際的學習成效(outcome),同時還可以更準確、更清晰地了解教師、學校對學生成績提高所產生的實際影響。
新的“達標+成長”的教育評估模型體現了一種新的教育理念。學習,不僅要追求“達標”,更要追求“成長”。對于一些基礎好的學生,實現“達標”并不一定能夠實現“成長”;對于一些基礎薄弱的學生,即使暫時“達標”有困難,但仍然可以通過學習獲得“成長”。
今天,在美國各州應用的成長測量模型主要有:基于縱向量表的增分模型(gain score)、軌道模型(trajectory)和分類模型(categorical);基于回歸方法的殘差模型(the residual gain)、投射模型(projection)和學生成長百分等級模型(student growth percentile,簡稱SGP模型);基于多變量分析的增值模型(value added)。
基于縱向量表的增分、軌道和分類等三種模型,目前在我國暫時不具有可行性,可以暫不考慮。今天,在美國應用最廣泛的兩個縱向量表是《智者平衡評估聯盟測試系統(The Smarter Balanced Assessment Consortium, 簡稱SBAC)》(SBAC官網:http://www.smarterbalanced.org/)(維 基 百 科SBAC詞 條:https://en.wikipedia.org/wiki/Smarter_Balanced_Assessment_Consortium)和《大學學習和就業準備聯合測試》(Partnership for the Assessment of Readiness for College and Career,簡 稱PARCC)(PARCC官 網:https://parcc-assessment.org/)(維基百科PARCC詞條:https://en.wikipedia.org/wiki/PARCC)。從2010年到2014年,SBAC和PARCC測試系統的開發分別獲得了聯邦政府1.78億和1.86億美元的資助。這僅僅是研發投入的一部分,此外,還有40多個州政府的投入,還有承擔研發任務的培生等大公司的研發投入。目前,在我國尚難以進行這樣規模的投入。
進行成長評估,可以有兩種思路:
1.高起點、高水平,一步到位;
2.低起點、低水平,第一步先“做起來”,第二步再力爭逐步“做得好”。
有條件的時候,當然可以選擇第一種思路。我這里介紹的“等值”和“殘差”兩種方法,屬于第二種思路。
為了對學生的成長進行評估,需要在特定時段(如一學期或一學年)的開始時和結束時,進行兩次測試,即“入口”和“出口”的兩次測試。由于練習效應,兩次測試不能用同一張試卷。
盡管測試的編制者在命題過程中總是盡量保持難度的穩定性,但不同試卷之間在難度、分數分布方面的差別很難完全避免。兩次測試的難度不同,分數的增長可能歸因于學生的成長,也可能歸因于試卷偏容易。如果第二次測試的分數提高明顯,我們無法知道分數的提高是由于學生獲得了“成長”,還是因為第二次測試的試卷比較容易。只有兩次測試的成績可以進行合理的轉換,可以排除掉試卷難易度變化的影響,兩次測試才具有可比性。
這樣,就需要在不同難度的兩份試卷之間建立可比性。這一建立可比性的過程,就是等值(equating)。

等值的具體做法是:首先編制試卷1和試卷2兩份試卷。如果計劃將試卷應用于對A校(或A學區、A地區)的學生進行成長評估,則將兩份試卷在B校(或B學區、B地區)的一組學生中施測。根據施測結果,對兩份試卷進行等值連接。之后,將試卷1作為A校的“入口”試卷,將試卷2作為A校的“出口”試卷。(見圖一)

圖一
在B校施測的方式可以有兩種:第一種,上午測試一份試卷,下午測試一份試卷。這時,我們假設同一組學生在一天之內水平不會出現變化。第二種,將兩份試卷合并為一份試卷,施測于B校的一組學生。(見圖二)

圖二
在試卷1與試卷2之間建立分數等值的方法是:

例如:
試卷1施測于B校的平均分=21.75。
試卷2施測于B校的平均分=19.25(試卷2比試卷1難一些)。
李萍的試卷2得分為27分。
李萍的試卷2相對于試卷1的等值分數=27+(21.75-19.25)
=27+2.5
=29.5
又如:
試卷1施測于B校的平均分=20.25。
試卷2施測于B校的平均分=22.55(試卷2比試卷1容易一些)。
李萍的試卷2得分為27分。
李萍的試卷2相對于試卷1的等值分數=27+(20.25-22.55)
=27-2.3
=25.7
成長分數的計算方法是:

例如:
李萍的試卷1(入口)得分26分。
李萍的試卷2(出口)卷面得分27分。
李萍的試卷2相對于試卷1的等值分數29.5分。
李萍的成長分數=29.5-26=3.5分(獲得了成長)。
又如:
李萍的試卷1(入口)得分26分。
李萍的試卷2(出口)卷面得分27分。
李萍的試卷2相對于試卷1的等值分數25.7分。
李萍的成長分數=25.7-26=-0.3分(沒有成長)。
以上介紹的是最簡單、最粗糙的“平均數等值”方法。在有條件的學校(學區、地區),可以采用更精致的等值方法。在等值數據資料的收集方面,既可以采用以“人”為媒介的共同被試組設計,也可以采用以“題”為媒介的“錨測驗”設計。在等值數據資料處理的數學模型方面,可以依據基于真分數假設之上的經典測驗理論(classical testing theory,簡稱CTT),也可以依據基于潛在特質假設之上的題目反應理論(item response theory,簡稱IRT)。在兩種理論模型的框架內,區別于數據收集的方式不同、所采用的計算方法不同等,又存在著多種不同的等值方法。(謝小慶《對15種測驗等值方法的比較研究》 《HSK和MHK的等值》 《考試分數等值的新框架》分別于2000年、2005年、2008年刊于《心理學報》第2期 《考試研究》 第1期、 《考試研究》 第2期) (見圖三)。

圖三
殘差(the residual gain)方法也需要編制兩套試卷,一套用于入口,一套用于出口。殘差方法不需要對兩套試卷進行等值連接。
殘差方法所要回答的問題是:與根據入口成績估計的預期出口成績相比,某一學生的實際出口成績如何?是高于預期成績還是低于預期成績,或者基本與期望成績相一致。如果實際成績明顯高于預期成績,我們就可以認為學生獲得了成長。
殘差方法所采用的是一種很容易理解的回歸方法,基本計算方法是:在入口和出口成績之間建立線性回歸方程,根據回歸方程和某同學的入口成績,計算出該同學預期的出口成績。之后,計算該同學預期出口成績與實際出口成績之間的“殘差”。如果實際成績高于預期成績,該同學就取得了比較滿意的“成長”;相反,則成長的情況不理想。
獲得了一組學生(如一個年級的全體同學)的入口成績(X)和出口成績(Y)之后,很容易利用統計軟件(如SPSS等)計算出回歸系數,建立起回歸方程。
例如:
Y=1.02X+1.2

圖四
根據一位同學的入口成績和回歸方程,很容易計算出其預期的出口成績。
例如,李萍的入口成績為20分,根據回歸方程
Y=1.02X+1.2。
可以計算出:
李萍的預期出口成績=1.02×20+1.2=21.6。
如果李萍的實際出口成績是25分,那么李萍的成長分數
=殘差
=實際出口成績 – 預期出口成績
=25-21.6
=3.4

圖五
在殘差方法中,包含著兩個較強的假設:1.線性假設;
2.方差齊性假設。
在學生成長百分等級(SGP)方法中,不包含這兩個假設,更為精致,是今天美國使用最廣泛的一種成長評估模型,有20多個州使用,占所有使用成長模型的州一半以上。
SGP方法的計算較殘差方法復雜一些,在有條件的時候,可以進一步采用更精致的SGP方法。(謝小慶《用于成長評估的學生成長百分等級模型:來自美國的經驗》,2019年刊于《教育測量與評價》第6期;符華均等《基于學生成長百分等級模型的學業進步評價》。2019年刊于《中國考試》第2期;王帥鳴等《基于成長百分等級模型開展增值評價的實證研究》,2020年刊于《中國考試》第9期)
成長分數可以應用于學生、教師、學校(學區、地區)、學材、教法的評估。
學生:在向學生、家長報告“結果評估分數(達標成績或期末成績)”的時候,可以同時報告“成長分數”,可以使結果評估成績處于高端、中斷和低端的學生都能夠受到激勵、提醒和鼓勵。
教師:計算和報告不同教師所教學生的平均成長分數,使任教于不同基礎班級的教師,都可以看到自己在幫助學生獲得成長方面所取得的實際效果。
學校(學區、地區):計算和報告不同學校學生的平均成長分數,使學生基礎不同的學校,都可以看到自己在幫助學生獲得成長方面所取得的實際效果。
學材:計算和報告使用不同學材學生的平均成長分數,為不同學材的優劣比較,提供實證的參考依據。
教法:計算和報告采用不同教法學生的平均成長分數,為不同教法的優劣比較,提供實證的參考依據。
