羅強(qiáng) 馮杰



蘇州市教育質(zhì)量監(jiān)測中心(以下簡稱“監(jiān)測中心”)于2015年起,啟動了面向全市初中段學(xué)生的義務(wù)教育學(xué)業(yè)質(zhì)量監(jiān)測(以下簡稱“蘇州監(jiān)測”),該監(jiān)測覆蓋初中三個年級,監(jiān)測內(nèi)容分學(xué)科測試和相關(guān)因素問卷調(diào)查兩個部分。學(xué)科測試包括語文、數(shù)學(xué)、英語和科學(xué),相關(guān)因素學(xué)生問卷包含影響學(xué)生學(xué)業(yè)成績的各種相關(guān)因素變量,包含學(xué)生背景變量、學(xué)習(xí)品質(zhì)、學(xué)業(yè)負(fù)擔(dān)和學(xué)業(yè)支持這四個一級維度。
蘇州監(jiān)測采取“學(xué)校全覆蓋、學(xué)生全參與、學(xué)科等比例抽樣”的方式,每個學(xué)生通過隨機(jī)抽樣的方式只參加一門學(xué)科測試,數(shù)據(jù)分析的最小單元為學(xué)校,由于蘇州監(jiān)測實現(xiàn)了對學(xué)校的連年追蹤,因此可以對各學(xué)校開展增值評價,從而能夠更加公正、科學(xué)、有效地對各學(xué)校學(xué)業(yè)質(zhì)量的發(fā)展?fàn)顩r進(jìn)行精準(zhǔn)的評估。
國內(nèi)外增值評價模型簡述
“增值評價”的理念是建立在學(xué)校可以增加“價值”到學(xué)生的學(xué)習(xí)成就這一假設(shè)之上的,而“增值”表示學(xué)校所加諸學(xué)生身上、使其學(xué)習(xí)成績超過一般期望成績的額外部分[1]。自20世紀(jì)70年代以來,以“科爾曼報告”為起點,學(xué)校效能的增值評價研究在世界范圍內(nèi)逐漸發(fā)展起來。美國和英國最早在學(xué)校評價中引入增值模式,后傳到其他國家和地區(qū)。我國雖然對增值評價作了一定探索,但關(guān)于增值評價的實證研究還不多見。
在國際上,以美國的增值評價為代表的,在2015年頒布的《每一個學(xué)校成功法案》更加強(qiáng)調(diào)學(xué)生的“成長”,且常用的成長測量模型有3類7種。第一類是基于縱向量表的模型,包括增分模型、漸進(jìn)達(dá)標(biāo)模型和分類模型;第二類是預(yù)測模型,包括殘差模型、學(xué)生成長百分等級(SGP)模型和投射模型;第三類是增值模型,又稱多變量模型、教育增值評估系統(tǒng)、田納西增值評估系統(tǒng)、變量保持模型等等。[2]
在國內(nèi),增值評價研究起步較晚,在多層線性模型分析方法產(chǎn)生之后,“增值評價”的模型構(gòu)建才有了一個新的發(fā)展和飛躍。多層線性模型更加全面考慮學(xué)校、學(xué)生等層面的變量,更加準(zhǔn)確區(qū)分不同層面、不同因素對學(xué)生學(xué)業(yè)發(fā)展所起的作用,并精確計算出各個因素所作的貢獻(xiàn)。[3]如北京市教育督導(dǎo)與教育質(zhì)量評價研究中心對增值評價開展了兩個項目的研究:(1)義務(wù)教育教學(xué)質(zhì)量評價與反饋系統(tǒng)項目(BAEQ),對部分連續(xù)抽測區(qū)(縣)的小學(xué)進(jìn)行增值性評價分析,以學(xué)生2009年三年級數(shù)學(xué)測試為前測成績、2011年五年級數(shù)學(xué)測試成績?yōu)楹鬁y成績,分析學(xué)校數(shù)學(xué)學(xué)業(yè)增值的情況;(2)以中高考成績?yōu)閿?shù)據(jù)基礎(chǔ)的學(xué)校增值性評價項目,采用多層線性統(tǒng)計模型,研究學(xué)校對學(xué)業(yè)水平的凈效應(yīng)[4]。杜屏等人基于我國西部五省調(diào)研數(shù)據(jù)的實證分析,采用多層線性統(tǒng)計模型,來研究農(nóng)村初級中學(xué)學(xué)校效能的增值性評價[5]。
蘇州市教育質(zhì)量監(jiān)測中心在借鑒這些學(xué)生增值評價模型的基礎(chǔ)上,嘗試構(gòu)建適用于蘇州本土、易于一線老師理解和接受的增值評價模型。
構(gòu)建追蹤監(jiān)測的增值評價模型
蘇州監(jiān)測設(shè)計了對同一級學(xué)生進(jìn)行追蹤監(jiān)測的方式。以2018年的監(jiān)測為例,2018級的學(xué)生有2018年一年的監(jiān)測數(shù)據(jù),2017級的學(xué)生有2017年和2018年兩年的監(jiān)測數(shù)據(jù),2016年的學(xué)生則有2016年、2017年和2018年三年的監(jiān)測數(shù)據(jù)。因此,可以通過對連續(xù)監(jiān)測學(xué)校的數(shù)據(jù)進(jìn)行追蹤比較,實現(xiàn)增值評價。
1.實現(xiàn)不同測試卷的等值
蘇州監(jiān)測的各學(xué)科測試分為A、B卷,在難度和區(qū)分度上并不完全一致,從嚴(yán)格意義上來說,A、B卷并不可比。為了解決同一學(xué)科不同測試卷之間的可比性,監(jiān)測中心采用錨題技術(shù),將A、B卷中的部分題目組合成C卷,采用項目反應(yīng)理論模型(Item Response Theory),通過Conquest軟件進(jìn)行計算,將A、B卷實現(xiàn)等值。將Conquest軟件計算后得到的學(xué)生能力分標(biāo)準(zhǔn)化,再轉(zhuǎn)換成均分為500、標(biāo)準(zhǔn)差為100的量尺分?jǐn)?shù)。
量尺分?jǐn)?shù)具有不受測試題目差異和題目難度影響的特點,從而使得同一年度中以及不同年度間完成不同題本學(xué)生的分?jǐn)?shù)具有可比性。
2.構(gòu)建百分等級增值評價的模型
(1)模型的算法。百分等級是測量學(xué)中應(yīng)用最廣的表示測試分?jǐn)?shù)的方法之一。一個測試分?jǐn)?shù)的百分等級是指在常模樣本中低于這個分?jǐn)?shù)的人數(shù)的百分比。因此,百分等級85表示在常模樣本中有85%的人比這個分?jǐn)?shù)要低。換句話說,百分等級指出的是個體在常模群體中所處的位置,百分等級越低,個體所處的位置越低。
因為百分等級指的是個體在常模中所處的地位,考慮到蘇州市各區(qū)域教育生態(tài)的差異,為了讓常模穩(wěn)定一致,監(jiān)測中心根據(jù)學(xué)生的量尺分?jǐn)?shù)來計算學(xué)生個人的百分等級,并在學(xué)生所處的同一個區(qū)域中將學(xué)生個體的量尺分?jǐn)?shù)轉(zhuǎn)化為百分等級。在數(shù)據(jù)計算中,以學(xué)校中所有學(xué)生在該區(qū)域中的百分等級的平均值來代表該學(xué)校的百分等級。
(2)模型的科學(xué)性。為了更加客觀科學(xué)地反映初中學(xué)校的增值情況,監(jiān)測中心構(gòu)建并比較研究了學(xué)校增值評價的兩種模型。第一種模型采集了蘇州市從2016-2018年均參加監(jiān)測且可追蹤的92所學(xué)校的數(shù)據(jù),以這些學(xué)校各科2016年百分等級和2017年百分等級、2017年百分等級和2018年百分等級(能夠體現(xiàn)年度間增值情況)畫散點圖,并求出擬合直線為:y=0.8929*x+5.4544,由于此模型是基于各學(xué)校實際百分等級的變化進(jìn)行的擬合,因此我們把此模型稱之為“經(jīng)驗?zāi)P汀薄?/p>
第二種模型認(rèn)為,如果參測的某校某學(xué)科百分等級保持在去年的水平上,該校該學(xué)科為“零增值”。若今年的百分等級高于去年,即為“正增值”;反之,為“負(fù)增值”,用公式表示為:y=1.00*x+0.00。由于此模型不考慮各學(xué)校之間各方面的差異(如辦學(xué)水平、資源配備),因此,我們把此模型稱之為“理想模型”。
比較“經(jīng)驗?zāi)P汀焙汀袄硐肽P汀保覀儼l(fā)現(xiàn)兩個模型的函數(shù)圖像非常相似,尤其是中間段成績的學(xué)校差異很小,而優(yōu)質(zhì)學(xué)校和薄弱學(xué)校則出現(xiàn)少許差異。表1選取了A校作為薄弱學(xué)校代表,B校作為優(yōu)質(zhì)學(xué)校代表,易見,在“理想模型”中,薄弱學(xué)校相對更容易實現(xiàn)高增值,而優(yōu)質(zhì)學(xué)校實現(xiàn)增值的難度相對較大。
由于優(yōu)質(zhì)學(xué)校集中了相對較為優(yōu)質(zhì)的生源,所有這類學(xué)校理應(yīng)承擔(dān)更多的責(zé)任,理應(yīng)培養(yǎng)更多的優(yōu)質(zhì)學(xué)生。因此,綜合考慮兩種模型的科學(xué)性、合理性、簡潔性和一線老師的可接受性,監(jiān)測中心采用“理想模型”對學(xué)校進(jìn)行百分等級增值評價,把對優(yōu)質(zhì)學(xué)校的增值要求提高到與對薄弱學(xué)校的增值要求一致。
(3)模型的應(yīng)用。以P區(qū)域2016級為例,該區(qū)域中過去三年中均參測的學(xué)校有3年的監(jiān)測數(shù)據(jù)。圖2呈現(xiàn)了P區(qū)域A校2016年初一、2017年初二和2018年初三的語文、數(shù)學(xué)和英語的百分等級。在計算百分等級的時候,以P區(qū)域為常模,故P區(qū)域的平均百分等級為50。從縱向看,可以看到某年各學(xué)科百分等級在P區(qū)域中的相對位置以及各學(xué)科之間的高低情況;從橫向看,可以看到某學(xué)科三年或者兩年百分等級的變化情況,以此來反映A校的增值情況。
3.構(gòu)建四水平增值評價的模型
(1)模型的算法。在常模中將學(xué)生個人量尺分?jǐn)?shù)由高到低進(jìn)行排序,按照人數(shù)占比0~25%、25%~50%、50%~75%、75%~100%,把學(xué)生分為Ⅰ、Ⅱ、Ⅲ、Ⅳ四個水平。Ⅰ水平學(xué)生表明該生量尺分?jǐn)?shù)處于常模前25%,Ⅳ水平學(xué)生表明該生量尺分?jǐn)?shù)處于常模后25%。同樣,為了讓常模穩(wěn)定一致,以學(xué)生所在區(qū)域?qū)W生為測量總體計算學(xué)生個人四個水平。在數(shù)據(jù)計算中,以學(xué)校中各水平人數(shù)占學(xué)校總?cè)藬?shù)的比例來代表學(xué)校各水平的百分比。
(2)模型的應(yīng)用。從百分等級的增值可以看出一個學(xué)校某一學(xué)科總體的增值情況。而通過對學(xué)校四水平占比變化進(jìn)行追蹤,可以清晰地看到學(xué)校各科各水平人數(shù)比例三年的變化情況,可以更為精細(xì)地診斷出學(xué)校進(jìn)步或退步的人群結(jié)構(gòu),便于學(xué)校明確改進(jìn)方向,抓住改進(jìn)的關(guān)鍵點。
構(gòu)建單次監(jiān)測的增值評價模型
監(jiān)測中心根據(jù)初一新生的個人信息,能夠追蹤到學(xué)生的小學(xué)畢業(yè)學(xué)校,因而能夠?qū)崿F(xiàn)對所追蹤到的小學(xué)畢業(yè)生學(xué)業(yè)質(zhì)量水平的評價。由于所追蹤到的小學(xué)僅有一年的數(shù)據(jù),監(jiān)測中心需要積極探索適合單次監(jiān)測的增值評價模型。
《科爾曼報告》指出,家庭背景是影響學(xué)生學(xué)業(yè)成績的主要因素[6],有關(guān)家庭背景與學(xué)生學(xué)業(yè)成績的一系列研究也證實,家庭社會經(jīng)濟(jì)地位對兒童的學(xué)業(yè)成就有顯著的影響,其影響甚至大于學(xué)校的影響。國內(nèi)也有很多學(xué)者的研究表明,學(xué)生的家庭社會經(jīng)濟(jì)地位對其學(xué)業(yè)成績有重要影響。
(1)模型的算法。基于國外內(nèi)學(xué)者的研究,監(jiān)測中心嘗試以學(xué)校為單位,用蘇州市370多所小學(xué)的家庭社會經(jīng)濟(jì)地位來預(yù)測學(xué)校的學(xué)業(yè)成績(用量尺分?jǐn)?shù)來表示)。監(jiān)測中心以各小學(xué)家庭社會經(jīng)濟(jì)地位與各科學(xué)業(yè)成績繪制散點圖,并求出擬合直線以及解釋率R方,看該模型是否達(dá)到可接受的范圍,再將其與這些學(xué)校實際的學(xué)業(yè)成績進(jìn)行對比,以期在一定程度上反映小學(xué)的增值情況。
(2)模型的科學(xué)性。在計算學(xué)校家庭社會經(jīng)濟(jì)地位(SES)時,參照國際上通用的以父母受教育程度、父母職業(yè)和家庭擁有物來合成學(xué)生的家庭社會經(jīng)濟(jì)地位,并通過計算學(xué)校所有學(xué)生平均的家庭社會經(jīng)濟(jì)地位來代表學(xué)校的家庭社會經(jīng)濟(jì)地位。
其中,英語學(xué)業(yè)成績與家庭社會經(jīng)濟(jì)地位的關(guān)系最為密切,回歸方程是y=51.074*x+508.88。解釋率R方為0.5808,數(shù)學(xué)學(xué)業(yè)成績與家庭社會經(jīng)濟(jì)地位的關(guān)系相對最低,解釋率R方為0.3648,但解釋率也達(dá)到可以接受的程度。
(3)模型的應(yīng)用。根據(jù)擬合直線,可以看出各小學(xué)的增值情況,如某小學(xué)某學(xué)科位于該擬合直線的上方,說明該小學(xué)該學(xué)科為正增值,若位于該擬合直線的下方,說明為負(fù)增值。此外,為了對各小學(xué)提供數(shù)據(jù)預(yù)警,監(jiān)測中心基于各學(xué)科增值情況,先計算各學(xué)科的平均增值以及增值的標(biāo)準(zhǔn)差,將與平均增值相差1個標(biāo)準(zhǔn)差到1.5個標(biāo)準(zhǔn)差作為1級預(yù)警,將與平均增值相差1.5個標(biāo)準(zhǔn)差以上的作為2級預(yù)警。以D小學(xué)的各科增值數(shù)據(jù)為例,英語學(xué)科正增值14分,表現(xiàn)較好,語文學(xué)科負(fù)增值1分,但是不在預(yù)警范圍之內(nèi),科學(xué)學(xué)科負(fù)增值29分,為1級預(yù)警,數(shù)學(xué)學(xué)科負(fù)增值49分,已經(jīng)達(dá)到2級預(yù)警,需要引起重視。
不足與展望
在實施增值評價的過程中,家庭、社會和學(xué)校自身等諸多因素均會對學(xué)校教育產(chǎn)生影響。因此,在構(gòu)建增值評價模型時,還需要評判不同教育生態(tài)層面各種因素對學(xué)生學(xué)業(yè)的影響程度,以提高模型的科學(xué)性和簡潔性。
監(jiān)測中心目前構(gòu)建的增值評價模型雖然初步解決了對本地區(qū)學(xué)校教育質(zhì)量進(jìn)行發(fā)展性評價的要求,但也存在一定的不足。如針對初中學(xué)校增值采用的“理想模型”,雖然簡潔且容易理解,但是對數(shù)據(jù)處理相對有些粗糙,無法全面考慮學(xué)生發(fā)展過程中學(xué)生個體、教師、學(xué)校等不同層面在其中發(fā)揮的作用。而對于小學(xué)增值模型的探索雖然也得到學(xué)校的認(rèn)可,但是僅考慮家庭社會地位對學(xué)生學(xué)業(yè)成就的影響是不夠全面的。
隨著多元統(tǒng)計技術(shù)的迅速發(fā)展,多數(shù)學(xué)者在研究預(yù)測學(xué)生的學(xué)業(yè)成績時,采用了多水平線性模型的方法,這樣能夠區(qū)分不同層次、不同因素對學(xué)生學(xué)業(yè)發(fā)展所起的作用,比如學(xué)生層面的變量,包括學(xué)生入學(xué)水平、家庭社會經(jīng)濟(jì)地位、學(xué)習(xí)品質(zhì)等,以及學(xué)校層面的變量。
監(jiān)測中心將在目前整體評價學(xué)校增值情況的基礎(chǔ)上,更深入地研究各種因素對學(xué)生學(xué)業(yè)成績發(fā)展的影響程度,以期能夠區(qū)分各種因素的責(zé)任,剔除與學(xué)校無關(guān)因素的影響,實現(xiàn)對學(xué)校“凈增值”的準(zhǔn)確測量,從而構(gòu)建更加科學(xué)公正、更加適合蘇州教育實際的發(fā)展性評價機(jī)制。
注:本文是江蘇省教育科學(xué)“十三五”規(guī)劃重點課題“區(qū)域初中教育質(zhì)量監(jiān)測結(jié)果運(yùn)用的實踐研究”階段性成果,課題批準(zhǔn)文號:E-a/2016/04
參考文獻(xiàn)
[1]〔英〕薩麗·托馬斯.運(yùn)用“增值”評量指標(biāo)評估學(xué)校表現(xiàn)[J].教育研究,2005(9).
[2]王曉平,齊森,謝小慶.美國學(xué)校“成長測量”的7種主要方法[J].中國考試,2018(6).
[3]邊玉芳,王燁暉.增值評價:學(xué)校辦學(xué)質(zhì)量評估的一種有效途徑[J].教育學(xué)報,2013(1).
[4]北京市教育督導(dǎo)與教育質(zhì)量評價研究中心.增值性評價評出學(xué)校的“加工力”[J].人民教育,2016(16).
[5]杜屏,楊中超.農(nóng)村初級中學(xué)學(xué)校效能的增值性評價—基于我國西部五省調(diào)研數(shù)據(jù)的實證分析[J]. 北京師范大學(xué)學(xué)報(社會科學(xué)版),2011(6).
[6]James S. Coleman et al. Equality of Education Opportunity[M]. Washington,DC:Government Printing Office,1966.