[摘 要] 20世紀90年代以來,美國基礎教育評價改革的目標是建立基于標準的評價和教育績效責任制。文章以美國國家教育進展評估為例,介紹了基于標準的評價的背景、外部環(huán)境以及實踐,在此基礎上提出對我國基礎教育學業(yè)評價的有益啟示。
[關鍵詞] 基于標準的評價;美國;國家教育進展評估
[中圖分類號] G40-058.1[文獻標識碼] A[文章編號] 1672-1128(2010)03-0030-05
“基于標準的評價”即“基于課程標準的評價”,課程標準是國家對學生學習結果的共同的、統(tǒng)一的基本要求,是學生學業(yè)成就評價的依據(jù)。評價之所以要基于課程標準主要是因為課程標準規(guī)范學業(yè)成就評價的設計理念,提供學業(yè)成就評價的維度框架,限定學業(yè)成就評價的內容范圍和認知要求①。美國課程標準一般包括內容標準、表現(xiàn)標準和學習機會標準。內容標準劃定學習的范圍,描述學生應該知道什么以及能做什么;表現(xiàn)標準衡量學生對內容標準的掌握程度;學習機會標準是達到內容標準和表現(xiàn)標準應提供的保障,側重于教育公平。
隨著我國新課程改革向縱深發(fā)展,課程研究理論和實踐者開始逐漸關注學習者基于課程標準的學業(yè)水平,研究基于標準的評價已有了適宜的土壤;從世界范圍看,美國可以說是基于標準的評價的先行者,本文通過介紹美國權威性的全國教育進展評估(National Assessment of Educational Progress,NAEP)來展示基于標準的評價的具體做法。
一、基于標準的學生學業(yè)評價的背景

20世紀80年代,《國家處在危險之中》等一系列報告從國際比較的角度表明,美國基礎教育質量嚴重下降,不同種族之間教育不公平現(xiàn)象日益突出。于是,教育理論和實踐者紛紛尋找原因。他們認為,造成這一現(xiàn)象的原因在于美國基礎教育長期實行地方分權管理體制,造成課程上缺乏統(tǒng)一的標準和要求。在此背景下,20世紀80年代末,美國開展了轟轟烈烈的“標準改革運動”,改革的目標是建立全國統(tǒng)一的課程標準,改善教育質量低下及教育水平參差不齊的狀況。經(jīng)過10余年的發(fā)展,美國在課程標準的制定和實施方面取得了明顯的進展,各專業(yè)協(xié)會在美國教育部的資助下相繼制定了各學科的標準,于1996年完成了所有核心學科的全國性課程標準的編制。同時,各州在國家標準的基礎上也紛紛制定了州一級的課程標準。截至1998年,幾乎所有的州都完成了課程標準的制定②。
在制定和實施課程標準的過程中,課程實踐者逐漸將改革目光投向學習者的學習質量,以課程標準為基礎開發(fā)評價工具、編制測驗,并在部分年級推行州的學業(yè)成就評價,欲建立與課程標準相匹配的教育評價系統(tǒng)。1990年,與“標準改革運動”相呼應,美國國家教育進展評估(NAEP)開展了以州為單位的數(shù)學評價,并規(guī)定以后每兩年進行一次州層面的數(shù)學和閱讀測試③;1995年,美國又參加了國際教育成就評價協(xié)會發(fā)起的規(guī)模空前的“第三次國際數(shù)學與科學研究”。大規(guī)模的評價項目一方面為“標準改革運動”提供了大量的教育統(tǒng)計數(shù)據(jù),另一方面也成為“標準改革運動”的重要組成部分,使教育評價達到了高潮,基于課程標準的學業(yè)成就評價日益成為人們關注的焦點。
二、基于標準的學生學業(yè)評價的支持體系
1.法案支持
(1)《不讓一個孩子掉隊》法
2002年,美國頒布了《不讓一個孩子掉隊》法。該法強化了基于標準的學業(yè)成就評價,要求學業(yè)評價要與州的學科內容標準相一致,將基于標準的學業(yè)評價推向一個新的高潮。該法提出的以州考成績作為聯(lián)邦教育部考核州一級教育質量依據(jù)的績效責任制現(xiàn)已成為各州教育機構的工作重點④,這一舉措將學業(yè)評價結果與問責聯(lián)系起來,評價與標準、問責之間建立起更為有意義的聯(lián)系。
(2)各州政府的政策支持
20世紀90年代起,作為“標準改革運動”的一部分,各州逐漸建立起教育問責制度,強化學校的績效責任,建立了和學校相聯(lián)系的獎懲機制,即對學業(yè)評價中表現(xiàn)優(yōu)秀的學校予以獎勵,表現(xiàn)差的學校予以扶助和懲罰。各州的這種政策性導向強化了對基于標準的學業(yè)成就評價的深入探討,如NAEP作為一項法定權威化的評價體系,于2002年在州評估的基礎上首次開展了對城市地區(qū)的試驗性教育進展評估(Trial Urban District Assessment)⑤,確保了教育績效信息和評價的可信度。
2.文化支持
(1)實用主義文化傳統(tǒng)
美國的實用主義文化傳統(tǒng)決定了美國在基于標準的評價實踐中必然選擇改進技術這一最具操作性的實踐路線,為基于標準的評價實踐提供了重要的文化基礎。
(2)“問責文化”
在美國,比起評價功能,大規(guī)模的教育評價對學生的測驗更多地是承擔問責職能。美國教育部《2002-2007年戰(zhàn)略規(guī)劃》的目標之一就是創(chuàng)造一種“問責文化”或“成就文化”(Accountability/Achievement Culture),從而將聯(lián)邦政府教育撥款與學業(yè)評價結果的問責聯(lián)系起來⑥,正是這種重責任、尚質量、求績效的文化傳統(tǒng)為基于標準的學業(yè)評價提供了良好的條件。
3.技術支持
目前,在美國各級政府的資助以及考試中介機構的技術支持下,美國已開發(fā)出多種檢測評價與課程標準一致性的制度和工具,如韋伯模式(Webb model)、實施課程的調查模式(Surveys of enacted curriculum model)、成就公司模式(Achieve Inc.moedel)、基礎教育委員會模式(Council for basic education model)等多元化的一致性分析模式⑦。
三、基于標準的學生學業(yè)評價的實踐
NAEP是目前美國國內一項權威的中小學生學業(yè)成就評價體系。成立40年來,NAEP已周期性地對美國中小學生的閱讀、數(shù)學、科學、寫作、美國歷史、公民學、地理等學科進行了全面測試,NAEP收集的數(shù)據(jù)和報道已被廣泛用于美國教育改革的各種政策文本中,對美國教育產生了深遠的影響。NAEP在基于標準的評價實踐中已形成了一套比較完善的評價程序。我們可以通過NAEP的評價流程看出其是如何基于課程標準的。
1.評價框架的制定
評價框架是NAEP測試形成的依據(jù),對各學科所要評價的內容領域、測試的題型、試題難度以及評分規(guī)則進行詳細說明。1988年,NAEP的政策制定機構——全國評價管理委員會成立以來,一直負責評價框架的開發(fā)。NAEP評價框架設計科學嚴謹,評價領域的確定、維度的選取以及題目的設計緊緊圍繞著課程標準展開。在制定評價框架時,全國評價管理委員會依據(jù)國家課程標準和評估水平,同時考慮州和地方標準,在此基礎上確定各年級學生應該達到的知識和能力水平。
NAEP評價框架集中了課程專家、評價領域的專家、州和學校地區(qū)的代表、學校管理者、政策制定者、教師、家長以及廣大公眾的智慧。首先,全國評價管理委員會通過競標決定框架開發(fā)的合作者,如2009年數(shù)學評價框架是在各州教育長官委員會(Council of Chief State School Officials,CCSSO)與全國評價管理委員會的契約下,聯(lián)合基本教育委員會(Council of Basic Education,CBE)以及成就公司等專業(yè)機構合作制定的⑦。接著,合同商與全國評價管理委員會旗下的各委員會(包括評價框架開發(fā)委員會、導航委員會、籌劃委員會等)協(xié)同工作,經(jīng)廣泛討論后起草評價框架。草案制定之后,合同商和全國評價管理委員會成員舉行公共論壇從商業(yè)社團、測試專家、家長、學生等使用者那里獲得反饋信息,了解他們所關心的問題,在修訂框架時將這些因素考慮在內。最后,修訂好的草案再送到專業(yè)機構、各地區(qū)學校、商業(yè)團體重審,對框架中規(guī)定的評價內容是否包括應有的內容標準、舉出的樣例是否恰當、框架中對每一內容標準所分配的題目數(shù)量是否合適等進行檢驗。經(jīng)反復修訂和審議,各方意見達成一致后,評價框架才得以成型⑧。
NAEP評價框架涵蓋評價學科的內容標準,詳細闡述各年級要測評的內容領域,為了更加具體清晰,各內容領域都附有典型的樣例幫助理解;在表現(xiàn)標準的一致性上,NAEP開發(fā)了基本、熟練和高級三種成就水平,以區(qū)分學生對課程標準的掌握程度,并對每種成就水平相應的表現(xiàn)進行清晰地界定和說明,還有相應的分數(shù)可以測定;在學習機會標準方面,NAEP設定的成就水平也涉及學習存在障礙、英語能力有限以及殘障的學生。
2.試題的編制
在評價框架制定完成之后,全國評價管理委員會成員同考試簽約商以及其他專業(yè)組織機構中的測驗專家在熟悉評價框架的基礎上,權衡框架中規(guī)定的內容、題型、試題難度、成就水平等編制大量試題。試題內容必須涵蓋評價框架中規(guī)定的所有內容領域;試題類型要與框架中規(guī)定的三種成就水平相匹配;試題難度要與框架中描述的試題復雜程度相當。為了保證評價結果客觀公正,評價試題必須排除種族、文化、性別以及地域偏見。為了保證試題與框架之間的一致性,NAEP的框架開發(fā)人員和試題編制人員至少有20%是相同的⑨。
在試題編制完成后,有關專業(yè)機構對試題進行匹配( alignment of standards and assessment)檢驗和一系列的試卷分析,審查試題是否包含了評價框架的內容、每個題目的認知要求與框架中所描述的認知要求是否匹配,然后在全國范圍內選擇有代表性的學校進行試測,在對試測結果的數(shù)據(jù)分析中對試題加以修訂。最后,經(jīng)全國評價管理委員會各委員會的審查和篩選后方可進入NAEP的題庫,這一系列的程序保證了NAEP具有極高的信度和效度。
3.評價樣本的確定
NAEP是一種抽測型評價,評價樣本包括試題樣本和學生樣本。
由于NAEP試題庫很大,不可能讓每個參與評價的學生完成所有題目,因而NAEP采用題庫抽樣的方式。在試題編制完成之后,采用矩陣取樣技術抽取部分試題,并將這些試題分成不同的組塊(item blocks),編訂成測驗手冊。每本手冊中的試題內容、題型、難度和題目數(shù)量相當,且都滿足NAEP測試內容和時間上的要求。一般來說,每個年級每門科目至少有20套測驗手冊。在測試時,每個學生只需完成一套手冊中的題目,測驗手冊的發(fā)放是完全隨機的,一所學校中只有很少一部分學生會做同一手冊中的題目⑩。
NAEP的學生樣本覆蓋各種類型和規(guī)模的學校、學區(qū)、不同性別和種族的學生,也包括學習存在障礙、英語能力有限以及嚴重殘障的學生,從而保證了樣本的科學性、代表性以及評價結果的信度和效度。在取樣上,嚴格采用兩階段分層隨機抽樣,首先根據(jù)地理位置對學校進行分類,然后再根據(jù)少數(shù)民族學生數(shù)量進行分類,最后在每個類別中按照事先確定好的比例進行隨機取樣。NAEP選擇參與的學校和學生的數(shù)量視評價科目和評價類型而定。一般來說,在一個僅有全國評估沒有州評估的年份,每個科目通常需要各個年級6000到1萬個學生樣本{11}。
4.組織實施
為了確保所有學生都能公平、無歧視地參加評價,NAEP為有學習障礙的學生、英語能力有限者以及嚴重殘障的學生提供各種方便措施,專門為他們制定了“適應性政策”,提供不同的試卷版本(不同語言)和考試形式(機試、筆試),并對執(zhí)行這些特殊評價的人員加以培訓{12},從而使所有學生都有平等的機會表現(xiàn)他們習得的知識和技能,體現(xiàn)了評價的公平性。
5.評分
NAEP評分標準界定清晰,可操作性強,并且提供了許多參考答案,有效地控制了評分過程中可能造成的誤差。
為了確保評分的可靠性和一致性,NAEP遵循嚴格的評分程序。首先,根據(jù)教育背景、工作經(jīng)歷和評分經(jīng)驗嚴格挑選評分者,評分者數(shù)量由評價規(guī)模決定。接著,對評分者進行培訓,讓評分者明確試題的設計原理以及評分指南。評分者要在掌握評分原則的基礎上給出客觀的分數(shù),經(jīng)檢驗合格后方能正式參與評分。在正式評分前評分者要再次進行測試,由多位評分者對同一試卷進行評分,當確認達到一致性要求時,才可以正式評分。在實際評分過程中,每組學生的試卷由兩位隨機組成的評分者來評,確保評分的準確與公正。另外,還要對每個評分者評分的質量與一致性進行監(jiān)控與評價,不合格的要予以淘汰{13}。
在評分技術上,NAEP基于項目反應理論,并采用學術界一致認可的參數(shù)估計軟件(如BILOG和PARSCALE)進行項目參數(shù)估計,然后根據(jù)學生的作答情況和各種預測變量(如性別、年齡、種族等)估計學生的能力值。
6.評價結果的報告
NAEP不僅僅給出一門學科籠統(tǒng)的分數(shù),而且按各具體的內容標準給分,具體反映學生在規(guī)定的學科領域中每一維度應掌握的知識、技能方面的成就,保證分數(shù)是基于標準的。如NAEP2007年數(shù)學報告卡中數(shù)學成績是按照數(shù)與運算、測量、幾何、數(shù)據(jù)分析與概率、代數(shù)等內容項出現(xiàn)的{14},見表1。
除此之外,NAEP的評價結果是按照民族、種族、社會經(jīng)濟地位、學校地理位置、英語熟練程度和殘障狀況等分組報告的,嚴格保護學校和學生的個別信息,并且通過各州或地區(qū)之間的橫向對比以及跨年度的縱向比較證明,不僅各個群體的學生成績都得到提高,而且處境不利的學生與其他學生之間的成績差距也在縮小,這樣一方面減輕了學生和學校的壓力,另一方面也體現(xiàn)了評價的公正性,有利于更好地向公眾報告學生的實際水平。
四、分析與借鑒
基于標準的學生學業(yè)成就評價是一種專業(yè)性很強的評價行為,美國NAEP在基于標準的評價方面為我們提供了很好的操作模式,為我國評價改革提供了借鑒。
1.進一步完善課程標準是“基于標準的評價”的前提
課程標準是學生學業(yè)成就評價的依據(jù),一個好的課程標準可以為評價提供良好的基礎。NAEP較好地進行“基于標準的評價”的前提是因為其評價框架對課程標準中的內容加以具體化,設置了具體完善的評價內容,才使得評價做到有的放矢。NAEP在設定每門學科整體內容標準框架的基礎上,對每門學科整體內容標準框架的具體內容也做了規(guī)定,并詳細描述各學科各年級的成就水平,為評價的實施指明了正確的方向。
相比之下,目前我國課程標準還不完善,在內容標準的具體化、清晰度方面還存在許多問題,從評價的角度看,“我國的課程標準看似一個缺少學習成果評價標準的課程內容框架,”{15}有些內容標準與表現(xiàn)標準混雜,很難為學生學業(yè)成就評價提供依據(jù)。因此,完善課程標準,使之具體、清晰、可操作是當前我國評價改革的當務之急。
2.提高評價的專業(yè)化程度是“基于標準的評價”的關鍵
即使課程標準非常完善,要使評價建立在標準之上也需要許多中間環(huán)節(jié),從課程標準到評價需要許多技術上的考量。美國NAEP從評價框架的開發(fā)、試題的編制、取樣、評分到報告都有著很高的專業(yè)要求,需要眾多專業(yè)機構提供技術上的支持。
反觀我國,在學業(yè)評價的實踐方面還相當薄弱,因而我國應借鑒NAEP的經(jīng)驗,一方面學習美國借助專業(yè)機構的力量,建立專業(yè)化的評價中介機構,另一方面要提高評價參與者對課程標準的解讀能力、基于標準的命題能力以及評分能力,提高考試評價的專業(yè)含量。
3.促進學生學習是“基于標準的評價”的最終目的
在新一輪評價改革中,“為學習的評價”逐漸取代“對學習的評價”,成為“基于標準的評價”的指導思想。從NAEP的評價流程可以看出,其評價的核心理念在于“質量”和“公平”,在評價各環(huán)節(jié)都注重評價對象的涵蓋性,考慮特殊群體學生,如在表現(xiàn)標準的制定上開發(fā)適合他們的表現(xiàn)標準,在評價實施中為他們制定了“適應性政策”,關注每位學生的需要和發(fā)展。
相比之下,我國大規(guī)模考試(如中考、高考)過于強調甄別和選拔功能,競爭色彩濃重,往往忽視了評價的發(fā)展和監(jiān)測功能。因此,我國應借鑒NAEP的成功經(jīng)驗,明確評價的目的在于改進學習,促進發(fā)展,同時要考慮學生的個體差異性,為每個學生提供合適的考試環(huán)境,提高教育質量的整體水平。
注釋
①崔允漷,夏雪梅:《試論基于課程標準的學生學業(yè)成就評價》.《課程·教材·教法》,2007年第1期,第13頁
②李建華:《標準運動:美國90年代的基礎教育改革述評》.《課程·教材·教法》,2000年第12期,第53頁
③Ercikan,K. 1997.Linking Statewide Tests to the National Assessment of Educational Progress:Accuracy of Combining Test Results across States. Applied Measurement in Education 10(2):146
④侯威:《NCLB法案實施四年來美國公立學校的變化》.《比較教育研究》,2007年第11期,第66頁
⑤U.S. Department of Education.The Nation’s Report Card 2007//Trial Urban District Assessment Results at Grade 4 and 8. 2007:2
⑥國家教育發(fā)展研究中心組譯:《發(fā)達國家教育改革的動向和趨勢(第七集)》[M].北京:人民教育出版社2004年版,第22-25頁
⑦Mathematics Framework for the 2009 National Assessment of Educational Progress. NAGB. U.S. Department of Education[EB/OL].http://nagb.org/frameworks/reading2009.pdf.
⑧Jago,C.A History of NAEP Assessment Frameworks. Paper Commissioned for the 20th Anniversary of the National Assessment Governing Board 1988-2008.2009:5-12.
⑨NAGB.Item Development and Review. Policy Statement.2002
⑩Hombo,C.M. 2003. NAEP and No Child Left Behind:Technical Challenge and Practical Solutions. Theory into Practice,42(1):63-64
{11}NCES.An Introduction to NAEP. U.S. Department of Education.2008:6.
{12}Pamlmer,E.A.,Barley,Z.A.What states can learn about state standards and assessment systems from No Child Left Behind documents and interviews with central region assessment directors.Washington,D.C.U.S.Department of Education.Institute of Education Science,National Centre for Education Evaluation and Regional Assistance,Regional Education Laboratary Central.(2008).13
{13}Sheida,W.,Connie,S.,Alan,V.2000.How does NAEP ensure consistency in scoring?Focus on NAEP,4(2):3-4
{14}The Nation’s Report Card Mathematics 2007-National Assessment of Educational Progress at 4 and 8.[EB/OL]http://nation’s report card
{15}胡軍:《學生學習成果標準不能在課程標準中缺失——澳大利亞課程內容與標準給我們的啟示》.《課程·教材·教法》,2005年第9期,第17頁
作者單位江蘇省徐州師范大學教育科學學院基礎教育研究中心
(責任編輯 王永麗)