陳海曼,顧秀林
(上海師范大學 教育學院,上海 200234)
美國SBAC英語評價體系的特征和啟示
陳海曼,顧秀林
(上海師范大學 教育學院,上海 200234)
“智能平衡評估聯盟”基于《共同核心州立英語標準》開發出SBAC英語評價體系,該體系具有“以證據為中心、基于數字圖書館的形成性評價、設置合理有效的成就水平、強調表現性任務的運用”四個特征。借鑒SBAC英語評價體系,我們可以有以下嘗試:堅持學業成就評價體系和課程標準的一致性;探索基于證據的評價;建立大范圍全方位的評價資源庫;設置合理成就水平;應用表現性任務。
共同核心州立英語標準;SBAC英語評價體系;特征;啟示
顧秀林,浙江嘉興人,上海師范大學教育學院碩士研究生,主要從事課程與教學論、教師教育研究。
美國原有州英語學科評價體系存在諸多問題,如只關注考試成績而忽視英語實際水平的提升,各州統考評價內容不夠全面,以及測試結果滯后無法有效指導教學等。為此,美國政府于2010年9月通過“力爭上游計劃”(Race to the Top)撥款1.75億美元專項資金開發 “智能平衡評估聯盟”(Smarter Balanced Assessment Consortium, SBAC),并基于《共同核心州立英語標準》(Common Core State Standards for English, CCSS, ELA)[1],開發出SBAC英語評價體系,以期全面改善英語教學質量。
SBAC是由州主導的組織,由管理州負責主要的預算、政策和管理決策。管理州包括加利福尼亞、華盛頓等15個州,美屬維爾京群島和印度教育部。[2]每個管理州都必須履行和加州大學洛杉磯分校(University of California at Los Angeles, UCLA)簽署的學術合作備忘錄(Memorandum of Understanding),并且和所有成員州(除了管理州,還包括兩個合作州愛荷華州和北卡羅萊納州)共享服務——如項目管理、評估技術體系的維護和強化等。
SBAC英語評價體系包括終結性評價(Summative Test)、臨時性評價(Interim Test)和基于數字圖書館的形成性評價(Formative Assessment)。終結性測試(Summative test)或期終測試(End-of-year Tests),用于測評學生從3年級到高中的英語學習成就及其進步情況。教師還可以通過靈活可選的臨時測試,檢測學生的學習進步。[3]基于“數字圖書館”的形成性評價則是SBAC評價體系的主要組成部分。其中,數字圖書館是一個教師交流、共享教學資源、評價模型的網站。教師可全年使用數字圖書館(Digital Library)里的專業發展資料和教學資源等資源,以滿足學生學習發展的需要。[4]總的來說,總結性評價結果用途廣泛,如監測學生對大學學習和以后就業的準備程度,檢測學生的能力水平,衡量CCSS達標程度等。而臨時性評價和形成性評價最初的目的就是支持教學,提高學生學習水平,以最終達到總結性評價的高期望。具體關系如圖1 所示:

圖1 SBAC英語評價體系圖
SBAC還開發了形式豐富多樣、內容生動有趣、主題貼近生活的測試題,以確保測試符合學生發展要求。此外,無論是終結性評價、臨時性評價,還是基于數字圖書館的形成性評價,教師都可以讓學生以電腦適性模式(Computer Adaptive Format)的方式接受個性化測試(關于“電腦適性模式”具體在下文介紹)。為了滿足特殊群體的評價需求,SBAC評價體系的附加支持部分,提供了適應于殘疾學生和母語非英語的英語學習者(English Language Learners)的評價方式。[5]
1.以證據為中心
SBAC評價體系最大的特色在于在評價時以證據為中心(Evidence-centered Design,ECD)。ECD使得測試的設計集中于尋找證據,使得整個設計過程趨于簡單,避免了其他內容或形式性的干擾或影響(Williamson et al, 2003 )。[6]ECD雖早已出現在教育評估領域,但因其需要消耗大量人力、財力,且決策過程復雜,之前尚未大面積投入州教育評價工作中。然而,聯盟州教育工作者參與度廣,參與人員實力強,政府給予財政支出,使得證據為中心的設計正式投入使用。
作為評估過程中的重要一步,聯盟總結了ECD的六大要點,并將它們投入設計和發展智能平衡評價體系中。[7]這六大要點及其關系如圖2所示。

圖2 ECD六大要點[7]
ECD使得測試的目標更加清晰準確,每一個考察點都有相應題目,針對性強,提高了測試效度。同時它還可以提供更詳細、可信任的成績分析報告,不僅可以避免糾紛,還可以為教與學提供參考資料。
2.基于數字圖書館的形成性評價
數字圖書館是面向教育工作者,并由教育工作者收集和遞交教學指導和專業學習資源的網站。圖書館資源和CCSS的要求一致,幫助教育工作者實施形成性評價,改善教學。圖書館鼓勵交流和合作,支持全國教育工作者分享教學資料和教學經驗,互相點評等。
數字圖書館除了采用先進技術建立一個資源豐富、交流通暢的網絡平臺以外,在實體上通過以下三步進行具體建構:
(1)聯盟與專家組、成員州、K-12教育工作者和高等教育工作者合作,共同開發數字圖書館資源。[7]專家組幫助聯盟開發出專業學習和教學資源的質量標準指南(Quality Criteria Guide)這兩份指南,用來協助教育工作者和專家們提交和審查數字圖書館的形成性資源。
(2)每個成員州由K-12教育工作者和高等教育工作者組成8~12人的州領導小組(State Leadership Teams, SLTs)。州領導小組負責為州教育工作者網(State Networks of Educators, SNEs)招聘和訓練教育工作者。只有SNEs的成員教育工作者,才有資格向數字圖書館提交資料。這些資料投入使用前,需要經歷三道審查。未能過關的資料將退回給提交者,并給予其反饋和改進意見。
(3)最后,近1200名K-12教育工作者和高等教育工作者組成州教育工作者團,接受SBAC關于正確解讀評價體系的培訓。
基于數字圖書館的形成性評價,使教師的教和學生的學都能獲得動態反饋,及時調整教與學策略,提高學生課程學習效率。形成性評價具有四大特點:闡明有意學習,提取證據,解釋證據,依證據行動。其中,“闡明有意學習”有兩大要素:學習目標和成功標準。學習目標揭示了學生在課程結束后應該知道什么,而成功標準則明確了師生可以使用的證據——鑒定學生如何通向學習目標之路。“提取證據”是提供師生需要的信息,鑒定學生在通往有意學習目標的路上,身處何處。解釋證據是師生解釋他們收集到的證據,判斷學生是否達到學習目標和學習成就標準,辨別學生的已知和未知模塊。“依證據行動”是指師生使用動態反饋,決定下一步進程。數字圖書館的每一項資源都為形成性評價的這四種性能服務。
3.設定合理有效的成就水平
聯盟開發了一套多步驟的成就水平設定(Achievement Level Setting)過程,依據學生在總結性評價中的表現,設立分數線將學生分為不同的成就水平。[7]具體步驟如下:
(1)第一步:在線討論
為了擴大參與度,聯盟邀請了聯盟州的教育工作者、家長和其他一些市民,參與在線成就目標設定。在線環節中,成千上萬的教師和其他相關團體獨立評審測試題目,并提出建議——學生進入大學和就業所需的表現水平。
(2)第二步:現場討論
教育工作組和其他成員州提名的合伙人商議和推薦四種成就水平的分數線:1級(Level 1)、2級(Level 2)、3級(Level 3)、4級(Level 4)。
(3)第三步:跨年級評審
在現場討論之后,一個主要由教育工作者組成的小團體開始評審第一步和第二步中推薦的成就水平。跨年級評審的目的——確保成就水平的設定,順利貫通各年級,準確反映學生年復一年的進步情況。跨年級評審的小組成員檢查之前的推薦項目,提出改善各年級成就水平連貫度的建議。
(4)第四步:州批準
成員州最終評審、調整和批注推薦項目。在11年級成就水平設立過程中,高等教育領導者參與決策,以確保成就水平反映高校的期望。一個獨立的技術咨詢委員會和一名專家審計員,監督這些過程是否合理實施。每個成員州必須決定是否采取聯盟成就水平或設置自己的成就標準。
雖然CCSS界定了學習進階,描述了每個年級段所包含的內容要求和技能要求,但是CCSS并未劃定學生應該知道多少(掌握知識的程度),這才算是為大學學習和以后就業做好準備。聯盟承擔起這項任務,做大量研究,界定學生為入大學和就業做準備所需掌握的知識、技術和能力。為達成這一目標,在2013年5月的合作大會(Collaboration Conference)中,管理州聯盟采用了成就水平說明(Achievement Level Descriptors, ALDs)。ALDs描述了在標準化測試中,學生應達到了知識、技術和能力要求。[9]聯盟的ALDs劃分了四種成就級別:1級、2級、3級和4級。3級和4級的學生達到入大學和就業的準備要求。除了報告分數,ALDs還具有其他的功能,如指導政策和標準設定(創設分數線)以及試題開發。
為了展現這一整套目的,聯盟開發了一系列ALDs,各不相同但又互有聯系,表1就介紹了這四種類型的ALDs:

表1 四種類型的ALDs
四類ALDs的體系的輪廓和相互關系如圖3:

圖3 ALDs體系的輪廓和四種類型ALDs的相互關系[10]
之前,在測試開發環節的末期才創建ALDs,僅用來總結學生的表現。而新的改革使得ALDs創建于測試開發環節的早期,對學生表現的期望可以指導對測試的構思和開發。ALDs是依據大學內容準備(College Content Readiness)的操作性定義以及策略框架來指導分數解析。但SBAC尚未開發出職業準備的操作性定義以及策略。不過,它正朝這個目標努力。
4.強調表現性任務的運用
SBAC創建了豐富多樣的試題類型,如選擇反應測試題(Selected-response Items)、結構反應測試題(Constructed-response Questions)、非傳統反應測試題(Non-traditional Response Questions)、表現性任務(Performance Tasks)等,并且這些測試題都以電腦適性模式(Computer Adaptive Format)的方式進行。電腦適性模式是指:學生通過預先設定的軟件作答,當學生正確回答問題時,將會出現更具挑戰性的題目;反之,則出現更簡單的題目。這樣個性化的測試,有助于學生展示所學,在合理范圍內爭取更多進步。[11]
SBAC最具代表性的測試類型是表現性任務(Performance Tasks)。表現性任務測量學生的批判性思維和問題解決能力,學生將自己所學的知識和技能應用于復雜的現實世界。[12]一個主題或方案串聯一系列問題或活動,這些活動用于測量學生能力,如理解深度、寫作和研究技巧、復雜分析能力。而傳統的測試題并不能充分測量學生的這些能力。這些表現性任務用時1到2課時,在電腦上完成(但并不是電腦適性模式)。表現性任務或由電腦自動打分,或由專業教師打分。它既可以在臨時性評價和總結性評價中使用,又可在數字圖書館中作為教學模型和創新的重要資源。例如SBAC提供的8年級英語表現性任務樣題,以“生產和使用便士(penny)的經濟利弊”為話題,提供了4篇文獻資料,要求學生進行自主探究。在第一部分,設置了三個問題,鼓勵學生使用證據理解文獻資料回答問題,檢測學生的批判思維能力和閱讀理解能力。如下:
案例 關于“生產和使用便士的經濟利弊”話題的表現性任務[13]
話題:生產和使用便士(penny)的經濟利弊
資料1:Penne wise, or 2.4 Cents Foolish? (作者:Jeff Sommer)
資料2:Is the Penny Worth It? (作者:Rachel Mancuso)
資料3:Give a Penny-Save the Day! (作者:Ted Waterhouse)
資料4:The Ever-Changing Penny (作者: Maria Story)
第一部分:
題目1:材料2說明了對美國消除便士的潛在影響, 請從文中提取兩個細節,解釋材料2如何加深讀者對此的理解。
題目2:所有資料的主題都有關便士。學生打算研究降低生產便士的成本,參考哪項資料最合適?從你所選的資料中,選取兩條信息,支持你的回答。
題目3:填表。資料3和資料4是否支持以下觀點。

表2 生產系使用便士的經濟利弊
第二部分:
以便士為主題,寫一篇議論文,并進行報告展示。要求學生使用自己的話,清晰表達自己對“便士”看法。可以參考筆記和文獻資料,但注意引用格式。
第二部分同時還展示了需注意的問題和評分標準,如組織/目的、證據/連貫、語言表達等。通過學生閱讀和理解一定文獻后,鼓勵學生自我創作、表達觀點,有利于學生學以致用,同時注重學生對證據的使用,發展學生的批判思維能力和創新能力。
表現性任務是相對于僅僅以知識技能為主、強調客觀唯一答案的紙筆測試任務而言的。但它并不排斥紙筆測試,不追求復雜或難以操作。它強調評價目標的正確性、可操作性和有效性,鼓勵學生使用高階思維技能,深入分析思考,推理探究,尋找支撐證據并綜合運用。
1.堅持學業成就評價體系和課程標準的一致性
學業成就評價體系和課程標準的一致性是評價結果有效性的重要指標。基于課程標準的評價是學業評價體系和課程標準“一致性”(alignment)的核心。[14]SBAC英語評價體系基于《共同核心州立英語標準》開發形成,評價理念以《共同核心州立英語標準》為向導,做到“為學習的評價”“對學習的評價”和“作為學習的評價”,致力于幫助學生為入學和就業做好準備。評價技術也與評價標準調整一致,試題所檢測的知識技能范圍及其比例,與課程內容標準的知識技能范圍及其比例相一致;完成試題需要的思維能力與課程準備的思維能力相一致。不僅如此,SBAC英語評價體系在2016年4月發表了《智能平衡聯盟:一致性報告(修改稿)》,檢測、反饋和報告評價體系是否與課程標準保持一致性。[15]具體而言,涉及證據表述與內容標準的一致性、測試藍圖和內容標準一致性、證據表述和試題庫一致性、試題庫和內容標準一致性等方面。新課標提出培養學生“全面發展”“核心素養”的理念,但學業成就評價對這些理念的觀測差強人意,導致應試化現象嚴重,和課程標準背道而馳。同時,對于評價體系是否與課程標準相一致的大規模檢測、反饋和報告較少,有待加強。
2.探索基于證據的評價方式
SBAC評價體系中基于證據的評價方法,使評價的過程集中于尋找證據,評價更加科學、客觀、公正、操作性強。這種強調證據的界定、證據的選擇、證據的收集、證據的使用的評價方式是評價領域的一大創舉。我國英語評價體系也可以借鑒這種方式,形成以證據為中心的評價體系。我們認為以證據為中心的英語評價體系可以從以下幾方面入手:(1)界定證據。根據具體學習內容和學習目標確定相應的證據表現,界定清楚哪些是證據,哪些不是證據。(2)對證據進行分類。可以根據教學的三維目標分為知識類證據、能力類證據和態度類證據。(3)獲取證據。不同類型的證據需要運用不同的獲取方式。知識類證據可以采用紙筆測試的形式獲取。能力類證據可以通過具體問題解決情景中的行為表現中獲得。態度類證據是最復雜的一種證據,需要在日常生活中對學生的行為表現的觀察、記錄來獲得。(4)使用證據。通過對收集上來的證據進行分類、整理、分析,對學生的學習狀況進行評判,形成評價的結果,并將評價的結果反饋于教學,從而改進教學。
3.建立大范圍全方位的評價資源庫
SBAC充分調動各方資源,通過競爭性資助,吸引聯盟州的參與,建立協助形成性評價實施的數字圖書館和總結性評價、臨時性評價所需要的評價項目資源庫。在大數據時代背景下,數字圖書館與傳統概念上的圖書館有所不同,其服務模式由被動、等待、共性化轉向積極主動、自動推送和個性化,提供再生信息服務。由傳統意義上只是共享資源的圖書館轉變為不僅是共享資源,而且是促進教師合作的交流平臺。評價項目資源的開發參與人員包括教師、高等院校工作人員、學科專家、測量專家、職場代表和相關專業人士等。評價項目不限于選擇反應型試題和結構反應型試題,還包括非傳統反應測試題和表現性任務。SBAC在網上發布測試樣題和練習題等,確保學生具有公平的了解和接觸的權利。除此之外,還出臺成績水平設定和成就水平說明,更好地解讀評價結果和學生發展需要。針對評價資源發展現狀,我國應積極調動各方資源,加大評價資源庫開發人員的廣泛度,豐富評價資源庫內容,借鑒SBAC建立數字圖書館經驗,建立大數據時代背景下的大型多功能的新型數字圖書館。
4.合理設定成就水平
SBAC評價體系中合理的設定成就水平是其一大亮點。其合理性具體表現為兩點:(1)多方參與成就水平的設置;(2)成就水平設置多樣性。在成就水平的過程中聯盟通過在線討論、現場討論、跨年級討論等多次討論將一線教師、家長、社會成員都納入成就水平的設置上,盡可能使成就水平的設置符合不同群體的需求。在成就水平的表現上,不僅設置了不同水平之間分界線的臨界值ALDs,還設置了政策ALDs、范圍ALDs、報告ALDs,不同的ALDs都有不同的功能,這樣的成就水平設置能滿足多樣化的需求。在這方面,我國《義務教育英語課程標準(2011)》(后簡稱《標準》)的制定過程中更多是專家討論。因此,我們認為應該在《標準》制定過程中,納入教師、家長和社會其他成員等多種社會群體的參與,以反映更多的社會需求;在《標準》的制定上,應當針對政策制定者、試題編寫者、教師、家長等不同需求,制作不同的《標準》版本。
5.使用表現性任務
表現性任務能測量學生的批判性思維和問題解決能力。表現性任務讓學生基于真實的問題情境,運用所學知識解決具體的問題。為了大量使用表現性任務,聯盟編制了大量表現性任務的題目,形成表現性任務題庫。教師可以方便地使用題庫里的表現性任務對學生進行考核。表現性任務的大量運用是一種提高評價效能的可靠嘗試。為此,我國應當根據測試的目標編制大量的表現性任務題目,通過網絡的途徑使教師能共享表現性任務,以推廣表現性任務的使用。此外,我們也應當開發類似電腦適性模式這樣的軟件來輔助教學評價,使其更加便利化、個性化。
[1] Common Core Standards Initiative. Common Core State Standards for English Language Arts & Literacy in History/Social Studies, and Technical Subjects[S]. Washington, D. C. : Common Core State Standards Initiative, 2010-06-02.
[2] Smarter Balanced Assessment Consortium. Smarter Balanced Assessment Governing Board Procedures[EB/OL]. [2015-07-30]. http://www.smarterbalanced.org/wp-content/uploads/2015/08/Smarter-Balanced-Governance.pdf
[3] Smarter Balanced Assessment Consortium. 2016-17 Interim Assessment Blocks Overview[EB/OL]. [2015-08]. http://www.smarterbalanced.org/wp-content/uploads/2015/08/Interim_Assessment_Blocks_overview.pdf
[4] Smarter Balanced Assessment Consortium. Digital Libaray[EB/OL]. [2015-09]. http://www.smarterbalanced.org/wp-content/uploads/2015/09/Digital-Library-Factsheet.pdf
[5] Smarter Balanced Assessment Consortium. Accessibility & Accommodations[EB/OL]. [2015-08]. http://www.smarterbalanced.org/wp-content/uploads/2015/08/SmarterBalanced_Accessibility_Factsheet.pdf
[6] Williamson, David M., Malcolm Bauer, Linda S. Steinberg, Robert J. Mislevy &John T. Behrens. 2003. Creating a Complex Measurement Model Using Evidence Centered Design. On-line: http://www.eric.ed.gov/ERICDocs/data/ericdocs2sql/content_storage_01/0000019b/80/1b/2c/09.pdf.
[7] Smarter Balanced Assessment Consortium. End of Grant Report[EB/OL]. [2015-07].http://www.smarterbalanced.org/wp-content/uploads/2015/08/SB-EndOfGrantReport-F2.pdf.
[8] Smarter Balanced Assessment Consortium. The Formative Assessment Process[EB/OL]. [2015-09]. http://www.smarterbalanced.org/wp-content/uploads/2015/09/Formative-Assessment-Process.pdf
[9] Smarter Balanced Assessment Consortium. Smarter Balanced Assessment Consortium: 2013-14 Technical Report[EB/OL]. [2016-01-14]. http://www.smarterbalanced.org/wp-content/uploads/2015/08/2013-14_Technical_Report.pdf
[10] Smarter Balanced Assessment Consortium. Smarter Balanced Assessment Consortium: Achievement Level Setting Final Report[EB/OL]. [2016-09-04]. http://www.smarterbalanced.org/wp-content/uploads/2016/05/ALS-Final-Report_no-Appendix.pdf
[11] Smarter Balanced Assessment Consortium. Smarter Balanced Assessment Consortium: English Language Arts & Literacy Computer Adaptive Test(CAT) and Performance Task (PT) Stimulus Specifications[EB/OL]. [2015-04] http://www.smarterbalanced.org/wp-content/uploads/2015/08/ELA-Stimulus-Specifications.pdf
[12] Measured Progress/ETS Collaborative. Smarter Balanced Assessment Consortium: Performance Task Specifications[EB/OL]. [2012-04-16] http://www.smarterbalanced.org/wp-content/uploads/2015/08/PerformanceTasksSpecifications.pdf
[13] Smarter Balanced Assessment Consortium. Smarter Balanced Assessment Consortium: English Language Arts Practice Test Scoring Guide Grade 8 Performance Task[EB/OL]. [2014-05-16] http://www.smarterbalanced.org/wp-content/uploads/2015/08/ELA-Stimulus-Specifications.pdf
[14] 胡根林,趙夢雷. 一致性研究:實現基于標準的評價——2015年語文教育論著評析之四[J].教育大參考,2016,(5):13-16.
[15] HumRRO. Smarter Balanced Assessment Consortium: Alignment Study Report[EB/OL]. [2016-04] http://www.smarterbalanced.org/wp-content/uploads/2016/05/Alignment-Study-Report_HumRRO.pdf
Characteristics and Inspirations of SBAC, ELA Assessment
CHEN Haiman,GU Xiulin
(Education College,Shanghai Normal University,Shanghai 200234)
Based on CCSS, ELA (Common Core State Standards for English language arts & literary in history/social studies science and technical subjects), SBAC (Smarter Balanced Assessment Consortium) has developed the ELA assessment. Generally, the ELA assessment has four typical characteristics: focusing on evidence; Digital Library as an important tool of formative assessment; reasonable and effective Achievement Level; and application of Performance Tasks. Learned from SBAC, ELA assessment, there are five suggestions for language achievement assessment in China: The consistency of academic achievement assessment and curriculum standards should be enhanced; evidence is worth emphasizing in assessment; comprehensive resource databases should be constructed in large scale; we ought to set reasonable and effective Achievement Level; and the setting and application of performance tasks are encouraged.
CCSS, ELA SBAC, characteristics, inspirations
陳海曼,安徽阜陽人,上海師范大學教育學院碩士研究生,主要從事英語學科課程與教學論、教師教育研究。