● 周文葉
超越紙筆測試:表現(xiàn)性評價的應用
● 周文葉
有效評價的關鍵在于學習結果與評價方式的匹配。我們必須超越客觀紙筆測驗,根據(jù)所考察學習結果的類型選擇合適的評價方式。表現(xiàn)性評價能檢測客觀紙筆測驗檢測不了的學習結果,本文對其內(nèi)涵與特征進行闡述與分析,并提供了一個具體的應用案例。
表現(xiàn)性評價;目標;任務;評分規(guī)則
傳統(tǒng)上我們對學生學業(yè)評價的理解比較狹窄,主要限于對事實性知識的考查。因此,評價主要借助于紙筆考試來實現(xiàn)。但在新課程提出了知識與技能、過程與方法、情感態(tài)度價值觀三大課程目標領域的背景下,學生學習結果的范圍被大大地擴展了,不只包括事實性知識,更強調(diào)如問題解決、批判性思考之類的高層次的認知技能;不僅包括學術性的知識和技能,更強調(diào)一些非學術性的成就,如綜合素質(zhì)。對于高層次的認知技能和綜合素質(zhì),常用的紙筆考試往往無能為力。因此,我們必須超越紙筆測驗,采用一種能檢測紙筆測驗檢測不了的學習結果的評價方式——表現(xiàn)性評價,以期達到評價方式之間的平衡,同時這也是有效評價的前提。
正如我們不能拿尺子測量時間,用鐘表測量長度一樣,客觀紙筆測驗很難檢測高層次的思維技能和綜合素質(zhì)。也就是說,每一種評價方式都有適合其評價的對象,同時也具有局限性——不能或不適合檢測其他內(nèi)容。因此,我們期望學生應知和能會多樣化的學習結果,就需要采用多元評價方式來檢測學生的表現(xiàn)。
客觀紙筆測驗作為教育評價的主流形式,已經(jīng)有很長的歷史,并且在技術上也已經(jīng)相當完善,它能夠以比較低廉的成本保證比較客觀公正的評價。但是,也正是由于我們過多地考慮考試實施的可操作性,評分的客觀性,無論我們期望的學生學習結果是什么,也無論我們的評價目的是什么,客觀紙筆測驗都占據(jù)了霸主的地位,不易于客觀評價的內(nèi)容往往被排斥在外。
被濫用的客觀紙筆測驗只能檢測與記憶、理解有關的極其狹隘的領域,而忽視了更加重要的學習目標:較高層次的思考、推理、判斷、評價和應用的能力等。它的致命弱點是不能促進學生的理解與反思,給學生這樣的一種誤導:對大多數(shù)問題來說,只有一個正確的答案。學生被訓練成答題的機器——他們能很好地回答試卷上的問題,但缺乏解決實際問題的能力;他們只要求記住試題的答案,而不是去建構解決復雜問題的知識和能力。質(zhì)疑、批判、創(chuàng)造等高級思維能力的培養(yǎng)不受到重視,學校成為工廠,生產(chǎn)出同一的產(chǎn)品。很多時候,教師僅僅為學生能選出正確答案而教,教師在告訴學生如何準備考試時有時候甚至會說:“不要思考!只要你選出正確的答案就行。”在教學中關注的只是什么是易于檢測的,什么是會檢測得到的,而并非關注對學生的學習來說什么是重要的。為了提高考試分數(shù),把更多教學的時間用來反復的練習。由此,學生在學習中也只需要再認,而不是去建構答案和尋求解決方法。
我們批判客觀紙筆測驗對教育、教學,乃至學生的成長帶來危害,當然問題的本質(zhì)并不在于我們使用客觀紙筆測驗的評價方式,而在于我們不假思索地濫用該方式。事實上,客觀紙筆測驗對學習目標中的某些目標是最有效的評價方式,只是它檢測不了應該處于課程核心地位的豐富而復雜的任務。因此,我們解決問題之道并不是要取消客觀紙筆測驗,而是要建立一個平衡的評價方式體系。其中“平衡”的核心內(nèi)涵在于評價方式與學習目標之間的匹配程度。在具體的運用過程中,我們一定要根據(jù)各種評價方式的特點來均衡地使用他們,只有這樣,我們的評價才可能是可靠的、有效的。
評價是獲得、解釋證據(jù)的過程。如何獲得證據(jù),獲得的證據(jù)是否足以說明我們所期望的學習結果,是問題的關鍵。這也就是學習結果與評價方式的匹配問題。不同的學習結果具有不同的學習過程和條件,評價它們的內(nèi)容、標準和方法也應當不同。對陳述性知識的評價主要看學生能否正確回答“是什么”的問題,當然并不是讓學生機械復述書本上的概念定義,而是要求學生陳述符號或語詞表達的意義,選擇類型的題目(如是非題、多項選擇題、匹配題等)可以評價學生對概念的辨別和理解,可以評價學生能否在各種變式下運用規(guī)則,簡單建構反應題(如簡答題、填空題)適合評價學生運用幾個規(guī)則創(chuàng)造一個新規(guī)則的能力。[1]對程序性知識的評價,不在于檢測學生是否正確復述,而是考查學生面對各種必須應用學過的概念與規(guī)則的情境時,能否順利進行運用和操作。[2]程序性知識和認知策略針對的是“怎么做”和“為什么這樣做”的問題,因此,對它們的檢測應當在一些具體的情境中進行。總之,不同類型的學習結果各自的特性不一樣,在選擇評價方式時,需要因考查的結果類型不同而決定。
表現(xiàn)性評價不僅評價學生“知道什么”,更重要的是評價學生“能做什么”。事實上,表現(xiàn)性評價的這一特點,在音樂、美術、體育等課程的評價中已經(jīng)得到了很大程度的體現(xiàn)。我們評價一位學生的音樂素養(yǎng),主要看的是他的音樂表現(xiàn)才能如何,而不是他是否知道有關音樂的知識。相對于傳統(tǒng)的選擇式考試,表現(xiàn)性評價是對學生“能做什么”的直接評價。傳統(tǒng)的選擇式考試是通過對學生在紙筆選擇式考試上的表現(xiàn)來間接地測量他某一方面的能力,它只能測量學生“知道什么”,但卻不能評價學生“能做什么”。比如,通過多項選擇題、完形填空等形式的選擇式紙筆考試對一個人使用外語的能力作出測量,而事實上,這個學生在實際生活中運用外語進行表達和交流的能力到底如何卻不得而知。正如琳恩(Linn,R.)等人指出的,多項選擇等紙筆測驗的價值,主要在于它是作為其它有價值表現(xiàn)的征兆或相關因素。[3]相反,表現(xiàn)性評價則繞過了作為預測或征兆的中間地帶,直接對學生“能做什么”的行為表現(xiàn)進行評價。表現(xiàn)性評價要求學生完成的是我們確實想要評價的行為,而不是看上去像而實際上沒有發(fā)生的行為。[4]
表現(xiàn)性評價不僅評價學生行為表現(xiàn)的結果,更重要的是評價學生行為表現(xiàn)的過程。當前,絕大多數(shù)學生學業(yè)評價都是結果評價,我們關注的只是學生最后取得了多少成績。而表現(xiàn)性評價則強調(diào)學生的實際表現(xiàn)及歷程。例如,要評價學生的實驗能力,我們不僅對學生的實驗成果及獲得的數(shù)據(jù)進行評價,更重要的是對學生在實驗過程中對實驗的設計、使用儀器和實驗技巧等實驗過程方面的表現(xiàn)進行評價。因此,典型的表現(xiàn)性評價不僅關注如完成的課題、美術作品、研究報告等學習結果,而且關注這些學習結果得以產(chǎn)生的整個過程。事實上,有些學習內(nèi)容沒有形成最終的有形的產(chǎn)物而只有過程,如演講、唱歌、跳舞、討論等。表現(xiàn)性評價既是對這些學習過程的評價,又是對其產(chǎn)物的評價,是全面的評價。
表現(xiàn)性評價不僅是對某個學習領域、某方面能力的評價,更重要的是對學生綜合運用已有知識進行實作與表現(xiàn)能力的評價。表現(xiàn)性評價不僅僅局限于評價學生的記憶、認知能力,它更關注非認知因素,如與人合作的能力、參與社會活動的能力等,突出了情感、態(tài)度、價值觀因素在學生發(fā)展中的重要地位。表現(xiàn)性評價理念下的學生不再只是跟書本、習題、考卷打交道的書蟲,他們必須參與操作、實踐表現(xiàn),從而全面地發(fā)展能力。他們也必須綜合而又靈活地運用所學知識,進行思維加工和判斷,進行各種探究活動,有個性地展現(xiàn)自己的才能,從而培養(yǎng)創(chuàng)新能力。
上世紀八十年代末,表現(xiàn)性評價在國外受到廣泛關注,掀起了一場基于表現(xiàn)性評價的教育改革浪潮。然而,表現(xiàn)性評價的概念內(nèi)涵、結構要素等基本問題都還處在不斷的實踐和發(fā)展之中。
什么是表現(xiàn)性評價,有很多的答案,許多學者經(jīng)常概括地使用表現(xiàn)性評價、基于表現(xiàn)的評價、真實性評價、備擇評價等術語來指代相同的意義。[5]其中表現(xiàn)性評價領域最具思想深度的兩位先鋒威金斯(Wiggins,G.)和斯蒂金斯(Stiggins,R.)的觀點比較具有代表性。威金斯強調(diào),表現(xiàn)性評價要求學生完成一個活動,或制作一個作品以證明其知識與技能等,即讓學生在真實情景中去表現(xiàn)其所知與所能。[6]著名的評價權威斯蒂金斯在1987年就指出,“表現(xiàn)性評價為測量學習者運用先前所獲得的知識解決新異問題或完成具體任務能力的一系列嘗試。在表現(xiàn)性評價中,常常運用真實的生活或模擬的評價練習來引發(fā)最初的反應,而這些反應可直接由高水平的評價者按照一定的標準進行觀察、評判,其形式包括建構反應題、書面報告、作文、演說、操作、實驗、資料收集、作品展示。”[7]十年之后,斯蒂金斯又給予表現(xiàn)性評價一個更為明確的界定,“表現(xiàn)性評價是基于對展示技能的過程的觀察,或基于對創(chuàng)造的成果的評價。”[8]總體而言,這樣的評價是形成性的,學生可能會在一個方案設計上花費許多天時間,他們有多次機會調(diào)整和改進它,因而,能給予學生許多機會來證實他們的學習,最后達到顛峰的評價事件或表現(xiàn)可能是一個日常生活中常見的任務,完成它可以代表對知識整體的精通和掌握。盡管還有許多學者還從不同角度對表現(xiàn)性評價進行界定,但毫無疑問的是,表現(xiàn)性評價強調(diào)“實作”與“表現(xiàn)”。
表現(xiàn)性評價要求學生生成些什么,而不是選擇一個答案,是一種觀察學生積極地參與到完成某項任務之中的評價,這樣的任務經(jīng)常是一個人在實際現(xiàn)場可能做出的表現(xiàn)或模擬,它代表了學習的目標或標準的成就。表現(xiàn)性評價和教學通常是相互纏繞的,以致于不可能把兩者區(qū)分開來,因此,要求這樣的評價更復雜,涉及到用整合的任務來決定學生是否已經(jīng)達成了期望的結果或標準。可見,實施表現(xiàn)性評價,一是要求學生執(zhí)行表現(xiàn)任務,二是用以判斷結果和表現(xiàn)的評價標準。而表現(xiàn)性任務和評分規(guī)則都是依據(jù)我們期望學生能表現(xiàn)出來的學習結果來設計和開發(fā)的。因此,表現(xiàn)目標、表現(xiàn)任務和評分規(guī)則,就構成了表現(xiàn)性評價的三個核心元素(圖1)。

表現(xiàn)性評價是開放的、復雜的、真實的,貫穿于整個教學中,不像傳統(tǒng)的評價那樣,只在單元或?qū)W期結束時執(zhí)行一次;就管理而言,雖然它們需要更多的時間,但它們能和教學融合在一起,來提供學生的表現(xiàn),能給予教師許多新的方法來看到學生的進步和成就。
1.真實情境中的任務
“真實”,要求我們將評價所測的能力直接與生活中復雜的能力連接,以提高學生習得的能力遷移至學校學術情境之外之生活中的程度。這些真實情境中的任務,既是學習任務,也是評價所要完成的任務,它關注的重心是如何發(fā)現(xiàn)和建構知識,而不僅僅是簡單地獲取知識。真實性任務比起傳統(tǒng)的紙筆測驗要復雜,同時它也是非常普遍的,例如:寫一個宣傳小冊子、制作一幅地圖、創(chuàng)作一個食譜、評價某種行為、制作一盤錄像帶、寫一本兒童讀物、編一個計算機程序等等,這些都是與現(xiàn)實生活有關的真實性任務,都要求學生展示不同方面的知識和理解,為培養(yǎng)學生“帶得走”的能力提供各種各樣的機會。
2.學生的建構反應
表現(xiàn)性評價要求學生建構反應,學生必須自己創(chuàng)造出問題解決方法或通過自己的行為表現(xiàn)來證明自己的學習過程和結果,而不是選擇答案。建構反應和選擇反應是兩種不同的認知過程,選擇反應的評價以完全結構化的任務限制了學生反應的類型;而建構反應的評價學生可以按照自己的方式自由反應,使學生的創(chuàng)造力得以表現(xiàn),建構反應更加接近真實世界的問題解決。大部分的表現(xiàn)性任務要求學生參與一系列復雜的決定,學生必須分析問題,選擇各種各樣的方法去解決問題,通過書面、口頭等其他形式交流問題解決方法等。因此,他們必須綜合而又靈活地運用所學知識,進行思維加工和判斷,進行各種探究活動,有個性地展現(xiàn)自己的才能,從而創(chuàng)造性的解決問題。這也正體現(xiàn)了現(xiàn)代認知建構主義學習理論,把學生看作學習過程中意義建構的積極參與者,而非分散知識的接受者。
3.清楚明了的評分規(guī)則
表現(xiàn)性評價有清楚明了的評分規(guī)則,因此學生都知道他們將被怎樣評價。傳統(tǒng)的教學評價,教師給予學生任務,但沒有解釋說明他們所期望的細節(jié),學生在“試誤”的基礎上,試探性地完成任務,希望自己準確地猜中教師要求他們完成任務的意圖。在表現(xiàn)性評價中,給予學生實施評價的規(guī)則。當教師寫下他們對學生的期望時,教師就開發(fā)出了評價所期待的圖景,能幫助學生確切地理解教師對他們的期望是什么。開發(fā)評分規(guī)則要求教師反復推敲,不斷地修訂它們。提供給學生的評分規(guī)則能有助于消解評價的神秘性,當完成評價時,允許學生聚焦于重要的成分和因素。給學生展示以往學生完成評價時的表現(xiàn)或成果的例子,也能傳遞給學生有關教師對評價的期望。
4.評價與教學的統(tǒng)整
表現(xiàn)性評價具有教學性成分,學習和評價能同時執(zhí)行,它能很好地與教學統(tǒng)整在一起。例如,當實施一個舞蹈單元時,學生可以創(chuàng)編一個舞蹈序列,來表明對某些舞蹈概念和原理的理解。當學生編舞時,他們學習關于舞蹈的種類、動作造型、流暢性、水平等內(nèi)容。然后,通過評分規(guī)則來對他們呈現(xiàn)的舞蹈進行評價。因為學生有評分規(guī)則,當他們完成任務時,可以進行自我評價或同伴評價;當學生完成任務以后,教師基于評分規(guī)則指導學生和向?qū)W生說明教師的期望,也能提供額外的反饋。給予學生的評分規(guī)則是教師用以評價最終的學習成果的標準。這樣,學生的學習任務和評價變得不可分割,不同的教學類型可以和評價融合在一起。
表現(xiàn)性評價在國外已經(jīng)有比較豐富的實踐經(jīng)驗和理論探索。在我國,隨著素質(zhì)教育的不斷推進,也有越來越多的人關注和研究表現(xiàn)性評價。然而,如何實質(zhì)性地實施表現(xiàn)性評價,不僅是理念層面的問題,更是一個實踐問題,需要有更多的人去嘗試,去探索。
本案例來自于美國米爾沃基帕布里克學區(qū),它主要由三個部分組成,第一部分為表現(xiàn)性目標,第二部分為表現(xiàn)性任務和一位學生作業(yè)及教師的評價 (表1),第三部分為評價學生問題解決水平的評分規(guī)則(表 2)。[10]
該表現(xiàn)性評價指向于小學數(shù)學學科的問題解決,在評價之前,該學區(qū)統(tǒng)一制定了問題解決的五個關鍵要素,即:
策略的選擇:數(shù)學中常使用的策略包括:畫圖表、制作模型、猜測和檢查、將信息分類、制作清單、將問題劃分為幾部分、逆向推理和簡化問題。評價的重點在于學生是否能夠?qū)⑾惹暗闹R運用到問題中,將知識與恰當?shù)牟呗赃x擇聯(lián)系起來,并對策略的恰當性做出回應。
問題的組織:恰當?shù)亟M織問題有助于對問題的思考。“問題組織”的評價重點在于是否能確定問題中的必要的信息,并通過圖表等方式闡述相關的信息。
用數(shù)學交流:在解決問題的過程中,解釋和闡述“如何看待數(shù)學問題”,可以加深學習者對數(shù)學概念的理解,提供解決問題的靈感。因此,是否對其所選擇的策略和解決問題的思路提供充分的說明是該指標的評價重點。
問題解決的方案:善于解決問題的人常常會反省自己所做的嘗試,分析所采用策略的有效性,檢驗例外和證實結果。該指標的評價重點為:是否通過有效地使用運算、圖表和闡述等方式,獲得對該問題的正確解決方案,并做出驗證。
運用數(shù)學:數(shù)學能力的增長應該與恰當?shù)剡\用數(shù)學術語以及數(shù)學推理能力的增長同步。因此,是否能使用恰當?shù)臄?shù)學語言進行數(shù)學推理和數(shù)學運算即是評價的重點。
事實上,上述問題解決的五個要素就是我們期望學生掌握的學習結果,也即表現(xiàn)目標。設置表現(xiàn)性任務和評分規(guī)則都應當緊緊圍繞這五個維度展開。

表1 表現(xiàn)性任務及一位學生作業(yè)

表2 表現(xiàn)性評價標準說明(小學數(shù)學科)
從表1中可看出,該表現(xiàn)性任務設置了一個模擬真實的情境,來檢測學生的數(shù)學問題解決能力。鑒于學生的表現(xiàn),并依據(jù)評分規(guī)則,教師對該生在問題解決中的“問題的組織”能力水平上的評分結果為“4”等級。
從上述案例可見,應用表現(xiàn)性評價不是一項簡單的任務,尤其是表現(xiàn)目標的確定,它需要綜合考慮多種因素;評分規(guī)則的開發(fā)也是如此,它不僅要體現(xiàn)與目標的一致性,還需要了解學生的實際水平,根據(jù)不同學生的不同表現(xiàn)層次來描述評分規(guī)則的具體內(nèi)容。下面的建議[11]有利于幫助教師設計和應用表現(xiàn)性評價。
1.在教學過程開始之前開發(fā)評價
在過去,教師等到教學活動完成以后才開發(fā)評價,評價往往基于所教授的內(nèi)容、活動、練習的時間來開發(fā)。而在基于標準的課程中,評價基于標準來設計,然后基于評價選擇內(nèi)容和活動,所選的內(nèi)容和活動將允許學生展示在某條標準上的能力,而不是在某個內(nèi)容或活動上的能力,這對教學設計來說代表了一個巨大的范式轉(zhuǎn)型。當教師使用基于標準的表現(xiàn)性評價時,學生的學習會更好地與課程標準保持一致。
2.采用適用于學習過程的評價
評價可以從兩方面來審視:促進學習的評價和對學習的評價。促進學習的評價通常與形成性評價聯(lián)系在一起,它的意圖是促進學生的學習。教師可以用形成性評價來判斷學生已經(jīng)學會了多少,然后規(guī)劃下面的課程和教學。在基于標準的課程中,學習是很難與評價區(qū)分開來的。安排一個特定的表現(xiàn)性任務或練習,它既是要學習的課程內(nèi)容、學習活動,也是一種評價。在完成表現(xiàn)性任務的過程中,學生要積極地投入這項學習活動,同時他們也展示了知識、技能、體能、態(tài)度、方法以及與他人的關系。在這里,評價是學習經(jīng)驗,而學習經(jīng)驗因為相伴的評分規(guī)則而成為評價,也就是前文所說的評價與教學的統(tǒng)整。
3.用一項評價任務達成多條標準
開發(fā)學生學業(yè)評價時,不需要為每條標準開發(fā)不同的評價,開發(fā)的評價任務和評分規(guī)則應盡可能多地包含多條標準。例如,當呈現(xiàn)一個作品時,學生能展示動作技能方面的能力、認知性知識、與他人的關系、以及對這項內(nèi)容和活動的樂趣。一個戶外教育中的顛峰活動能從不同的行為現(xiàn)場提供了評價多條標準的相同機會。使用少量具有深度的評價意味著教師只要管理少量的評價,完成少量的文書工作,給教師節(jié)省用于評價的時間。
4.確信學生知道你將怎樣評價
沒有理由把學生蒙在鼓里,不讓他們知道你要評價什么、你將依照什么標準來評價。提前給予學生評價內(nèi)容和評價標準,他們可以為此早作準備。許多教師擔心,這又將成為考什么教什么學什么,威金斯指出,如果這個考試是有價值的、值得學生去花時間的,這不成什么問題,關鍵是你考些什么,是否能達成標準。[12]表現(xiàn)性評價中要求學生執(zhí)行的表現(xiàn)任務或練習,都是學生值得花時間努力的,給予學生評價的標準,讓學生知道教師的期望,他們可以對自己的能力和進步進行自我評價,使學習過程更加有效。
[1]丁家永.國外對知識測量與評價研究的新發(fā)展[J].外國教育研究,2000,(3).
[2]高民.論知識的分類測量與評價[J].教育理論與實踐,1999,(9).
[3]參見王小明.一種高級學習的評價方法[J].全球教育展望,2003,(11).
[4]Borich,Gary D.& Tombari,Martin L.中小學教育評價[M].國家基礎教育課程改革“促進教師發(fā)展與學生成長的評價研究”項目組譯,北京:中國輕工業(yè)出版社,2004,180.
[5]Herman, J., P.Aschbacher,and L.Winters.A practical guide to alternative assessment.Alexandria,VA:Association for Supervision and Curriculum Development.1992.
[6]李坤崇.多元化教學評量[M].臺北:心理出版社,1999,134.
[7]Stiggins, Richard J.Design and Development ofPerformance Assessments[J].Educational Measurement:Issues and Practice,1987(6).
[8]Stiggins, R.Student centered classroom assessment.2ed[M].Upper Saddle River,NJ:Prentice Hall,1997,77.
[9]本案例由杭州市余杭區(qū)教育科學研究所邵朝友提供。
[10]羅丹,美國小學數(shù)學科中表現(xiàn)性評價檔案袋的收集與實施——以米爾沃基帕布里克學區(qū)為例.外國中小學教育[J].2007(10).應用時略做修改。
[11]參見崔允漷等.基于標準的學生學業(yè)成就評價[M].上海:華東師范大學出版社,2008,143.
[12]Wiggins,G..A true test:Toward more authentic and equitable assessment[J].Phi Delta Kappan,69,1989:703-713.
周文葉/華東師范大學網(wǎng)絡教育學院
(責任編輯:張 斌)