摘要中小學在未來教育評價研究與實踐中需關注三個重點問題:一是聚焦核心素養(yǎng),探索表現(xiàn)性評價的設計與應用,使評價嵌套進真實的生產(chǎn)生活情境中;二是注重效度分析,使評價能有效測量欲測的特質(zhì),并為有關推論與決策提供有價值的依據(jù),提升評價的科學性;三是承認評價的局限性,適時適度地評價,避免過度評價所引發(fā)的負效應。
關鍵詞教育質(zhì)量評價;學科評價;核心素養(yǎng);綜合素質(zhì)評價;表現(xiàn)性評價;發(fā)展性評價;效度分析
中圖分類號G63
文獻標識碼B
文章編號1002-2384(2018)02-0005-03
當前,很多中小學校已開始在課改理念與核心素養(yǎng)框架的引領下,從明確學校發(fā)展愿景與培養(yǎng)目標入手,系統(tǒng)思考與設計教育評價改革思路,并在評價主體多元化、新興評價方式應用、教學評一致性等方面取得了明顯突破。同時,如何在現(xiàn)有基礎上進一步推動評價研究,以充分發(fā)揮其激勵與導向性功能,也成為擺在教育者面前的新課題。基于日常在一線的深入觀察,筆者認為,未來中小學教育評價研究尤其是學科評價中應關注三個重點問題。
一、聚焦核心素養(yǎng),探索表現(xiàn)性評價的設計與應用
為全面深化課程改革,落實立德樹人根本任務,2016年,《中國學生發(fā)展核心素養(yǎng)》總體框架正式公布,基于核心素養(yǎng)的課標修訂、教材編寫及評價改革也陸續(xù)啟動。盡管仍有人對核心素養(yǎng)框架的表述存在質(zhì)疑,但對于學校和教師究竟應重點培養(yǎng)學生哪些具體能力,教育者并不難達成共識。例如:褚宏啟提出在基礎教育領域應關注學生的六項核心素養(yǎng),分別是創(chuàng)新能力、批判性思維、公民素養(yǎng)、合作與交流能力、自我發(fā)展素養(yǎng)與信息素養(yǎng)。[1]這一提法不僅與我國官方認可的核心素養(yǎng)框架保持基本一致,且由于更具體化而更容易使教育者找到操作抓手,故得到比較廣泛的認可。因此,在核心素養(yǎng)培育的宏觀背景下,中小學不能將目光仍然局限于學科教學以及對學科知識的掌握,而要參考國內(nèi)外有關框架和思路,結合本校實際情況,明確學校所關注的核心素養(yǎng),并在評價研究中關注對學生必備品質(zhì)與關鍵能力的培育。
具體到核心素養(yǎng)評價,教育者需要借鑒國外經(jīng)驗,在實踐中探索表現(xiàn)性評價技術的應用。表現(xiàn)性評價通常要求學生運用先前所獲得的知識,解決某個生產(chǎn)生活情境中的真實問題或創(chuàng)造出符合某種特定標準的成果,教師通過觀察學生完成任務的過程與結果評價學生表現(xiàn)。[2]這種評價方式克服了傳統(tǒng)測驗中僅能測試低水平知識和孤立技能的弊端,能有效評價學生在真實世界中應用所學知識與技能解決問題、交流合作及批判性思考等多種復雜能力,特別適合于核心素養(yǎng)評價。
以一道小學五年級數(shù)學題為例,有教師在教完“組合圖形面積”一課后,在當堂檢測中出了這樣一道題:
智慧老人要裝修自家的客廳,客廳形狀及各面墻的長度如右圖所示,他家的客廳面積有多大?
從整體上看,這道題已經(jīng)具備了表現(xiàn)性評價的雛形,創(chuàng)設了一個看上去比較生活化的情境,但由于智慧老人不是真實的人物,其情境本身是虛假的,加之題目難度太低,因此并不能有效考查學生在真實生產(chǎn)生活情境中運用學科知識解決問題的能力。
如果將題目修改成:“張爺爺買了套小單元房,房產(chǎn)證上注明這套房子的建筑面積是38平方米,可張爺爺感覺家里沒有那么大。他測量了家里幾面墻的長度,如圖(同智慧老人一題),請問開發(fā)商是不是測量錯了?”那么我們可以看到,題目修改后所涉及的情境相對真實得多,學生在解題過程中需要分清商品房的建筑面積、套內(nèi)面積及使用面積等相關概念,能較好地評價學生的問題解決能力。如果所提供的房屋平面圖再稍復雜一點,增加學科知識的難度,那么這道題就變成了一道優(yōu)秀的表現(xiàn)性評價題目。
因此,深入研究表現(xiàn)性評價,特別是非紙筆類表現(xiàn)性評價,使評價嵌套進真實的生產(chǎn)生活情境中,有效考查學生的問題解決能力、溝通合作能力、批判性思考能力、信息媒體技術等多種跨學科核心素養(yǎng),這是未來評價改革應該關注的重點。
二、注重效度分析,提升評價研究的科學性
評價的質(zhì)量如何也需要被評價。學術界將對評價的評價稱為元評價。[3]通常,人們在元評價中主要分析試題的難度和區(qū)分度,即便是建立在項目反應理論基礎上的深入分析也是如此。但實際上,教師在實踐中接觸最多的當堂檢測、單元驗收、期末考試、畢業(yè)水平測試,乃至大規(guī)模的教育質(zhì)量監(jiān)測,都是標準參照性質(zhì)的測試,是絕對評價,其主要目的是檢測學生達到既定學習目標的程度。在這種測驗中,教師不需要刻意控制題目的難度和區(qū)分度,只要嚴格依照課程標準、教材和教學目標編制題目,同時考查點在預測目標范圍內(nèi),是教學的重點,即使題目特別容易或特別難,都可以是好的題目,也可以出現(xiàn)在測驗中。[4]
因此,反映評價質(zhì)量好壞的最重要指標不是難度和區(qū)分度,而是效度。很多人會望文生義地認為,效度就是評價有效性的程度,以及有效促進學生學習與發(fā)展的程度。這種理解在方向上似乎沒有錯誤,但專業(yè)性不夠。從專業(yè)角度來看,效度是一個綜合性概念,是指評價能測到所要測量特質(zhì)的程度以及能為有關推論與決策提供有價值依據(jù)的程度。以七年級語文“口語交際”教學評價為例,有教師在單元驗收中出了這樣一道題目:
“同學們,我們每個人心底都有自己的秘密。今天晚上回家后,請和你的父母說說你心底的秘密。你會如何說呢?請把它寫下來。”
這道題要考查的是學生口語交際能力達成單元目標的程度,但它讓學生將想說的話寫出來,實際上考查的主要是書面語言表達能力,而不是口語交際能力。想測量的特質(zhì)沒有測量到,就是效度不良。一旦效度不良,我們就無法對學生的學習水平和教師的教學質(zhì)量做出準確有效的判斷。可見,一道測試題或者一套評價方案,只有效度良好,才能產(chǎn)生好的評價。如果試題效度不良,即使其難度、區(qū)分度等指標都合乎測量學要求,也沒有什么實質(zhì)意義,也不是好的評價。
endprint
效度好是高質(zhì)量評價的首要條件。由美國教育研究協(xié)會、美國心理學協(xié)會與全美教育測量學會共同編定的《教育與心理測試標準》是當前元評價領域影響最大的一個分析框架。1999年版及2014年最新版本的《教育與心理測試標準》都強調(diào)效度是評價最基本的要求,所有評價必須保證其能測到所欲測的特質(zhì),能依據(jù)所收集的信息做出準確而有效的推論。[5]在實踐層面最具影響力的美國教育考試服務中心也反復強調(diào),效度是反映試題質(zhì)量最為重要的指標,測驗編制者必須清晰界定要測量的特質(zhì),并提供概念性、實證性或理論性證據(jù)說明推論解釋的有效性。[6]
但必須承認的是,效度分析在我國尚未受到足夠重視。教師、教研員、研究者,特別是參與各種考試命題的人,需要認真學習有關專業(yè)知識,掌握分析試題、試卷及評價方案效度的技能,提高評價研究的科學性。
三、適時適度評價,避免過度評價引發(fā)的負效應
評價是質(zhì)量管理體系中的重要環(huán)節(jié),在課程改革與教學實踐中受到廣泛重視。“教育測量學之父”桑代克曾說過,“凡客觀存在的事物都有數(shù)量,凡有數(shù)量的事物都可以測量”。[7]但我們必須承認,這只是經(jīng)典測量理論的一個假設,就人類所掌握的技術而言,不少心理特質(zhì)因為具有間接性、隱蔽性、隨機性與復雜性等特點,目前仍難以進行準確有效的評價。所以,教育者必須注意到評價工作的這種局限性,不能急躁冒進,更不能為評價而評價。
為評價而評價,如果評價效度不良,抑或在難度、區(qū)分度、信度等方面存在瑕疵,不僅不能準確評判學與教的質(zhì)量,而且會對實踐產(chǎn)生或大或小的誤導。有些地區(qū)或?qū)W校在綜合素質(zhì)評價實踐中評價學生個體道德品質(zhì)、學習能力、創(chuàng)造性,或者審美情趣的某些做法,已經(jīng)顯現(xiàn)出這種負效應。
“為評價而評價”現(xiàn)象中還有一種亟待關注的表現(xiàn)就是教師評價過多。在本輪新課改推進過程中,教師開始接受發(fā)展性評價理念,將終結性評價與形成性評價結合起來,注重在教學過程中開展即時和動態(tài)呈現(xiàn)的形成性評價。但有些課堂出現(xiàn)了滿堂評的問題,有些學校甚至謀劃以各種方式記錄和評價學生的一言一行,導致學生無時無刻不被評價。這在無形中織就了一張大網(wǎng),不要說消極的評價,即使是完全無條件的賞識性評價,也會給學生造成難以想象的壓力。
1973年,心理學家萊珀基于兒童繪畫興趣實驗的發(fā)現(xiàn)提出過分肯定理論。她指出,當個體從事一項自身感興趣的活動時,外界所給予其的獎勵會使活動成為一種達到目的(獲獎)的手段,那么個體以后從事這種活動的興趣就會降低。[8]將這一理論嫁接到評價實踐可以預見,如果一個學生的某種努力、進步或成就頻繁得到教師的賞識性評價,學生擔心失敗的壓力會增大,而且追求進步的動機會由內(nèi)在動機轉(zhuǎn)變成外在的工具性動機,會在很大程度上影響其長遠發(fā)展。相反,如果教師適當減少評價和激勵,反而可以激發(fā)學生的內(nèi)在成就動機,培養(yǎng)其自我評價、監(jiān)控與發(fā)展的能力。
因此,評價很重要,但也要適度。“好雨知時節(jié),當春乃發(fā)生”,只有評價做到適時、適量,且科學有效,才能更好地發(fā)揮其導向、激勵、診斷和發(fā)展的積極功用,促進教與學的改進,也服務于學生的成長。
參考文獻:
[1] 褚宏啟. 核心素養(yǎng)的國際視野與中國立場—21世紀中國的國民素質(zhì)提升與教育目標轉(zhuǎn)型[J]. 教育研究,2016,(11).
[2][4] 趙德成. 促進教學的測驗與評價[M]. 上海:華東師范大學出版社,2016.
[3] Kevin S, Scott B.Meta-assessment:assessing the learning outcomes assessment program[J]. Innovative Higher Education,2016,41(4).
[5] 美國教育研究協(xié)會,美國心理學協(xié)會,全美教育測量學會. 教育與心理測試標準[M]. 燕娓琴,謝小慶,譯. 沈陽:沈陽出版社,2003.
[6] Educational Testing Service. 2014 ETS Standards for Quality and Fairness[EB/OL].(2015-05-01)[2018-01-29]. http://www.ets.org/ s/about/pdf/standards.pdf.
[7] Thorndike E L.The nature,purposes and general methods of measurements of educational products[M]// Whipple G M (ed.) National Society for the Study of Educational Products:Seventeenth Yearbook. Bloomington, IL: Public School Publishing, 1918.
[8] Lepper M R,Greene D,Nisbett R E. Undermining childrens intrinsic motivation with extrinsic reward: A test of the“over-justification”hypothesis[J]. Journal of Personality and Social Psychology, 1973, (28).endprint