文_張勇
評價理論和技術還需突破
文_張勇

張勇,中國教育學會中小學教育質量綜合評價改革實驗區辦公室副主任,北京市公眾教育科學研究院院長
綜合我國相關政策及文件要求,以及國外先進的實踐經驗,目前評價改革的基礎框架已基本確立了以“學業評價+綜合素質評價+發展潛能評價”為基礎,輔以教育質量監測的結構和模式。但是,結構和模式的確立僅僅是解決基礎問題之一,依據2013年《意見》和《指標框架(試行)》的要求,本次中小學教育質量綜合評價應建設的評價指標、標準體系等,除教育質量監測之外,主要涉及學業評價、綜合素質評價及發展潛能評價三個領域。這三個領域都有其要解決的理論、技術與方法難題。對教育發展而言,教育評價具有重要的導向作用和驅動功能。教育評價的理論與技術改革與實質性突破,將會直接倒逼課程、教學、育人等教育整體的突破與發展。
我國2001年的《基礎教育課程改革綱要(試行)》和2002年《教育部關于積極推進中小學評價與考試制度改革的通知》及相關文件,給出了“三維”學科教育目標和學科課程標準,學科教育目標不再是過去的“雙基”目標。
依據學科教育三維目標與學科課程標準的要求,學業評價應解決學生、學校面向學科教育“三維目標”的測量與評價問題,而不再仍局限于“基礎知識、基本技能”的兩目標測量評價。
因此,就評價技術而言,要測量和獲取教育的活動、過程、結果三種數據和事實,并對三者做出價值判斷——這個基本定義的規定與學科教育三維目標評價同構等效。
2013年《意見》明確提出:“將定量評價與定性評價相結合,注重全面客觀地收集信息,根據數據和事實進行分析判斷,改變過去主要依靠經驗和觀察進行評價的做法。將形成性評價與終結性評價相結合,注重考查學生進步的程度和學校的努力程度,改變單純強調結果不關注發展變化的做法。將內部評價與外部評價相結合,注重促進學校建立質量內控機制,改變過于依賴外部評價而忽視自我診斷、自我改進的做法”及“對評價內容和關鍵性指標進行分析診斷,分項給出評價結論,提出改進建議,形成學校教育質量綜合評價報告。綜合評價報告要注重對學校優勢特色和存在的具體問題的反映,不簡單對學校教育質量進行總體性的等級評價”的要求。這些要求清晰地指向了形成、過程、診斷、增值等評價方向。

學業評價量表舉例。學業評價需解決學科教育“三維目標”的測量和評價問題

潛能評價將為學生學業、職業生涯規劃提供依據和參考
這對現有的測量、統計分析、評價技術的研發提出了很大的挑戰。顯然,依靠單一的測量與評價理論方法、及單純依靠傳統的標準測驗理論與評價方法,已難以勝任。
傳統的標準測驗理論將所測的心理特質視為一個心理學意義并不明晰的“統計結構”,目的在于從宏觀層次給個體一個整體的評估。無論是經典測量理論還是項目反應理論及概化理論,存在的共同缺陷是,把所測心理特質當作一種純“統計結構”,忽視對考生作答過程的考察,計量時只注重作答結果,忽視心理特質的實質內容,對“測什么”和“為什么”的問題卻不能夠很好地解決,也就無法了解個體解答測驗的心理加工成分、策略、所需知識結構等內部心理機制,不能確定個體的強點和弱點。
因這種缺陷和局限,就需要引入相應的測量理論和技術進行補充。我們需要引入能夠解決“測什么”和“為什么”的理論——即實現對個體知識結構、加工技能或認知過程的診斷評估;需要引入多維項目反應理論(即MIRT),把傳統項目反應理論從單維發展到多維、從線性發展到非線性,更深入地了解被試;需要引入質性評價理論,考察學生學習的整體情況,以及在具體情境中運用知識的能力,問題比較開放或為非結構的,甚至難以找到標準答案。要求學生、教師、家長和同學共同參與評價過程,評價方法是動態的,多元的和情境化的。
所以就學業評價而言,測量與評價理論、標準、技術和方法的設計需要思考在以下幾個方面實現突破:
理論突破:要有機整合國際知名教育理論以及教育學、心理學等學科最新研究,建立多元、多維的測量、評價技術模型。
技術突破:要在試題賦分、計分和統計分析上,依據認知與思維等發生過程,設計新的多元、多維的分數結構。
應用突破:在成績報告方面,應學習和借鑒國際大型標準化測試的報告系統,不僅能提供數據多元、多維、多重比較結果,而且能提供面向不同群體的數據報告。
中小學生綜合素質評價是本次教育評價改革實驗的重點內容之一,也是難題之一。
綜合素質評價發端于英國學者提出的質性評價研究。質性評價倡導通過自然的調查,全面提示和描述評價對象的各種特質,以彰顯其意義,達成理解,主張評價應全面反映教育現象的真實情況,為改進教學提供真實可靠的依據。也就是說,評價應關注學生的學習過程,及時發現問題加以糾正。
質性評價的主要特點:一是自然性,質性評價必須在自然的情境下進行,對評價對象在他的“學習世界”中的學習過程情況進行評價;二是解釋性,評價需要在自然的情境中進行,評價者了解評價對象在自然情境中的學習情況,即學習態度、學習思想、學習動機、思維水平等各種特質。
質性評價的方法,源自解釋主義哲學,形成于建構主義理論模型和評價模式。經過三十多年發展,已積累了豐富的實踐經驗和體系。
在這方面美國已有相當豐富的經驗值得借鑒,其主流有兩大類模式和方法——真實性評價和表現性評價。如以“檔案袋”評價法為代表的真實性評價和表現性評價,已成為美國教育評價和人才選拔中不可或缺的方法。
通過對比分析我國當前學生綜合素質評價領域中存在的問題,本次評價改革中,就學生綜合素質評價而言,要考慮解決以下幾方面難題:
如何界定中小學生綜合素質及其評價的概念;構建中小學生綜合素質評價的理論體系及模型;健全和完善中小學生綜合素質評價的指標體系;健全和完善中小學生綜合素質評價的測量與計量標準;健全和完善中小學生綜合素質的評價標準;開發中小學生綜合素質評價的評價工具;制定中小學生綜合素質評價的工具操作標準;改進中小學生綜合素質評價的結果呈現方式;建立中小學生綜合素質評價的結果解釋及應用系統;設計中小學生綜合素質評價實驗推廣模式;設計中小學生綜合素質評價公信力保障系統。
標準化考試(發展潛能評價、能力測試),作為人才評估與選拔的核心手段之一,也是本輪評價改革中需要解決和突破的重點難題。
在國家招生考試改革中規定“轉變過去知識型考試為能力型考試,考察學生分析解決問題的能力和應用實踐能力”,這不但對統一考試給出了明確界定,也對教育評價提出了清晰要求——給出學生能力發展評價。
國際的選拔性考試,一般屬于傾向性(預測性、發展性)考試,這與中國過去的選拔性考試(成就性測驗)完全不同。而我國教育改革所指向的“分析解決問題的能力與應用實踐能力”測試,則與目前歐美主流國家的大型標準化考試在目的、內涵上基本一致。
2013年《意見》以及《指標框架(試行)》中明確提出“潛能發展”這一關鍵指標,要求對“學生在某些方面表現出的突出素質和進一步發展的能力”進行評價──即發展潛能評價。
發展潛能,又稱能力傾向,是一個人的潛在能力,予以訓練后,容易使個人獲得某種知識、技能和能力。發展潛能,不但在評價改革非常重要,而且涉及人才發展規劃及教育改革和發展。
潛能測試,是選拔性(預測性)標準化考試的核心,主要用于通過測驗和評價學生的基本潛能,從而預測學生未來的發展方向、程度及競爭能力,美國的SAT、ACT就屬于這類考試。進入21世紀,因多元智能理論的巨大影響,國際的大型標準化考試從發端于智力測驗的潛能測試,逐步發展為潛能測試。此后對發展能力的評價,大多是基于潛能測試。
國外對學生發展潛能的測試較為普遍,其內容大部分都涉及語言、言語、空間(圖形)、數字的理解和推理、判斷。發展潛能評價主要是以人才培養為目標,通過測試學生潛在的能力,提供個體不同方面能力發展的狀況,使學生客觀地了解自己能力的特點,幫助學校或老師鑒別學生的學習能力、診斷學習中的問題,從而預測其能力發展的傾向或類型,為學生學業、職業生涯規劃提供依據和參考,為制定合理的人才培養計劃提供指導。
無論是基于智力理論的潛能測試,還是基于多元智能理論的潛能測試,在我國于理論研究和技術研究上都很薄弱,尤其缺乏長期實踐積累。這對這輪評價改革中的發展潛能評價的研究與應用提出了挑戰。
根據21世紀國際能力測試的發展主流,我們需要在多元智能理論基礎上,引入多維項目反應理論,這種方法將為測驗中所涉及的每個維度引入能力和項目區分度參數, 進而模擬測驗題目和被試之間的交互作用,通過數學模型推斷被試的多個特質,實現多元智能的測量與評價。這需要一個不斷實踐和積累過程,并需要解決如下問題:
首先要解決的難題是如何界定人才、學術型人才和技術型人才概念的問題;
其次,要解決不同類型的人才評估與選拔的理論和評價模型構建的難題;
第三,解決不同類型人才評估與選拔指標體系構建的難題;
第四,解決不同類型人才評估與選拔標準的難題。
教育質量評價改革,是一個宏大而深刻的系統工程,除了思想、理念、理論、技術等突破外,還需要一個漫長的實踐修正和積累期。路漫漫其修遠兮,吾將上下而求索,這句話可能是對評價改革最好的描述。
(注:本文摘自張勇《教育評價改革反思與再認識》,曾發表于《光明日報》《新華文摘》等。有刪節。)