張敏強/華南師范大學心理學院教授、中國教育學會統(tǒng)計與測量分會理事長
凡細珍 /華南師范大學心理學院博士生
教育測評技術的發(fā)展及創(chuàng)新應用
張敏強/華南師范大學心理學院教授、中國教育學會統(tǒng)計與測量分會理事長
凡細珍 /華南師范大學心理學院博士生

2014年 9 月 4 日,國務院頒布了《關于深化考試招生制度改革的實施意見》,明確提出“啟動高考綜合改革試點”,要“改革考試科目設置。增強高考與高中學習的關聯(lián)度……”為貫徹落實此改革意見,教育部先后頒布了《關于普通高中學業(yè)水平考試的實施意見》和《關于進一步推進高中階段學校考試招生制度改革的指導意見》兩個文件,正式拉開了新一輪招生考試制度改革的大幕。
在新一輪招生考試制度改革方案中,高考改革的關鍵詞是“多元錄取”“一年兩考”,探索基于統(tǒng)一高考和高中學業(yè)水平考試成績、參考綜合素質評價的多元錄取機制。考生總成績由統(tǒng)一高考的語文、數(shù)學、外語三個科目成績和高中學業(yè)水平考試三個科目成績組成。保持統(tǒng)一高考的語文、數(shù)學、外語科目不變、分值不變,不分文理科,外語科目提供兩次考試機會。高中學業(yè)水平考試科目,由考生根據(jù)報考高校要求和自身特長,在思想政治、歷史、地理、物理、化學、生物等科目中自主選擇。最新出臺的高中階段學校招生制度改革的關鍵詞是“兩考合一”,積極探索基于初中學業(yè)水平考試成績、結合綜合素質評價的招生錄取模式。推行初中學業(yè)水平考試不是取消中考,而是將初中畢業(yè)考試與高中招生考試合二為一,一考多用,避免多次考試給學生造成負擔。
分析方案中的關鍵內容,我們不難發(fā)現(xiàn),新一輪招生考試制度改革的根本宗旨在于改變過去“唯分數(shù)論”“一考定終身”的弊端,形成分類考試、綜合評價、多元錄取的考試招生模式,堅持全面考核,促進學生完成國家規(guī)定的各門課程的學習;堅持自主選擇,為每個學生提供更多的選擇機會,促進學生發(fā)展學科興趣與個性特長,繼續(xù)為提高教育質量、提升國民素質、促進社會縱向流動、服務國家現(xiàn)代化建設發(fā)揮重要作用。
(一)教育大數(shù)據(jù)的處理問題
今天,社會各界都在講大數(shù)據(jù),實際上教育領域的數(shù)據(jù)更是大數(shù)據(jù),它實現(xiàn)了對學生數(shù)據(jù)的全方位、全過程采集,覆蓋了學生學業(yè)、知識技能、身心健康等各個方面。同時,它又是動態(tài)發(fā)展的,匯集了學生從幼兒園到高中的發(fā)展全過程的縱向數(shù)據(jù)。“一年兩考”和綜合評價都必然會帶來更多的教育數(shù)據(jù),這些數(shù)據(jù)在實際的處理和應用中會產生不少問題和困難。
第一,教育大數(shù)據(jù)來源多樣,有來自不同區(qū)域、不同學校、不同學科測評的數(shù)據(jù),以及學生發(fā)展的不同方面及類型的數(shù)據(jù),這些都缺乏標準化的數(shù)據(jù)定義,不利于數(shù)據(jù)間的比較。
第二,數(shù)據(jù)類型多元,但不具有一致性,不利于數(shù)據(jù)間的比較與整合。綜合評價涉及到學業(yè)水平、身心健康、思想品德等各個方面,不同方面的數(shù)據(jù)可能是連續(xù)型數(shù)據(jù),也可能是類別型數(shù)據(jù),這給考試分數(shù)和問卷數(shù)據(jù)的解釋與評價帶來困難。目前,教育行業(yè)對不同類型數(shù)據(jù)的整合不足,從而對學生各種指標數(shù)據(jù)的解釋與評價尚顯不夠。
第三,縱向數(shù)據(jù)收集難度大,且對其分析欠缺。目前,教育測評注重對橫斷面數(shù)據(jù)的應用分析,對數(shù)據(jù)進行橫向比較,較少進行縱向的追蹤與比較。
第四,數(shù)據(jù)容量大但深層挖掘不易,對數(shù)據(jù)的利用不夠充分。一是由于目前數(shù)據(jù)的收集缺乏規(guī)劃,不夠細致和到位;二是相關的教育工作者缺乏測量方面的專業(yè)知識,缺乏數(shù)據(jù)背后深層次的隱性信息的挖掘。
4)隨著網(wǎng)架高度增加,網(wǎng)架用鋼量變化不大,且正放四角錐網(wǎng)架和斜放四角錐網(wǎng)架用鋼量也基本相同,說明在一定范圍內增加網(wǎng)架高度并不能顯著節(jié)省用鋼量。
第五,非學業(yè)數(shù)據(jù)的獲取和處理難度都更大。過去,我們一直以學業(yè)成績?yōu)橹鲗В浴胺帧痹u價學業(yè)的優(yōu)劣,以“率”評價學校、區(qū)域的績效,而對學生成長的非學業(yè)因素,比如說思想品德、身心健康、興趣愛好等關注不夠。而綜合素養(yǎng)的評價作為錄取標準之一,重要前提是要對非學業(yè)數(shù)據(jù)進行科學合理的處理。
(二)測評的實施與結果解釋
綜合評價的各大類指標如何進行綜合,才能公正、公平、合理,才能獲得使用這些評價結果的各個層面的認可?多元錄取如何實現(xiàn),各“元”之間如何分配和綜合?高考外語一年兩考,兩次考試的成績如何比較?這些都是非常實際而又無法避開的問題。招生考試制度的改革不僅僅是政策的頒布與貫徹,其背后的技術支撐如果不能跟上,改革的效果將得不到保障。因此,作為招生考試制度重要技術支撐的測評技術也應隨之發(fā)展與創(chuàng)新。
(一)三大基本測評理論
經(jīng)典測評理論(Classical Test Theory, CTT)、項目反應理論(Item Response Theory, IRT)、認知診斷理論(Cognitive Diagnosis Theory, CDT)是測評領域應用最廣泛的基本理論。CTT因其對題目和測驗作統(tǒng)計分析的方法在計算上較為簡單,意義上也明了直觀,易于教育工作者理解和掌握,因此有著廣泛的應用。但其也存在著較為明顯的缺陷——最突出的是“千人一卷”,不能實現(xiàn)“因人而測”。IRT是針對CTT的不足而發(fā)展起來的,它可以精確估計每個考生的能力水平,從而為實現(xiàn)“因人而測”的計算機自適應測驗(Computerized Adaptive Testing,CAT)提供了必要的條件。而CDT則實現(xiàn)了對個體知識結構、加工技能或認知過程的診斷評估,彌補了CTT和IRT只能提供一個測驗分數(shù)(或能力參數(shù))的不足,實現(xiàn)了對學生更為精細的診斷與區(qū)分。
這三大測評理論為多次考試的分數(shù)比較、綜合評價指標整合和計算機化的測驗形式提供了基本的理論基礎。但僅有此是不夠的,測評技術還需在此基礎上進一步發(fā)展和創(chuàng)新,才能解決當前招生考試制度改革下的技術難題。
(二)測評技術的發(fā)展及創(chuàng)新應用
在教育新形勢的推動下,測評技術也有了發(fā)展和創(chuàng)新,并在廣州市2015年的“中小學教育質量陽光評價”中得到了應用。這些創(chuàng)新應用都為新的招生考試制度的具體實施提供了重要參考。
采用“學業(yè)測試+問卷調查+非學業(yè)量表”相結合的方式,可從多層面對學生進行評價:(1)對學生進行學業(yè)測試,了解學生學業(yè)發(fā)展水平;(2)對學生進行和學業(yè)測試配套的問卷調查,探討影響學生學業(yè)發(fā)展的相關因素;(3)對學生進行非學業(yè)問卷調查,從多方面了解和評價學生的綜合素質。
2.“大量表+小量表”整體評估非學業(yè)素養(yǎng)
綜合評價涉及多方面、多指標。各個指標與各個方面不應割裂開來,應該視為整體與局部的關系。但如果每一項指標都分別用不同的量表測試,那么指標間的整體關系將被破壞,無法合成一個綜合分數(shù)用于整體評價。在廣州市的“教育質量陽光評價”中,由華南師范大學心理學院教授組成的專家團隊經(jīng)過研討,決定采用“大量表”形式實現(xiàn)測試,“大量表”統(tǒng)領“小量表”,量表間分工合作,不破壞它們之間的整體關系。測驗結果表明,各小量表及大量表都達到了測量學標準。
3.基于潛變量模型的學生分類方法
傳統(tǒng)的依據(jù)學生分數(shù)對學生進行分層的方法,根據(jù)預先的假設,把學生學業(yè)分數(shù)上的量化差異進行人為分類,這種方法不能確定不同組別的學生學業(yè)發(fā)展是否具有質性差異。潛在剖面分析(Latent Profile Analysis,LPA)以學生為中心,依據(jù)學生的不同表現(xiàn),診斷學生潛在的質性差異,把學生分成組內一致、組間差異的組別,實現(xiàn)了對學生更為精準的分層。
4.新一代多元概化理論框架下的分數(shù)合成方法
綜合評價中一個突出的問題,是各指標分數(shù)的合成問題。由于指標繁多,且獲取的數(shù)據(jù)類型可能并不一致,用經(jīng)典測量理論來進行分數(shù)合成會造成評估誤差。新一代多元概化理論(Multivariate Generalizability Theory,MGT)則很好地解決了這個問題,它可以同時考慮題目因素與維度因素,并且將每個維度固定起來各自作為一個“元”。
5.傳統(tǒng)紙筆測驗+計算機線上測試雙模式并行
對學生進行評價會增加教師工作量和學校的管理難度,從而給評價的實施和推廣帶來阻力。檔案袋評價沒能推廣開來,原因就在于此。因此,綜合評價的具體實施一定要考慮到一線教學和管理的便利。在廣州市的陽光評價中,我們同時采用了傳統(tǒng)的紙筆測驗和計算機線上測驗,從而極大地減少了教師和學校的工作量,評價的推行也進行順利。因此,在高中階段的綜合評價中也可以嘗試采用這種紙筆測驗+計算機線上測試的雙模式。
考試招生制度的改革是一件關乎民生的大事,盡管挑戰(zhàn)重重,但只要社會各界,尤其是學界積聚力量,互相學習和交流,共同為提高國家教育質量、促進學生健康全面發(fā)展貢獻一份力量,一定能夠使我們的改革順利推行下去,實現(xiàn)我國教育改革發(fā)展的宏偉目標。