


【關鍵詞】核心素養;學業水平考試;評分內容;評分結構;評分機制
《深化新時代教育評價改革總體方案》要求著力破除唯分數、唯升學、唯文憑、唯帽子的頑瘴痼疾,建立科學的、符合時代要求的教育評價制度和機制。隨著《普通高中語文課程標準(2017 年版2020 年修訂)》和《義務教育語文課程標準(2022 年版)》的頒布,語文學業水平考試命題的情境性、實踐性、任務性特征逐漸明晰,成為測評學生語文核心素養的有力依托。雖然這種命題指向能夠在一定程度上達到測量學生核心素養的目的,但是核心素養的內隱性特征導致單一考試成績難以真實反映學生的素養發展水平。這無疑給倡導“教—學—評”一體化的教育評價改革設置了障礙。清除障礙的關鍵舉措是變革學業水平考試評分方式,這也是我國教育研究和實踐工作者面臨的現實問題。
當前對學業水平考試命題的探索給學生提供了各種表現思維方式和問題解決過程的空間,但也帶來了如何合理評分的難題。[1]本研究通過梳理既有研究結果,結合學業水平考試評分現實情況,總結適應核心素養背景下語文學業水平考試評分標準變革的關鍵因素,并嘗試設計一套評分模式。
一、遵循系統性原則,評分應同時體現學生的認知水平和非認知類別
學業水平考試的評分標準不僅要“展現學生在語文學習過程中形成的能力、方法”,還要展現“情感態度與價值觀的綜合發展要求”。[2]前者指向事實判斷——對學生認知能力的判斷,后者指向價值判斷——對學生非認知能力的判斷。[3]核心素養背景下的學業水平考試命題重視不同知識、方法或態度在深層意義上的整合與運用,關注學生在復雜的開放性問題情境中的綜合表現,反映在評分標準上,就要求兼顧呈現學生的認知能力水平和非認知能力水平。
根據核心素養的基本特征,義務教育語文課程標準評價組曾研制了語文核心素養測評框架,在認知維度層面可將核心素養拆分為十二組行為動詞。其中,“文化自信”包括體認與傳承、關注與參與、理解與借鑒,“語言運用”包括積累與整合、發現與領悟、應對與交流,“思維能力”包括感知與體味、聯想與想象、辨識與推理,“審美創造”包括體驗與感悟、欣賞與評價、表現與創造。[4]這些行為動詞分別體現了四個核心素養在學業水平考試上的要求,構成了認知維度評分標準的框架。非認知能力主要指非智力因素,包含情感、意志、個性傾向等方面。[5]非認知能力對初中生的學業表現具有顯著的正向預測作用。[6]在學業水平考試中,非認知能力的確定要依據學生的具體作答表現和特定題目的作答結果。例如,在考查《西游記》整本書閱讀時設計以下兩道題:
題1:小恩讀到孫悟空“忍氣含悲”時,想以孫悟空的口吻給唐僧寫一封信,請你根據文本幫助他完成這個任務。
題2:查找資料時小恩發現,人們對《西游記》的評論各有不同:有人稱之為“神魔小說”,有人稱之為“童心之作”。你贊同哪個觀點?結合材料說說你的理由。[7]
題1 符合“依據特定題目作答結果判定非認知能力”的特點。社會與情感能力是非認知能力的主要方面,共情能力是社會與情感能力的有機組成部分。題目中“小恩”要以孫悟空的口吻給唐僧寫一封信,就需要與孫悟空共情;學生要完成測試任務,就需要與“小恩”共情。題2 符合“依據具體作答表現判定非認知能力”的特點。在作答結果中,有學生僅回答“我贊同第一個觀點”,也有學生回答“我贊同第一個觀點,因為這個觀點……”,還有學生回答“我贊同第一個觀點,因為第一個觀點……與第二個觀點相比……”這三種作答結果依次代表了學生完成任務由低到高的態度水平。對學生非認知能力的判定很難通過量化的得分呈現,要對學生作答結果進行編碼,以類別的形式判斷其非認知能力表現。例如,將第一個學生的作答結果編碼為A,代表“漠視態度”;將第二個學生的作答結果編碼為B,代表“主動態度”;將第三個學生的作答結果編碼為C,代表“熱忱態度”。
綜上所述,核心素養立意下的語文學業水平考試評分標準要從系統的視角整合呈現學生的認知能力水平和非認知能力類別。二者構成了評分標準的宏觀框架。以“語言運用”素養為例,可以建構如表1 所示的宏觀評分標準框架。
根據上述框架,學生在第1 題上的得分可標注為“1-C”,代表該學生在“積累與整合”認知能力上的表現欠佳,但是他的學習態度較為熱忱,需要在維持態度的基礎上,加強該生的語言文字積累、整合能力。
二、遵循相對性原則,評分標準要反映學生在特定情境任務下的素養表現
“考試命題應以情境為載體,依據學生在真實情境下解決問題的過程和結果評定其素養水平”[8],已經成為學業水平考試命題的共識性原則。在紙筆測試環境下較難呈現復雜多元的情境要素及各要素之間多樣化的聯系,加大了創設真實情境的難度。[9]有學者提出,PISA(國際學生評估項目)的測試框架整合了情境、學科內容和核心素養三個維度,只需要通過改變情境的結構化程度、要素數量及其關系,就可以創設各種復雜程度的情境任務[10],能有效彌補紙筆測試的不足。這種假設建立在“特定情境任務考查特定水平核心素養”基礎上。從評分角度看,就要從分數梯度上呈現學生核心素養發展的相對水平。所謂“ 相對水平”,是指學生在特定測試難度下核心素養的表現水平。情境任務難度存在差異導致素養水平“天花板”高度不同,在相同賦分的情況下,學生的素養表現就可能不同。具體而言,對學生“思維能力”素養的評分在不同的測試情境下都可以標記為1 分,但因測試情境難度存在差異,所以1 分的“含金量”是不同的。在相對復雜的測試情境中,1 分可能表示學生能夠從辯證的角度得出多種結論;在簡單的測試情境中,1 分可能僅表示學生能夠從語言材料中提取有效信息。因此,在設置評分標準時,首先要明確測試情境的難度水平,再根據情境的難度水平確定核心素養的水平梯度。
測試情境的難度水平標定目前尚未有清晰的操作標準。有學者以“ 文化— 歷史活動理論模型”為基礎,建構了學業水平考試的命題模型,能夠提供參考。模型的核心旨趣是探究如何建構真實的測試情境。研究發現,當把活動系統網絡作為情境創設的基本單位時,構成總活動系統和子活動系統的關鍵要素,是構成和分析復雜社會活動的核心;要素之間的復雜關系為學生多角度體認測試情境提供了廣闊的思維場域,增強了情境的真實性。[11]一言以蔽之,活動系統數量越多、構成要素越多元,情境就越真實、越復雜。以此為標準,就可以初步判斷測試情境的難度,并根據測試情境難度標定核心素養的相對水平。
舉例來說,以探究《澄衷蒙學堂字課圖說》中對“天”字的解釋為測試情境,可以命制指向同一種思維能力的兩種題目。題1:“請結合《澄衷蒙學堂字課圖說》中的表述,解釋‘ 天’的意思。”題2:“借用以上兩則解釋‘天’為何物的材料,對《澄衷蒙學堂字課圖說》中‘天’的含義作出解釋。”這兩個題目都是讓學生解釋“ 天”的意思,但是題2 涉及更多要素—— 兩則解釋“ 天”為何物的材料,創設了比題1 更為復雜的測試情境,故雖同樣考查學生思維能力中的“ 辨識與推理”能力,但題2 的相對水平要顯著高于題1 的相對水平。在賦等級分數時,題2的1 分“含金量”也自然就要高于題1 的1 分“含金量”。綜上,將相對水平納入宏觀評分標準框架中,即可構成中觀評分標準框架(見表2)。
根據上述框架,學生在第1 題上的得分可定為“低-1-C-1”。該生在兩個情境難度下的相對水平都為1 分,說明在“語言運用”素養中的特定認知能力方面表現欠佳,且只能在語料的積累量上增長,而難以建構語料之間的聯系,實現認知上質的突破。
三、遵循建構性原則,觀照學業成就表現背后的意義建構
教育評價是一種基于證據的推理過程[12],即通過學生在完成測試任務時的表現,判定他們的知識、學習經驗、心理特征或水平。前文基于系統性和相對性設計的評分標準框架只能從“點”的角度評定學生的認知能力和非認知類別,但是學科核心素養蘊含的學習觀是建構主義,指向的是學科內容的結構性和關聯性,學生學習語文也是在個體與情境的互動中創生意義的過程。[13]因此,核心素養立意的學業水平考試評分標準應力圖呈現學生素養的建構樣態,從動態的“線”上看學生核心素養的表現特征。
動態的“線”包含哪些進階性的要素,決定了“線”的模樣。許多成熟的理論,例如,布魯姆的教育目標分類理論、SOLO(可觀察的學習結果的結構)分類理論等,都可以視作描述“線”的依據,但這類理論往往缺少與情境的聯系。心理學家德布洛克將學習概括為四個維度的整合。第一個維度是從學科事實性知識到概念,再到建構知識與概念的關系,最后形成結構化的認識;第二個維度是從學科事實性知識到提煉一般性方法,再到生成特殊的學科方法論,最后形成對學科本質的認識;第三個維度體現在認知深度的發展,強調從知道到理解、應用,最后形成綜合運用的能力;第四個維度聚焦運用知識與方法解決現實問題,強調從一般遷移向全面遷移的進階。縱向看,每個維度內部呈現的是知識與能力的進階;橫向看,第四個維度是前三個維度與具體情境的結合,重視知識與能力在解決問題時的遷移運用。該理論將學生的知識、能力、思維方法、價值觀念融合到具體的情境中,學生完成情境任務的過程,就是核心素養水平動態呈現的過程。一言以蔽之,評估學生核心素養的發展水平,需要依托對知識、能力、思維方法、價值觀念的考查,測試情境的難度一定程度上代表了知識、能力、思維方法、價值觀念的整合程度,情境越難對素養的要求越高。
如前文所述,活動系統數量和要素多元性決定了測試情境的難度。隨著測試情境難度的加大,學生掌握知識的豐富性、學科思想方法的熟練性、能力的整合遷移性也隨之增強。這樣看來,將相同素養在不同難度系數情境下的表現聯結起來,就能建構學生核心素養的動態特征。傳統考試命題主要以“雙向細目表”標注考試內容和掌握水平。這種方式雖方便了評價的實施,但也限制了對學生核心素養發展水平的監測。為了克服傳統評價量表設計上的缺陷,可以采用矩陣的方式重新規劃評價量表(見表3)。
表3 是以核心素養“語言運用”為例設計的評價量表。量表把“語言運用”涉及的三組能力維度定為評價的縱向維度,把試卷中設計的測試情境依據難易程度橫向排列作為評價的橫向維度,構成了“語言運用”素養3×3 矩陣式評價量表。在矩陣內部,可以根據評價維度在不同情境中的表現,判定相對水平。該水平判定構成了表2 上“相對水平”的具體描述。描述的縱向結構生成了該情境下“語言運用”素養的考查全貌,對命題有幫助;描述的橫向結構生成了學生在該評價維度下的素養發展“線”,動態建構了每個學生在特定核心素養下的表現特征,為個性化評估提供了依據。
四、遵循評價反撥原則,消除預設等級與學生實際水平的差異
學業水平考試的目的不僅在于檢查學生完成特定階段學業后的核心素養發展水平,還要為判斷學生核心素養發展過程中的問題及其原因[14],改進教學提供參考[15]。這就需要評價標準能夠真實還原學生核心素養發展的實際水平。從課程實施的落差視角看,雖然課程標準要求“嚴格依據學業質量要求命題,保證命題框架、試題情境、任務難度等符合學業質量要求”[16],但是作為課程主體的學生和教師,對情境的理解、對知識和能力的掌握情況存在個體差異。這種差異就導致難以用預設水平取代學生的實際作答水平。因此,要想準確評定學生能力與素養的發展水平,就需要首先解決預設水平與實際水平之間的差異化問題。[17]
可以借鑒美國心理學家梅斯雷弗(Mislevy R.J.)提出的ECD(以證據為中心的評價設計)模型建構“指向問題解決過程的評分設計思路”。其核心旨趣是建構符合核心素養考查要求的評分機制,與本研究的核心目的切合,可以遷移運用。修改后的框架如圖1 所示。
評分設計思路既可以用于評定學生認知能力水平和非認知能力水平,也可以用于評定特定難度測試情境下學生核心素養的相對水平。評分設計思路以測試情境為單位,分為自上而下的“先驗等級”和自下而上的“實際作答等級”兩個部分。前者以課程標準中學業質量標準的相關要求為依據,建立符合學科核心素養和能力發展要求的分數(等級)劃分框架;后者以學生在完成特定情境測試任務的具體表現為依據,根據學生的作答情況劃定核心素養和能力發展的實際等級。在正式開展學業水平考試評分工作前,評價人員要分別建構兩個框架,并互為參照,動態生成既符合學業質量標準要求,又符合學生實際表現的有區分度的評價標準。以此為工具評定的認知能力和非認知能力、核心素養相對水平,能夠客觀反映學生與學業質量標準的差距,為改進教學提供參考。
開發符合核心素養要求的學業水平考試工具雖然重要,但缺少能夠彰顯核心素養發展水平的配套評分標準,也難以真正評估學生的核心素養。本研究根據當前基于核心素養的學業水平考試命題特征,從評分框架的內容與結構維度、評價量表設計思路與核心素養考查的適切性維度、評分機制反映學生真實表現維度著手,探究了核心素養立意的學業水平考試評價標準的制定方法與應用模式。此方法和模式還需要在評價實踐中進一步檢驗,期待為準確評定學生核心素養、促進“教—學—評”一體化提供參考。