●劉 輝
促進學習的評價:從報告分數到建立反饋機制*
●劉輝
摘要:充分利用考試促進每個學生的進步是提高教育效能和改進學業質量評價體系的必然訴求。傳統評價結果反饋的核心是提供分數和排名。單一的分數報告不能很好地促進學生的學習,促進學習的反饋機制要從靜態的分數報告轉向動態的整合分析:建立信息化平臺,實現更及時、便于查詢、多層次、多類型、多版本、多維度、多數據源的精細化學業質量分析;建立反饋機制,實現一班一報告、一師一報告、一校一報告的呈現方式;建立長效改進機制,發揮教學診斷和學習診斷的功能,通過反饋分析,制定跟進措施,改變工作方式,最終促進學業質量提升。
關鍵詞:促進學習;學業質量評價;分數;反饋
學業質量評價就像懸掛在學校、教師、學生和家長頭上的“達摩克利斯之劍”。為學而評,還是為評而學?在促進學習的評價范式中,評價作為教學的一部分是用來幫助學生學習,而不是僅僅作為測量學生掌握知識情況的工具。“評價是從多種不同來源搜集信息并進行討論的過程,目的是深入認識學生學到、理解的知識,并檢查作為教育經驗的結果,看他們是否會運用這些知識。評估的最高成效,是能用來改善以后的學習[1]。”“促進學習的評價將學生作為評價的主體和評價信息的重要用戶,不僅讓教師了解學生的學習,而且讓學生也了解自己的學習。促進學習的評價強調運用多種評價方法來收集關于學生學習的信息,持續地向學生、教師和家長提供學生在掌握學習標準上進步的證據[2]。”評價就是收集決策依據的重要手段,這種評價就像全球定位系統,提供給我們當前所處位置的信息。“就其本性來說,學習評價是評判性的而非測量性的[3]”。評價需要完善的專業判斷,而不僅僅是客觀的量化測量。用圖1來表示評價視域下評價與教學、學習之間的關系,對兩者的關系會有更清晰的了解。[4]
這一模型解釋了教學、學習與評價之間的關系:學習目標就是對學生成就的期望,要界定清楚,根據學習目標確定評價目的和信息需求。教師需要收集大量的關于學生理解與表現的信息,需要多樣的學習證據來診斷、監控過程、評估教與學的過程,就要利用各種正式或非正式的評價方法來收集這些證據。得到評價結果之后,要為學生提供關于他們學習進步的描述性反饋,同時對學生學得怎樣做出恰當的推論。評價結果的報告與反饋要將收集到的反映學生學習、教師教學的信息數據與評價指標進行比較,得到有關學生學習和教師教學的有用信息;檢測學生完成預定學習任務的程度,診斷教學問題所在,供教師開展個別化、有針對性的教學和輔導;以“測試依靠技術、結論源自證據、解讀產生行動”為指導思想,從而形成“學習→測試→診斷→改進”的良性循環。

圖1 評價循環圈:一種教、學與評的模型
綜上所述,建立促進學習的評價結果反饋機制應該遵循一定的邏輯程序,即 “分析——判斷——診斷——教學反饋意見”的過程。分析,是指發現和解讀考試數據圖表的數量特征,數據之間的關系,以及所表達的問題。判斷,是指與考試標準進行對比,在各個不同的方面進行總體與總體、整體與部分學生群體進行比較,發現考試的結果的差異性,結合實際教學情況對考試現象做出判斷。診斷,是指根據考試現象,明確學生學業成就的優勢與不足,結合具體的考試內容及其要求,聯系教學與學生實際,對問題的原因提出診斷的意見。分析診斷的目的是為了今后改善教學,通過對考試結果的分析和發現問題所在,提出教學改進的意見,對學生發展提出有針對性的指導建議。
學業質量評價要將多種數據源、多維度、多指標的信息進行整合分析。借鑒這一思路,將學生的學業成績與問卷調查數據進行關聯分析,可以獲得對學業質量及其影響因素更加生動、豐富和有深度的洞察。注重對學業考試與背景因素潛在規律的挖掘,探索學業成績的變化趨勢與規律,挖掘非學業因素與學業水平之間的關聯性。因而可以動態擴展數據挖掘模型和結果呈現,將學業質量影響因素的評價結果,用于對學生學業診斷、學習環境、學習素養的跟蹤監測。
為了更深度地探尋影響學業質量的因素,對學生的學習動力、學業負擔、學習方式、教師教學方式、師生關系、教師專業素養、校園學習文化等進行測評,對這些信息的分析,可以很有效地幫助解釋成績,解釋學生之間形成差異的原因。例如關注學生在學習準備狀態、興趣和個人學習風格方面的差異,才可以相對準確和全面解釋學生的評價結果,挖掘到評價結果產生的原因和主要的影響因素。這樣才可以具體地分析“學生的學習動力是怎樣的?”“學生的學習方式是怎樣的?”例如通過問卷調查來了解學生的學習自信,例如“遇到難題,我不會輕易放棄。我覺得多動動腦子,一定能解決的”;了解學生的學習興趣,例如“在尋找解題方法的時候感覺自己就像偵探一樣,帶著好奇心進行仔細地分析。”了解學生的學習方式,例如“如果我有不理解的知識,會運用計算機、網絡來尋找信息來幫助自己學習”。通過將學生學業考試成績與問卷調查生成的數據進行決策樹關聯分析、回歸分析,對影響學生學業成績的因素進行歸因和解釋,評估學生的學習進展,預測未來的表現,并發現潛在的問題。教師要根據對評價結果的分析,得到學生學習優劣勢的信息,據此幫助學生識別和判斷如何在現有的學習程度上提高其學習能力,如何加強學生的學習興趣、信心和能力的提升,以及為學生的后續學習發展提供建議。根據決策樹分析,作業時間在1小時以下的初二學生數學平均分是57.3分、外語平均分是50.4分;作業時間在1-3小時的學生數學平均分是68.1分、外語平均分是62.8分。由此可見,適當的數學、外語作業時間有助于學生鞏固所學內容,作業時間太少可能會不利于學生消化理解所學內容。也就是說,要提高學業成績落后學生對作業的積極態度、主動性,可以為其布置適當的作業量,通過增加有效的作業練習來提高學習成績。
為什么要用考試分數來表達學生的學業水平高低,或者考試分數在多大程度上能夠表達學生的真實水平呢?如何從考試中發現學生學習后形成的學科心智特質的傾向性?這一連串的追問,都涉及到考試分析的技術。考試成績的卷面總分是學生在完成各個考試項目(試題)所表現出能力水平測量得分的合計結果。在將每小題得分合計、形成卷面總分的過程中,同時也模糊了學生在每道試題上的差異表現。如果我們在分析考試或者運用考試結果時,不利用項目具體反應得分所表達的學科能力內在因素去客觀分析學生學業心理特質和能力傾向,不運用測量數據所反映的數量關系去合理解釋考試結果的真實含義,只是一味比較考試成績的高低,只看考試總分、漠視測量所反映的學生學科能力結構內在的差異性,就抹煞了考試的教學診斷和學習診斷的功能。在進行心理學研究時,經常是通過人的外顯行為來推斷他的內部特征。如果要了解學生的數學能力水平,可以看他在數學試卷上的作答反應情況進行推斷,或者通過他日常解決數學問題時的表現進行推斷。學生的認知結構、學習策略、加工技能、知識狀態是有差異的,通過考試試圖發現這些差異,以便有針對性地幫助學生進一步發展。考試以特殊的方式、量化的形式,試圖對人的學習心理特質給出描述,通過學生解答學科問題的顯性行為,以推測其相應的心理特征。學生在考試中對題目的具體反應,更接近學生心智特質的真實水平,比卷面總分更重要。
認知診斷評估在評價被試心理特質方面,提供了比經典測量理論更精細的評估方法和更細致的評估結果。如果考試只提供一個籠統的考試分數或能力分數,就無法解釋分數相同的學生可能具有不同的知識狀態、認知結構,相同分數的個體間差異無法區分;是什么因素導致學生試題做錯,考試者掌握了什么知識、未掌握什么知識等信息無法獲取。報告一個簡單的考試分數已經不能夠滿足教與學的需求。充分挖掘和利用考試信息,提供診斷信息、報告學生的認知結構或知識狀態,即學生掌握了哪些知識點、哪些知識點未掌握而需要補救,學生在學科能力上有哪些傾向和特征,這就是教育考試中的認知診斷。卷面得分相同的學生,其認知結構、學科能力可能是相差極大的。運用項目反應理論模型對初二學生的數學成績進行數據挖掘后,抽取出卷面成績同是“B”等級的6個學生,查看其數學潛能評分卻是“A”“B”“C”“D”“E”“E+”等6種不同結果。考試不能僅報告學生的一個總分,更須報告學生認知優勢及劣勢,真正實現考試的認知診斷功能。“診斷結果報告可以分為個體報告和團體報告。個體報告要報告學生在測驗中表現出的能力水平、對測驗中各認知屬性的掌握情況。對于團體報告,需要給出團體的總體水平及對測驗認知屬性的掌握情況。”[5]在診斷結果報告的基礎上,應針對不同學生對認知屬性的掌握情況提出有針對性的補救措施。學生根據診斷結果,可以有針對性地開展學習,避免了“題海戰術”,真正做到減輕學生負擔;老師也可以根據學生的診斷結果,找到自己教學中存在的不足,同時能為開展因材施教提供依據;對于更為宏觀的教育機構而言,可以根據學生的診斷報告,了解當前教育狀況,為制定教育規劃及教育決策提供依據。
促進學習的學業質量反饋方式是:從靜態的分數結果報告轉向動態的整合分析,建設更及時、便于查詢、多層次、多類型、多版本、多維度、多數據源的信息化分析平臺。在不同層面(區域、校、年級、班)有報告,有不同類型、不同版本的報告,例如學科學業成績分析報告、學業相關因素發展報告、學業質量綜合報告、縱向對比報告、典型問題分析報告;實現一班一報告、一教師一報告、一校一報告,只要輸入相關變量,就可以直接獲得相應的報告;報告對全體、抽樣、特征群體的學生進行分類分析,并按照試卷分析、考試質量分析、背景因素分析及關聯關系進行呈現,形成綜合的質量分析報告。包括教師教學質量報告,對教師任教的所有班級進行綜合質量分析與報告;學校學業質量綜合報告,對學校的學業水平、背景因素水平和學科發展水平進行綜合質量分析與報告;區級學業質量綜合報告,對區內各學段的學業水平、背景因素和學科發展水平進行綜合質量分析與報告。
區域學業質量檢測中心負責采集學生學業質量評價數據、綠色指標調研數據、教育質量綜合調研數據、督導和教學視導數據,對這些數據進行匯總和分析,并整合其他相關考察材料,形成區域學業質量報告,呈送教育行政部門;同時區域學業質量檢測中心會為各學校形成學校學業質量報告,對學校的學業質量提供診斷和建議;通過積累大量的數據建立區常模,運用常模對學生學業質量進行對比,通過學習診斷對學生學習和發展提供更針對性的建議,對教師教學和學校管理提供更有效的指導和服務。考試質量分析要發揮促進教師反思、檢測教學目標達成、檢驗試題質量、指導教學改進的重要功能,要遵循一定的分析框架,形成考試質量分析規范。

表1 中小學學科測試質量分析框架
建立反饋機制,制定跟進措施,改變工作方式,最終促進學生學業質量提升。對評價結果的反饋要注重數據的使用,但不能僅依靠數據,要采用質性分析的手段,將定量分析和定性分析相結合;重在發現問題,合理解釋考試現象,總結經驗方法,指導教學過程,改進教學方法,不能以考評教師學生的目的去進行考試質量分析和反饋。
在評價結果反饋之后,需要有一系列的跟進措施,包括:區域業務部門根據學業質量評價結果組織校長、教導主任的主題培訓和工作會議,反饋學校的教學質量、挖掘其問題,幫助學校分析原因、尋找對策、提供業務支持。例如某高中的教學質量只是與全區高中的均值持平,但是在學業相關因素評價中,學習投入度、學習自信、學習動機、學習興趣、相互尊重、公正平等、學校教學秩序等7個方面都是全區最好的,通過幫助學校挖掘其深層次原因,總結其在學校管理、教師發展、教學實踐等方面的實踐智慧,尋找提升學校教育品質的突破點,也為其他學校的改進提供參考建議。學科教研員根據學業質量評價結果為教師改進教學提供幫助與指導,利用評價結果分析學情,基于證據改進教學;要基于學業質量評價數據進行針對性教研和教師培訓。例如,對初二學生數學能力層次的分析發現,識記能力的得分率是最高的,在80%以上;理解能力的學校差距比較大,得分率從90%至50%;運用能力的得分率在23%-67%之間;綜合能力的得分率在56%和16%之間,其差異是非常顯著的。教研員要根據學科發展水平報告中的學生學科能力發展狀態,注重幫助教師提升學科能力相關的教學策略與方法。例如,將初二學生的語文、數學、英語總得分率與評價指標進行回歸分析,從全體學生的成績來分析,數學和外語成績都和學習動機、情境教學、自主學習有較強的相關性;另外,外語成績還和學習興趣、學習投入度、教師學科專業素養、教師工作責任心有較強的相關性;從各子群體的學生成績來分析,學習動力、學習方式和教師專業素養與中等生的學生成績有一定的相關性,與較好、較差的學生成績基本沒有相關性。學業相關因素例如學習動力、教學方式、學習方式、師生關系都會對學業水平產生影響,但是學生學習成績高低不是受單一因素影響的,是多種因素起作用而導致的結果。如果要提高學習成績必須將影響學業成績的因素進行綜合考慮。某些學業相關因素之間可能具有很強的關聯性,可以互相促進,提高其中一個指標可以帶動另一個指標的改進。而且每個因素對學業水平的影響也不一定是直接作用的,例如教師教學方式可能會影響師生關系,師生關系也會影響學生對教師教學的滿意度;學生學習動力會促進學生學習積極性、主動性,也會促進學生運用的自主、合作和探究的學習方式;學生在自主、合作、探究學習中也能夠激發學習興趣、深化學習動力、增強學習自信,促進學生學習動力的提升。
從靜態的分數報告轉向建立指向改進的反饋機制,基于認知診斷的模型和數據分析的技術,依托信息化平臺,形成可供靈活調用、更及時、便于查詢、多層次、多類型、多版本、多維度的反饋方式,實現一班一報告、一師一報告、一校一報告,建立長效改進機制,發揮教學診斷和學習診斷的功能,通過反饋分析,制定跟進措施,改變工作方式。這是對評價結果進行分析診斷和用于指導改進的有效路徑。通過建立反饋機制,提供更精細化的分析診斷結果,形成學習——評價——分析——決策——改進的價值鏈,對于改進教學、促進學習具有更適切的意義。
參考文獻:
[1]Huba,Freed.(2000).Learner-centered assessment on college campuses[M].Boston:Allyn and Bacon,8.
[2]Stiggins,Richard J.From Formative Assessment to Assessment for Learning:A Path to Success in Standards-based School[J].Phi Delta Kappan,2005(10).
[3]Chappuis,S.,Chappuis,J.(2008).Informative Assessment:The Best Value in Formative Assessment[J].Educational Leadership,65 (4),14-19.
[4]此處參考了科布(Cobb,C.T.)等人開發的“評價循環圈,引用時有些修改。Cobb,C.T.,Joyner,J.M.,&Williamson,J.L. (1999).Assessmentliteracyforeducators:Linkinginstructionand assessment[J].ERS Spectrum,Spring,3-11.
[5]羅照盛著.項目反應理論基礎[M].北京:北京師范大學出版社,2012.139.
(責任編輯:劉君玲)
劉輝/上海市閔行區教育學院教研中心學業質量檢測教研員
*本文系全國教育科學規劃課題《基于學習分析技術的中小學學業質量評價研究》(立項編號BHA140111)和上海市閔行區教育科研重點項目 《區域學業質量綜合評價指標構建的探索性研究》(立項編號QZ2015027)的研究成果之一。