摘要:面對新時代教育評價改革的要求,文章分析了學業質量評價的歷史、現狀和發展趨勢,明晰了當前學業質量評價發展面臨的技術問題和需求。根據上海市MH區學業質量評價在證據采集、分析挖掘等方面的具體實踐,文章提出了學業質量評價的技術突破點。研究認為,學業質量過程評價的常態實施,需要實現證據采集的智能化和數據挖掘的專業化;學業質量結果評價的優化改進,需要利用組合測試技術讓評價走出“唯分數”,并利用分析反饋技術讓評價更具價值。
關鍵詞:學業質量評價;測評理論;數據挖掘;區域;智能化
《中國教育現代化2035》提出,要“建立健全中小學各學科學業質量標準和體質健康標準……構建教育質量評估監測機制,建立更加科學公正的考試評價制度,建立全過程、全方位人才培養質量反饋監控體系”。中共中央、國務院《深化新時代教育評價改革總體方案》要求“改進結果評價,強化過程評價,探索增值評價,健全綜合評價,充分利用信息技術,提高教育評價的科學性、專業性、客觀性”。學業質量評價是教育質量體系的重要組成部分,與學生日常學習生活最為緊密相關。隨著互聯網、云計算、大數據的廣泛應用,學業質量評價要發展,應充分重視并靈活運用現代信息技術、數理統計技術等。為此,本文從學業質量評價的基礎理論出發,從技術應用的角度,探析當前學業質量評價的堅守與突破。
一、回顧:學業質量評價的理論發展
(一)CTT與IRT在學業質量評價中的應用概況
經典測量理論(簡稱CTT)奠定了傳統中小學學業質量評價的基礎。CTT提出的“真分數、誤差分數、信度、效度、難度、區分度、常模”等是學業質量評價的主要參數。這也蘊含著學業質量評價的傳統技術要求。當前,在日常學業質量評價實踐中尤其在紙筆式學業質量評價中,CTT依然得到廣泛應用。在遇到一般問題不需要精確求解的情況下,運用CTT進行項目分析是恰當的,因為比較簡單、易于掌握,而且作為一種傳統方法,它已經發展得較為充分了[1]。CTT從流程、技術、模型等方面保障了紙筆測試式學業質量評價的基本質量。
但是,CTT也有不足。如有學者認為,它會在試題特征和考生特征之間建立起一種不可分離的相互依賴關系,而二者都建立在具體的測試題目和考生樣本的基礎上[2],即CTT需要在個性化評價、試題影響等方面具有更高的適應性或發展性。項目反應理論(簡稱IRT)就是在針對并克服傳統測量理論不足過程中逐步發展起來的現代測量理論。IRT主要用于建立各種與數據擬合的模型,以此確定被試的潛在特質值和他們對項目的反應之間的關系[3]。所以,項目反應理論也常被稱為潛在特質理論或潛在特質模型。目前,最常用的三種IRT模型分別是:單參數Logistic模型(簡稱“1PL”或者“Rasch模型”)、雙參數Logistic模型(簡稱“2PL”)、三參數Logistic模型(簡稱“3PbAOkPlzU2Jiuw0vrSXLMGe9LfprdY0njT/Gh9sjdpDE=L”)[4]。當前,國際許多大規模測試都借鑒使用了IRT理論,如PISA測試就是使用Rasch模型進行題目的建構校準和學生能力在同一量表上的估計[5]。但是,因IRT深奧復雜、操作困難等原因,其在中國實踐領域未見流行。
(二)從測評理論發展看學業質量評價的變革
今后,我國測評理論發展的新趨向將是以IRT為主體、與其他理論并存的一種局面,建立在IRT基礎上的計算機適性測驗則成為未來發展的新趨勢[6]。從整體來看,當前學業質量評價處于CTT和IRT共同使用的階段。在學業質量評價過程中,許多地區會根據教育發展目標和要求,從科學性、實踐性、有效性等角度,綜合測量理論、評價理論、教學理論等,形成適合實際的區域教育評價體系或模型,如BEAR評估系統[7]、SBAC 學業評價體系[8]、SOLO評價法、綠色指標評價體系[9]等。這些模型,一方面對評價體系進行了修正和完善,如評價指標更科學、完整,測評手段更豐富、多元等;另一方面對統計技術和分析方法提出了更高的要求,如要求基于CTT、IRT,并整合運用各類數據分析和挖掘技術。
測評理論的發展、評價模型的建構,都預示著學業質量評價正從傳統走向現代,從經驗走向科學,從單一走向多元。學業質量評價要在繼承和發揚傳統學業質量評價優勢的基礎上,探索順應教育發展、促進師生發展、符合技術發展的學業質量評價。從對象上看,學業質量評價不僅要關注“全體”,也要關注“個體”,更要關注“群組”;從評價時機上看,不僅要關注學期或學年或學段結束時的質量,也要關注學習過程中的質量;從評價手段上看,不僅要運用紙筆測試,還要運用其他手段協同評價;從評價內容上看,不僅要評價“知識與技能”,還要關注其他維度,并逐步走向核心素養評價;從評價維度上看,不僅要關注“質與量”,還要關注“質與量”的影響因素。由此可見,學業質量評價不僅要在理念上更新、程序上規范、內容上科學,更需要在技術上突破、方法上改進、實踐上創新。
二、實踐:學業質量評價的技術應用
作為全國智慧教育創建示范區,上海市MH區一直根據教育發展目標和要求,整合運用、科學應用各類技術,以提升學業質量評價的科學性、有效性和便捷性。從區域層面,探索區域整體性學業質量評價的發展辦法;從學校層面,引導學校與教師探究日常學業質量評價的突破之處。
(一)學校學業質量評價:人工觀測與自動記錄相結合的多元證據采集
1.使用可穿戴設備伴隨采集關鍵性證據
學生學習過程質量如何?除經驗判斷外,還需要更精確、更及時的證據,以便更科學地評估和支持學生發展。由此,MH區部分學校引入技術手段,使用可穿戴設備精準捕捉學生學習證據。如PN小學針對學生體質健康質量不太高、學生間差異較大等現象,統一使用“運動手環”,讓學生在體育課上統一佩戴;教師根據班級學生體質健康情況,課前為各類學生設置好匹配性“預警值”,課中通過“運動手環”進行數據采集和數據傳輸,實時觀察每位學生的運動強度。借助“運動手環”采集的關鍵性數據,教師在教學中能夠及時調整方法或手段,并聚焦特需學生進行及時、科學干預。通過一定時間數據的積累,教師還可以對學生階段性體質發展情況進行綜合判斷。為了促進學生更好地學習,MH區有一批學校正在探索在什么學科、在什么場景、如何運用可穿戴設備,以讓學業質量評價更好地服務學習、支持學習、促進學習。
2.運用機器識別自動采集多類型證據
學生學習過程中的變化和表現是過程質量的重要證據,但因諸多原因,它們無法被有效捕捉和識別。在智慧教育導引下,MH區部分學校大膽突破傳統教育評價的桎梏,探索使用“機器學習”輔助教學與評價。如QW小學以“數學概念形成”為例,利用視頻捕捉和人臉識別,記錄學生在課堂學習中的表情變化;課后再通過基于機器學習的姿態分析、人臉識別、人臉關鍵點檢測、表情分析等技術,將學生的變化和表現進行可視化表征,并分析其學習的參與度、思考度、專注度等;最后,對學生數學概念形成的過程質量進行評價。PY小學則在“手球+”校本課程教學中,利用視頻分析和熱點捕捉,開展基于深度學習的動作識別,觀測和評估學生在集體運動中規則意識的養成。
機器學習是通過經驗或數據來改進算法的研究,旨在通過算法讓機器從大量歷史數據中學習規律,自動發現模式并用于預測[10]。目前,MH區的探索處于機器學習的初級階段,這既受制于技術本身的成熟度、便捷性等,也受教育需求或研究問題的復雜性、專業性等影響。
3.運用學習平臺跟蹤采集全過程證據
隨著教育大數據的興起,對評價數據源的研究開始發生變化,不僅關注關鍵數據,還關注全樣本數據的價值。信息化學習平臺在教與學中的常態化應用為全樣本數據的積累提供了可能。如MH區LY小學利用超星校園閱讀系統、Aischool學習平臺等對四年級學生的閱讀行為(如閱讀篇目、閱讀數量、閱讀時機、閱讀時間、閱讀行為等)進行全程記錄和采集,并據此對學生閱讀能力進行評價。GM高中運用電子書包、Happyclass學習平臺等支持學生課前、課中、課后的學習,同時伴隨式采集和記錄學生學習過程全數據,如課前預習時間和時機、課前測結果,課中舉手作答次數、資源分享情況、生生互動及師生互動頻次與互動內容,課后作業時間與質量等。這些數據為準確評估學生的學習習慣、單元學習過程質量等奠定了基礎。
信息化學習平臺的使用,讓自動化采集學習全樣本數據得以初步實現。但是,這些學習平臺對學生學習的適應性、匹配性以及基于學習平臺積累的海量結構性、非結構性數據的分析與挖掘等問題,還需要進一步研究。
(二)區域學業質量評價:基于組合測評和專業模型的智能化數據挖掘
1.建設平臺,讓測評數據匯聚和沉積
基于信息化的學業質量評價是教育發展的必然要求。MH區通過多年實踐和研究,建設了“學業質量評價智能系統”(包括問卷等六大子系統),使中小學學業質量評價更加規范化、自動化和智能化。該系統按照國家相關專業和技術標準,規范定義了所有子系統數據的格式、層級、標準及相互關系,包括基礎信息、考試數據、問卷數據等,對其進行統一編碼。這使得歷次學業質量評價數據能夠匯聚,形成數據倉庫。該系統還進一步規范了學科命題、問卷調研、閱卷批卷等技術流程,明確了數據流向,確定了數據全過程中的責任主體和服務對象。這讓所有學校、所有學生、所有學科的學業質量評價數據得以積累,并逐漸形成學業評價大數據。至2019年6月,該系統已完成576 066人次的學業水平測試,21次區級問卷調查,已生成區級學科質量報告513份,積累數據35.3G。借助這些數據,區域可以實現對學校、教師、學生的橫向比較和具體評價,也可以進行縱向追蹤和發展評價。
2.運用模型,讓數據挖掘更加科學和便捷
區域學業質量評價大數據的積累,為進一步數據分析和深度挖掘提供了可能。多年來,MH區回歸育人本源,從學生終身學習和學校教育的可持續發展角度出發,細化和明確了學業質量測評目的。基于該目的,整合運用多種技術手段,優化數據分析方法,形成數據挖掘模型,并將其植入平臺,初步實現智能化數據分析。MH區“學業質量評價智能系統”繼續運用CTT的基本方法,對區域和學校的學業水平進行基本統計和基礎分析,如百分等級、眾數、中位數、標準差、標準誤差、差異系數、方差、峰值、超X均率、全距等。除此之外,聚焦教與學的改進和發展,該系統綜合運用了多種方法加強對數據的分析和挖掘。如基于學生個性化成長和發展預測的需要,運用IRT模型,實現對每一個學生的潛能測評;基于學生學業發展影響因素的干預需要,運用線性回歸、決策樹分析等方法,對學業水平的影響因素進行挖掘;基于教師分層教學和學生改進學習的需要,運用聚類分析方法,從知識點、能力水平等多個角度進行聚類挖掘;基于學業質量評價的可持續發展,對試題質量進行評估等。
綜上所述,上海市MH區在《教育信息化2.0行動計劃》引導下,聚焦“立德樹人”的根本任務,區校協同、點面結合、分步推進,運用信息技術和數理技術,在實踐中逐步優化學業質量評價,探索了技術支持下的區校學業質量評價的改革辦法。實踐發現,要讓學業質量評價改革更持久、更有效,還需要整體思考和設計技術及其應用路徑。
三、展望:學業質量評價需要的技術突破
縱觀學業質量評價的發展歷史,基于MH區學業質量評價的實踐探究,面向教育現代化的發展要求,從“過程評價的實現、結果評價的改進”角度看,學業質量評價下一步需要在以下方面實現技術突破。
(一)學業質量過程評價“何以可能”
評價不應僅關注學習過程的最后產出,還應著眼于學習過程所帶來的增長[11]。關注學生學習過程中的學業質量,關注學生學業的發展或變化,關注學生的學習狀態——學習感受、學習方式、學習付出、學習代價、學習環境等,是學業質量評價發展的趨勢。回歸到具體的學生,回歸到真實的過程,方能讓學業質量評價實現真正的轉型。
1.證據采集技術:讓評價走向智能化
長久以來,學業質量評價堅持“基于證據的客觀性評價”原則,而非經驗型、主觀性評價。證據成為制約學業質量過程評價的瓶頸之一。一方面,在互聯網+教育背景下,需要借助現代信息技術,更完整、更便捷地采集多元證據,讓學業質量過程評價更真實、更全面;另一方面,要根據教育現代化發展要求,進一步完善傳統證據采集技術,提升證據采集的科學性、精準性,讓學業質量過程評價更有效、更可信。
學業質量評價證據要注意全面性、相關性、可信性[12]。證據的“質”和“量”,與學業質量評價的質量直接關聯。如果說結果評價尚可通過自主開發的工具來獲取證據,那么過程評價的證據方式更需要趨向自動。MH區多所學校的實踐證明,伴隨學習過程的自動化采集技術對于過程評價的推進大有裨益。在線課程或電子教材、嵌入教與學過程中的App、輔助學習管理的信息平臺、支持教師專業發展的視頻采集或識別技術等,皆可成為學業質量過程性評價中證據采集的重要技術。但是,使用這些技術所采集到的證據,需要按照一定的標準和結構等進行積累、清洗和儲存。
2.分析挖掘技術:讓評價更趨專業化
學業質量過程評價需要從“多”證據到“好”證據、從“一類”證據到“多元”證據、從“一次”證據到“累積”證據。但是,要讓學業質量的過程評價真正落地,關鍵是要讓“證據”說話。這要求學業質量評價聚焦學習者,通過學習分析和數據挖掘技術,讓證據可感、可視、可用。
長久以來,學業水平測試較多地使用CTT而非IRT,其原因之一是兩者之間數據分析挖掘技術難度的差異。當學業質量評價從小數據到大數據、從大數據到巧數據時,運用專業工具對數據進行及時性、多元化分析挖掘則成為學業質量過程評價的難點。MH區的實踐表明,目前還沒有成熟的模型和技術能夠滿足學生各學科學業質量過程評價的需要。這需要數據科學、信息技術科學、學科課程與教學等多方協同,通過共同探索,逐漸形成面向個體、群組、群體的各學科學業過程評價的模型和技術。
(二)學業質量結果評價“如何優化”
對于學業質cldxJNRy3/VWpRYhLsg3INiSJyYktut7Yp6GlF8teG0=量結果評價來說,要破除“唯分數”的桎梏,其價值要從“學生間學業水平的差距”走向“影響學業水平的因素或變量”,通過探求不同學生群組之間的一致性和差異性,讓教學與管理的變革更有針對性、更具個性化。
1.組合測試技術:讓評價走出唯分數
學業質量結果評價要突破單一紙筆測試的桎梏,不再是單一維度、單一水平、單一手段、單一時空的方式方法,而是要建構立體的、多維的、長程的、連續的學業質量評價與保障體系。因此,“測驗+問卷+其他”的組合測試成為學業質量結果評價發展的必然。
組合測試技術在國際學業質量評價或教育質量評價中早有探索,即學業成就水平測驗和系列背景問卷調查相結合的技術路線。其中,學業成就水平測驗常用于考查學生學業狀況,而系列背景問卷則集中于獲取人口學、教育經歷及教育質量影響因素信息等[13]。MH區多年的實踐證明,組合測試技術也可以進入實踐常態。在此過程中,區域要根據不同學段、不同學科的課程標準以及學生發展需求等,確定如何組合、如何出卷、如何實施、如何分析等,涉及組合測試的體系或框架設計技術、學業水平測試的命題技術、問卷設計及組卷技術、抽樣與測試技術、數據自動化錄入與分析技術、試題庫和問卷庫建設技術等。
2.反饋應用技術:讓評價彰顯促進性
評價是為了促進和發展,工具和證據皆是手段,對結果的應用才是目的。在學業質量結果評價中,為了更好地促進學生發展,從時機上看,要從單次走向連續;從主體上看,要從單一走向多元;從內容上看,要從診斷走向相關。因此,學業質量結果評價要以學生的當下和未來為中心,從學習生態或關系的視角,讓學業質量評價的分析反饋技術和結果應用技術得以突破。
學業質量的發展和提升是多因素作用的結果。MH區的實踐表明,學業質量結果評價不能只服務或只作用于一類對象,而要讓校長、教研組長、教師、學生、家長等從不同角度獲得學生學業改進和發展信息,讓每個主體都認識到自己在學習生態中的角色、責任和影響方式。從學業質量評價結果的呈現內容和方式看,不能孤立地看單次結果情況,而要從持續性、連貫性、發展性的角度,對學業質量評價結果進行反饋,即不僅反饋當次分數,更要結合測試工具的結構和學生過往的學業情況,反饋學生的學業潛能、變化情況、關系關聯和發展傾向。所以,學業質量結果評價要重視基于數據挖掘技術的可視化呈現、多主體報告、實踐性應用等。
總之,在教育發展的歷史長河中,作為教育評價的重要組成部分,學業質量評價應伴隨著教育的發展而發展。一方面,要堅守傳統的基礎分析方法,發揮其基本診斷和管理功能;另一方面,要轉變觀念,改變思路,突破發展瓶頸,基于內涵需求,關注過程評價,完善組合測試,開發分析模型,強化數據挖掘,發揮評價的預測和導向功能。貫通過程評價和結果評價,破除唯分數的評價困局,不斷繼承與創新,共同推動學業質量評價的改革和發展,助推教育現代化。
(注:本文系國家社會科學基金教育學一般課題 “基于學習分析技術的中小學學業質量評價研究”(BHA140111)的研究成果。)
參考文獻
[1] 俞曉琳.項目反應理論與經典測驗理論之比較[J].南京師大學報(社會科學版),1998(4):74-77.
[2][4]約瑟夫·M.瑞安(美).基于經典測量理論和項目反應理論的等值與連接——主要概念和基本術語[J].考試研究,2011(1):81-94.
[3][6]熊江玲.經典測量理論、概化理論及項目反應理論比較研究[J].求索,2004(4):99-100.
[5][11]王蕾.大規模考試和學業質量評價[M].北京:高等教育出版社,2013:96.
[7] 劉洋,蔡敏.“BEAR 評估系統”:美國學生學業評價的新框架[J].外國教育研究,2009(11):40-44.
[8] 劉學智,乞佳,陳瑩.美國基礎教育中SBAC 學業評價體系研制模式與啟示[J].外國教育研究,2013(9):104-111.
[9] 徐淀芳,紀明澤,汪茂華.學業質量綠色指標:促進學生全面發展的利器——上海市中小學生學業質量綠色指標評價改革概況[J].人民教育,2013(18):13-16.
[10]余明華,馮翔,祝智庭.人工智能視域下機器學習的教育應用與創新探索[J].遠程教育雜志,2017(3):11-21.
[12]姚林群,戴根元.論基于證據的學業質量評價[J].全球教育展望,2016(5)):49-57.
[13]張詠梅,郝懿,田一,李美娟.大規模學業成就調查系列背景問卷的設計與建構[J].教育科學研究,2016(5):5-11.
(作者系上海市閔行區教育學院科研室主任,教育學博士)
責任編輯:牟艷娜