摘要:基于信息技術的表現性評價能夠為學生綜合素質評價改革提供重要的理論和實踐指導,助力破解“有指標缺工具”的“卡脖子”難題。然而,基于信息技術的表現性評價“以何”“為何”“如何”助推學生綜合素質評價改革仍有待探討。該文首先從新模式、新技術、新支撐和新服務四個方面論述了基于信息技術的表現性評價助推學生綜合素質評價改革的現實意義;從目標同向、內容一致、理念相同、方法契合四個層面解析了基于信息技術的表現性評價助推學生綜合素質評價改革的內在機理。隨后,該文分析了綜合素質評價改革中基于信息技術的表現性評價的設計原則和流程,并分別以協作問題解決能力評價和書面語言表達能力評價為例闡述了其具體應用。最后,該文分別從情境創設、數據采集、技術應用和質量保證四個維度指出了基于信息技術的表現性評價助推學生綜合素質評價改革的發展建議。
關鍵詞:學生綜合素質評價;表現性評價;信息技術;成長溯源
中圖分類號:G434 文獻標識碼:A
* 本文系科技部“社會治理與智慧社會科技支撐”重點專項項目“大規模學生跨學段成長跟蹤研究”(項目編號:2021YFC3340800)、國家資助博士后研究人員計劃B檔項目“智能技術賦能協作問題解決能力的大規模測評與溯源研究”(項目編號:GZB20240255)階段性研究成果。
① 柴喚友為本文通訊作者。
自教育部于2004年提出綜合素質評價以來,全國各地都如火如荼地開始探索和推進學生綜合素質評價實踐,旨在深化考試招生制度改革和健全立德樹人落實機制。在素質教育亟需普及深化和基礎教育亟需高質量發展的新時代背景下,綜合素質評價被賦予了破除“唯分數評價”[1]、促進學生全面發展[2]和改革考試招生制度[3]的重大使命和美好期待。然而,從實踐效果來看,當前各地蓬勃開展的綜合素質評價活動普遍存在“有指標缺工具”的現實困境[4],即只能參照自定義分解式評價指標被動記錄學生、家長和教師等評價主體上傳的片面結果性數據(如典型事件記錄),而無法依托設計良好的評價工具實現學生立體數據的主動、客觀和科學采集。這導致面向選拔的綜合評價缺能力和面向育人的綜合評價缺診斷,最終難以達成基礎教育評價改革深度推進的良好初衷。因此,如何破解“有指標缺工具”的現實難題,切實變革學生綜合素質評價,已成為基礎教育領域迫切需要解決的一大關鍵難題。
在該背景下,“大規模跨學段學生成長跟蹤研究”課題組(以下簡稱“課題組”)提出了基于信息技術的表現性評價(利用信息技術變革評價實踐中的任務呈現方式、數據采集和分析過程以及結果反饋形式等,考查學生在真實、復雜、未知情境中完成某項真實任務或解決某個真實問題時的復雜能力發展狀況的一種新型評價方法),嘗試以此來破解上述難題。作為技術賦能學生綜合素質評價的指導思想和實踐方法,基于信息技術的表現性評價能夠為學生綜合素質評價工具設計提供重要的理論和實踐指導[5],強力支撐選拔和育人兩種不同導向的綜合評價的實踐落地。但同時,基于信息技術的表現性評價在助推學生綜合素質評價改革創新發展時也面臨諸多機遇與挑戰。第一,以大數據、物聯網、ChatGPT為代表的人工智能技術因其具有驅動教育評價更加客觀、精準和高效的獨特優勢,給新時代學生綜合素質評價改革提供了新型技術支持和方法選擇,但如何適合、適時且適度地應用人工智能技術,給綜合素質評價研究者和實踐者帶來了極大挑戰[6]。第二,教育新基建為學生綜合素質評價改革提供了實踐基石,其核心構成——新型教學空間、智慧校園、數字化管理中臺等——構筑了學生綜合素質評價改革的現實基礎,但如何基于各地發展水平不均衡的教育新基建形成特色評價方案,是綜合素質評價研究者和實踐者所面臨的一大重要挑戰。第三,《深化新時代教育評價改革總體方案》《關于開展信息技術支撐學生綜合素質評價試點工作的通知》均強調要充分利用信息技術完善學生綜合素質評價體系,但如何將這些政策文件轉化為具有可操作性的實踐方案,是擺在綜合素質評價研究者和實踐者面前的嚴峻挑戰[7][8]。
本文擬從基于信息技術的表現性評價助推學生綜合素質評價改革的現實意義入手,全面厘清其內在機理,深入探討其設計與應用,并進一步指出其發展建議。
(一)以主動促評新模式,驅動評價樣態創新
如前所述,當前學生綜合素質評價實踐的常見形式是教育信息化平臺被動記錄相關評價主體上傳的文本、圖片、音頻或視頻材料等,由此會帶來三大問題:第一,評價過程極易流于形式和弄虛作假現象極易發生;第二,當指向學生素質指標的典型事件相對稀少時,相關事件常常難以被觀察和記錄到;第三,周期性地上傳或填寫相關材料會給相關評價主體帶來額外負擔。對此,基于信息技術的表現性評價嘗試通過真實生活場景任務誘發學生的行動、表演、展示或寫作等多種復雜表現,以促成主動且客觀地采集、處理和分析評價數據(即主動促評新模式),從而可為綜合素質評價樣態創新提供堅實支撐。一方面,該模式可通過真實生活場景的引入促進評價場景創新;另一方面,該模式可支持將學生在任務完成過程中的復雜表現轉變為綜合素質評價的新型證據,因此極大促進了評價樣態的創新[9]。
(二)以人工智能新技術,驅動評價流程優化
當前,信息技術對于學生綜合素質評價的支撐作用主要體現為教育信息化平臺驅動評價形式更加電子化和便利化,但在評價數據采集、處理和分析以及結果反饋等流程上仍然發力不足[10]。具體而言,針對如何利用技術賦能學生綜合素質評價全流程仍然停留在理論探討階段,缺少真正具有落地可行性的實踐案例。對此,基于信息技術的表現性評價通過將大數據、虛擬現實、物聯網等最新智能技術與表現性評價各流程進行深度融合,為綜合素質評價流程優化提供了多樣化方法選擇。首先,物聯網、視頻監控和日志記錄等技術可用于全面獲取并挖掘學生在自然或模擬狀態下產生的大量真實可靠數據;其次,目標檢測、動作行為識別、時序動作定位等技術可用于客觀處理和分析互為關聯的海量復雜表現數據;再次,可視化、智能推送等技術可為學生個體的個性化評價結果和發展建議提供定制的輸出和反饋能力。
(三)以立體數據新支撐,驅動評價結果精準
縱覽當前實踐,支撐學生綜合素質評價的數據構成通常只包含聚焦于典型事件的文本、圖片、音頻或視頻材料等,以及由各評價主體提供的自評或他評報告。然而,究其本質,這些數據只是可用于描述學生相關素質的片面結果性數據,而非能對其進行完整描述的立體式數據,即同時包含結果性(最終成為“什么”)和過程性(“如何”發展而來)數據。不難想到,數據的片面性極易造成評價結果失真,從而難以讓人信服。對此,基于信息技術的表現性評價能夠通過完整捕獲學生素質表現的立體數據,驅動綜合素質評價結果更為精準。一方面,學生在任務完成前、中、后的表現數據有效連結了過去、現在和未來,極大確保了結果性和過程數據的全面覆蓋;另一方面,文本、圖片、音頻和視頻等多模態數據能夠相互印證和補充,有效驅動了評價信息的豐富性和可靠性[11]。
(四)以成長溯源新服務,驅動評價應用普及
作為“五育并舉”活動的指揮棒,綜合素質評價事關學校的辦學導向和教師的培養方針。具體到學生個體層面,綜合素質評價理應能為其提供個性化評價結果和差異化發展建議。唯有如此,學生個體才能明晰其自身發展潛力,同時教師才能更好地因材施教。上述兩者的獲取極大程度上依賴于針對學生的精準畫像和追蹤溯源,即深度揭示學生綜合素質發展的優勢、不足及其原因。然而,現行綜合素質評價實踐只能依靠片面結果性數據對學生畫像進行有限描述,在追蹤溯源方面更是無能為力。對此,基于信息技術的表現性評價可以通過服務于學生隊列(流行病學術語,在教育領域中特指具有共同因素特征的一組學生群體[12])資源建設,支撐對學生個性化畫像進行深度溯源(即提供生長溯源新服務),以厘清學生評價結果良好或較差的過程表現原因所在。基于此,綜合素質評價可支持為學生發展提供適配性建議,進而支撐培養方案的專屬性制定,并最終驅動評價應用的大范圍推廣。
(一)目標同向:追求學生畫像的獨特精細描述
綜合素質評價旨在以目標為導向,采用統一標準來精細衡量具有個性化發展特征的學生。然而,從實踐效果來看,評價主體上傳的相關材料常常是大同小異,千人一面,即缺少能夠彰顯學生獨特性的相關特長、突出事跡、優秀表現等區分性和突出性材料。由此造成的惡果是:基于這些材料的學生畫像描述也常常是千人一面,相對缺少獨特性和精細性[13]。因此,學生綜合素質評價改革的未來方向之一便是個性化精細評價,由千人一面邁向一人一面。與此同時,基于信息技術的表現性評價推崇基于學生在任務完成過程中的個性化復雜行為(包括語言、動作和表情等)模式,驅動學生評價結果的個性化和精細化。因此,基于信息技術的表現性評價和綜合素質評價改革在評價目標上高度一致,均追求學生畫像的獨特精細描述。
(二)內容一致:強調能力、品格和價值觀的深度貫通融合
針對傳統學生綜合素質評價在理論概念上的模糊性以及在評價指標上的分立性、與核心素養口徑不一致等問題,課題組以核心素養理論模型為底座,納入德智體美勞評價內容,以綜合素養為核心概念構建了一套新理論模型(包含三大維度、10大指標和36個基本要點),并以此來指導學生綜合素質評價改革[14]。綜合素養是學生在受教育過程中形成的跨越學科的關鍵能力、必備品格和深化價值觀的個性化有機融合。不同于傳統學生評價僅僅考察低水平知識和孤立技能,綜合素養測評重在聚焦學生利用基礎知識解決真實問題或任務時的高階能力及相關的品格和價值觀。與此同時,基于信息技術的表現性評價植根于素質教育評價需求,強調通過創設真實任務場景來測量學生在解決真實生活情景任務時的高階能力與情意表現,其中后者是品格和價值觀的有機結合。因此,基于數字技術的表現性評價和綜合素質評價改革在評價目標上高度一致,均強調針對能力、品格和價值觀的深度貫通融合。
(三)理念相通:呼喚評價數據的全面客觀采集
依據學生綜合素質評價改革的現實需求,新評價體系需要摒棄傳統實踐的數據內容弊端(如評價材料真實性存疑、數據采集內容單一等),尋求建立覆蓋多場域且融合全流程信息的全面客觀性數據采集方案[15]。一方面,綜合素質評價改革渴盼在數據內容上覆蓋來自學校、家庭、社區等多種典型場域的文本、視頻、音頻等多模態數據,且在數據導向上兼顧過程性和結果性兩種類型;另一方面,綜合素質評價改革訴諸采集學生在真實場景下的各類表現性數據,并以此為證據來科學推論學生特定素質。與此同時,基于信息技術的表現性評價嘗試以信息技術為手段,圍繞(特別創設或業已存在的)真實生活場景任務綜合采集學生在多個場域中的全息表現性數據[16]。因此,基于數字技術的表現性評價和綜合素質評價改革在評價理念上高度相通,均呼喚全面客觀的評價內容采集。
(四)方法契合:依托信息技術的持續創新應用
鑒于原有綜合素質評價實踐在方法層面的數據采集受限、數據分析客觀性不足和活動實施繁雜等問題,綜合素質評價改革希冀利用信息技術創新性變革評價實踐,如借助伴隨式采集與匯聚等技術實時采集學生全過程活動信息,借助多模態活動分析、多主體主觀評價分析等技術深度挖掘綜合素質發展的過程與特點,借助視頻會議、視頻分析和可視化等技術促進評價活動實施。與此同時,基于信息技術的表現性評價強調借助信息技術拓展測評數據采集、優化數據分析和促進測評活動實施,如在數據采集過程中引入視頻監控、智能錄播等技術,在數據分析過程中引入基于高級統計測量模型的數據分析技術,在活動實施過程中引入視頻監控、視頻分析等技術。因此,基于信息技術的表現性評價和綜合素質評價改革在評價方法上高度契合,均重視信息技術的創新性應用。
基于信息技術的表現性評價助推學生綜合素質評價改革的核心是依托信息技術設計新型評價工具,然后將其在學生綜合素質評價實踐中加以實施。但如何設計與實施基于信息技術的表現性評價工具(核心構成包括評價目標、評價任務、評分規則和技術支持等),是橫亙在綜合素質評價改革創新中的現實難題,因此有必要對其進行深度探究。
(一)基于信息技術的表現性評價的設計原則
鑒于學生綜合素質評價在方法層面的客觀性、精準性和真實性需求以及在對象層面的大規模和跨學段背景,并考慮到最新信息技術的發展趨勢和適用邊界,在設計基于信息技術的表現性評價工具時需要遵循以下原則:
1.契合學校教育內容。表現性評價任務類型及相關任務場景、背景知識等的選取和設計均需參照義務教育課程方案和語文、數學等16個課程標準以及《義務教育學生發展質量評價指南》,確保評價任務及相關要素符合學校教育的一系列內容要求。該做法一方面可通過對標相關方案、標準和指南,確保評價內容的適宜性、科學性和可行性,另一方面可通過參考相關方案、標準和指南,節省評價任務設計所需的一系列時間、人力和物力成本。
2.遵循學生成長規律。為實現科學精準化評價的目標,研究者需要深度結合不同成長階段學生的身心發展特點和日常活動特點,致力于創設具有適宜內容難度和操作復雜性且貼合學生熟悉生活場景的評價工具,以形成評價工具特點與學生身心發展特點的良好契合。如此一來,學生不僅能夠準確理解評價任務內容,而且可以與評價環境之間進行無障礙交互,從而成功激發并維持其參與評價活動的內在動力。
3.兼顧城鄉發展差異。鑒于城鄉地區的一系列教育鴻溝以及教育信息化發展水平(如基礎硬件設施、網絡性能等)的普遍差異,研究者應充分兼顧城鄉學校的不同辦學條件與教學特點、城鄉學生的差異性群體發展特點,著力創設對城鄉學生同等友好且不依賴于特定城鄉特點的評價工具,以確保測評工具在城鄉學生群體中的同質性和等值性。基于此,測評結果的公正性和科學性需求才能得以滿足。
4.適配技術發展水平。信息技術在助力評價工具成功設計的同時,也對其具有一定的制約作用。具體而言,當信息技術發展相對滯后于評價任務設計時,最終評價工具則只能在二者之間尋求適度平衡。因此,研究者在評價工具設計過程中應該審慎判斷已有信息技術對于特定任務設計的支撐作用,利用理論與技術雙向驅動的新思路[17]對二者進行多輪次雙向迭代,以最終達成二者之間的良好適配與兼容。換言之,既不超前設計評價任務,也不過度應用信息技術。
(二)基于信息技術的表現性評價的設計流程
針對綜合素質評價,基于信息技術的表現性評價工具的具體設計流程如圖1所示。相對傳統表現性評價的設計流程,圖1新增了“設計數據埋點”和“封裝評價工具”兩個模塊,且在整個流程中更加凸顯信息技術的深度融合應用。

1.明晰評價目標。基于最新綜合素質理論模型以及相關理論與實踐研究成果,確定所需評價的素質內容的概念內涵和外延表征。其中,概念內涵是針對素質內容本質屬性的介紹,而外延表征則是針對素質內容所反映的事物范圍的限定。當素質內容過于抽象、欠缺可操作性時,其外延表征通常具象化為復雜程度不一的精細測評框架。
2.確定評價標準。參照義務教育課程方案和標準、教學目標或教師實踐經驗以及相關理論與實踐研究成果,為所需評價的素質內容厘清其在能力、品格和價值觀三個方面的具體表現和關鍵項目,并采用清晰、完整、科學、簡單易理解的話語對這些內容進行可操作化描述。
3.設定評價工具類型。依據所需評價的素質內容的評價目標和評價標準,并參考最新測評研究和實踐進展,設定適宜有效的評價工具類型,即在預設式和自然式評價工具類別中二擇一。對于預設式評價工具,還可以進一步細化為靜態性、動態性、交互性和真實性四類工具,具體介紹可參見文獻[18]。
4.研發評價任務。綜合前面三個步驟所得到的信息,設計和開發匹配學生特點的差異化測評任務,既包括針對傳統線下環境的口頭表述、辯論、表演/角色扮演、作文寫作等,也包括針對新型技術環境下的視頻游戲操作、數字信息檢索與利用、計算機交互式測驗、虛擬團隊合作以及與ChatGPT之間的多輪次對話等。總體而言,主要分為兩類:其一是指自然場景下學生日常生活實踐中業已存在的表現性評價任務(指向自然式評價工具),其二是基于評價需要而專門研發的新型表現性評價任務(指向預設式評價工具)。
5.設計數據埋點。基于大數據思維下的教育評價改革方法論,科學設計學生參與表現性任務時所需記錄的多模態時序表現性數據(包括關于受測者自身各方面信息及其周圍測評場景的全方位多模態數據)及其相關采集工具,以確保數據采集的全面性、系統性和適宜性。
6.制定評價規則。結合學生的活動表現和素質內容的測評框架,并基于證據中心設計理論,制定從復雜數據中抽取證據的評價規則,以確保數據分析的科學性和客觀性:其一是依據活動表現數據與素質內容之間的關聯規則編寫算法程序,其二是采用數學統計模型進行數據特征提取或關鍵模式識別[19]。
7.封裝評價工具。基于前述六步的階段性成果,整合聚焦于素質內容的測評框架、評價任務、數據埋點和評價規則等,以支持研發數據采集、存儲和分析等引擎,并形成基于信息技術的完整表現性評價工具體系和系統平臺,最終實現集任務呈現、表現采集、數據分析于一體的便捷化、科學化和智能化評價潛能。
針對基于信息技術的表現性評價在學生綜合素質評價改革中的實踐應用,教育部信息技術支撐學生綜合素質評價試點工作組已依托學生綜合評價與發展平臺(Student Evaluation Enhancing Development Platform,簡稱Seed)對其進行了初步探索。接下來本文將從試點工作中各選取一個預設式和自然式評價工具(分別是“協作問題解決”和“語言表達能力”測評工具)作為案例樣本,以具體闡述基于信息技術的表現性評價助推學生綜合素質評價改革的應用案例。
(一)預設式評價工具的研發案例
1.明晰評價目標:由“交往合作”和“問題解決”兩個基本要點融合而成的協作問題解決(Collaborative Problem Solving,CPS)能力,即個體有效參與兩個及兩個以上代理問題解決過程的能力。依據“國際學生評估項目”(Programme for International Student Assessment,PISA)項目中的測評框架,該能力可細化為三類協作能力(即建立和維持共同理解、采用合適行動解決問題、建立和維持團隊組織)與四類問題解決過程(即探索與理解、表征與形成、計劃與執行、監控與反思)交叉而形成的12種子能力[20]。
2.確定評價標準。依據學生在CPS活動中的表現,CPS能力的評價標準分為低、中、高三個等級,可參考文獻[21]。
3.設定評價工具類型。基于大規模跨學段測評需求以及現有CPS能力測評理論與實踐進展,設定預設式交互性評價(包括基于游戲的測評、基于仿真的測評等)作為CPS測評工具類型,即基于人機協作模式(“1人+若干個(機器)代理”,模擬真實任務場景)的CPS能力評價工具。這主要是因為考慮到,學生的CPS能力表現極易受到同伴表現等環境因素的影響。基于代理反饋腳本預先定義虛擬同伴表現,能夠有效削弱差異化同伴對個體表現的影響,因此可確保百萬級學生在該工具上的表現等值性。
4.研發評價任務。參考PISA的“人-機協作”模式[22]以及“21世紀技能評價與教學”項目(Assessment Teaching of 21st Century Skills)的“橄欖油”任務[23],并結合我國廣大中小學生的日常生活實踐,研發基于計算機的三人(“1人+2個代理”)協作倒水任務(包括任務狀態腳本,用于界定每個任務狀態時的計算機界面內容;會話選項腳本,用于制定學生在每一輪會話時的可選選項內容;代理反饋腳本,用于指定學生在完成特定操作后所接收到的反饋內容)。在計算機前端界面中,左側是“會話區”,學生可通過選擇預定義會話選項和代理討論任務目標、澄清自身資源和交流行動步驟等;右側是“任務區”,學生可操作自身水杯向兩個代理的水杯倒水。當學生開展不同的操作時,代理會根據預定義腳本給予不同的反饋內容。
5.設計數據埋點。擬通過日志記錄法采集下列數據:時間戳、行動發起人、行動類型(若為“倒水”,則進一步記錄“倒水發起人”和“倒水接收人”;若為“會話”,則進一步記錄預定義會話選項、計算機反饋內容)。
6.制定評價規則。首先,建立每個任務狀態時學生特定操作類型(包括“倒水給特定同伴”和“選擇特定選項”)與CPS子能力之間的映射關系。例如,當學生按照協商結果正確倒水給其他同伴時,則記錄學生在“遵循參與規則(由“建立和維持團隊組織”和“計劃與執行”交叉形成)”這一子能力上得“1”分。然后,匯總學生在所有CPS子能力上的得分;借鑒ATC21S項目采用的閾值法,依據頻次分布情況將子能力原始分轉化為0、1、2三個等級。最后,依據多維項目反應理論計算學生的CPS能力水平。
7.封裝評價工具。整合前述測評框架、評價任務、數據埋點和評價規則等,構建基于計算機的CPS能力測評工具體系,然后將其嵌入到Seed中。
(二)自然式評價工具的研發案例
1.明晰評價目標。“語言表達”基本要點,即個體在交流環境中能夠準確、流暢、清晰地進行口頭與書面表達的能力,包含詞匯和語法正確性、語言流暢度和表達準確性三個維度。本案例將聚焦于書面語言表達能力。
2.確定評價標準。從上述三個維度出發,分別構建相應的評價標準。以詞匯和語言正確性為例,該維度的評價標準分為優、良、中、低四個等級。“優”表示學生在表達上詞匯豐富且語法復雜多變;“良”表示學生能夠偶爾運用較高級詞匯,使用一些較復雜的句式;“中”表示學生能夠運用正確語法和恰當詞匯,很少出現表達錯誤;“低”表示學生在表達上詞匯貧乏、句式單調,且出現大量書寫錯誤。
3.設定評價工具類型。鑒于現有書面語言表達能力研究的理論與實踐進展,設定自然式評價作為書面語言表達能力測評的工具類型,即基于自然場景的非侵入性評價工具。這主要是因為考慮到,書面寫作已成為我國中小學生日常學習活動的必備組成部分,因此可直接選擇相關活動作為書面語言表達能力的評價工具類型。
4.研發評價任務。結合書面語言表達能力測評的研究進展、教育信息化數據的可得性以及自然語言處理技術的發展現狀,選定教育信息化平臺中存儲的學生作文文件作為書面語言表達能力測評數據源,相應的評價任務則為學生在自然場景下參與的日常寫作任務。然后,研發教育信息化平臺與Seed之間的數據接口,以實現作文文件的傳輸與共享。此外,針對部分難以通過教育信息化渠道獲取作文數據的試點區域,號召區域內各學校語文教師引導學生主動將日常作文文件記錄在Seed中。
5.設計數據埋點。學生作文文件中的作文數據通常表現為文本或圖片格式;對于圖片格式的作文數據,可利用圖像識別技術來檢測其中的文本內容。
6.制定評價規則。首先利用錯字檢查器、語法檢查器、詞性標記器和句式標記器等自然語言處理工具來統計計算作文中的文字差錯率、語法錯誤率、詞性分布率和句式分布率等指標,然后基于專家評定法和閾值法將各維度數據指標轉化為具有等級意義的分值(0至5)。
7.封裝評價工具。整合前述測評框架、評價任務、數據埋點和評價規則等,構建基于計算機的書面語言表達能力測評工具體系,然后將其嵌入到Seed中。
基于信息技術的表現性評價助推學生綜合素質評價改革的價值旨歸是借助信息技術變革學生綜合素質評價的流程、手段和應用等,促進評價的表現性、客觀性和智能性,進而服務于素質教育創新發展和立德樹人教育根本任務落地實施。借助系統思維的方法指導,參考評價構成的基本要素和評價工具設計的現實需求分析,我們認為應該從情境創設、技術應用、結果輸出和質量保證四個方面來推進學生綜合素質評價改革的進一步探索。
(一)立足學生實際,提升情境創設的真實性
相比傳統教育評價方法,基于信息技術的表現性評價重在依托真實問題或任務情境來誘發學生的相關復雜表現,然后據此對學生的相關素質做出科學評價。因此,評價情境的真實性很大程度上決定了評價結果的準確性和科學性。未來學生綜合素質評價研究與實踐亟需立足學生學習、生活與成長實際,以切實提升情境創設的真實性。一是要準確理解義務教育課程方案、課程標準以及學生發展質量評價指南,厘清其與中小學生綜合素質評價中各細化成分之間的深度關聯與學習情境依存性,從而助力創設高度符合學生學習實際的真實情境。二是要透徹把握中小學生在學校、家庭、社區和場館四類場域的日常活動特點,解析相關活動表現與中小學生綜合素質評價中各細化成分之間的潛在映射關系,以支持創設高度符合學生生活實際的真實情境。三是要堅持遵循中小學生身心發展的客觀規律,充分考慮不同年齡學生身心發育特征和認知水平,以支撐創設高度符合學生成長實際的真實情境。
(二)踐行雙向驅動,優化技術應用的適配性
毋庸置疑,無論是單一地從評價工具設計理論出發,還是單一地從信息技術出發,學生綜合素質評價實踐都會誤入理論與技術之間的錯配“歧途”。因此,亟順通過理論與技術的雙向驅動以及基于信息技術的表現性評價設計流程的閉環反饋和多輪迭代,以優化技術應用的適配性。首先,基于最新評價設計理論并遵循評價工具設計流程,初擬評價工具的任務場景、數據埋點和評價規則等,形成原始工具體系。然后,逐一考察最新信息技術對于原始工具體系各細化成分的支撐程度;對于現有信息技術難以支撐或支撐不夠的細化成分,需要結合技術成熟度以及各細化成分之間的關聯性,通過多輪迭代對其進行迭代設計與調整。最后,遍歷基于信息技術的表現性評價設計全流程,重新梳理整個評價工具設計活動,厘定各設計流程的具體內容,最終形成理論與技術達成良好適配的正式評價工具體系。
(三)豐富數據模態,驅動結果輸出的準確性
基于信息技術的表現性評價區別于傳統教育評價的一大顯著標志是數據采集的立體性,即依托于過程性數據的學生過去、現在與未來表現的高度關聯性。對此,亟需采集多模態數據信息,獲取更為接近學生真實表現的全息數據,從而驅動結果輸出的準確性。一是在評價任務設計時,需要精心設計復雜度適中且能有效誘發學生面部表情、肢體動作、口頭語言、寫作文本等復雜表現的表現性任務,從而驅動視頻、圖片、文本和聲音等多模態數據的持續產生。二是在評價數據采集時,可綜合利用平臺采集(如網絡爬蟲采集技術)、視頻錄制(如智能錄播技術)、圖像識別(如網評網閱技術)和物聯感知(如可穿戴技術)等多種數據采集手段來全面采集學生的復雜表現數據。三是在評價數據分析時,可依據實際需求選擇適宜的多模態數據融合方法(包括早期融合、晚期融合和混合融合三種),以有效整合來自多個模態的復雜信息。
(四)健全評價方法,增強質量保證的全面性
可信且有效是衡量綜合素質評價結果的黃金標準,因此在研發基于信息技術的表現性評價工具時,亟需妥善解決針對其的精準評價問題。參照“戴爾經驗之塔”對數字化學習工具評價維度的分類框架[24],本文認為需要從技術支持、功能保障和教育應用三個層面來豐富和優化相關評價工具,增強質量保證的全面性。第一,在技術支持層面,需要充分考慮評價工具的系統性能、可訪問性和移動設計三個方面。系統性能重在關注可拓展性、兼容性和技術更新速度,可訪問性重在關注多樣化需求滿足度、非常規教學設備需求度,移動設計重在關注學生可訪問性、功能適配性和離線訪問性。第二,在功能保障層面,需要充分考慮評價工具的用戶體驗和數據安全兩個方面。用戶體驗包含應用規模、易用性、可用性和超媒體性四個子方面;數據安全則主要關注能否在數據開放共享的同時切實保護學生隱私。第三,在教育應用層面,需要充分考慮評價工具能否支持學生高效參與相關評價活動。
學生綜合素質評價是拔尖創新人才培養的關鍵著力點,是素質教育縱深發展的核心支撐,是深化新時代基礎教育評價改革的重要窗口。然而,現有學生綜合素質評價實踐普遍存在“有指標缺工具”的現實難題,導致最終難以達成立德樹人教育根本任務落實的美好期待。因此,利用基于信息技術的表現性評價助推學生綜合素質評價改革將是未來基礎教育創新發展的重要工作。各級政府、科研機構、企業和學校等教育利益相關單位應加強協同合作,以基于信息技術的表現性評價為指導思想,大力推動最新信息技術(如全息投影、增強現實、教育大數據等)在表現性評價研發中的融合創新,并將相關工具產品創新性應用于學生綜合素質評價實踐。但需要強調的是,傳統教育評價方法仍能為學生綜合素質評價提供獨特價值,因此可成為基于信息技術的表現性評價的良好補充。唯有將二者進行融合互補,綜合素質評價才能真正實現其教育價值,進而為基礎教育高質量發展和教育強國建設做出應有貢獻。
參考文獻:
[1] 劉志軍,徐彬.綜合素質評價:破除“唯分數”評價的關鍵與路徑[J].教育研究,2020,41(2):91-100.
[2] 魏晶,賈曦等.以促進發展為目標的大學生綜合素質評價——第二課堂成績單建設理念與實踐[J].中國電化教育,2018,(9):132-137.
[3] 張志勇,楊玉春.綜合評價是考試招生制度改革的根本方向[J].中國考試,2020,(8):11-15.
[4] 陳麗.智能技術支撐學生綜合素質評價:改革與創新[J].現代教育技術,2023,33(12):5-13.
[5] 鄭勤華,陳麗等.基于信息技術的表現性評價:內涵、作用點與發展路向[J].中國電化教育,2023,(3):55-61.
[6] 張志禎,齊文鑫.教育評價中的信息技術應用:賦能、挑戰與對策[J].中國遠程教育,2021,(3):1-11.
[7] 新華社.中共中央 國務院印發《深化新時代教育評價改革總體方案》[EB/OL].http://www.gov.cn/zhengce/2020-10/13/content_5551032. htm,2020-10-13.
[8] 教育部辦公廳.教育部辦公廳關于開展信息技術支撐學生綜合素質評價試點工作的通知[EB/OL].http://www.moe.gov.cn/srcsite/A16/ s3342/202211/t20221118_995825.html,2022-11-15.
[9][19] 袁建林,劉紅云.核心素養測量:理論依據與實踐指向[J].教育研究,2017,38(7):21-28.
[10] 柴喚友,陳麗等.技術賦能學生綜合素質評價:進展、挑戰與路向[J].現代遠程教育研究,2023,35(3):40-46.
[11] 張志華,王麗等.大數據賦能新時代教育評價轉型:技術邏輯、現實困境與實現路徑[J].電化教育研究,2022,43(5):33-39.
[12] 王懷波,鄭勤華等.教育領域學生隊列資源的價值、框架與挑戰[J].現代教育技術,2023,33(6):54-63.
[13] 張志松.綜合素質評價的實踐難題與改進策略[J].浙江師范大學學報(社會科學版),2016,41(3):107-110.
[14] 柴喚友,陳麗等.學生綜合評價研究新趨向:從綜合素質、核心素養到綜合素養[J].中國電化教育,2022,(3):36-43.
[15] 王懷波,柴喚友等.智能技術賦能學生綜合素養評價:框架設計與實施路徑[J].中國電化教育,2022,(8):16-23.
[16][18] 柴喚友,鄭勤華等.基于信息技術的表現性評價:概念解析、構成要素及分類框架[J].中國電化教育,2024,(2):1-7.
[17] 鄭勤華,陳麗等.理論與技術雙向驅動的學生綜合素養評價新范式[J].中國電化教育,2022,(4):56-63.
[20][22] OECD O F E C.PISA 2015 results (volume V):Collaborative problem solving [M].Paris:OECD Publishing,2017.131-188.
[21] 檀慧玲,李文燕等.國際教育評價項目合作問題解決能力測評:指標框架、評價標準及技術分析[J].電化教育研究,2018,39(9):123-128.
[23] Scoular C,Care E,et al.Designs for Operationalizing Collaborative Problem Solving for Automated Assessment [J].Journal of educational measurement,2017,54(1):12-35.
[24] 趙慧臣,張雨欣等.人工智能時代數字化學習工具評價模型的建構與應用建議[J].中國電化教育,2021,(8):85-91+125.
作者簡介:
陳麗:教授,博士,博士生導師,研究方向為“互聯網+教育”、終身教育、教育大數據。
柴喚友:助理研究員,博士,研究方向為智能教育測評、學習分析、教育心理學。
胡天慧:講師,博士,研究方向為學習分析、在線教育。
Reforming Students’ Comprehensive Quality Evaluation Through Performance Assessment Based on Information Technology: Practical Significances, Internal Mechanisms, and Design Applications
Chen Li1, Chai Huanyou2, Hu Tianhui3
1.The Research Center of Distance Education, Beijing Normal University, Beijing 100875 2.Faculty of Artificial Intelligence in Education, Central China Normal University, Wuhan 430079, Hubei 3.Collaborative Innovation Center for K-12 Educational Digitalization in Hubei Province, Hubei University of Education, Wuhan 430205, Hubei
Abstract: Performance assessment based on information technology (PAIT) can provide important theoretical and practical guidance for reforming students’ comprehensive quality evaluation (SCQE), and help crack the “stuck neck” problem of “available indicators but without assessment tools”. However, it remains to be discussed “what”, “why” and “how” PAIT promotes reforming SCQE. This paper first discusses PAIT’s practical significances for promoting SCQE’s reform from four aspects: new mode, technology, support, and service. It analyzes PAIT’s internal mechanism to promote SCQE’s reform from four aspects: same goal, content, idea, and method. Then, this paper analyzes the design principle and process of PAIT in reforming SCQE, and expounds its specific application by taking assessments of collaborative problem-solving skills and language expression as examples, respectively. Finally, this paper points out the development suggestions of promoting SCQE’s reform by PAIT from four dimensions: direction, theory, practice, and quality.
Keywords: students’ comprehensive quality evaluation; performance assessment; information technology; growth tracing
收稿日期:2024年9月7日
責任編輯:李雅瑄