教育評價事關教育改革與發展的方向,是教育發展的“指揮棒”。當大數據、人工智能牽手教育評價,教育評價將邁入“智慧評價”的新階段。
近年來,區域智慧教育建設的興起,也極大地促進了區域“智慧評價”的發展。以評價為驅動,可以充分發揮人工智能、大數據等新技術的作用,通過“以評促建”,用數據說話,用數據決策,打造區域智慧教育的全新生態。
在一個區域內開展智慧評價,因其樣本量的優勢,可以較為全面、充分地挖掘數據背后的深層含義,同時,用數據“反哺”學校、教師、學生,以評價引領發展,讓智慧評價的效力得以充分發揮。
區域層面的智慧評價可以全面賦能學校教育改革。以多年連續的區域教育大數據為依托,使區域內各學校形成完整的數據鏈條,學校整體的發展數據將涵蓋教育、教學、課程、德育、管理、培訓等各個領域,有助于各學校展開橫向、縱向的全面比較與分析,客觀認識自己,找準發展方向。
區域層面的智慧評價可以有力促進學生全面發展。智慧評價不再僅僅聚焦學生的學業成績,而是將視角拓展到德智體美勞各個方面,通過完善的評價指標的確立,引導智慧評價關注學生的五育并舉、全面發展,在此基礎上針對每個學生的個性化數據能夠準確描繪出學生成長的“數字畫像”,助力形成對應的“一生一策”發展路徑。
區域層面的智慧評價還可以有效完善區域教育治理。通過區域大數據的匯聚、分析、統籌,讓教育數據成為區域教育決策形成過程中的有力依據,進而推動區域教育管理部門的治理能力現代化進程。同時,智慧評價應用于具體的熱點領域,可以進一步探索和挖掘諸如雙減、考試、教育公平與均衡等問題背后的深層次因素,對于完善區域教育治理及總結教育治理經驗、規律具有重要意義。
當前,越來越多的地區開始嘗試以智慧評價為引領,以評價數據為底座,全面打造區域教育的智慧環境與生態,實現區域、學校、教師、學生的全方位發展,教育、教學、管理的整體化提升。在區域智慧評價實踐方面,湖南省長沙市歷經十年的探索,相關成果榮獲2022年基礎教育國家級教學成果獎一等獎。本期對話,我們邀請北京市東城區教育科學研究院研修員魏寧與長沙市教育科學研究院教育質量監測與評估中心鄒良主任對話,一起探討有關區域智慧評價的話題。
區域智慧評價如何實施:經驗與做法
魏寧:當今的教育評價不論在理論上還是實踐上都有了長足的發展,也呈現出了豐富的樣態。從評價實施主體看,既有教師在課堂上針對學生表現進行的個體評價,也有以學校為單位對本校教師、學生開展的群體評價,更有從國家到地區由教育評價專業部門主導的教育質量綜合評價。而后者對于引導一個地區的學校樹立科學的教育質量觀,轉變不健康的教育傾向,從而營造良好的育人環境,推動區域教育高質量發展具有不可替代的作用。
從另一個角度看,如果把針對學生個體、學校群體的評價和區域總體評價對比來看,顯然,區域教育質量綜合評價因其樣本數量大、具有連續性等特征,尤其能夠發揮出大數據、人工智能等新技術的作用,形成某個地區的教育大數據,讓評價結論更有說服力、指導實踐更具效力。既能為區域內的教育決策科學化提供數據支撐,又能為每所學校、教師、學生的發展提供建設性依據,從而形成真正意義上的區域智慧評價。
鄒良:是的,長沙市嘗試的區域智慧評價,其目標就是著力構建學生進步、教師成長和學校發展的綜合評價體系,積極探索“從入口看出口,從起點看變化”的增值評價方式,努力打造以現代信息技術為支撐的智慧評價平臺,為學生成長、教師成長、學校發展數據畫像,切實運用基于大數據科學分析評估形成的診斷評價結果。
通過十年的摸索、改進,對于大數據、人工智能等新技術支撐下的區域教育質量評價,也就是人們常說的區域智慧評價,我們在實踐中積累了一定的經驗,探索了一條實施路徑,同時對智慧評價也有了更深入的理解。
魏寧:在區域教育質量綜合評價的實踐中,要想發揮出技術的重要支撐作用,做好智慧評價,您覺得有哪些重要的、有效的做法?
鄒良:區域教育質量綜合評價的開展是一個系統工程,根據我們多年來的實踐經驗,在區域教育質量綜合評價的實踐中,要想讓智慧評價很好地落地,以下七個方面是成功的關鍵。
以評價為驅動,可以充分發揮人工智能、大數據等新技術的作用,通過“以評促建”,用數據說話、用數據決策,打造區域智慧教育的全新生態。
第一,在具體實踐過程中,我們依據《義務教育質量評價指南》《普通高中學校辦學質量評價指南》《義務教育課程標準》,結合長沙市實際情況,構建了學生成長、教師成長和學校發展三大維度,包含12項一級指標、37項二級指標、106項三級指標的“結構化”綜合評價指標體系。每年基于一級、二級指標不變,三級指標微調的原則,根據當年教育改革需要,聚焦教育領域熱點難點,結合教育發展現狀設立評價專題。例如,2016年新增家庭教育方式狀況專題,2017年新增學生參與課外培訓專題,2018年新增學生學習策略、閱讀狀況專題,2019年新增學生視力、智慧教育推進狀況、勞動教育專題,2020年新增學生心理健康、師生信息素養、作業設計專題,2021年新增“雙減”、體育素養、家庭教育、心理健康專題,2022年新增智慧體育專題、將增值評價由過去聚焦學業質量增值延展至體質健康增值評價,2023年將聚焦教師評價素養、校長“數智力”專題。通過逐年動態調整的方式,構建起了長沙市立體多元、與時俱進、德智體美勞全覆蓋的中小學教育質量綜合評價體系。
第二,研制可靠有效的測評工具。我們組建了由高校專家、名校長、骨干教師組成的命題專家庫,運用PISA技術自主研制初一入學分班考試、中考、學考試題,并自主研制了初、高中教育質量綜合評價測評問卷(包括學生卷、教師卷、家長卷),測評問卷逐年修訂完善,年更新率達50%以上。同時,開展了試測檢驗、篩選及測評工具信度、效度分析。在操作流程上,我們每年都會在專家組命制好測評問卷后,選取有代表性的學校進行監測預試,預試結束后進行信效度分析,形成信效度分析報告,完善問題情境和答案選項,確保問題真實可靠,確保開發的問卷信度、效度達到測量學要求,能夠真正考查學生的核心素養和關鍵能力。
第三,研發數據互聯的評價系統。長沙市教科院教育質量綜合評價團隊依托長沙智慧教育云平臺,建設區域大數據決策指揮中心和智慧教育云應用中心,建立多維度、全方位的教育評價數據庫,構建起用實證數據進行有效驗證和系統挖掘的評價模式。例如,教育質量綜合評價測評數據、學生綜合素質評價數據、學生體質健康現場監測數據、教育督導調研數據、國家義務教育質量監測數據……通過網絡學習空間,將綜合素質評價、綜合實踐活動、教育質量綜合評價、體質健康管理、中小學在線學習中心、在線問卷調查等系統融合起來,實行統一用戶、統一認證、統一應用、統一權限,以方便區域內學校、教師使用。從而實現市級平臺單點登錄及教育、教學、管理、評價、服務各類數據的互聯互通,打破數據孤島,實現教育質量綜合評價的過程化、信息化和常態化,這對于師生在線全樣本測評的可持續性是非常關鍵的。
第四,建構智能分析的評價模型。按照增值評價理念來建構增值評價模型,通過人工智能和大數據技術的運用,建構K均值聚類法、多層線性模型,綜合分析學生進步、教師成長、學校管理及其影響因素,診斷問題、分析原因、指導改進,并按照預先定義好的報告模板系統生成評價報告,實現全流程智能化實施。
第五,開發直觀可視的評價地圖。在長沙市教育質量綜合評價的實踐過程中,我們開發了“評價數據地圖”,分市、區縣(市)兩級多方面呈現教育質量綜合評價指標的測評結果及綜合分析結論,通過圖表、文字、動畫等多種形式更直觀地顯示不同區縣、不同指標發展的狀況及差異,實現了對全市教育質量綜合評價數據的在線監控,發揮了教育評價服務教育決策的價值,為學校改進教育教學、為政府教育決策提供了科學、動態的依據。
第六,定期發布精準診斷的評價報告。我們在每年的七八月份,會向社會定期發布評價報告,包括專題報告、區縣報告、學校報告和發布版報告。市級報告呈現全市教育質量整體狀況;區縣報告呈現區縣教育質量總體狀況,為區教育局、教研室優化教育教學提供決策發布和改進建議;校級報告為學校提供指標發展的微觀數據,深挖學校發展優勢與短板,為學校找差距、補短板;發布版報告以簡明易懂的方式向社會發布評價結果,以實證數據實現了對教育經驗的有效驗證和挖掘拓展,力求實現報告生成自動化、結果可視化、數據呈現一體化,以充分、直觀地揭示長沙教育經驗背后的內在規律。
第七,優化教育生態的結果應用。為提高評價報告的使用效力,我們每年會面向各級教研部門、學校、教師分層解讀報告,為區縣、學校精準把脈,明優勢、找差距、補短板、強弱項,形成評價數據驅動教育教學改進、教育決策優化的良性循環圈,以教育質量評價大數據的科學應用助推教育公平發展和質量提升。同時,我們還發布全市“學業增值+能力素質”排名靠前的學校,切實解決因教育起點不同帶來的評價不公的難題,激發不同生源、不同類型學校的辦學積極性。此外,注重評價對健康的社會輿論的引領,讓好學校的定義在老百姓心中發生了變化,讓家長逐漸意識到基于孩子的基礎、興趣等選擇合適的教育才是最好的教育。最終扭轉單純以學生學業考試成績和學校升學率評價教育質量的不良傾向,在全市營造出良好的教育發展生態。
除此以外,我們認為,立足本土,打造一支由教育行政人員、科研院所教研人員、校長及一線骨干教師組成的專兼結合的高質量、多層次工作團隊,是區域智慧評價有效開展的基礎性條件,對于將要開展相關實踐的地區是必須未雨綢繆的。
區域教育質量綜合評價因其樣本數量大、具有連續性等特征,尤其能夠發揮出大數據、人工智能等新技術的作用,形成某個地區的教育大數據,讓評價結論更有說服力、指導實踐更具效力。
魏寧:剛才您提到區域教育評價實踐中的七個做法,具有非常強的可操作性,相信對于做好智慧評價有著很好的借鑒作用。其中,您提到了創新性的“評價數據地圖”,它能以怎樣的方式呈現評價數據呢?
鄒良:“評價數據地圖”是我們在區域智慧評價中的一項創新性探索,過去幾年中已經從1.0版到3.0版,進行了迭代升級。借助評價數據地圖,可以突破傳統紙質評價報告的信息邊界,采用直觀圖表、動畫等形式,動態、可視化地呈現區域內普通中學綜合評價情況、典型學校情況,清晰展現出學生成長及學校發展軌跡、閃光點和努力方向,信息量大,可視性強。最新的3.0版“評價數據地圖”新增了交互應用功能,動態聚焦學校發展,多維場景展示評價結果,實用性高,實現了線上線下同步監控、分析全市教育質量發展狀況,助推了區域教育數字化轉型。
教育大數據的有力呈現,推動了教育決策的科學化,讓數據服務教育決策成為可能,繼而通過教育決策的調整,推進區域教育科學、健康發展。
魏寧:從長沙市開展的上述教育評價實踐可以看出,通過技術支持下的智慧評價,為學校提供了豐富的、立體的數據。但評價畢竟是一個相對專業的領域,對評價數據的解讀、借助評價所發現的問題設計改進方案,都需要一定的數據分析能力。如何讓如此大信息量的數據發揮出應有的作用,切實改進學校教育教學,讓數據能為學校所用,長沙市在這方面有哪些有效的舉措?
鄒良:評價報告的發布并不是區域智慧評價的終點,只有當評價報告中的診斷數據能轉化為學校的教育教學改進行為時,評價才真正起到支撐、驅動的作用。為此,在長沙市的教育評價實踐中,我們嘗試培育“數據分析師”,打造“數智行動”。我們遴選了3個市級評價結果應用實驗區、35所實驗校,打造市區校三級應用聯盟,發揮評價數據效用,落地區域評價數字化轉型。主要目的不在于簡單地評判某所學校辦學質量的高低,而在于幫助學校發現問題、診斷問題、指導改進,針對評價中發現的問題,要高度重視,深入分析研究,拿出有針對性、可行性的解決辦法,從辦學理念、校園文化、教育教學、現代治理等方面,全面提升學校辦學水平。
我們堅持指導、督促各學校用好評價結果,充分發揮評價大數據的價值,聚焦學校管理、教師教學、學生發展,推進結果應用“數智行動”走向深入,以評價改革為牽引,全面深化教育綜合改革,形成系統育人、生態育人的新局面。同時,督促各區縣(市)教育局切實抓好評價報告的解讀,深度挖掘評價大數據,扎實做好橫向對比和縱向分析;既要肯定成績、找出規律、樹立典型,也要找準問題癥結、分析原因、督促改進,引導學校持續健康發展。
未來,我們將繼續強化綜合評價報告解讀,注重“評價數據分析師”的培育,打破圍墻邊界,打破區域邊界,學習借鑒全國做得好的評價改革經驗,聯合各地建立高水平的市、區、校三級聯動評價隊伍,真正發揮評價數據效用,打造一批教育質量綜合評價結果應用示范區、示范校,積累一批區縣(市)、校評價實施及結果應用的鮮活經驗及典型案例,發揮輻射引領作用。
魏寧:一個區域的智慧評價,涉及大量的學校、教師、學生的真實數據,怎樣才能做好數據管理,維護數據安全呢?
鄒良:因為區域智慧評價涉及的數據量大,隱私性強,所以數據的有效管理、安全維護是在一開始就必須考慮好的頂層設計問題。
在數據管理方面,我們使用智能算法對區域教育質量增值評價大數據倉中的殘缺數據、錯誤數據和重復數據進行檢測與清理,確保數據進入分析前是有效的。設置校驗規則再次校驗清理結果,如果出現清理結果與預期不相符,系統會及時彈窗提醒。綜合評價大數據經分類整理、分級儲存、分層呈現、分權調取,實現了縱向全過程、橫向全要素一體化呈現,奠定評價數據多元化交叉分析及管理溯源的基礎。
在數據安全方面,我們不斷優化評價系統安全維護,設置數據分類、調取權限、訪問控制,并通過數據備份、加密、脫敏等數據庫安全手段降低評價數據泄露、損失的風險,有效保障了學生成績、家庭背景等隱私信息的安全。
深化新時代教育評價改革,就是以教育信息化、數字化為支撐的重要變革。
魏寧:通過十年來借助大數據、人工智能等新技術,開展區域智慧評價方面的探索,您覺得信息技術為區域教育高質量發展起到了怎樣的推動作用?
鄒良:通過十年的堅持探索,基于大數據、人工智能技術的智慧評價的成效逐漸顯現。我認為,智慧評價在以下方面發揮了重要的作用。
首先,通過持續跟蹤的大數據分析,使得教育規律得以顯現,推動了育人理念的更新。我們從學生進步、教師成長、學校發展三個維度開展的綜合觀測評價,既關注學業增值,又關注相關因素,同時以體質健康、勞動教育等專題視角,引領社會樹立科學全面的教育質量觀。而通過年復一年的大數據積累與分析,對教育教學中存在的問題進行診斷,對教育規律展開深入探尋,使得智慧評價結論更具說服力,引導了育人理念的正確方向。例如,近兩年通過長沙市的智慧評價,我們發現“參加校內課外活動有助于減輕學習壓力,提升課業質量,提高學業成績”“親子關系對初中學生學業影響較大,師生關系對高中學生學業影響較大”“家庭作業時間過長可導致學生學習興趣下降、課業質量降低”“充足的睡眠和鍛煉有利于降低學生視力不良檢出率”等重要結論,這些經由教育大數據挖掘出來的結論,有著較強的說服力,很好地發揮了評價對新時代教育理念的正向引領作用。與此同時,教育大數據的長年積累,也有利于歷年數據的比較分析,能從已有數據中挖掘教育規律,不給學生添加額外負擔。
其次,教育大數據的有力呈現,推動了教育決策的科學化,讓數據服務教育決策成為可能,繼而通過教育決策的調整,推進區域教育科學、健康發展。教育評價的重要功能是診斷,評價的目的在于引領教育教學科學發展,通過對關鍵性指標的診斷,引導區域、學校關注數據背后的價值,找尋教育發展規律,診斷教育發展問題,為區域教育行政部門和學校教育決策與管理提供科學依據。在我們開展區域教育質量評價的十年中,我們始終堅持服務教育決策,回應社會關切,通過“教育綜合評價+專題評價”的方式,充分發揮大數據評價的引導、診斷、改進、激勵功能,助推教育決策從“經驗判斷”走向“數據舉證”,實現了教育決策的科學化、精準化。例如,2016年,我們通過教育質量評價,發現區域內學生睡眠時間少的問題,隨后將城區小學生每天早上上課時間調整到8:30,讓學生能有更充足的睡眠時間;2018年,我們關注到學業負擔重的問題,隨后區域推出了系列減負舉措;2019年,我們對比分析了智慧課堂教學對視力及學業的影響,堅定了區域推進智慧教育的信心;2020年,我們發現學生勞動習慣有待加強,隨后發布了勞動教育狀況評價指標體系。與此同時,我們還針對學生閱讀、體質健康、勞動教育、特色辦學等教育改革重點問題開展了專題評價,讓數據說話,利用大數據分析為決策服務,教育決策的科學化、精準化激發了長沙市教育改革發展的新動能,助推了區域教育高質量發展。
大數據、人工智能等新技術的出現,較好地解決了傳統教育評價模式下難以解決的諸多難題,真正形成了智慧評價的有效途徑。
魏寧:剛才我們談了區域智慧評價中很多有益的經驗,通過十年來的實踐探索,面對大數據、人工智能等新技術對教育的沖擊,您認為,從技術角度來看,新技術給當前的教育評價帶來了怎樣的影響?具體到實踐層面,又給區域智慧評價帶來了哪些變化?
鄒良:我們說深化新時代教育評價改革,就是以教育信息化、數字化為支撐的重要變革。大數據、人工智能等新技術的出現,較好地解決了傳統教育評價模式下難以解決的諸多難題,真正形成了智慧評價的有效途徑。通過對評價工具的積極創新,教育評價的科學性、專業性、客觀性得以不斷提升。
具體到技術層面,人工智能技術在教育領域曾引發多次浪潮,當前正處于從弱人工智能向通用人工智能邁進的時期。從技術角度講,教育評價算法模型在過去的十年中進行了四次迭代,我們的評價團隊按照增值評價、過程評價等理念,先后探索并運用了K均值聚類、多元回歸、多層線性、多水平SGP等增值評價模型,科學的模型保證了算法的數據準確性,使區域智慧評價得以精準量化學生學業成長、教師教學效能、學校發展增量。
例如,優化增值評價模型,當前多水平線性分位數回歸模型的應用,契合了新高考選科模式下的評價數據特點,在一定程度上克服了評價中的天花板效應,確保了評價結果更加客觀公正。
又如,建立歸因分析模型,實現循證診斷。綜合運用多元線性回歸模型、聚類分析模型、結構方程模型、中介分析模型、調節效應模型、潛在剖面分析模型等統計方法,探討“增值和相關因素”“相關因素之間”復雜的相互作用關系,尋找現象背后的原因,探索教育背后的規律,為有針對性地改進教育教學提供了參考和依據。
在區域智慧評價實踐中,教育評價大數據系統架構歷經了從信息化時代到數字化時代再到智能化時代的轉型升級,新的架構體系包括基礎設施層、能力聚合層、數據采集層、數據分析層和數據展示層。在數據采集和分析的過程中引入了實時計算和機器學習能力,實現了對數據的實時智能化挖掘。評價數據地圖3.0版本實現了過程性數據匯聚、學業成績分析、區縣校指標比較分析以及學校畫像等功能,為教育評價提供了更全面和精準的數據分析和可視化展示。
由上面這些評價技術的演進可以看出,以大數據、人工智能為代表的新技術給教育評價帶來了革命性的變化,以上這些變化也體現了我們十年來的區域智慧評價實踐,實實在在推動了區域教育質量評價隨時代不斷發展、升級。
魏寧:當前,我國已進入教育數字化轉型的關鍵時期,教育評價也面臨著數字化轉型的重任,您認為,大數據、人工智能等新技術能為教育評價的數字化轉型帶來哪些新的變革呢?
鄒良:教育評價的數字化轉型是當前評價研究的熱點。我們迫切需要建立能夠促進教育健康發展,促進學生全面發展,使學生具有適應未來的綜合素養的科學的教育評價體系。大數據、人工智能等新技術為教育評價的數字化轉型帶來了新的可能,如相對于傳統的機器學習算法,多層神經網絡就具有很強的非線性表達能力,在訓練和測試中的計算并行性非常好,在很多領域都表現出更強的性能。我們也正在探索將多層神經網絡等深度學習模型應用于教育評價,通過對學業與相關因素等特征進行建模,完成分類和預測任務。此外,人工智能大模型的運用,可以對智能化測評與診斷、交互式報告生成、研發輔助工具等進行重構。
在實踐中,利用人工智能、大數據等技術優勢創新評價工具、攻關核心技術、優化評價管理、提升評價質量、拓展結果應用,有效破除評價“指標細化難、數據采集難、多元評價難、結果應用難”等問題,驅動區域教育質量綜合評價客觀精準、智能高效,智慧賦能治理“五唯”痼疾。
我們堅信,通用大模型的出現,從根本上改變了教育數字化轉型這條賽道。可以這么說,數字化轉型已成為大模型智能化應用的基礎,而以數字化轉型為基礎、基于大模型的垂直領域行業模型將重構整個教育生態。
魏寧:您能否具體談談,人工智能在教育評價領域的應用發展趨勢?
鄒良:從人工智能在教育評價領域的應用趨勢來看,評價導向將由知識轉向核心素養,評價的核心素養內涵與維度也在不斷發展和深化,對學生的能力要求更加全面,進而呼喚評價工具的多樣化。
問答測評可以支持千人N面對話式問答測評,如心理健康評估擺脫了對自陳量表法的依賴,通過問答測評實現無痕式和伴隨式評估。多模態支持語音、圖片、視頻設問及答題,多樣化測評形式,改變目前問卷測評題型單一、答題方式單一的問題。
在結果診斷上,基于大數據可視化技術及深度學習技術,可以形成評價結果的智能診斷及預警分析模型。
魏寧:面向未來的區域智慧評價還面臨哪些挑戰?您和您的團隊在區域智慧評價實踐中將堅持怎樣的方向?
鄒良:新技術支持下的區域智慧評價還面臨著一些挑戰,如數據基礎薄弱、算法的可解釋性、數據壁壘、模型的公平性、數據的隱私和安全性等難題,需要從理論和實踐兩方面繼續進行研究和探索。
從我們開展的區域教育質量評價的實踐來看,未來將以“智慧評價·數據挖掘·創新驅動”為思路,加快教育評價數字化轉型,努力構建良好教育生態,服務長沙“品質教育”新品牌。
數字化轉型已成為大模型智能化應用的基礎。而以數字化轉型為基礎、基于大模型的垂直領域行業模型將重構整個教育生態。