數據驅動的精準化學習評價機制與方法

2021-02-26 01:51:21黃濤趙媛耿晶王涵張浩楊華利

現代遠程教育研究 2021年1期

黃濤趙媛耿晶王涵張浩楊華利

摘要：綜合素質評價是深化教育改革、落實立德樹人根本任務的必然要求。信息技術賦能教育教學過程，使得傳統教育評價機制向數據驅動的精準化學習評價方向邁進。數據驅動的精準化學習評價是一種不斷獲取、整合、分析學習過程中的多模態數據，對教學和學習活動的信息流與運行軌跡作出觀測、解釋和反饋，以發現教育中存在的問題，輔助課堂教學干預的評價方法，包含多場景數據采集、多空間數據融合、精準分析模型構建、分析結果可視化四個關鍵組成部分。多場景數據采集為學習評價提供數據來源和量化手段支撐，多空間數據融合為學習評價提供統一數據標準，精準分析模型為學習評價提供數據驅動的學習分析與評價方法，分析結果可視化為學習評價提供反饋和應用服務。數據驅動的精準化學習評價框架，應以區塊鏈技術為基礎，融合人工智能、云計算、學習分析、情境感知等新興技術，在多維時空尺度上全面采集學習過程中的多元海量數據，通過全面、系統的統計分析和數據挖掘，從學習者的內在動機到認知發展、情感表現，再到社會綜合交互能力，多維度、及時、準確地評估學生的學習狀況。當前，探索數據驅動的精準化學習評價，可從構建符合多空間數據特征的綜合素質評價框架，完善過程性數據的采集與共享機制，突破情感、認知、動機與社交評價的關鍵技術，以及研制數據驅動的學習評價平臺等方面入手。

關鍵詞：數據驅動;精準化;學習評價;評價機制;評價方法

中圖分類號：G434? ?文獻標識碼：A? ? 文章編號：1009-5195（2021）01-0003-10? doi10.3969/j.issn.1009-5195.2021.01.001

基金項目：國家自然科學基金面上項目“面向時空融合的學習者認知診斷理論及關鍵技術研究”（619770332）;中國科學院院士咨詢項目“我國科學教育發展戰略研究”（2018-Z10-A-025）。

作者簡介：黃濤，博士，教授，博士生導師，華中師范大學人工智能教育學部、教育大數據應用技術國家工程實驗室（湖北武漢 430079）。趙媛，博士研究生，華中師范大學國家數字化學習工程技術研究中心（湖北武漢 430079）;講師，九江學院（江西九江 332005）。耿晶（通訊作者），博士研究生，華中師范大學教育大數據應用技術國家工程實驗室（湖北武漢 430079）。王涵，博士研究生，華中師范大學國家數字化學習工程技術研究中心（湖北武漢 430079）。張浩，博士，副教授，碩士生導師，華中師范大學教育大數據應用技術國家工程實驗室（湖北武漢 430079）。楊華利，博士研究生，華中師范大學國家數字化學習工程技術研究中心（湖北武漢 430079）。

2019年7月，中共中央、國務院印發《關于深化教育教學改革全面提高義務教育質量的意見》，提出要 “構建以發展素質教育為導向的科學評價體系，強化過程性和發展性評價”（新華網，2019）。2020年10月，中共中央、國務院發布《深化新時代教育評價改革總體方案》，將“改革學生評價，促進德智體美勞全面發展”列為重點內容，提出“促進學生全面發展的評價辦法更加多元”的改革目標（新華網，2020）。構建多元、全過程、全要素的學生綜合評價，需要改革傳統的以紙筆測試為主的學業評價，充分利用信息技術，探究以多種教學場景為背景，基于學生學習行為、認知建構、情感體驗、思維變化、學業表現等多模態數據，實現教學相長的精準化學習評價方式。

一、信息時代的學習評價現狀

學習評價經歷測量、描述、價值判斷時代，逐步向意義建構發展。傳統以紙筆測試為主的學業評價，往往側重測試學生認知方面的知識記憶與理解程度，對學生高階認知能力如創造力的重視不夠，效果也不佳（田愛麗，2020）。對非認知能力如學生的盡責表現、情緒調節、合作能力、思想開放、社會交往等（OECD，2019）的發展情況，傳統的紙筆測試更是顯得無能為力。而且囿于數據和技術的雙重缺失，傳統學習評價與反饋結果呈現出模糊性和延時性等特征，這制約了其價值實現。隨著信息技術與教育的深度融合，學習環境、學習內容、學習交互方式發生翻天覆地的變化，學習評價也隨之發生變化。依據教學評價場景的不同，本文從大規模學習評價、課堂學習評價和在線學習評價三個方面，對信息時代學習評價的規模化、過程化和精準化等特征進行闡述。

1.大規模學習評價

大規模學習評價（Large-Scale Assessment）是一種通過對特定數量學生群體的整體成就水平和教育相關性因素進行價值判斷，來監測學生學習效果和判斷教育政策績效的評價方式（郭元祥等，2014）。與傳統教育評價使用經典測量理論模型對學習者個體進行比較和評估不同，大規模學習評價更注重對不同學習者群體的能力評價。

國外大規模學習評價中最有影響力的當屬國際教育成就評價協會發起的國際數學教育比較研究項目（The Trends in International Mathematics and Science Study，TIMSS）與聯合國經濟合作與發展組織發起的國際學生評估項目（Program for International Student Assessment，PISA）。 TIMSS測評從1995年開始以4年為一個周期，通過測試和問卷，測量不同國家學生數學和科學學習狀況，以此了解各國課程目標的實現程度。其最初的目標分析框架由課程內容、表現期望和觀點三個方面構成，其中觀點涉及學生的態度、興趣等;自2003年開始，知識和認知維度成為其測評的主要維度（Mullis et al.， 2014）。PISA測評自2000年起每3年為一個周期，測評不同國家15歲在校生的科學、數學、閱讀等核心素養及相關影響因素，以科學反映學生參與未來社會生活的能力，是對基礎教育進行跨國家（地區）、跨文化的評價，為教育教學改進提供有效證據。其測評框架由情景、能力、知識、態度四個指標構成，重點評估學生在知識掌握與運用、認知與思維發展、價值觀念與個人能力等方面的發展狀況，同時研究影響學生學業成就的因素（OECD， 2014）。

我國近年來也非常重視對學生的大規模學習評價。2007年，我國連續8年開展了義務教育階段6個學科領域的試點測試，其中5次為全國范圍的大規模測試，檢測樣本包括全國31個省（直轄市/自治區）和新疆生產建設兵團，695個樣本縣（市/區）的46萬余名學生、11萬余名教師和校長。監測結果除了呈現全國學生相關學科領域的總體表現、測查學生綜合運用知識能力和解決問題能力外，還關注學生的綜合素質和健康成長，對學生的情感態度、課業負擔、學校間和區域間的均衡狀況進行調查，體現了促進學生全面發展的素質教育理念（中國政府網，2015）。2015年4月，國務院教育督導委員會辦公室印發《國家義務教育質量監測方案》，依據我國義務教育課程設置的基本要求，以義務教育階段四年級和八年級學生為監測對象，利用紙筆測試工具（學科測試卷和調查問卷）和現場測試工具（現場演示和項目參與），監測義務教育階段學生語文、數學、科學、體育、藝術、德育等學科學業質量、身心健康及變化情況，深入分析影響義務教育質量的主要原因（柴葳等，2015）。

2.課堂學習評價

學習評價最重要的目的不是為了證明，而是為了“改進”（Stufflebeam，1998）。課堂學習評價的最終目的是改進教學和促進學生學習。傳統的課堂學習評價是在教師個人經驗的基礎上，對學生課堂學習情況做出的主觀判斷。這種基于個人經驗的分析，結果難免受觀察人的主觀意識的影響。Yamtim等（2014）通過研究發現，課堂學習評價的現狀并不樂觀，課堂學習評價受到各種因素的限制，其可操作性差。一些研究者提出了操作性改進策略，如日本學者提出在教學中實踐“一頁紙檔案袋評價”（田中耕治等，2012），即鼓勵學生將學習經歷記錄在一頁紙上，借此讓學生了解個人的學習歷程，同時也讓教師可以給予適當的指導來幫助學生改進。荷蘭的研究者和教師通過緊密合作，共同開發了課堂形成性評價模型（Classroom Formative Assessment，CFA），用于幫助教師判斷學生是否達到學習目標并提供及時的反饋（Van den Berg et al.， 2016）。還有一些學者旨在開發評價工具來優化課堂評價過程。如瑞士學者Smit等（2017）開發了一款叫Rubies的工具，該工具能夠記錄課堂師生的互動信息，智能分析與診斷學生的技能狀態和能力水平，以此來提升教師對學生學習的感知和診斷能力，同時完善學生自我評價和課堂形成性評價。

隨著人工智能等新技術在課堂教學中的廣泛應用，學習行為數據呈現出全時段、全方位、多模態的特征，基于過程性數據的學習評價引起了廣泛關注，越來越多的研究開始關注學習情緒、學習態度、學習習慣等多元特征（Fredricks et al.，2004）。一些研究者提出通過對視頻中學生面部、眼部等特征進行分析，以此來判斷學生學習專注程度，進而評估課堂學習效果。如Whitehill等（2014）根據面部表情，進行學生專注度的自動識別;Psaltis等（2017）提出從頭部運動、眼睛運動模式中獲取線索，推斷電子學習環境中的學生學習專注度;Kamath等（2016）使用開源工具庫 OpenFace和 OpenPose提取包括眼睛注視、頭部姿勢和身體姿勢在內的多模態特征，進行學生專注度預測。還有一些學者關注學生學習情緒與成績的關系，如有研究發現學業情緒與學生的認知和行為密切相關，是影響智力投入、行為持久性以及學習成績的重要因素（藥文靜等，2020）。Hsieh等（2019）探討了在任務轉換范式下不同情緒如何調節認知靈活性的問題，發現積極情緒并不能調節短期或長期認知的靈活性，而消極情緒有助于認知的瞬間轉換，并導致較小的轉換成本。劉君玲等（2019）強調了學業情緒在在線協作問題解決中的重要性，并從環境、活動設計、學習者等方面提出了提高學生協作問題解決能力的策略。Eilam（2019）為檢驗情緒氛圍在課堂中的作用和功能提出了新的分析框架。Ashwin等（2020）通過識別學生的面部表情、手勢和身體姿勢來分析教室中學生的情感狀態。Deniz等（2019）開發了可以通過學生的面部表情監測學生情緒，并進行情緒預警的工具。

3.在線學習評價

信息時代，在線學習已成為人們學習的重要方式。關于在線學習評價，國內外也已展開廣泛的研究。虛擬現實技術（Johnson-Glenberg，2019）、腦波監測（Liu et al.，2016）和眼動（Lambert et al.，2007）等智能感知技術為多模態數據的采集提供了可能。伴隨深度學習等人工智能技術快速發展，基于多模態數據的統一表征來開展精準化學習評價已成為在線學習評價的一大趨勢。當前在線學習評價的內容，主要包含以下幾方面：

學習者認知診斷。隨著心理測量學和認知心理學的進一步發展和現代教育技術水平的不斷進步，診斷測試的價值和意義不再僅僅是提供分數，而是對學習者認知結構的測量與評估。基于傳統概率圖模型的認知診斷技術，可以對學生知識結構進行深入分析。如美國教育巨頭McGraw Hill基于人工智能技術開發的學習評估系統（Assessment and Learning in Knowledge Spaces，ALEKS）。該系統基于知識空間理論，使用人工智能引擎為每位學生繪制個人知識圖譜，以此來幫助學習者開展適應性學習（Canfield， 2001）。而基于深度學習方法的知識跟蹤技術，還可以獲取學生的知識掌握動態，從而分析其學業發展情況。

情感態度分析。學習者的認知加工過程是非常復雜的，存在諸多顯性與隱性的相關因素，已有的認知診斷只能診斷顯性認知屬性（認知行為），即學習者對知識、技能的掌握情況;而對于隱性的相關因素，如心理、情感等，并未加以考慮。然而這些隱性因素也是影響診斷結果的重要因素，忽略了這些因素就容易造成診斷模型和真實認知加工過程之間的不匹配，從而導致結論片面化、經驗化。傳統教育情境下對學習者情感態度的分析，通常是通過問卷、對話、觀察等方式進行，教師難以有效獲得學生的真實情緒狀態。計算機視覺技術的發展，使得課堂學習者的情緒監測成為可能。孟菲斯大學研發的AutoTutor智能助手系統，能夠感知學習者的情感和注意狀態變化（Craig et al.， 2013），并根據這些變化對學習者展開情感和注意力評價，進而調整對學習者學習的輔導。

數據驅動的學習預測。利用學生數據來預測學生學習行為和成績已成為近年來教育領域的一個重要層面（Lodge et al.，2017）。大數據技術可以幫助教師、學生和其他利益相關者洞察學習過程（Jacqueleen，2015）。如賓夕法尼亞州立大學基于2005-2016年850萬條學生數據的分析，構建了數據驅動的高校學生學業表現預測模型，通過綜合評估，識別可能面臨風險的學生，幫助學校管理部門提前制定干預策略（陳新亞等，2020）。

綜上所述，在信息技術的支持下，學習評價的規模化、過程化、精準化等都已取得較大進步，但是也還面臨一些問題。如在大規模學習評價方面，由于評價對象數量大、覆蓋范圍廣，使得數據的采集與分析呈現一定的難度。而且，大規模學習評價多以學習者的知識技能、課業負擔等顯性內容為主，對學習者的綜合素養以及學習能力的評價稍顯不足。又如在課堂學習評價方面，雖然信息技術嵌入課堂，使得學習評價從單一的結果性評價向關注過程性評價轉變，但還存在非認知行為判斷標準缺失、學習分析手段和工具還有待進一步多樣化等問題。而在在線學習評價方面，雖然深度學習等人工智能方法在學習評價中得到應用，但其評價結果的解釋性問題還需與多元評價方法相結合。

二、數據驅動的精準化學習評價機制

數據驅動的精準化學習評價是對多空間、多場景、多時段、多過程的數據進行記錄、采集、加工、處理，使得數據在平臺間流轉累加，實現“1+1>2”的能效的一種評價方法。它由多場景數據采集、多空間數據融合、精準分析模型構建、分析結果可視化等要素組成。多場景數據采集為學習評價提供數據來源和量化手段支撐，多空間數據融合為學習評價提供統一數據標準，精準分析模型為學習評價提供數據驅動的學習分析與評價方法，分析結果可視化表達為學習評價提供反饋和應用服務（如圖1所示）。

1.多場景數據采集

學習空間是開展學習活動的基礎環境，也是教育數據產生、應用與迭代流轉的重要場所。由于信息技術的介入，學習空間從傳統單一的教室實體學習空間向物理空間和網絡空間高度融合的融合式學習空間變遷。學習者無論在何種學習空間開展學習活動，都會產生相應的教育場景數據（McAfee et al.，2012）。相較于單維學習空間，融合式學習空間場景較為多元，不僅包括圖書館、教室、閱覽室等物理環境，同時也包括角色分配的社會環境以及思維意識介入的認知情境（楊現民等，2020）。由于傳統教學場景如學校、圖書館的數字化與智能化水平相對滯后，教學場景中的學習數據采集，主要依賴于人工觀察和用戶自報告等手段，采集到的數據往往不夠全面，且具有一定的主觀性（劉智等，2019）。隨著可穿戴技術、物聯網與人工智能技術的興起，傳統教學場景中的多元化數據得以采集。研究者可以利用數據感知技術、一卡通、視頻監控、智能移動終端、穿戴設備、二維碼、無線網網絡設施等，隨時感知與測量學習者的學習數據、生理數據、行為數據、管理數據等并對其進行記錄和存儲。

2.多空間數據融合

在評價中，已獲取的教育數據并非在同一時刻被分析處理，而是依據評價目標、評價對象，選擇不同場景、不同時間節點、不同頻次、不同時長、不同維度的數據進行綜合分析，因此數據的采集可能會出現數據不統一、噪聲干擾、數值缺失等問題。為了將獲取的數據轉變為計算機能夠識別并處理的結構化、半結構化、非結構化數據，為下一步數據建模做準備，需要對已獲取的數據進行規范，涉及的關鍵步驟包括數據清理、數據集成、數據規約和數據變換（劉明吉等，2000）。值得注意的是，一些數據既可以用于建模，也可以用于分析，如學習投入度的評價可采集學習者觀看視頻時回答問題的頻次與中斷視頻的頻次，也可以依據學習者面部表情與坐姿進行分析（Ashwin et al.， 2018）;而面部表情同樣也可作為學習興趣的分析方法（孫發勤等，2019）。

3.精準分析模型構建

分析建模是精準化學習評價過程中至關重要的一步。其實質是首先依據評價目標的不同，構建相應的評價指標體系;然后對評價指標體系中的評價維度進行數據化表征，采集多源數據;最后基于機器學習、深度學習、自然語言處理、數據挖掘、計算機視覺等技術，對所獲取的規范化數據進行建模，最終獲得分析結果。分析建模主要包括學習者畫像、預測模型與預警模型三類。學習者畫像通過采集到的基礎信息、學業數據、學習資源等實時數據，基于文本挖掘、自然語言處理等方法，對學習者的學習特征與個性特征進行描述，幫助教學利益相關者了解學習者學習情況。預測模型是基于學習者持續變化的學業數據、心理數據與生理數據，通過語義關聯及相關性分析方法，診斷學習狀態并預測未來變化趨勢。預警模式建立在預測模型的基礎之上，是預測的下一個階段，對預測的結果進行預警。構建預警模型的主要方法是關聯規則、K-means算法等。

4.分析結果可視化

計算機構建的分析模型較為抽象，不易理解。如果計算機內部自動分析與判別，然后為教師或學習者提供相關學習資源，其分析結果則不需要進行可視化呈現。然而，人在教育中的作用是無法取代的。無論空間如何融合，最終學習數據及學習分析結果都需要方便教師使用。因此精準分析建模后需將分析結果轉變為人們易于理解的圖形、圖像，即將分析結果可視化。可視化分析工具的設計是“數據驅動教學”的核心。當前應用較多的學習儀表盤，被定義為“為了支撐和改進學習和表現，對學習分析結果進行可視化和直觀顯示的學習分析工具”（Yoo et al.，2015）。它能夠直觀地呈現學習者學習的相關信息，如學習者對知識點的掌握程度、學習進展情況、登錄次數等。知識圖譜（Knowledge Graph）是另一個可視化工具，用于繪制、分析和顯示學科或學術研究主體之間的相互聯系，是揭示科學知識發展進程與結構關系的可視化工具。還有社會網絡，能夠將學習者群體中溝通與交流的路徑可視化，找出意見領袖、邊緣人物等。

三、數據驅動的精準化學習評價方法

改進教學和學習的目的，對學習評價的及時性和精準性提出了很高的要求。為了滿足新型教育情境下精準評價需求，需要對現有的教育評價理論以及關鍵技術進行深度剖析，構建數據驅動的精準化學習評價新模式。

針對傳統的教學場景，新課標提出了“知識與技能、過程與方法、情感與價值觀”的三維教學目標。針對在線教學場景，Fredricks等（2004）提出了行為、認知、情感三維學習評價指標體系;王敏娟構建了以學習者參與為核心的Cybergogy模型，提出學生在線學習效果應涉及認知、情感和社會三個領域的因素。然而，以上評價框架都忽略了學習動機對學習成就的影響。學習動機是推動學習者學習的直接原因和內部動力，是激發、指引和維持學習行為的心理過程（張雪蓮等，2009），因此，學習評價首先需要對學習者學習動機進行評價。其次，無論是在傳統的物理學習空間，還是在線的云學習空間，學習者的學習情況主要是通過認知與情感變化來體現的，故二者是學習評價必須關注的重要指標。最后，傳統的行為指標在云學習空間中顯得過于籠統，在物理空間與云空間相融合的學習空間中，學習者的社會交互行為等社會因素對學習者的學習成就有非常重要的影響，因此，社會因素分析也是學習評價的重要方面。基于以上分析，本研究建構了內外部因素共同驅動的精準化學習評價框架，即從“動機、認知、情感與社會”四個方面來對學習者進行全面的分析與評價，其框架如圖2所示。

圖2 數據驅動的精準化學習評價框架

由圖2可知，數據驅動的精準化學習評價框架，以區塊鏈技術為基礎，融合人工智能、云計算、學習分析、情境感知等新興技術，在多維時空尺度上全面采集學習過程中的多元海量數據，通過全面、系統的統計分析和數據挖掘，從學習者的內在動機到認知發展、情感表現，再到社會綜合交互能力，多維度、及時、準確地評估學生的學習真實狀況。在這個過程中，區塊鏈技術作為核心，可以對學習者數據進行安全存儲和隱私保護，使評價結果可信、可靠、安全且一致，為促進學生全面發展提供了支持。

1.學習動機與精準化學習評價

學習動機是引發與維持學生學習行為，并使之指向一定學業目標的一種動力傾向。傳統的學習動機評價主要通過自我知覺、歸因或教師對學生面部表情等的觀察來判斷。但自我知覺或歸因受主觀意識影響較大，而教師觀察也易受經驗和視覺范圍等限制。智能感知技術及設備的發展為學習動機的評價提供了便利。如Psaltis等（2017）通過眼動儀采集學生課堂學習的眼動數據，并進行量化和聚類分析，以此來判斷學生的注意力焦點，進而獲得學習者在學習過程中的專注度情況。Li等（2020）利用神經網絡對采集到的學生課堂學習圖像數據和學習軌跡進行分析，以判斷學生在學習過程中的參與度。Chan等（2020）利用深度學習技術分析學習過程中產生的多模態數據，對學生的情感態度、學業投入、課堂專注等進行量化評價，進而分析學習者的學習動機。

2.認知計算與精準化學習評價

數據驅動的精準化學習評價模型強調在大數據時代通過“讓數據發聲”，對學習者進行多維度多層次的精準評價，以充分發揮學習評價的診斷、調節、反饋、激勵等作用。基于安德森（Lorin W. Anderson）的認知目標分類，學習者的認知由低到高可分為“記憶、理解、應用、分析、評價和創造”等6個層次。數據驅動的精準化學習評價模型不僅要關注學習者的知識掌握情況，還需關注高層次的認知技能;不僅要關注學生的行為表現，還需關注學習者的認知心理建構過程。認知診斷模型是一種基于認知心理學與統計學相結合的認知計算模型（涂冬波等，2012），可以通過對學習者的認知心理過程進行建模，挖掘學生的技能掌握狀態。然而，傳統的認知診斷模型僅僅是對單次測評的診斷，診斷結果不夠穩定。動態認知診斷評價方法對學習者的認知加工過程進行建模，既注重對高階認知能力的診斷評價，又結合學習者在學習過程中學習與遺忘等認知規律，可以動態跟蹤學習者的認知狀態變化，通過及時反饋和干預來影響學習者的學習表現。將認知計算與精準化學習評價相結合，可以提高學習評價的動態性、全面性與科學性，為培養學生的高階思維能力提供幫助。

3.情感計算與精準化學習評價

情感影響著人的認知過程與行為，情感評價是學習評價的重要組成部分。傳統的情感評價方法主要為觀察法、訪談法和問卷法，費時費力，且以總結性評價為主，脫離課堂情境，主觀性較強。人工智能技術、視頻捕捉技術、視頻分析技術的出現為學習過程中的情感評價提供了有力的技術支撐。情感計算是人工智能發展的重要方向之一，主要包括情感識別、情感建模和情感反應三大部分。將情感計算與精準化學習評價結合，可以對學習者在學習過程中產生的多元數據進行捕捉與采集，整合多模態數據，實現對學習者情感狀態及變化趨勢的實時評價。與音頻技術相比，視頻分析技術在實時性與持續性捕捉方面具有得天獨厚的優勢，能夠將學習者在學習過程中的面部表情、身體姿態、坐姿等圖像進行實時捕捉，結合其他模態數據如腦電波、血壓等數據，通過神經網絡等技術進行建模與分類，可以追蹤學習者學習過程中情緒的變化，精準判斷學生的情緒。多模態數據驅動的視頻情感評價方法，利用圖像識別、語義識別和深度學習技術來量化表征教學視頻并構建情感識別模型，自動分析學生在學習過程中的情緒態度，進而推斷學生的學習興趣、學習意志與學習投入度。目前，已開展的相關研究包括通過靜態圖像對學習者情緒的識別（韓麗等，2017）;通過視頻分析技術，對傳統課堂中學習者的面部表情與姿勢進行采集與評價，判斷學習者在學習過程中的學習情緒及其變化過程（郭雯雯等，2019）等。還有研究將視頻中的表情圖片與腦電波的多模態數據集合，構建了多模態融合的深度學習模型，判斷學習者的學習參與度（曹曉明等，2019）;或是對視頻中的人臉及表情進行識別，評價班級和個人的情感，包括學習興趣和學習態度、學業價值觀、學習動機、學習信念與學習意志（孫發勤等， 2019）。

4.社會計算與精準化學習評價

思維的根本在于對話，對話可以利用社會建構的語境賦予思想以意義（Hudson，2002）。社會互動是教育過程的關鍵組成部分，學習中的互動是學習者獲取知識和發展認知技能的必要條件（Barker，1994）。社會計算是信息技術在社會活動中的應用。從計算技術到社會活動這一角度出發，社會計算就是利用先進的信息技術達到高度有效的交流。基于學習者社交特性的學習者群體評價方法，可以通過分析群體聯系的緊密程度和活躍程度來了解群體特性，通過測量群體內部的聯結度來分析知識和情感傳遞的有效性，還可以利用群體權力分析量化學習者個體在群體中所處的位置。社會計算和精準化學習評價的結合，可以通過對群體層次結構的分析，幫助我們了解群體內部凝聚力的高低;比較不同學習者群體的互動內容和深度，發現學習者群體之間互動模式的差異（Shu et al.，2018）。

5.學習者數據的可信存儲及隱私保護方法

研究數據的可信存儲方法是確保評價真實可靠的基礎。采用區塊鏈技術，構建學習者行為鏈，用以記錄學習者過程數據，為精準化學習評價提供可信數據支撐;同時，研究基于區塊鏈的學生評價數據安全與隱私保護技術，以便為多主體評價信息提供可靠的保障，這些都是學習評價參與主體重點關注的問題。面向區塊鏈的訪問控制、安全多方計算、同態加密等信息安全手段越來越受研究者青睞。在區塊鏈+教育場景中，參與計算的各方能夠保證在不向驗證者提供任何有用信息的情況下，使驗證者相信某個論斷是正確的，因而能夠有效避免引入第三方造成對數據的竊取或者窺視，進一步保護教育數據的安全性和隱私性，實現在完全不透露任何隱私信息的同時維持信息的一致性。

四、發展展望與政策建議

目前，數據驅動的學習評價研究在我國仍處于起步階段。但隨著教育與信息技術的深度融合，大數據背景下的學習評價研究呈快速發展趨勢。未來，在政策的指引及技術的支持下，探索數據驅動的精準化學習評價大有可為。

1.構建符合多空間數據特征的綜合素質評價框架

智能教育時代，智能感知技術為多空間、多場景和全過程的學習數據采集提供了有效的工具，使得學習過程數據的全面采集成為可能。從數據空間來看，通過智能感知設備，我們不僅可以獲得在教室等物理空間學習時的課堂交互數據，同時也可獲得在網絡學習空間中的在線學習數據。這些數據覆蓋課程、作業、生活、社交等多個學習場景，各個場景有各自的評價標準。同時這些學習數據具有多模態特性，包括視頻、語音、文本和圖片等，亟需歸一化標準和通用的評價框架。因此，精準化學習評價亟需建立符合多空間全數據的綜合評價框架和指標體系，用于匯聚來自不同場景、不同模態的學習評價數據，為后續大數據精準分析做好準備。

2.完善過程性數據的采集與共享機制

學生綜合素質的評價需要全面采集學生德育、智育、體育、美育、勞動教育等多維過程性數據，數據來源場景多樣、涉及的信息維度多、模態不一。因此，完善國家、區域、學校和班級等多級資源與數據的采集與共享機制，是實施數據驅動的精準化學習評價的前提。人工智能技術與感知設備的快速發展為完善過程性數據的采集奠定了技術基礎。研究者可以通過多種傳感器設備實時記錄學生行為數據，同時，結合觀察、訪談、資料分析等不同方法，多維度、多層次地采集學習者的學習結果數據和學習過程數據。如可以通過手環等傳感器設備來實時感知學生的運動、位置、睡眠狀態等生理數據，通過攝像機等設備自動采集學生課堂學習行為數據，通過個人檔案、問卷調查等方式記錄學生綜合發展數據，通過階段性測評與診斷性測評采集學生學業數據等等。同時，研究者還要注意完善真實的情景化任務、成果、行為等多源、異構、多模態、不連貫語義的海量數據的共享。不同教育機構的數據與資源共享機制是保證學習評價大數據的完整性與全面性的基礎。

3.突破學習評價中情感、認知、動機和社交評價方面的關鍵技術

當前學生的綜合素質評價大多采用填報與統計方式，其評價的效度和真實性受到質疑。而傳統的評價模型側重學習者的知識掌握情況，忽略了更高層次的知識遷移能力、學習方法、情感態度和社會交往能力的發展情況。這既是重結果、輕過程的評價理念所致，同時也受到評價技術的制約。要實現精準化的學習評價，必須在情感、認知、動機和社交評價的關鍵技術方面有所突破，通過采集文字、語音、圖像、視頻等包含認知、情感、注意力等的多模態數據，利用自然語言處理、圖像識別、情感、計算等深度學習技術和統計建模方法，分析學習者的學習過程、學習內容、知識遷移、情感獲得、交流互動等，以此對學生綜合素質進行全面、精準、多維度的評價與反饋。

4.研制數據驅動的學習評價平臺，加快學習評價在教育教學中的應用

數據驅動的學習評價平臺需要云計算、數據倉庫、數據挖掘等技術和應用的配合，實現低成本的大規模分布式存儲、及時響應的用戶體驗，以及更加綠色節能的新一代數據中心。即在有效面對大數據處理需求的同時，實現最大化資源利用率、最小化系統能耗的目標。為此，數據驅動的學習評價平臺需要為教育大數據的匯集融合、海量存儲、高效計算、深入分析挖掘以及教育應用的開發與運行提供基礎支撐。基于這個原理搭建教學、管理與學習的全生態應用平臺，構建不同業務系統共享數據中心的數據聚合型平臺。在規范化的數據基礎之上構建特色型分析模型滿足分析需要，為管理者、教師、學生、家長以及合作學校提供智能服務。學校需將校內與校外、課內與課外、線上與線下、網絡空間與物理空間產生的數據匯集到學習評價平臺中，通過數據不斷的流轉迭代，幫助管理部門、教師、學生、家長等利益相關者了解學生的學習情況，開展精準的教育干預與輔助。教師應不斷提升信息化教學能力與數據素養，能夠對學習者不同學習時段產生的數據進行分析，基于相關數據開展精準化教學及互動;家長應努力提升育兒專業知識，學會客觀看待學習者產生的相關數據并提供個性化的輔助;學校管理者應提升信息化領導力，能夠依據年級數據或全校性數據進行科學歸因與精準決策，促進學校教學資源的均衡配置與教學效能的提升。

五、結語

大數據時代，學習評價作為教育生態中的一環，對實現人的德智體美勞全面發展起著非常重要的作用。數據驅動的精準化學習評價，通過不斷獲取、整合、分析學習過程中的文字、聲音、圖像、視頻與人體感知等多模態數據，對教學和學習活動的信息流與運行軌跡作出觀測、解釋和反饋，幫助教育相關者發現教育中存在的問題，輔助課堂學習中個性化干預的實現（朱曉玲，2019）。本文基于對信息時代學習評價現狀的分析，構建了包含多場景數據采集、多空間數據融合、精準分析模型構建、分析結果可視化的精準化學習評價機制，并提出以區塊鏈技術為核心，從認知、情感、動機和社會四個方面進行學習綜合素質評價的方法，為促進教育教學的改進與學業質量的提升提供了借鑒。

總之，相對于傳統結果性教育評價，數據驅動的精準化學習評價從多維度關注學習者的學習過程，能夠促進教育管理者和教師對學習者的理解，為實施精準化的教學干預提供輔助。不過，要建立一個全面、可靠、真正對學習者有效的學習評價機制需要教育教學論專家、學校管理者和技術專家等多方協作。

參考文獻：

[1][日]田中耕治（2012）.日本形成性評價發展的回顧與展望[J].項純.全球教育展望，41（3）：3-6，18.

[2]曹曉明，張永和，潘萌等（2019）.人工智能視域下的學習參與度識別方法研究——基于一項多模態數據融合的深度學習實驗分析[J].遠程教育雜志，37（1）：32-44.

[3]柴葳，向倩蕓（2015）. 我國建立義務教育質量監測制度，今年起開展監測工作——中國特色“PISA”揭開面紗[EB/OL].[2020-11-07].http：//www.moe.gov.cn/jyb_xwfb/xw_fbh/moe_

2069/xwfbh_2015n/xwfb_150415/150415_mtbd/201504/t20150

416_187197.html.

[4]陳新亞，李艷（2020）.《2020地平線報告：教與學版》的解讀及思考——疫情之下高等教育面臨的挑戰與變革[J].遠程教育雜志，38（2）：3-16.

[5]郭雯雯，楊鳳梅（2019）.課堂環境雙模態情感評價系統設計與效果分析[J].教學研究， 42（3）：27-33.

[6]郭元祥，劉曉慶（2014）.大規模學業評價的發展歷程、新趨勢及啟示[J].教育研究與實驗，（1）：27-32.

[7]韓麗，李洋，周子佳等（2017）.課堂環境中基于面部表情的教學效果分析[J].現代遠程教育研究，（4）：97-103，112.

[8]劉君玲，劉斌，張文蘭（2019）.學業情緒對在線協作問題解決的影響研究[J].中國電化教育，（7）：82-90.

[9]劉明吉，王秀峰，黃亞樓（2000）.數據挖掘中的數據預處理[J].計算機科學，27（4）：54-57.

[10]劉智，方常麗，劉三等（2019）.物理學習空間中學習者情緒感知研究綜述[J].遠程教育雜志，37（2）：33-44.

[11]孫發勤，鄧雯心（2019）.基于人工智能的課堂學習情感評價研究[J].中國教育信息化，（23）：58-62.

[12]田愛麗（2020）.綜合素質評價：智能化時代學習評價的變革與實施[J].中國電化教育，（1）：109-113，121.

[13]涂冬波，蔡艷，丁樹良（2012）.認知診斷理論、方法與應用[M].北京：北京師范大學出版社.

[14]新華網（2019）. 中共中央國務院關于深化教育教學改革全面提高義務教育質量的意見[EB/OL].[2020-11-07].http：//www.xinhuanet.com/politics/2019-07/08/c_1124725254.htm.

[15]新華網（2020）. 中共中央國務院印發《深化新時代教育評價改革總體方案》[EB/OL].[2020-11-07].http：//www.xinhuanet.com/2020-10/13/c_1126601551.htm.

[16]楊現民，李怡斐，王東麗等（2020）.智能時代學習空間的融合樣態與融合路徑[J].中國遠程教育，（1）：46-53，72，77.

[17]藥文靜，姜強，李月等（2020）.眾包知識建構下學業情緒影響因素及喚醒機制的科學學研究——面向深度學習的課堂教學結構化變革研究之五[J].現代遠距離教育，（5）：33-42.

[18]張雪蓮，高玲（2009）.學習動機及其相關研究[J].教育理論與實踐，29（18）：32-34.

[19]中國政府網（2015）.教育部督導辦負責人就《國家義務教育質量監測方案》答記者問[EB/OL].[2020-08-11].http：//www.gov.cn/xinwen/2015-04/15/content_2847308.htm.

[20]朱曉玲（2019）.小學數學課堂學習評價的現狀及改進策略研究[D].南京：南京師范大學.

[21]Ashwin， T. S.， & Guddeti， R. M. R. （2018）. Unobtrusive StudentsEngagement Analysis in Computer Science Laboratory Using Deep Learning Techniques[C]// Proceedings of 2018 IEEE 18th International Conference on Advanced Learning Technologies （ICALT）. IEEE： 436-440.

[22]Ashwin， T. S.， & Guddeti， R. M. R. （2020）. Automatic Detection of StudentsAffective States in Classroom Environment Using Hybrid Convolutional Neural Networks[J]. Education and Information Technologies， 25（2）： 1387-1415.

[23]Barker， P. （1994）. Designing Interactive Learning[M]. Dordrecht： Springer： 1-30.

[24]Canfield， W. （2001）. ALEKS： A Web-Based Intelligent Tutoring System[J]. Mathematics and Computer Education， 35（2）： 152-158.

[25]Chan， M. C. E.， Ochoa， X.， & Clarke， D. （2020）. Multimodal Learning Analytics in a Laboratory Classroom[M]. Cham： Springer： 131-156.

[26]Craig， S. D.， Hu， X.， & Graesser， A. C. et al. （2013）. The Impact of a Technology-Based Mathematics After-School Program Using ALEKS on Students Knowledge and Behaviors[J]. Computers & Education， 68： 495-504.

[27]Deniz， S.， Lee， D.， & Kurian， G. et al. （2019）. Computer Vision for Attendance and Emotion Analysis in School Settings[C]// 2019 IEEE 9th Annual Computing and Communication Workshop and Conference （CCWC）. IEEE： 134-139.

[28]Eilam， E. （2019）. Synchronization： A Framework for Examining Emotional Climate in Classes[J].Palgrave Communications，5（1）：1-11.

[29]Fredricks， J. A.， & Paris， B. A. H. （2004）. School Engagement： Potential of the Concept， State of the Evidence[J]. Review of Educational Research， 74（1）： 59-109.

[30]Hsieh， S.， & Lin， S. J. （2019）. The Dissociable Effects of Induced Positive and Negative Moods on Cognitive Flexibility[J].Scientific reports，9（1）：1-10

[31]Hudson， B. （2002）. Critical Dialogue Online： Personas， Covenants， and Candlepower[M]. London： Sage： 53-90.

[32]Jacqueleen， A. R. （2015）. The Skinny on Big Data in Education： Learning analytics Simplified[J]. TechTrends， 59（2）： 75-79.

[33]Johnson-Glenberg， M. C. （2019）. The Necessary Nine： Design Principles for Embodied VR and Active Stem Education[M]. Singapore： Springer： 83-112.

[34]Kamath， A.， Biswas， A.， & Balasubramanian， V. （2016）. A Crowdsourced Approach to Student Engagement Recognition in E-Learning Environments[C]// Proceedings of 2016 IEEE Winter Conference on Applications of Computer Vision （WACV）. IEEE： 1-9.

[35]Lambert， A. D.， Terenzini， P. T.， & Lattuca， L. R. （2007）. More Than Meets the Eye： Curricular and Programmatic Effects on Student Learning[J]. Research in Higher Education， 48（2）： 141-168.

[36]Li， Z.， & Zhan， Z. （2020）. Integrated Infrared Imaging Techniques and Multi-Model Information via Convolution Neural Network for Learning Engagement Evaluation[J]. Infrared Physics & Technology， 109： 103430.

[37]Liu， C. J.， & Huang， C. F. （2016）. Innovative Science Educational Neuroscience： Strategies for Engaging Brain Waves in Science Education Research[M]. Singapore： Springer： 233-247.

[38]Lodge， J. M.， & Corrin， L. （2017）. What Data and Analytics Can and Do Say About Effective Learning [J/OL]. NPJ Science of Learning. https：//www.nature.com/articles/s41539-017-

0006-5.

[39]McAfee， A.， Brynjolfsson， E.， & Davenport， T. H. et al. （2012）. Big Data： The Management Revolution[J]. Harvard Business Review， 90（10）： 60-68.

[40]Mullis， I. V.， & Martin， M. O. （2014）. TIMMS Advanced 2015 Assessment Frameworks[DB/OL]. [2020-12-05]. https：//files.eric.ed.gov/fulltext/ED559364.pdf.

[41]OECD （2014）. PISA 2012 Results： Creative Problem Solving： StudentsSkills in Tackling Real-Life Problems （Volume V）[DB/OL]. [2020-08-01]. http：//www.oecd.org/pisa/keyfindings/PISA-2012-results-volume-V.pdf.

[42]OECD （2019）. Social and Emotional Skills Well-Being， Connectedness and Success[EB/OL]. [2020-08-01]. https：//www.oecd.org/edu/school/UPDATED%20Social%20and%20

Emotional%20Skills%20-%20Well-being，%20connectedness%20and%20success.pdf%20（website）.pdf.

[43]Psaltis， A.， Apostolakis， K. C.， & Dimitropoulos， K. et al. （2017）. Multimodal Student Engagement Recognition in Prosocial Games[J]. IEEE Transactions on Games， 10（3）： 292-303.

[44]Shu， H.， & Gu， X. （2018）. Determining the Differences Between Online and Face-to-Face Student–Group Interactions in a Blended Learning Course[J]. The Internet and Higher Education， 39：13-21.

[45]Smit， R.， Bachmann， P.， & Blum， V. et al. （2017）. Effects of a Rubric for Mathematical Reasoning on Teaching and Learning in Primary School[J]. Instructional Science， 45（5）： 603-622.

[46]Stufflebeam， D. L. （1998）. Conflicts Between Standards-Based and Postmodernist Evaluations： Toward Rapprochement[J]. Journal of Personnel Evaluation in Education， 12（3）： 287-296.

[47]Van den Berg， M.， Harskamp， E. G.， & Suhre， C. J. M. （2016）. Developing Classroom Formative Assessment in Dutch Primary Mathematics Education[J]. Educational Studies， 42（4）： 305-322.

[48]Whitehill， J.， Serpell， Z.， & Lin， Y. C. et al. （2014）. The Faces of Engagement： Automatic Recognition of Student Engagementfrom Facial Expressions[J]. IEEE Transactions on Affective Computing， 5（1）： 86-98.

[49]Yamtim， V.， & Wongwanich， S. （2014）. A Study of Classroom Assessment Literacy of Primary School Teachers[J]. Procedia-Social and Behavioral Sciences， 116： 2998-3004.

[50]Yoo， Y.， Lee， H.， & Jo， I. H. et al. （2015）. Educational Dashboards for Smart Learning： Review of Case Studies[M]// Emerging Issues in Smart Learning. Springer， Berlin， Heidelberg： 145-155.

收稿日期 2021-01-05 責任編輯汪燕

Evaluation Mechanism and Method for Data-Driven Precision Learning

HUANG Tao， ZHAO Yuan， GENG JING， WANG Han， ZHANG Hao， YANG Huali

Abstract： Comprehensive quality evaluation is an inevitable requirement for implementing the fundamental task of deepening education reform and cultivating talents. Information technology promotes the process of education and teaching， which makes the traditional education evaluation mechanism move towards the direction of data-driven learning evaluation. Data-driven precision learning evaluation is an evaluation method that observes， explains and feedbacks on the information flow and running track of teaching and learning activities by continuously obtaining， integrating and analyzing multi-modal data in the learning process， so as to find problems existed in education and assist the intervention of classroom teaching. It contains multi-scene data collection， multi-spatial data fusion， accurate analysis model construction， and analysis result visualization. Multi-scene data collection provides data sources and quantitative means for learning evaluation;multi-spatial data fusion provides unified data standards for learning evaluation;accurate analysis model provides data-driven learning analysis and evaluation methods for learning evaluation and analysis results visualization provides feedback and application services for learning evaluation. The data-driven precision learning evaluation framework should integrate technologies such as artificial intelligence， cloud computing， learning analysis and context awareness based on the block chain technology. It can comprehensively collect multiple massive data in the learning process on multi-dimensional spatial-temporal scale. Through comprehensive and systematic statistical analysis and data mining， it can evaluate students learning status from their intrinsic motivation， cognitive development， emotional performance， to comprehensive social interaction ability in a multi-dimensional， timely and accurate way. At present， to explore data-driven accurate learning evaluation， we can carry out research on building a comprehensive quality evaluation framework in line with the characteristics of multi-spatial data， improving the collection and sharing mechanism of process data， breaking through the key technologies of emotion， cognition， motivation and social evaluation， and developing a data-driven learning evaluation platform.

Keywords： Data Driven; Precision; Learning Evaluation; Evaluation Mechanism; Evaluation Method