萬曉容,朱麗佳,陳 俊,席寧麗
(1.貴州師范大學教育學院;2.貴州師范大學外國語學院,貴州貴陽 550025)
大數據已成為教育評價研究領域的熱門詞匯,而學界現存關于大數據的定義尚未達成共識。一般而言,大數據(Big Data)即巨量的資料,學界普遍認為它具有4V 的特點:①規模性(Volume),從TB 級別躍升到PB 乃至EB 級別,數據總量不斷增長;②多樣性(Variety),數據類型繁多,包含結構化與半結構化數據,如文本、音視頻等;③高速性(Velocity),數據處理速度快,實時滿足用戶的需求,這也是區別于傳統數據的顯著特點;④價值性(Value),對海量數據進行分析、處理與集成,快速獲取高價值信息[1]。
當前,大數據逐漸深入教育行業,促使教育評價實踐愈加精準與深入。作為對教育活動現實或潛在價值進行分析并做出判斷的過程[2],教育評價對打破單一評價類型,打造更具效率、數據真實、主體自覺、途徑多元、結果公平的多元評價生態具有重要意義[3]。2020 年10 月13 日,《深化新時代教育評價改革總體方案》(以下簡稱《總體方案》)指出,扭轉不科學的教育評價導向,強調利用大數據等現代信息技術,創新評價工具等舉措,破除“唯分數、唯升學、唯文憑、唯論文、唯帽子”的教育評價痼疾[4]。誠然,大數據已成為教育評價變革與創新的重要驅動力量,帶動了教育評價從傳統的“經驗主義”向“數據主義”轉變,消除了評價過程中的“信息孤島”與“數據壁壘”,克服了教育評價認知有限性與模糊性[5]。但在大數據驅動下,大數據對教育評價的具體導向如何?教育評價的研究現狀與發展趨勢是什么?為此,本文對國內大數據支持下的教育評價現狀進行梳理,為該領域后續探索提供不同研究視角。
數據來源于CNKI 數據庫搜索,時間起始年不限,截止日期為2021 年6 月10 日,主題詞為“大數據”或“數據驅動”與“教育評價”,來源類別為北大核心和CSSCI,共檢索期刊113 篇,人工剔除會議、新聞、報告及與研究無關文獻23篇,最終選取90篇文獻進行分析。
首先利用Citespace 對研究作者、機構、關鍵詞進行可視化分析,然后利用書目共現分析系統(Bicomb2)對關鍵詞進行詞篇矩陣分析,并將高頻關鍵詞詞篇矩陣導入SPSS25.0 進行系統聚類,生成高頻關鍵詞聚類樹圖譜,最后將構建的相似矩陣從SPSS 中導出,利用Excel 轉換為Ochiai 系數相異矩陣,再將相異矩陣導入SPSS 進行多維尺度分析,得到教育評價研究趨勢。充分發揮這3 種軟件的優點,互相彌補不足,從而對大數據的教育評價應用進行較為全面的梳理與分析。
通過對文獻樣本內容分析發現,當前研究可分為兩類:①理論分析類(80 篇),從理論視角探討大數據下的教育評價路向、理論架構、發展趨勢或教育評價模型框架;②實證研究類(10 篇),基于實驗和大量數據開展的實證研究,以探索評價方式、構建評價模型、開發應用平臺、系統等為主要內容。同時,由期刊年份趨勢圖可知,2013 年以前,教育評價文獻為零,此后學者才陸續展開研究;2013-2016 年為緩慢增長期;2016 年后,大數據、云計算、移動互聯網、人工智能技術與教育的深度融合促進了智慧教育的發展,促使研究者關注大數據與教育的發展價值,理論分析類步入快速增長階段,而實證研究始終不溫不火,數量沒有較大突破。

Fig.1 Research types and quantitative analysis of literatures圖1 文獻研究類型與數量分析
利用Citespace 輸出作者可視化分析結果,時間跨度為“2013-2021”,時間切片跨度為一年,節點類型選擇“作者”。由圖2(彩圖掃OSID 碼可見,下同)可知,作者整體分布較分散,沒有形成大的合作網絡。為了更好把控研究的核心團隊與科研規模,研究將Citespace 中的“Node Types”值設定為Institution+Author,“Top N”值設定為30,其他設置選擇默認值,最終結果如圖3所示。
由圖3 可知,北京師范大學、華中師范大學、西南大學以及重慶市教育評估院是研究的主陣地。其中北京師范大學有兩個主要團隊:一是以陳麗、王懷波等學者為主的北京師范大學遠程教育研究中心;二是以牟智佳、張志禎等學者為主的北京師范大學教育學部教育技術學院。華中師范大學的教育學院、國家數字化學習工程技術研究中心、教育學部等都參與了研究,研究較多的是張浩、楊宗凱等學者。教育評價也引起了重慶部分機構的重視,如重慶市教育評估院、重慶大學等,而西南大學教育學部擁有教育評價領域數量最多的作者團隊,包含龔春燕、賈玲、朱德全等學者??傮w而言,教育評價領域的研究流派以高校內部為研究團體,但更多以個人研究為主,他們共同構成了該研究領域的學術前沿陣地。

Fig.2 Author visualization atlas圖2 作者可視化圖譜
根據圖中節點大小可以尋找關鍵節點,由圖4 可知大數據是最大的節點,其次教育評價、人工智能等節點較為明顯。增值評價、教育質量評價、大數據時代等節點相對較小,反映了我國大數據下教育評價的研究進展。
通過Citespace 輸出詞頻大于3的關鍵詞,中心度與頻次代表著一段時間內研究者共同關注的問題,即研究熱點。由表1 可知,教育評價、大數據、思想政治教育、人工智能、教育變革、教育大數據、教育質量、信息技術及增值評價是研究的熱點。2013 年被各大媒體稱為中國的大數據元年,也正是從2013 年起,國內掀起了基于大數據技術促進教育改革和創新發展相關研究的熱潮。隨后,教育大數據、信息技術、人工智能、數據驅動技術飛速發展,使教育信息化真正落地,催生了教育評價的數據化。
采用Bicomb2 軟件對確定的高頻關鍵詞生成詞篇矩陣,并通過Excel 的相異矩陣運算消除關鍵詞自身頻次差異帶來的影響。其中,相異矩陣=1-相似矩陣[6],部分結果見表2。將相似矩陣導入SPSS 進行聚類分析后,可將教育評價研究的高頻關鍵詞分為五大領域,如圖5所示。

Fig.3 Analysis of authors and cooperative organizations圖3 作者與合作機構分析

Fig.4 Keyword co-occurrence analysis圖4 關鍵詞共現分析

Table 1 Keyword frequency analysis表1 關鍵詞頻次分析

Table 2 High frequency keywords dissimilarity matrix(partial)表2 高頻關鍵詞相異矩陣(部分)
熱點一:教育評價下的教育質量評價研究。包含“數據挖掘”“教育質量評價”“教育質量監測”“增值評價”“教育決策”“教育評價”和“教育質量”7 個關鍵詞。教育質量評價是提高教育教學的重要保障,提高教育質量可從兩個方面著手:一是依靠相關技術,如使用數據挖掘技術對平臺中的大量教育評價信息進行關鍵信息抽取,進而完成智能評定與預測工作。孫力[7]、牟智佳[8]、王亮[9]等都利用在線學習平臺數據開展預測學生成績的研究。在數據挖掘技術的輔助下,學習者可以擴寬自身思維,重構知識結構,教師通過分析信息改善教學,管理者亦可借助數據挖掘進行教育決策。二是從理論上進行突破,堅持以政策為導向?!犊傮w方案》中針對我國教育發展的新態勢,提出要探索“增值評價”,破除“五唯”教育評價痼疾[4],為提升教育質量提供了契機。但相關研究表明,教育質量的評價工具較為簡單,往往由一兩名教師完成,缺乏科學性,在評價內容、評價方法和評價結果的運用上缺乏整體的思考,教育質量評價的數據結果往往局限于對單一指標的描述性分析,得到的僅是孤立性的數據[10]。教育質量作為我國教育發展的長期訴求,需要進行全面深入的挖掘,依據各學段特點進行開展,充分發揮大數據的規律性與價值性。
熱點二:大數據下的思想政治教育評價研究。包含關鍵詞“大數據時代”“思想政治教育評價”“思想政治教育”“高?!薄按髷祿薄靶聲r代”。大數據時代,人們習慣于借助大數據獲取信息、學習知識,面對信息的沖擊,高校德育范式和思想政治范式正發生著巨大的變化。為此,高校推廣實施“第二課堂成績單”制度[11],創建了“學生畫像”“教師畫像”“精準扶貧”“網絡文化產品影響力評估”等大數據應用系統[12]。但通過文獻梳理發現,大多研究以高校群體為主,多針對大數據形勢提出相應對策分析,大都尚處于初級階段,方案的可行性有待確證,在未來研究中,亟須將對策與實踐融合開展。

Fig.5 High frequency keywords clustering map圖5 高頻關鍵詞聚類圖譜
熱點三:教育大數據研究。隨著大數據時代的到來,越來越多的學者展開了教育大數據領域的研究,如信息技術、學習過程、數據挖掘、學習分析、教育大數據、個性化教育、教育信息化、學習行為等[13]。學習分析在教育上的應用受到了廣泛關注,研究者們致力于運用學習分析方法對學習進行優化,促使教育成為每個學習者滿足其個人需要和發展自身的途徑。然而,基于大數據視角的學習分析應用研究尚存較大空白,缺乏相應案例分析。面對海量大數據顯現的內容,人們很難厘清事物如何通過數據顯現自身,而從多個維度探究,挖掘背后隱含的真理才是教育大數據的研究價值。
熱點四:教育評價技術研究。包括“信息技術”“教育信息化”“人工智能”三個關鍵詞。以人工智能為代表的信息技術在教育領域的應用與融合主要體現在三個方面:一是利用數據庫平臺、機器運算力、算法模型代替評價人員的人工操作做出智能評定和預測工作;二是在教育評價的部分環節,輔助評價人員采集、計算、評定、決策工作;三是通過“人機對話”達到評價過程的自動化測定、精準化診斷與個性化反饋等[14]。毫無疑問,隨著新興技術的加入,教育評價必將走向客觀、全面、科學[15],逐步形成“智慧評價”。但現有評價技術的不穩定性,如硬件、操作系統等可能會給教育評價帶來潛在影響,導致數據收集失敗或者尚難以察覺的錯誤,如何有效規避上述問題是未來研究亟需關注和實踐的重要方向。
熱點五:數據驅動下的學習評價研究。包含關鍵詞“數據驅動”“學習評價”“教育變革”。數據驅動存在于評價方式、評價內容、評價過程中,催生著教育的變革與發展。黃濤等[16]構建了包含多場景數據采集、多空間數據融合、精準分析模型構建、分析結果可視化的學習評價機制,并提出以區塊鏈技術為核心,從認知、情感、動機和社會四個方面學習綜合素質評價方法。牟智佳[17]從評價內容上進行了細分和聚類,構建了基于電子書包的個性化學習評價模型。吳永和等[18]提出了基于xAPI 規范的3D 設計軟件數據采集機制與STEAM 3D 教育學習者行為分析模型,實現了利用學習者學習過程的行為數據進行數據驅動的學習分析及評價。相比于傳統學習評價,數據驅動下的學習評價從多維度關注學生學習過程,評價結果更加客觀全面。但由于數據驅動的學習評價需數據采集、加工、人工智能算法等步驟對數據進行有效分析,相關平臺進行智能操作,國內研究仍處于起步階段。此外,精準化評價還需從認知、情感、注意力等方面作分析預測,需進一步探討。
多維尺度分析法指對實驗觀察數據在概念空間中的特殊位置進行分配,根據所有由數據構成點之間的距離在數值上等于預計算的不相似性,分別展示以向心度與密度作為參數的二維坐標系[19]。從坐標系中點的位置來看,若某關鍵詞處于第一象限,則研究處于中心;位于第二象限,說明其結構緊密程度較低,位于第三象限,則已有研究內部聯系較為緊密;位于第四象限,說明研究處于邊緣地帶[20]。為厘清教育評價的發展趨勢,研究根據相似矩陣利用Excel 進行相異矩陣運算,最后將Ochiai 系數相異矩陣導入SPSS,利用其多維尺度分析(ALSCAL)功能,進一步對關鍵詞聚類分析進行深化和擴展,結果如圖6所示。
由圖6 可知,領域1 處于第二、三象限,“數據挖掘”“教育質量評價”“教育質量監測”“增值評價”處于第二象限。近年來,國家強調發展“增值評價”,要積極利用學生的進步而非學生在關鍵考試中的原始分數來評價學校的績效[21]。為了迎合這一目標,部分學者開始探究當前教育質量評價如何改進,文章內容主要以策略提出為主,并未深入剖析,說明該主題內部結構較為松散?!敖逃龥Q策”“教育評價”和“教育質量”處于第三象限,這表明提高教育質量是我國教育的長期訴求,無論是從源頭上還是過程中進行著手,都存在相關研究,內部聯系較為緊密。

Fig.6 Multidimensional scaling analysis圖6 多維尺度分析
領域2 的關鍵詞處于第四象限。習近平談到要用信息技術推動思想政治工作的發展,積極利用大數據相關技術了解學生學習思想狀況。而由于大多教師缺乏大數據理念,學校缺乏數據平臺等系列問題,相關研究并未得到有效開展,該領域處在研究網絡中心的邊緣地帶。
領域3 處于第三象限。教育大數據為許多研究者提供了研究思路,但在實際應用中卻存在一定的技術瓶頸,如數據挖掘與學習分析在數據采集中的技術挑戰,以及數據存儲、處理和分析過程都存在技術難度;此外,不同系統之間的兼容性也是一個主要問題,這些現實問題都導致該主題處于較邊緣位置,有待進一步研究。
領域4 的關鍵詞處于一、四象限,其中“教育信息化”“信息技術”處于第一象限。利用信息化技術將為教育評價改革提供便捷,它可以全方位、全過程采集教學數據,且可以獲得情感因素、心理傾向、實踐能力等非結構化數據[22],這種全面、科學、精準的評價往往更能讓人接受,也迅速成為學者研究的網絡中心。“人工智能”處于第四象限,自被提出以來,其一直是研究的熱點,但并未滲透到教育教學的各個方面。近年來,人工智能才逐漸融入教育領域,為推動教育評價改革創新提供了條件,這條路在未來該如何革新還有待進一步挖掘。但總體而言,教育評價的技術研究正逐漸落地在人工智能支持下的信息技術中。
領域5 處于第一象限。數據驅動的學習評價研究可以觀察、解釋和反饋教學活動的信息流動和運行軌跡,還能發現教育中存在的問題,為課堂教學提供幫助。從現有的研究來看,該主題是我國研究網絡的中心,面對互聯網的浩瀚數據,它將不斷為學習評價提供數據支持??梢灶A見,在未來很長的一段時間內,數據驅動的學習評價研究將是一個熱點問題。
通過對90 篇期刊文獻的梳理分析,在大數據的支持下,教育評價研究具有以下特點:
首先,在研究成果上,教育評價的理論研究數量呈現上升趨勢,特別是《總體方案》的出臺推動了大批學者進行研究,但實證研究卻沒有很大改善,數量較少,雖然此前提出了一些切實可行的解決方法,但還有待進一步研究和思考。同時,研究作者團隊較分散,沒有形成較好的合力。未來研究工作可繼續深化自身理論認識,結合學生、學校實際情況,積極探索大數據教育評價的實踐研究,避免實踐與理論脫節的現象。
其次,在研究內容上,教育評價技術與數據驅動的學習評價是當前研究的中心,學習評價正逐漸從傳統的教師評價、學生評價向以數據驅動支持的多維度評價轉變,但數據驅動可能造成研究和實踐偏離真實的教育問題[23]。教育評價更為重要的是回歸教育實踐,打造符合時代發展、學生發展的教育需求。大數據時代下的思想政治教育評價、教育大數據等均處于研究邊緣,且多圍繞高校展開研究。每個人都是信息的載體與傳播者,基礎教育、職業教育等領域都應加入思想政治教育的評價。
第三,在研究領域上,大數據支持下的教育評價實際應用缺乏案例。大數據為教育評價服務,且需要通過不斷獲取、整合、分析學習過程中的文字、聲音、圖像、視頻與人體感知等多模態數據,對教學和學習活動的信息流與運行軌跡做出觀測、解釋和反饋[24]才能得知其真實服務效果。對于當前研究而言,還需加強大數據在教育評價中實際應用案例的分析,如計算機科學、教育科學、認知心理學,甚至融合藝術、人文等領域,拓寬實踐案例[25]。
面對海量數據,過去常規的數據采集與相關技術(數據挖掘、IRS 系統)已不能滿足大數據背景下的現實需求,需在教學評估領域快速積累有關爆炸式的大數據采集、存儲、清洗等方面知識與技術,在數據采集的質和量之間有效權衡[26]。以此實現全樣本、多模態、智能化的數據挖掘分析,幫助教師找出具體教學問題,提高教育質量[1]。