張生 王雪 齊媛



摘要:人工智能時代的評價改革的核心在學評融合,一線實踐層面的核心在評他能力的發展。對他人作品進行評價的活動是一種重要的高階思維訓練活動,對學生關鍵能力和人格品質的發展具有重要的價值和意義,是落實評價改革的核心抓手。該研究研制信效度良好的評他能力測評工具,基于分層抽樣設計,對全國東中西地區的18420名小學、初中和高中學生進行大規模調查。結果發現:我國中小學生評他能力的總體表現處于中等偏低水平,亟待整體提升和培養;內部結構發展不均衡,尤其是認知反饋維度相對較弱,學生對他人的作品提出問題、改進建議的能力訓練不足;在城市特征、人口學特征上呈現低水平均衡發展,性別和學段的部分差異達到小效應量,需要進一步改革實驗,研制有效提升策略;在影響因素方面,評價頻率和回復頻率對評他能力的解釋力最高,說明當前評價的活動開展較少,在量的層面都有積極影響,應該加大評價活動的次數和頻率。由此可見,我國中小學生的評他能力尚處于自由發展、并未有效的積極干預措施的階段,還未發揮“互聯網+”在評他方面的優勢,需要在學與教方式變革過程中積極融入評他活動的設計,以進一步推進評價改革的落地。
關鍵詞:學評融合;評他能力;評價改革;核心素養;人工智能
中圖分類號:G434 文獻標識碼:A
本文系國家自然科學基金聯合基金重點項目“基于‘天河二號超級計算機的教育系統化監控評估、智能決策仿真和應用研究”(項目編號:U1911201)研究成果。
隨著《深化新時代教育評價改革總體方案》[1]的出臺,呼吁新時代需要新的評價改革。當前對評價改革多數關注評價的診斷性作用,強化了互評在評價多元性、評價信效度方面的意義和作用,這對宏觀層面的評價有非常大的價值;同時在一線層面,新的問題也隨之會產生,隨著多級評價的開展,學生發展的規律、學與教的現狀、優點與缺點都能清晰地呈現出來,同時也會增加評價的負擔,減弱診斷性評價的價值。隨著時間的推移,在學生有限的學習時間里,如何提升質量是擺在大家面前的關鍵問題。近日,《關于進一步減輕義務教育階段學生作業負擔和校外培訓負擔的意見》[2]的印發,也體現對這一關鍵問題的高度關注,其背后的評價理念變革是落實“雙減”政策的核心和探索方向。評價本身既具備診斷的作用,用在學習活動中,還是一種訓練學生高階思維發展的抓手,即評價具備診斷和學習雙重價值,如何實現從診斷到改進過渡到從評價的學習性到診斷這一路徑的變革,依賴于“互聯網+”、大數據、測量與評價技術的不斷發展,更依賴于強調評價學習性,即評他能力的改革落地,也需要學評融合的評價新理念的進一步闡明。現階段同伴互評和自我評價作為融合世界中的重要評價方式,可行性與有效性等診斷性目的仍是關注焦點[3][4],難以適用于人工智能時代學生評他能力的培育要求。在這一背景下,基于學評融合的評價新理念[5],評他能力作為學評融合的重要一方面,亟需進一步理清其內涵與結構,掌握當前我國中小學生評他能力的現狀和影響因素,挖掘數據背后的規律,形成可行的實踐方法,將對我國評價改革的落地具有獨特的意義。
(一)核心概念界定
評他能力的內涵建構始于其上位概念,即評價能力。隨著教育評價改革和育人目標的不斷深化,評價能力的內涵應由知識的掌握性向能力的發展性、由對結果的診斷性向學習的過程性、由對作品的評價向人的評價不斷發展變化。Tai等人[6]對評價能力的定義是:“相對于預先確定但不一定明確的標準,批判性地評估表現的能力。這需要一個復雜的反思過程,包括內部的自我評價,和外部決策他人‘工作質量的同伴評價”。李澤文[7]認為評價能力是能夠根據明確標準對有關事物做出一種高度自覺的價值判斷能力。Tai等人[8]在此基礎上提出了更簡單的定義,認為評價能力是對自我和他人的工作質量做出決定的能力。至此,評價能力是一種價值判斷力,作用對象是他人或自己的“工作”質量,衡量標準是與明確標準的一致程度,這一界定也與當前迫于升學和考試的壓力,評價更多從診斷性評價入手有關[9]。例如,在同伴互評領域,大部分學者都關注學生評分的客觀性或與教師評分的一致性上[10],以此來衡量評價能力的高低具有一定的合理性,但已不符合當下的育人理念、促進學生學習的作用有限,因此,評他能力背后的評價理念革新是關鍵,面向學習性的學評融合新理念提供了重要路徑。
評價能力的內隱性多維結構是研究評他能力結構與測評的關鍵。學術界對評價能力的結構研究還未形成統一結論,現有研究主要從評價對象和評價過程兩個方面進行探討。從評價對象方面的分析多對應到互評和自評兩種評價方式下的評價能力[11][12];從評價過程方面進行的分析聚焦到一般評價過程中的評價能力結構,例如,蘇倩[13]將評價能力的內部結構定義為三方面:一是將外在評價標準內化為自己的內在標準,二是要有意識、獨立地進行判斷和選擇,三是要反思自我,不斷地促進自我的發展。Dominique等人[14]在建構的三級維度評價能力模型中包括:(1)明確評價標準:思考哪些方面是評價作品時需要關注的;(2)判斷作品表現:識別同伴作品的優缺點;為下一步的學習提供反饋:對同伴的作品給予建設性的反饋。至此,評價過程方面的研究可以概念化為四個主要組成部分:標準意識、判斷選擇、認知反饋和反思提升。因此,上述兩種評價方式和四個主要過程是建構評他能力結構的基礎和關鍵。
數字世界對物理世界的拓展和自身的時空泛在性賦能評他能力的常態化、精準性和科學性培育[15]。基于上述研究,評價目的、評價方式和評價過程是構建評他能力內涵與結構的基石。如圖1所示,評他能力的內涵取決于y軸的評價目的這一本質性取向,與面向作品的診斷性評價相比,面向人的學習性評價是首要本質,他人或自己的“工作”質量只是衡量學生評他能力的載體,關鍵是在學生作為評價者參與評價活動的過程中,學生自身學習的發生與促進。評他能力的結構依附于x軸的兩種評價方式和z軸的四個主要評價過程建構。以往研究表明,自我評價和同伴互評兩種評價方式是形成性評價過程的必要環節[16],二者相結合能夠促進評價方法的有效性[17]。因此,評他能力同時關聯自我評價和同伴互評兩種方式,而無論哪一種方式,其內部蘊含的評價過程,尤其是學習性評價過程才是建構評他能力結構的關鍵。在上述四個主要評價過程中,按發生順序在z軸上由低到高排列,標準意識是評價的基礎過程,在兩種評價方式和評價目的中均有體現。判斷選擇是對他人或自身作品進行量化打分,涵蓋在兩種評價方式中,但因其作品主導性,仍以診斷性為主要目的,故未被納入評他能力結構中。認知反饋和反思提升以其認知加工和思維深度參與而體現為學習性評價,分別主要發生在學生互評和自我評價中。至此,評他能力結構體現在關聯兩種評價方式下的標準意識、認知反饋和反思提升一系列學習性評價過程中。

綜上,評他能力是學評融合新理念的核心內容之一,強調在物理世界與數字世界融合育人過程中,發揮評價的高階思維的學習特性,優化設計學生的評他活動,形成人人創造、分享作品,人人評價他人的作品,在評價他人(含自身)的作品中,不僅關注作品本身,更加關注作品的創作者,還關注創作過程,是基于創作者出發的一種系統的評價新觀念。首先,它強調的是融合世界中,在學習時空得以拓展的情況下的評價活動;是關注人在評價他人過程中評他活動對學生自身成長的價值;也是關聯自評和互評兩種評價方式,強調評價過程中學生主體的標準意識、認知反饋和反思提升關鍵思維過程;是指向學生直接發展的評價活動,是先于評價的診斷性活動,是基于評價活動數據開展自動化診斷評價的基礎,是落實過程性、增值性、綜合性評價的重要基礎;最后,它還是減輕各級診斷性評價帶來的評價負擔的重要路徑和抓手。
評他能力的培育既能支持原有自我評價和同伴互評活動的高質量開展,也超越其支持學生更高層級的思維能力發展。這主要體現在對學習性評價過程的關注,即不再關注自評和互評中的客觀性與準確性,而是體現在根據一定標準,評價他人作品過程中自身的認知性反饋和對自我作品的反思提升上。其關鍵特征:一是理解質量標準并具備標準意識的能力;二是應用標準對他人作品表現進行認知性反饋的能力;三是評價他人過程中反思和修改,以提升自己作品的能力。因此,上述界定的評他能力結構將不止于價值判斷,能將判斷的結果外顯為認知性反饋行動,如“指出問題”“提出建議”等,并在大量閱讀、評價他人作品的過程中逐步認識到事物的多面性,對自我作品進行反思,并進一步提升自身作品、標準認知、學習方法等,才是完成一次有積極意義的完整的評他過程。
(二)研究問題
以往的評價能力相關研究中,對教師和學校層面的研究相對較多,對學生的評價能力研究較少[18]。并且,從與時俱進的發展角度審視,尚存不足:評價能力的內涵與結構界定中仍存在以診斷性的質量評價為主,尚未有研究基于促進學習評價的新取向對我國中小學生的評價能力特點進行深入分析。其中有一個引起許多興趣的問題,學生的不同評價背景,即評價數量或頻率,對其互評質量是否會有影響?具體而言,引入交互層數的概念,這種影響是源自評他的頻率還是回復的頻率?以往研究并未形成統一結論,一方面,交互數量與交互層數似乎都帶來更深度和高質量的互評效果[19]。另一方面,交互數量多,深度互動的內容反而少[20][21]。那么當定位到本研究提出的評他能力時,評他頻率和回復頻率的影響效果如何還有待分析。
因此,本研究基于學評融合的評價新理念,提出評他能力這一面向新時代育人要求,統整當前自評和互評中實踐困境,關注評價過程中學習性作用的高階思維能力。研制信效度良好的學生評他能力測評工具,基于分層抽樣設計,對全國東中西地區的小學、初中和高中學生進行大規模調查。確定以下4個研究問題:我國中小學生的評他能力現狀如何?不同城市特征和人口學特征的群體存在哪些差異?家庭背景因素和評價背景因素對評他能力的影響如何?以評他能力測評作為一項循證指標,為推動高階思維能力培養和核心素養發展提出對策建議。
(一)研究對象
項目組對全國中小學生評他能力現狀進行調查,共回收290352份問卷,有效問卷278571份(有效率95.94%)。為便于統計分析,使用分層抽樣進行二次抽樣,共抽取18420份問卷。先按地域分布和經濟發展水平抽取省份,根據2020年的人均GDP數據由高到低排序,分為高中低三級,結合國家統計局2019年抽樣調查公布的東西部學校的總體數量。最終確定東部4個、中部3個、西部3個,高人均GDP3個、中3個、低4個,共10個省、市、自治區①。依據2019年全國抽樣調查數據中各學段的在校學生比例,在控制小、初、高的抽取比例大致為1:2:4的基礎上,每個省、市、自治區抽取的問卷總數占所有抽取省份問卷總數的比例與我國2019年抽樣調查數據中該省份在校學生總數的相對比例一致。這說明,本研究抽取的問卷數據對總體的代表性較好,基本上能反映全國中小學生評他能力的基本情況。樣本的分布情況如表1所示。

(二)研究工具
1.評他能力問卷結構及其信效度
采用自編《中小學生評他能力問卷》,經專家審校和兩次預測試,最終形成14道題目的問卷供正式測評使用,采用李克特量表5級記分。分為認知反饋、標準意識與反思提升三個子維度,總量表和子量表的內部一致性信度在0.829-0.898之間,如表2所示。驗證性因子分析顯示,模型擬合良好。

認知反饋是指學生在掌握基礎知識及技能的基礎上,通過對同伴作品所體現的知識技能的整合對比,進而做出認知性反饋的能力。包含4道題目,分別從“指出問題”“提出建議”“定位問題”“給出解決辦法”4個方面出發,例如“我經常在評價中直接指出作品中的問題或錯誤”“我經常在評價中對作品提出具體的修改建議”。
標準意識是指學生在理解質量標準的基礎上,能對自己的評價行為對應到相應的質量標準,將外在事物有意識地內化為內在標準的能力。包含4道題目,例如“我給出的評價符合一定的標準”“我給出的評價經過了仔細的思考”等。
反思提升是指學生在大量閱讀、評價他人作品的過程中逐步形成對自我作品的反思,并進一步調節提升自身作品、標準認知、學習方法等的能力。包含6道題目,例如“評價他人讓我能更好地完成我的作品”“我學會從評價者的視角看待自己的作品”等。
2.評價背景因素
包括評他頻率和回復頻率,各有一道題目:“我評論別人作品的頻率是”“別人評論了我的作品后,我對評論進行回復的頻率是”,采用4點計分,從幾乎沒有到經常。
(一)中小學生評他能力的總體表現
學生評他能力總分的均值為3.497(SD=0.647)。進一步采用重復測量方差分析,結果表明,中小學生在評他能力三個維度上的得分存在顯著差異,F(2,36838)=8016.349,p<0.001。配對比較發現,三個維度上的得分兩兩之間均存在顯著差異,得分由高到低依次為:反思提升、標準意識、認知反饋。
(二)中小學生評他能力的差異分析
以城市特征和人口學特征為分組變量,采用獨立樣本t檢驗和單因素方差分析,從地域、GDP水平、性別和學段背景信息上,對我國中小學生評他能力的差異進行了考察。t檢驗的效應量以d值估計,方差分析的效應量采用η2估計,結果如表3所示。

不同地域的中小學生,在評他能力總分和反思提升維度上存在顯著性差異;不同GDP水平的中小學生,在評他能力總分及各維度上均有顯著性差異。但均未達到小效應量。
不同性別的中小學生,在評他能力總分、認知反饋和反思提升維度上存在顯著性差異,結合數據來看,男生在評他能力總分和認知反饋維度上的得分顯著高于女生,達到小效應量;不同學段的中小學生,在評他能力總分及各維度上均有顯著性差異。事后檢驗表明:在評他能力總分和反思提升維度上,小學生得分顯著高于初、高中生,初中生得分顯著高于高中生,達到小效應量。
(三)中小學生評他能力的影響因素分析
將評他能力總分及各維度得分與父母最高受教育程度、評他頻率和回復頻率做相關分析,結果如下頁表4所示。所有變量兩兩間均存在顯著性相關。

綜合前述結果,采用多元分層回歸分析,考察上述所有變量對評他能力總分和各個維度得分的影響,結果如表5所示。城市特征、人口學變量、父母最高受教育程度和評價背景分別解釋了總分方差的0.2%、1.5%、0.3%和8.7%。模型2-4的調整R2項顯示,評他能力3個二級維度中,反思提升維度(模型4)受自變量影響程度較高,認知反饋維度(模型2)受自變量影響程度較低(討論詳后)。

(一)我國中小學生的評他能力整體情況處于中等偏低水平
本研究的目的之一,是希望在以核心素養指導的新評價理念下,衡量我國中小學生評他能力現狀,并得到一個基本判斷。在調查問卷的量尺上,我國中小學生評他能力總分的均值為3.497,高于3分這一理論中值,我國中小學生評他能力水平在本調查問卷量尺上,達到中等水平。若以百分制的思路,人為劃定60分至70分為及格,則這個分數仍處于及格水平,未達到中等線(3.5分)。因此,結合理論中值和中等線兩個參考標準,可認為我國中小學生評他能力處于一個中等偏低的水平。誠然,本研究界定的評他能力強調評價的學習性,對于評他診斷性上的能力體現還未有涉及,但本團隊在以往研究中,已略述診斷性評他能力的內涵[22],它不同于傳統學生評分的準確性,而是基于數字世界各種人工智能技術支撐下的應用數據決策、助力學習的能力,將在未來的研究中進一步論述。
(二)我國中小學生的評他能力內部結構發展不均衡,認知反饋維度亟待提升
在評他能力三個維度上,學生的得分兩兩之間均存在顯著差異,反思提升維度表現較好,這一結論與以往研究一致[23],說明學生在評價他人作品的過程中能夠反思、意識到其對自我作品的視野拓展和靈感激發,同時愿意將這種認知轉化為具體的改進、提升自我作品的行為外部傾向。相反,認知反饋維度表現較差,均值僅為2.995。究其原因,認知反饋維度的界定是面向學生的高階思維發展和核心素養育人要求,表現在“判斷觀點”“指出問題”“提出建議”“定位問題”“給出解決辦法”五個方面,需要學生進行深度的思考和認知能力加工,而中小學生由于認知水平正處于發展階段,且受制于學校、家庭對該方面能力的培養忽視[24],故在該維度的表現不足,上述研究結論與已有研究相似[25]。該結果對評他能力的提升工程或有所啟示:當前我國中小學生擁有較好的基礎踐行評他活動,能夠認識到評他活動對自我的認知反思和改進提升具有重要意義,也呼應學評融合新理念中發揮評價學習性功能的最后一個階段,即反思與改進;應將干預工作的重點放在學生認知反饋中的思維深度和認知加工等方面,及要徹底變革為以學生生成為核心的學與教方式。
(三)我國中小學生的評他能力在外部群體差異上呈現低水平均衡,性別和學段的部分差異達到小效應量
調查結果表明,地域分布、人均GDP水平、性別和學段這些常見的社會學分類指標,并不能大效應地區分不同組別人群的評他能力水平。可能的原因:一是我國中小學生評他能力發展比較均衡;二是中小學生的評他能力差異主要來自于個體之間的差異(組內差異)。但是結合上述評他能力整體情況處于中等偏低水平的現狀判定,這種均衡是基礎水平上的均衡,如何在全局尺度上提升我國中小學生評他能力,將是一個體量巨大的任務。
在上述分類指標中,僅有性別和學段的部分差異達到小效應量,地域分布和人均GDP水平未達到小效應量,與已有研究相似[26][27]。具體而言,就性別而言,男生在認知反饋維度上的得分顯著高于女生。可能原因是由于性別的生理和心理差異,男生在提出問題和發表質疑時會更加果斷自信,而女生在思考問題時表現得更為全面細膩。該結論與以往研究一致,男生在批判性思維開放思想、分析能力以及自信心上都要顯著高于女生[28]。就學段而言,在評他能力總分和反思提升維度上,呈現出小學顯著優于初、高中,初中顯著優于高中的趨勢。中學階段的學生理應比小學階段掌握了更多的知識技能,為什么評他能力不升反降?分析其原因可能有以下幾點:首先,小學階段相對中學階段更注重學習策略的教授和運用,該結論與已有研究一致。例如,孫智昌等人[29]發現,學生的學習策略水平隨學段升高而顯著下降,Clear等人[30]和Eur等人[31]的研究結果也表明,隨著年級的升高,學生自我調節學習策略的使用會下降,而無論是學習策略中的反思策略、認知策略還是自我調節學習策略,都是評他能力總分和反思提升維度的重要基石。其次,隨著年級的升高,迫于考試和升學的壓力,學生較少有機會以自我總結的方式鞏固知識[32],教師在教學中用于評他活動的時間和深度也不足,導致學生的評他能力總分和反思提升維度表現較差。這一猜想,在問卷中有具體體現:隨著學段升高,評他頻率的均值由小學2.72,初中2.63,到高中2.62,頻率低且呈下降趨勢,結合本研究中評他頻率對評他能力的解釋率最高的這一結論,也證明了這一可能原因。再次,學生的評他能力很大程度受到非智力因素和學生主體性人格的影響,而很多非智力因素都是隨年齡升高而降低的[33],學生的主體性人格也有隨年齡升高而降低的趨勢,例如申景玉等人發現小學五年級的學生在主體性人格的多個方面都高于初二學生,在初中階段也出現低年級明顯高于高年級的狀況[34]。最后,馬鄭豫等人還發現,小學生自我感知的學習能力高于初、高中生[35],即自我評價的評他能力更客觀而表現為逐步下降的趨勢。總之,這些對中學生評他能力的不利因素綜合起來發揮的作用最終超過了隨年齡增長認知能力的提高帶來的有利因素,從而導致整體上評他能力總分和反思提升維度呈現出隨學段升高而下降的趨勢。
(四)在本文模型涉及的變量中,評價背景因素對評他能力的解釋率最高。認知反饋維度更不易受影響
評價背景中的評他頻率和回復頻率在評他能力總分、標準意識和反思提升維度上的影響達到中等效應量。表征家庭背景的父母受教育程度,對評他能力的影響效果有限,在評他能力總分及各維度上,僅能最高解釋0.6%的差異。因此,再進行細分比較意義不大,整體趨勢表現為:父母最高受教育程度越高,學生的評他能力越高。較之區域、人均GDP水平、性別、學段等,評他頻率和回復頻率對評他能力的解釋力高出數倍。具體而言,在評他能力總分、標準意識、反思提升維度上,回復頻率的貢獻程度相對更高,而在認知反饋維度上,評他頻率的貢獻程度相對更高。這一結論進一步印證了以往研究觀點[36][37]。回復頻率是發生在學生對他人評價進行再次回復的過程中,交互層數由一層變為二層,是在他人對自身作品評價內容上的再思考,這一過程必然會調動學生已有知識技能,對照標準進行整合比較,進而形成自我思想沉淀,完成內容回復,因此,有益于學生反思提升和標準意識維度的提高。在認知反饋維度上,由于需要學生以同伴作品為載體,對其所體現的知識技能進行整合對比,進而做出認知反饋,因而評他頻率相比于回復頻率,對該維度的解釋率更高。同時,以往研究表明,互評準確性作為學生高階思維評他能力的一種體現,訓練對其有積極的提升作用[38]。綜上,評價頻率的提高是提升學生評他能力的有效切入點,鼓勵多層次的評他活動可收事半功倍之效,也符合量變到質變的基本認知。
上述分析同時也指向另一結論:評他頻率和回復頻率對學生反思提升維度影響較大,對認知反饋維度影響較小。從前面表5中相應的 R2項可以看出。這一結論也從側面反映出,僅增加評價頻率,難以達到認知反饋維度提升的理想效果。同時,比較模型整體的調整R2項也可以發現,認知反饋維度相較于其他兩個二級維度,更不易受城市特征、人口學特征和家庭背景因素的影響,這表明認知反饋維度的提升任務艱巨,其差異不在個體內的性別、學段等,僅考慮外部的家庭背景因素作用效果微弱,提升關鍵是個體內部因素的認知加工層級和思維深度。
評他能力面向的是一種自下而上的評價改革實踐,評他活動是針對一線實踐層面提升質量而提出的一種新型高階思維能力活動。將評他能力測評作為核心素養教育發展的一項循證指標,以調查結果為依據,結合當前評價在教育實踐活動中的應用,在學與教方式變革過程中積極融入評他活動,進而提升教育質量。本研究提出如下建議。
第一,相關政府部門和行業人士要對當前現狀有清晰和足夠的認識。要正確把握我國中小學生評他能力發展的現狀,充分認識到評他能力提升任務的艱巨性。當前,有兩個問題值得關注,一是我國中小學生評他能力整體水平中等偏低,二是評他能力內部結構發展不均衡,認知反饋維度亟待提升,但該維度不容易受個體內差異和家庭背景因素的影響而改變。前者意味著提升工程的任務巨大,后者意味著提升工程的難度巨大。目前,結合黨和政府相關規劃中,對評價改革和核心素養教育的要求目標,相關政府部門和行業人士對此挑戰要有清晰和足夠的認識。
第二,教育實踐者應將評他能力的培養融于日常的教學活動中去。要注重發揮評價的學習性功能,考慮性別差異,著力提升初高中學生的評他能力。初中階段作為學生自我調節學習發展較為迅速和逐漸成熟的重要時期,或是當前評他能力提升的重要階段。同時,初高中學生在繁重的課業任務下,學生的自主時間相對較少,如果在此背景下,將評價與學習相剝離,評他能力的提升也必然以進一步加重學生學業負擔而落幕。因此,只有將評價融于日常的教學活動,強化在線學習環境的支持,對其進行全空間、全時段的設計[39],發揮評價的學習性功能才是提升初高中學生評他能力的本質選擇。另外,鑒于性別表現出來的評他能力差異,還應關注男生的反思提升維度、女生的認知反饋維度培養。
第三,教師要基于在線學習環境,提升評他活動的頻率和思維的深度。要有效建立提高評價頻率與提升評他能力之間的良性循環。充分利用在線學習環境的優勢,營造有利于評他活動開展的育人環境,設計有效的學生的評他活動,重視思維的互動[40],提升評他活動的頻率和思維的深度,提高學生的評他能力。基于在線學習環境,要注重設計激發多層次的評他活動,讓學生在多次的評他迭代中,促進自身思維的螺旋式上升。另外,評價頻率的效用發揮,要依賴于教師的良性設計與過程指導,教師的指導要尤其體現在學生評價中高水平認知加工層級上。
第四,研究者要深入探究評他能力、尤其是認知反饋能力的提升策略與機制。要深入研究評他能力中認知反饋維度提升的條件和機制。從上述研究發現來看,評價頻率對認知反饋維度的促進作用相對較低,內部的變化特點還有待進一步分析,在某種程度上,可能存在增加評價頻率也不一定導致認知反饋的積極變化。如何從本質上研究提升條件和機制,尤其是結合人工智能技術和學評融合的評價新理念是我國學者需要結合中國實際,深入探索的現實問題。
參考文獻:
[1] 中共中央、國務院.中共中央 國務院印發《深化新時代教育評價改革總體方案》[EB/OL].http://www.moe.gov.cn/jyb_xxgk/moe_1777/ moe_1778/202010/t20201013_494381.html,2020-10-13.
[2] 中共中央辦公廳、國務院辦公廳.中共中央辦公廳 國務院辦公廳印發《關于進一步減輕義務教育階段學生作業負擔和校外培訓負擔的意見》[EB/OL].http://www.moe.gov.cn/jyb_xxgk/moe_1777/ moe_1778/202107/t20210724_546576.html,2021-07-24.
[3] 范逸洲,馮菲等.評價量規設計對慕課同伴互評有效性的影響研究[J].電化教育研究,2018,39(11):45-51.
[4] Admiraal W,Huisman B,et al.Self- and Peer Assessment in Massive Open Online Courses [J].International Journal of Higher Education,2014,3(3):119-128.
[5][22] 張生,王雪等.人工智能賦能教育評價:“學評融合”新理念及核心要素[J].中國遠程教育,2021,(2):1-8+16+76.
[6] Tai, J.,Canny, B. J.,et al.The role of peer-assisted learning in building evaluative judgement:opportunities in clinical medical education [J]. Advances in Health Sciences Education,2016,21(3):659-676.
[7] 李澤文.評價能力:不容忽視的素質[J].語文教學與研究,2002,(5):8-9.
[8] Tai H M,Ajjawi R,et al.Developing evaluative judgement:enabling students to make decisions about the quality of work [J].Higher Education,2018,6(3):467-481.
[9] Muchlis M,Ibnu S,et al.Students Result of Learning at Chemistry Department through Assessment of,for,and as Learning Implementation [J].International Journal of Instruction,2020,13(2):165-178.
[10] Steendam E V,Rijlaarsdam G,et al.The effect of instruction type and dyadic or individual emulation on the quality of higher-order peer feedback in EFL [J].Learning & Instruction,2010,20(4):316-327.
[11][13] 蘇倩.小學班級生活中學生評價能力養成研究[D].昆明:云南師范大學,2014.
[12][18][24] 彭杰.初中生評價能力培養策略研究[D].長春:東北師范大學,2013.
[14] Sluijsmans D,Brand-Gruwel S,et al.Training teachers in peerassessment skills:effects on performance and perceptions [J]. Innovations in Education & Teaching International,2004,41(1):59-78.
[15] 齊媛,張生.學評融合:落實評價改革的重要路徑[N].中國教育報,2020-10-31(03).
[16] 蔡旻君,王心怡等.在線學習者參與評價的理論探討及實證研究[J].中國電化教育,2021,(3):15-23.
[17] Bouzidi L,Jaillet A.Can Online Peer Assessment Be Trusted [J]. Educational Technology & Society,2009,12(4):257-268.
[19][36] 嚴亞利,黎加厚.教師在線交流與深度互動的能力評估研究——以海鹽教師博客群體的互動深度分析為例[J].遠程教育雜志,2010,28(2):68-71.
[20] 趙嬰,何克抗.基于微信的跨文化網絡交流互動深度研究[J].電化教育研究,2019,40(10):35-39+60.
[21][25] 李紅霞,趙呈領等.促進學習的評價:在線開放課程中同伴互評投入度研究[J].電化教育研究,2021,42(4):37-44.
[23] 項純.中小學生自我評價能力的現狀、問題與對策[J].教育科學研究,2018,(11):56-61.
[26] 黃瑄,李秀菊.我國青少年科學態度現狀、差異分析及對策建議——基于全國青少年科學素質調查的實證研究[J].中國電化教育,2020,(12):69-77.
[27][39] 張生,張平等.人工智能時代下的精準減負:提升減負政策效能的關鍵——基于小學生學習投入與主觀課業負擔類型的劃分及特征分析[J].中國電化教育,2020,(1):114-121.
[28] 盧家楣,劉偉等.中國當代大學生情感素質的現狀及其影響因素[J].心理學報,2017,49(1):1-16.
[29] 孫智昌,項純等.我國中小學生學習動力與學習策略的現狀與對策[J].課程·教材·教法,2016,36(3):78-85+77.
[30] Cleary,T.J.,et al.Self-regulation,motivation,and math achievement in middle school:variations across grade level and math context [J]. Journal of School Psychology,2019,47(5):291-314.
[31] Eur,J & Educ,et al.Grade level,study time,and grade retention and their effects on motivation,self-regulated learning strategies,and mathematics achievement:A structural equation model [J].European Journal of Psychology of Education,2013,28(4):1311-1331.
[33] 《非智力因素及其培養》全國協作組.我國兒童青少年非智力因素發展的研究[J].心理發展與教育,1995,(4):1-6.
[34] 申景玉.中學生主體性人格及其與學業成就的相關研究[D].天津:天津師范大學,2006.
[35] 馬鄭豫,張家軍.中小學學生學習策略的調查研究[J].教育研究,2015,36(6):85-95.
[32][37] 張生,陳丹等.中小學生自主學習能力對在線學習滿意度的影響[J].中國特殊教育,2020,(6):89-96.
[38] 李菲茗,李曉菲等.訓練對同伴互評評分準確性的影響——以“三維動畫設計與建模”課程為例[J].中國遠程教育,2018,(5):63-67+78.
[40] 黃蔚,曹榕等.人工智能時代批判性思維能力的提升策略——思維圖示的應用對小學生批判性思維能力提升的實證研究[J].中國電化教育,2019,(10):102-108.
作者簡介:
張生:副教授,博士,研究方向為教育大數據、智慧測評、信息技術與學科深度融合。
王雪:在讀碩士,研究方向為教育測量、評價與統計。
齊媛:助理研究員,博士,研究方向為學習心理、教育技術。
Skills of Assessing Others: The Necessary Higher Order Thinking Skills of Students in the Era of AI
Zhang Sheng1, Wang Xue1, Qi Yuan2(1.Beijing Normal University, Collaborative Innovation Center of Assessment for Basic Education Quality, Beijing 100875; 2.National Institute of Education Sciences, Beijing 100088)
Abstract: The core of assessment reform in the era of Artificial Intelligence (AI) is the integration of learning and assessment, and the core of its front-line practice is the development of the skills of assessing others. The activity of assessing others works is an important training process of higher order thinking skills, which is significant for the development of students key abilities and personalities and is the core starting point for the assessment reform. The research developed a reliable and valid evaluation tool for evaluating the skills of assessing others. A large-scale survey was conducted among 18420 primary and middle school students in the eastern, central and western regions of China by stratified sampling. The results show that the overall performance of Chinese primary and middle school students skills of assessing others is at a moderately low level, which needs an overall cultivation and improvement. Besides, the development of its internal structure is unbalanced, especially the cognitive feedback dimension is relatively weak, which means the training of asking questions and giving suggestions to improve others works is insufficient. In terms of urban characteristics and demographic characteristics, it shows a low-level balanced development. Differences between gender and school section reach a small effect size. Therefore, it is necessary to further reform the practices and develop effective promotion strategies. In terms of influencing factors, the assessment frequency and response frequency have the highest explanatory power on the skills of assessing others, indicating the frequency of the assessment activities should be improved. The research showed the skills of assessing others of Chinese primary and middle school students is still in a stage of free development without effective intervention measures, and has not yet played the advantage of Internet Plus in assessing others. Thus, assessing others works needs to be actively integrated into the design of learning and teaching reform, and then further implement the assessment reform.
Keywords: integration of learning and assessment; skills of assessing others; assessment reform; core competences; Artificial Intelligence (AI)
收稿日期:2021年8月9日
責任編輯:李雅瑄