郭利明 鄭勤華 齊欣



摘要:堅毅力是學(xué)生綜合素質(zhì)中必備的優(yōu)秀品質(zhì)之一,也是我國未來人才培養(yǎng)的核心目標(biāo)之一,對其開展測評具有重要的現(xiàn)實意義。然而,現(xiàn)有堅毅力測評理論框架的相對寬泛,以及傳統(tǒng)主觀測評方法的自我局限已不適宜多模態(tài)數(shù)據(jù)支持的測評趨向。為進(jìn)一步解決這些問題,該研究結(jié)合扎根理論、Delphi法構(gòu)建了包含堅毅力的行為性、情感性、認(rèn)知性等3個一級指標(biāo),專注性、堅持性、積極情感、消極情感、目標(biāo)意識、自我監(jiān)控等6個二級指標(biāo)的學(xué)生堅毅力測評理論模型,并以此為框架設(shè)計了面向科學(xué)探究活動場景的學(xué)生堅毅力測評的表現(xiàn)性評價工具。結(jié)合理論模型與測評工具,研究對學(xué)生堅毅力測評具體指標(biāo)的數(shù)據(jù)表征進(jìn)行了設(shè)計與說明。該研究將能夠為未來基于多模態(tài)數(shù)據(jù)融合計算的學(xué)生堅毅力測評提供理論與工具支持。
關(guān)鍵詞:堅毅力;堅毅力測評;表現(xiàn)性評價;科學(xué)探究活動;數(shù)據(jù)指標(biāo);多模態(tài)數(shù)據(jù)
中圖分類號:G434 文獻(xiàn)標(biāo)識碼:A
本文系國家自然科學(xué)基金面上項目“基于多模態(tài)數(shù)據(jù)融合計算的中小學(xué)生堅毅力測評技術(shù)與溯源研究(項目編號:62277004)”階段性研究成果。
2020年10月,中共中央、國務(wù)院印發(fā)《深化新時代教育評價改革總體方案》明確提出要強(qiáng)調(diào)“能力為重”“完善學(xué)生綜合素質(zhì)評價體系”“增強(qiáng)綜合素質(zhì)”[1]。這充分表明當(dāng)前學(xué)生綜合素質(zhì)的發(fā)展及其重要性已經(jīng)上升為一個前所未有的高度。進(jìn)一步地,無論是國家政策導(dǎo)向,還是學(xué)術(shù)研究實踐,堅毅力都已經(jīng)被明確列入學(xué)生綜合素質(zhì)的構(gòu)成要素中[2][3]。因此,可以說,堅毅力的重要性自然也就不言而喻,并且正變得日益明顯。2016年,《中國學(xué)生發(fā)展核心素養(yǎng)框架》提出要求學(xué)生具有能不畏困難、堅持不懈的探索精神,具有堅韌樂觀、抗挫性等積極的心理品質(zhì)[4]。2022年3月,教育部發(fā)布的《義務(wù)教育課程方案(2022版)》(以下簡稱《課程方案(2022版)》)又將要培養(yǎng)有擔(dān)當(dāng),具有堅毅勇敢品質(zhì)的學(xué)生作為義務(wù)教育的培養(yǎng)目標(biāo)之一[5]。這說明在以“立德樹人”為根本任務(wù)、培養(yǎng)德智體美勞全面發(fā)展的社會主義建設(shè)者和接班人的教育目標(biāo)指引下,包含自強(qiáng)不息、攻堅克難、努力奮斗屬性的堅毅力逐漸成為我國未來人才培養(yǎng)的核心目標(biāo)。
堅毅力(Grit)最早由美國學(xué)者Angela Duckworth提出,認(rèn)為堅毅力是個體追求長期目標(biāo)所保持的激情(Passion)與堅持(Perseverance)[6]。隨后,她的團(tuán)隊設(shè)計、開發(fā)了堅毅力測評量表(Original Grit Scale,Grit-O)對個體的堅毅力水平進(jìn)行測量,并且在國內(nèi)外得到了廣泛的應(yīng)用。然而,不可忽略的事實是,完全依靠傳統(tǒng)的自我報告法測量個體的堅毅力水平會因為社會稱許性等各方緣由而導(dǎo)致度量準(zhǔn)確度不高、測評客觀性不足以及測評結(jié)果難應(yīng)用等諸多現(xiàn)實問題。所幸,當(dāng)前智能技術(shù)的發(fā)展,尤其是多模態(tài)學(xué)習(xí)分析技術(shù)的興起有望解決這些現(xiàn)實問題,因為多模態(tài)數(shù)據(jù)能夠較為全面、客觀、準(zhǔn)確地描述或解釋同一對象[7]。并且,多模態(tài)學(xué)習(xí)分析技術(shù)在數(shù)據(jù)采集、數(shù)據(jù)智能處理以及結(jié)果應(yīng)用上都提供了新的測評機(jī)遇,不僅能夠突破依靠自我報告法所帶來的堅毅力測評現(xiàn)實問題,而且是對我國新時代教育評價改革要求的客觀回應(yīng)。
此外,基于信息技術(shù)的表現(xiàn)性評價正成為《課程方案(2022版)》中具有獨特育人功能的實踐活動的重要關(guān)切[8]。作為回應(yīng),《義務(wù)教育科學(xué)課程標(biāo)準(zhǔn)(2022版)》(以下簡稱《科學(xué)課程標(biāo)準(zhǔn)(2022版)》)提出加強(qiáng)探究實踐,強(qiáng)化過程評價,關(guān)注學(xué)生在探究和實踐過程中的真實表現(xiàn)與思維活動[9]。因此,從測評場景來看,表現(xiàn)性評價的推進(jìn),使得探究實踐活動逐漸成為堅毅力測評的重要場景,支持測評往縱深方向發(fā)展。因為表現(xiàn)性評價在探究實踐活動中的應(yīng)用能夠關(guān)注到學(xué)生在探究和實踐過程中的關(guān)于堅毅力的真實表現(xiàn)與思維活動,對堅毅力的測評與培養(yǎng)具有重要作用。
整體而言,測評學(xué)生個體堅毅力水平具有重要的現(xiàn)實意義。然而,當(dāng)下如何基于多模態(tài)數(shù)據(jù)開展學(xué)生堅毅力測評尚有諸多空白。基于此,本研究立足多模態(tài)數(shù)據(jù)支持的測評,構(gòu)建學(xué)生堅毅力測評的理論模型,開發(fā)評價學(xué)生堅毅力的表現(xiàn)性評價工具,設(shè)計學(xué)生堅毅力測評的多模態(tài)數(shù)據(jù)表征,以期為未來基于多模態(tài)數(shù)據(jù)融合計算的學(xué)生堅毅力測評提供理論、工具支持。
(一)堅毅力的內(nèi)涵及外延研究
在2007年,美國心理學(xué)家Angela Duckworth首次提出堅毅力,將其概括為對長期目標(biāo)的激情和堅持[10];在2014年,Duckworth將堅毅力表述為追求長期目標(biāo)時保持持續(xù)激情和努力工作的傾向[11];在2016年,Duckworth出版專著明確指出堅毅力是一種二元復(fù)合的品質(zhì),包括激情和堅持兩部分[12]。由此可見,堅毅力是由激情和堅持兩部分要素構(gòu)成(也稱興趣穩(wěn)定性和努力持續(xù)性),出現(xiàn)在個體追求長期目標(biāo)的過程中。堅毅力概念一經(jīng)提出,便迅速成為國內(nèi)外學(xué)術(shù)研究、政策制定、實踐應(yīng)用所關(guān)注的熱點話題。
有研究在Duckworth所提堅毅力內(nèi)涵的基礎(chǔ)上進(jìn)行了一定程度的拓展與更新,是對堅毅力內(nèi)涵及構(gòu)成要素的繼承與發(fā)展。比如,美國教育部將堅毅力定義為個體面對挑戰(zhàn)和挫折時,利用相互影響的心理資源堅持不懈地完成目標(biāo),并提出了一個框架,包括堅持不懈完成目標(biāo)(Perseverance to Accomplish Goals)、學(xué)術(shù)思維方式(Academic Mindsets)、努力控制(Effortful Control)及策略與戰(zhàn)術(shù)(Strategies and Tactics)等要素[13]。經(jīng)濟(jì)合作與發(fā)展組織(Organization for Economic Co-operation and Development,OECD)認(rèn)為堅毅力是指個體堅持不懈做任務(wù)直到完成,具體行為表現(xiàn)為突破阻礙,堅持完成目標(biāo),是屬于任務(wù)表現(xiàn)能力下的一項子能力[14]。劉妍等人[15]將不同情境中表征堅毅力屬性的術(shù)語(如責(zé)任心、勇氣、堅韌、堅持、持續(xù)力、學(xué)習(xí)投入、課程留存率和完成率等)統(tǒng)一概括為“學(xué)習(xí)毅力”,并認(rèn)為其是指學(xué)習(xí)者長期對目標(biāo)的堅持和激情的保持,不懼怕困難和挑戰(zhàn),保持堅持的行為傾向,以及堅持不懈的態(tài)度和性格,包括個體特征、關(guān)系特征、學(xué)習(xí)環(huán)境與媒體技術(shù)特征以及語境特征等要素。此外,還有學(xué)者重新聚焦目標(biāo)導(dǎo)向性,認(rèn)為堅毅力是個體制定并追求目標(biāo)驅(qū)動的長期目標(biāo)以及在遇到困難和挑戰(zhàn)的過程中有效調(diào)整短期目標(biāo)與目標(biāo)實現(xiàn)策略的一種主要的非認(rèn)知能力[16]。
雖然堅毅力的理論建構(gòu)在心理測量領(lǐng)域得到了基本的認(rèn)可,但是對堅毅力的幾個基本問題的質(zhì)疑與批判一直存在,其中最典型的就是堅毅力的理論因素結(jié)構(gòu)問題,引起了廣泛的關(guān)注。如Credé等人[17]采用元分析方法對88個代表66807個個人的獨立樣本的584個效應(yīng)量進(jìn)行分析,得出的結(jié)果表明:堅毅力的高階結(jié)構(gòu)沒有得到證實。Fosnacht等人[18]采用驗證性因子分析方法對38所大學(xué)本科生的堅毅力數(shù)據(jù)進(jìn)行了分析,發(fā)現(xiàn)堅毅力的二維結(jié)構(gòu)理論模型擬合不充分,證實了之前研究的結(jié)論。換言之,當(dāng)前堅毅力的高階結(jié)構(gòu)劃分是有問題的,有必要進(jìn)行批判性地重構(gòu)。
(二)堅毅力的測評工具設(shè)計與應(yīng)用
堅毅力提出之后,Duckworth相對應(yīng)開發(fā)出了能夠采用自我報告法(自評與他評)進(jìn)行堅毅力測評的工具——原始堅毅力測評量表(Original Grit Scale,Grit-O)[19]。該測評量表采用李克特五點量表進(jìn)行設(shè)計(選項從1分到5分,表示從完全不像我到非常像我),分別針對努力持續(xù)性和興趣穩(wěn)定性兩個要素設(shè)計了6道題,其中興趣穩(wěn)定性維度采用反向計分,量表得分由各項題目得分相加,最后換算成為1—5分制的堅毅力指數(shù)。而后,Duckworth針對Grit-O進(jìn)行了簡化,形成了簡版的堅毅力測評量表(Short Grit Scale,Grit-S)[20]。Grit-S工具在原來的基礎(chǔ)上,對努力持續(xù)性和興趣穩(wěn)定性兩個維度的測評各刪除了2道題目,實踐表明Grit-S工具的信效度與Grit-O工具基本一致。
在測評堅毅力的工具中,Grit-S工具是應(yīng)用最廣泛的,但并不是唯一工具。存在一些其他量表能夠?qū)砸懔﹂_展測評,并進(jìn)行了實踐。比如,OECD在2012年的PISA測試中,針對學(xué)生問題解決時的堅毅力開發(fā)了相對應(yīng)的量表,共5道題[21]。2019年,OECD又在青少年社會與情感能力的測評中,針對堅毅力開發(fā)了相應(yīng)的量表[22]。Tyumeneva等人[23]在Grit-S工具的基礎(chǔ)上,基于項目反應(yīng)分析和因子驗證分析,開發(fā)了俄羅斯版本的堅毅力測評量表,與Grit-S工具相比,增加了三個測評項目。我國學(xué)者謝娜等人[24]基于Grit-O工具,采用驗證性因子分析修訂形成了中文版12條目堅毅量表(12 Item Grit Scale),并選取440名成年人進(jìn)行測驗驗證了其信效度。在此基礎(chǔ)之上,宋莉莉等人[25]又檢驗了該量表在我國青少年群體中的信效度。因此,自堅毅力提出伊始,在后續(xù)十幾年的國內(nèi)外研究中,研究者們基本采用自我報告的方法(更多是采用Duckworth開發(fā)的Grit-S工具)測評堅毅力以及開展相關(guān)研究。
然而,運(yùn)用自我報告法調(diào)查得出來的堅毅力結(jié)果及其預(yù)測作用并非都得到了學(xué)界的一致認(rèn)可。有研究者認(rèn)為,Duckworth及其同事利用Grit-S工具收集的主觀經(jīng)驗數(shù)據(jù)對堅毅力能夠預(yù)測個體成功、學(xué)業(yè)表現(xiàn)提供了有限的支持,這從源頭否定了利用Grit-S工具開展對堅毅力測評的可靠性[26]。還有研究者認(rèn)為是性格(如責(zé)任心、自我控制等)預(yù)測了學(xué)生學(xué)業(yè)成就,而非學(xué)生的堅毅力,堅毅力在預(yù)測學(xué)生學(xué)業(yè)成就方面幾乎沒有顯著或遺傳上的作用,根本原因在于堅毅力的內(nèi)隱機(jī)制尚未可知[27]。這也間接說明堅毅力對學(xué)業(yè)成就等方面的作用存在著一種未知的潛在機(jī)制[28],導(dǎo)致人們會質(zhì)疑人為主觀方法測評得出來的結(jié)果。總而言之,當(dāng)前堅毅力測評客觀性不足已經(jīng)成為現(xiàn)實問題。
綜上所述,一方面,在心理測量領(lǐng)域?qū)W生堅毅力由努力持續(xù)性和興趣穩(wěn)定性兩個內(nèi)容要素構(gòu)成。但是,批判質(zhì)疑的聲音依舊不斷,引起國內(nèi)外研究者的重視。從多模態(tài)數(shù)據(jù)支持的測評角度來看,現(xiàn)有的兩個內(nèi)容要素依舊寬泛,離可操作性還有較大的距離。盡管有研究者對堅毅力的要素構(gòu)成進(jìn)行了拆解與補(bǔ)充,但還是難以直接應(yīng)用于多模態(tài)數(shù)據(jù)支持的測評中。因此,就多模態(tài)數(shù)據(jù)支持的測評而言,學(xué)生堅毅力測評的理論框架有必要在已有研究基礎(chǔ)之上進(jìn)行延伸與重構(gòu)。另一方面,目前學(xué)生堅毅力測評的工具與方法應(yīng)用廣泛,為堅毅力的測評及其預(yù)測作用提供了較好地支持。然而,目前鮮有多模態(tài)數(shù)據(jù)支持的堅毅力測評研究。測評主要通過量表實現(xiàn),學(xué)生在測評過程中難免會受社會稱許性影響,不能得到較為客觀的測評結(jié)果。因此,就多模態(tài)數(shù)據(jù)支持的測評而言,學(xué)生堅毅力測評的工具也有必要重新設(shè)計,進(jìn)而采集多模態(tài)數(shù)據(jù)。整體而言,本研究將重點回答以下三個問題:
第一,學(xué)生堅毅力測評的理論模型是什么?第二,評價學(xué)生堅毅力的表現(xiàn)性評價工具如何設(shè)計?
第三,表征學(xué)生堅毅力測評理論模型的數(shù)據(jù)指標(biāo)是什么?
(一)初始理論模型構(gòu)建
1.研究方法
本研究借鑒扎根理論的基本思想與方法,以2007年1月為起始點,收集15年間有關(guān)堅毅力研究的國內(nèi)外權(quán)威期刊文獻(xiàn)或報告,通過質(zhì)性分析對文獻(xiàn)進(jìn)行編碼,進(jìn)而構(gòu)建初始理論模型。
2.文獻(xiàn)檢索與篩選
為精準(zhǔn)獲取到國內(nèi)外有關(guān)堅毅力研究的高質(zhì)量原始文獻(xiàn)資料,本研究以“TI=(grit*)”為檢索式在Web of Science核心合集中進(jìn)行精確檢索,時間限定在2007年至2022年,語言為英語,共檢索到英文文獻(xiàn)1239篇;以“堅毅”為主題詞在CNKI北大核心和CSSCI來源期刊中進(jìn)行檢索,時間為2007年至2022年,共檢索到中文文獻(xiàn)26篇。
基于修訂后的納入標(biāo)準(zhǔn)①:非重復(fù)出現(xiàn)、必須為期刊論文、研究必須清晰表達(dá)對堅毅力的內(nèi)涵及其特征的描述、研究主題與堅毅力的測量緊密相關(guān),本研究在1239篇英文文獻(xiàn)中選入文獻(xiàn)58篇,在26篇中文文獻(xiàn)中選入文獻(xiàn)24篇,并采用“滾雪球”的方式對納入文獻(xiàn)的參考文獻(xiàn)進(jìn)行了檢索和閱讀。為納入更多符合標(biāo)準(zhǔn)的文獻(xiàn),這次也納入了權(quán)威的教育研究報告,最終共計得到文獻(xiàn)84篇。在英文文獻(xiàn)資料正式分析之前,本研究先將與堅毅力的內(nèi)涵及其特征的描述內(nèi)容翻譯成了中文,再導(dǎo)入NVivo 11軟件中進(jìn)行編碼分析。
3.數(shù)據(jù)編碼與模型構(gòu)建
將24篇中文文獻(xiàn)及翻譯好的關(guān)于堅毅力內(nèi)涵及其特征描述的文檔導(dǎo)入質(zhì)性分析軟件NVivo 11中進(jìn)行編碼分析,編碼工作由研究者一人完成。通過開放式、關(guān)聯(lián)式以及核心式編碼方式,本研究最后得到學(xué)生堅毅力測評的層級結(jié)構(gòu)編碼統(tǒng)計表(如下頁表1所示)。

基于以上步驟,本研究構(gòu)建了學(xué)生堅毅力測評的初始理論模型(如表2所示)。

(二)模型修訂
本研究采用Delphi法,編制了專家函詢問卷(包括各級指標(biāo)重要程度、咨詢內(nèi)容熟悉程度、打分依據(jù)等),通過郵件、微信等在線方式邀請了15位專家(心理測量領(lǐng)域、教育技術(shù)領(lǐng)域以及一線教學(xué)實踐領(lǐng)域各5位)進(jìn)行意見征詢。在每一輪次意見征詢中,本研究均計算專家積極系數(shù)(P)、專家意見權(quán)威程度系數(shù)(Cr)、專家意見集中程度(用指標(biāo)重要程度算術(shù)平均值M表示)、專家意見協(xié)調(diào)程度(用變異系數(shù)CV表示)。對于指標(biāo)的入選,本研究以指標(biāo)的重要性評分算術(shù)平均值M>3.50、變異系數(shù)CV<0.25為標(biāo)準(zhǔn)[29];對于指標(biāo)的增加、修改、合并,本研究以專家的合理性質(zhì)性意見為依據(jù)。
1.第一輪專家意見征詢結(jié)果分析
經(jīng)數(shù)據(jù)統(tǒng)計分析,第一輪次P的值為100%,Cr的均值為0.84>0.70,說明專家組的評分符合要求,咨詢的結(jié)果可靠性較高;3個一級指標(biāo)M的范圍為4.40—4.73,CV的范圍為0.12—0.14,7個二級指標(biāo)M的范圍為3.73—5.00,CV的范圍為0.00—0.20,這說明所有一、二級指標(biāo)均達(dá)到標(biāo)準(zhǔn),故不刪除。然而,結(jié)合專家的質(zhì)性意見,一些指標(biāo)需要合并以及需要增加新指標(biāo),同時一些指標(biāo)在內(nèi)涵表述上模糊不清。具體修改情況為:“A3 堅毅的心理投入性”改為“堅毅的認(rèn)知性”;“B2 持續(xù)堅持”改為“堅持性”;“B3 自我控制、B6 認(rèn)知調(diào)節(jié)、B7 策略使用”合并成一個指標(biāo),改為“自我監(jiān)控”,放在一級指標(biāo)“A3 堅毅的認(rèn)知性”維度下;在“堅毅的情感性”維度下增加“中性情感”指標(biāo),在“堅毅的認(rèn)知性”維度下增加“努力意識”指標(biāo)。與此同時,本研究對相應(yīng)指標(biāo)內(nèi)涵的模糊性進(jìn)行了修改,比如,“A1 堅毅的行為性”內(nèi)涵改為“制定并追求目標(biāo)實現(xiàn)在行為上所體現(xiàn)的持續(xù)努力程度”;“A2 堅毅的情感性”內(nèi)涵改為“制定并追求目標(biāo)實現(xiàn)在情感上所體現(xiàn)的積極程度”等。
2.第二輪專家意見征詢結(jié)果分析
經(jīng)數(shù)據(jù)統(tǒng)計分析,第二輪次P的值也為100%,Cr的均值也為0.84>0.70,說明咨詢的結(jié)果可靠性較高;3個一級指標(biāo)M的范圍為4.53—4.87,CV的范圍為0.07—0.11,7個二級指標(biāo)M的范圍為3.47—4.93,CV的范圍為0.05—0.26,說明所有一級指標(biāo)均達(dá)到標(biāo)準(zhǔn),故不刪除。但是,發(fā)現(xiàn)二級指標(biāo)“B4 中性情感”不符合要求,并且專家意見也建議刪除,因此本研究刪除該指標(biāo)。結(jié)合專家的質(zhì)性意見,部分指標(biāo)名稱需要修改,同時部分指標(biāo)在內(nèi)涵表述上需要進(jìn)一步強(qiáng)化。具體修改情況為:“B6 努力意識”改為“目標(biāo)意識”,突出堅毅的目標(biāo)導(dǎo)向。此外,本研究對部分指標(biāo)內(nèi)涵的模糊性作了修改,比如,“A3 堅毅的認(rèn)知性”內(nèi)涵改為“制定并追求目標(biāo)實現(xiàn)在認(rèn)知上所體現(xiàn)的目標(biāo)意識和自我監(jiān)控程度”;“B3 積極情感”內(nèi)涵改為“制定并追求目標(biāo)實現(xiàn)過程中的積極情感,如開心、驚奇等”;“B5 消極情感”內(nèi)涵改為“制定并追求目標(biāo)實現(xiàn)過程中的消極情感,如沮喪、厭倦等”等。
經(jīng)過兩輪Delphi,指標(biāo)項M逐漸變大,CV逐漸縮小,專家質(zhì)性意見趨于一致,不涉及完全顛覆性的修改。因此,本研究得到修訂后的學(xué)生堅毅力測評理論模型(如表3所示)。

進(jìn)一步地,基于以上本研究將堅毅力定義為:學(xué)生在學(xué)習(xí)、生活的一定過程中制定并追求目標(biāo)實現(xiàn)策略性地保持持續(xù)努力、情感積極度以及心理努力的一種能力,具有行為、情感以及認(rèn)知3個屬性特征。
如上所述,隨著表現(xiàn)性評價的推進(jìn),探究實踐活動逐漸成為堅毅力測評的重要場景。因此,本研究在理論模型的指導(dǎo)下,設(shè)計面向科學(xué)探究活動場景的學(xué)生堅毅力表現(xiàn)性評價工具,采集表征學(xué)生堅毅力的多模態(tài)數(shù)據(jù),最終實現(xiàn)對學(xué)生堅毅力的相對客觀化與智能化測評。
(一)設(shè)計思路
借鑒以往研究基于在線的能力測評思路[30][31],本著學(xué)評融合的新理念[32][33],本研究遵循“明確測評目標(biāo)-標(biāo)定測評形式-設(shè)計測評框架-研發(fā)測評任務(wù)-設(shè)計數(shù)據(jù)埋點-制定評價規(guī)則”的步驟對評價學(xué)生堅毅力的表現(xiàn)性評價工具進(jìn)行設(shè)計,如圖1所示。

明確測評目標(biāo)。本研究測評工具的設(shè)計旨在獲取表征學(xué)生堅毅力的多模態(tài)數(shù)據(jù),進(jìn)而測評學(xué)生的堅毅力水平。
標(biāo)定測評形式。考慮到未來研究對象的規(guī)模以及規(guī)模化數(shù)據(jù)采集帶來的成本問題,本研究放棄純線下數(shù)據(jù)采集的方式,轉(zhuǎn)而設(shè)計線上線下相結(jié)合的方式。需要指出的是,“線下”指的是家庭環(huán)境場景,而非大眾認(rèn)為的線下科技館,這主要是考慮到城鄉(xiāng)差異性。因此,學(xué)生堅毅力測評形式也定為線上線下相結(jié)合的方式。
設(shè)計測評框架。本研究以前期設(shè)計的學(xué)生堅毅力測評理論模型為測評指導(dǎo)框架,指導(dǎo)測評任務(wù)以及數(shù)據(jù)采集的設(shè)計。
研發(fā)測評任務(wù)。本研究在嚴(yán)格對照《科學(xué)課程標(biāo)準(zhǔn)(2022版)》的最新要求下,設(shè)計面向科學(xué)探究活動情境的線上線下探究實驗任務(wù),以此作為學(xué)生堅毅力測評的任務(wù)。加入在家庭環(huán)境場景下的線下操作是因為科學(xué)探究活動的一些操作項需要家長輔助拍攝進(jìn)行上傳,以采集數(shù)據(jù)。本研究旨在通過獲取學(xué)生參與探究實驗任務(wù)中的主客觀數(shù)據(jù)來全面描繪學(xué)生學(xué)習(xí)、生活一定過程中的堅毅力發(fā)展?fàn)顩r。
設(shè)計數(shù)據(jù)埋點。考慮工具的在線化,本研究以學(xué)生堅毅力測評理論模型為依據(jù)設(shè)計諸如登錄、播放視頻、選擇答案、點擊下一頁、返回上一頁、上傳圖片、上傳視頻、提交等在線行為操作埋點。
制定評價規(guī)則。評價規(guī)則是測評的基礎(chǔ)。只有明確的評價規(guī)則才能將所采集的數(shù)據(jù)轉(zhuǎn)化為具有實際意義的量化數(shù)值。本研究針對采集的數(shù)據(jù)制定了不同的評分標(biāo)準(zhǔn),有些是直接賦予分值,有些則是通過算法進(jìn)行計算,最后歸一化得到。
(二)工具設(shè)計
基于以上思路,本研究整合中國科學(xué)技術(shù)館的現(xiàn)有活動資源,以“逐夢月球探月主題活動之思月”(任務(wù)內(nèi)容主要是探究影響月球上隕石坑大小的因素)這一科學(xué)探究活動任務(wù)為例(對象為四年學(xué)生),設(shè)計表現(xiàn)性評價工具。該測評工具貫徹學(xué)評融合理念,初始設(shè)計由“學(xué)習(xí)視頻+學(xué)習(xí)任務(wù)單”兩部分組成,具有內(nèi)容生活化、情境代入性、材料可易得等典型特征。
所謂“學(xué)習(xí)視頻”,就是工具設(shè)計者將相應(yīng)探究任務(wù)的知識點(與日常生活、科學(xué)技術(shù)等密切相關(guān))錄制成15分鐘左右的微視頻傳至測評平臺,供學(xué)生開展探究任務(wù)之前觀看。對于本測評工具而言,教師會錄制探究實驗視頻,重點講解“隕石的質(zhì)量對隕石坑大小的影響(重量的影響)”這一探究實驗,讓學(xué)生掌握“控制單一變量法”。
“學(xué)習(xí)任務(wù)清單”是指工具設(shè)計者創(chuàng)建特定生活化的情境,引導(dǎo)學(xué)生進(jìn)行角色扮演與代入完成相應(yīng)任務(wù),包括單選題、多選題、簡答題(自我反思等)等題型以及圖片上傳、視頻上傳等操作。其中,動手實驗操作題要求學(xué)生與家長在家中利用身邊可用、易得的材料共同完成科學(xué)實驗,并拍攝完整的探究視頻進(jìn)行上傳。對于本測評工具而言,要求學(xué)生在看完視頻之后依據(jù)特定情境完成探究任務(wù),實現(xiàn)對“控制單一變量法”的遷移應(yīng)用。
面向科學(xué)探究活動場景的學(xué)生堅毅力測評工具在線界面如下頁圖2所示。
首先,測評工具展示的是導(dǎo)語,如下頁圖2(a),主要包括測評目的、測評要求等基礎(chǔ)性信息,讓學(xué)生與家長對整個測評有一個大概的了解;然后,展示的是視頻學(xué)習(xí)資源頁面,如下頁圖2(b),學(xué)生可以反復(fù)觀看視頻資源;最后,展示的是“學(xué)習(xí)任務(wù)單”頁面,如下頁圖2(c)、(d),學(xué)生需要依據(jù)要求完成測試、實驗操作(2個實驗)等多種類型的任務(wù)。與以往此類型工具不同之處在于,除了普通的測試以外,還要求學(xué)生與家長在線下一起動手(學(xué)生動手做,家長輔助拍攝)進(jìn)行科學(xué)實驗,并將學(xué)生表現(xiàn)性行為拍攝成完整的視頻進(jìn)行上傳。在整個測評的過程中可以采集學(xué)生參與任務(wù)的文本、視頻、圖像、日志等表征堅毅力的多模態(tài)數(shù)據(jù)。


(三)工具修訂
針對工具的科學(xué)性,本研究依托中國科學(xué)技術(shù)館合作學(xué)校邀請了科學(xué)課程教師進(jìn)行了評估。教師認(rèn)為內(nèi)容上符合科學(xué)性,并對部分題目的呈現(xiàn)方式做了更改。針對工具的可靠性,本研究邀請了10位心理測量方向的研究生進(jìn)行了審查。審查結(jié)果表明工具整體上能夠測評學(xué)生的堅毅力,并提出了進(jìn)一步的優(yōu)化方案。
此外,本研究選取約150名四年學(xué)生于2022年9月23日至9月30日對該工具進(jìn)行了試測。試測過程中,學(xué)生和家長反饋工具在實驗操作環(huán)節(jié)上有些復(fù)雜,重復(fù)做兩個類似的實驗浪費(fèi)時間,沒有太大意義。試測結(jié)束之后,本研究咨詢了堅毅力測評專家對該工具的意見。專家認(rèn)為工具缺少一個重要的測評角度——目標(biāo)信息。結(jié)合本研究對堅毅力內(nèi)涵的定義,目標(biāo)信息的了解確實沒有體現(xiàn)。因此,基于以上不同人群對象的意見反饋,本研究對測評工具進(jìn)行了修訂。
測評工具的修訂主要體現(xiàn)在刪除了原有工具中的第二個實驗,進(jìn)一步精簡了測評題目,優(yōu)化了題目的呈現(xiàn)方式。比如,測評最后一題為自我反思,試測階段時設(shè)計為讓學(xué)生在線輸入250字左右;而修訂之后讓學(xué)生寫在格子紙張上,字?jǐn)?shù)為50—100字,并拍照進(jìn)行上傳。之所以這樣修改是考慮到四年級學(xué)生在線輸入過多字?jǐn)?shù)會有一定的困難。另外,在測評工具的導(dǎo)語之后增加了目標(biāo)信息。因此,修訂后的測評工具主要以“目標(biāo)信息+學(xué)習(xí)視頻+學(xué)習(xí)任務(wù)單”的形式呈現(xiàn),如圖3所示。
學(xué)生堅毅力如何計算還依賴于理論模型底層指標(biāo)的具體數(shù)據(jù)指標(biāo)。針對這一問題,本研究結(jié)合理論模型對測評工具的數(shù)據(jù)采集以及底層指標(biāo)的數(shù)據(jù)表征進(jìn)行了設(shè)計與說明。數(shù)據(jù)采集要求及底層指標(biāo)的數(shù)據(jù)特征如表4所示。

具體而言,每一個二級指標(biāo)的具體數(shù)據(jù)指標(biāo)分別如下所述。
(一)專注性
本研究采用頭部姿態(tài)和系統(tǒng)行為日志兩類數(shù)據(jù)共同表征“專注性”指標(biāo)。在學(xué)習(xí)的過程中,學(xué)生頭部朝向可以在很大程度上反映學(xué)生注意力的關(guān)注點,故檢測頭部朝向就能大致判斷出視線方向和關(guān)注點[34]。一般而言,通過判斷一個學(xué)生的抬頭(Pitch)與搖頭(Yaw)這一頭部姿態(tài)情況,即可判斷專注性[35]。因此,本研究研究采用Pitch值與Yaw值作為學(xué)生頭部姿態(tài)評估的特征,進(jìn)而判斷學(xué)生的專注性。此外,學(xué)生在線完成任務(wù)的過程中,行為特征也能夠表征其專注性。依據(jù)研究設(shè)計的活動任務(wù),本研究選取首次觀看視頻時完整播放視頻、整體任務(wù)完成的效率(完成題數(shù)與完成整個任務(wù)時間的比值)作為本研究場景中專注性的行為特征。
(二)堅持性
本研究采用自我反思報告和系統(tǒng)行為日志兩類數(shù)據(jù)共同表征“堅持性”指標(biāo)。針對自我反思報告,本研究采用文本中體現(xiàn)“堅持”的句子關(guān)鍵詞特征進(jìn)行表示,如“依舊堅持”“不放棄”“沒有半途而廢”等。此外,有研究認(rèn)為在線環(huán)境中,登錄時間間隔規(guī)律是表征學(xué)生是否堅持的行為指標(biāo)[36]。因此,本研究也采用登錄時間間隔規(guī)律來表征“堅持性”指標(biāo)。登錄時間間隔規(guī)律通過計算學(xué)生登錄間隔時間(分)的標(biāo)準(zhǔn)差來進(jìn)行測量。再者,本研究還采用實驗操作試題時長這一行為特征來衡量學(xué)生的堅持性。因為本研究中堅持性的含義有一個側(cè)重點是學(xué)生在制定并追求目標(biāo)實現(xiàn)過程中盡管有困難,但依舊能夠堅持完成。研究設(shè)計的實驗操作對學(xué)生來講存在一定的難度,所以實驗操作的時長能夠反映學(xué)生在遇到困難但依舊堅持完成的特點。
(三)積極情感與消極情感
有研究指出基于面部表情數(shù)據(jù)識別的學(xué)習(xí)情感與使用自我報告數(shù)據(jù)識別的學(xué)習(xí)情感具有很高的一致性(76.6%)[37]。因此,本研究采用學(xué)生面部表情數(shù)據(jù)與自我反思報告數(shù)據(jù)共同表征“積極情感、消極情感”指標(biāo)。本研究采用Ekman提出的人類基本情感作為情感識別的框架[38],即情感具體分為驚奇/驚訝(Surprise)、開心/高興(Happiness)、恐懼/害怕(Fear)、悲傷(Sadness)、憤怒/生氣(Anger)、厭倦(Disgust),其中驚奇/驚訝、開心/高興為積極情感,恐懼/害怕、悲傷、憤怒/生氣、厭倦為消極情感。針對面部表情,本研究采用Open Face中內(nèi)含18種與6類基本情感相關(guān)的AU(Action Units)作為情感識別的重要特征(AU01、AU02、AU04、AU05、AU06、AU07、AU09、AU10、AU12、AU14、AU15、AU17、AU20、AU23、AU25、 AU26、AU28、AU45出現(xiàn)頻率的均值、標(biāo)準(zhǔn)差,出現(xiàn)強(qiáng)度的均值、最大值、最小值與標(biāo)準(zhǔn)差),進(jìn)而輸出情感類型。進(jìn)一步地,本研究將視頻中學(xué)生驚奇/驚訝、開心/高興情感出現(xiàn)持續(xù)的時長作為積極情感的數(shù)據(jù)指標(biāo),將恐懼/害怕、悲傷、憤怒/生氣、厭倦情感出現(xiàn)持續(xù)的時長作為消極情感的數(shù)據(jù)指標(biāo)。針對自我反思報告,本研究采用情感詞典識別出文本的情感傾向,因此積極情感傾向值和消極情感傾向值將作為文本情感識別的特征值。
(四)目標(biāo)意識
本研究采用目標(biāo)信息題項答案和自我反思報告兩類數(shù)據(jù)共同表征“目標(biāo)意識”指標(biāo)。針對目標(biāo)信息題項答案,本研究設(shè)計了4個不同傾向的答案,因此采用選擇的文本傾向答案分值作為該類數(shù)據(jù)的特征。針對自我反思報告類數(shù)據(jù),本研究采用文本中體現(xiàn)“制定目標(biāo)”的句子關(guān)鍵詞特征(如有目標(biāo)、有制定目標(biāo)等)、文本中體現(xiàn)“目標(biāo)始終保持一致”的句子關(guān)鍵詞特征進(jìn)行表征(如目標(biāo)和開始始終保持一致、目標(biāo)始終保持一致等)。
(五)自我監(jiān)控
本研究采用自我反思報告和系統(tǒng)行為日志兩類數(shù)據(jù)共同表征“自我監(jiān)控”指標(biāo)。針對自我反思報告類數(shù)據(jù),本研究采用“靈活應(yīng)對困難”的句子特征、“情感調(diào)節(jié)”的句子特征進(jìn)行表征,具體依據(jù)研究場景設(shè)置三類自我監(jiān)控水平:高、中、低,采用人工標(biāo)注特征的方式進(jìn)行識別。系統(tǒng)行為日志在某種程度上也能夠反映學(xué)生在制定并追求目標(biāo)實現(xiàn)過程中對自身持續(xù)努力行為、情感的監(jiān)控,比如反復(fù)觀看視頻、反復(fù)回到前一任務(wù)等。這些行為體現(xiàn)了學(xué)生在應(yīng)對困惑、困難等目標(biāo)實現(xiàn)阻礙時的一些可能性舉措。因此,本研究采用查看學(xué)習(xí)視頻的次數(shù)、返回上一頁的次數(shù)表征學(xué)生自我監(jiān)控的行為特征。
在以“立德樹人”為根本任務(wù)、培養(yǎng)德智體美勞全面發(fā)展的社會主義建設(shè)者和接班人的教育目標(biāo)指引下,堅毅力是學(xué)生綜合素質(zhì)中必備的優(yōu)秀品質(zhì)之一,也是我國未來人才培養(yǎng)的核心目標(biāo)之一,對其開展測評具有重要的現(xiàn)實意義。當(dāng)下,從多模態(tài)數(shù)據(jù)支持的測評視角來看,現(xiàn)有堅毅力測評理論框架已不適宜,并且傳統(tǒng)的自我報告法測評也導(dǎo)致諸多現(xiàn)實問題。為了進(jìn)一步解決上述問題,本研究重構(gòu)了學(xué)生堅毅力測評的理論框架,開發(fā)了面向科學(xué)探究活動場景的學(xué)生堅毅力測評的表現(xiàn)性評價工具,設(shè)計了理論模型的數(shù)據(jù)映射指標(biāo)。實踐是檢驗真理的唯一標(biāo)準(zhǔn)。重構(gòu)的學(xué)生堅毅力測評理論模型以及新設(shè)計的評價學(xué)生堅毅力的表現(xiàn)性評價工具到底在多大程度上能夠解決實踐中的堅毅力測評問題,這是一個值得深度研究的科學(xué)命題,包括學(xué)生堅毅力指標(biāo)如何賦權(quán)?學(xué)生堅毅力多模態(tài)數(shù)據(jù)如何融合計算?學(xué)生堅毅力如何計算等等。未來,研究將應(yīng)用這一表現(xiàn)性評價工具采集大規(guī)模學(xué)生的多模態(tài)數(shù)據(jù),圍繞多模態(tài)數(shù)據(jù)融合計算,開展對學(xué)生堅毅力的智能化測評與發(fā)展的長期追蹤溯源,期望能為同類測評提供解決方案,助力破解教育評價改革的“卡脖子”問題。
參考文獻(xiàn):
[1] 國務(wù)院.中共中央 國務(wù)院印發(fā)《深化新時代教育評價改革總體方案》[EB/OL].http://www.gov.cn/gongbao/content/2020/content_5554488. htm,2023-01-14.
[2] 教育部.教育部關(guān)于加強(qiáng)和改進(jìn)普通高中學(xué)生綜合素質(zhì)評價的意見[EB/OL].http://www.moe.gov.cn/srcsite/A06/s3732/201808/ t20180807_344612.html,2023-05-07.
[3] 柴喚友,陳麗等.學(xué)生綜合評價研究新趨向:從綜合素質(zhì)、核心素養(yǎng)到綜合素養(yǎng)[J].中國電化教育,2022,(3):36-43.
[4] 林崇德.構(gòu)建中國化的學(xué)生發(fā)展核心素養(yǎng)[J].北京師范大學(xué)學(xué)報(社會科學(xué)版),2017,259(1):66-73.
[5][8] 教育部.教育部關(guān)于印發(fā)義務(wù)教育課程方案和課程標(biāo)準(zhǔn)(2022年版)的通知[EB/OL].http://www.moe.gov.cn/srcsite/A26/s8001/202204/ W020220420582343217634.pdf,2023-01-14.
[6][10][19] Duckworth A,Peterson C,et al.Grit:perseverance and passion for longterm goals [J].Journal of personality and social psychology,2007,92(6):1087-1101.
[7] 鐘薇,李若晨等.學(xué)習(xí)分析技術(shù)發(fā)展趨向——多模態(tài)數(shù)據(jù)環(huán)境下的研究與探索[J].中國遠(yuǎn)程教育,2018,(11):41-49+79-80.
[9] 教育部.義務(wù)教育科學(xué)課程標(biāo)準(zhǔn)(2022年版)[EB/OL].http://202.112.81.11/ cache/7/03/www.moe.gov.cn/d687eeb749a3219b2e8b00c03021eee0/ W020220420582355009892.pdf,2023-01-14.
[11] Von Culin K R,Tsukayama E,et al.Unpacking grit:Motivational correlates of perseverance and passion for long-term goals [J].The Journal of Positive Psychology,2014,9(4):306-312.
[12][22] Duckworth A.Grit:The power of passion and perseverance [M]. New York:Scribner,2016.
[13] Shechtman N,Debarger A H,et al. Promoting grit,tenacity,and perseverance:Critical factors for success in the 21st century [R]. Washington:US Department of Education,Department of Educational Technology,2013.1-107.
[14] 高星原,陳紅燕等.任務(wù)能力:中國青少年社會與情感能力測評分報告之一[J].華東師范大學(xué)學(xué)報(教育科學(xué)版),2021,39(9):33-46.
[15] 劉妍,管秀等.我們真的了解學(xué)習(xí)毅力嗎 :基于扎根理論刻畫教師視角的可塑模型研究[J].全球教育展望,2022,51(2):39-58.
[16] Jordan S L,F(xiàn)erris G R,et al.Toward a work motivation conceptualization of grit in organizations [J].Group & Organization Management,2019,44(2):320-360.
[17] Credé M,Tynan M C,et al.Much ado about grit:A meta-analytic synthesis of the grit literature [J].Journal of Personality and social Psychology,2017,113(3):1-21.
[18] Fosnacht K,Copridge K,et al.How valid is grit in the postsecondary context A construct and concurrent validity analysis [J].Research in Higher Education,2019,60(6):803-822.
[20] Duckworth A,Quinn P D.Development and validation of the Short Grit Scale (GRIT-S) [J].Journal of personality assessment,2009,91(2):166-174.
[21] OECD.OECD Program for International Student Assessment 2012[EB/OL].https://nces.ed.gov/surveys/pisa/pdf/MS12_StQ_FormA_ ENG_USA_final.pdf,2023-01-14.
[23] Tyumeneva Y,Kuzmina J,et al.IRT analysis and validation of the Grit Scale:A Russian investigation [J].National Research University of Higher School Higher School,2014,(24):1-33.
[24] 謝娜,王臻等.12項堅毅量表(12-Item Grit Scale)的中文修訂[J].中國健康心理學(xué)雜志,2017,25(6):893-896.
[25] 宋莉莉,邱瑀等.12條目堅毅量表中文版在青少年群體中的信效度檢驗[J].中國健康心理學(xué)雜志,2021,29(9):1354-1359.
[26] Credé M.What shall we do about grit A critical review of what we know and what we dont know [J].Educational Researcher,2018,47(9):606-611.
[27] Rimfeld K,Kovas Y,et al.True grit and genetics:Predicting academic achievement from personality [J].Journal of personality and social psychology,2016,111(5):780-789.
[28] Lam K K L,Zhou M.Examining the relationship between grit and academic achievement within K‐12 and higher education:A systematic review [J].Psychology in the Schools,2019,56(10):1654-1686.
[29] 沈綺云,歐陽河等.產(chǎn)教融合目標(biāo)達(dá)成度評價指標(biāo)體系構(gòu)建——基于德爾菲法和層次分析法的研究[J].高教探索,2021,(12):104-109.
[30] Wu H K,Kuo C Y,et al.What makes an item more difficult Effects of modality and type of visual information in a computerbased assessment of scientific inquiry abilities [J].Computers & Education,2015,(85):35-48.
[31] Galla B M,Plummer B D,et al.The Academic Diligence Task(ADT):Assessing individual differences in effort on tedious but important schoolwork [J]. Contemporary educational psychology,2014,39(4):314-325.
[32] 張生,王雪等.人工智能賦能教育評價:“學(xué)評融合”新理念及核心要素[J].中國遠(yuǎn)程教育,2021,(2):1-8+16+76.
[33] 張生,郄卓妍等.學(xué)評融合理念下的中小學(xué)生評價反思能力研究[J].中國遠(yuǎn)程教育,2022,(4):18-26+76.
[34] 武法提,賴松等.聯(lián)合面部線索與眼動特征的在線學(xué)習(xí)專注度識別[J].中國電化教育,2022,(11):37-44.
[35] 鐘馬馳,張俊朗等.基于人臉檢測和模糊綜合評判的在線教育專注度研究[J].計算機(jī)科學(xué),2020,47(S2):196-203.
[36] Jo I H,Kim D,et al.Constructing proxy variables to measure adult learners time management strategies in LMS [J].Journal of Educational Technology & Society,2015,18(3):214-225.
[37] Harley J M,Bouchet F,et al.A multi-componential analysis of emotions during complex learning with an intelligent multi-agent system [J].Computers in Human Behavior,2015,(48):615-625.
[38] Ekman P,F(xiàn)riesen W V.Facial Action Coding System (FACS):A Technique for the Measurement of Facial Actions [J].Rivista Di Psichiatria,1978,47(2):126-38.
作者簡介:
郭利明:在讀博士,研究方向為在線學(xué)習(xí)分析、教育大數(shù)據(jù)。
鄭勤華:教授,博士,博士生導(dǎo)師,研究方向為在線教育、人工智能教育、教育大數(shù)據(jù)、學(xué)習(xí)分析。
齊欣:研究員,碩士,研究方向為科學(xué)教育。
Students Grits Assessment: Theoretical Model, Performance Assessment Tools and Data Indicators
Guo Liming1, Zheng Qinhua1, Qi Xin2
(1.The Research Center of Distance Education, Beijing Normal University, Beijing 100875; 2.The Center of Exhibition and Education, China Science and Technology Museum, Beijing 100101)
Abstract: Grit is one of students essential qualities and one of the core objectives of future talent training in China, so it is important to assess it. However, the relatively broad theoretical framework of the existing grit assessment and the self-limitation of the traditional subjective assessment methods are no longer suitable for the trend of the assessment supported by multimodal data. To further address these issues, the study combined Grounded Theory and Delphi to construct a theoretical model for measuring studentsgrits that contains three primary indicators, including behavioral, emotional, and cognitive indicators, and six secondary indicators, including concentration, persistence, positive emotion, negative emotion, goal awareness, and self-monitoring. Furthermore, the study used the theoretical model as a framework to design a performance assessment tool for measuring students grits in scientific inquiry activity scenarios. Combining the theoretical model and the assessment tool, the study designed and explained the data feature of the specific indicators of students grits assessment. The study will be able to provide theoretical and instrumental support for studentsgrits assessment based on multimodal data fusion and computation in the future.
Keywords: grits; grits assessment; performance assessment; scientific inquiry activities; data indicators; multimodal data
責(zé)任編輯:趙云建
① 鄭勤華為本文通訊作者。
① 參照Dyb 等人在《Empirical studies of agile software development: A systematic review》一文中提出的樣本選擇需要考慮嚴(yán)謹(jǐn)性、可信度以及相關(guān)性等三個主要問題進(jìn)行修訂。