999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)字化測評中過程性指標(biāo)的內(nèi)涵與分類

2024-01-01 00:00:00周京張曉霞任曉瓊姚學(xué)忠楊濤
考試研究 2024年4期

[摘 要] 數(shù)字化測評中的過程性數(shù)據(jù)為教育及心理評估帶來不可或缺的隱性價(jià)值。目前針對過程性指標(biāo)的定義與研究仍處于探索階段,在分類體系和指標(biāo)內(nèi)涵上缺乏規(guī)范性。梳理國內(nèi)外數(shù)字化測評中的過程性數(shù)據(jù)研究,將現(xiàn)有過程性指標(biāo)劃分為時間、一般動作和復(fù)雜策略三大類別,剖析每一類別內(nèi)的指標(biāo)內(nèi)涵及其研究進(jìn)展。對于過程性指標(biāo)的特征提取方法,從自下而上和自上而下兩個角度加以綜述與歸納,并針對指標(biāo)與潛在能力之間的模型評估及模型適用性進(jìn)行對比分析。過程性指標(biāo)研究在數(shù)據(jù)采集、分析解釋、理論創(chuàng)新、方法技術(shù)及倫理法規(guī)等方面均面臨諸多挑戰(zhàn),仍需不斷探究及驗(yàn)證。

[關(guān)鍵詞] 過程性數(shù)據(jù);日志文件;數(shù)字化測評;過程性指標(biāo)

[中圖分類號] G424.74 [文獻(xiàn)標(biāo)識碼] A

[文章編號] 1673—1654(2024)04—040—012

在教育及心理評估領(lǐng)域(以下“評估”均限指此領(lǐng)域),數(shù)字化測評產(chǎn)生的過程數(shù)據(jù)(process data)已經(jīng)被高效運(yùn)用于評價(jià)解析數(shù)據(jù)質(zhì)量、提高測量精細(xì)程度、定義面向過程的潛在特質(zhì)[1]、解決實(shí)質(zhì)性研究問題[2]等方面。基于過程數(shù)據(jù)所提取的測量指標(biāo),不僅可以為隱匿的思維過程提供測量證據(jù),還能通過豐富的行為軌跡提煉有意義的行為模式,為評價(jià)提供更加細(xì)化的評價(jià)顆粒及更加多元的證據(jù)來源。過程性數(shù)據(jù)的分析方法也從傳統(tǒng)的統(tǒng)計(jì)學(xué)和心理測量學(xué)范疇,擴(kuò)展到了適用于大規(guī)模數(shù)據(jù)分析的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等領(lǐng)域中[3-4],并且體現(xiàn)了二者的有效結(jié)合[5-6],為評估帶來了前所未有的機(jī)遇與挑戰(zhàn)。

國內(nèi)外大型評估驗(yàn)證了過程性數(shù)據(jù)為教育測評帶來的優(yōu)勢和潛力。由經(jīng)濟(jì)合作與發(fā)展組織(Organization for Economic Co-operation and Development,OECD)開展的國際學(xué)生評估項(xiàng)目(Programme for International Student Assessment,PISA)自2009年起逐漸引入計(jì)算機(jī)測評形式,從中提取的過程性指標(biāo)為數(shù)學(xué)素養(yǎng)、問題解決、閱讀素養(yǎng)等學(xué)生綜合能力評估提供了豐富多元的客觀證據(jù)。此外,由國際教育成就評價(jià)協(xié)會(The International Association for the Evaluation of Educational Achievement,IEA)組織的國際閱讀素養(yǎng)進(jìn)展研究(Progress in International Reading Literacy Study,PIRLS)及國際數(shù)學(xué)與科學(xué)趨勢研究(Trends in International Mathematics and Science Study,TIMSS)也分別于2016年和2019年啟動在線測評模式ePIRLS和eTIMSS,納入過程性數(shù)據(jù)的運(yùn)用,優(yōu)化評估的科學(xué)性與精準(zhǔn)性。同樣,被稱為美國“國家成績報(bào)告單”(The Nation’s Report Card)的“國家教育進(jìn)展評估”(National Assessment of Educational Progress,NAEP),通過對原始過程性數(shù)據(jù)的不斷檢驗(yàn)與剖析,結(jié)合所提取的過程性指標(biāo)和統(tǒng)計(jì)模型,探究隱藏在學(xué)生作答動作序列中的認(rèn)知信息。這些作答證據(jù),可以更加精準(zhǔn)地識別學(xué)生在問題解決過程中的隱性認(rèn)知表現(xiàn),進(jìn)而深入表征和分析學(xué)生的作答思路及作答策略[7]。可見,數(shù)字化測評中過程性數(shù)據(jù)所帶來的測評優(yōu)勢是傳統(tǒng)評估中的作答結(jié)果所不能比擬的。

相比于傳統(tǒng)評估,數(shù)字化測評下的過程性數(shù)據(jù)可以詳盡包含作答結(jié)果以及作答過程的行為記錄,在系統(tǒng)后臺中以日志文件(Log file)的形式存在。例如,開始與停止操作的時間、空閑時間、儀器操作及時長、鼠標(biāo)鍵盤的操作、頁面工具的使用、終結(jié)動作的當(dāng)前頁面操作、關(guān)鍵作答動作及其頻率、連續(xù)動作序列、嘗試動作、幫助行為等[8]。在教育及心理評估領(lǐng)域中,這些數(shù)據(jù)可以反映作答者的思維過程及認(rèn)知行為,也提供了體現(xiàn)解決方案的思路與策略信息[9]。已有證據(jù)表明,即便在總分完全一致的情況下,過程性作答證據(jù)仍可作為衡量個體能力差異的顯著性指標(biāo)[10]。

然而,盡管過程性數(shù)據(jù)的巨大價(jià)值已經(jīng)日益凸顯,但其指標(biāo)內(nèi)涵的界定與分類體系仍處于發(fā)展的初期階段,缺乏規(guī)范性、系統(tǒng)性。由于教育及心理所涉及的評估方向和關(guān)注點(diǎn)復(fù)雜多樣,加之日志文件繁雜冗余,導(dǎo)致現(xiàn)有評估性質(zhì)的過程性指標(biāo)呈現(xiàn)出零散龐雜的特點(diǎn),相同或類似的指標(biāo)以不同名稱分散于多類研究中,其指標(biāo)內(nèi)涵與屬性也指向各異,這為過程性指標(biāo)研究的推廣和發(fā)展帶來了困擾與阻礙。為使過程性指標(biāo)發(fā)揮更大價(jià)值,為教育及心理領(lǐng)域后續(xù)的研究與實(shí)踐提供更加系統(tǒng)規(guī)范的理論參照,本文通過對1980年起至今的國內(nèi)外近百篇過程性數(shù)據(jù)在教育及心理評估相關(guān)研究1的梳理及剖析,將眾多指標(biāo)及其內(nèi)涵和運(yùn)用加以詳細(xì)解析并規(guī)整分類,以期為該領(lǐng)域的后續(xù)研究提供階段性的理論與實(shí)踐參照。

一、常見過程性指標(biāo)歸類

過程性日志數(shù)據(jù)主要圍繞受測者行為的視角展開,目的是通過人機(jī)交互動作了解受測者的行為模式和內(nèi)部認(rèn)知過程。盡管日志文件包含“事件記錄”的多角度信息,具有類型、格式、來源、屬性等諸多分類角度,但適用于評估領(lǐng)域過程性指標(biāo)的劃分角度從時間[11]和用戶[12]兩大方向切入更為合理,依據(jù)如下:

第一,時間和用戶屬性是日志文件最為基礎(chǔ)、典型且必備的兩個屬性信息,在其他領(lǐng)域的日志文件分類研究中已有類似驗(yàn)證[13];

第二,教育評估領(lǐng)域?qū)φJ(rèn)知過程進(jìn)行研究時,所關(guān)注的個體行為及動作序列與日志文件的用戶行為與時間信息緊密相關(guān);

第三,在教育評估領(lǐng)域中,以往基于日志文件過程性指標(biāo)的研究需求與這兩類劃分標(biāo)準(zhǔn)相互匹配[14]。

挖掘時間和用戶這兩類日志信息的基本需求,均體現(xiàn)在對個體行為模式的動作特點(diǎn)及認(rèn)知過程的證據(jù)提取之上。在時間類日志數(shù)據(jù)中,時間屬性通常作為反映不同行為特點(diǎn)的側(cè)面驗(yàn)證元素或時間節(jié)點(diǎn)證據(jù),即通過比較關(guān)鍵的時間點(diǎn)、時長、周期[15]、一定時間范圍內(nèi)的行為頻率、峰值或規(guī)律[16],依據(jù)日志數(shù)據(jù)的時間因素提取個體行為的內(nèi)在邏輯證據(jù)。基于用戶特征的日志數(shù)據(jù),是針對個體內(nèi)或個體間行為操作的角度去辨別個體的行為特點(diǎn),進(jìn)而提取關(guān)鍵認(rèn)知過程和行為證據(jù)。這種針對個體角度的行為證據(jù)提取情況更為復(fù)雜,還可繼續(xù)細(xì)分。He等人將問題解決過程中除時間類的日志信息再劃分為動作信息和行為指標(biāo)[14],前者指作答動作和迷你動作序列,用于提取較為簡單的行為信息,如重復(fù)操作的分析[17];后者側(cè)重于作答者的人機(jī)交互操作和作答策略,可以反映測評過程中的不同應(yīng)答策略及行為模式[18-19],或用于專家與新手的能力水平對比[20]等。

基于上述對日志文件及用戶角度的過程性數(shù)據(jù)歸類依據(jù),綜合經(jīng)典案例與研究需求,可以將國內(nèi)外教育及心理評估研究中的過程性指標(biāo)劃分為時間、一般動作和行為策略三大類別。前者對應(yīng)時間角度,后兩者分別對應(yīng)用戶個體角度的基礎(chǔ)性動作和復(fù)雜動作策略。具體如表1所示:

二、過程性指標(biāo)表征內(nèi)涵及應(yīng)用

(一)時間類指標(biāo)

時間類過程性指標(biāo)基于一定的定義范圍,截取不同動作之間的時間點(diǎn)或區(qū)間,通常以秒數(shù)/毫秒數(shù)、0/1水平、等級水平、比例等數(shù)值形式記錄,以其直觀性且量化標(biāo)準(zhǔn)高的特點(diǎn)被視為反映內(nèi)部過程的特征指標(biāo)[21]。相比于早期時間類指標(biāo)的認(rèn)知屬性(如獲得更準(zhǔn)確的熟練程度估計(jì)[22]、時間限制[23]、速度[24]、更準(zhǔn)確地估計(jì)參數(shù)[25]等),數(shù)字化測評中的時間指標(biāo)更為精準(zhǔn),記錄區(qū)間更加細(xì)化,可在時間維度上為內(nèi)部認(rèn)知過程、行為表現(xiàn)及影響因素提供更為豐富且精細(xì)化的外顯指標(biāo)。時間類過程指標(biāo)常用包括作答時長(time on task)、時間間隔(interval)、響應(yīng)時長(response time)或第一反應(yīng)時間(initial reaction time)(注:也有學(xué)者用“response time”表示作答時長[26],但大多數(shù)均作為響應(yīng)時長指標(biāo))等。

作答時長是指受測者作答全過程的時長,最能直接反映受測者的作答速度,常與作答結(jié)果結(jié)合考察。通常被作為衡量作答準(zhǔn)確性[27]、任務(wù)解決能力水平[28]、作答熟練水平[29]、堅(jiān)持性[30-31]、非常規(guī)操作[28]、快速猜測行為[32]等的鑒別指標(biāo)。有證據(jù)表明,作答時長與能力水平之間存在影響,具體表現(xiàn)為:正向關(guān)系,在問題上花費(fèi)較多時間和采取較多行動的學(xué)生更有可能正確回答問題[33];負(fù)向關(guān)系,過長的作答時間并未與高能力水平有確定關(guān)聯(lián)[34];二次關(guān)系,在一個項(xiàng)目上花費(fèi)時間過多或過少的作答者,其所測認(rèn)知能力得分大多不高[27]。可見作答時長與能力表現(xiàn)之間的影響關(guān)系較為復(fù)雜,還需要更多的驗(yàn)證與探究。

響應(yīng)時長又稱作第一反應(yīng)時間(initial reaction time),作為第一次主動干預(yù)前的時間量。經(jīng)常被用作計(jì)劃[35]、速度[36]、測試動機(jī)[37]、作答努力性[28]、抑制控制[35]以及對于能力的預(yù)測性[35]等衡量指標(biāo)。與作答時長類似,響應(yīng)時間長短與受測者能力并無確定的線性關(guān)系。響應(yīng)時長會與作答時長結(jié)合考慮,如將響應(yīng)時長作為計(jì)劃指標(biāo)時,二者可互為補(bǔ)償。即,如果計(jì)劃時間夠長,作答時間并不一定很長也可以獲得高分,如果計(jì)劃時間不充分,作答時間較長可加以彌補(bǔ)[31]。另外,響應(yīng)時長也被看作閱讀能力的衡量指標(biāo),時間過長會被認(rèn)為受測者可能缺少基本閱讀技能[38];如果時間過短,會被作為隨意猜測、缺少動機(jī)[39-40]。

時間間隔與響應(yīng)時長類似,對應(yīng)的是操作之間而非操作始末的時間空隙,也被稱為“停頓”。該指標(biāo)被驗(yàn)證與問題解決能力相關(guān)聯(lián),體現(xiàn)為執(zhí)行心理計(jì)算和下一步操作決策的內(nèi)部認(rèn)知過程所花費(fèi)的時間,具備心理時間量的屬性[15],可作為堅(jiān)持性[41]、計(jì)劃、快速猜測的判別指標(biāo)[33]。尤其在評測作答努力與動機(jī)時具有隱蔽性好、偏見性低、數(shù)據(jù)來源豐富易取等重要特質(zhì)[40]。研究發(fā)現(xiàn),在具備控制條件的實(shí)驗(yàn)心理研究中,通過分析微觀層面的反應(yīng)停頓,即便在總分或任務(wù)完成時間不變的情況下,也能通過分析關(guān)鍵動作的時間間隔為解決問題能力的評估提供有效信息[42]。

時間類指標(biāo)與所測特質(zhì)水平之間的影響關(guān)系受到多方因素影響。第一,任務(wù)難度。基于不同任務(wù)難度的時間類指標(biāo)對不同能力水平個體所產(chǎn)生的影響方向各異。過往研究顯示,高水平個體對待容易任務(wù)與低水平個體對待困難任務(wù)的時間效應(yīng)影響方向是相似的,都傾向花費(fèi)較短時長。而且,對于簡單的自動化任務(wù),時長可以作為能力負(fù)向相關(guān)性指標(biāo)[43-44]。而當(dāng)任務(wù)難度加大時,作答時間越長則更容易答對[29]。第二,任務(wù)性質(zhì)。不同類型和領(lǐng)域的任務(wù)對時間指標(biāo)有不同的影響。例如,創(chuàng)造性任務(wù)可能比機(jī)械性任務(wù)所需時間更長[45],描述文字量大的任務(wù)更依賴于閱讀水平,閱讀能力強(qiáng)的個體所用時間越短[46]。第三,個體因素。個體的先驗(yàn)知識[18]、焦慮水平、學(xué)習(xí)風(fēng)格[34]、內(nèi)容熟練度[45]等也會成為時間類指標(biāo)與任務(wù)作答關(guān)系的影響因素。第四,設(shè)備與環(huán)境。在計(jì)算機(jī)交互任務(wù)中,設(shè)備性能、硬件響應(yīng)速度等技術(shù)因素可能對響應(yīng)時長產(chǎn)生影響[47]。第五,文化因素。受測者的作答時間量也會受到文化認(rèn)知風(fēng)格(如時間感知、時間管理及任務(wù)處理方式)、社會期望、實(shí)踐觀念、社會文化以及學(xué)習(xí)和教育文化等方面的影響[48]等。可見,時間類指標(biāo)對能力水平的解釋對應(yīng)關(guān)系十分復(fù)雜,可作為輔助證據(jù)加以多角度驗(yàn)證。

(二)一般動作類指標(biāo)

一般動作類指標(biāo)是指從作答過程的操作動作中直接提取出的基礎(chǔ)類動作指標(biāo)。這種動作指標(biāo)無需指標(biāo)定義,可基于計(jì)算機(jī)操作的單擊、按鍵、移動和拖放等動作直接產(chǎn)生。通常以計(jì)數(shù)、頻率、比例、等級水平或0/1水平等形式賦值。常見指標(biāo)包括動作數(shù)(總動作數(shù)、子題動作數(shù))、行動速度(平均操作時間、平均動作數(shù))、監(jiān)測行為(作答回看、修改前停頓)、修改行為、有效動作行為(正確操作行為、反饋后正確操作行為、有效動作數(shù)、關(guān)鍵行為等)、被提示行為、作答停頓行為、信息探究行為等。

動作指標(biāo)所傳遞的信息量在某種程度上超過時間參數(shù)[46],這源于動作參數(shù)與作答過程直接相關(guān)的指標(biāo)屬性。時間本身并不能對應(yīng)正確或錯誤的操作結(jié)果,但表現(xiàn)在鍵盤或鼠標(biāo)操作中的操作行為(即心理行為)卻可以更好地體現(xiàn)問題解決者的作答活動。雖然一般性動作指標(biāo)可以從基礎(chǔ)動作信息中直接獲得,但其來自問題解決過程中的具體操作,直接反映作答行為和思維過程,能提供與問題解決過程更直觀的作答信息。在不同任務(wù)情景下,可以作為能力水平[49]、信息技術(shù)素養(yǎng)(Information and Communications Technology,ICT)[26]、閱讀素養(yǎng)[26]、自查修錯行為[50]、竭力堅(jiān)持行為[30]等方面的判別或影響指數(shù)。

研究表明,一般動作類指標(biāo)也可被看作是一種“干預(yù)”。動作的出現(xiàn)意味著操作者對任務(wù)信息獲取及結(jié)果嘗試時的一種干預(yù),干預(yù)次數(shù)或頻率會作為任務(wù)知識的獲取及應(yīng)用的衍生指標(biāo)[27]。動作干預(yù)與評估結(jié)果性指標(biāo)之間的影響關(guān)系并不確定,根據(jù)任務(wù)要求和研究需求會有所不同。一方面,部分研究顯示動作指標(biāo)與能力指標(biāo)呈負(fù)向影響關(guān)系。例如,動作數(shù)量與學(xué)生GPA(Grade Point Average)成績的關(guān)系是消極相關(guān)[10],對信息獲取或能力呈一次線性負(fù)向[27]及二次回歸負(fù)性關(guān)系[27],重復(fù)步數(shù)占比對失敗作答情況的貢獻(xiàn)較大[28]等。但另一方面,一些研究得出動作數(shù)量與能力表現(xiàn)之間存在積極影響的結(jié)果[29]。Yavuz發(fā)現(xiàn)作答中采取更多行動的學(xué)生更有可能正確完成作答[26],類似的結(jié)果也在其他研究中被驗(yàn)證[51]。

這種影響差異引發(fā)了更多的研究進(jìn)行深入探討。后續(xù)研究發(fā)現(xiàn),在較為常用的一般性動作指標(biāo)中,在作答失敗的情況下有較強(qiáng)預(yù)測效果的是“與最優(yōu)步數(shù)差” “執(zhí)行間波動”“重復(fù)步數(shù)占比”“與最優(yōu)路徑重合比例”等指標(biāo);而在作答成功的情況下有較強(qiáng)預(yù)測效果的是“思考步數(shù)占比”“與最優(yōu)步數(shù)差”“Ln(第一步時間/總時間)”等。與時間參數(shù)類似的是,一般動作指標(biāo)對個體能力水平的評估情況也受技能水平或相對任務(wù)難度等與任務(wù)和個體相關(guān)的因素的影響。有研究表明,在相對容易的任務(wù)中,動作數(shù)調(diào)節(jié)了時間與表現(xiàn)之間的關(guān)系;在相對困難的任務(wù)中,時間指標(biāo)在動作數(shù)對作答表現(xiàn)的影響關(guān)系中起中介作用,表現(xiàn)為作答者必須精心設(shè)計(jì)一個任務(wù)和材料陳述,并通過大量緩慢執(zhí)行的動作來解決問題[29]。

(三)行為策略類指標(biāo)

行為策略類指標(biāo)是基于行為序列提煉而出的策略類動作指標(biāo),從動作發(fā)生的順序和時序關(guān)系中提取有意義信息,對應(yīng)受測者內(nèi)部認(rèn)知過程,是思維能力與認(rèn)知水平的直接體現(xiàn)。不同于一般性動作指標(biāo)是記錄與統(tǒng)計(jì)基礎(chǔ)操作,策略類指標(biāo)需要采用更加復(fù)雜的提取手段從一系列的動作序列中提煉與整合,整合后的指標(biāo)通常以出現(xiàn)頻次、有無出現(xiàn)(1/0)、等級水平或比率(目標(biāo)動作數(shù)/所有動作數(shù))等形式賦值。在略復(fù)雜的任務(wù)情境中,作答者會通過有意向地干預(yù)策略來捕獲更加準(zhǔn)確的任務(wù)信息,進(jìn)行更加高效精準(zhǔn)的作答操作。研究者對這些具有目的性、規(guī)律性的干預(yù)操作賦予其特定的策略性內(nèi)涵意義,并根據(jù)任務(wù)需求和作答特點(diǎn)將其歸納為不同的策略指標(biāo),制定操作定義,以反映在傳統(tǒng)評估下難以顯性化的內(nèi)部認(rèn)知過程。行為策略類指標(biāo)可根據(jù)其應(yīng)用于任務(wù)作答過程的兩個關(guān)鍵階段,即信息獲取和問題解決進(jìn)行分類[52]。

1. 信息獲取階段

信息獲取過程中的行為策略指標(biāo)是指在任務(wù)作答過程中,為了獲取問題解決所需的任務(wù)信息和已知條件所采取的行為策略。復(fù)雜任務(wù)情景下,受測者在獲取任務(wù)信息時,需要通過任務(wù)作答時的干預(yù)操作,來獲取某個變量及該變量與其他變量之間的影響變化關(guān)系,進(jìn)而掌握復(fù)雜任務(wù)關(guān)鍵環(huán)節(jié)的有效信息。依據(jù)受測者干預(yù)輸入變量的強(qiáng)度,常見的信息獲取策略包括觀察策略、有目的試誤、強(qiáng)干預(yù)、探究完全性、VOTAT及其系列策略等,可通過比較同類干預(yù)操作的成功率來作為過程學(xué)習(xí)效果的衡量指標(biāo)。具體指標(biāo)解析如下:

觀察策略,又稱非干預(yù)觀察(non-interfering observation)或首次干預(yù)前的無操作[50],在有些復(fù)雜問題解決研究中又被稱為無干預(yù)策略(NOTAT,vary-no-thing-at-a-time)。非干預(yù)觀察不同于無操作策略(指首次干預(yù)前的無任何操作策略),它并不是指完全無操作,而是在問題解決過程中,至少出現(xiàn)一次的將所有變量都設(shè)置在零位置上,以嘗試探究任務(wù)信息及結(jié)果關(guān)系[53]。一般表現(xiàn)為將所有輸入變量的值重新調(diào)整至初始位置后,不操作任何輸入變量,觀察輸出變量的變化趨勢。該策略的使用頻率與是否具備規(guī)劃意識有關(guān),沒有規(guī)劃意識時一般會伴隨隨機(jī)探索問題模式,盡管表現(xiàn)出高頻率的互動,也較少出現(xiàn)觀察策略。研究表明,觀察策略的次數(shù)能顯著正向預(yù)測學(xué)生的作答結(jié)果[27]。在用這種策略出現(xiàn)的次數(shù)或頻率作為參數(shù)去衡量潛在的計(jì)劃性及能力表現(xiàn)時,發(fā)現(xiàn)對比那些盲目進(jìn)行高頻率干預(yù)的學(xué)生,偶爾以非干預(yù)方式觀察問題環(huán)境的學(xué)生具有更好的復(fù)雜問題解決表現(xiàn)[27]。當(dāng)然,也有研究發(fā)現(xiàn),使用觀察策略行為的次數(shù)與作答結(jié)果沒有顯著相關(guān)[54],其影響機(jī)制尚需進(jìn)一步驗(yàn)證。此外,與觀察策略相似的第一次主動干預(yù)前的無操作策略[35]也被作為計(jì)劃性的衡量參數(shù),通常結(jié)合響應(yīng)時長加以辨識。

除了歸零設(shè)置的觀察策略外,有目的性試誤(purposeful trial and error)也是探索任務(wù)變量因果、獲得任務(wù)知識的一種有效策略。該策略不僅能縮減解題時間、提高效率,還能大大增加復(fù)雜問題解決正確作答的可能性,對學(xué)生的問題解決水平具有預(yù)測作用[55]。在試誤的過程中,作答者需要根據(jù)任務(wù)情境在探索和規(guī)劃階段進(jìn)行預(yù)測,來決定是否需要增強(qiáng)干預(yù)操作以保證更好的干預(yù)效果,這種策略被稱為強(qiáng)干預(yù)[52]。在有些試誤操作中,作答者會采用冒險(xiǎn)策略(risky strategy),即有意識地選擇極端或更大的設(shè)置及數(shù)值,使作答系統(tǒng)發(fā)生戲劇化的反應(yīng),以此推斷邏輯規(guī)則及邊界條件[56]。此外,如果需要分析作答者在整個信息獲取過程中對探究和內(nèi)容獲取的程度,還可采用探究完全性指標(biāo)[52]。

在諸多信息獲取策略中,VOTAT策略(vary-one-thing-at-a-time)受關(guān)注度最高,也是衡量作答思路最有效的策略指標(biāo)之一[14]。VOTAT是指通過每次僅改變一個事件(變量值)同時保持其他變量值或設(shè)置不變,進(jìn)而判斷不同的變量對結(jié)果影響關(guān)系的一種作答策略[53],亦指科學(xué)探究中的變量控制策略[57],是衡量復(fù)雜問題充分探索及信息獲取的重要策略[58]。其指標(biāo)合成目前主要體現(xiàn)在:運(yùn)用次數(shù)及環(huán)節(jié)數(shù)上的統(tǒng)計(jì);運(yùn)用頻次占總次數(shù)的比例;能夠系統(tǒng)運(yùn)用VOTAT策略的人數(shù)比[59];針對此策略編碼的合成指標(biāo)[27]等。VOTAT策略的構(gòu)建基于探索問題環(huán)境時所應(yīng)用的孤立變異原理,目的是找出每個問題元素的特指影響,被分為有意識的和無意識的兩種。它是一種用于探索和檢驗(yàn)因果關(guān)系的多步驟探索策略方法,已被證明是問題解決過程中的正向影響因子[60],類似結(jié)論也得到了反復(fù)驗(yàn)證[31,61–63]。

與VOTAT對應(yīng)的還有HOTAT策略(hold-one-thing-at-a-time)和CA策略(change-all),前者指的是一次保持一個事件(變量)不變而其他變量發(fā)生變化的策略,后者是指同時變化所有變量或條件的操作策略[53]。對應(yīng)的還有控制變量策略(control-variable,CV),指作答者需要從兩個或三個輸入變量的共變中找出因果關(guān)系。與VOTAT策略相比,CV策略需要更多的腦力計(jì)算或操作來判斷任務(wù)系統(tǒng)的規(guī)律性,在采用該策略獲取輸入變量和輸入關(guān)系時,其效率不如VOTAT高[64]。與上述變量控制策略相似的還有“保持特定事件的一致性策略”(hold particular things constant,HPTC)以及“適應(yīng)性前進(jìn)策略”(adaptive growth,AG)(如果成功則繼續(xù)向前,否則就保持不變或后退)[58],這些探索變量間因果關(guān)系的策略雖然并未像VOTAT策略那樣被廣泛驗(yàn)證,但在問題解決的過程中也發(fā)揮著重要作用。

2. 問題解決階段

基于信息獲取階段對變量間因果關(guān)系的探索,作答者會采取最恰當(dāng)?shù)淖鞔鸩呗越鉀Q問題,目前提及的問題解決策略有最優(yōu)性(optimality)、次優(yōu)性、目標(biāo)評估、計(jì)劃性等策略指標(biāo)[15]。其中,最優(yōu)性策略指在作答時使用從最初狀態(tài)到目標(biāo)狀態(tài)的最優(yōu)路徑,通常與任務(wù)情境緊密結(jié)合。在問題解決任務(wù)中則指解決問題的效率(有多接近最優(yōu)解決路徑)或通過幾步來實(shí)現(xiàn)目標(biāo)[52],多采取最優(yōu)操作數(shù)、比例[65]、差異步數(shù)[28]等形式,被視為認(rèn)知效率的有效衡量指標(biāo)。次優(yōu)策略(sub-optimal strategies)對應(yīng)最優(yōu)策略產(chǎn)生,其對作答結(jié)果的積極影響弱于最優(yōu)作答策略[4]。與之類似的還有目標(biāo)評估策略和計(jì)劃性策略,前者指在任務(wù)作答時,評估當(dāng)前狀態(tài)與目標(biāo)狀態(tài)的距離并設(shè)計(jì)如何達(dá)到目標(biāo)狀態(tài),以及評估如果達(dá)到了目標(biāo)狀態(tài)后保持在目標(biāo)狀態(tài)的一種策略[15];后者具體指向計(jì)劃性,是指根據(jù)目標(biāo)制定計(jì)劃以便在限定的操作次數(shù)內(nèi)達(dá)到目標(biāo),該指標(biāo)能分析作答者有沒有計(jì)劃性,以及對任務(wù)變化方向、大小和操作步驟能否有效控制[52]。研究發(fā)現(xiàn),頻繁進(jìn)行無目的干預(yù)的學(xué)生成功可能性較小,明確的目標(biāo)導(dǎo)向和計(jì)劃行為與解決復(fù)雜問題具有相關(guān)性[66]。問題解決階段的策略類指標(biāo)同樣會受到任務(wù)性質(zhì)、個體情況、技術(shù)設(shè)備及其他因素的影響,在具體的研究中需要加以調(diào)控處理[67]。

三、指標(biāo)提取與模型評估

(一)指標(biāo)提取

過程性指標(biāo)隱匿在作答行為的動作序列之中,其特征提取方式相對于傳統(tǒng)評估數(shù)據(jù)而言更加復(fù)雜多樣。現(xiàn)有的特征提取方法可歸納為以下兩大類[68]:

1.自上而下的特征抽取方法。是指基于理論驅(qū)動的角度,圍繞所測特質(zhì)的測評框架,采用文獻(xiàn)資料和專家評定相結(jié)合的方式,結(jié)合相應(yīng)測量任務(wù),從作答過程中尋找有意義的行為模式,制定指標(biāo)的含義和操作定義,確定其提取和賦值規(guī)則,并經(jīng)過統(tǒng)計(jì)方法(如kappa系數(shù))來衡量有效性。目前國際大型測驗(yàn)系統(tǒng)多采用這種方式,如PISA 2012 問題解決測驗(yàn)、“21世紀(jì)技能評估與教育計(jì)劃”(Assessment and Teaching of 21st Century Skills Project,ATC21S)的合作問題解決測驗(yàn)[69]和NAEP-TEL(Technology and Engineering Literacy,技術(shù)與工程素養(yǎng))測驗(yàn)[70]等。

2.自下而上的特征抽取方法。該方法以數(shù)據(jù)驅(qū)動的角度,從作答動作序列中提取信息。目前具體抽取方法可以總結(jié)為三類[68]:借用自然語言處理(Natural Language Processing,NLP)技術(shù)由反應(yīng)序列建構(gòu)指標(biāo)的方法[71],降維算法構(gòu)造反應(yīng)序列的低維數(shù)字特征向量的方法[72-73],以及使用網(wǎng)絡(luò)指標(biāo)表征反應(yīng)特征的方法[74]。這些自下而上的特征提取方法尚處于初步探索階段,未形成成熟統(tǒng)一的研究范式[68]。

對比而言,自上而下的特征抽取方法與概念指標(biāo)緊密對應(yīng),統(tǒng)計(jì)測量模型分析邏輯成熟,但也存在對專家依賴性強(qiáng)、任務(wù)特異性強(qiáng)和構(gòu)建成本高等弊端;自下而上的特征提取方法雖然在某種程度上可以解決專家依賴和任務(wù)特異性的問題,但也存在理論架構(gòu)不明晰、信息易遺漏、解釋性差等局限。建議二者有機(jī)結(jié)合、協(xié)同驗(yàn)證。

(二)模型評估

通過上述方法提取出的過程性指標(biāo),需要經(jīng)過進(jìn)一步的模型評估來構(gòu)建過程性指標(biāo)與潛在能力之間的關(guān)系模型,以實(shí)現(xiàn)對特定能力的估計(jì)。目前針對過程性數(shù)據(jù)研究所涉及的模型評估體現(xiàn)在以下三類[68]。

1.傳統(tǒng)心理測量模型及其拓展。構(gòu)建出的指標(biāo)數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)一樣,采用測量模型進(jìn)行估計(jì)。如多維IRT模型[5]、診斷分析模型[75]、多水平模型[76]及其拓展模型[77]等。

2.隨機(jī)過程模型。將任務(wù)完成的動作步驟看作沿離散時間點(diǎn)的有序且相互依賴的反應(yīng)系列[78],采用具備描述隨機(jī)過程功能的概率模型對前后依賴的過程性指標(biāo)進(jìn)行擬合,獲取重要時刻上的潛在狀態(tài)水平,這些可作為隨時間變化的知識掌握狀態(tài)或能力表現(xiàn)水平相關(guān)的證據(jù)。常用的隨機(jī)過程分析方法有隱馬爾可夫模型(Hidden Markov Model,HMM)和動態(tài)貝葉斯網(wǎng)絡(luò)(Dynamic Bayesian Network,DBN)[79]。

3.結(jié)合隨機(jī)過程思想的測量模型。該模型的參考邏輯是受測者采取的問題解決步驟是其特定反應(yīng)狀態(tài)的表象,為了獲取攜帶動作順序關(guān)系的潛在能力估計(jì)值,采用結(jié)合隨機(jī)過程思想的測量模型進(jìn)行分析。如馬爾可夫IRT模型(Item Response Theory)[70]、連續(xù)時間動態(tài)選擇模型(Continuous-time Dynamic Choice,CTDC)[80]、馬爾可夫決策過程(Markov Decision Process,MDP)[81]以及序列反應(yīng)模型(Sequential Response Model,SRM)[68]等。

綜上對比,在基于過程性指標(biāo)選用模型去評估能力水平時,過程性指標(biāo)的有效構(gòu)建及其與潛在能力之間的合理對應(yīng)十分關(guān)鍵。傳統(tǒng)心理測量及拓展模型重點(diǎn)關(guān)注能力估計(jì),指標(biāo)與潛在能力之間對應(yīng)關(guān)系強(qiáng),可解釋性好,但也存在局部獨(dú)立假設(shè)限制和動作順序信息損失的局限性;隨機(jī)過程模型關(guān)注行為序列及順序信息,但指標(biāo)與潛在能力之間的對應(yīng)關(guān)聯(lián)較弱,可解釋性不強(qiáng),較難滿足教育及心理測評中對能力特質(zhì)連續(xù)穩(wěn)定的評估需求,建議作為數(shù)據(jù)驅(qū)動或輔助證據(jù)加以選擇;結(jié)合隨機(jī)過程思想的心理測量模型,兼具了前兩者優(yōu)勢,既可以考慮過程行為中的動作序列信息,又結(jié)合了理論及專家經(jīng)驗(yàn)將指標(biāo)與潛在能力建立對應(yīng)關(guān)系,增強(qiáng)了可解釋性,但由于其模型參數(shù)繁多,目前僅適用于相對簡單或結(jié)構(gòu)良好的測驗(yàn)任務(wù)類型,在測驗(yàn)任務(wù)類型的適用性上仍有較大的探索提升空間。在實(shí)際的測評研究中,需根據(jù)研究目的構(gòu)建和選擇合理的過程性指標(biāo),結(jié)合測評要求及任務(wù)類型選擇恰當(dāng)?shù)臏y量模型。

四、總結(jié)與展望

過程性數(shù)據(jù)的發(fā)展與運(yùn)用為新一代測量帶來了寶貴的資源和契機(jī)。本文基于教育心理評估領(lǐng)域中過程性指標(biāo)的內(nèi)涵特點(diǎn)及研究應(yīng)用情境,將過程性指標(biāo)劃分為時間、一般動作、行為策略三大類別,并詳細(xì)闡述了各類過程指標(biāo)的內(nèi)涵定義,及其與被測潛在能力之間的預(yù)測和影響關(guān)系,為后續(xù)研究系統(tǒng)地了解、運(yùn)用、解釋及驗(yàn)證過程性指標(biāo)提供參考,也為相關(guān)實(shí)證研究提供借鑒。

目前教育評估領(lǐng)域中關(guān)于過程性數(shù)據(jù)的探究與驗(yàn)證尚處于初始階段,在此類數(shù)據(jù)的收集、分析、解釋、應(yīng)用、理論創(chuàng)新、方法技術(shù)、倫理法規(guī)等方面均面臨一定挑戰(zhàn)。

具體體現(xiàn)在:第一,數(shù)據(jù)采集復(fù)雜度高,過程性數(shù)據(jù)的采集對方法技術(shù)和設(shè)施設(shè)備均有一定要求,對測試群體、測試硬件條件、測試環(huán)境、測前準(zhǔn)備等方面均提出了更苛刻的條件需求[13];第二,數(shù)據(jù)分析技術(shù)要求高,過程性數(shù)據(jù)具有非結(jié)構(gòu)性的冗雜特點(diǎn),對研究人員在理論和技術(shù)層面的交叉融合、技術(shù)掌握與更新迭代上的要求更加嚴(yán)苛;第三,結(jié)果解釋的難度高,原始過程性數(shù)據(jù)隱匿冗余,以事件發(fā)生時序關(guān)系的日志文件形式記錄呈現(xiàn),并不直接提供關(guān)于特質(zhì)能力、測試動機(jī)等方面的信息。研究時需要先對原始日志數(shù)據(jù)進(jìn)行預(yù)處理和提取分析,經(jīng)過指標(biāo)界定和解釋后才能獲取有價(jià)值的信息,這一過程不同于傳統(tǒng)測量模型的應(yīng)用邏輯。在確定過程性數(shù)據(jù)分析結(jié)果與受測者潛在能力之間的因果關(guān)系時,需謹(jǐn)慎結(jié)合數(shù)據(jù)與理論邏輯進(jìn)行反復(fù)驗(yàn)證與思考,避免出現(xiàn)對因果關(guān)系的過度解釋[82];第四,與傳統(tǒng)測量模型有效結(jié)合難度大,過程性數(shù)據(jù)如何與成熟的傳統(tǒng)測量理論與技術(shù)進(jìn)行科學(xué)結(jié)合[83],是提升過程性數(shù)據(jù)應(yīng)用科學(xué)性與適切性的重要方向,在方法結(jié)合及研究運(yùn)用上均具有諸多挑戰(zhàn);第五,理論基礎(chǔ)的創(chuàng)新與驗(yàn)證尤為亟需,為確保過程性指標(biāo)與測評目標(biāo)的嚴(yán)密結(jié)合,更需關(guān)注研究理論基礎(chǔ)的創(chuàng)新與驗(yàn)證,為過程性數(shù)據(jù)的應(yīng)用提供基礎(chǔ)性支撐,這也是解決過程性數(shù)據(jù)有效應(yīng)用的根本所在;第六,倫理要求更加嚴(yán)苛,在使用過程性數(shù)據(jù)時,尤其需要增強(qiáng)道德倫理及法律法規(guī)等相關(guān)意識,確保受測者的個人隱私安全,保證過程性數(shù)據(jù)的使用具備合法性與安全性。

綜上,數(shù)字化測評下過程性數(shù)據(jù)的探究發(fā)展之路任重道遠(yuǎn),仍需在新思路、新方法、新渠道的適用性及有效性方面加以不斷嘗試與驗(yàn)證。在指標(biāo)的提取上,可以嘗試自上而下理論驅(qū)動與自下而上數(shù)據(jù)驅(qū)動的結(jié)合思路[49];在方法與模型上,可以探索將傳統(tǒng)測量理念與新的分析挖掘技術(shù)有效融合,結(jié)合多模態(tài)數(shù)據(jù)來源,豐富多元化交互形式,以獲取更加豐富多樣的過程數(shù)據(jù),為未來教育及心理評估領(lǐng)域帶來更立體多元的探索視角、更精細(xì)科學(xué)的評價(jià)顆粒以及更寬闊多樣的評估廣度。

參考文獻(xiàn):

[1] De Boeck P,Scalise K. Collaborative Problem Solving:Processing Actions,Time,and Performance [J/OL]. Frontiers in Psychology,2019,10.

[2] Naumann J. The Skilled,the Knowledgeable,and the Motivated:Investigating the Strategic Allocation of Time on Task in a Computer-Based Assessment [J/OL]. Frontiers in Psychology,2019,10.

[3] Goldhammer F,Scherer R,Greiff S. Editorial:Advancements in Technology-Based Assessment:Emerging Item Formats,Test Designs,and Data Sources [J/OL]. Frontiers in Psychology,2020,10.

[4] He Q,Borgonovi F,Paccagnella M. Leveraging Process Data to Assess Adults’ Problem-Solving Skills:Using Sequence Mining to Identify Behavioral Patterns across Digital Tasks [J/OL]. Computers amp; Education,2021,166:104-170.

[5] 韓雨婷,肖悅,劉紅云.問題解決測驗(yàn)中過程數(shù)據(jù)的特征抽取與能力評估[J].心理科學(xué)進(jìn)展,2022,30(6):1393-1409.

[6] 首新,田偉,李健,等.基于過程數(shù)據(jù)的人機(jī)“虛擬代理”協(xié)作問題解決測評研究——以PISA中國四地區(qū)為例[J].現(xiàn)代教育技術(shù),2023,33:86-97.

[7] Bergner Y,von Davier A A. Process Data in NAEP:Past,Present,and Future [J/OL]. Journal of Educational and Behavioral Statistics,2019,44(6):706-732.

[8] Salles F,Dos Santos R,Keskpaik S. When Didactics Meet Data Science:Process Data Analysis in Large-Scale Mathematics Assessment in France [J/OL]. Large-scale Assessments in Education,2020,8(1):7.

[9] He Q,Von Davier M. Analyzing Process Data from Problem-Solving Items with N-Grams:Insights from a Computer-Based Large-Scale Assessment [M/OL]. 2016:749-776.

[10] Stadler M,Hofer S,Greiff S. First among Equals:Log Data Indicates Ability Differences Despite Equal Scores [J/OL]. Computers in Human Behavior,2020,111:106442.

[11] Beitzel S M,Jensen E C,Chowdhury A,et al. Temporal Analysis of a Very Large Topically Categorized Web Query Log [J/OL]. Journal of the American Society for Information Science and Technology,2007,58(2):166-178.

[12] Kotov A,Bennett P N,White R W,et al. Modeling and Analysis of Cross-Session Search Tasks [C/OL] // Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York,NY,USA:Association for Computing Machinery,2011:5-14.

[13] Dumais S,Jeffries R,Russell D M,et al. Understanding User Behavior Through Log Data and Analysis [M/OL]//OLSON J S,KELLOGG W A. Ways of Knowing in HCI. New York,NY:Springer,2014:349-372.

[14] He Q,Borgonovi F,Paccagnella M. Using Process Data to Understand Adults’ Problem-Solving Behaviour in the Programme for the International Assessment of Adult Competencies(PIAAC):Identifying Generalised Patterns across Multiple Tasks with Sequence Mining [R/OL]. Paris:OECD,2019.

[15] Arslan B,Jiang Y,Keehner M,et al. The Effect of Drag-and-Drop Item Features on Test-Taker Performance and Response Strategies [J/OL]. Educational Measurement:Issues and Practice,2020,39(2):96-106.

[16] Eichmann B,Goldhammer F,Greiff S,et al. The Role of Planning in Complex Problem Solving [J/OL]. Computers amp; Education,2019,128:1-12.

[17] Tyler S K,Teevan J. Large Scale Query Log Analysis of Re-Finding [C/OL] // Proceedings of the Third ACM International Conference on Web Search and Data Mining. New York,NY,USA:Association for Computing Machinery,2010:191-200.

[18] Liu H,Liu Y,Li M. Analysis of Process Data of PISA 2012 Computer-Based Problem Solving:Application of the Modified Multilevel Mixture IRT Model [J/OL]. Frontiers in Psychology,2018,9.

[19] Ren Y,Luo F,Ren P,et al. Exploring Multiple Goals Balancing in Complex Problem Solving Based on Log Data [J/OL]. Frontiers in Psychology,2019,10.

[20] White R W,Morris D. Investigating the Querying and Browsing Behavior of Advanced Search Engine Users [C/OL] // Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York,NY,USA:Association for Computing Machinery,2007:255-262.

[21] 詹沛達(dá).計(jì)算機(jī)化多維測驗(yàn)中作答時間和作答精度數(shù)據(jù)的聯(lián)合分析 [J/OL].心理科學(xué),2019,42(1):170-178.

[22] Rasch G. Studies in Mathematical Psychology:I. Probabilistic Models for Some Intelligence and Attainment Tests [M]. Oxford,England:Nielsen amp; Lydiche,1960:xiii,184.

[23] Halkitis P N. Estimating Testing Time:The Effects of Item Characteristics on Response Latency [C/OL] // American Educational Research Association Annual Meeting,1996.

[24] Van Der Linden W J,Scrams D J,Schnipke D L. Using Response-Time Constraints to Control for Differential Speededness in Computerized Adaptive Testing [J/OL]. Applied Psychological Measurement,1999,23(3):195-210.

[25] Schnipke D. Assessing Speededness in Computer-Based Tests Using Item Response Times [C/OL]. 1995.

[26] Yavuz H C. The Effects of Log Data on Students’ Performance [J/OL]. Journal of Measurement and Evaluation in Education and Psychology,2019,10(4):378-390.

[27] Greiff S,Niepel C,Scherer R,et al. Understanding Students’ Performance in a Computer-Based Assessment of Complex Problem Solving:An Analysis of Behavioral Data from Computer-Generated Log Files [J/OL]. Computers in Human Behavior,2016,61:36-46.

[28] 孫鑫,黎堅(jiān),符植煜.利用游戲log-file預(yù)測學(xué)生推理能力和數(shù)學(xué)成績——機(jī)器學(xué)習(xí)的應(yīng)用[J/OL].心理學(xué)報(bào),2018,50(7):761-770.

[29] V?r?s Z,Rouet J F. Laypersons’ Digital Problem Solving:Relationships between Strategy and Performance in a Large-Scale International Survey [J/OL]. Computers in Human Behavior,2016,64:108-116.

[30] 李美娟,劉玥,劉紅云.計(jì)算機(jī)動態(tài)測驗(yàn)中問題解決過程策略的分析:多水平混合IRT模型的拓展與應(yīng)用[J/OL].心理學(xué)報(bào),2020,52(4):528-540.

[31] 陸璟.基于log數(shù)據(jù)的國際學(xué)生評估項(xiàng)目(PISA)問題解決能力研究[D/OL].華東師范大學(xué),2018.

[32] Goldhammer F,Hahnel C,Kroehne U. Analysing Log File Data from PIAAC [M/OL] // MAEHLER D B,RAMMSTEDT B. Large-Scale Cognitive Assessment:Analyzing PIAAC Data. Cham:Springer International Publishing,2020:239-269.

[33] Scherer R,Greiff S,Hautam?ki J. Exploring the Relation between Time on Task and Ability in Complex Problem Solving [J/OL]. Intelligence,2015,48:37-50.

[34] Zeidner M. Anxiety in Education [M] // International Handbook of Emotions in Education. Routledge,2014.

[35] Albert D,Steinberg L. Age Differences in Strategic Planning as Indexed by the Tower of London [J/OL]. Child Development,2011,82(5):1501-1517.

[36] Van Der Linden W J. Conceptual Issues in Response-Time Modeling [J/OL]. Journal of Educational Measurement,2009,46(3):247-272.

[37] Meijer R R. Diagnosing Item Score Patterns on a Test Using Item Response Theory-Based Person-Fit Statistics [J/OL]. Psychological Methods,2003,8(1):72-87.

[38] OECD. PISA 2015 Collaborative Problem?Solving Framework [R/OL]. Paris:OECD,2017:131-188.

[39] Lee Y H,Hao J,Man K,et al. How Do Test Takers Interact with Simulation-Based Tasks? A Response-Time Perspective [J/OL]. Frontiers in Psychology,2019,10(APR):undefined-undefined.

[40] Wise S L,Kong X. Response Time Effort:A New Measure of Examinee Motivation in Computer-Based Tests [J/OL]. Applied Measurement in Education,2005,18(2):163-183.

[41] Ventura M,Shute V. The Validity of a Game-Based Assessment of Persistence [J/OL]. Computers in Human Behavior,2013,29(6):2568-2572.

[42] Paquette L,Baker R S. Comparing Machine Learning to Knowledge Engineering for Student Behavior Modeling:A Case Study in Gaming the System [J/OL]. Interactive Learning Environments,2019,27(5-6):585-597.

[43] Dodonova Y A,Dodonov Y S. Processing Speed and Intelligence as Predictors of School Achievement:Mediation or Unique Contribution? [J/OL]. Intelligence,2012,40(2):163-171.

[44] Kupiainen S,Vainikainen M P,Marjanen J,et al. The Role of Time on Task in Computer-Based Low-Stakes Assessment of Cross-Curricular Skills [J/OL]. Journal of Educational Psychology,2014,106:627-638.

[45] Eichmann B,Goldhammer F,Greiff S,et al. Using Process Data to Explain Group Differences in Complex Problem Solving [J/OL]. Journal of Educational Psychology,2020,112(8):1546-1562.

[46] Goldhammer F,Naumann J,Stelter A,et al. The Time on Task Effect in Reading and Problem Solving is Moderated by Task Difficulty and Skill:Insights from a Computer-Based Large-Scale Assessment [J/OL]. Journal of Educational Psychology,2014,106(3):608-626.

[47] Heathcote A,Popiel S J,Mewhort D J. Analysis of Response Time Distributions:An Example Using the Stroop Task [J/OL]. Psychological Bulletin,1991,109(2):340-347.

[48] Li M,Liu Y,Liu H. 計(jì)算機(jī)動態(tài)測驗(yàn)中問題解決過程策略的分析:多水平混合IRT模型的拓展與應(yīng)用[J/OL]. Acta Psychologica Sinica,2020,52(4):528-540.

[49] 李美娟.基于過程數(shù)據(jù)的合作問題解決能力評分和測量模型構(gòu)建[D].北京師范大學(xué),2020.

[50] 首新,何鵬,陳明艷,等.基于教育數(shù)據(jù)挖掘的“探索和理解”問題解決過程研究——以PISA(2012)新加坡、日本、中國上海Log數(shù)據(jù)為例[J].現(xiàn)代教育技術(shù),2018,28(12):41-47.

[51] Rosas R,Nussbaum M,Cumsille P,et al. Beyond Nintendo:Design and Assessment of Educational Video Games for First and Second Grade Students [J/OL]. Computers amp; Education,2003,40(1):71-94.

[52] Funke J. Dynamic Systems as Tools for Analysing Human Judgement [J/OL]. Thinking amp; Reasoning,2001,7(1):69-89.

[53] Tschirgi J E. Sensible Reasoning:A Hypothesis about Hypotheses [J/OL]. Child Development,1980,51(1):1-10.

[54] Grover S,Pea R. Computational Thinking:A Competency Whose Time Has Come [M/OL]. 2017.

[55] 首新,葉萌,胡衛(wèi)平,等.教育大數(shù)據(jù)背景下log數(shù)據(jù)挖掘與應(yīng)用——以PISA(2012)中國區(qū)問題解決測驗(yàn)為例 [J/OL]. 電化教育研究,2017,38(12):58-64.

[56] Wittmann W W,Hattrup K. The Relationship between Performance in Dynamic Systems and Intelligence [J/OL]. Systems Research and Behavioral Science,2004,21(4):393-409.

[57] Croker S,Buchanan H. Scientific Reasoning in a Real-World Context:The Effect of Prior Belief and Outcome on Children’s Hypothesis-Testing Strategies [J/OL]. British Journal of Developmental Psychology,2011,29(3):409-424.

[58] Apedoe X S,Schunn C D. Strategies for Success:Uncovering What Makes Students Successful in Design and Learning [J/OL]. Instructional Science,2013,41(4):773-791.

[59] Greiff S,Wüstenberg S,Avvisati F. Computer-Generated Log-File Analyses as a Window into Students’ Minds? A Showcase Study Based on the PISA 2012 Assessment of Problem Solving [J/OL]. Computers amp; Education,2015,91:92-105.

[60] Zimmerman C. The Development of Scientific Thinking Skills in Elementary and Middle School [J/OL]. Developmental Review,2007,27(2):172-223.

[61] Kr?ner S,Plass J L,Leutner D. Intelligence Assessment with Computer Simulations [J/OL]. Intelligence,2005,33(4):347-368.

[62] Wüstenberg S,Greiff S,F(xiàn)unke J. Complex Problem Solving — More than Reasoning?[J/OL]. Intelligence,2012,40(1):1-14.

[63] Wüstenberg S,Greiff S,Molnár G,et al. Cross-National Gender Differences in Complex Problem Solving and Their Determinants [J/OL]. Learning and Individual Differences,2014,29:18-29.

[64] Yang Z. Evidence Model:Evaluate Complex Problem-Solving Competency from Process Data [D/OL] // Dissertation Abstracts International Section A:Humanities and Social Sciences:Vol. 81. ProQuest Information amp; Learning(US),2020.

[65] Csapó B,Ainley J,Bennett R E,et al. Technological Issues for Computer-Based Assessment [M/OL] // GRIFFIN P,MCGAW B,CARE E. Assessment and Teaching of 21st Century Skills. Dordrecht:Springer Netherlands,2012:143-230.

[66] Goldhammer F,Naumann J,Greiff S. More is not Always Better:The Relation between Item Response and Item Response Time in Raven’s Matrices [J/OL]. Journal of Intelligence,2015,3(1):21-40.

[67] Sireci S G,Zenisky A L. Innovative Item Formats in Computer-Based Testing:In Pursuit of Improved Construct Representation [M] // Handbook of Test Development. Mahwah,NJ,US:Lawrence Erlbaum Associates Publishers,2006:329-347.

[68] Han Y,Xiao Y,Liu H. Feature Extraction and Ability Estimation of Process Data in the Problem-Solving Test [J/OL]. Advances in Psychological Science,2022,30(6):1393-1409.

[69] Adams R,Vista A,Scoular C,et al. Automatic Coding Procedures for Collaborative Problem Solving [M/OL] // GRIFFIN P,CARE E. Assessment and Teaching of 21st Century Skills:Methods and Approach. Dordrecht:Springer Netherlands,2015:115-132.

[70] Shu Z,Bergner Y,Zhu M,et al. An Item Response Theory Analysis of Problem-Solving Processes in Scenario-Based Tasks [J/OL]. Psychological Test and Assessment Modeling,2017.

[71] He Q,von Davier M. Identifying Feature Sequences from Process Data in Problem-Solving Items with N-Grams [C/OL] // VAN DER ARK L A,BOLT D M,WANG W C,et al. Quantitative Psychology Research. Cham:Springer International Publishing,2015:173-190.

[72] Tang X,Wang Z,He Q,et al. Latent Feature Extraction for Process Data via Multidimensional Scaling [J/OL]. Psychometrika,2020,85(2):378-397.

[73] Tang X,Wang Z,Liu J,et al. An Exploratory Analysis of the Latent Structure of Process Data via Action Sequence Autoencoders [J/OL]. British Journal of Mathematical and Statistical Psychology,2021,74(1):1-33.

[74] Zhu M,Shu Z,von Davier A A. Using Networks to Visualize and Analyze Process Data for Educational Assessment [J/OL]. Journal of Educational Measurement,2016,53(2):190-211.

[75] Zhan P,Qiao X. A Diagnostic Classification Analysis of Problem-Solving Competence Using Process Data:An Item Expansion Method [M/OL]. PsyArXiv,2020.

[76] Wilson M,Gochyyev P,Scalise K. Modeling Data From Collaborative Assessments:Learning in Digital Interactive Social Networks [J/OL]. Journal of Educational Measurement,2017,54(1):85-102.

[77] Zhang S,Wang Z,Qi J,et al. Accurate Assessment via Process Data [J/OL]. Psychometrika,2023,88(1):76-97.

[78] Bellman R. A Markovian Decision Process [J]. Journal of Mathematics and Mechanics,1957,6(5):679-684.

[79] Biswas G,Jeong H,Kinnebrew J S,et al. Measuring Self-Regulated Learning Skills through Social Interactions in a Teachable Agent Environment [J/OL]. Research and Practice in Technology Enhanced Learning,2010,05(02):123-152.

[80] Chen Y. A Continuous-Time Dynamic Choice Measurement Model for Problem-Solving Process Data [J/OL]. Psychometrika,2020,85(4):1052-1075.

[81] LaMar M M. Markov Decision Process Measurement Model [J/OL]. Psychometrika,2018,83(1):67-88.

[82] Quellmalz E S,Pellegrino J W. Technology and Testing [J/OL]. Science,2009,323(5910):75-79.

[83] Mislevy J L,Rupp A A,Harring J R. Detecting Local Item Dependence in Polytomous Adaptive Data [J/OL]. Journal of Educational Measurement,2012,49(2):127-147.

Connotation and Classification of Process Indicators in Digital Assessment

Zhou Jing1 "Zhang Xiaoxia2 "Ren Xiaoqiong1 "Yao Xuezhong3 "Yang Tao1

1 Beijing Normal University,Beijing,100875

2 School of Psychology,Capital Normal University,Beijing,100048

3 Linxi County No. 1 High School,Chifeng,Inner Mongolia,025250

Abstract:Process data in digital assessment bring indispensable implicit value to education and psychological evaluation. Currently,the definition and research of process indicators remain exploratory,lacking normative guidance in terms of connotation and classification,thus impeding the promotion and development of digital assessment research. This paper systematically reviewed the research on process data in digital assessment at home and abroad,thoroughly analyzed the connotation and research progress of process indicators,categorizing them into three major types:time,general actions,and complex strategies. Additionally,it summarized and refined methods for extracting process indicators and evaluating models. Finally,it provided prospects for future research and applications of process indicators in the field of digital assessment in education and psychology.

Key words:Process Data,Log File,Digital Assessment,Process Indicators

(責(zé)任編輯:陳暢)

主站蜘蛛池模板: 亚洲国语自产一区第二页| 久久久久久高潮白浆| 美女无遮挡被啪啪到高潮免费| 再看日本中文字幕在线观看| 88av在线看| 亚洲成人一区二区三区| 国产成人久久777777| 国产va视频| 亚洲av无码人妻| 高清无码手机在线观看 | 青青草国产一区二区三区| 欧美精品高清| 日韩乱码免费一区二区三区| 国模私拍一区二区| 美女一区二区在线观看| 在线观看精品国产入口| 国产精品蜜芽在线观看| 国产成人无码综合亚洲日韩不卡| 在线观看国产一区二区三区99| 日韩免费毛片视频| 欧美日本在线一区二区三区| AV不卡在线永久免费观看| 亚洲成综合人影院在院播放| 精品少妇三级亚洲| 国产a网站| 久久国产热| 日本影院一区| 久久综合亚洲鲁鲁九月天| 国产成年女人特黄特色毛片免 | 欧美日韩久久综合| 欧美日韩理论| 国产不卡国语在线| 国产成年女人特黄特色大片免费| 精品伊人久久久久7777人| 国产麻豆福利av在线播放| 国产成在线观看免费视频 | 亚洲第一综合天堂另类专| 欧美日韩激情在线| 综合色区亚洲熟妇在线| 国产欧美成人不卡视频| 国产亚洲欧美另类一区二区| 免费观看三级毛片| 69av在线| 午夜无码一区二区三区| 91无码人妻精品一区二区蜜桃| 精品久久久久无码| 亚洲成人高清无码| AV无码无在线观看免费| 国产成人在线无码免费视频| 亚洲精品国产综合99久久夜夜嗨| 久久99精品久久久久纯品| 夜夜爽免费视频| 91精品伊人久久大香线蕉| 色妺妺在线视频喷水| 999国内精品视频免费| 国产在线一区视频| 国产黑丝视频在线观看| 欧美19综合中文字幕| 亚洲综合色婷婷中文字幕| 狂欢视频在线观看不卡| 亚洲国产91人成在线| 亚洲中文字幕手机在线第一页| 久久精品国产免费观看频道| 国产在线98福利播放视频免费| 看你懂的巨臀中文字幕一区二区 | 手机精品视频在线观看免费| 永久在线播放| 国产日韩精品欧美一区喷| 亚洲精品亚洲人成在线| 黄色网在线| 日韩av高清无码一区二区三区| 欧美黄网站免费观看| 中文字幕av一区二区三区欲色| 精品无码日韩国产不卡av| 国产成人一区免费观看| 亚洲一区二区三区国产精品| jizz在线观看| 国产成人在线无码免费视频| 欧美一级高清片久久99| 国产幂在线无码精品| 国产欧美日韩综合在线第一| 国产精品第一区|