









分類號 B841
1引言
隨著心理與教育研究的不斷深人,復雜問題解決等傳統紙筆測驗難以測量的高階認知能力逐漸得到更多關注,這對統計測量方法也提出更高要求。相比于紙筆測驗,計算機化的交互式問題解決測驗通過計算機仿真模擬的方式開展測試,在測驗過程中能夠實時記錄個體行為表現并存儲在日志文件中。記錄的數據包括題目作答時間和答案修改次數等題目層面的數據以及行動序列與操作間隔時間等操作層面的數據,這類數據被統稱為過程數據(process data;Haoetal.,2015;袁建林等,2023)。深入分析過程數據有助于研究者了解被試的思維過程、解題策略和作答風格等。
目前對過程數據分析方法的研究仍處于探索階段,尚未得到廣泛認可的明確方法分類。根據統計分析的邏輯,學者將現有的過程數據分析方法分為兩類:數據挖掘法和統計建模法(劉耀輝等,2022;韓雨婷等,2022)。數據挖掘法是數據驅動的自下而上的探索性方法,它采用統計學中算法模型(algorithmmodelingculture)的思路從過程數據當中發掘出有意義的信息,具體包括N-grams、編輯距離等自然語言處理方法(Haoetal.,2015;Heetal.,2021;Qiaoamp;Jiao,2018;Tang etal.,2020;Ulitzschetal.,2022)和聚類分析、神經網絡等統計學習方法(Chenetal.,2022;Heetal.,2023;Wangetal.,2023;Xuetal.,2024)。統計建模法則是理論或模型驅動的自上而下的驗證性方法,它采用統計學中數據模型’(data modelingculture)的思路,依據被試作答過程相關的理論假設來構建統計模型,并借助模型估計被試的能力參數,從而實現測量的目的。這種方法主要包括多維IRT模型、診斷分類模型等心理測量模型(Zhanamp;Qiao,2022;李美娟等,2020)和隱馬爾可夫模型、動態貝葉斯網絡等隨機過程模型(Levy,2019;Xiaoetal.,2021)以及結合隨機過程思想的測量模型(Chen,2020;Hanetal.,2022;LaMar,2018;Shu et al.,2017;Wang amp; Liu,2024;Xiao amp;Liu,2024;付顏斌等,2023)。相較于數據挖掘法,統計建模法具有與傳統心理與教育測量學相同的研究邏輯,即根據潛在特質和外顯行為之間的因果關系構建潛變量模型,通過數據擬合對理論模型進行驗證,并通過估計模型參數獲得對個體潛在特質水平的測量(Borsboometal.,2003)。統計建模法著力于對數據和現象進行解釋,能夠更好地揭示行為背后的心理學機制2。
在統計建模法中,最具代表性的是結合隨機過程思想的測量模型。這類模型綜合了隨機過程模型和傳統心理測量模型的優勢,利用相對完整的過程數據信息獲得能力估計值(韓雨婷等,2022)。針對具有有限問題狀態的交互式測驗情境,這類模型將測驗中的每個狀態視為一道題目,將每個狀態下可執行的行為視為選項,并由專家事先判斷每個狀態下每一種行為的正確性,依此能夠將人機交互過程轉化為完成多道具有正確答案的“題目”的過程。另外,在給定潛在能力的條件下,這類模型將每名被試的反應過程都視為一個具有條件一階馬爾可夫性的離散時間的隨機過程(建立起局部獨立性),并將被試在測驗過程中的問題狀態序列構建為“作答序列”,進而使用心理測量模型進行分析。在Shu等人(2017)首次在研究中引入馬爾可夫性假設后,后續研究者均以此為基礎來建構模型。但在交互式問題解決測驗過程中,問題情境并未一次性完整呈現,被試需要進行探索從而逐漸積累信息。這使得被試當前狀態的行為選擇,不僅受到其問題解決能力的影響,還受到其對問題情境的了解程度的影響本研究將其稱為學習效應(learningeffect)。過去的研究均忽略了這一點。
以國際成人能力評估項目(ProgrammefortheInternational Assessment of Adult Competencies,PIAAC)中技術增強環境下的問題解決能力測評(Problem Solving in Technology-Rich Environments,PSTRE)的JobSearch測驗為例進行說明。如圖1所示,交互式測驗界面包含豐富的信息,點擊各個鏈接/按鈕后會打開不同的頁面,對應不同的問題狀態。注意:被試在測驗開始時對問題情境的了解是不完整的,他/她做出正確行為的概率受到其對問題情境的了解程度的影響,因此未將這一點納入模型考慮可能會使得對被試問題解決能力的估計出現偏差。
針對這一問題,目前已有學者從不同角度對其進行研究。比如,Wang等人(2023)綜合自然語言處理、神經網絡等統計學習方法提出子任務分析(subtaskanalysis),將行為序列分割為對應不同子任務的子序列,其中分離出被試對于問題情境的探索過程。Tang(2024)在隱馬爾可夫模型的基礎上引入潛變量,通過隱狀態也將行為序列切分為子序列并在其中識別出被試對于問題情境的探索階段。但是,現有研究均未從結合隨機過程思想的測量模型這類方法的角度對該問題進行分析。鑒于此,本文擬對現有的測量模型進行拓展,引入當前狀態在作答序列中的位置這一變量,對被試在交互式測驗過程中的學習效應進行建模,以期獲得更加準確的問題解決能力估計值。
接下來的內容按照以下結構進行組織:首先,對模型對應的問題情境進行界定并詳細介紹拓展模型的建構思路,說明其參數估計方法;其次,通過實證研究比較原模型與拓展模型的擬合表現,并驗證拓展模型在分析真實數據時的有效性;再次,開展模擬研究探索拓展模型的參數估計返真性及其影響因素;最后,對研究結果進行總結并在此基礎上討論當前研究局限以及未來可能的研究方向。
2引入學習效應的過程數據測量模型
2.1 問題情境說明
對于具有有限情境的交互式測驗,被試的完整作答過程可以用狀態序列來表征。假設有 n 名被試共完成 K 個交互式測驗任務,在任務 k 中共有 R 種可能的問題狀態,記為 Sk={s1,s2,…,sR} 。將被試 i (204號在任務 k 上的狀態序列記為 Yik={Yik1=s1 ,Yik2=s2,…,Yikj=s1,…,Yiklik=sR} ,代表被試 i 在完成任務 k 的過程中在時刻1處于狀態 s1 ,在時刻2處于狀態 s2 ,在時刻 j 處于 s1 ,在時刻 lik 處于狀態sR ,其中 lik 表示被試 i 在任務 k 上狀態序列的長度。此外,記 tiks=j 為當前狀態 Yikj=s 在被試 i 完成任務 k 的整個狀態序列中的位置。比如,在狀態序列ABCDEFG中,狀態C對應 t=3 。
圖1PIAAC中PSTRE 的Job Search 測驗的部分界面
來源為https://piaac-logdata.tba-hosting.de/public/problemsolving/JobSearchPart1/pages/isp1-home.html

若被試 i 在時刻 j 處于狀態 s ,在時刻 j+1 處于狀態 s′ (即 Yikj=s 且 Yik(j+1)=s′ ),則將被試 i 在時刻 j 的狀態轉移記為 Yikj*=ss′ ,這時可進一步對應狀態轉移序列
。對每個狀態轉移定義一個正確性指標,即將正確狀態轉移編碼為1,錯誤狀態轉移編碼為0,于是可以將Yik* 編碼為二分的狀態轉移正確性序列 Aik={Aik1 Aik2,…,Aikj,…,Aik(lik-1)} 。
2.2 模型構建
首先采用解釋性項目反應理論3(ExplanatoryItemResponse TheoryModel,EIRTM;DeBoeckamp;Wilson,2004;陳冠宇,陳平,2019)的視角對現有的過程數據測量模型結構進行簡要闡述,以便更清晰地說明本研究提出模型的構建思路。現有各模型對應的隨機成分為多變量伯努利分布(multivariateBernoullidistribution),連接函數為基線類別logit(baseline-categorieslogit),而系統成分則建構了狀態參數和能力參數(即狀態和被試水平的截距)用于解釋被試在各狀態下做出正確狀態轉移的概率。
而在交互式測驗的過程中,被試開始作答時獲得的問題情境信息是不完全的,他/她并不掌握問題解決所需要的完全信息,需要在與測驗系統交互的過程中逐漸獲取與問題解決相關的信息。被試對這些信息的掌握程度會影響其在測驗過程中做出正確狀態轉移的概率。由于無法直接測量得到被試對問題情境信息的掌握程度,因此本研究提出在模型中納入當前狀態在作答序列中的位置這一變量作為對問題情境信息掌握程度的間接表征。當前狀態的位置從宏觀上反映了被試對問題解決任務情境探索的程度:隨著交互的進行,被試在過程中會逐漸積累問題情境背景的相關信息。
基于上述分析,我們對現有的過程數據測量模型進行拓展。這里我們選擇付顏斌等人(2023)提出的單參數行動序列模型(One-ParameterAction
SequenceModel,1P-ASM)進行拓展,拓展思路也可直接遷移至其他模型。1P-ASM是在Han等人(2022)提出的序列反應模型(SequentialResponseModel,SRM的基礎上約簡得到,它在減少模型復雜度的同時,還能提供與原模型接近的能力估計精度。公式(1)給出的是1P-ASM的表達式(付顏斌等,2023),公式(2)呈現的是1P-ASM在EIRTM框架下的等價表達式:

Aikj~Bernoulli(πikj),
πikj=p(Aikj=1|Yikj=s,θi,βks),

其中, βks 為任務 k 中狀態 s 的容易度參數,表示在任務 k 中狀態 s 下做出正確狀態轉移的容易程度;θi 為被試 i 的能力參數。
在1P-ASM的基礎上,加入當前狀態在作答序列中的位置 tiks 這一變量,將其斜率 γk 定義為任務 k 的學習效應參數,得到拓展模型:
p(Aijk=1|Yijk=s,θi,γk,βks)=

具體來說,拓展模型在 βks 和 θi 的基礎上,在模型的系統成分中加入協變量 tiks°amp;tiks 與原有參數(即 βks 和 θi )共同解釋被試在各狀態下做出正確狀態轉移的概率。在測驗過程中,隨著與計算機的不斷交互,被試會逐漸積累對于問題情境的有關知識。因此,當前狀態在作答序列中的位置這一變量能夠用來衡量被試在測驗過程中所積累的信息量,其斜率 γk 則代表在任務 k 中這種信息積累的速度。需要說明的是,學習效應在理論上可能受到題自情境設置的影響(表現為不同任務中學習情境知識的難度不同),也可能受到被試學習能力的影響。兩者分別對應將參數定義在任務水平與被試水平上。本研究將新增參數 γk 定義在任務水平上,主要是考慮到模型能夠在捕捉學習效應的同時還具有最大程度的簡潔性,也考慮到實證研究中使用的任務情境較易(被試間的情境學習能力水平不存在較大差異)。實際上, γk 也可以被解釋為被試全體在任務 k 上的學習能力。為敘述方便,本文將公式(3)對應的拓展模型記為1P-ASM-R。
此外,值得注意的是:理論上,被試在交互式測驗中對問題情境相關知識的積累速度應當不是始終不變的,而是“在任務一開始時能夠獲得更多信息,當有了一定積累后,再能夠從情境中習得的知識增量也會逐漸下降”,即對問題情境知識的學習和積累存在邊際收益遞減(diminishingmarginalreturns)。這在統計中體現為被試積累的信息量與互動次數關系的函數為凹函數(即二階導數小于0)。因此,在1P-ASM-R的基礎上,本研究進一步建構1P-ASM- R* 模型來考慮學習效應的邊際收益遞減:
p(Aijk=1|Yijk=s,θi,γk,βks)=

其中
,即對 tiks 進行平方根轉換后再納入模型。這種做法基于以下兩點考慮:(1)平方根函數是一個典型的凹函數,符合邊際收益遞減的理論假設,是經濟學中常用的收益函數之一;(2)平方根函數的結構簡單,它在能夠有效捕捉收益變化的非線性特征的同時,還便于后續的分析和計算。
2.3 參數估計
采用貝葉斯方法對模型參數進行估計,具體采用哈密爾頓蒙特卡洛(Hamiltonian MonteCarlo,HMC)方法。相比于傳統的基于馬爾可夫鏈的采樣策略,HMC利用哈密爾頓力學中的概念,通過模擬物理系統中的軌跡來探索參數空間,使用梯度信息指導采樣過程,從而實現高維空間中的高效采樣。模型參數的后驗分布為:

其中 p(θi) 、
和 p(γk) 分別為 θi 、 β 和 γk 的先驗分布。參考前人研究( Fu et al.,2024;Xiaoamp;Liu,2024)對參數先驗分布的設置,這里將 p(θi) 設為標準正態分布 N(0,1) ;將 p(β) 設為標準多元正態分布
,其中 E 為單位矩陣;將 p(γk) 設為標準正態分布 N(0,1) 。
3 實證數據分析
3.1 數據描述
研究數據來源于PISA2012的計算機化問題解決測驗TICKETS模塊(CP038),在該任務模塊中被試需要按照要求操作一臺虛擬的鐵路售票機購買車票(OECD,2013)。虛擬測試系統采用有限狀態自動機(finitestateautomata)的框架搭建,其初始界面如圖2所示。
圖2 PISA2012TICKETS任務界面

在這臺虛擬售票機上,被試首先需要選擇購買的鐵路網絡類型:城市地鐵(CITYSUBWAY)或鄉村鐵路(COUNTRYTRAINS);其次選擇購票的優惠類型:全價票(FULLFARE)或優惠票(CONCESSION);而后再選擇需要購買的車票類型:日票(DAILY)或次票(INDIVIDUAL);最后在購買界面上會顯示票價,如果是次票則需要被試進一步選擇購買的車票張數。被試在每個界面都可以點擊取消(CANCEL)
回到系統的初始界面,在購買界面點擊購買(BUY)則完成測驗任務。
這個問題解決任務模塊共有3個子任務,本研究對其中的一個子任務(CP038Q02)進行分析,研究方法可以拓展至多個任務聯合分析的情境中。在該任務中,被試需要購買兩張城市地鐵的優惠次票。該問題情境具有有限數量的可能狀態,本研究采用Han等人(2022)的設置,將任務情境分解為11種可能的問題狀態,依據問題情境共有27種可能的狀態轉移。如圖3所示,在11個問題狀態中,初始狀態記為A,結束狀態記為K,其余均為問題解決過程的中間狀態。狀態間的箭頭表示狀態轉移可能的方向,其中實線表示正確狀態轉移,虛線表示錯誤狀態轉移,而線段上的文字則標注狀態轉移所對應的操作。比如,從初始狀態A轉移到正確的鐵路網絡狀態B,這一轉移是正確的狀態轉移,被試在初始狀態A選擇\"COUNTRYTRAINS\"會實現該狀態轉移。此外,從圖中可以看出,該問題解決任務的最優操作序列為: (初始狀態A) $$ COUNTRYTRAINS $$ (正確的鐵路網絡狀態 B) FULLFARE $$ (正確的購票優惠狀態 C)INDIVIDUAL $$ (正確的車票類型狀態 D)2 trips $$ (正確的乘車次數狀態E) $$ BUY →(結束狀態K)。
圖3問題解決任務CP038Q02的問題狀態圖

數據從PISA官方網站4上獲得。根據對CP038Q02的問題狀態的定義,對原始數據進行重新編碼,并參考付顏斌等人(2023)的標準對數據進行清理:(1)刪除提前終止作答的序列,如未點擊購票就結束任務的序列;(2)刪除包含不可能存在的狀態轉移模式的序列。最后,得到27,711名被試的行動序列,其中最小長度為5,最大長度為110,平均長度為6.97;包含1330種行動序列,其中542種行動序列完成問題解決任務(對應14925名被試完成任務,其中10348名被試按照最優行動序列完成任務)。考慮到算力資源與研究效率的問題,本研究采用簡單隨機抽樣的方法從27,711名被試中抽取4,000名被試的過程數據用于分析,樣本中行動序列的最小長度為5,最大長度為80,平均長度為6.98;包含339種行動序列,其中144種行動序列完成問題解決任務(對應2115名被試,其中1472名按照最優行動序列完成任務)。
3.2 分析方法
分別采用1P-ASM、1P-ASM-R和1P-ASM-R*擬合數據,對三者的表現進行比較分析,并評估在模型中加入學習效應以及在拓展模型中考慮學習效應邊際遞減的合理性。
模型的參數估計和擬合檢驗通過 Stan(Carpenteretal.,2017)及對應的R語言程序包rstan(StanDevelopment Team,2024)與 loo(Vehtari etal., 2017)自編代碼實現5。在進行參數估計時,設置4條采樣鏈,每條鏈長3000次,其中預熱(warm-up)2000次,最終每個參數得到4000個采樣點。所有程序均在配置為Intel
Xeon
Ice Lake和32G內存的服務器上運行。
鏈的收斂性通過潛在比例縮減因子 R (PotentialScaleReductionFactor,PSRF;Gelmanamp;Rubin,1992)進行評價。依據拇指原則,若 Rlt;1.1 ,則認為模型參數估計收斂。在模型參數估計收斂的基礎上,再使用后驗預測檢驗(PosteriorPredictiveCheck,PPC;Gelmanetal.,1996評估模型的絕對擬合情況。PPC從后驗預測分布中抽取樣本,將這些樣本與觀測到的數據進行對比,然后計算后驗預測p 值(PosteriorPredictivep-values,PPP),以此來評估模型適用或失效之處。如果模型對數據的擬合良好,那么PPP值將接近0.5(Gelmanetal.,2013)。
本研究對觀測數據與抽樣數據中得到的狀態轉移正誤進行比較,計算得到模型的PPP值(付顏斌等,2023)。對于模型的相對擬合情況,采用留一法交叉驗證(Leave-One-Outcross-validation,LOO;Gelfandetal.,1992)和Watanabe-Akaike信息準則(Watanabe-Akaike Information Criterion, WAIC; Watanabe,2010)兩個指標進行分析。LOO和WAIC越小,表明模型對數據的擬合程度越好。
3.3結果
三個模型中所有參數的PSRF值均小于1.1,說明三個模型的貝葉斯估計均收斂,可以依據貝葉斯參數估計的結果進行進一步的分析。
表1呈現了三個模型對數據的擬合情況。結果顯示:三個模型的PPP值均接近0.5,說明三個模型均擬合該數據。LOO 和WAIC的結果表明:與1P-ASM相比,1P-ASM-R和1P-ASM-R*均能更好地擬合數據,意味著在模型中納入當前狀態在作答序列中的位置變量并考慮被試的學習效應能更好地反映數據的情況,即被試在作答過程中存在對問題情境的學習。進一步對1P-ASM-R和1P-ASM- ?R* 的結果進行比較,可以看出1P-ASM-R*的擬合表現優于1P-ASM-R。表2呈現了1P-ASM-R和1P-ASM-R*模型中學習效應參數y的估計結果,可以發現:1P-ASM-R中的學習效應參數接近于0,未體現出被試對問題情境的學習。上述結果說明,在模型中考慮對問題情境學習的邊際效應的影響更符合實際情況。因此,接下來僅對比1P-ASM和1P-ASM-R*的結果。
表1三種模型對數據的擬合情況

注:1P-ASM為單參數行動序列模型,1P-ASM-R為引入學習效應的單參數行動序列拓展模型,1P-ASM ?R* 為考慮學習邊際效應的單參數行動序列拓展模型;LOO Σ=Σ 留一法交叉驗證,WAIC Σ=Σ Watanabe-Akaike信息準則, PPP= 后驗預測概率。
表21P-ASM-R和1P-ASM- ?R* 模型中學習效應參數的后驗估計結果

注:1P-ASM-R為引入學習效應的單參數行動序列拓展模型,1P-ASM- ?R* 為考慮學習邊際效應的單參數行動序列拓展模型;SD 為標準差, 95%HPDL 為 95% 最高后驗密度(highestposteriordensity)區間的下界, 95%HPDU 為 95% 最高后驗密度區間的上界。
表31P-ASM和1P-ASM- ?R* 的容易度參數的后驗估計結果

注:1P-ASM為單參數行動序列模型,1P-ASM-R*為考慮學習邊際效應的單參數行動序列拓展模型;SD為標準差, 95%HPDL 為 95% 最高后驗密度區間的下界, 95%HPDU 為 95% 最高后驗密度區間的上界。
表3中呈現的是1P-ASM和1P-ASM-R*的容易度參數 βks 的后驗估計結果。結果顯示,相較于1P-ASM的容易度參數,1P-ASM- ?R* 的容易度參數均有一定程度的降低,這是由于在模型中納入當前狀態在作答序列中的位置變量后,新增的變量解釋了一部分原本全部由容易度參數來解釋的變異。值得注意的是,1P-ASM-R*的容易度參數仍然保留原1P-ASM模型的參數關系,比如在正確問題解決路徑上(A、B、C、D和E)的問題容易度參數都大于0。這表明當被試處于正確路徑上的問題狀態時,其更容易繼續呈現正確狀態轉移(Hanetal.,2022;付顏斌等,2023),而納入位置變量后,模型依然能夠捕捉到這一問題解決任務情境特點。
圖4呈現了1P-ASM和1P-ASM-R*的問題解決能力參數( θi )估計后驗均值的對比散點圖及直方圖。散點圖的結果表明:兩種模型得到的問題解決能力估計值之間具有很高的相關性,相關系數高達0.998。從直方圖和概率密度曲線也可以看出,兩個能力參數的概率密度分布也近似。值得注意的是:在低問題解決能力區間中,1P-ASM-R*模型估計得到的能力參數值則略低于1P-ASM,說明:(1)在考慮學習效應后,相對于高問題解決能力被試組,低問題解決能力被試組的問題解決能力會得到更多的校正;(2)相對于具有高問題解決能力的被試,低問題解決能力被試的能力參數估計受學習效應的影響更大。
圖41P-ASM和1P-ASM ?R* 的能力參數估計后驗均值的對比散點圖及直方圖注:1P-ASM為單參數行動序列模型,1P-ASM ?R* 為引人學習效應的單參數行動序列拓展模型; r 為Pearson相關系數。

4模擬研究
4.1 研究設計與數據生成
通過模擬研究進一步比較1P-ASM和1P-ASM-R*兩種模型在各種條件下的心理測量學表現,并考查樣本量(200和1000)、序列長度(短和長)和學習效應大小(0、0.1和0.3)三個操縱變量對參數估計返真性的影響。采用的模擬情境設計與實證研究相同。其中,參考付顏斌等人(2023)的模擬研究設計,通過控制模擬任務中的被試返回初始點(即點擊“CANCEL\"的概率來操縱序列長度。最終生成的短行為序列和長行為序列的平均長度分別為7.65和 14.80 。
上述三個操縱變量共產生2(樣本量:200/1000×2 (序列長度:短/長) ×3 (學習效應大小:0/0.1/0.3)=12 種模擬條件。為減少隨機誤差的影響每種模擬條件下均重復生成50組數據。在每次重復中,狀態轉移參數的真值不變,被試能力的真值從標準正態分布中隨機生成。根據1P-ASM-R*通過R語言代碼模擬生成反應序列,其中當學習效應為0時,相當于采用1P-ASM生成反應序列。值得注意的是,通過1P-ASM和1P-ASM-R*無法直接生成被試解決任務所呈現的行為序列,只能生成正確與錯誤操作對應的0-1向量。因此,在研究中生成及分析的數據均為狀態轉移正確性序列。
4.2 分析方法
分別采用1P-ASM和1P-ASM-R*擬合數據,進行參數估計,估計過程與實證研究保持一致。通過PSRF對估計程序的收斂性進行評價,在程序收斂的基礎上進一步從兩方面來評估模型的表現: (1)采用LOO和WAIC兩個指標對模型的整體擬合情況進行分析比較;(2)使用偏差(bias)和均方根誤差(RootMeanSquaredError,RMSE)量化問題解決能力參數的估計返真性:


其中 R 為重復模擬的總次數, θri 和 θri 分別是被試 i 在第 r 次重復時的能力估計值和真實值。
4.3 結果
在所有條件下,兩個模型中所有參數的PSRF值均小于1.1,說明所有模型參數的估計均收斂,可以依據當前參數估計結果進行后續分析。
表4呈現了不同模擬條件下兩個模型的擬合結果,提供的是每種條件下50次重復中1P-ASM-R*擬合優于1P-ASM的百分比。圖5中的直方圖呈現的是重復模擬中兩個模型的擬合指標差值(1P-ASM-R*減去1P-ASM)的分布情況。從表/圖的結果來看:首先,在不存在學習效應時,1P-ASM的擬合結果更有可能優于1P-ASM- ?R* ,不過兩者在實際指標上的差異很小。因此可以認為,在不存在學習效應時,原模型與拓展模型對模擬數據的擬合情況相近;而在存在學習效應時,1P-ASM-R*的擬合結果更有可能好于1P-ASM,而且隨著學習效應增大,這種優勢會增加。其次,樣本量越大或行動序列越長,學習效應帶來的1P-ASM-R*擬合優勢也會增加。
表41P-ASM和1P-ASM- ?R* 的模型擬合結果

注:1P-ASM為單參數行動序列模型,1P-ASM-R*為引入邊際學習效應的單參數行動序列拓展模型;LOO Σ=Σ 留一法交叉驗證,WAIC Σ=Σ Watanabe-Akaike信息準則。
表5呈現的是能力參數估計的返真性情況。從表中可以發現:(1)被試樣本量對能力參數估計不存在影響。樣本量的大小不影響兩個模型的參數估計返真性;(2)當存在學習效應時,1P-ASM-R*的參數估計返真性優于1P-ASM,這一優勢主要體現在“長序列、大的學習效應\"條件下。此外,網絡版附錄給出了容易度參數估計的返真性情況,從總體趨勢上看,當存在學習效應時,1P-ASM-R*的容易度參數估計返真性也要優于1P-ASM。
表6提供了學習效應參數估計的返真性結果。總的來看,1P-ASM-R*能夠得到準確和可靠的學習效應參數估計值。對比三個操縱變量不同水平下的結果,可以發現:(1)被試樣本量對學習效應參數估計存在一定的影響。樣本量越大,參數估計返真性更高;(2)從總體趨勢上看,序列長度越長,學習效應參數估計的返真性越高,這一影響主要體現在RMSE指標上;(3)學習效應參數估計的返真性受學習效應參數真值的影響不大。

5總結與討論
相較于傳統的作答數據,過程數據蘊含著更豐富的信息,為研究者推斷在計算機動態測驗中測量的被試復雜能力真實水平提供了更加細致的測量證據,有助于實現對被試能力的全面評估。在已有研究中,研究者結合隨機過程的思想開發一系列過程數據測量模型,但它們均基于一階馬爾可夫性假設,未考慮到“被試在進行問題解決時需要對未完整呈現的問題情境進行探索和學習\"的情況。鑒于被試在進行交互式問題解決任務時會逐步探索問題情境,本文在1P-ASM模型的基礎上,引入當前狀態在作答序列中的位置這一變量 tiks 以及學習效應參數 γk ,得到能描述不同任務情況下被試群體水平學習效應的拓展模型1P-ASM- ?R* 。
實證研究結果發現:(1)相較于1P-ASM,1P-ASM-R*在實證數據上有更佳的擬合表現,說明被試在作答過程中確實存在對問題情境的學習;(2)學習效應具有邊際遞減的特點,即隨著被試逐漸深入探索待解決問題的情境,對問題情境的學習對正確行動選擇的影響增量會逐漸減少;(3)引人學習效應并不影響模型捕捉問題解決任務的特征。當被試已經在問題解決路徑上時,他們更傾向于保持在這一正確的軌道上;而一旦進入錯誤的解決路徑,他們也更容易在錯誤的方向上繼續前進;(4)在考慮學習效應后,相對于高問題解決能力被試組,低問題解決能力被試組的問題解決能力會得到更多的校正。另外,模擬研究結果表明:(1)當存在學習效應時,1P-ASM-R*能夠提供與1P-ASM近似的擬合效果,而且能夠正確地將學習效應參數估計為0。而當存在學習效應時,1P-ASM-R*能夠更好地擬合數據而且這種優勢在學習效應越強時越明顯;(2)序列長度是影響1P-ASM-R*參數返真性的原因之一。序列長度越長,數據中所含信息就越多,因此對參數的估計也就更準。
盡管本文提出一種可以有效分析問題解決測驗中學習效應、提高問題解決能力估計精度的模型,但仍存在一些不足值得今后進一步探索。
首先,在本研究中,學習效應被定義在任務水平上,反映了“任務\"的特征,因此學習效應大小對所有被試而言都是一致的。這樣設計的目的是為了讓模型能夠在捕捉到學習效應的同時具有最大程度的簡潔性。但也有研究指出,問題解決本身就包括建立問題表征(problemrepresentation)和生成解決方案(generating problem solution)兩個認知過程(Goode amp; Beckmann,20lO; Novick amp; Bassok,2005)。若從這一理論視角著手,本研究拓展模型中的問題解決能力參數所代表的實際上是狹義的“生成解決方案能力”,而任務水平的學習效應參數則是被試全體在該任務上“建立問題表征\"的能力。因此,未來的研究可考慮進一步在被試水平上對學習效應進行建模,從而獲得被試水平的學習能力。
其次,本研究選擇當前狀態在作答序列中的位置這一較為籠統的變量來刻畫被試的學習過程,而過程數據中不僅包含被試解決問題的行動順序,還記錄進行各種行為的時間戳(timestamp)。后續研究可以嘗試利用行為時間戳信息記錄的被試在特定狀態上的停留時間,從而對被試的問題情境學習進
行更為深入的分析。
再次,本研究根據邊際效益遞減將學習軌跡界定為凹函數,從簡便性角度出發具體探索了平方根函數在模型應用中的效果。未來研究也可進一步根據問題解決任務的特征有針對性地設計學習軌跡。另外,在當前凹函數形式的學習軌跡基礎上,還可以進一步探索其他凹函數(如對數函數)在拓展模型中的應用。
最后,雖然本研究所采用的PISA2012的TICKET問題解決任務是當前過程數據研究領域的經典素材,但其任務結構相對簡單,未來可以嘗試采用更加復雜的問題解決任務數據來對這一問題進行更加深入的研究。
參考文獻
Borsboom,D.,Mellenbergh,G.J.,amp; Van Heerden,J. (2003). Thetheoreticalstatus oflatent variables.Psychological Review,110(2),203-219.
Breiman,L.(20o1). Statistical modeling:The two cultures. Statistical Science,16(3),199-215.
Carpenter,B.,Gelman,A.,Hofman,M.D.,Lee,D.,Goodrich B.,Betancourt,M.,...Riddell,A.(2017).Stan:A probabilistic programming language.Journal of Statistical Software, 76(1),1-32.
Chen,G.,amp; Chen, P.(2019). Explanatory item response theory models:Theory and application.Advances in Psychological Science,27(5),937-950.
[陳冠宇,陳平.(2019).解釋性項目反應理論模型:理論與 應用.心理科學進展,27(5),937-950.]
Chen,Y. (2020).A continuous-time dynamic choice measurement model for problem-solving process data. Psychometrika, 85(4),1052-1075.
Chen,Y., Zhang,J., Yang,Y.,amp; Lee,Y. (2022).Latent space modelforprocessdata.JournalofEducationalMeasurement, 59(4),517-535.
DeBoeck,P.,amp; Wilson,M. (2004). Explanatory item response models:A generalized linearand nonlinear approach.New York, NY: Springer.
Fu,Y.,Chen,Q.,amp; Zhan,P.(2023).Binary modelingof action sequences in problem-solving tasks:One- and two-parameter action sequence model. Acta Psychologica Sinica,55(8), 1383-1396.
[付顏斌,陳琦鵬,詹沛達.(2023).問題解決任務中行動序 列的二分類建模:單/兩參數行動序列模型.心理學報, 55(8),1383-1396.]
Fu,Y., Zhan,P., Chen, Q.,amp; Jiao,H. (2024). Joint modeling of action sequences and action time in computer-based interactive tasks.Behavior Research Methods,56(5),4293- 4310.
Gelfand,A.E.,Dey,D.K.,amp; Chang,H.(1992).Model Determinationusing predictivedistributionswith implementation via sampling-based methods (technical report, No. SOL ONR 462). Palo Alto, CA: Department of Statistics, Stanford University.
Gelman,A., Carlin,J.B.,Stern,H. S.,Dunson,D.B.,Vehtari, A.,amp;Rubin,D.B.(2013).Bayesiandataanalysis(3rd ed.) BocaRaton,FL:Chapmanamp;Hall/CRCPress.
Gelman,A.,Meng,X.-L.,amp; Stern,H.(1996).Posterior preaicuve assessment oI moael Itnessvia realizea discrepancies. Statistica Sinica, 6(4),733-760.
Gelman,A.,amp; Rubin,D.B.(1992).Inference from iterative simulation using multiple sequences. Statistical Science, 7(4),457-472.
Goode,N.,amp; Beckmann, J. F.(2010).You need to know: There is a causal relationship between structural knowledge and control performance in complex problem solving tasks. Intelligence,38(3),345-352.
Han,Y.,Liu, H.,amp; Ji, F.(2022).A sequential response model foranalyzingprocessdataontechnology-based problem-solving tasks. Multivariate Behavioral Research, 57(6),960-977.
Han,Y.,Xiao,Y.,amp; Liu,H. (2022).Feature extraction and ability estimation of process data in the problem-solving test.Advances in Psychological Science,30(6),1393-1409.
[韓雨婷,肖悅,劉紅云.(2022).問題解決測驗中過程數據 的特征抽取與能力評估.心理科學進展,30(6),1393- 1409.]
Hao,J.,Shu,Z.,amp; von Davier,A.(2015).Analyzing process data from game/scenario-based tasks: An edit distance approach. Journal of Educational Data Mining, 7(1),33- 50.
He, Q., Borgonovi, F., amp; Paccagnella, M. (2021). Leveraging process data to assess adults’problem-solving skills: Using sequence mining to identify behavioral patterns across digital tasks. Computers amp; Education,166,Article 104170.
He,Q.,Borgonovi,F.,amp; Suarez-Alvarez,J. (2023). Clustering sequential navigation patterns in multiple-source reading tasks with dynamic time warping method. Journal of Computer Assisted Learning,39(3),719-736.
LaMar,M.M.(2018).Markov decision process measurement model. Psychometrika,83(1), 67-88.
Levy,R. (2019). Dynamic Bayesian network modeling of game-based diagnostic assessments. Multivariate Behavioral Research,54(6),771-794.
Levy, R. (202o). Implications of considering response process data for greater and lesser psychometrics. Educational Assessment, 25(3),218-235.
Li,M.,Liu, Y.,amp; Liu,H. (2020). Analysis of the problemsolving strategies in computer-based dynamic assessment: The extension and application of multilevel mixture IRT model.Acta Psychologica Sinica,52(4),528-540.
[李美娟,劉玥,劉紅云.(2020).計算機動態測驗中問題解 決過程策略的分析:多水平混合IRT模型的拓展與應用. 心理學報,52(4),528-540.]
Liu,Y.,Xu,H., Chen,Q.,amp; Zhan,P.(2022). The measurement ofproblem-solving competence using processdata. Advancesin Psychological Science,30(3),522-535.
[劉耀輝,徐慧穎,陳琦鵬,詹沛達.(2022).基于過程數據 的問題解決能力測量及數據分析方法.心理科學進展, 30(3), 522-535.]
Novick,L.R.,amp;Bassok,M.(20o5).Problem solving.InK.J. Holyoakamp;R.G.Morrison(Eds.), The Cambridge handbook of thinking and reasoning (pp. 321-349).Cambridge University Press.
OECD.(2013).PISA 2012 assessment and analytical framework: Mathematics, reading, science, problem solving and financial literacy.PISA,OECD Publishing,Paris.
Qiao,X.,amp; Jiao,H. (2U18).Data mining techniques in analyzing process data: A didactic. Frontiers in Psychology 9,Article 2231.
Shu,Z.,Bergner,Y.,Zhu,M.,amp; Hao,J.(2017).An item response theory analysis of problem-solving processes in scenario-based tasks. Psychological Test and Assessment Modeling,59(1),109-131.
Stan Development Team. (2024). RStan: The R interface to Stan (Version 2.32.6) [R]. https://mc-stan.org/
Tang,X. (2024).A latent hidden Markov model forprocess data.Psychometrika,89(1),205-240.
Tang,X.,Wang,Z.,He,Q.,Liu,J.,amp;Ying,Z.(2020).Latent feature extraction for process data via multidimensional scaling. Psychometrika, 85(2),378-397.
Ulitzsch,E., He,Q.,amp; Pohl, S.(2022).Using sequence mining techniques for understanding incorrect behavioral patterns on interactive tasks.Journal of Educational and Behavioral Statistics,47(1),3-35.
Vehtari,A., Gelman,A.,amp; Gabry, J. (2017).Practical Bayesian model evaluation using leave-one-out cross-validation and WAIC. Statistics and Computing, 27(5), 1413-1432.
Wang,P.,amp; Liu,H.(2024).Polytomous effectiveness indicators in complex problem-solving tasks and their applications in developing measurement model. Psychometrika, 89(3),877-902.
Wang,Z.,Tang,X.,Liu,J.,amp; Ying,Z.(2023).Subtask analysis of process data through a predictive model. British Journal of Mathematical and Statistical Psychology,76(1), 211-235.
Watanabe, S. (2010). Asymptotic equivalence of Bayes cross validation and widely applicable information criterion in singular learning theory. Journal of Machine Learning Research,11,3571-3594.
Xiao,Y.,He,Q.,Veldkamp,B.,amp;Liu,H.(2021).Exploring latent states of problem - solving competence using hidden Markov model on process data. Journal of Computer Assisted Learning,37(5),1232-1247.
Xiao,Y.,amp; Liu, H. (2024).A state response measurement model forproblem-solving process data. Behavior Research Methods,56(1),258-277.
Xu,X., Zhang,S., Guo,J.,amp; Xin, T.(2024).Biclustering of log data:Insights from a computer-based complex problem solving assessment. Journal of Intelligence,12(1),Article 10,1-32.
Yarkoni, T.,amp; Westfall,J. (2017). Choosing prediction over explanation in psychology: Lessons from machine learning. PerspectivesonPsychological Science,12(6),1100-1122.
Yuan,J.,Li, M.,amp; Liu,H. (2023).The development and challenge of contextualized testing. Journal of China Examinations,3,17-26.
[袁建林,李美娟,劉紅云.(2023).情境化測驗的進展與挑 戰.中國考試,3,17-26.]
Zhan,P.,amp; Qiao,X. (2022). Diagnostic classification analysis of problem-solving competence using process data: An item expansion method. Psychometrika,87(4), 1529-1547.
Zheng,Y.,Nydick, S., Huang, S.,amp; Zhang, S.(2024).MxML (exploring the relationship between measurement and machine learning): Current state of the field. Educational Measurement: Issues and Practice,43(1),19-38.
Analysis of learning effect in interactive problem-solving test: Extension and application of process data measurement model
LU Xiangyu, CHEN Ping (CollboratieovtiontofsntoricuatonQualityeinNlUsityen)
Abstract
In the past decade,computer-based interactive problem-solving tests have become increasingly popular in large-scale assssments. Such tests require examinees to interact with a computer, explore virtual scenarios,and solve practical problems,thus making it possible to record the sequences of actions performed by examinees (i.e., process data).Process data contain rich information about the problem-solving processandcan help to gain a deeper understanding of examinees’ problem-solving strategies. Methods for analyzing such process data are still under development. For example, Han et al. (2021) proposed a sequential response model (SRM) that combines comprehensive information from the response processto infer problem-solving ability.Fu etal. (2023) replaced the multinomial logistic modeling in SRM with binary logistic modeling and proposed 1P-ASM with relatively lower model complexity. However, existing studies have ignored the fact that students gradually gather information while completing problem-solving tasks (i.e., learning effect).The probability that an examinee performs the correct behavior is affcted by their understanding ofthe problem situation. If the model does not take this into account, it may result in biased estimate of examinee's problem-solving ability.To address this issue, this paper puts forward a new model (denoted as 1P-ASM- ?R* ),which extends 1P-ASM to incorporate this learning effect to obtain more accurate ability estimates.
An empirical study was performed to compare 1P-ASM and 1P-ASM- ?R* in a real-world interactive assessment item (i.e,“Tickets\") in the PISA 2012.The results showed that: (1) the extended model introducing learning efect fitted the empirical data bettr than the original model; (2)as the examinees delve deeper into the problem,the impact of learning effecton the accuracyofbehavioral choices in problem-solving tasks decreased, reflecting a trend of diminishing marginal eect; and (3) introducing learning effect into the model does not affect its ability to capture the characteristics of the problem-solving tasks.
A simulation study was further conducted to explore the psychometric performance of the proposed model in different test scenarios.Three factors were manipulated,they are sample size (2OO and l0o0),average problem state transition sequence length (short and long),and strength of learning efect (0,O.1,and O.3).The problem-solving task structure in the empirical study was used here and 1P-ASM- ?R* was used to generate the action sequences of the examinees. The results indicated that: (1) when there was no learning effect, 1P-ASM- ?R* could provide similar fitting performance to the original model and correctly estimate the learning effect parameter as 0. However, when there was a learning effect, 1P-ASM- ?R* fits the data better, and this advantage became more pronounced as the strength of the learning effect increased; (2) sequence length is one of the factors affecting the parameter recovery of 1P-ASM- ?R* . The longer the sequence length, the more information the data contains and the higher the parameter estimation accuracy.
In summary, our proposed 1P-ASM- ?R* model incorporates the learning effect and demonstrates a strong ability to accurately analyze examinees’ problem-solving abilities. The combination of simulation and empirical findings highlights the effectivenessof the model ina varietyofcontexts.Notably,when the task environment lacksa learning effect, the 1P-ASM- ?R* model exhibits comparable performance to the original 1P-ASM model. This finding underscores the excellent stabilityand adaptabilityof the model,indicating that it can function reliablyunder different conditions.
Keywordsprocess data, problem-solving, item response theory
附錄:模擬研究中容易度參數的返真性
表A1、A2分別給出了模擬研究中1P-ASM和1P-ASM- ?R* 在各模擬條件下容易度參數 β1~β10 的Bias,表A3、A4分別給出了模擬研究中1P-ASM和1P-ASM ?R* 在各模擬條件下容易度參數 β1~β10 的RMSE。指標的具體計算方法如下:

其中 R 為重復模擬的總次數,
和 β 分別是被試 i 在第 r 次重復時的能力估計值和真實值。
表A1模擬研究中1P-ASM在各條件下的Bias

表A2模擬研究中1P-ASM- ?R* 在各條件下的Bias

表A3模擬研究中1P-ASM在各條件下的RMSE

表A4模擬研究中1P-ASM-R*在各條件下的RMSE
