認知診斷中缺失數據的插補方法比較研究

2023-08-08 04:03:12陶怡汐牛彥敏劉馨媛

安陽工學院學報 2023年4期

陶怡汐，牛彥敏，劉馨媛

（重慶師范大學計算機與信息科學學院, 重慶 401331）

0 引言

與傳統測驗只能得到被試的一個測驗分數或者能力值不同，認知診斷利用現代統計方法和計算機技術作為工具，能夠診斷出被試當前的認知水平，找出被試的認知優勢與不足，為個體的因材施教及有針對性地開展補救教學提供服務[1]。認知診斷理論自從產生以來，引起國內外學者的廣泛關注，至今已有大量認知診斷的相關研究。認知診斷中個體數據的完整性十分重要，然而由于一些主觀和客觀原因，診斷過程中不可避免地會出現數據缺失的情況。PAN 等[2]的實驗證明，隨著樣本中缺失率的增大，診斷準確率會下降。因此，缺失數據是認知診斷中亟需解決的問題，并且需選用合適的插補方法進行缺失數據處理。

針對缺失數據有3 類處理方式：加權法、刪除法和插補法。加權法， STEPHAN 等提出抽樣概率的倒數加權法解決單元數據缺失情況[3]，其原理是將缺失單元的權數分解到非缺失單元上，從而增大非缺失單元的權數以減小缺失單元所帶來的影響，主要用來處理單元性數據缺失問題，只適用于隨機缺失的情況。刪除法，又包括對象刪除和屬性刪除，對象刪除即直接刪除數據集中某個存在缺失的對象，屬性刪除則是當數據集中某屬性存在缺失時就直接刪除該屬性。刪除法操作簡單，速度快，但僅適用于缺失率較小的數據集，一旦數據集中缺失數據較多，刪除法會使得數據集丟失過多的信息，從而影響后續實驗結果的準確性。插補法，有報道提出對缺失值進行插補以獲得完整數據的方法。與刪除法去除缺失數據相反，插補法的原理是為每一個缺失數據找到替代值，以此獲得完整數據集。之后出現了均值插補[4]、回歸插補、最近距離插補、冷卡插補等多種數據插補方法。在此前研究的基礎上，DEMPESTER 等研究者對極大似然估計方法進行改進，提出了期望最大化算法[5]，該算法利用迭代計算實現對缺失數據的處理。以上幾種方法都屬于單值插補，這類方法填充值是唯一的。RUBIN 基于貝葉斯理論，提出了多重插補法[6]，其基本思想是為缺失值推斷出多個估計插補值，并產生多個完整數據集進行綜合分析，確定最終的估計填充值。它吸收了期望最大化算法的優點，克服了單一插補的缺點，提高了數據插補的準確率。隨著機器學習在各領域掀起了熱潮，如何利用機器學習方法有效地處理缺失數據問題成為了研究的重點。目前，代表性的方法有：K-means插補、貝葉斯網絡等。2012 年STEKHOVEN 等研究者基于隨機森林[7]，提出了缺失森林算法，它可以直接利用已檢測到的完整部分數據集訓練出的隨機森林來預測缺失值。加權法和刪除法雖然具有操作過程簡單的優點，但是它們都具有容易丟失有用信息和誤差大等缺點，相較于此，新的插補法具有穩定性高、誤差小等優點，成為數據缺失處理研究的重點方向。

缺失數據的插補處理在醫療、經濟、心理統計等領域的應用較為廣泛[8-11]，但近年來少有針對認知診斷中的缺失數據處理問題的研究。2001年DE AYALA 等探討了項目反應理論中省略回答對能力估計準確性的影響[12]；2008 年FINCH 進行了缺失數據情況下項目反應理論參數的估計[13]；2020 年PAN 等通過實驗證明，診斷模型參數的恢復率隨著損耗率的增加而降低[2]；2021 年周昱希基于個體屬性掌握概率以及個體之間的最短距離提出了認知診斷評估中缺失數據的插補方法[14]；同年，馬馳將XGBoost 方法引入認知診斷領域，提出了一種可容忍缺失值的機器學習診斷法[15]。

至今為止，在認知診斷的相關研究中，對于不同的樣本量和缺失率對插補效果的綜合比較與評估仍然較少。本實驗將缺失森林方法引入認知診斷中，在模擬實驗中，將其與常用的幾種缺失處理方法，零替換、均值插補、多重插補、期望最大化算法進行比較，評估在不同情況下各種方法的插補準確率以及對下游診斷結果的影響。此外，為了驗證實驗的有效性，以國際學生評估項目（PISA）2015 科學素養數據為實例，進一步比較評估各方法在實證數據中的處理效果。最后討論并總結了在不同情況下各種插補方法的效果，豐富了認知診斷缺失數據處理的研究，為同類研究提供借鑒。

1 方法原理

1.1 缺失數據產生原因

在社會測驗中，由于各種原因，產生缺失數據的情況不可避免，在認知診斷中也是如此[16]。認知診斷中造成數據缺失的原因除了被試能力不足以外，還可能包括被試的答題動機不強，被試的精神狀態不佳導致題目與答題卡配對錯誤，測試時間安排不當，測試題目偏離測試目標，設備故障、斷網、網速不快耽誤作答等原因。

1.2 數據插補方式

1.2.1 零替換（Zero Replace, ZR）

零替換，即將診斷過程中缺失的作答視為錯誤答案，并用“0”替換缺失數據，再將插補之后的完整數據集輸入診斷模型，進行下一步的分析處理。ZR作為認知診斷中處理缺失數據傳統方法，雖然執行簡便，但會導致統計效力和參數估計精度的下降，因此有學者并不建議使用。

1.2.2 均值插補（Mean Imputation, MEAN）

均值插補[4]就是用研究數據中已觀測到的數據平均值作為缺失數據的插補值，作為一種操作簡便且快速的缺失數據處理方式，與眾數、中位數等插補方法同屬于傳統統計插補，其缺點為容易造成變量方差和標準差變小，相對而言更適用于分布較為平均且已知樣本量信息較多的數據插補問題。

1.2.3 多重插補（Multiple Imputation, MI）

多重插補[6]作為缺失數據處理方法的一種，其插補過程大體為插補、分析和合并3 個步驟。首先，對存在數據缺失的原始數據集選擇相應的模型方法，進行n 次插補，每插補一次就會得到一個獨立的完整數據集；然后，對這n 個完整數據集應用模型的標準方法進行分析，檢驗數據集是否合格；最后，綜合分析結果，選擇最優的數據集作為最終的完整數據集。

本研究選用二級計分形式，MI 系列方法中的分類回歸樹方法（Classification and Regression Trees, MI-CART）、預測均值匹配（Predictive Mean Matching, MI-PMM）均適用于二分變量插補[17]，下面介紹這2 種方法的原理和基本步驟：

（1）MI-PMM。其大致步驟為：首先，根據排除了缺失條目的完整數據集建立模型，計算預測值；其次，使用所建立的模型計算出所有條目的預測值，從預測值最接近缺失條目預測值的所有完整數據中形成一個捐獻者小集合；最后，從捐獻者小集合中隨機抽取數據替換缺失數據。

（2）MI-CART。其大致步驟為：首先模型根據最佳切分點對數據樣本進行多次切分，將數據切分為2 個子樣本；其次，經過多次遞歸切分直到數據不可再分，同時每個子樣本中的數據都是同質的，此時分類回歸樹就構建好了；最后，根據構建的分類回歸樹，找到每一個缺失數據下的終端子樣本，并從該子樣本中隨機抽取數據作為插補數據。

1.2.4 期望最大化算法（Expectation Maximization Imputation, EM）

期望最大化算法[5]是一種求參數極大似然估計的方法，主要通過迭代計算處理不完全數據，每一個迭代過程都由期望步和極大化步組成。期望步，依據已有的數據和上一次迭代參數求缺失數據的條件期望值；極大化步，根據期望步所求的條件期望值來替換缺失值，并用極大似然估計法重新計算出新的參數，用于下一次迭代。最后不斷重復以上2 步，直到目標函數收斂。

當數據規模巨大時，EM 算法的執行非常簡單，只需要通過自身的迭代過程就可以找到全局最優解。但EM 算法的速度由缺失數據的多少決定，缺失數據的比例越大，算法收斂速度越慢。

1.2.5 缺失森林（missForest）

缺失森林是由STEKHOVEN 等[7]提出的一種基于隨機森林的迭代估算方法，用來解決缺失數據問題。它可以直接利用已檢測到的完整部分數據集訓練出的隨機森林來預測缺失值，而不依賴于因變量的完整性，既可用于連續型變量也可用于離散型變量。假設X=(X1, X2,…, Xp) 是一個n×p 維的矩陣，對于任意變量記為Xs，缺失森林的插補步驟為：首先對X 的所有缺失數據進行初步的估算( 用均值插補或者其他方式插補)，然后將變量Xs根據缺失值的數量進行從小到大排序，從最小的數量開始依次使用隨機森林回歸去填補缺失值，重復計算過程，直到滿足停止標準，即插補數據的結果變化較小或不再變化。

1.3 診斷模型

本研究認知診斷部分選用DELATORRE提出的G-DINA模型[18]，此模型在診斷過程中考慮到了屬性之間的交互，更加符合實際情況，其常見的公式為

2 實驗

2.1 模擬實驗

2.1.1 實驗設計

本研究采用3×3×6 的完全交叉實驗設計，其中自變量為被試數量、缺失率和缺失數據處理方式。被試數量包括了3 個水平(100 人、500 人、1 000 人)，分別對應小樣本、中樣本和大樣本；分別設置了3 種缺失率（10%、20%、30%）；缺失數據處理方式選用EM、MEAN、MI-PMM、MI-CART、ZR、missForest 6 種方法。

2.1.2 模擬過程

完整數據生成：本實驗采用GDINA 包的simGDINA（）函數模擬被試的作答反應，其中滑動概率和失誤概率都固定設置為0.1。共有10 道試題，考查3 個屬性。

缺失數據生成：通過R 軟件中的simFrame包構建不同缺失率的缺失數據樣本。

缺失數據處理：使用R 軟件、SPSS 23.0 和PyCharm 2022 實現。選用SPSS 23.0 實現均值插補和ZR 處理。MI 方法調用R 軟件中的MICE 包實現，插補次數均設置為20 次，以保證插補結果的準確性。同時用R 軟件中的EMimpute（）函數實現EM 處理。missForest 方法則通過自編的Python 代碼實現，樹的數量設置為450。

2.1.3 評價指標

本文選用均方根誤差RMSE（Root Mean Square Error）作為插補性能評價指標，其公式為

插補實驗過后，本文選用模式判準率PMR（Pattren Match Ration）作為評價被試屬性掌握的估計精度的指標，公式為

其中N 為被試數量，Ni-correct表示第i 個被試的屬性掌握模式的分類結果與該被試真實的屬性掌握模式是否一致，一致為1，否則為0。模式判準率越高，代表被試的屬性掌握模式判斷正確的數量越多。

2.1.4 模擬實驗結果

對含有缺失值的模擬數據集進行插補處理之后，本研究計算了每個插補數據集和其對應的完整數據集之間的RMSE，以此來比較各方法的插補準確率。

表1 和圖1 呈現了在不同樣本量與缺失率組合下，6 種插補方法進行數據處理之后的均方根誤差結果。首先，從整體上看，隨著缺失率的上升RMSE 會逐步增加，同時樣本量的增大也會導致RMSE 的增大，證明隨著缺失數據量的增大，所列各種處理方法的插補準確率都會出現一定程度的下降。其次，在中樣本（500 人）和大樣本（1 000 人）條件下，基于隨機森林的missForest是最優的處理方法。其余5 種方法在不同樣本水平上的表現略有不同，例如在小樣本（100 人）水平下MI-PMM 的處理效果最優，而在中樣本以及大樣本的條件下，MI-CART 的處理效果則優于MI-PMM。最后，MEAN 和ZR 這2 種方法作為最早期出現的插補方法，雖然操作簡單，但RMSE均較大，插補準確率遠低于其他4 種方法。

圖1 不同樣本量和缺失率下各處理方法的RMSE 對比

圖2 不同樣本量和缺失率下各處理方法的PMR 對比

表1 均方根誤差RMSE

從結果可以看出，在小樣本中MI 的2 種方法的處理效果都較好，其中MI-PMM 和MICART 的效果相近，可任選其中一種。missForest的插補準確率較差，因為missForest 作為一種機器學習的插補方法，在小樣本數據中由于已檢測到的完整部分數據集較小，訓練出的隨機森林預測缺失值的準確性有待提高。而在中樣本以及大樣本中，missForest 的插補準確率優于其他。因此，在小樣本條件下推薦選用MI 處理方法；中樣本和大樣本條件下，優先選用missForest 方法。

此外，本研究還計算了PMR，以此來比較各方法處理后的被試屬性掌握的估計精度。

從表2 中可以看出，模式判準率的估計結果基本符合RSME 估計結果。missForest 在大樣本量的實驗中，取得了比其他方法更好的判準率。如1 000 樣本量，在10%、20% 和30%的缺失率下，識別率分別達到了0.881、0.791和0.735。而在小樣本量下，相較于多重插補方法， missForest 的表現稍差一些。如100 樣本量，10% 和30% 的缺失率下，missForest識別率比MI-PMM 要低0.01 和0.03。這個結果與RSME 估計結果基本一致，可能主要是由于多重插補方法是基于原始含數據缺失的數據集進行插補，然后對多次插補的數據進行評估。因此在小樣本下，多重插補方法更有可能插補出與原始數據相似度高的結果。所以，多重插補方法在小樣本量下比其他方法表現得更好。

表2 模式判準率PMR

在缺失率方面，隨著缺失率的增加，PMR 也在不斷下降，而missForest 在一定程度上緩解了這個下降的過程，尤其是在較高缺失率的情況下。

因此可以得出，在大樣本的情況下，missForest總體表現更好。而在小樣本的情況下，選用多重插補方法更佳。

2.2 實證研究

2.2.1 實證數據

PISA 是國際學生評估項目（Programme for International Student Assessment）的簡稱，作為當前世界上最具影響力的國際學生成就評價項目之一，主要測試考察被試的閱讀素養、科學素養和數學素養。2015 年PISA 能力測試主要考察的是科學素養，其中《PISA2015 科學框架草案》將科學素養分為如圖3 所示的3 種能力[19]。

圖3 PISA2015 科學素養

科學地解釋現象，即認識、提供和評價對一系列自然現象和技術產品的解釋。

評價和設計科學探究，即科學地描述、評價科學研究，提供問題解決的方法。

科學地解釋數據和證據，即分析評價數據和各種不同方式表示的參數，并能得出恰當的科學結論。

本實驗首先根據文獻[20] 選用考查科學素養的18 道題目，篩選中國的1 092 名被試進行分析，除題目DS498Q04 之外其余題目作答結果均為二分變量，0 表示作答錯誤，1 表示作答正確，5-9 表示空缺，其次對于DS498Q04，將它轉化為二分變量，即0 →0，1 →0，2 →1。最終得到題目數量, 被試數量的作答數據集，最后使用模擬實驗中6 種方法對缺失數據進行處理，并用G-DINA 模型進行估計。實證實驗數據集如表3 和4。

表3 實證實驗Q 矩陣

表4 實證實驗學生作答情況

2.2.2 實證結果分析

認知診斷過程中模型擬合主要分為項目擬合、測驗擬合和被試擬合，由于本數據集選自PISA2015，實證研究選用以下幾個評價指標：偏差(Deviance)、赤池信息準則(AIC)和貝葉斯信息準則(BIC)，指標值越小，表明數據與模型擬合程度更高，則該處理方法的效果更好。

實證研究結果如表5 所示，比較3 項指標，missForest 表現最佳，之后依次為MEAN、ZR、MI-CART、MI-PMM、EM。實證研究中missForest 方法最優，與模擬實驗中結果相似。但值得注意的是傳統插補方法在實證研究中同樣表現出色，究其原因在PISA 這類國際性大型測試中，被試重視程度高、答題動機強，測試時間安排得當，被試由于自身原因忽視答題或由于環境原因被迫退出答題的可能性較小，作答情況出現空缺是因為被試不會此題而跳過的可能性較高，因此可根據實際數據情況選擇合適的插補方式。實證研究驗證了所提方法的實用價值。

表5 實證結果

3 結論

本研究通過模擬實驗對EM、MEAN、MIPMM、MI-CART、ZR、missForest 6 種插補方法進行了綜合比較和評估，并通過實證數據進行了驗證。發現隨著缺失量的增加，各插補方法的插補準確率均下降。同時，在小樣本中MI的填補準確率和模式判準率最優，而在中樣本和大樣本情況下，missForest 表現最佳。沒有一種缺失插補方法在所有情況下均表現得最好，幾種方法各有所長，可在不同情況下選用不同的方法。

目前，認知診斷中缺失數據處理的研究較缺乏，本研究可以為研究者在認知診斷中進行數據預處理時提供參考，此思路也可用于其他領域的缺失值填補效力評估。