計算機自適應測試系統的設計

2020-04-22 20:37:20楊正清殷全劍張晗劉明志

無線互聯科技 2020年4期

楊正清殷全劍張晗劉明志

摘? ?要：測試是教育評價中一種廣泛使用的方法。隨著計算機及互聯網技術的迅速發展，計算機成為能力測驗的重要工具。文章設計了一個計算機自適應測試系統（CAT），選擇適合每個被試者能力水平的英語單詞題目，實現用盡量少的題目較為準確地評估出用戶的英語水平和詞匯量。

關鍵詞：計算機自適應測試;項目反應理論;能力估計;極大似然函數

隨著科技水平的提高，信息技術與多媒體技術等被引入測試領域，測試也出現了新的實現方式，即把計算機作為實施測試評價的工具，主要有兩種形式：基于計算機的測試（Computer-Based Testing ，CBT）和計算機自適應測試（Computer Adaptive Testing ，CAT）[1]。

CBT用計算機代替傳統的紙筆作為測試載體，依據經典測試理論，所有被試者作答完全一致的試題，數量相同、題目相同，沒有考慮不同被試者的能力差異。與CBT不同，CAT的思想是利用項目反應理論（Item Response Theory，IRT）對每個被試者選擇最適合的測試項目，記錄被試者在項目上的反應，達到對被試能力更加準確的估計[2]。理論分析與實踐經驗均表明，當選擇的測試項目與被試者的能力水平最匹配時，被試者作答積極性最高，測試效果也最好[3]。

本文實現了一種基于項目反應理論自適應測試被試者的英語能力水平的方法。

1? ? IRT理論

項目反應理論的核心是用概率函數來描述項目作答結果如何受被試者能力水平和項目參數的影響[4]，根據被試者每個項目的作答情況，經過數學計算，估計被試者的能力水平和項目的參數。如圖1所示，橫軸表示被試者的能力水平，縱軸表示答對概率，能力值（θ）越高，該項目作答正確的概率（p）越大。

項目通常由以下3個參數進行描述：a表示區分度，一般為0～﹢3;b表示難度參數，一般介于-3～﹢3;c表示猜測系數，其理論值范圍介于0.0～1.0。根據模型中項目的參數個數，可分為單參數模型、雙參數模型及三參數模型[5]。

單參數模型（1PLM）：

雙參數模型（2PLM）：

三參數模型（3PLM）：

式中，D為常數1.7;e為自然對數之底;j為被試編號;θj為第j位被試者的能力值;i為項目編號;ai，bi，ci分別表示第i題的區分度參數、難度參數、猜測系數;Pij（θj，ai，bi，ci）表示能力為θj的被試j答對第i題的概率。

本文考慮到實際用戶英語能力水平以及模型復雜度，采用單參數模式。英語單詞使用已有單詞難度算法[6]計算并經過專業英語老師人工校驗后的2 w英語單詞作為詞庫。

2? ? 算法分析

實施CAT有6個關鍵部分，依次是確定模型、建立題庫、設置初始條件、能力估計方法、項目選擇方法和測試終止條件[7]，如圖2所示。

2.1? 初始條件的設置

首先，粗略估計被試者的初始能力值。m表示在該過程中測試的題目數量，x表示該過程中被試答對的題目數量，θ0為被試者的初始能力值[8]：

2.2? 被試者的能力估計

準確估計被試者的能力水平是CAT順利進行的前提，因此，采用極大似然估計法估計被試者能力值[9]。

已知某被試者在測驗的m個題目上的作答得分數據是x1，x2，x3，…，xm，需要估計未知的被試者能力水平參數θ。該被試者測驗得分數據是{X1=x1，X2=x2，X3=x3，…，Xm=xm}這一結果的概率為。θ的合理估計值應使得這種得分模式與其他得分模式相比發生的概率最大。將這種得分模式的概率看作θ的函數，記作L（θ）：

稱L（θ）為似然函數（Likelihood Function，IF）。極大似然估計就是在參數θ的所有可能取值范圍內，求使得L（θ）最大的，將作為被試者能力水平參數θ的合理估計值。為了計算方便，對L（θ）取對數，可以證明函數L（u|θ）和lnL（u|θ）單調相關，兩個函數在同樣的位置取得最大值。被試者對項目i的反應記作ui（答對為1，答錯為0）。那么對數似然函數表達式如下：

是以下微分方程的解：

該方程解析解不存在，只能用數值分析法求解。采用Newton-Raphson法[10]，如圖3所示，迭代得解。

2.3? 測試項目的選擇

信息函數是刻畫測試項目對不同能力水平被試者的測試有效性的指標。測試項目的信息函數值越大，對被試者能力水平的估計越精確。對于某個測試項目的信息函數為：

其中，Pi（θ）為項目i的被試反應函數，p'i（θ）為項目反應函數對θ的一階導函數。通過信息函數選擇包含信息量最大的題目，就是最符合被試者當前能力值的題目，避免了被試者回答太簡單或者太困難的題目。

2.4? 終止條件的確定

在測試終止方法上，考慮到測試效果以及用戶體驗，結合了下列5個條件：（1）達到測試題目數量。（2）達到測試時間。（3）連續兩個項目的能力估計值之差小于閾值。（4）連續答對或連續答錯題數達到閾值。（5）測試的最大信息量達到閾值[11]。

3? ? 結果分析

在一款英語在線教育產品中，使用了自適應測試作為對用戶英語水平和單詞量的評估。

理想情況下用戶能力估計如圖4所示，橫軸代表做題數量，縱軸代表能力值。黑線代表用戶的真實能力值（﹣1.2），在整個測試過程中是固定值。橙色的線代表用戶回答的題目難度，藍色線代表用戶的能力估值。由圖4可知答題過程中，題目難度在自適應調整，能力估計值也在修正，最終達到一個相對平穩并且接近真實的能力值。

某用戶的實際答題記錄：該用戶從最簡單的題目開始答題，答題過程中間能力估值有過一段震蕩，隨后趨于平緩，接近用戶的真實能力估計，最終在20道題左右終止測試，并且得到了能力估值，如圖5所示。

另一位用戶的實際答題記錄：該用戶同樣從最簡單的題目開始答題，中間經歷了更加劇烈的抖動，最后依然在20道題目左右趨于穩定，經過分析，出現劇烈抖動的原因是目前的模型只考慮了題目難度一個維度，而用戶在答題過程中存在猜測答案的情況，也是在后續的研究工作中需要考慮的，如圖6所示。

4? ? 結語

計算機自適應測試技術已經成熟地應用于許多大型考試，如GRE，GMAT，TOFEL等。計算機自適應測試在保證準確性的前提下，可以減少測試長度、提高測試的效率，此外，還可以消除被試者作弊的可能性，所以自適應測試無疑是教育測試領域的研究熱點，具有重要意義。

本研究實現了一種通過自適應測試評估用戶英語詞匯能力水平以及詞匯量的方法。經過測試和產品用戶反饋可以得到一個比較良好的評價結果，下一步將考慮使用更加復雜的多參數模型和更加快速和穩定的能力評估算法。

[參考文獻]

[1]路鵬.計算機自適應測試若干關鍵技術研究[D].長春：東北師范大學，2012.

[2]WAINER H，MISLEVY R.Item response theory，item calibration and proficiency estimation[M].New Jersey：Lawrence Erlbaum Associates Publishers，1990.

[3]LORD F M.A broad-range tailored test of verbal ability[J].Applied Psychological Measurement，1977（1）：95-100.

[4]HAMBLETON R K.Principles and selected applications of item response theory[M].New York：Educational Measurement，1989.

[5]BIRNBAUM A.Some latent trait models and their use in inferring an examinees mental ability[M].New York：Statistical Theories of Mental Test Scores Reading，1968.

[6]于建芳.大學英語六級詞匯自適應測試系統的研制[D].濟南：山東師范大學，2016.

[7]THISSEN D M，MISLEVY R J.Testing algorithms in H Wainer（Ed.）computerized adaptive testing：a primer[M].New Jersey：Lawrence Erlbaum Associates，2000.

[8]葉華喬.網絡環境下計算機自適應考試研究[D].武漢：華中師范大學，2005.

[9]羅照盛.項目反應理論基礎[M].北京：北京師范大學出版社，2012.

[10]BAKER F B.Item response theory：parameter estimation techniques[M].New York：Statistical Theories of Mental Test Scores Reading，1998.

[11]梁瑾麟.基于項目反應理論的計算機自適應測試系統研究[D].長沙：湖南大學，2010.

無線互聯科技2020年4期

無線互聯科技的其它文章: 大數據技術在數學課堂教學中的應用; 大數據背景下信息化教學平臺在首飾設計資源庫建設中的作用研究; 面向學生計算思維培養的數據科學與大數據技術專業課程體系建設模式探究; Java數據庫連接池的原理與應用; 虛擬現實技術在高職院校教學中的應用; 人臉識別在視頻監控中的應用