999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

計算機自適應測試系統的設計

2020-04-22 20:37:20楊正清殷全劍張晗劉明志
無線互聯科技 2020年4期

楊正清 殷全劍 張晗 劉明志

摘? ?要:測試是教育評價中一種廣泛使用的方法。隨著計算機及互聯網技術的迅速發展,計算機成為能力測驗的重要工具。文章設計了一個計算機自適應測試系統(CAT),選擇適合每個被試者能力水平的英語單詞題目,實現用盡量少的題目較為準確地評估出用戶的英語水平和詞匯量。

關鍵詞:計算機自適應測試;項目反應理論;能力估計;極大似然函數

隨著科技水平的提高,信息技術與多媒體技術等被引入測試領域,測試也出現了新的實現方式,即把計算機作為實施測試評價的工具,主要有兩種形式:基于計算機的測試(Computer-Based Testing ,CBT)和計算機自適應測試(Computer Adaptive Testing ,CAT)[1]。

CBT用計算機代替傳統的紙筆作為測試載體,依據經典測試理論,所有被試者作答完全一致的試題,數量相同、題目相同,沒有考慮不同被試者的能力差異。與CBT不同,CAT的思想是利用項目反應理論(Item Response Theory,IRT)對每個被試者選擇最適合的測試項目,記錄被試者在項目上的反應,達到對被試能力更加準確的估計[2]。理論分析與實踐經驗均表明,當選擇的測試項目與被試者的能力水平最匹配時,被試者作答積極性最高,測試效果也最好[3]。

本文實現了一種基于項目反應理論自適應測試被試者的英語能力水平的方法。

1? ? IRT理論

項目反應理論的核心是用概率函數來描述項目作答結果如何受被試者能力水平和項目參數的影響[4],根據被試者每個項目的作答情況,經過數學計算,估計被試者的能力水平和項目的參數。如圖1所示,橫軸表示被試者的能力水平,縱軸表示答對概率,能力值(θ)越高,該項目作答正確的概率(p)越大。

項目通常由以下3個參數進行描述:a表示區分度,一般為0~﹢3;b表示難度參數,一般介于-3~﹢3;c表示猜測系數,其理論值范圍介于0.0~1.0。根據模型中項目的參數個數,可分為單參數模型、雙參數模型及三參數模型[5]。

單參數模型(1PLM):

雙參數模型(2PLM):

三參數模型(3PLM):

式中,D為常數1.7;e為自然對數之底;j為被試編號;θj為第j位被試者的能力值;i為項目編號;ai,bi,ci分別表示第i題的區分度參數、難度參數、猜測系數;Pij(θj,ai,bi,ci)表示能力為θj的被試j答對第i題的概率。

本文考慮到實際用戶英語能力水平以及模型復雜度,采用單參數模式。英語單詞使用已有單詞難度算法[6]計算并經過專業英語老師人工校驗后的2 w英語單詞作為詞庫。

2? ? 算法分析

實施CAT有6個關鍵部分,依次是確定模型、建立題庫、設置初始條件、能力估計方法、項目選擇方法和測試終止條件[7],如圖2所示。

2.1? 初始條件的設置

首先,粗略估計被試者的初始能力值。m表示在該過程中測試的題目數量,x表示該過程中被試答對的題目數量,θ0為被試者的初始能力值[8]:

2.2? 被試者的能力估計

準確估計被試者的能力水平是CAT順利進行的前提,因此,采用極大似然估計法估計被試者能力值[9]。

已知某被試者在測驗的m個題目上的作答得分數據是x1,x2,x3,…,xm,需要估計未知的被試者能力水平參數θ。該被試者測驗得分數據是{X1=x1,X2=x2,X3=x3,…,Xm=xm}這一結果的概率為。θ的合理估計值應使得這種得分模式與其他得分模式相比發生的概率最大。將這種得分模式的概率看作θ的函數,記作L(θ):

稱L(θ)為似然函數(Likelihood Function,IF)。極大似然估計就是在參數θ的所有可能取值范圍內,求使得L(θ)最大的,將作為被試者能力水平參數θ的合理估計值。為了計算方便,對L(θ)取對數,可以證明函數L(u|θ)和lnL(u|θ)單調相關,兩個函數在同樣的位置取得最大值。被試者對項目i的反應記作ui(答對為1,答錯為0)。那么對數似然函數表達式如下:

是以下微分方程的解:

該方程解析解不存在,只能用數值分析法求解。采用Newton-Raphson法[10],如圖3所示,迭代得解。

2.3? 測試項目的選擇

信息函數是刻畫測試項目對不同能力水平被試者的測試有效性的指標。測試項目的信息函數值越大,對被試者能力水平的估計越精確。對于某個測試項目的信息函數為:

其中,Pi(θ)為項目i的被試反應函數,p'i(θ)為項目反應函數對θ的一階導函數。通過信息函數選擇包含信息量最大的題目,就是最符合被試者當前能力值的題目,避免了被試者回答太簡單或者太困難的題目。

2.4? 終止條件的確定

在測試終止方法上,考慮到測試效果以及用戶體驗,結合了下列5個條件:(1)達到測試題目數量。(2)達到測試時間。(3)連續兩個項目的能力估計值之差小于閾值。(4)連續答對或連續答錯題數達到閾值。(5)測試的最大信息量達到閾值[11]。

3? ? 結果分析

在一款英語在線教育產品中,使用了自適應測試作為對用戶英語水平和單詞量的評估。

理想情況下用戶能力估計如圖4所示,橫軸代表做題數量,縱軸代表能力值。黑線代表用戶的真實能力值(﹣1.2),在整個測試過程中是固定值。橙色的線代表用戶回答的題目難度,藍色線代表用戶的能力估值。由圖4可知答題過程中,題目難度在自適應調整,能力估計值也在修正,最終達到一個相對平穩并且接近真實的能力值。

某用戶的實際答題記錄:該用戶從最簡單的題目開始答題,答題過程中間能力估值有過一段震蕩,隨后趨于平緩,接近用戶的真實能力估計,最終在20道題左右終止測試,并且得到了能力估值,如圖5所示。

另一位用戶的實際答題記錄:該用戶同樣從最簡單的題目開始答題,中間經歷了更加劇烈的抖動,最后依然在20道題目左右趨于穩定,經過分析,出現劇烈抖動的原因是目前的模型只考慮了題目難度一個維度,而用戶在答題過程中存在猜測答案的情況,也是在后續的研究工作中需要考慮的,如圖6所示。

4? ? 結語

計算機自適應測試技術已經成熟地應用于許多大型考試,如GRE,GMAT,TOFEL等。計算機自適應測試在保證準確性的前提下,可以減少測試長度、提高測試的效率,此外,還可以消除被試者作弊的可能性,所以自適應測試無疑是教育測試領域的研究熱點,具有重要意義。

本研究實現了一種通過自適應測試評估用戶英語詞匯能力水平以及詞匯量的方法。經過測試和產品用戶反饋可以得到一個比較良好的評價結果,下一步將考慮使用更加復雜的多參數模型和更加快速和穩定的能力評估算法。

[參考文獻]

[1]路鵬.計算機自適應測試若干關鍵技術研究[D].長春:東北師范大學,2012.

[2]WAINER H,MISLEVY R.Item response theory,item calibration and proficiency estimation[M].New Jersey:Lawrence Erlbaum Associates Publishers,1990.

[3]LORD F M.A broad-range tailored test of verbal ability[J].Applied Psychological Measurement,1977(1):95-100.

[4]HAMBLETON R K.Principles and selected applications of item response theory[M].New York:Educational Measurement,1989.

[5]BIRNBAUM A.Some latent trait models and their use in inferring an examinees mental ability[M].New York:Statistical Theories of Mental Test Scores Reading,1968.

[6]于建芳.大學英語六級詞匯自適應測試系統的研制[D].濟南:山東師范大學,2016.

[7]THISSEN D M,MISLEVY R J.Testing algorithms in H Wainer(Ed.)computerized adaptive testing:a primer[M].New Jersey:Lawrence Erlbaum Associates,2000.

[8]葉華喬.網絡環境下計算機自適應考試研究[D].武漢:華中師范大學,2005.

[9]羅照盛.項目反應理論基礎[M].北京:北京師范大學出版社,2012.

[10]BAKER F B.Item response theory:parameter estimation techniques[M].New York:Statistical Theories of Mental Test Scores Reading,1998.

[11]梁瑾麟.基于項目反應理論的計算機自適應測試系統研究[D].長沙:湖南大學,2010.

主站蜘蛛池模板: 久久永久精品免费视频| 色网在线视频| 亚洲天堂视频在线观看| 亚洲乱码精品久久久久..| 久久久久久尹人网香蕉| 国产小视频a在线观看| 91av国产在线| m男亚洲一区中文字幕| 国产女主播一区| 国模在线视频一区二区三区| 日韩视频精品在线| 亚洲天堂.com| 国产大全韩国亚洲一区二区三区| 婷婷丁香色| 国产乱码精品一区二区三区中文 | 手机永久AV在线播放| 99热这里都是国产精品| 九色综合伊人久久富二代| 国产亚洲精品yxsp| 国产素人在线| 美女被操黄色视频网站| 久久久黄色片| 九九热视频精品在线| 国产网站免费| 国产欧美日本在线观看| 亚洲成肉网| 无码高潮喷水在线观看| 青青久视频| 天天色天天操综合网| 无码福利日韩神码福利片| 日韩欧美综合在线制服| 福利姬国产精品一区在线| yy6080理论大片一级久久| 有专无码视频| 国产精品网曝门免费视频| 特级aaaaaaaaa毛片免费视频| 久久女人网| 亚洲欧洲综合| 亚洲清纯自偷自拍另类专区| 久久青草热| 日韩欧美中文在线| 亚洲无码日韩一区| 亚洲一区二区在线无码| 成人福利在线免费观看| 国产女人18水真多毛片18精品 | 麻豆国产精品一二三在线观看| 中文字幕无线码一区| 久久国产成人精品国产成人亚洲| 国产av无码日韩av无码网站| 无码国产伊人| 乱人伦99久久| 日本午夜三级| 永久免费精品视频| 欧美精品啪啪一区二区三区| 91成人在线免费观看| 99这里只有精品免费视频| 亚洲一区国色天香| 国产精品视频观看裸模| 亚洲天堂日韩在线| 亚洲精品无码日韩国产不卡| 国产日韩欧美成人| 白浆免费视频国产精品视频| 手机在线国产精品| 老司机午夜精品网站在线观看| 欧美啪啪视频免码| 成人精品在线观看| 一区二区三区在线不卡免费| 大陆精大陆国产国语精品1024| 日韩经典精品无码一区二区| 日本一区二区三区精品视频| 尤物精品视频一区二区三区| 欧美精品另类| 特级aaaaaaaaa毛片免费视频| 日本精品一在线观看视频| 亚洲综合一区国产精品| 高h视频在线| 亚洲中文字幕在线观看| 一级片一区| 国产日韩丝袜一二三区| 亚洲欧美日韩另类| 中文字幕久久亚洲一区| 亚洲女同欧美在线|