基于項目反應理論的《計算機基礎》自適應考試系統

2008-12-31 00:00:00譚岳衡尹軍

考試周刊 2008年50期

摘要：本文針對《計算機基礎》課程考試的特點和普通計算機化考試系統的不足，以項目反應理論為基礎，闡述了基于局域網的計算機自適應考試系統的功能、組成和設計方法。

關鍵詞：《計算機基礎》 CAT 特點和理論基礎基本組成實現

《計算機基礎》是高等院校文、理、工科學生必修的一門公共基礎課程，該課程的考核如采用傳統的紙筆型考試方式，則從制卷、監考到閱卷的工作量是十分巨大的，因此引入無紙化的計算機輔助考試方式是必然的趨向。但普通的計算機上機考試系統的組卷是在考生開始答題之前生成的，即所有考生無論水平高低，接受的是相同題型、題量和難度試題的測驗，對某一特定考生而言，只有部分試題真正符合他的實際能力。如何快速、準確地評估考生的真實水平是提高考試效率的關鍵，計算機自適應考試（Computer Adaptive Testing，簡稱CAT）就是一種“因人施測”的智能化考試模式。

一、CAT系統的特點和理論基礎

計算機自適應考試與傳統的紙筆型考試及普通的計算機考試系統不同，它不是向考生提供一套事先生成的試卷，而是在試題的難度和數量方面自動適應考生的具體情況，即在考試過程中不斷地從題庫中抽取與考生實際水平和能力相當的題目，智能組卷供考生答題并實時進行能力評估，直到滿足測量精度要求為止。

計算機自適應考試的理論基礎是項目反應理論（Item Response Theory，簡稱IRT），該理論是針對經典測驗理論（Classical Testing Theory，簡稱CTT）的不足而提出來的一種新的測驗理論。CTT是一種以考試實得分數為前提條件的測試理論，即用被測試題目的答對率作為試題的難度參數，以真實分數方差與觀察分數方差之比作為信度參數等，由于這些試題參數的確定嚴重依賴于被測試樣本，因而具有較大的局限性。IRT以被測試者個體潛能通過試題作答反應的可測性、被試個體潛能與其試題上可見反應函數關系的基本一致性及試題參數線性變換下的不變性為理論假設，建立了多種以被試個體在既定試題上的作答反應參數來推斷其潛在特性的IRT數學模型，如目前應用較多的三參數Logistic模型：

其中a參數為題目的區分度，b參數為題目的難度系數，c參數為題目的猜測系數，D=1.702為具有單位測度的因子，θ為考生能力估計值，P（θ）表示能力為θ的考生答對此題目的概率。IRT以被測試者回答問題的情況為依據，經題目特征函數的運算來推測被測試者的能力，其最大特點是估計出來的能力值不依賴于施測題目樣本，即具有試題參數估計的不變性和能力參數估計的不變性。

二、CAT系統的基本組成

基于IRT的《計算機基礎》自適應考試系統由題庫模塊、考試模塊和管理模塊等組成，如圖1所示。

1.題庫模塊

該模塊主要實現試題庫的建立和維護工作。建立一個優質、量大和可擴充的試題庫是CAT系統設計中最基礎也是工作量最大的工程，具體步驟如下：

（1）IRT模型和試題參數的確定。CAT系統的題庫不是簡單地將數量眾多的試題存儲到計算機中，而是以項目反應理論作為基礎，根據一定的數學模型使題庫能適應智能組卷的需要，如三參數的Logistic模型在理論和實踐中都得到了充分的驗證。試題的IRT參數需要對大量的試題進行大樣本測試才能獲取穩定的參數估計值，這在系統的初始應用階段有較大的困難，可由專家或有經驗的教師進行預評估后，再根據實測結果對參數的估計值進行修正。

（2）試題的選取和錄入。本課程的考核主要針對學生對計算機基礎知識的掌握及基本操作的應用能力，試題涵蓋計算機硬件基礎知識、軟件基礎知識、Windows操作系統、Office軟件操作四個部分。試題的選取注重知識點的分布、不同難度和不同題型的結合，每道題目的屬性包括試題編號、試題類型、試題分數、試題題目、標準答案、難度系數、區分度和猜測系數等IRT參數。

（3）試題庫的維護。題庫的建設是一個循序漸進的過程，隨著系統的多次使用，題庫中的試題數量需要不斷地擴展和更新，試題的各個參數需要不斷地進行調整，及時去除那些區分度低和猜測系數大的題目，以保證題庫的數量和質量。為了保證題庫的安全，只有系統管理員才具有此權限。

2.考試模塊

該模塊是CAT系統的核心，主要完成試題的選取與呈現、得分判斷、參數估計及成績提交等工作。

目前各高校的數字化校園建設已初具規模，以局域網（網絡機房）作為考試環境，將題庫、考試管理系統和成績分析系統等放在服務器上，考試程序放在各客戶機上，進行智能組卷和實時評分，考試結束后將考試成績和相關文檔上傳到服務器保存。

考試模塊主要為考生提供一個操作方便的考試界面。運行客戶端程序后，首先出現登錄窗口，正確輸入考生的身份信息后將進入答題界面，系統在考試過程中實時根據考生的答題情況，按照一定的IRT模型和算法進行計算、估計考生的能力值，隨后自動抽取最適合該考生的試題呈現在屏幕上供考生作答，當能力估計值達到一定的精度要求時自動結束考試。

3.管理模塊

該模塊的主要功能是監控考試的正常進行，如查詢考生登錄情況，及時處理考試過程中考生因意外情況出現死機、掉電時的數據恢復工作等。該模塊還具有查閱考生成績、對考試結果和試題參數進行統計分析的功能。此外系統還提供了模擬考試子模塊，以方便考生提前熟悉考試界面。

三、自適應測試的實現

自適應考試系統與一般的計算機輔助考試系統的最大區別，在于對考生能力的實時評估及與之相關的智能組卷策略，分為能力初測和精確估計兩個階段，其測試流程如圖2所示。

1.智能組卷策略

一般的計算機考試系統的組卷是在考生登錄之后、開始答題之前生成的，即試卷的題型、題量和難度等已經確定；而CAT系統的試卷是動態生成的，是在考試過程中根據考生的答題情況決定抽取何種難度的題目進行測試。

由于考試開始時系統對考生的能力信息是未知的，因此系統采取的組卷策略是：首先從題庫中隨機抽取一組難度水平中等的題目施測，若考生能對該組中的大部分試題正確作答，則說明其實際能力較高，隨后抽取的是一組難度更高的題目；若考生只能正確回答其中小部分試題或全部答錯，則繼之以一組難度水平較低的題目。之所以采用若干個難度相同的試題作為一組進行抽題，是為了避免考生在對單一試題作答時因猜測答案而使評判結果出現偏差。

2.實時能力估計

與一般的計算機考試系統是在考生答完全部試題并確認交卷后再進行評判不同，在不預先設定考試題數和考試時間的CAT模式下，考生必須對屏幕上呈現的每一道試題及時作出回答后才能進行下一道題目的測試，這就要求系統必須對考生答題結果實時評判，并以此為依據不斷地估計考生能力，確定后續試題的難度，逐步向考生的能力真值逼近。

為了避免考生因拖延答題時間而使系統無法呈現足夠數量的試題，有必要對每組試題的答題時間進行限制，并以倒計時形式在答題界面上顯示當前組的剩余答題時間，在規定時間用完時將本組未答題判為答錯，并自動給出下一組試題，以保證能在正常時間內結束考試。

3.測試結束條件

CAT系統因預先不設定考試題數，故無需考生主動結束考試，系統以對考生的能力估計值達到預定的精度要求或達到最大的測試容量作為考試的終止條件。

四、結語

實測結果表明：基于IRT的自適應考試，由于呈現給考生的試題難度與其能力相適應，考生無需回答全部試題，用較少的試題量達到了精確的測試效果，因而大大節省了考試時間，減輕了組織考試的工作量，相比傳統考試和普通的計算機輔助考試具有更高的效率。

參考文獻：

［1］程艷.計算機自適應考試的理論模型研究［J］.計算機與現代化，2006，（9）.

［2］劉發明.基于WEB的計算機自適應考試系統的設計與實現［J］.贛南師范學院學報，2005，（6）.

基金項目：湖南省教育廳研究項目（05C647）

注：“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。”

考試周刊2008年50期

考試周刊的其它文章: 鴉片戰爭之原因分析; 這筆“飯錢”誰買單？; 降血壓的運動處方; 論建國后農村土地制度的變遷與中國社會轉型; 馬克思社會交往理論對構建社會主義和諧社會的指導意義; 中韓跨文化交際的心理認知