摘 要介紹考試理論從經典測量到項目反應的發展,指出計算機化考試的必然性和優越性。對計算機考試如何在多媒體網絡實驗室實現,進行了較詳細的闡述。
關鍵詞 經典測量理論、項目反應理論、計算機化考試
中圖分類號:G434 文獻標識碼:A文章編號:1671-489X(2007)01-0011-04
Research on Paperless Examination in Computer Information Technology Class//Zhu Xiaoming, Li Xiangrong, Lin Jie, Zhao Jinhong
Abstract This paper introduces the concept of computerized examination, its impact to the traditional examination, and innovation for the way examinations are carried out by the development from Classical Test Theory to Item Response Theory. It also presents some application research abroad about the possible influence to students’ mind by the computerized examinations. Finally, it gives a detailed presentation about the problem how to process Computerized Test System in the multi-media network lab.
Key word classical test theory; item response theory; computerized test
Author’s address
1. College of Information Technology, Beijing Normal University,Beijing 100875
2. China Agriculture University, Beijing 100083
1 理論綜述
無紙化考試是計算機化考試的通俗說法。所謂計算機化考試(Computerized Test或者Computer-Based Test,縮寫為CBT),是指利用計算機來存儲試題、組卷、考試和評分的一種新型考試手段。
計算機化考試具有紙筆考試不可比擬的一些優越性:可以實現試題的數字化管理,可以提高出卷效率,具有操作性和交互性,自動判卷、數據、有效保存和提供統計分析功能等等。因此可以說,計算機化考試將是未來考試的重要方式。
計算機化考試的發展取決于2個基本因素:考試理論的發展和計算機技術的發展。有多少種考試理論就會有多少種考試方式。我們都知道用于指導考試的測量理論有經典測驗理論和項目反應理論。
傳統的考試是基于經典測驗理論(Classical Test Theory,縮寫為CTT)的。經典測驗理論從20世紀初發展起來,直到20世紀50年代才逐漸完善。CTT的基本思想是:每個個體都有某些無法觀察的心理變量,它們被稱為真分數(T),我們可以用實際得到的、具有一定測量誤差(E)的觀察分數(或正確應答分數)(X)作為真分數的估計值,其數學模型為:觀察分數=真分數+誤差,即X=T + E。這是一個線性模型,它表示在觀察分數和真分數之間存在著線性關系。目前,經典測驗理論仍然被廣泛地應用于各種測驗的編制和對測驗分數的分析解釋上。
經典測驗理論雖然有較長的歷史并得到廣泛地應用,但它存在著一些無法克服的問題。首先,項目統計量(難度和區分度)依賴于測驗的考生樣本。當同一個項目施測于不同的考生樣本時,得到的項目統計量是不同的;其次,測驗結果的可比性差,考生的測驗分數依賴于所施測項目的難度,難度越大,考生的測驗分數就越低。
項目反應理論(Item Response Theory,縮寫為IRT)是一種新興的心理與教育測驗理論,它是在批評經典測驗理論的局限性的基礎上發展起來的,它的基本思想與心理學中關于潛在特質的一般理論有關。它是假設被試對測驗的反應受某種心理特質支配,于是我們就可以對這種特質進行界定。然后,IRT估計出這種特質的分數,并根據其高低來預測、解釋被試對項目或測驗的反應。
項目反應理論是建立在強假設基礎上的。其基本假設有四條,即單維性假設、局部獨立性假設、項目特征曲線模型假設和測驗的非限時性假設。單維性假設是指測驗僅測量被試的一項特質或能力。實際上任何測驗都不可能是單維的。影響被試對測驗項目反應的因素,除了該測驗所測量的能力之外,通常還包括被試的認知、個性等因素。局部獨立性是指同一能力或特質水平的被試對不同測驗項目的反應在統計上是獨立的,也就是說這些被試對一個測驗項目的反應不受其對其他測驗項目反應情況的影響,只與該測驗項目本身的性質有關。項目特征曲線指的是被試對某一測驗項目的正確反應概率與該項目所對應的被試的能力或特質水平之間的一種函數關系。項目特征曲線假設是對這種函數關系的具體形式所做的假設,通常成為各種IRT模型。IRT的非限時性假設要求測驗在不限時的條件下進行。在這種情況下,如果被試對某些測驗項目未作反應,則可認為是由于被試的能力不足,從而把該項目做答錯處理。
與經典測驗理論相比,項目反應理論具有許多優點,主要表現為:①項目參數估計的不變性,即項目參數的估計與所采用的被試無關;②能力參數估計的不變性,即被試能力參數的估計與所使用的測驗項目無關,這意味著各測驗項目對該測驗的貢獻都是獨立的;③項目反應理論提出的項目信息函數可用來描述測驗對被試能力或特質水平的估計精度;④項目反應理論提供了從測驗項目分析、測驗設計、能力或特質水平的估計、誤差分析到測驗等同化這一整套方法。
不僅如此,IRT還使測驗在形式上有了新的突破,一種新的測驗形式——適應性測驗(adaptive test)正是在IRT的基礎上得以有效地實現。最初適應性測驗是針對被試的先前經驗選取適合被試能力的題目進行施測,作答完立即評分,并以上一題的作答情況決定下一題的難度。
隨著測驗理論及測驗技術的發展,適應性測驗的思想也在測驗中逐步地得以體現與完善,尤其是計算機科學的迅速發展,給測驗帶來了全面的沖擊,計算機自適應測驗(Computer Adaptive Test,縮寫為CAT)的出現便是例證。CAT建立在現代測驗理論——項目反應理論基礎之上的,無論是測驗編制、測驗過程、試題呈現方式,還是評分規則,CAT與傳統的紙筆測驗都迥然不同,CAT的測驗思想發生了根本的改變。我們知道,如果試題太難或太容易,就不能反映被試的實際水平,因為被試不是全部答對就是全部答錯。只有試題的難度與被試的水平相當時,才能獲得更多有關被試能力的信息。CAT的基本思想就是“因人施測”,在試題的難度和數量上,都因人而異。
與常規測驗相比,自適應測驗有許多明顯的優點。首先自適應測驗的效率高,有實驗表明,在同等的測量精確度下,自適應測驗可縮短40%至60%的測驗長度;其次,自適應測驗具有較高的信度和效度,以項目反應理論為基礎的自適應測驗,能為被試提供相同的、較高精度的測量;另外,由于按照個體的能力水平而確定測驗的難度,對個體來說能提供最好的測量,自適應測驗可以從題庫中對每個考生選出適合他們水平的試題,從而可以解決測量精確度和能力跨度不能兼顧的問題。
盡管項目反應理論有許多優點,但IRT的強假設條件很難滿足,理論和實際上的使用都受到限制,目前多應用在語言的測試上,如大家熟知的TOEFL和GRE考試。雖然目前項目反應理論的應用還不是很廣,但是隨著考試理論的深入研究,相信經典測量理論的穩固地位會受到強烈的沖擊。
2 應用研究實例
為了推廣計算機化考試,國外的一些大學進行了這方面的實驗研究。英格蘭的伍爾佛漢普頓大學(Wolverhamton University)開展了“基于計算機的評估項目”,他們開發了基于計算機的評估測試軟件來代替傳統的紙筆考試(written testing或paperand pencil testing)。項目最初的目標是為了節省教師編寫試卷、評分、提供反饋的時間。現在投入使用的3門考試是統計學、信息技術和數學,每年大約有1 000名學生參加考試。系統運行得很順利,教師和學生愿意接受這種考試。教師尤其對不用再判卷而感到高興。實驗者認為實驗的一個收獲是學生對作為矯正工具的評估程序表現了極大的熱情,并花很多時間用來練習。從這個意義上來說,它輔助學習的效果比基于計算機的學習軟件還要好。研究表明這些測試也能對學生的學習結果產生顯著的影響,尤其是提高了學科的自信心和理解。此項目未來的計劃是增加考試的科目,并推廣到其他的大學和學校。
美國查爾斯頓大學(University of Charleston)的Robert F.Perkins在大學生和研究生中間進行了計算機化考試和紙筆考試的對比研究。他的研究目的是要揭示下列問題:
1) 學生的焦慮水平是否會影響成績?
2) 計算機化考試與紙筆考試比較,焦慮水平受影響?
3)計算機化考試與紙筆考試比較,成績是否受影響?
4)是計算機化考試造成的焦慮引起成績的不同嗎?
5) 擁有計算機對成績和焦慮有什么影響?
6) 大學生和研究生之間有區別嗎?
7) 不同性別有區別嗎?
8) 有計算機經驗和沒有經驗的有區別嗎?
作者采用的實驗組與控制組對比的方法,在實驗之前采用前測以確保兩組水平相當。研究表明,兩種形式的考試對焦慮水平和成績都沒有影響。此外,焦慮水平低的考生的前測和后測成績均較高。大學生和研究生之間的差異不顯著。作者還發現是否擁有計算機、是否有使用計算機的經驗以及性別都會對焦慮水平及成績產生顯著影響。擁有計算機的考生及有使用計算機經驗的考生的焦慮水平低并且成績較高;女生在前測和后測中表現了較高的焦慮和較低的成績,但在后測中的焦慮水平已大幅度下降,成績也上升較快。
加拿大Malaspina University-College的David Zandvliet和維多利亞大學(University of Victoria)的Pierce Farragher進行了計算機化考試和紙筆考試的對比研究。作者認為計算機化考試增加了考試的靈活性,并且更加支持個別化學習和以學生為中心的教學。不過,在計算機化考試大面積推廣之前,確保學生在新的考試方式下不被置于不利的位置,這一點很重要。軟件和界面設計、考試形式的等值(test-format equivalence)和學生的態度等相關的問題都需要認真考慮。
作者在實驗之前提出了3個假設:①設計恰當的計算機化考試可以讓學生產生積極的態度;②計算機化考試的成績與紙筆考試無顯著差異;③計算機化考試因測試所用的時間短,因而效率會顯著高于紙筆考試。
研究主要采用實驗的方法,來自計算機基礎課班的學生,被隨機分成人數均等的2組,輪流進行計算機化考試和紙筆考試共6次,2種形式的考題和順序完全一樣,都是多項選擇題。在實驗前后,還讓2組學生填寫類似的問卷調查,獲取學生的態度、對計算機化測試的設計風格的印象等信息。對兩組正式測試的比較結果表明,計算機化考試和紙筆考試的成績沒有顯著差異。學生更喜歡計算機化考試這種方式,尤其是參加了兩種考試之后,這種傾向還會上升。另外,計算機化考試所用的時間比紙筆考試平均要長2min,這似乎與學生初次參加計算機化考試對程序不熟悉有關。如果是這樣,可以預期隨著使用的熟練,這種差異會消失。計算機記錄的學生測試路徑數據和問卷調查表明過濾試題(elimination)、重新檢查做過的試題和查看已評分的試卷等設計風格對學生最有用。作者認為,軟件的成功部分是因為軟件提供了和傳統測試相似的做題行為,例如篩選、檢查等,或許是這個原因,學生顯然沒有被置于不利的位置。
香港中文大學的David Coniam對計算機化考試提出了用戶有效性(consumer validity)的概念,用戶有效性是指考生對某個考試的態度和感覺,例如是否對考試持積極態度、考試的指導語是否明晰,如果考生進行計算機化考試時因為不熟悉計算機媒體或焦慮等原因而造成考生不知所措,考試的可靠性就會受到懷疑。作者認為用戶有效性要達到66%的水平考試才會有效。
作者對2組考生進行英語計算機化考試,研究考生是否清楚考試的指導語、考試時間是否夠用、是否喜歡用計算機考試。研究結果表明這些指標都沒有達到66%的標準。值得注意的是,這個結果是在一個計算機普及率較高的背景下得到的:90%的考生稱家里有計算機,78%閱讀計算機屏幕毫無問題,77%稱能熟練使用鍵盤輸入或編輯文本。
3 基于網絡環境的計算機無紙化考試系統的應用
3.1多媒體網絡實驗室中計算機無紙化考試系統的實現
目前,在很多學校都新建了大量的多媒體網絡實驗室,這些實驗室小的幾十臺計算機,大的幾百臺計算機。這些實驗室的建立為計算機無紙化考試提供了良好的平臺,在這些多媒體實驗室中計算機是連成網的,組成一個小的局域網,在這個小的局域網中,配有專門的服務器,試卷由服務器發往各客戶機,學生的試卷由客戶機提交到服務器,在服務器上將對試卷進行評測。最后將成績存到指定的數據庫中,同時還可以將最終的成績發往客戶機,通知考試者。
為了使考試正常進行,這就要求的多媒體網絡實驗室網絡必須暢通,而且帶寬能滿足需要,服務器的處理能力也能夠達到考試的要求。我們在考試中也經常遇到,試卷要等很長時間才發下來,最后試卷的提交也很慢,有時甚至提交不上。出現以上問題的原因就是我們的網絡環境沒有達到考試的要求。所以這種考試必須在高水平的多媒體網絡實驗室進行。
在多媒體網絡實驗室里,一般都裝有攝像機,它可以把整個考試過程完整的記錄下來,如果對某場考試有疑問,比如試卷雷同、“搶手”替考等問題,我們可以通過調閱當時的錄像來識別,就是將來到法庭上,當場的錄像帶也能足以說明當時的情況,為法庭提供有力的證據。另外在多媒體實驗室我們還加裝了指紋識別系統,用來識別考生的身份,當身份確認后計算機就發放試卷,如果不能確認計算機就不發卷,拒絕考生考試。由此我們可以看到,在多媒體實驗室里考試,考試的安全性和公正性可以得到充分的保障。
目前我們在多媒體網絡實驗室里,可以考試的科目有以下幾類:
1)“計算機信息技術基礎”無紙化考試系統
2) 外語的考試和訓練系統
3) 安全考試系統
4) 交通法規考試
5) 各種職業考試
所有的個系統均采用模塊化的結構,可以方便靈活地裝卸。各個部分基于單機或網絡模式,適用于各種不同操作系統。系統數據訪問方式采用通過ODBC接口訪問數據庫和文件讀寫2種方式,具有很好的通用性和可移植性。系統數據庫的使用可以從Access,FoxPro等桌面數據庫到SQLServer、Oracle等大型數據庫。
3.2試題的主要參數
根據經典測量理論,本系統的試題采用以下主要參數:難度、區分度、認知分類、知識點和試題最后使用時間等。
最后使用時間是用于對試題進行曝光度控制,防止某些試題被頻繁選用,可以避免近期使用過的試題被再次使用。
其中認知分類采用國際上流行的布盧姆的分類體系,即將認知領域的行為目標分成從簡單到復雜的6種,依次是知識、領會、運用、分析、綜合和評價。采用這種分類方法有助于提高系統的通用性。
3.3考試結果的統計分析
考試結束后,考試系統自動收集了大量的數據和信息。根據考生的答題情況,系統可以自動地計算試題難度、區分度、答案選項迷惑度等種種試題統計參數,可以給教師提示最易得分和最易失分的試題。考試系統對收集的數據進行統計,給出算術平均數、標準差、標準分和成績分布圖表。
當前對于考試有一些新的理論、新的觀點,對于這些理論和觀點進行檢驗,要在教學實驗中加以驗證。這個教學實驗平臺就是多媒體計算機網絡實驗室。這些新的理論都是基于多媒體網絡環境的,要想有高水平的考試,為了保證考試安全平穩的進行,就必須建立高水平的多媒體網絡實驗室。這要求多媒體網絡實驗室在管理上更科學,在技術上更先進,在環境上更人性化,充分體現以人為本,從而促進多媒體網絡實驗室向新的方向發展。