大學英語網絡測試的信度與效度分析

2013-08-15 00:54:11曲永鋒

科技視界 2013年26期

曲永鋒

（遼寧工業大學，遼寧錦州 121000）

0 引言

2008年，教育部實施大學英語四級機考試點改革。從此，大學英語四級無論是從形式上還是從內容上都有了較大的變化。由于整個社會對大學英語四級的認知度都比較高，而且考生只有在大學就學期間才可以參加這項考試。因此，各個學校的大學英語教學也紛紛以大學英語四級考試為目標，制定相應的教學計劃，對教學活動進行調整。遼寧工業大學從2009年開始，進行大學英語網絡測試實踐以來，已經進行了23 場全校范圍的測試，參加人數超過了二萬人次。目前，已經形成了較為完善的測試硬件系統，和較為成熟的測試機制與體系。

基于以上背景，本文通過分析遼寧工業大學英語網絡測試的實施過程與結果，考察這項測試的效度與信度，為今后大學英語教學的組織與進行，大學英語網絡測試的創新與完善提供相應的依據。

1 高質量考試的標準

大學英語四級考試是一項由專家團隊精心打造的考試，經過多年的驗證，被社會廣泛認可，可以當之無愧地稱作“高質量考試”。那么，遼寧工業大學的大學英語網絡測試，是否也是一項“高質量考試”呢？

Bachman &Palmer 將以下六大要素作為決定測試質量優劣條件，分別為信度（reliability）、效度（construct validity）、真實性（authenticity）、交互性（interactiveness）、影響性（impact）、可行性（practicality）。所謂真實性，是指考生在測試過程中能夠正確解答某個問題，是否等于其在實際場合下也具備與之相對應的能力。所謂交互性，是指考生在完成測試任務過程中個人特征的參與程度和形式。所謂影響性，是指測試對于這個社會、教育制度、或是此項制度中的個人所造成的影響，同時還包括測試的波及效應（washback effect）。最后的可行性與前面幾項要素不同，它包括測試以何種方式實施、甚至于最初的測試能否能夠實施的問題。但是，正如Bachman &Palmer 所說，決定測試質量的最主要因素應屬信度和效度。

2 測試的信度

2.1 信度的概念

有關測試的信度，許多學者給出了它的定義。Bachman &Palmer（1996）將信度定義為“測試的一致性”，即具備從一次測試到另一次測試結果一致的機能。同樣，McNamara（2000年）在其論著中提到，信度是由測試所得出的個人測試結果的一致性，通常用信度指數表示。最后，Alderson et al.(1995年)說，測試的信度是指測試得分的一致性。信度高的測試，應試者在應試當天和第二天會得到相同的測試結果。

綜上所述，所謂信度可以定義為，測試得分一致性的程度。如果某個應試者為檢驗某項能力而參加測試，其在任何時間、任何地點、任何條件下所得出的結果都是一致的，那么我們就可以認為這項測試是有信度的。

2.2 信度的測定

許多研究者對測試信度的測定方法進行了研究，其中有代表性的方法為以下四種：

1）重測信度：用同一種測驗，對同一組被試，前后施測兩次，再根據被試兩次測驗分數計算其相關系數，即得重測信度。這種信度能表示兩次測驗結果有無變動，反映測驗分數的穩定程度，故又稱穩定性系數。

2）復本信度：復本信度指的是兩個平行的測驗測量同一批被試所得結果的一致性程度，其大小等于同一批被試在兩個復本測驗上所得分數的皮爾遜積差相關系數。

3）分半信度：分半信度指的是將一個測驗分成對等的兩半后，所有被試在這兩半上所得分數的一致性程度。

4）同質性信度：同質性信度也叫內部一致性系數，它是指測驗內部所有題目間的一致性程度。根據Hughes(1989年)的觀點，第三種方法也屬于此類。

3 測試的效度

3.1 測試效度的定義

效度的定義到底是什么，這里講迄今為止有關學者的代表性論述按時間順序作以總結。1985年由美國心理學會（APA）、美國教育研究協會（AERA）和美國國家教育測量協會（NCME）共同編制的《教育與心理測驗及手冊的標準》第一章中，對測試效度做了定義。其中，效度反映已有證據（evidence）可以在多大程度上支持根據測驗分數所做出的推論。根據證據來源不同，證據被劃分為來自構念(construct)、來自內容和來自標準（criterion）三種，效度也被相應地劃分為三種。多年來，這種關于效度的定義和效度種類的劃分，一直成為教育與心理測量學界關于效度研究的基本框架。

3.2 結構效度

有關結構效度的定義，很多的研究學者給出了比較復雜且相對不同的定義。首先Alderson，et al.(1995)將結構效度看作是“測試能夠在何種程度上檢測出某種特性或性質”。所謂的構成效度，并不是一個具體的東西，而是一個抽象的心理學概念。它所測試出的這種特性，是經過多次實際考試，綜合分析考試結果與預測結果之后所得出的。

效度的概念曾經一度被劃分為許多詳細的分支，現在有有被眾多學者的研究主流又轉變為將其進行統一。本文之前所提到的，APA、AERA 和NCME 聯合委員會的定義“Validity is a unitary concept.”換句話說，諸多被細分的效度概念我們可以用一個結構效度來統一聯系起來。

3.3 效度的驗證

目前，不同學者對結構效度的驗證方法有著不同的見解。比如，L.J.Cronbach 和P.E.Meehl 提出了五種驗證方法，即分組區分法（group differences）、相關矩陣與因素分析法（correlation matrices and factor analysis）、內部結構研究（studies of internal structure）、不同場合下的變化研究（studies of change over occasions）、過程研究（studies of process）。

但是，大多數人都將《教育及心理測試標準》一書中的定義“試題的效度指證據和理論對測試分數解釋的支持程度”作為理論依據。將試題的效度驗證描述為為實現某些目標而收集證據的過程。這些證據包括測試構念、測試內容、答題過程（response processes）。內部結構（internal structure），與其他變量關系（relations to other variables）以及預期結果和非預期結果（intended and unintended consequences）等。

4 大學英語網絡測試

4.1 大學英語網絡測試的定位

關于考試的分類方法有很多，按照考試結果的使用目的進行分類，可以將考試分為以下四種：能力考試（proficiency test）、學歷考試、診斷考試（diagnostic test）、職業考試等四個類型。

很顯然，大學英語網絡測試是作為一項以大學英語這門課程為基礎而進行的考試。這項考試出題者為擔任大學英語教學的多位教師，考試的范圍緊扣大學英語教學大綱，并最終由擔任大學英語教學工作的教師進行評閱。整個考試以統一的教材為基準進行出題，題型參考大學英語四級的出題形式，試卷的最終評閱工作由擔任大學英語教學的教師們擔任。答題過程為網絡機考，試題內容有題庫產生并隨機發放，客觀題成績在交卷瞬間已經生成。

4.2 大學英語網絡測試的結果分析

較高的信度的考試應具備以下特點：首先，要保證試卷有一定的量，一般來說題量越大信度就越高；其次，作為考試結果的分數要有一定的離散度，要呈中間大，兩頭小的IF 態分布。這就意味著試卷的區分度要高，能將各種不同水平層次的應試者區分開來。試題的難度要適中，太難和太容易都不能區分應試者的水平層次，試題不能有偏頗性。

分析我校大學英語網絡測試的信度，我們將測試中受主觀因素影響較大的作文題、翻譯題及簡答題去除，只留下客觀題作為分析數據的來源。將每個級別的題庫中的1000 余道試題的答題情況進行分析，得到的克朗巴哈系數（Cronbach’s α）均超過0.8，屬于信度較高的結果。

關于考試的難易度，我們將四次期末考試的成績為基準做以分析。四次考試中，正確率低于0.2 的問題均不超過問題總數的3%；正確率高于0.8 的問題大概都在30%～40%之間。從整體來看，正確率較高的問題數所占比例較大，這使得參加考試的學生平均得分較高。這一結果，如果以期待正確率平均分布的常模參照性測試(normreferenced test)標準來衡量也許并不令人滿意，但作為一項學校內部的標準參照性測試（criterion-referenced test），是可以被認可的。

5 結論

綜合本文以上的分析，我校實施的大學英語網絡測試，在測試信度上，除了正確率較高這一項目指標外，其他信度系數都很令人滿意，可以說這是一項高信度的測試。此外，從多次測試結果的橫向比較來看，綜合數據的結果都十分相近，可見測試是能夠比較準確地反映出學生的英語能力的，也可以說這是一項效度較高的考試。

大學英語課程作為高等學校學生的必修課程之一，社會上各種各樣的英語考試也是五花八門，這體現了社會對于這門課程的高度認可，也說明了學生學習英語的必要性。大學英語網絡測試的作用在于檢驗大學英語的教學成果，通過對大學英語網絡測試的研究，來提高大學英語教學本身，是大學英語教師應該時刻思考的問題。