全國公共英語等級考試口語測試的信度和效度研究

2009-12-31 00:00:00田純廣

考試周刊 2009年38期

摘要: 本文作者通過測試理論研究和數據分析，探討了全國公共英語等級考試口語測試的信度和效度。就測試的信度而言，要側重施測(準備形式和測試過程)、測試內容(長度、難易程度)和評分(評分標準、評分依據、評分者)等方面的可靠性。測試的效度則應檢驗該測試是否具有內容效度、表面效度、標準效度(預示效度和共時效度)和理論效度，同時利用可靠系數檢驗該測試的信度。

關鍵詞: 全國公共英語等級考試口語測試信度效度

口語測試理論是語言測試學的一個重要組成部分，同時也是應用語言學研究的一個領域，即外語口語理論在外語口語教學測試方面的實際應用。國內對于口語考試的效度和信度的研究很少，對于公共英語等級考試口語測試的效度和信度的研究更是寥寥無幾。由教育部考試中心推出的全國公共英語等級考試(PETS)，是一種非學歷性的英語等級考試，包括筆試和口試兩部分。其口試的目的是測試考生的口頭表達能力，屬主觀性測試。口語考試正是由于其主觀性，評分的最大難度在于其公正性和一致性。PETS口試近十年來，是否真實地反映了考生的口語水平呢?其效度和信度如何?筆者以語言測試學和口語語言學理論為指導，根據多年的口語教學和測試經驗，以山東某高校考點2008年下半年PETS口試結果進行研究，從信度和效度兩個方面來分析該口語測試的質量。

1.全國英語等級考試口語測試簡介

PETS口試通常包括三部分，旨在考查考生的口頭交際能力:

A節:考查考生提供個人信息、回答有關他們日常生活、家鄉、家庭、工作、學習等問題的能力。

B節:考查考生就信息卡上的圖片或文字討論有關問題的能力。

C節:要求考生就信息卡上的圖片或文字作簡短描述，之后與另一考生就同一話題闡述個人觀點。口試按5分制計分，3分以上為合格。

2.全國英語等級考試口語測試的信度

信度指測試的穩定性。信度和效度有密切的關系，但這種關系卻是單方面的。Alderson等認為，作為科學的語言測試，最關鍵的就是信度和效度，尤其是信度，沒有信度就談不上效度。[1]信度差則效度差，但效度差不一定信度也差。[2]因此可以得出結論:只有PETS口試具有高信度，才能為它的高效度提供保障。

2.1施測信度

所謂施測信度，是指測試的準備形式和測試過程是否具有可靠性。在這方面，PETS口試具有很高的信度。首先，該測試在統一時間進行，考生在語言實驗室同時考，同時錄音，保證了測試的公平與保密。其次，每個考點的口語考官都要接受培訓，保證考試的順利進行。

2.2內容信度

影響內容信度的因素主要有三方面:內容的長度、難度與區分度。[3]就長度而言，從理論上來講，測試的內容題目越多，覆蓋面越大，長度越長，其信度越高。有一定長度的口語測試不僅提供了充足的語言使用范例，還有助于盡量減少評卷人偏見的影響。從這一點來看，PETS口試的信度值得信賴。該測試的時間(不包括說明及監考人員分發、收回磁帶的時間)大約是15分鐘，基本滿足了長度要求。當然，如果時間能達到20~30分鐘，其信度會更高。就難度與區分度而言，無論測試是過易還是過難，都會影響區分度。所以高信度的測試應該是有難有易，先易后難。而PETS口試的難度和區分度掌握得很好。前邊兩部分的內容簡單些，第三項內容則稍難，而且從學生成績的分布也體現了區分度。

2.3評分信度

首先，評分信度取決于評分標準。評分標準是否具體、準確、便于操作，直接決定了評分的信度。PETS口試的評分標準非常具體。PETS的口試評分采用分項評分法(Analytic scoring)和總體評分法(Global scoring)相結合的標準，保證了其標準信度有很高的可靠性。PETS口試采取兩名口試教師和兩名考生的形式。一名口試教師(assessor)不參與交談，專事判分，負責打出各分項分;另一名口試教師(interlocutor)主持口試，同時與考生交談并負責評定總體印象分(Impression-based score)。PETS一級和二級的能力分項包括語法與詞匯、語音語調和交際互動三方面。PETS三級至五級的能力分項則包括語法與詞匯、話語運用、語音語調和交際互動四方面。每分項有五個等級，每個等級都有詳細的文字描述。總體分和分項分各有0-5分六個等級，3分為及格。考生分數由總體分和分項分組成，按照以下公式合成口試成績:考生實際得分=(interlocutor給分×2+accessor給分)÷6。

其次，評分信度取決于評分依據。為防止考官對考生先入為主的印象，或者由于疲勞忽略部分內容，評分先松后緊或先緊后松等現象的發生，該考點對PETS口試采用錄音的方式。為考生的復議和今后的復查提供了客觀依據，同時這對考官也可以起到監督作用，保持考官自身評分的一致性(intra-rater consistency)，提高評分效度。

再次，評分信度取決于評分人。要實現評分人的客觀評分，必須做到以下兩點:1)評分人要用分析法;2)評分人應該經過訓練。[2]PETS口試在評分過程中的確采用了分析法。例如，第二部分的看圖說話和第三部分的個人陳述，評分者從語音、語法、用詞、交際能力等方面進行評定。PETS口試由兩位評分人同時評分后進行合成計算。而且評分人在評分前都接受了培訓，這就保證了評分人之間的評分一致性(inter-rater consistency)。

綜上所述，PETS口試具有很高的評分信度。

2.4公式法對PETS口試信度的檢驗

檢驗測試的信度，可以利用重測法、重評法等。但是因為學生只參加一次考試，所以采用重測法是不實際的。而重評法也只能在評卷中心進行。因此，本文采用公式法。公式法利用公式求出試題的可靠系數，如果可靠系數小于0.4，則試題的信度偏低。

利用上面的公式，通過對2008年下半年PETS考生口語測試成績進行分析，1-5級口試的可靠系數為2.33、2.12、1.65、2.21、2.31，均超過了可靠系數最低值0.4。這一數據表明，PETS口試具有高信度。

3.PETS口語測試的效度

所謂效度，是指根據測試成績得出的具體推斷是否合理、有意義、有作用[5]。根據Bachman和劉潤清的著述，筆者將效度分為內容效度、表面效度、標準效度(預示效度和共時效度)和理論效度。[2][3]

3.1內容效度

內容效度是最重要的一項。它包括兩方面:內容的相關性和覆蓋面。

在內容的相關性方面，Popham(1978)指出應包含三個因素:測試的目的是什么;賦予應試者的刺激的屬性;應試者可能提出的答案的性質。[6]

PETS各級口試評價目標如下:

PETS 1該級考生應能在熟悉的情景中進行簡單信息交流，例如詢問或傳遞基本的事實性信息，能適當運用基礎的語法知識。

PETS 2該級考生應能在熟悉的情景中進行簡單對話，例如詢問或傳遞基本的事實性信息，應能提供或是要求得到更清楚的闡述，同時口才也能表達簡單的觀點和態度，能適當運用基本的語法知識。

PETS 3該級考生應能在生活和工作的多數情景中進行對話，不僅能夠詢問事實，還能詢問抽象的信息，應能提供或是要求得到更清楚的闡述，同時口才也能表達簡單的觀點和態度，能適當運用基本的語法知識。

PETS 4該級考生應能參與一般性或專業學術話題的討論，不僅能夠詢問事實，還能詢問抽象的信息，能夠就某一觀點的正確與否進行爭論，詳細說明一個問題、一個過程或一個事件。此外還能就某個一般性問題或所熟悉領域的問題進行闡述，能適當運用基本的語法知識。

PETS 5該水平的英語也能滿足他們在國內外從事專業和管理工作的基本需要。該級考生應能就各種話題自如地進行對話與討論。能就其工作的多方面與他人進行深入廣泛的交流，并能進行有效辯論，清楚地闡述自己的需求，能適當運用基本的語法知識。[7]

PETS口語測試就是依據該目標要求設計了三項測試內容。從測試目的上看，該測試體現了對正確表達思想，語音、語調自然，無重大語法錯誤，語言基本得體等方面的考查。在刺激的屬性方面，PETS口試的測試內容都與學生的生活和學習有關，而且絕大多數題目的選材范圍合理。

在內容的覆蓋面方面，PETS口試采用了多個題目以期真實地反映學生的口語水平，并能考慮到語言的文化因素。另外，在語言的得體性方面，PETS口試的設計應該更完善。語言要得體，應試者就要注意符合場景中的角色、身份、話題的要求，注意和自己的工作和學習實際相結合。

3.2表面效度

表面效度是指一個測試至少要從表面上看來是合適的。第一部分日常會話，目的是給考生創造一個友好的考生氣氛，降低其考試焦慮，使考生的口語水平發揮更有保障。另外兩部分都是按照考試要求，模擬現實生活會話，能夠很好地檢測考生在實際生活中運用英語進行溝通交流的能力。因此，PETS口試具有很好的表面效度。

3.3標準效度

標準效度包括預示效度和共時效度。預示效度是指一次測試與后來的測試相比較所得的系數;共時效度是指一次測試與另一次時間較為接近的測試結果比較得出的系數。通過實踐，筆者得出PETS各級別的口試的兩個系數都在+1.00和-1.00之間，由此可以得出結論:PETS口試具有標準效度。

3.4理論效度

理論效度是指測試是否有理論依據。在這方面，筆者認為關于“口語”的概念值得考慮。早在19世紀英國語言學家H.Sweet 就開始了對口語的研究。他在1890年出版的《英語口語初步》(A Primer of Spoken English) 中提出英語口語是“受過教育的英國人的口語”這一概念。20世紀50年代英國語言學家H.Palmer撰寫了許多關于口語和口語教學的書籍，在《英語口語語法》中提出“英語口語是受過教育的人(特別在英國的南部)在日常會話或給親密的朋友的信件中所使用的那種英語”。[8]綜上所述，“口語是操標準語的人，主要用口頭形式(對話或獨白)，在非正式場合使用的、無準備、無拘束的言語”。[8]

基于這一概念，PETS口試中有幾個問題仍值得商榷:1)口試的內容是否體現了口語概念的界定?真正的口語水平應該是在無準備的狀態下體現的。在PETS口試符合這個條件，可以被稱作是在自然的交際狀態下進行的。但是在第一部分中，雖然沒有準備時間，但所考內容考生完全可以憑經驗，就所考查的話題提前準備好，這在一定程度上就降低了考試的效度。所以，在PETS口試中，命題者應該對該部分進行必要的改革。2)考生應該使用什么樣的詞匯;口語化的、不正式的還是書面語化的、正式的?PETS口試在這方面沒有明確的要求和說明，因此，考生所用的語言沒有明顯地體現出口語與書面語體的不同。3)有關言語的其它理論如合作原則、禮貌原則在最后一部分對話任務中有所體現，但是漢語和英語在這方面的差異，如量的準則、贊揚準則、謙虛準則等方面的文化差異，應該被考慮進來。

4.結語

綜上所述，PETS口試無論是在內容、施測還是評分方面都具有很高的信度，這一點已得到了公式法的檢驗。這反映了出題者的精心設計。從效度來看，PETS口試具有很高的標準效度;在內容效度和表面效度方面有很多值得肯定的方面，當然也有許多地方有待進一步提高，在理論效度方面還需加強。

另外，還有三方面的問題需要引起注意。

其一，PETS口試的第一項，雖然在評分時強調如果是背誦現成的文章即扣分，但這個尺度畢竟不好把握。因此，PETS口試可以考慮把文化知識揉和進去，這樣考生的口語水平會得到更真實的體現。

其二，PETS口試采用交換評分人的做法，這在一定程度上降低了評分信度。同一名考生在不同的評分人評分時會造成很大的差異。例如:對于考生C，考官A給他2分，考官B給他3分，如果輪換評分，則該生成績分別為:(2×2+3×4)/6=2.67;(3×2+2×4)/6=2.33。如果采用四舍五入的方法，僅僅因為輪換考官就會造成考生一次合格、一次不合格的巨大差異。

其三，PETS口試采取直接面試的形式，考官培訓及與逐個考生進行交流費時費力;另外，考官對考生來講，也會形成一定的心理壓力，影響考生的正常發揮。

PETS口試推廣近十年來，比較客觀地反映了學生的口語水平，在信度和效度上達到了較好的平衡。但對于如何提高PETS口試的效度和信度仍舊有必要進行進一步研究，是其真正成為高水平的口語測試。

參考文獻:

[1]Alderson，J.C.，Clapham，C.，Wall.，D.LanguageTest Construction and Evaluation[M].Cambridge:Cambridge University Press，1995.

[2]劉潤清.語言測試和它的方法[M].北京:外語教學與研究出版社，1991.

[3]Bachman，L.F.Fundamental Considerations in Language Testing[M].上海:上海外語教育出版社，1999.

[4]蔡整瑩.口語課程測試的可靠性與有效性[C]∥語言文化教學研究集刊(第三輯).北京:華語教學出版社，1999.

[5]American Psychological Association.Standards for Educational and Psychological Testing[M].Washington， D.C. American Psychological Association，1985.

[6]Popham，W.J.Criterion-Referenced Measurement[M]. Englewood Cliffs，NJ:Prentice Hall，1978.

[7]全國公共英語等級考試指南——評價目標[DB/OL]http://www.pets12345.com/exam/dt_3307.asp

[8]徐翁宇.現代俄語口語概論[M].上海:上海外語教育出版社，2000.

考試周刊2009年38期

考試周刊的其它文章: 淺議幼兒觀察力的發展和培養; 小班幼兒良好生活習慣的培養; 幼兒教育中使用多媒體的幾個問題; 如何使幼兒在成功中增強自信; 以區域為平臺,構建幼兒成長樂園; 小班幼兒自我意識的培養