摘要: 考試效度指考試對考試構念進行測量的有效程度,效度研究指的是為解釋考試分數而收集效度證據的過程。英語水平考試旨在測量考生的英語語言水平,本文以公共英語等級考試PETS-5為樣卷,以考試題目和語言能力等級關系量表(Linking Test Questions to Task Statements)為工具,采用專業人士的分析評判為主要研究方法,收集基于考試內容的效度證據,對英語水平考試的效度研究方法進行了初步探索。
關鍵詞: 英語水平考試 PETS-5 考試效度 效度研究
《教育與心理測試標準》(以下簡稱《標準》)是教育與心理測驗領域的權威性文獻,體現了考試領域的行業標準。該文獻認為考試的效度是編制和評價考試過程中最關鍵的因素,是一個統一的概念,代表了測試對構念(construct)進行測量的有效程度[1]。自新版《標準》1999年頒布以來,新的效度觀和效度研究方法已經成為教育與心理測量的研究中心之一,但在語言測試方面此類研究尚不多見。與此同時,我國英語考試改革趨勢內在需要新的考試研究方法。英語水平考試主要用于測量學生的語言能力,基于內容的效度證據證明考試內容是否以有效的語言觀為依據,考試結果在多大程度上可以解釋考生的語言能力及與語言能力相關的心理特征,效度證據收集方法主要來自于對考試所測量的各部分內容的邏輯分析和專家評價。本文采用美國教育考試服務中心(ETS)的研究人員研制的用于測量英語水平考試效度的考試題目和語言能力等級關系量表(Linking Test Questions to Task Statements)為研究工具[2],以2006年公共英語等級考試PETS-5為樣卷[3],通過專業人士的分析評判,收集基于內容的效度證據,以考查目標考試對于考生語言能力進行測試的有效程度,即目標考試究竟測試了構成考生語言能力的哪些因素,從而探索英語水平考試基于內容的效度證據的效度研究方法。
一、考試效度
語言測試中的效度理論來自教育與心理測量學,效度理論發展可以分為三個時期:單一效度觀時期、分類效度觀時期和效度整體觀時期[4]。單一效度觀認為效度是指一項測試是否測量了它所要測量的東西;而證明效度的典型的方法是:“在多大程度上這項測試與其它有效且可靠的語言測試相關。”[5]分類效度觀認為效度是“從測驗所作出的推論的適當性或合理性的程度,反映已有證據可以在多大程度上支持根據測驗分數所做出的推論”。按其證據的不同來源分為三種:構念效度、內容效度和標準效度。長期以來,這種關于效度的定義和分類,一直是教育與心理測量學界研究效度的基本框架。
效度整體觀的概念最初由Messick提出,即“效度證據和理論依據在多大程度上支持基于測試分數的其它評估方式所做出的推斷或采取的行動是充分和適當的,對這個問題的綜合評價性判斷就是效度”[6]。新版《標準》確立了構念的核心地位,明確了效度研究的對象是測試分數的解釋和適用,而不是測試本身。效度成為關于測驗分數的特定解釋所得到的支持程度,來自累積的證據或理論。該解釋是測試應用的基礎。所謂測試解釋,是關于測試所要測量的構念(construct)或概念(concepts)的解釋,所有的分數都被視為對構念的測量。構念不再是效度證據的三種來源之一,而是用來定義效度。即效度指某測試對構念進行測量的有效程度,而構念則被定義為測試所要測量的概念或特征(the concept or the characteristic that a test is designed to measure),構念成為教育與心理測量中最重要、最核心的概念之一。
考試效度的研究指的是為解釋考試分數提供科學依據而收集效度證據的過程。效度證據分為五類,即基于內容的證據(evidence based on content)、基于反應過程的證據(evidence based on response processes)、基于內部結構的證據(evidence based on internal structure)、基于與其他變量之間關系的證據(evidence based on relations to other variables)和基于測驗結果的證據(evidence based on consequences of testing)。其中,基于內容的效度證據指的是和考試內容本身有關的證據,即證明考試內容的代表性即考試構念的證據。測試的效度依賴于測試的精心編制,更依賴于編制測試的理論基礎。對于語言水平測試來說,測試的理論基礎即構念就是測試意欲測量的相關語言水平和能力。
二、語言能力
當代語言學理論認為語言能力指的是語言交際能力(communicative language competence)。社會語言學中的語言功能、語言變異和社會文化原則,功能語言學中的系統功能原則以及語用學中的言語行為原則等為語言交際能力理論的產生提供了理論根據。
交際語言能力模式可以追述到Hymes的交際能力說以及在此基礎上Canale和Swain在上世紀80年代初提出的交際能力理論模式[7]。現行的交際語言測試模式是90年代初美國應用語言學家Bachman提出的語言能力觀。他認為語言能力就是把語言知識和語言使用的場景特征結合起來,創造并解釋意義的能力,即語言交際能力[8]。該能力是由語言知識和一系列元認知策略組成,這兩部分又可分出許多次類別。構成語言能力的各部分在具體的語言使用場合下,相互作用,相互影響,不可分割。
本文以Bachman的交際語言能力模式為基本理論框架,對英語水平測試所考查的語言能力進行檢驗,探索目標考試是否測試了相關的語言能力。
三、水平考試的效度研究
(一)全國英語等級考試(PETS-5)
全國英語等級考試(Public English Testing System,簡稱PETS)是教育部考試中心設計并實施的全國性英語水平考試體系。根據考試大綱,PETS考查的能力是建立在“交際語言行為模式”上,認為語言交際需要是掌握外語的目的,將語言能力分為“接受”、“產出”、“互動”能力。PETS考試根據各種情景和任務,在特定主題和話語下,結合相關的語言行為進行教學或考查,題型有:客觀性試題——多項選擇、選擇配對等;半客觀性試題——改錯、填空、簡單概括等;主觀性試題——短文寫作、翻譯、口試等。
PETS共有五個級別,PETS-5是最高級。通過該級考試的考生,其英語水平基本滿足在國外攻讀非英語專業碩士研究生或從事學術研究工作或在國外從事專業和管理工作的需要。試題由筆試試卷和口試試卷組成。筆試試卷(140分鐘)分四部分:聽力、英語知識運用、閱讀理解和寫作。口試試卷(15分鐘)分三節考查考生的口語交際能力。本文中采用教育部考試中心2006年發行的全國英語等級第五級考試大綱中的樣題為目標試題進行研究。
(二)試題聯系評估等級量表(Item Linking Rating Form)
美國教育考試服務中心2004年的研究報證明了通過試題聯系評估等級量表(Item Linking Rating Form)用來收集基于內容的證據,進行有效的語言水平考試效度研究的可行性。該量表把語言能力按其表現形式分為若干微技能,主要采用專家評價方法,對試卷題目和各個微技能之間的相關性作出判斷,從而確定試題在內容方面對英語語言水平測試的效度,是本文采用的主要工具。
(三)實施過程
專家評判是收集基于內容的效度證據的主要方法之一,來自北京師范大學和北京外國語大學的36名外國語言學及應用語言學專業碩士研究生應邀對目標試題進行了評價。所有參與人員都有十年以上英語學習和兩年以上英語教學經驗,熟悉英語測試領域的相關理論知識。中國著名英語測試學專家鄒申認為,“專家”并不是學銜意義上的專家,而是“有較豐富的相關領域的知識或經驗的專業工作者”[9]。本研究參與評判人員符合此要求,他們的評判是可靠的。本次共發出量表36套,收回36套,其中用于數據分析的有效量表30套。
四、數據分析
把有效量表的數據輸入SPSS11.0可以得到每個試題和某一語言技能中所描述的微技能的相關系數的評判平均數,該平均數反映試題和這種語言技能或微技能的相關程度。下表中黑體部分平均數等于或大于1.50(≥1.50),代表的相關程度為基本相關。相關程度平均數反映該目標試卷的測試理論根據,即該試題測試了什么樣的語言知識和技能。單元格中所標注的就是考生可以通過該目標測試所展示出來的語言水平知識和技能。
表中每行顯示了目標試卷中某個試題所測試的語言技能的數量,每列顯示的是成功測試某項技能的試題的數量,整個表格反映了目標試卷中各個試題和欲測技能之間的相關關系。

(注:表中黑體部分≥1.50)
從表一中可以看出,所有的聽力試題至少與2項語言技能相關;10項聽力技能中有7項至少和一個測試試題相關。其中第一項(理解事實性信息和細節)和第六項(理解主要觀點和支持性信息)在所有的聽力試題中得到體現。
聽力沒有測試到的語言技能有:第二項(理解說話人口頭指示的任務及其期限);第九項(理解語言各交際功能之間的差異,如提議、建議、指點或警告等)和第十項(識別說話者的態度信號,如語調、幽默和諷刺等)。

(注:表中黑體部分≥1.50)
從表二中可以看出,所有的閱讀試題至少與1項語言技能相關;11項閱讀技能中有8項至少和一個測試試題相關。其中第一項(通過跳讀或略讀的方式,找出并理解文章中明確陳述的信息)在所有的閱讀試題中得到體現。
閱讀部分未能體現的閱讀技能包括;第二項(找出并理解表格、圖表等非敘述性材料中的信息);第三項(根據上下文確定單詞的意思);第五項(閱讀并理解和課堂練習或考試有關的書面指令)。

表三表明PETS-5的寫作部分可以充分測試所有相關寫作技能。

從表四中可以看出,口語部分測試了全部9項相關語言技能,其中第二項(評價性常規口語表達)、第四項(意義協商:使用話語加工策略評價交際的有效性,并根據實際情況做出必要的調整)和第六項(話語輪交替:理解每個說話人應該什么時候說,說多長時間)分別在兩項口語任務中體現,而另外6項技能則在所有口語任務中均得到了很好的體現。
六、討論
綜上所述,全國英語等級考試第五級的聽力和閱讀部分每個試題都測試了某一項聽力技能,但從整體上來看,閱讀和聽力試題不能涵蓋所有的相關語言技能。而寫作部分和口語部分的試題則幾乎測試并涵蓋了所有的相關技能。也就是說,從考試內容看,PETS-5的聽力和閱讀部分的試題不能夠成功測試出所有的聽力和閱讀能力,試題的代表性也不夠充分;而寫作和口語部分的試題則能夠反映考生應有的寫作和口語水平。
另外,試卷中的第二部分是英語知識運用,其目的在于“不僅考查考生對連貫性和一致性等語段特征的辨識能力,還考查考生對用于一定語境中規范的語言成分的掌握,這些規范的語言成分主要是詞匯和語法結構”。這一部分內容特殊,屬于語言知識的考查,是構成語言實際運用能力的基礎,不適合用上述工具進行分析評判。筆者曾就此問題請教于教育部考試中心PETS考試體系的設計者和相關專家,鑒于英語在中國作為外語學習(EFL)的社會環境和中國特有的學習文化,筆者認為對此問題的討論當另作研究。
本文是對語言水平測試效度研究的一個初步嘗試,在整個試驗過程中還存在著很多這樣那樣的問題。期待著在以后的研究中能夠不斷改進,促進測試研究的科學化和規范化。
參考文獻:
[1]AERA,APA, NCME.Standards for Educational and Psychological Testing[M].Washington,DC:AERA,1999:9.
[2]Rosenfeld,M.,Oltman,P.K. Sheppard,K.Investigating the validity of TOEFL:A feasibility study using content and criterion-related strategies[J/OL].2008.08.10.http://www.ets.org/Media/Research/pdf/RM-04-03.pdf.
[3]教育部考試中心.PETS-5考試大綱[M].北京:高等教育出版社,2006.
[4]孫曉敏,張厚粲.效度概念演進及其新發展[J].心理科學,2000,(1):234-235.
[5]Lado,R.Language Testing[M].New York:McGraw-Hill,1961:321.
[6]Messick,S.Validity[A].In R.L.Linn(ed.).Educational Measurement(3rd edition)[C].New York:Macmillan,1989:13.
[7]Canale,M. Swain,M.Theoretical bases of communicative approaches to second language teaching and testing[J].Applied Linguistics,1980,(1):1-47.
[8]Bachman,L.F.Fundamental Considerations in Language Testing[M].Oxford:Oxford University Press,1990:683-686.
[9]鄒申.語言測試[M].上海:上海外語教育出版社,2005:196.