《語言評估實踐》述介

2013-03-27 01:45:50閔尚超

當代外語研究 2013年2期

閔尚超

1.引言

對測試效度的驗證是語言測試領域永恒的主題，眾多專家學者也相繼從不同角度提出了不同的理論與方法，試圖幫助測試開發者與使用者進行效度驗證。但是，以往的這些理論均過于籠統抽象，在實踐中可操作性不強。而Bachman與Palmer在其新著《語言評估實踐》一書中正式提出的“評估使用論據”（assessment use argument）方法則彌補了這一不足。在該書中，作者將其近幾年一直倡導的“評估使用論據”方法運用于具體的評估實踐中，首次實現了對具體的評估進行效度驗證指導，突破了以往的效度驗證理論僅在理論上有所指導這一局限，對語言測試理論與實踐的發展做出了重要貢獻。

2.內容簡介

全書共分為四大部分。第一部分提出了語言評估開發和使用的理論框架。作者首先厘清了幾個相關術語，指出在本書中對測試（test）和評估（assess）這兩個概念不做嚴格區分。作者接著介紹了貫穿本書的核心理論——“評估使用論據”。該理論主要基于Toulmin（2003）的“論據結構模型”（argument structure model），并在該模型上有所拓展和創新。其論證結構由五個部分組成，即，主張（claim）、理由（warrant）、依據（backing）、反證（rebuttal）以及數據（data），其中，主張為其理論框架的核心部分。通過四條主張，“評估使用論據”能有效地描述評估后效（consequences）、決定（decisions）、解釋（interpretations）、評估記錄（assessment records）以及考生表現（test taker's performance）這五者之間的線性循環關系。該部分還概述了語言使用和語言能力的本質、語言使用任務的特點、如何證明對語言評估任務的使用是合理的，等等。作者認為，對語言使用本質的了解能夠幫助我們更好地理解如何把評估結果概推到某一具體語言使用場景；對語言能力本質的了解則是不可缺少的，因為語言能力是所有語言評估考查的對象；語言使用任務特點框架則為我們證明語言評估中的任務與現實生活中考生需要完成的任務具有一致性提供了一個衡量標準；向評估相關者證明對語言評估任務的使用或者根據評估結果所做的決定具有合理性是評估開發者和使用者的基本責任，而最好的證明方法則是采用“評估使用論據”。

第二部分引用多個實例全面介紹了構建“評估使用論據”的全過程?！霸u估使用論據”的四條主張具體為：（1）評估后效以及決定對所有評估相關者均具有益性（beneficence）；（2）根據評估所做的決定考慮了已有的教育觀念、社會觀念以及法律要求，并且該決定對所有評估相關者均具有公平性（equitability）；（3）對所考查的能力的解釋具有意義性（meaningfulness）、公正性（impartiality）、概推性（generalizability）、相關性（relevance）以及充分性（sufficiency）；（4）在不同的評估任務、不同的評估程序中，不同的考生群體的評估記錄具有一致性（consistency）。該理論框架提供了步驟式的方法，明確指出，如果研究者是設計評估，則應該從第一條主張開始，即，先探討使用該評估是否對社會具有有益性，然后再依次證明第二條、第三條、第四條主張；如果研究者是對評估進行解釋和使用，則應反向而行，即，從第四條主張開始，先證明考分的一致性，然后再依次證明第三條、第二條以及第一條主張。為了詳細闡述這四條主張以及支持各主張的理由在整個評估開發和使用中是如何發揮作用的，作者采用一項低風險形成性評估和一項高風險終結性評估作為例子，詳細探討了如何在具體的評估中，通過給出相關理由來證實主張的正確性，從而向評估相關者證明該評估的開發與使用都是合理的。同時，該部分指出，從具體操作實踐的角度看，語言評估的開發與使用可分為五個階段：初始計劃（initial planning）、設計（design）、操作（operationalization）、試測（trialing）和評估使用（assessment use）。這五個階段總體呈線性發展趨勢，但每個階段之間又相互影響。具體而言，在初始計劃階段，評估開發者根據一系列原則，做出選擇，決定是修改已有評估還是重新開發新的評估；在設計階段，評估開發者研制設計說明，其主要作用是指導接下來的操作、試測和評估使用；在操作階段，評估開發者研制設計藍圖（blueprint），并根據該藍圖進行命題，然后把已命好的題目組織成一項完整的評估；在試測階段，評估開發者對一群受試進行試測，收集信息，分析并完善評估；在評估使用階段，評估使用者根據考生的評估記錄做出決定。

第三部分探討在真實世界中開發與使用語言評估的過程。由于評估相關者與評估場景的可變性、現實生活中的不確定性以及資源的有限性，評估開發者和使用者在實際操作中需考慮現實情況，有時不得不采取折中的辦法。該部分描述了真實世界中開發和設計語言評估項目的每個具體步驟，包括研制設計說明、設計評估任務、記錄考生在評估中的表現、制訂命題細則、準備考試指令、收集反饋信息等。同時，作者把“評估使用論據”貫穿于現實世界中開發與使用語言評估的具體步驟中，從而實現了理論與實踐在現實世界中的結合。該部分也討論了開發語言評估過程中合理分配和管理資源的問題。作者指出，資源包括人力資源、物力資源以及時間。資源分配以及管理在評估開發過程中起到非常重要的作用，因為它決定了整個評估的開發是否具有可行性。最后，作者強調評估開發者和使用者有責任保證評估的使用方式、根據評估所作的決定以及評估后效對所有評估相關者都具有公平性。

第四部分提供了三個不同的評估開發項目實例，即，幼兒園英語學習者口語與寫作評估、大學英語閱讀分級評估/豁兔評估（placement/exemption）、大學基礎漢語口語評估。前兩項評估為貫穿全書的兩個主要例子，即前文所提到的一項低風險形成性評估和一項高風險終結性評估。作者再次詳細提供這兩項評估的整個開發過程，目的在于給讀者參與實踐的機會，幫助讀者更好地理解不同評估在開發過程中所需考慮的不同方面，最終使讀者掌握如何在語言評估開發與使用過程中靈活地運用本書中提供的“評估使用論據”方法。

3.簡要評論

本書是Bachman與Palmer繼1996年推出《語言測試實踐》后的又一大力作。1996年的《語言測試實踐》以“測試有用性理論”（test usefulness theory）為框架，主要關注語言測試的開發過程以及分數解釋，而本書則以“評估使用論據”為框架，其關注重點也不再局限于語言測試開發過程或分數解釋，而是拓展到語言測試的使用。同時，作者在本書中，對Bachman（1990）以及Bachman與Palmer（1996）中提出的語言使用模型進行了修正，語言使用任務特點框架進行了完善，探討了現實世界中面臨資源的有限性時如何開發和使用測試，并且明確指出了測試開發者和使用者在測試開發與使用的各個階段各自應承擔的主要責任和次要責任。

本書的最大貢獻在于第一次系統地提出“評估使用論據”這個理論框架。作者在本書中正式提出這個框架前對其進行了九十次修改，足見作者的用心。該理論的提出對語言測試領域的巨大貢獻在于：

（1）以往的理論只是簡單地列出語言測試的各個重要屬性，如，Messick（1989）的“整體效度觀”中的四項、Bachman與Palmer（1996）的“測試有用性理論”中的六項、Kunnan（1997）的“測試公平性理論”中的五項，均沒有闡述其各個屬性之間的關系，似乎表明這一系列屬性的簡單相加就等于其所提倡的“效度”、“有用性”以及“公平性”。而“評估使用論據”則是通過具體的主張和理由把各個重要屬性有機地聯系起來，從而彌補了這一不足。

（2）以往的理論要么關注測試開發，如Mislevy等（2003）的“基于證據的方法”（evidence-centered design），要么關注測試使用，如Kane（2006）的“基于論據的理論”（argument-based theory），而沒有探討測試開發以及測試使用之間的關系。而“評估使用論據”不僅同時關注兩者，并且通過提供一個強大的理論框架以及一系列操作步驟，實現了對兩者的有機聯系。

（3）以往的理論均沒有明確區分測試使用中的“決定”和“后效”這兩個概念，而是把兩者混為一談，不利于進行效度驗證時更清楚地尋找各自的論據。而“評估使用論據”對這兩個概念進行了細分，并且詳細闡述了兩者之間的關系。

（4）以往的理論主要源于定量主義的傳統，關注效度的心理計量層面，而忽略了定性方法對測試效度驗證所能帶來的巨大益處。而本書通過“評估使用論據”指出，除量化的考分以外，質性的描述也應作為考生能力體現的證據，從而有利于把通過定性方法、自然主義方法以及記錄片方法等收集到的證據作為評估使用論據的一部分，突破了以往過度偏重于定量測量的做法。另外“評估使用論據”把測試的公平性（fairness）、問責制（accountability）等效度的社會層面概念也融入到了其框架范圍中。

（5）以往的理論主要以信度、效度、真實度、后效等核心概念為基礎，但是這些概念均存在界定過寬或過窄的問題，如，信度這一概念在過去的研究中常被研究者有意識或無意識地等同于Cronbachα系數，間接導致了對影響一致性的其他因素（如，考試說明、施測步驟等）的忽略。換句話說，信度這一概念不足以概括所有影響一致性的因素，存在定義過窄的問題。而“評估使用論據”不再沿襲過去的這一系列概念，而是采用“一致性”取代“信度”，“意義性”和“概推性”取代“構念效度”，等等，從而能夠更好地指導研究者在進行效度驗證時采用多方面的證據。

誠然，本書也存在一定的不足之處。第一，作者在探討測試后效時忽略了測試開發和使用的政治環境。而事實上，測試與政治的關系密不可分，Shohamy（2001）甚至認為考生是特定政治環境下的政治對象（political subjects）。本書如果能夠深入挖掘語言測試的政治層面，其所倡導的“評估使用論據”這一理論體系將更加完善。第二，作者在“評估使用論據”中，采用“相關性”、“充分性”以及“概推性”這三個概念取代了傳統的“真實性”。雖然從理論上看，對“真實性”的細分有利于更清楚地指導研究者尋找相關證據進行效度驗證，但是這三個概念本質上并不存在區別，只是一個度的問題。所以在實際效度驗證操作中，支撐這三項的證據很可能為同一數據，因此會導致整個論證過程存在贅述的問題。第三，作者完善后的語言知識框架仍忽略了語言的政治功能與倫理功能。而事實上，由于各國歷史文化傳統的差異性，對語言的本質以及作用的理解是千差萬別的。如，中國的《論語》中提到“一言興邦，一言喪邦”，“君子一言以為知，一言以為不知”，分別強調了語言的政治功能與倫理功能，這與西方認為語言是用來改變他人行為的觀點是截然不同的。所以，本書關于語言功能的觀點是否能放之四海而皆準還有待商榷。