康 靜
語言測評素養(yǎng)(language assessment literacy)由測評素養(yǎng)(assessment literacy)發(fā)展而來,具有“語言”成分這一區(qū)別于測評素養(yǎng)的獨特內(nèi)涵。語言測評素養(yǎng)是教師教育教學能力的重要組成部分,是優(yōu)秀外語教師的必備能力(Popham 2009)。然而,我國外語教師的語言測評素養(yǎng)現(xiàn)狀不容樂觀(Jin 2010;Xu 2017;楊惠中 2015;黃永亮 2018;楊帆、吳莎 2018)。特別是在外語教育從“考試文化”向“評價文化”轉變的進程中(Shepard 2000),提高外語教師的語言測評素養(yǎng)顯得更為重要。我國近年頒布的《國務院關于深化考試招生制度改革的實施意見》(國務院 2014)《普通高中英語課程標準(2017年版)》(教育部 2018)《普通高等學校本科專業(yè)類教學質量國家標準》(教育部高等學校教學指導委員會 2018)等文件,對外語教師的語言測評素養(yǎng)提出了新的要求。在這一背景下,本文在分析語言測評素養(yǎng)淵源的基礎上,聚焦語言測評素養(yǎng)的界定與內(nèi)涵,及其等級劃分框架的研究,旨在讓外語教師對語言測評素養(yǎng)有更加清晰的認識,加深其對語言測評素養(yǎng)的理解。
一般認為,測評素養(yǎng)這一概念最早由斯蒂金斯(Stiggins,1991)提出。他認為教師具備測評素養(yǎng)表現(xiàn)在能夠對不同質量的測評有基本的認識,并能將測評相關知識應用于學生的各種成就測試中。他強調(diào),既要關注大規(guī)模水平測試,又要關注課堂測評。但是,他并未詳細闡述如何進行課堂測評,也未給予測評結果的使用以足夠的重視(王少非 2009)。
后來,針對教師課堂測評素養(yǎng),斯蒂金斯(1999)又提出了七條要求,即“七要素說”。“七要素說”強調(diào)測評要與教學相結合,體現(xiàn)測評的促學作用。在此基礎上,英巴—盧里(Inbar-Lourie,2008)將社會語境引入測評素養(yǎng),將其視為測評和測評素養(yǎng)的核心,認為具備測評素養(yǎng)表現(xiàn)在能夠批判性地提問并回答測評目的、測量工具的合適性、測試環(huán)境、測試結果使用的后果等相關問題。為指導教師和其他利益相關群體的測評培訓和專業(yè)發(fā)展,麥克米倫(McMillan,2000)提出了十一條基本原則,提供了關鍵、基礎的測評知識結構,強調(diào)測評基礎原則的重要性。然而,上述原則并未涉及測評素養(yǎng)相關技能,即未明確指出教師應具備的能力(Brookhart 2011)。
事實上,最早開展測評素養(yǎng)相關研究的是美國教師聯(lián)合會(American Federation of Teachers,AFT)、國家教育測量理事會(National Council on Measurement in Education,NCME)和全國教育協(xié)會(National Education Association,NEA)。上述機構在1990年聯(lián)合頒布的《學生教育測評中教師能力標準》(Standards for Teacher Competence in Educational Assessment of Students)提出了教師測評素養(yǎng)的七條標準,即“七標準說”。在“七標準說”提出二十余年后,布魯克哈特(Brookhart,2011)肯定了該標準對測試領域所作貢獻的同時,指出該標準在當前教育背景下稍顯不足,進而提出了升級版的“十一條原則”,每一條原則都詳細描述了與“七標準說”的異同,并解釋了修正原因,明確指出了教師進行測評時所需的相關知識和技能。
雖然上述測評素養(yǎng)研究成果均為測評素養(yǎng)利益相關群體所應具備素質的描述,但其適用范圍、對象和關注點不盡相同。如“七標準說”的適用范圍小至課堂、學校,大至整個國家、民族,認為標準所涵蓋相關技能的培訓應成為培養(yǎng)職前教師測評素養(yǎng)的重要組成部分;斯蒂金斯(1991;1999)除了關注大規(guī)模水平測試外,還關注課堂測評;英巴—盧里(2008)關注測評的社會語境,并區(qū)分了考試文化和評價文化。
語言測評素養(yǎng)源自測評素養(yǎng),同時又與測評素養(yǎng)有所區(qū)別。語言測評素養(yǎng)作為一個知識庫,具有和測評語言相關表現(xiàn)所固有的獨特性,指在測評活動中利益相關群體所需掌握的知識、技能和原則(Inbar-Lourie 2017),是一個獨特的復雜實體(Inbar-Lourie 2008)。國外語言測評素養(yǎng)研究可分為兩類:一是語言測評素養(yǎng)的界定和內(nèi)涵,包括直接界定語言測評素養(yǎng)及對具備語言測評素養(yǎng)的群體特征進行描述;二是語言測評素養(yǎng)的等級劃分框架,有針對性地滿足不同利益相關群體對語言測評素養(yǎng)的要求。
1.語言測評素養(yǎng)的界定
博伊爾(Boyles,2005)將語言測評素養(yǎng)定義為外語教師對測試和測評的原則及實踐的理解。通過發(fā)展測評素養(yǎng),外語教育工作者能根據(jù)特定目的選擇合適的測評方式,分析測試結果,從而促進教學。該界定適用范圍廣泛,可用于不同地域的各級各類的教育工作者。雖然該界定關注外語教育工作者,但是并未明確指出有關“語言”的成分。
通過分析自拉多(Lado,1961)研究以來針對語言測評素養(yǎng)培訓的教材及其培訓焦點,戴維斯(Davies,2008)發(fā)現(xiàn)語言測評素養(yǎng)經(jīng)歷了從技能到技能、知識,再到技能、知識、原則的發(fā)展,即語言測評素養(yǎng)包含三個基本成分:技能、知識和原則。泰勒(Taylor,2009)認為,全面理解這三個成分能有效提升語言測評素養(yǎng),但其研究的焦點在于語言測試領域專業(yè)人員所需的培訓,很少關注其他測試利益相關者群體的測評素養(yǎng),同時,也未強調(diào)對測試成績的解釋及合理使用。
不同于戴維斯(2008)對測評教材內(nèi)容的關注,英巴—盧里(2017)直接從外語教師的語言測評素養(yǎng)入手,將語言測評素養(yǎng)定義為在測評活動中利益相關群體所具備的知識、技能和原則。隨著教師測評素養(yǎng)需求的出現(xiàn)及利益相關群體的增多,構建語言測評素養(yǎng)框架的呼聲也更為強烈。由此,英巴-盧里指出,未來的語言測評素養(yǎng)構念界定將不再“一刀切”,即培養(yǎng)外語教師的測評素養(yǎng)要關照測評素養(yǎng)構念的多維性,聚焦測評利益相關者的實際需求(轉引自黃永亮,2018)。
富爾徹(Fulcher,2012:125)針對語言教師所需的測評訓練,通過分析網(wǎng)上問卷調(diào)查的結果,將語言測評素養(yǎng)定義為:“設計、開發(fā)、評價大規(guī)模標準測試和課堂測試所需的知識、技能和能力,對測試過程的熟悉程度,對指導和支撐實踐的原則和概念的意識;將知識、技能、過程、原則及概念運用于更廣泛的歷史、社會、政治和哲學框架的能力,以及評價測試對社會、機構和個人產(chǎn)生影響的能力”。該界定更為詳細,闡釋了基于測評素養(yǎng)原則和概念的更廣泛的測評框架,明確了語言測評素養(yǎng)的核心成分——知識、技能、能力(abilities)(見下頁圖1),強調(diào)要關注測評實踐。但是,該界定未提及語言測評特征、不同的利益相關群體對這些成分的依賴程度(Taylor 2013)。

圖1:語言測評素養(yǎng)擴充界定
與富爾徹(2012)的研究范圍不同,馬隆(Malone,2013)針對范圍較窄的課堂測評,認為語言測評素養(yǎng)指語言教育工作者應熟知課堂實踐中測試的定義及其應用,尤其針對語言評測。他通過比較語言教師和其他語言測試者,發(fā)現(xiàn)科學實施的測評能就學生的表現(xiàn)為教師提供關鍵信息,促進教與學,但前提是語言教師必須有足夠的測評背景知識和訓練來開發(fā)、選擇、使用測試并合理解釋測評結果,同時結合具體語境進行適當調(diào)整。
2.語言測評素養(yǎng)的內(nèi)涵
為明確語言教師測評專業(yè)發(fā)展中的問題,布林德利(Brindley,2001)基于自己的實踐經(jīng)驗,嘗試構建語言測評素養(yǎng)框架,認為語言教師應接受測評的社會語境(核心)、界定并描述語言水平(核心)、構建和評價語言測試、語言課程中的測評、將測評運用于實踐等五個方面的培訓。布林德利是首位嘗試構建語言測評素養(yǎng)框架的學者(Inbar-Lourie 2017),他關注實施語言測評素養(yǎng)的知識成分,承認不同的測評需求,并將語言知識本質和所需的測評素養(yǎng)結合起來,亦將教師測評實踐和專業(yè)發(fā)展結合起來。哈丁和克雷梅爾(Harding&Kremmel,2016)認為布林德利提出的五個領域的培訓應成為語言教師專業(yè)發(fā)展的必備條件。
英巴—盧里(2008)將語言測評素養(yǎng)視為包含各層級測評素養(yǎng)技能和具體語言能力的知識庫(knowledge base)。他認為具備語言測評素養(yǎng)就必須了解測評理據(jù)(why)、構念特征描述(what)和測評過程(how)。其中,測評理據(jù)、構念特征描述對應布林德利構建的語言測評素養(yǎng)框架中的前兩項核心成分,測評過程對應第三、四項成分,而第五項成分已超出了測評和測試技術范疇,僅涉及探究測評規(guī)劃和測評研究的專業(yè)人員。斯特布勒-哈夫納(Stabler-Havener,2018)認為,測評理據(jù)、構念特征描述和測評過程分別大致對應戴維斯(2008)提出的技能、知識和原則。相較已有研究,該框架更加強調(diào)全面、整體、動態(tài)理解測評,認為承認語言測評素養(yǎng)就意味著在考慮測評目的的特征和方法時,必須理解其所涉及的相關語言理論(Taylor 2009)。
“知識庫”概念一經(jīng)提出就受到語言測評界的廣泛關注(如林敦來、武尊民 2014),但是“知識庫”如何界定一直存在爭議。斯卡里諾(Scarino,2013)認為,界定知識庫相當重要,但并不足以提升教師的語言測評素養(yǎng),還需將這些概念基礎運用于具體語境下的專業(yè)實踐中。他認為“知識庫”應包含語言測評知識,不僅是多樣的測評范式、理論、目的,在各種語境下的誘導、判斷、驗證實踐,還有學習理論和實踐及不斷演變的語言和文化理論,即教師自身的解釋框架(interpretive framework)(Giraldo 2018)。同時,這些維度又相互交叉、互相影響。因此,研究者應重新審視語言教師的知識庫及其演變的復雜過程。該研究關注測評的社會維度及測評實施的語境和文化的相關性(Inbar-Lourie 2013),擴展了知識庫的內(nèi)涵,強調(diào)語言測評素養(yǎng)的動態(tài)觀,聚焦教師的測評觀念及這些觀念如何影響他們對課堂測評實踐的理解和實施。
而奧洛克林(O’Loughlin,2013)針對高風險測試,以解釋、使用語言測試成績的大學教職工為研究對象,對其語言測評素養(yǎng)需求進行研究。他指出語言測評素養(yǎng)包含測試開發(fā)(production)、測試成績的接受和使用、批判性理解教育和社會測評的角色和功能等一系列技能。該研究針對高利害測評,以測試使用者為研究對象,豐富了語言測評素養(yǎng)研究的理論框架。雖然界定中考量了測試的社會文化等背景,但未明確“語言”成分。
語言測評素養(yǎng)涉及測評實施的各個環(huán)節(jié),亞斯提巴斯和塔克拉克(Yastibas&Takkac,2018)以土耳其高校英語教師為研究對象,針對測評開發(fā)階段教師的語言測評素養(yǎng)水平進行了質性研究。他們認為,當以檢查是否完成教學目標為目的開發(fā)語言測評時,教師要以學生為中心,以教材內(nèi)容為綱,運用多種批判性思維方法來保證測試的效度及其積極反撥作用。該研究關注測評的開發(fā)階段,為提升教師語言測評素養(yǎng)提出了建議,同時也對教師的批判性思維能力提出了更高的要求。
語言測評素養(yǎng)是一個復雜的概念,其內(nèi)涵十分豐富。要提高不同利益相關群體的語言測評素養(yǎng),必須明確各相關群體的具體需求。因此,需要對語言測評素養(yǎng)進行細致劃分。皮爾和哈丁(Pill &Harding,2013)以拜比(Bybee,1997)對科學素養(yǎng)的劃分為基礎,借鑒凱澤和維蘭德(Kaiser &Willander,2005)對此劃分的擴展及應用,將語言測評素養(yǎng)分為素養(yǎng)缺失、稍具素養(yǎng)、功能素養(yǎng)、程序素養(yǎng)和概念素養(yǎng)、全方位素養(yǎng)等五個等級(0—4 級),并對各等級進行了相應的描述(轉引自黃永亮,2018)。不同利益相關群體可根據(jù)實際需求“對號入座”,避免資源浪費。雖然將語言測評素養(yǎng)進行了分級,但利益相關群體必須對語言測評素養(yǎng)知識有所了解,才能精準定位。這使我們認識到測評素養(yǎng)是一個連續(xù)體,而非簡單的具備測評素養(yǎng)和無測評素養(yǎng)(Taylor 2013)。
不同利益相關群體因各自角色和責任差異,其測評素養(yǎng)需求也各不相同,而且還會隨著利益相關者及測評情境的不同而變化(Inbar-Lourie 2017)。在皮爾和哈丁(2013)語言測評素養(yǎng)五級劃分的基礎上,泰勒(2013)嘗試從八個維度解釋命題人、課堂教師、大學管理者、專業(yè)語言測試人員等四類利益相關群體的語言測評素養(yǎng)標準。他認為研究員、命題者為核心利益相關群體,普通大眾和政策制定者為邊緣利益相關群體,語言教師和課程教員則介于二者之間。其中,課堂教師所需標準如圖2所示。該研究旨在為不同利益相關群體的知識、需求和目標開發(fā)合適的語言測評素養(yǎng)框架,更具針對性。

圖2:課堂教師的語言測評素養(yǎng)
相較而言,鄭(Jeong,2013)則更為細致地對比了具有不同語言測試背景的教師對授課內(nèi)容的影響。他通過線上問卷調(diào)查和深度電話訪談發(fā)現(xiàn),專業(yè)語言測試者(language testers,LTs)和非專業(yè)語言測試者(non-language testers,non-LTs,指第一專業(yè)領域不是語言測試但參與過語言測評相關活動的學者、教師等)兩類群體在測試理論、課堂測評等六個領域存在顯著差異。他建議,專業(yè)語言測試者在保持其專業(yè)性的同時,也要與語言測評文化的其他部分相融合,避免因為過于專業(yè)化而與其他應用語言學科分離。該研究以不同背景的語言測試教師為研究對象,豐富了語言測評素養(yǎng)研究的理論框架。
有別于上述研究的視角,吉拉爾多(Giraldo,2018)通過文獻研究法研究發(fā)現(xiàn),盡管語言測評素養(yǎng)利益相關群體類型眾多,但教師是核心成員,其語言測評素養(yǎng)低下是全球現(xiàn)象;雖然將利益相關群體進行了等級劃分,但教師的語言測評素養(yǎng)內(nèi)涵依然不夠明確。為此,他提出了語言測評素養(yǎng)的核心成分(見圖3),認為教師語言測評素養(yǎng)應包括知識、技能和原則,且三者呈等級排序,重要性依次遞減。各成分都有其子維度,各維度共有六十六條描述語。各維度相互依存,在教師實施測評的過程中共同發(fā)揮作用。正如吉拉爾多所說,該框架主要基于前人研究及自身經(jīng)驗,可能存在個人偏見,因此,其有效性及權威性還有待驗證。

圖3:語言測評素養(yǎng)維度核心成分:知識、技能和原則
綜上所述,語言測評素養(yǎng)研究的關注點不盡相同,如布林德利(2001)認為社會語境是語言測評素養(yǎng)的核心;英巴-盧里(2008)強調(diào)全面、整體、動態(tài)理解測評(Taylor 2009);奧洛克林(2013)的框架中未明確“語言”成分,而英巴—盧里(2017)強調(diào)如何界定含有“語言”成分的語言測評素養(yǎng)標準;亞斯提巴斯和塔克拉克(2018)則對批判性思維能力提出了要求;戴維斯(2008)的研究對象為語言測試領域的專業(yè)人員,富爾徹(2012)的研究對象為語言教師,馬隆(2013)的研究對象為課堂語言教師;皮爾和哈丁(2013)對語言測評素養(yǎng)進行了整體等級劃分;鄭(2013)關注兩類不同教育背景教師的語言測評素養(yǎng),吉拉爾多(2018)則聚焦語言教師的語言測評素養(yǎng)。由此可見,上述研究的多元視角為語言測評素養(yǎng)的深入理解提供了不同的路徑。
語言測評素養(yǎng)是一個多維概念,有其區(qū)別于測評素養(yǎng)的獨特性,其界定越來越關注測評所在社會的多元背景和文化的多樣性。不同的利益相關群體、不同的測試背景對語言測評素養(yǎng)的需求也不盡相同,這對語言測評素養(yǎng)的界定提出了更為復雜的要求。因此,國內(nèi)研究也需根據(jù)不同利益相關群體的具體需求,制訂有針對性的培訓方案,從而提高外語教師語言測評素養(yǎng)。通過開發(fā)有效評測外語教師語言測評素養(yǎng)水平的量具,對職前外語教師的培養(yǎng)和外語教師的在職培訓起到積極的反撥作用。此外,還可將語言測評素養(yǎng)納入外語教師職業(yè)發(fā)展規(guī)劃,讓語言測評素養(yǎng)成為外語教師職業(yè)發(fā)展不可或缺的組成部分。