寫作能力行為測試評分員培訓(xùn)研究述評

2016-04-29 00:00:00陳建林朱欣君

外國語文研究 2016年1期

摘要：在大規(guī)模語言考試實踐中，評分員培訓(xùn)通常被認為是作文人工評分的必經(jīng)環(huán)節(jié)，其目的在于提高評分一致性，保證考試公平性。然而，語言測試界對于評分員培訓(xùn)目的以及自身價值的爭論頗多，本文將對這些觀點進行梳理。同時，還將對評分員培訓(xùn)步驟、評分員培訓(xùn)效果與持續(xù)時間、培訓(xùn)中評分員認知發(fā)展過程等相關(guān)研究進行探討。

關(guān)鍵詞：語言測試；評分員；評分培訓(xùn)

中圖分類號：G42 文獻標識碼：A 文章編號：1003-6822（2016）01-0099-07

1. 引言

在語言測試界，行為測試（performance test）方式因其較高的效度而被廣泛用于寫作能力測試之中，然而這種測試方式的評分信度卻受到質(zhì)疑。因此，如何提高其評分信度成為語言測試工作者所關(guān)注的焦點之一。評分員培訓(xùn)是測試機構(gòu)為了提高評分信度而采取的重要手段，目的在于提高評分員自身（intra-rater）以及評分員之間（inter-rater）的一致性。近三十年來，對于評分員培訓(xùn)的研究取得了許多成果。整體而言，這些研究主要集中在以下四個方面：評分員培訓(xùn)目的以及自身價值、評分員培訓(xùn)步驟、評分員培訓(xùn)的效果和培訓(xùn)持續(xù)時間、評分員在培訓(xùn)中的認知發(fā)展過程。下文將分別從這四個方面對相關(guān)研究展開討論。

2. 評分員培訓(xùn)的目的及價值

在寫作行為評估中，要求評分員評分恰當，前后打分連貫，以確保評分的有效性。然而，由于迥異的個體性格和不同的專業(yè)背景，評分員之間較易產(chǎn)生差異。為了減少這種差異從而提高主觀評分的有效性，測試工作者嘗試使用了許多手段，其中使用最廣泛的方式是評分員培訓(xùn)。在有關(guān)語言測試的文獻中，許多研究者認為評分員培訓(xùn)在寫作行為評估中具有重要作用（McNamara， 1996）。然而，研究者對于以下兩個方面的看法卻存在分歧：第一，評分員培訓(xùn)的目的究竟應(yīng)該是提高評分員自身一致性還是提高評分員之間的一致性，亦或兩者兼有；第二，培訓(xùn)的價值究竟何在，這種過分強調(diào)一致性的做法是否符合人類自然評分規(guī)律。

在語言評估領(lǐng)域，研究人員普遍認為評分員培訓(xùn)的目的和價值在于提高評分員的一致性和評分的合理有效。但是，也有學(xué)者對此提出異議，正如Weigle（1998）所指出的那樣，“在寫作評估和評價文獻中，對于評分員培訓(xùn)的目的和效用仍有一些爭議（p： 263）。”例如，Weigle（1998）的研究發(fā)現(xiàn)，評分員通過培訓(xùn)會形成各自對評分標準的認識，他們往往自身一致但卻彼此不同；有些研究人員（例如，Charney， 1984）認為評分員的一致性只能局限于一篇文章的表層特征；一些研究者認為強調(diào)評分員培訓(xùn)的一致性會迫使評分員在評判寫作時忽略自己的經(jīng)驗和專業(yè)知識，而這兩方面又被視為互動閱讀過程的基本要素（Barritt， Stock Clarke， 1986）。實際上，在自然閱讀過程中，讀者和作者的互動，寫作產(chǎn)生的語境，讀者對文章產(chǎn)生的共鳴等方面均是閱讀本質(zhì)的體現(xiàn)（Gere， 1980： 47）。顯然，評分員單純從文本特征方面所達成的一致性很難體現(xiàn)出人類自然閱讀的本質(zhì)。Huot（1990： 211）同樣指出，評分員不可避免地會對一篇文章有個人獨有的反應(yīng)，這是閱讀的本質(zhì)屬性。然而，“通過培訓(xùn)，評分員個人的立場看法屈從于一套規(guī)定好的評分原則，為了追求可靠性，寫作質(zhì)量真正的優(yōu)劣往往被忽略。”

以上觀點在實證研究中得到了證明。比如，Weigle（1998）的研究發(fā)現(xiàn)，盡管經(jīng)過嚴格的培訓(xùn)，評分員之間的嚴厲度仍然存在顯著差異；評分員的個人特點如性別、職業(yè)、語言背景、認知方式等也會對特定的學(xué)習(xí)者群體產(chǎn)生偏差作用（Wigglesworth， 1993； Carrell， 1995； Kobayashi Rinnert 1996； Schoonen et al. 1997； Chalhoub-Deville Wigglesworth 2005； Schaeffer， 2008）。

然而，另一種觀點則認為評分員培訓(xùn)是必要的。支持這一觀點的人認為，為了提升公平性，考生作文應(yīng)當以相同的標準進行評估，這就需要對評分員進行嚴格培訓(xùn)。他們認為，評分培訓(xùn)產(chǎn)生良好效果的前提是制定操作性強、評價準確的寫作能力評分標準。如果評分員能根據(jù)所界定的寫作能力接受相關(guān)培訓(xùn)，并且認同評分標準，擱置他們自己的主觀經(jīng)驗，評分培訓(xùn)就一定能取得良好的效果。實際上，這也是評分員培訓(xùn)中最基本的步驟（Jacobs， et al. 1981； Homburg 1984）。例如，Cooper（1977： 3-31）認為只要評分員都來自相似的專業(yè)背景，通過嚴密的培訓(xùn)，在評判文章時給出一致的分數(shù)是可以實現(xiàn)的。Jacobs等人（1981）認為評分員培訓(xùn)以及評分量表的使用，有利于調(diào)和由不同專業(yè)背景評分員所造成的評判差異。并且，“在對文章是否有效地傳達了交際效果進行評判時，這兩者的融合使用可以更好地保證評分員對文章解讀的一致性”（p： 43）。Lumley（2005： 63）明確指出，評分的根本矛盾在于不同人在不同語境下寫的不同文本要用同一個標準化的量表來評價，因此只有通過培訓(xùn)才可以構(gòu)建評分共同體，實現(xiàn)不同評分員對文本的共同解讀。徐鷹（2014）也認為，從社會認知視角看，培訓(xùn)旨在提高評分員的評分技能，即評分員在一段時間內(nèi)保持高水平評分質(zhì)量的能力。培訓(xùn)屬于影響評分過程的外部環(huán)境因素，能夠影響到評分員對文本意象的評估。培訓(xùn)的核心目標應(yīng)該是要強化評分員作為評分社區(qū)成員的集體意識，并促使評分員將自己的工作經(jīng)驗、培訓(xùn)經(jīng)歷同評分行為真正融合。

由此可以看出，對于評分員培訓(xùn)的目的和意義存在兩種不同的觀點：一種觀點認為，評分培訓(xùn)的目的是為了提高評分一致性，保證評分的公平性，因而是必要的；另一種認為評分培訓(xùn)破壞了人類閱讀的自然屬性，因而是不必要的。這兩種觀點體現(xiàn)了評分的真實性和評分員評分一致性的對立。一方面，為了實現(xiàn)較高的一致性，評分員很可能對于寫作質(zhì)量優(yōu)劣難以形成有效的評估。這是因為，為了追求評分員評分的一致性，真實閱讀過程中不可或缺的讀者和文本的互動以及讀者和作者的互動將難以實現(xiàn)。另一方面，假若為了提高寫作評估的真實性而強調(diào)文章和不同個性讀者之間的互動，那么，同一篇文章由不同的個人批閱，結(jié)果可能大相徑庭。因此，在語言測試實踐中，尤其是計算機自動評分被廣泛應(yīng)用于作文評分的新時代下，如何調(diào)和這對矛盾，即，既要體現(xiàn)評分過程的真實性和人類閱讀的自然屬性，又要保證評分結(jié)果的公平性，是擺在語言測試工作者和研究者面前的一個需要深入研究的課題。

3. 評分員培訓(xùn)方法和步驟

盡管人們對評分員培訓(xùn)的目的和意義還存在一定的爭論，然而在語言測試實踐中，大多數(shù)大規(guī)模語言測試均會對評分員進行作文評分培訓(xùn)，以期提高評分一致性，保證考試的公平性。那么，評分員培訓(xùn)到底應(yīng)道遵循什么樣的方法和步驟才能更加有效呢？大量研究人員對于評分員培訓(xùn)提出了不同的實施框架（例如：Bachman Palmer 1996； Weigle， 2002； Lane Stone 2006）。

Bachman Palmer（1996： 222）認為在作文評分開始前，進行大量培訓(xùn)是十分必要的。為此，他們設(shè)計出了如下的6個步驟：1）評分員集中瀏覽和探討評分量表；2）學(xué)習(xí)由專家評分員評過的作文樣本并對給出的評分和評語進行討論；3）評分員練習(xí)給不同的作文樣本打分，然后和有經(jīng)驗的評分員給出的分數(shù)進行對比，探討評分異同以及在評分時是如何遵循評分標準的；4）換一批作文樣本打分并討論；5）每個接受培訓(xùn)的評分員給一套相同的樣本打分，檢驗打分花費的時間以及打分一致性；6）挑選出能合理、有效打分的評分員。Bachman Palmer培訓(xùn)實施框架為所有類型的語言評估（例如：口語能力、寫作能力、語法、翻譯能力等）提供了普遍適用的模型。然而，在具體的某一項語言測試中，測試機構(gòu)和測試者到底應(yīng)當采用什么樣的方法和步驟則需要考慮諸如測試目的、測試規(guī)模、測試環(huán)境等因素。

相比之下，Weigle（2002： 130）提出的步驟則更加詳細和具體。首先，評分組組長（由評分專家或者是非常有經(jīng)驗的評分員擔(dān)任）應(yīng)該仔細閱讀應(yīng)試者的作文，并且從大量作文中挑選出能代表不同能力級別的參照樣本。參照樣本中應(yīng)該包括一些有爭議并且有代表性的樣本。例如一些不按要求行文的樣本或是抄寫給出的寫作提示語的樣本，或者處于臨界水平的樣本（例如處于通過或不通過考試的臨界水平）。第二，將給出合理分數(shù)的樣本按順序分發(fā)給評分員，并結(jié)合評分量表進行講解。這一步是為了讓評分員熟悉量表，了解量表的一些特征以及理解量表描述符的意義。第三，一旦評分員熟悉了評分組組長給定的評分量表，包含每個能力水平的一整套樣本將以隨機的順序分發(fā)給評分員并告知他們一個樣本對應(yīng)一個能力級別。在完成這些之后，將讓評分員評閱一些更具爭議的樣本。對于在實際的打分過程中可能產(chǎn)生的問題進行進一步商討。第四，若評分員總是打出高于或低于其他評分員的分數(shù)，那么應(yīng)該給予這些評分員反饋或者讓他們接受額外的培訓(xùn)。Weigle （2002）指出，如果評分進行時間較長，就應(yīng)該每天提供給評分員評分樣本以使他們對評分進行再次校準。另外，在培訓(xùn)中評分員不得參考其他評分員的評分，應(yīng)當進行獨立評分。

綜上所述，評分員培訓(xùn)的方法和步驟實際上體現(xiàn)了評分員、評分標準、和作文文本的互動關(guān)系。作文文本是培訓(xùn)的出發(fā)點，只有對大量文本特征進行研究后才能歸納和概況出整體性特點，找到共性，發(fā)現(xiàn)特殊性，從而制定具有針對性、操作性和易于理解的評分標準。而評分標準是準繩，是衡量作文質(zhì)量的標桿。只有評分員對評分標準有了統(tǒng)一的認識，才能保證順利的實施。然而，評分員對于標準的把握只有與具體的文本特征相結(jié)合才能實現(xiàn)。標準是針對具體文本而言，沒有文本，標準就是抽象的和難以理解的，而沒有標準，文本就是雜亂的和難以把握的。

4. 培訓(xùn)效果和持續(xù)時間

既然評分員培訓(xùn)在大規(guī)模考試中被廣泛運用，那么它的效果究竟如何，能否達到使用者的預(yù)期呢？就此問題，許多研究人員展開了一系列的調(diào)查研究。然而，研究結(jié)果不盡相同。總體來看，對于培訓(xùn)效果存在三種不同的認識：一種是強式效果論，認為培訓(xùn)能起到非常積極的效果；第二種是微式效果論，即認為培訓(xùn)效果有限；第三種是消極效果論，即認為培訓(xùn)會對評分員產(chǎn)生消極的影響。

Weigle（1994）對培訓(xùn)的積極效果進行了總結(jié)：評分員培訓(xùn)以及評分說明的使用有助于評分員更加清晰地理解評分標準，同時有益于促進評分員依照設(shè)定好的標準，而不是根據(jù)他們自己的標準作出判斷（Charney， 1984）；可以使由評分員自身經(jīng)歷和不同專業(yè)背景所引起的評分分歧降到最低甚至消除分歧（Jacobs et al. 1981）；能讓評分員在潛意識中參照相同的評分標準；通過使評分員熟悉寫作任務(wù)的要求以及寫作者不同的特征來減少評分員對作文期望值的偏差，從而提高評分一致性（Huot， 1990；Elder， 2007）。

以上結(jié)論在許多實證研究中得到了印證。例如，在Shohamy， Gordon Kraemer（1992）進行的一項研究中，比較了評分前受過培訓(xùn)和未受過培訓(xùn)的評分員各10名對50篇作文所打出的分數(shù)。結(jié)果表明，評分員自身評分可信率總體較高，受過培訓(xùn)的評分員比未受培訓(xùn)的評分員評分更可信（比率分別是0.91-0.93 vs. 0.80-0.90）。與之相似，Weigle（1998）的研究探討了有經(jīng)驗的和無經(jīng)驗的評分員分別在培訓(xùn)前和培訓(xùn)后評分嚴厲度和評分一致性方面的差異。該研究要求16名評分員在培訓(xùn)前和培訓(xùn)后分別給60篇作文進行評分（其中有經(jīng)驗的和無經(jīng)驗的評分員各8名）。多層次Rasch分析程序得出的嚴厲程度和統(tǒng)計擬合表明，在培訓(xùn)前無經(jīng)驗的評分員相對于有經(jīng)驗的評分員來說，傾向于評分更為嚴厲但是卻相對缺乏評分一致性。在接受培訓(xùn)后，兩組評分員之間的差異不再明顯。

持微式效果論的人認為，盡管評分員培訓(xùn)能在一定程度上減少評分員在評分嚴格程度方面的差異，并且能通過減少可能出現(xiàn)的隨機錯誤和降低評分時的個人偏見，提高評分員的評分一致性，其效果卻具有很大的局限性（Lim， 2011： 544）。例如，有研究發(fā)現(xiàn)（Weigle， 1994），在經(jīng)過嚴格培訓(xùn)之后，評分員的評判嚴厲度差異依然存在。在一些情況下，這種差異在評判學(xué)生寫作行為能力中占到35%。另一些研究證實，評分員培訓(xùn)在保持評分員自身一致性方面效果明顯，卻對保持評分員之間的一致性方面效果不佳（Weigle， 1994； 2002）。

除此之外，研究還發(fā)現(xiàn)，盡管評分員培訓(xùn)在培養(yǎng)評分員自身一致性方面能起到一定效果，但是在提高評分員之間共識或評分員嚴格程度方面收效甚微（Weigle， 1998）。由此，便能引發(fā)關(guān)于評分員培訓(xùn)目標究竟應(yīng)該在于提高評分員之間的一致性還是評分員自身一致性的爭論。在人們理所當然地認為培訓(xùn)目的應(yīng)當是提高評分員之間一致性的同時，一些研究者卻認為要消除評分員之間的差異幾乎是“不可能實現(xiàn)，或許也是沒有必要的”McNamara（1996： 232）。相反，培訓(xùn)的真正目的在于讓評分員保持自我一致。在保證評分員自身一致性的前提下，評分員寬嚴度的差異是可以進行調(diào)節(jié)的。事實上，這種考試后評分調(diào)整已經(jīng)通過運用多層面Rasch 測量程序在劍橋大學(xué)ESOL考試中得到了運用（Shaw Weir， 2007）。

對于培訓(xùn)效果的第三種觀點認為，評分員培訓(xùn)會產(chǎn)生消極效果。例如，Charney（1984）認為如果評分員為了達到評分的一致性而接受培訓(xùn)，那么這種達成的共識往往只是停留在文章表面以及那些容易識別文本特征上面，比如書寫和拼寫等，而真正決定文本質(zhì)量高低的深層次特征卻被忽略。Barritt，Stock Clark（1986）指出，強調(diào)評分員評分遵循評分共識會迫使他們忽略自己在評判文章優(yōu)劣方面所積累的豐富知識和經(jīng)驗。

即使評分員培訓(xùn)能在一定程度上產(chǎn)生較為符合測試者預(yù)期的效果，這種效果到底能否持續(xù)呢？對此，不少研究人員存在疑慮。例如，Lunz Stahl（1990）的研究表明，在接受培訓(xùn)后即使僅僅超過半天，評分員也可能會前后不一致。Lumley McNamara（1995）的研究發(fā)現(xiàn)，一些評分員的評分行為從間隔一個月之久的一個評分階段（該階段評分員仍接受培訓(xùn)）到另一個評分階段（實際操作評分）會有較大差異。Congdon McQueen（2000）對16名評分員在評估全國范圍讀、寫能力測試和算數(shù)能力測試時的評分變化進行了研究。他們的研究表明，評分員在連續(xù)兩天的評分中嚴厲度波動較大，在整個評分過程的第一天和最后一天則發(fā)生了絕對變動。

針對培訓(xùn)的這些弊端，許多研究者提出了建議。例如，Congdon McQueen（2000）建議在存在高差異風(fēng)險的評分場合需要持續(xù)不間斷的培訓(xùn)。當然，也有對此持反對態(tài)度的，認為持續(xù)不間斷的培訓(xùn)不切實際（Hamilton et al. 2001）。有人則認為為了保持培訓(xùn)的持續(xù)效果，需實行評分員通過面對面交流以及網(wǎng)絡(luò)在線等形式的自我培訓(xùn)（Elder et al. 2007）。陸遠（2011）在對評分員培訓(xùn)的方式和效果進行研究后認為，為了提升培訓(xùn)效果首先需要加強持續(xù)培訓(xùn)的力度，培訓(xùn)活動的設(shè)計需要更加具有互動性和針對性，培訓(xùn)的反饋信息需要更加詳細，尤其是需要包括有關(guān)評分員偏頗的反饋信息。

5. 培訓(xùn)中評分員的認知變化

盡管對于評分員培訓(xùn)的結(jié)果和效果等方面的研究成果頗豐，但對于評分員在接受培訓(xùn)過程中評分員信念所發(fā)生的變化、評分員培訓(xùn)影響評分員的過程以及培訓(xùn)如何與評分員經(jīng)驗相融合等方面的研究甚少。而要對這些問題進行研究，則必須對評分員的評分過程和內(nèi)心信念進行探究。有一些學(xué)者在這些方面進行了一定的探索。例如，Weigle（1994）采取了有聲思維和跟進訪談的形式對4名無經(jīng)驗的評分員在評分員培訓(xùn)前后分別評判相同的作文進行了調(diào)查研究。結(jié)果表明，4名評分新手或多或少都在判定分數(shù)和最終打分方面達成了一致。針對這4位評分員信念的調(diào)查表明，評分員培訓(xùn)使得他們通過交流和探討從各自身上學(xué)會了打分程序，幫助他們“界定了評分員的評分標準，調(diào)整了他們對于應(yīng)試者作文的期望值。同時為評分員提供了可以與其他評分員相比較的參照組”。

在對上述研究進行梳理之后，Weigle（1998）又進行了另一項研究。該研究使用定性方法（即在評分過程中記錄評分員言語）和定量方法（即運用多層面Rasch 測量程序）對ESLP（ Second Language Placement Examination）評分員在接受培訓(xùn)后與評分標準的互動進行了研究。受試包括有經(jīng)驗的和無經(jīng)驗的評分員。定量分析表明，無經(jīng)驗的評分員只在一個評分維度上比有經(jīng)驗的評分員更為嚴格。培訓(xùn)似乎消除了有經(jīng)驗的評分員和無經(jīng)驗的評分員之間的差異。有聲思維和跟進訪談分析提供了豐富且有價值的視角。這一視角可以幫助我們理解評判過程中評分員之間存在差異的原因。

不難看出，對于評分員在培訓(xùn)中的認知過程研究還非常有限，僅有的一些研究只關(guān)注了培訓(xùn)中評分員如何學(xué)習(xí)打分步驟和調(diào)整寬嚴度，對于培訓(xùn)前后評分員所關(guān)注焦點的變化，以及原有經(jīng)驗在評分中所起作用的程度變化、評分員如何建構(gòu)評分過程等的研究還顯不足。

6. 結(jié)論及啟示

綜上所述，研究者們對評分員培訓(xùn)的目的和意義、培訓(xùn)的方法和步驟、培訓(xùn)的效果和持續(xù)時間、培訓(xùn)過程中評分員的信念變化等進行了較為全面的研究。研究方法主要采用多層面Rasch模型、有聲思維法、問卷法和訪談法。Rasch模型屬于定量研究方法，在評分員評分一致性、評分員偏頗、以及評分員與評分標準和文本的互動關(guān)系的研究中廣泛使用。后三種方法則屬于定性研究，能對評分員信念進行深入研究，揭示評分員評分表現(xiàn)的原因。兩種方法互為補充。從研究結(jié)果來看，盡管學(xué)者們對于評分員培訓(xùn)是否符合人類自然閱讀習(xí)慣和價值判斷存在一些爭論，但在語言測試實踐中，評分員培訓(xùn)已被廣泛采用，作為作文人工評閱的必經(jīng)環(huán)節(jié)。與此相似，盡管對于培訓(xùn)的目的在于提高評分員自身一致性還是評分員之間的一致性方面也存在一些爭議，評分員培訓(xùn)能有效促進評分質(zhì)量，提升考試公平性的作用卻也被廣泛認同。由于考試是一項社會活動，評分員培訓(xùn)的方法步驟的制定和實施不僅要依據(jù)考試目的和性質(zhì)而定，也要充分考慮考試評分的環(huán)境和條件，同時也要考慮評分員的個體特征。同時，由于評分培訓(xùn)效果并不具備一蹴而就的持續(xù)性，評分培訓(xùn)不應(yīng)該只是評分前的一個環(huán)節(jié)，而應(yīng)貫穿評分的全過程，從而確保培訓(xùn)效果的持續(xù)性。此外，只有對評分員在培訓(xùn)過程中的認知變化過程有更深入的了解，才能更有針對性地制定培訓(xùn)方法，提高評分質(zhì)量，提升考試公平性。

參考文獻

Bachman， L. F.， Palmer， A. S. Language testing in practice [M]. Oxford： Oxford University Press， 1996.

Barritt， L.， Stock， P. Clarke， F. Researching practice： evaluating assessment essays [J]. College Composition and Communication， 1986，（37）： 315-327.

Carrell， P. L. The effect of writers’personalities and raters’personalities on the holistic evaluation of writing [J]. Assessing Writing， 1995， 2（2）： 153-190.

Chalhoub-Deville， M.， Wigglesworth， G. Rater judgment and English language speaking proficiency [J]. World Englishes， 2005， 24（3）： 383-391.

Charney， D. The validity of using holistic scoring to evaluate writing： a critical overview [J]. Research in the Teaching of English， 1984，（18）： 65-81.

Congdon， P. J. McQueen， J. The stability of rater severity in large-scale assessment programs [J]. Journal of Educational Measuremen， 2000， 37（2）： 163-178.

Elder， C.， Barkhuizen， G.， Knoch， U.， Randow， J. Evaluating rater responses to an online training program for L2 writing assessment [J]. Language Testing， 2007， 24（1）： 37-64.

Gere， A. R. Written Composition： Toward a Theory of Evaluation [J]. College English， 1980，（42）： 44-58.

Hamilton， J.， Reddel， S. Spratt， M. Teachers’ perceptions of on-line rater training and monitoring [J]. System， 2001，（29）： 505-520.

Huot， B. Reliability， validity， and holistic scoring： what we know and what we need to know [J]. College Composition and Communication， 1990，（41）： 201-213.

Jacobs， H. L.， Zinkgraf， S. A.， Wormuth， D. R.， Hart（R）el， V. F.， Hughey， J. B. Testing ESL composition： a practical approach [M]. Rowley， MA： Newbury House， 1981.

Kobayashi， H.， Rinnert， C. Factors affecting composition evaluation in an EFL context： Cultural rhetorical pattern and readers' background [J]. Language Learning， 1996，（46）： 397-437.

Lane， S.， Stone， C. Performance assessment [A]. In R. L. Brennan （ed.）， Educational measurement （4th ed.） [C]. Washington DC： American Council on Education， 2006： 387-431.

Lim， G. S. The development and maintenance of rating quality in performance writing assessment： A longitudinal study of new and experienced raters [J]. Language Testing， 2011，（28）： 543-560.

Lumley， T. Assessing Second Language Writing： The Rater’s Perspective [M]. Frankfurt am Main： Peter Lang， 2005.

Lunz， M. E.， Stahl， J. A. Judge consistency and severity across grading periods [J]. Evaluation and the Health Professions， 1990，（13）： 425-444.

McNamara， T. F. Measuring Second Language Performance [M]. London： Longman， 1996.

O’Sullivan， B.， Rignall， M. Assessing the value of bias analysis feedback to raters for the IELTS writing module [A]. In L. Taylor P. Falvey （eds.）， IELTS Collected Papers： Research in Speaking and Writing Assessment [C]. Cambridge： Cambridge University Press， 2007.

Saito， H. EFL classroom peer assessment： Training effects on rating and commenting [J]. Language Testing， 2008， 25（4）： 553-581.

Schaeffer， E. Rater bias patterns in an EFL writing assessment [J]. Language Testing， 2008， 25（4）： 465-493.

Schoonen， R.， Vergeer， M.， Eiting， M. The assessment of writing ability： Expert readers versus lay readers [J]. Language Testing， 1997， 14（2）： 157-184.

Shaw， S. Weir， C. J. Examining Writing in a Second Language， Studies in Language Testing [M]. Cambridge University Press and Cambridge ESOL， 2007.

Weigle， S. C. Effects of training on raters of ESL compositions [J]. Language Testing， 1994， 11（2）： 197-223.

Weigle， S. C. Using Facets to model rater training effects [J]. Language testing， 1998， 15（2）： 263-287.

Weigle， S. C. Assessing Writing [M]. Cambridge， UK： Cambridge University Press， 2002.

Wigglesworth， G. Exploring bias analysis as a tool for improving rater consistency in assessing oral interaction [J]. Language Testing， 1993， 10（3）： 305-323.

陸遠.寫作測試公正性研究—作文評分員偏頗研究綜述[J]. 外語測試與教學(xué)，2011，（2）： 30-36.

譚智.應(yīng)用Rasch模型分析英語寫作評分行為[J]. 外語教學(xué)理論與實踐，2008，（1）： 26-30.

徐鷹.評分人培訓(xùn)的研究現(xiàn)狀及展望[J]. 中國考試，2014，（2）： 10-18.

（責(zé)任編輯：向宗平）

外國語文研究2016年1期

外國語文研究的其它文章: 中國“鄉(xiāng)土語言”對外翻譯與傳播研究的力作; 以英語文獻閱讀為導(dǎo)向的研究生英語閱讀教學(xué)研究; 基于錯誤分析理論的商務(wù)英語筆譯教學(xué)研究; “痛”定思“痛”; 布迪厄場域—慣習(xí)論下的影視劇翻譯; 目前國內(nèi)翻譯市場中翻譯流程探究：問題及對策