鄒紹艷 范勁松
(1.青島農業大學 外國語學院,山東 青島 266109;2.墨爾本大學 語言測試研究中心,澳大利亞 墨爾本 3010)
寫作測試在大規模外語測試中被廣泛應用,但與此同時,寫作測試的評分卻經常遭到批判。Weigle (2002)指出,寫作測試的分數不僅體現了考生和測試之間的交互作用,而且涉及其他諸多因素,如測試任務、寫作文本本身、評分員和評分量表等。這些因素之間的復雜交互作用導致寫作測試所測量的語言能力構念往往不夠清晰,因而影響外界對寫作測試分數的理解 (Cummingetal., 2001),即影響寫作測試的效度。根據美國三大研究機構即美國教育研究協會、美國心理學協會和全美測量公會聯合頒布的《教育與心理測試標準》(AERAetal.,2014: 9),“效度是指根據測試的分數做出恰當、有意義、有用的推論”。近年來,隨著考試用戶對考試效度的要求不斷提高,如何提供更加合理、有效的分數解釋,以便鼓勵恰當的分數使用成為語言測試開發者面臨的艱巨任務之一” (Chapelleetal., 2008)。
在這種背景下,寫作測試的評分量表成為語言測試領域關注的焦點。研究者們一致認為,評分量表能夠體現寫作測試實際測量的構念 (McNamara,1996; Turner,2000; Weigle,2002; Shaw et al., 2007)。但是,Knoch (2009)指出,現有的大規模外語測試中使用的評分量表往往都存在以下問題:(1)評分量表的制定過程主要基于專家的直覺判斷,因此無法體現寫作文本的真實特征;(2)評分量表中經常使用一些印象化的術語,容易導致主觀性的解讀;(3)量表并未給每個等級的表現提供準確、詳細的描述,不同等級之間的區分主要是依靠一些相對性的措辭。Knoch (2011)進一步指出,目前關于這些評分量表的開發過程基本都無從得知,這無疑加劇了學界對這些量表效度問題的關注。
以國內最大規模的外語考試——大學英語四級考試 (以下簡稱CET-4)為例,其寫作部分評分量表的效度近年來引起了不少研究者的關注 (蔡基剛,2002;費茜 等,2008;簡慶閩 等,2005)。費茜和趙毓琴 (2008)指出,CET-4寫作測試中采用的評分量表比較籠統,評分標準也不夠全面,因此量表的效度值得探討。鑒于此,本文以CET-4寫作測試中目前使用的評分量表為研究對象,調查評分員對該評分量表的意見,初步論證該量表的效度,抑或發現影響量表效度的因素,為進一步完善或提升CET-4寫作測試評分量表的效度提供依據。
CET-4寫作測試要求考生根據所給的題目、提綱、情景、圖片或圖表,在30分鐘內寫一篇不少于120詞的作文。自1987年首次施考以來,CET-4寫作測試經歷了一系列變革,以適應教育部2014年頒布的《大學英語課程教學要求》(以下簡稱《教學要求》) 的變化。變革的內容包括:作文的長度、最低及格分的設置以及寫作順序的調整等 (辜向東 等,2009)。自2006年1月以來,圍繞CET-4寫作測試實施的一項重要變革便是其評分系統的變化,CET-4寫作測試的評分由傳統的紙筆評分轉變為網上評分。目前已有不少學者針對CET寫作測試的評分開展了實證研究 (黃燕,2007;王躍武,2004;王躍武 等,2006;張森 等,2010),結果表明CET-4寫作測試網上評分的效率和信度均高于比紙筆評分。但值得一提的是,這些研究關注的焦點基本都是CET-4寫作測試的評分信度。相比之下, CET-4寫作測試評分的效度鮮少被關注。如前所述,評分量表能夠體現寫作測試實際測量的構念,只有對CET-4寫作測試評分的效度進行充分研究,我們才能理解CET-4寫作測試分數的意義。
根據楊惠中 & Weir (1998)的觀點,CET-4作文的評分主要采用整體評分法,評分中關注的方面包括:內容的相關度、語言的質量和語篇的連貫性。在評分過程中,評分員需要綜合考慮這三個方面,然后給出一個總分。根據這些原則,大學英語四、六級考試委員會制定了一個包含五個等級的評分量表 (見表1)。

表1 大學英語寫作評分量表(楊惠中 等,1998:134)
目前,關于CET-4寫作測試評分量表的研究主要分為兩大類:(1) 通過與其他大規模外語寫作測試的評分量表進行對比,闡述現有的CET-4寫作評分量表的不足之處。例如,費茜、趙毓琴(2008)對比了CET-4寫作和托福寫作的評分量表,認為與托福寫作的評分量表相比,CET-4寫作測試的評分量表較為籠統,過分關注語言使用的準確性,而忽略對寫作內容和結構方面的描述,因此認為該量表在評分中的效果可能不太理想。(2) 分析評分員的評分過程和結果,論證評分量表的效度。高懷勇(2011)采用有聲思維法研究評分員的評分過程,發現評分員在實際評分中關注的文本特征略多于現有的CET-4寫作評分標準。例如,語言得體性和句子結構這兩項評分標準在評分中被運用的頻次較高,但這兩項標準并未在現有的CET-4寫作整體評分量表中得到體現。李航(2015)通過實證研究對比了現有的CET寫作整體評分量表和一項自主開發的分項評分量表在CET-6寫作評分中的作用,指出分項評分量表能幫助評分員更加細致、準確地區分考生的英語寫作能力。盡管該研究初步探索了分項評分量表在CET寫作評分中的應用前景,但由于該研究中使用的分項評分量表沒有遵循嚴格的量表開發步驟,其效度有待論證。
綜上,我們認為上述研究存在以下不足之處:(1) 目前的研究大都是基于主觀論述得出結論,鮮有研究采用實證方法檢驗量表效度。(2) 現有的研究基本都缺乏相關理論框架的指導,因此即便運用了實證方法,也無法為評分量表的效度提供充分的證據。考慮到寫作測試在大規模外語考試中的廣泛應用,而且CET屬于高風險語言考試,我們認為有必要研究目前使用的CET寫作評分量表究竟能否有效地測量考試設計者想要考察的語言能力。鑒于此,本研究借鑒Bachman & Palmer (1996)提出的測試有用性理論框架以及Knoch (2009)對評分量表效度指標的闡述 (見表2),探討評分員對CET-4寫作評分量表的看法和意見。根據Bachman & Palmer (1996)的觀點,測試有用性一般通過六項指標來體現:信度、構念效度、真實度、互動性、考試影響和實用性。Weigle (2002)認為,互動性這一指標在評分量表的效度中很難體現。Knoch (2009)進一步提出了檢驗評分量表效度的具體論據,這些論據成為本文設計研究工具的依據。

表2 評分量表效度指標 (Knoch,2009:65)
本研究旨在解決以下研究問題:
(1)評分員對現有的CET-4寫作評分量表的總體看法如何?
(2)評分員的評分經驗在多大程度上影響他們對評分量表的看法?
(3)現有的CET-4寫作評分量表在哪些方面需要進一步改進?
為解決以上研究問題,本研究采用Creswell & Clark (2011)提出的解釋性混合研究設計方案,首先開展定量研究,然后在定量分析的基礎上開展定性分析。混合研究設計的優勢就在于其能夠將定量研究與定性研究有機地結合起來,更加全面、深刻地解答研究問題。
(1)調查問卷
本研究采用的問卷分為兩部分:第一部分主要調查受訪者的背景信息,如性別、教學經歷、職稱、教育背景和CET-4的寫作評分經驗。第二部分包括六道題目。根據Knoch (2009) 的量表效度理論框架,問卷第二部分的六道題目設計如表3所示:
六道題目均采用李克特五級量表的形式(0~4),其中“0”代表“完全否定”,“4”代表“完全肯定”。問卷題目的作答形式之所以采用“0”和“4”作為量表的兩個極端,而非傳統的“1”和“5”,是為了促使受訪者做出真正的選擇,防止過多使用中間項“3” (D?rnyei,2003)。問卷調查首先于2016年6月在11名CET-4寫作評分員中進行了試測,根據試測結果對問卷內容作了微調。
另外,本研究還設計了用于訪談的半結構式訪談大綱,包含兩個問題:(1) 如何看待CET-4寫作評分量表的描述語和等級劃分;(2) CET-4寫作評分量表的哪些方面還需進一步改進。

表3 問卷的題目以及涉及的效度指標
問卷調查的對象是來自上海、山東、吉林、四川等幾所CET-4閱卷點的179名作文評分員,他們的背景信息如表4所示:

表4 評分員背景信息
問卷數據被分析之后,12位評分員受邀參與了后續訪談,其中六位評分員擁有三次及以上CET-4寫作評分經歷,而另外六位評分員參與CET-4寫作評分的次數不足三次。
問卷數據于2016年7月四級作文評分期間被收集。為了解決研究問題一,本研究運用SPSS軟件對問卷調查的數據進行描述統計分析,了解評分員對現有的CET-4寫作評分量表的總體看法;為了解決研究問題二,本研究運用SPSS軟件對問卷調查的數據進行獨立樣本t檢驗,探討擁有不同評分經驗的評分員對于CET-4寫作評分量表的看法是否存在顯著性差異。問卷數據分析完成后,研究者根據數據分析的結果邀請12位評分員進行了一對一的深入訪談。訪談的內容被錄音并轉寫成文字,然后利用Given(2008)提出的歸納法對訪談中反復提到的主題進行歸納和分析。
3.1.1描述統計分析
對問卷數據進行信度分析的結果表明,六道題目作答數據的內部一致性系數為0.781,說明評分員對這些題目的作答都比較可靠(Barrett,2001)。對問卷數據的描述統計分析如表5所示。
表5顯示,問卷中六道題目的得分均值都在2.50~3.18之間。由于問卷設計是采用0~4的五級量表,所以這六道題目的得分均值都可視為高于中等水平。這一結果表明評分員對現有的CET-4寫作評分量表基本上持肯定態度。但從表5中也可以看出,第4道題目的得分均值(2.50)在所有題目中最低,僅略高于中等水平,說明評分員對于現有的CET-4寫作評分量表為大學英語教學提供的反饋信息這一方面的認同度略低。而且,從六道題目作答數據的標準差來看,第四、五、六道題目的標準差較大,說明評分員在這幾道題目上的意見分歧較大。

表5 問卷題目的描述統計分析(n = 179)
3.1.2獨立樣本T檢驗
按照評分員在CET-4寫作評分中的經歷,179位評分員被分為兩組:資深組(即參與評分三次及以上的評分員,n= 90)和新手組(即參與評分三次以下的評分員,n= 89)。對兩組評分員在六道題目上的作答數據進行獨立樣本T檢驗,結果如表6所示。
首先,對兩組評分員在六道題目上的作答數據進行F檢驗,結果表明兩組評分員的數據差異符合方差齊性假設,因此滿足進行獨立樣本T檢驗的前提條件。T檢驗的結果顯示,在看待現有的CET-4寫作評分量表的清晰度(Q1)、完整性(Q2)、可操作性(Q3)、提供的反饋信息(Q4)、樣本作文(Q5)這五個方面時,兩組評分員的意見的Sig值都大于0.05,說明兩組評分員在這些方面沒有顯著性差異。但在看待評分培訓的作用上,兩組評分員意見的Sig值為0.00,小于0.01,說明兩組評分員的意見之間存在顯著性差異。具體而言,新手組評分員對評分培訓的看法不如資深組評分員肯定。

表6 兩組評分員數據的T檢驗結果
為了進一步理解問卷調查的結果,研究者邀請部分評分員進行了訪談。研究者反復閱讀了基于評分員訪談轉寫的文本材料,歸納出四個評論最為最多的主題:
第一,量表描述語的清晰度
受訪的12位評分員中,67%的評分員(五位資深評分員、三位新手評分員)認為,量表的描述語比較清晰易懂。但也有33%的評分員(三位資深評分員、一位新手評分員)指出,量表描述語的有些措辭比較含糊,容易引起歧義。例如,三位評分員都提到,量表中的“嚴重語言錯誤”“語言錯誤相當多”“少量語言錯誤”之類的描述語有點籠統,不太容易理解。資深評分員R2指出:“有相當多的人認為句法結構錯誤是嚴重的語言錯誤,有人認為不符合英文表達習慣的錯誤是嚴重的語言錯誤,也有人認為只有影響語義理解的錯誤才是嚴重的語言錯誤。我一般都是自己反復研讀閱卷點提供的樣本作文,理解什么是嚴重的語言錯誤,什么是少量的語言錯誤。”另外,新手評分員R7認為,11分檔和14分檔的作文在“切題”方面沒有做出明確的區分,而五分檔和八分檔的作文則都是要求“基本切題”,不明白其中有何差異。
訪談中涉及的這一主題與問卷的第一道題目基本吻合。該題目在問卷調查中的得分均值為3.11,表明總體而言,評分員對于CET-4寫作評分量表的清晰度基本滿意。而對訪談的分析則顯示出,1/3的評分員對量表的清晰度仍有一定的質疑,尤其是涉及“語言錯誤”和“切題”方面的描述語不夠具體、清晰。
第二,量表描述語的完整性
50%的評分員(三位資深評分員、三位新手評分員)在訪談時提到了量表描述語的完整性。他們認為,量表的描述語不夠完整,不足以涵蓋四級作文的特點。例如,某資深評分員R4指出:“量表中對于內容和思想的描述基本就是圍繞切不切題。實際上,有些作文盡管切題,但是內容空洞,缺乏嚴謹的論證,是不是應該考慮增加寫作內容方面的描述?”資深評分員R5提到,量表的等級描述中沒有涉及語言使用的得體性,“我在閱卷時發現,有的考生根本沒有讀者意識,比如在給老師寫信時,連稱呼都不得體。我認為評分量表應該對語言使用的得體性進行描述,引導學生在寫作中樹立讀者意識,注意語言使用的得體性”。此外,新手評分員R11表示:“從11分檔和14分檔的描述語來看,好像這兩個等級的四級作文就是在錯誤數量上有所區別。實際上,14分檔的作文一般用詞上要比11分檔的作文豐富、精準,句型結構也更加豐富,但是CET-4的寫作評分量表并沒有體現這些特點。”
訪談的這一主題與問卷調查的第二道題目內容基本一致。這道題目在問卷調查中的得分均值為3.18,表明評分員對量表的完整性比較滿意。而在訪談中,卻有50%的評分員認為量表的完整性存在一定的問題。當被問及在問卷調查中是否忠實地表達了自己的意見時,評分員R4說:“問卷調查的時間比較短暫,沒有仔細思考‘完整性’的含義,所以在問卷中還是選擇了比較肯定的選項。”該評分員的說法在一定程度上能夠解釋這道題目在問卷調查時得分均值較高的原因。
第三,量表為大學英語教學提供的反饋信息
由于受訪的12位評分員都是一線大學英語教師,他們無一例外地都表示非常關注CET-4寫作評分量表為大學英語教學提供的反饋信息。其中67%的評分員認為,目前的量表無法為大學英語寫作教學提供充分、有用的信息。例如,資深評分員R3指出:“無論從大學英語教學中還是從CET-4評分中都能看出,寫作在大學生的聽、說、讀、寫四項技能中是最弱的一項。但是不同水平的學生在寫作中究竟存在哪些問題,有哪些地方還需要改進和提高,僅僅依靠課堂教學中教師反饋的信息是不夠的。如果CET-4寫作的評分量表能夠提供比較詳細的反饋信息,讓考生明白自己寫作中的問題所在,就能幫助他們有針對性地克服自己的不足,提高寫作水平。”新手評分員R9則提到:“在CET-4寫作正式評分前,培訓員對不同水平的樣本作文的特點講解得比較詳細,我在評分過程中也會不時地回顧這些作文的特點。但是,考生和大學英語教師無從得知不同層次四級作文的具體特征,如果能把這些信息補充到量表中,并在報道考試成績時附帶報道學生的作文分數和等級,那么教師和學生都將從中受益。”
訪談的這一主題與問卷調查的第四道題目內容一致。該題目在問卷調查的六道題目中得分均值最低(2.50),而訪談的結果恰好能夠解釋這道題目得分較低的原因。從上述分析可以看出,由于所有評分員都是大學英語教師,他們迫切希望CET-4寫作評分量表能為大學英語教學提供更加具體、詳細的反饋信息,從而促進大學英語教學和學習。
第四,評分培訓的作用
訪談中,有42%的評分員 (三位資深評分員、兩位新手評分員)提到了閱卷點組織的評分培訓的作用。其中資深評分員R2提到:“我參加四級寫作評分很多次了,已經基本掌握了評分標準。每次我參加評分培訓都會重點看一下閱卷點提供的樣本作文,熟悉一下作文的話題。不太需要專門去看評分量表,因為標準已經記在我心里了。”而新手評分員R8指出:“評分培訓時,專家對樣本作文的特征和得分點講解得比較仔細。但一到實際閱卷時,還是經常不明白該怎么評分,因為評閱的作文與樣本作文之間還是有一定的差異。所以,只能時不時找出樣本作文進行對比,看看評閱的作文與哪個分數段的樣本作文比較接近,然后再給分。”
從這一訪談結果不難看出,問卷調查中資深評分員之所以對評分培訓的作用比較肯定,可能主要因為他們已經熟悉、內化了CET-4寫作測試的評分標準。而相比之下,新手評分員對評分培訓的作用認可度偏低則是因為評分培訓未能幫助他們快速掌握有效的評分標準。
在考試的開發和效度驗證過程中,征求考試利益相關者的意見十分必要 (如 AERAetal., 2014; Aldersonetal., 1995; Chun, 2008; Karelitz, 2013; Messick, 1989; Fan, 2014)。參與本研究問卷調查和訪談的都是大學英語教師,他們既是評分量表的使用者,也是CET-4考試利益的相關者,因此他們的意見對于檢驗和完善CET-4寫作評分量表的效度而言十分重要。從研究結果來看,盡管評分員對目前使用的CET-4寫作評分量表總體上持肯定態度,但是該量表在清晰度、完整性、為大學英語教學提供的反饋信息量這幾個方面,仍有待完善和提升。另外,在看待CET-4寫作評分培訓的作用時,資深評分員和新手評分員的意見出現了顯著性差異,新手評分員的看法不如資深評分員肯定,說明現有的評分量表在評分培訓中的作用也有待于進一步加強。根據Knoch (2009) 提出的評分量表效度框架,這幾個方面是體現量表效度的重要指標,因此對量表的這幾個方面進行修訂或完善有助于提高CET-4寫作評分量表的總體效度。
鄒紹艷、高秀雪 (2015)提到他們在大學英語教學過程中發現學生的語言表達空洞,沒有實質性內容,思辨缺席現象嚴重。如果CET-4寫作測試的評分量表能針對不同水平的寫作表現提供詳細的診斷性信息,必將對大學英語教學產生積極的后效,從而促進教學的提高。但由于CET-4寫作測試目前采用的是整體性評分量表,很難克服這種量表自身的桎梏。根據Weigle (2002)的觀點,整體評分量表無法捕捉考生寫作中的具體不足和優勢所在,因而影響考官區分寫作文本在不同方面的特征,例如詞匯的使用、修辭組織、語法結構的控制和準確性,更無法為考生提供有用的診斷性信息。Leeetal. (2008:1)也強調,整體評分量表的這一缺陷對于二語學習者來說尤為明顯,因為這類學習者的寫作水平仍在發展中,他們可能會在寫作的不同方面展現出不均衡的特點。雖然CET-4的考生都是處于大學階段的外語學習者,但他們的寫作能力發展并不均衡 (劉建達 等,2011; 唐錦蘭 等,2012)。鑒于此,我們建議運用實證方法為CET-4寫作測試開發分項評分量表。現有文獻表明,分項評分量表能夠針對受試者的表現,提供診斷性信息,反映受試者的進步 (如Hamp-Lyons,1986, 1991; Shaw,2007; Weigle,2002)。而且,分項評分量表在評分員培訓中的作用更加明顯,因為經驗不足的評分員更容易理解并應用量表中的評分標準 (Weigle,2002; Weir,1990)。
金艷 (2005)指出,CET-4的考試目的一方面是客觀地測量大學生的總體英語水平,另一方面期望對中國的大學英語教學產生積極的后效和影響。目前,相關研究已經證明CET-4寫作測試的評分信度比較令人滿意。這說明CET-4寫作測試能夠比較客觀地測量考生的英語寫作水平。但就考試為教學帶來的后效或產生的影響這一點來說,CET-4寫作測試仍有較大的提升空間。因此,本研究建議進一步運用實證方法為CET-4寫作測試開發分項評分量表,以便為大學英語教學提供更加豐富的診斷性信息,確保考試能夠對教學產生積極的后效和影響。