二語寫作測試中的評分量表研究

2007-12-31 00:00:00羅娟

中國校外教育(下旬) 2007年9期

[摘要]目前國內外對二語寫作測試中的評分量表研究較多，但結論各異。為了能夠客觀合理地給學生作文打分，還需要借助計算機和語料庫的最新發展成果，在語言層面保證評分的準確性和客觀性，同時由多個評閱人對作文的篇章結構和內容綜合打分。

[關鍵詞]寫作測試信度評分量表計算機語料庫

英語寫作評分中的信度及誤差控制是研究較多又很棘手的問題。國內外許多研究證明，作文評分中有很大誤差，因此控制評分誤差以提高信度的研究引起了研究者的注意。

二、研究背景及文獻綜述

寫作測試評分中的中心因素是評分員和評分量表，在評分量表中，整體評分法 (holistic scoring) 與分項評分法 (analytic scoring) 是寫作測試中最常用的兩種評分法。整體評分法是按考官對考生的寫作內容和流利性等方面的整體印象，總體給一個等級或分數，分項評分法則把考生的寫作能力的各個構成因素分解開來，從不同的維度分別評分，然后根據每個方面的得分和權重算出寫作總分。

這兩種評分方法主要應用于口語與寫作等主觀性測試，國內外對于兩種方法的評分信度進行了相關研究，但選用哪種評分法以達更高的評分信度，在語言測試界見解不一。諸多研究者認為分項法評分信度比整體評分法更高 (Hamp-Lyons， 1991; Weigle， 2002; 李筱菊，2001) 。但另一派研究者持相反觀點，認為整體評分法的評分信度、評分人間一致性更高，適應在大規模測試的寫作評分中采用(Cooper，1977; Huot，1990; McKendy，1992)。對此論斷，其他研究者采用不同方法進行了實證性研究，現將某些代表性研究概述如下。

在20世紀后期，限于理論與研究工具的發展，一些研究采用相關分析來計算寫作中兩種評分方法的評分信度，這樣只能檢驗寫作評分中的隨機誤差，隨著教育測量學的發展及新分析技術的應運而生，評分信度的研究更加深入和準確。

Swartz等人(1999)運用概化理論，以美國中學251名學生為受試，用ESL Composition Profile 量表進行實驗，結果發現整體評分結果的概化系數達到 .94，而分項評分結果中有幾項維度的概化系數都較低。Nakamura(2002)以90名日本大學生為受試，采用FACET分析手段，發現使用分項評分法評分人的表現都合格，分項評分結果的信度明顯高于整體評分法。Schoonen (2005) 采用結構方程模型，以89名6年級學生為受試，采用整體和分項兩種不同量表評分，發現評分方法對寫作分數的概化性和評分人效應有影響，整體評分結果的概化性比分項評分結果顯著高。

三、國內對英語作文評分研究的現狀及存在的問題

在國內的各種英語測試中，如何利用量表對學生的英語作文做出比較客觀、準確的打分也是國內從事寫作教學研究的專家學者們一直在探索的問題。目前的狀況是在TEM、CET、PETS等大規模考試中，評閱人只能根據非常籠統、寬泛的評分標準打分，其信度值得商榷。

潘瑋在回顧了幾種流行的寫作評分方法后指出，寫作的評分方法仍然處于摸索階段。現在大范圍語言測試中寫作題的評分標準更多的是走一條半整體半分項的方法，其主觀因素太多，因而信度難以保證，考試成績的參考價值不大。

陳立平、李志雪(1999)設計了一張分項積分表，評分內容分為七項：思想內容、結構形式、語言表達、語篇連貫、語法、措辭、技術細節。此表雖然分類細致，能告訴學生在哪些方面還存在問題，但是，過于抽象籠統，閱卷老師只能根據自己的經驗打分，其信度無法保證。

曾用強(2002)指出，要對學生的作文做出客觀的評估，應通過制定科學的評估量表對作文進行質的評估，而不是采用傳統的分數模式。他設計的評估量表能對英語作文進行質的評估，還此基礎上開發了一套過程化作文評估系統(PWESys 1.00)。這種評分方法雖然不能完全避免人工打分所帶來的信度問題，但是至少對學生作文語言層面的判斷更加客觀合理了。

四、對建立客觀合理的作文評分方法的建議

以上一系列的國內外研究說明，在使用哪種評分量表以取得更高的評分信度上，雖研究頗多，但至今不能達成共識。

為使寫作測試評分更客觀合理，必須充分利用語料庫和計算機發展的成果，尤其是對作文語言的評估要盡量避免閱卷人的主觀因素所帶來的偏差。在此，筆者建議將語言分為三個緯度來衡量：流利度(fluency)、準確度(accuracy)和詞匯復雜度(lexical complexity)。“流利度”指作文中“T單位”(包含一個主句和一個從句)的長度，沒有錯誤的“T單位”的長度和短語的長度；“準確度”指作文中從句總數與T單位總數之比；詞匯復雜度可以根據作文中使用詞匯的“型次比”(type/token)來統計，也可以統計作文中的詞匯在常見的1000詞、2000詞、3000詞和不常見詞中分別所占的比例。

當然，在衡量學生作文的篇章結構和內容方面，還需要人工打分，但是可以通過多個評分員共同打分來避免單人打分所帶來的誤差。

參考文獻：

[1]McNamara， T F. 1996. Measure Second Language Performance [M]. London; New York： Longman.

[2]Sara Cushing Weigle. 2002. Assessing Writing [M]. CUP.

[3]李筱菊.《語言測試科學與藝術》[M]. 湖南教育出版社，2001.

[4]潘瑋.《改進英語寫作測試評分方法的研究》[J].Sino-US English Teaching，Vol.1， No.7.2004.

(作者單位：湖南大學外國語學院)

中國校外教育(下旬)2007年9期

中國校外教育(下旬)的其它文章: 淺談漢語朗讀教學; 班主任做好家訪的五項原則; 如何培養學生學習注意力的新探; 論電子通信專業電工基礎教學方法與教學手段改革與創新; 構建法學應用型人才培養模式的探索與實踐; 中學生數學問題提出的理論與策略探究