關于ＳＥＴＳ－３有效性的探討

2007-12-31 00:00:00龍友元

考試周刊 2007年30期

摘要：SETS-3是專門為那些希望在大學里以英語為專業繼續學習的高中畢業生設計的英語口語水平能力測試體系，它的推廣給中學英語教學和大學英語教學帶來了深遠的影響。本文結合筆者的經歷對SETS-3的有效性進行一個綜合性的評價，以期為SETS-3的完善和推廣提供借鑒。

關鍵詞：SETS-3 有效性評價

一、總括性介紹

SETS-3(全稱為Spoken English Testing System，共有6個級別)是為那些希望在大學里以英語為專業繼續學習的高中畢業生設計的英語口語水平能力測試體系，旨在測評考生口語表達能力和口語交際能力，是一種擇優的測試。未能通過測試的考生將不能獲得大學英語專業的優先錄取資格。

SETS-3由兩個部分組成：問答和連續談話。要求掌握的詞匯在2400左右，考生要求能在一般交談中比較清楚地表達意見，表明態度，作出判斷等；能使用常見的會話技巧；能就一般話題作約2分鐘的連續表達。應試者兩個或者三個一組參加測試并獲得評價。問答部分測試應試者根據提示卡所提供信息提出問題和回答問題的能力；談話部分則是測試應試者根據提示卡所給話題連續表述觀點的能力。

二、對SETS-3的評價

以下筆者就SETS-3的有效性進行一個綜合性的評價，涵蓋其可靠性、測驗編制的正確性、真實性、交互性、影響力和可行性。

1. 可靠性

可靠性的定義就是“衡量的一致性”(Bachman Palmer，1996，p19)，更確切地說，就是測試情形中不同特點下的一致性和測試任務系列中的一致性。為了更加明確了解SETS-3的可靠性，我們在此把它同Bachman Palmer(pp46-57)所建立的語言任務特點架構作一個比較。

將SETS-3同Bachman的架構作一個比較，我們可以明確地看到，SETS-3在情景設計、試題題目、輸入、回答預期以及輸入和回答預期之間的聯系等方面均具備了Bachman Palmer(同上)所定義的完備特征。

可能會造成不一致的一個元素是給分方法，因為給分會受多方面因素的影響，諸如：對評價標準的不同理解，嚴格程度的不同，對同評價不相關因素的反應，等等。而這一點同Luoma(2004，pp179-184)關于評價者自身的可靠性和評價者交互的可靠性的論述相一致。作為一名SETS-3考官，筆者曾有幸參加此類測試并體驗如何采取相應措施以保證評價者自身的可靠性和評價者交互的可靠性。SETS-3另外一個可能存在的缺陷是“平行形式可靠性”(同上)問題。在這種情形下，如何保證每一套試題的難度都保持在同一水平是非常值得我們注意的一個問題。

2. 測驗編制的正確性

簡單地說，測驗編制的正確性指的就是“在何種程度上我們可以將一個測試分數詮釋為我們試圖測定的能力的標示”(Bachman Palmer，1996，p21)。

SETS-3測驗編制涵蓋口語能力的四個方面：語音和語調，語法和詞匯，流利程度，交際能力。SETS-3依據上述四個方面設計了一個給分表，其目的就是幫助考官形成一種“概念性的認識”，并對應試者的表現作出有效評價(Luoma，2004，p188)。SETS-3實現了結構型任務和自由回答型任務的結合(同上p48)，并很好地體現了目標語言在大學生新生生活中的使用范圍：詢問和提供信息，自我介紹，解釋以及基本說理技巧。說話部分要求考生持續性地展開說話，以展示考生在語音語調、語法和詞匯、流利程度的能力水平。一般來說，測試不會給學生設計任何特殊的話題知識來增加難度。

Luoma(2004，p42)特別強調，要想保證高度的測驗編制的正確性，所給定的分數應該“真正反映（應試者）話語或口語交互的技能，而不是閱讀或聽力（的技能）”。在SETS-3中，給應試者提供的提示卡使用的是中文，目的就是為避免給任何人在閱讀或理解上造成障礙。但是，考官的口頭指示是用英語，因為，在現實中，聽和說不能割離，而用中文提示再用英文回應不現實，也不可信。

相對而言，在測驗編制中，交際能力的評價側重同上述幾個部分相比較不是那么對等，其原因主要在于，問答部分是一種結構型話語任務，而大部分的應試者很多時候沒有把它看作是同另外一個應試者的真正交際，只是生硬地根據提示卡的信息內容完成任務。

3. 真實性

測試的核心就是“目標語言使用任務的特點和測試任務的特點要相符”(Bachman Palmer 1996，p23)。SETS-3的真實性可以從測試任務特點以及應試者和測試使用者的預期感知來說明。

問答部分包括詢問和提供信息以及自我介紹。應試學生所參與的口語交互同他們未來真實的大學生活近似。此外，應試者一般是兩個或者三個一組完成測試。要完成這一個部分，應試者就必須進行互動。按照Luoma(2004，p187)的說法，“同齡人之間的互動使得應試中的交流比考官和受試者之間的交流更為真實”，而目標語言使用任務和測試任務的一致性也更高。SETS-3是用來選擇大學英語專業的熟練候選者。應試者嚴肅認真地參加考試，因為他們的表現和分數將成為決定他們未來的重要因素，其對應試者的影響是非常實在的。以上種種均可以用來證明SETS-3的真實性。

4. 交互性

根據Bachman Palmer(1996)的理論，某一種語言測試任務的交互性指的就是在完成測試任務的過程中應試者個體特點融合的程度和形式。其具體特點體現涉及應試者的多個方面：語言知識，元認知知識，話題知識，情感圖示。

問答部分要求應試者兩人一組相互輪流問答，談話部分要求測試者就他們最喜歡的運動、食物或者游戲連續談話約2分鐘，此種情況下，應試者的情感圖示才能發揮積極作用，并在過程中保持互動。此任務的設計目的就是鼓勵應試者最大程度展示他們的語言能力。談話部分不僅要評價應試者的語言能力，而且還要求應試者利用元認知將他們的知識融進短對話中，而不僅僅是展示知識。

但是，談話部分有時候需要應試者掌握一定量的關于地方文化的話題知識，這就要求應試者有一定背景知識的儲備和使用。這樣一來就產生了一個在測驗編制定義中沒有提及的新元素。這種新的元素就有可能給那些了解知識但不掌握語言（如關于地方文化常識的詞匯）的應試者造成障礙。

5. 影響力

SETS-3給應試者、教師和社會均帶來了極大的影響。SETS-3是國家教育部對高中畢業生要求的選拔測試，它反映了人們在對學生語言能力全面評價的過程中關于口語能力重要性的認識。

應試者（即學生）是影響力波及的第一個人群。應試者的表現和最終獲得的分數直接同他們高考錄取相關。因此，應試者對結果極為重視，家長們也是高度關注。有時候，甚至那些并不真正想要就讀英語專業的學生也參加SETS-3考試以測試他們的口語水平。

中學教師受到的影響則更為深遠，因為他們希望有更多的學生能夠通過高考。這是現行以應試為中心的基礎教育體制下的自然想法。因此，在日常教學過程中，教師對學生的口語訓練更加關注，甚至有時候還為那些準備報考英語專業的學生安排特別口語課程進行補強。SETS-3給他們的教學計劃給出了一個暗示性的指引。事實上，這也為現行的基礎教育教學改革的深入開展提供了一個很好的契機。

此外，各種各樣專門為如何準備SETS-3設計的參考資料陸續出版發行以資應試者或教師參考。最終的結果對學生是有利的，他們能夠利用機會全面提高口語水平能力，從而逐漸向啞巴英語告別。

6. 可行性

可行性涉及的是可利用的資源。以湖北省為例，無論是人力資源還是物質資源都非常豐富。在人力資源方面，命題人員均為省內高校資深專業教授；測試人員是經受過專門訓練的高校教師；雖然每年參加SETS-3學生人數眾多，但湖北省擁有僅次于北京的第二多的高校，所以在考官的數量和質量上都有充分的保障；測試輔助管理人員來自地方中學，相關的技術人員支持都有全面的保障。而在物質資源方面，時間、場地、設備和資金消耗的安排都經過精心的設計和計算，合理、經濟、充足。所以，可以認為，SETS-3具有充分的可行性。

三、結語

SETS-3是一種專門為那些希望報考大學英語專業考生設計的新的考試形式。教育主管部門在廣泛調研的基礎上，組織大學和中學資深教育教學專家深入研究，認真求證，精心設計。雖然在某些方面還有待進一步研究和完善，但這種新的水平能力測試形式無疑會給中學英語教學帶來挑戰和變革，為大專院校全面提高教學質量帶來許多正面的影響。由于篇幅的限制，筆者在此只是將論述限制在對SETS-3有效性的研究上，SETS-3的具體推廣和進一步完善等問題將在后續的研究論文中繼續討論。

參考文獻：

［1］Bachman，L. Palmer，A. Language Testing in Practice：designing and developing useful language tests. Oxford：Oxford University Press，1996.

［2］Luoma，S. Assessing Speaking. Cambridge：Cambridge University Press，2004.

考試周刊2007年30期

考試周刊的其它文章: 淺論《新視野大學英語》新課文導入方法; 中英習語互譯中的文化差異; 新課程改革下的教師新角色; 讓學生主動學習數學; 作文教學中如何做到“感情真摯”與“思想健康”的和諧統一; 構建和諧社會新時期的新疆民族關系問題研究