摘 要: 2005年6月,大學英語四、六級考試計分體制和成績報導方式等方面發生了重大改變,2006年1月改革方案正式試點。如何分析與評價改革后的測試體系引起各校教師、學生乃至社會各界的廣泛關注。本文運用測試學知識,從該測試的效度、信度、區分度、實用性及反撥作用等幾個方面對這一問題進行了詳細的闡述與說明。
關鍵詞: 大學英語四、六級 改革 測試體系 分析與評價
一、前言
大學英語四、六級考試是一種為教學服務的標準化考試。因此,考試改革的方向是通過四、六級考試的改革,引導師生正確處理教學與考試的關系,更合理地使用四、六級考試,使考試更好地為教學服務。
二、英語測試與評價的主要標準
英語測試與評價是檢測學生綜合語言運用能力發展程度的重要途徑。好的語言測試一般應具有五個特征:有效性(validity)、可靠性(reliability)、區分性(discrimination)、實用性(feasibility)和教育性,即良好的反撥作用(backwash effect)。
(1)有效性,(效度)指語言測試能測出預定要測量的事物的程度,或能夠引起預報作用的程度。(2)可靠性,(信度)指語言測試的測量結果一致性的程度。包括考試的可靠性(穩定一致的程度)和評分的可靠性(穩定一致的程度)。(3)區分性(區分度),指某次語言測試能夠區分參加考試學生優劣的程度。檢驗試題的區分度,主要是測算難易度和區分度。(4)實用性,指實施語言測試的難易程度,投入的人力和財力;評卷的難易程度和解釋分數的難易程度。如:大規模考試要考慮便于操作和試卷保密、主觀題評分的可靠性等方面。(5)教育性,即良好的反撥作用,指語言測試對語言教學和學生學習的反撥作用和影響。好的外語測試應對受測者和教育者起正確引導和教育作用。
三、對四、六級測評體系的分析
運用以上五個標準,我們可對改革后的四、六級測評體系作出科學的分析。
(一)信度和效度
大學英語考試是一種標準化考試。標準化考試是指采用教育測量技術對學生的英語能力進行測量并符合嚴格規范要求的大規模考試。對于標準化考試來說,每次考試的試卷不同,但所考核的內容(語言知識和能力)總體保持不變,試卷形式相對穩定。根據以上試卷設計(表2)可以看出,四、六級考試的題型有所改革。非選擇性試題(指聽力部分的復合式聽寫、快速閱讀部分的句子填空、綜合測試部分的改錯、簡短問答或句子翻譯及寫作)的比例將增加到35%至45%。這一調整將極大地提高試卷在內容和結構上的有效性。針對有些學生只靠選擇題拿分,不做作文的問題,從1990年起,為了保證作文考試的時間,試卷分成兩部分。客觀題部分為試卷一,作文題部分為試卷二。到達規定時間,收掉試卷一,考生必須把最后30分鐘時間用于寫作文。執行這一制度后,全國高校普遍重視了作文教學,作文分均值從4分左右提高到8分多(滿分為15分)。體現了試卷的共時有效性。多項選擇題在大規模標準化考試中的使用仍是目前語言測試界爭論的焦點之一。而就目前語言測試這門學科的發展水平來看,大規模標準化考試的信度(即測量的準確、可靠、公正性)和效度(即測試是否考了應該考核的能力)仍然是一對難以兩全的矛盾,是語言測試面臨的兩難命題。科學的多項選擇題可以保證測試采樣面的寬度,而且信度很高。但多項選擇題的效度很難達到十分理想的狀態,對教學的后效也因此而受到影響。而作文、口試、回答問題、翻譯等主觀題效度很高,教學后效特別好,但需要付出很大代價才能取得基本滿意的評分客觀一致性。目前四、六級筆試采用了考前閱卷員培訓、評分過程中的抽查、評分后的復查等方式,口試則采用了考前主考的培訓、口試中兩位主考同時評分、考后抽查復審等方式,力求取得主觀試題滿意的信度。但是,信度和效度之間平衡問題的根本解決受到大規模標準化考試可操作性的制約:對于像英語四、六級這種每年上千萬人的超大規模標準化考試,適合機器閱卷的選擇性試題仍然是主要的題型,四、六級考試的改革目前只能在信度和效度之間找到一個平衡點,兼顧兩者。
(二)區分度
一般來說,大學英語四、六級試題設計要經過“命題—初審—預測—試題項目分析—審題—構卷—施考—閱卷及統計分析—建立題庫”等一系列環節。大學英語四、六級考試的最后公布分數并不是考生的原始分,而是經過一系列分數轉換過程后的“改良”分數。因此,考試成績59分很可能是因為作文考砸了。大學英語四、六級考試在最后公布考試成績之前,要經過一系列的統計處理,當機器閱卷后,客觀題所得分數還必須進行“加權處理”和“IRT(試題響應理論)模型作等值處理”——根據客觀題目的難易程度,進行某些環節上適當的分數調整(閱讀、聽力、詞匯等各個部分,每答對一題的得分都有可能不同),在此基礎上,還要根據題目難易程度,以濾除不同考次間題目難易變化對得分的影響,以保證不同考次間分數的可比性。此外,四、六級考試實行作文最低分數制度,如果考生作文分低于6分,則最后的考試分數為:原始分減去6分加作文得分(這樣,作文非但不加分,反而負分);若作文分得分為零,即使其它題都得了滿分,最后公布的成績也肯定不及格。
(三)實用性
1.成績報告單取代“合格”證。以往的四、六級考試,考完后,考生拿到的是一個證書,分為“合格”和“優秀”。改革后的成績報告單顯示總分和單項分。便于各個學校按照實際需要確定不同的分數線為參照,削弱社會上對四、六級的盲從心理。同時,更能真實地反映出考生的實際英語水平,在一定程度上也可減少有些學校或教師片面追求四、六級考試通過率,而忽略了教學本身這種與教學目的背道而馳的錯誤做法。
2.考試內容貼近實際需求改革后,四、六級考試將加大聽力部分的題量和比例,在試卷上的百分比將從原來的20%提高到35%,聽力對話測試增加了“長對話”。同時增加快速閱讀理解測試,增加非選擇性試題比例。考試內容改革增加了聽說能力和閱讀能力的考查力度,順應了大學英語教學要求的改變,給大學英語教學提出了更高要求。非選擇性試題比例增加,將對應試學習起到制約作用,像以前那樣大量做題、猜題、押題可能“失靈”了。改革后的四、六級考試從某種程度上看,增加了難度,但學習語言的目的本來就是運用,考題的設置從應用出發,將逼著自己告別死讀書,告別“聾子英語”。
3.四、六級考試的評分、試題側重、試題構成具有突出的量化實用、客觀公正的特點。對四、六級考試中主觀性最強的作文題,其評分方法也有著明確的規定:大學英語四、六級考試的作文部分不是自由作文,而是有控制的作文,對考生寫什么內容有比較明確的要求,用各種明確的方式如提綱、圖表、關鍵詞等加以規定;但提綱常用中文給出,以避免考生將提綱中的文字直接抄錄進作文。采用有控制的作文也有利于提高評分的一致性。對作文評分影響最大的是評分過程。同一篇作文,不同的閱卷員可能給出不同的分數。提高作文閱卷的信度就是要保證評分的一致性,包括閱卷員本人的一致性、閱卷員之間的一致性和閱卷點之間的一致性,要采取一定的質量控制措施盡量減少和濾除閱卷員評分的主觀性對分數客觀性的影響。采用綜合法和一讀的評分方法,然后根據考生的客觀題得分進行調整,濾除系統誤差的做法正是四、六級考試實用性的體現。
(四)良好的反撥作用
語言測試改革的原動力是社會發展對人才培養提出了新的要求。但是,教學與測試之間不是簡單的“教學決定測試”或“測試指揮教學”的關系。早在20世紀80年代末,英國測試專家A.Hughes就明確提出考試對教學正確導向作用的重要性。他指出:“如果考試設計者認識到由于考試對教學的不正確的導向作用,使學生和教師把寶貴的時間和精力浪費在無助于他們達到學習目的的教學活動中,那么,他們將會不惜一切代價使所設計的考試對教學產生正面反撥作用。”90年代起,英國測試專家D.Wall和J.C.Alderson對考試后效開始進行仔細的、系統的研究,提出了許多富有創見性的假設并進行了論證。Wall指出:“對考試的評價不應簡單地以其‘技術效率’為標準,而應該考慮其是否具有‘教學效益’。只有當考試對課堂教學的影響是‘利大于弊’時,才能認為該考試是‘有利可圖’的。”
四、結語
任何一項大規模標準化考試的發展都是一個不斷改進和完善的過程。四、六級考試十七年的發展歷程也證明了這一點。考試委員會將關注改革措施的后效,跟蹤考試改革對教學所產生的影響,及時調整改革措施,使四、六級考試更好地服務于教學。
參考文獻:
[1]大學英語教學大綱(修訂本).
[2]大學英語課程教學要求(試行).
[3]全國大學四六級考試改革方案.
[4]Davis,A.et al.(ed.).Dictionary of Language Testing.外語教學與研究出版社,2002.
[5]Lyle F.Bachman著.Language Testing.上海外語教育出版社,1999.
[6]http://edu.beelink.com.cn/20050228/1793234.shtml.