從巴赫曼的測試有用性原則分析高校英語專業考試

2010-12-31 00:00:00田麗

考試周刊 2010年24期

摘要: 很多研究者對高校英語專業四級考試都有評價，或單獨分析其信度、效度，或著重其后效作用的研究。本文根據BachmanPalmer(1996)提出的考試有用性原則，從六個方面反思高校英語專業四級考試的有用性，旨在全面分析其質量，提出改革的方向。整體看來，英語專業四級考試設計理念仍以分離式測試為主，顯然與當今培養語言運用能力為主的教學理念相偏離，測試的信度雖高，但其真實性、相互作用性較低，對教學的負面后效作用明顯，從而減弱了其實用性。

關鍵詞: 巴赫曼有用性原則高校英語專業考試

一、測試有用性原則

Bachman 的交際語言測試模式提出后，在語言測試領域產生了深刻的影響。Skehan稱其為語言測試史上的一個里程碑[1]。Bachman 曾指出教育考試的基本用處是提供信息來評價。語言測試是語言教學的必要組成部分，尤其是教學考試，它是用來檢驗教學大綱的執行情況，評估教學質量，從而給教學雙方提供反饋的必要手段[2]。Bachman Palmer 提出在設計和發展語言測試的時候，最應該考慮的是考試的目的和考試的有用性。雖然研究者們對于語言測試的有用性一直爭論不休[3](P16)，但是Bachman Palmer提出了一個評價考試是否有用的原則，這個原則可用來評價一個考試的質量。該原則可以用下列公式表示[3](P18):有用性(Usefulness)= 信度(Reliability) + 構念效度(Construct validity) + 真實性(Authenticity) + 相互作用性(Interactiveness)+ 影響(Impact) + 實用性(Practicality)。

與其他學者不同的是，他們的原則強調六個因素之間的互補和平衡。他們認為考試整體的有用性應該得到重視，而不是強調單個因素;可以對某個因素進行單獨評價，但必須以它們對考試有用性的整體影響為基礎;必須根據具體情形，衡量六個因素的作用和平衡關系。設計任何有用的語言考試，設計者都要考慮清楚該考試的特定目的、特定使用人群及特定的語言使用域。

高校英語專業四級考試，全稱為全國高校英語專業四級考試(以下簡稱專四考試)，自1991年起由中國大陸教育部實行，考查全國綜合性大學英語專業學生的英語水平。自開考以來，據林勁文中的數據顯示，參加考試人數從1992年的8554人，上升至2006年的108210人。可見考試的影響力日趨增大[4]。專四考試的設計出發點為成績測試(performance test)，即教學性考試，“考試的目的是全面檢查已學完英語專業四級課程的學生是否達到教學大綱所規定的各項要求，考核學生運用各項基本技能的能力以及學生對語法結構和詞語用法的掌握程度，既測試學生的綜合能力，又測試學生的單項技能。同時，也是評估教學質量，推動校際交流學習的一種手段”(《英語專業考試四級大綱》)。但是專四考試的影響力遠不僅如此，一些高校把專四證書與畢業證掛鉤，用人單位更是把證書當作了人才選拔的門檻條件。

顯然，專四考試已超越了教學考試的作用。我們禁不住要問專四考試能否實現它最初的設計目的?其質量該如何評價?鑒于它的大規模使用，我認為對其有用性的探討非常必要。由此本文根據Bachman Palmer提出的有用性原則[3]，結合設計目的、使用人群，對高校專業四級考試進行分析，以便全面衡量該考試，并對其改革提出建議。

二、高校英語專業四級考試評析

1.信度及構念效度

信度和效度是測試的基本特點，是衡量測試的最重要的指標。信度是實現構念效度的必要條件[3](P23)。信度主要指考試結果的穩定性和可靠性。拿同一份試卷對同一組學生實施兩次或多次測試，如果結果很一致，那就說明信度很高。構念效度指的是考試的結果能在多大程度上解釋人的語言能力及語言能力有關的心理特征。[1](P209)

根據英語專業四級考試大綱，專四考試共有六個部分:寫作(25%);聽寫(15%);聽力理解(15%);完形填空(10%);語法及詞匯(15%);閱讀理解(20%)。該考綱中還提到“為了較好地考核學生運用各項基本技能的能力，既照顧到科學性、客觀性，又照顧到可行性以及基礎階段英語水平測試的特點，同時為確保試卷的信度，本考試除寫作及聽寫部分為主觀試題外，其余都采用多項選擇題形式”。由此可見，專四考卷的60%采用多項選擇題的形式。有學者稱贊其考試形式的客觀性[5];還有人認為多項選擇題的廣泛使用正是由于它有自身的優勢和特點，如為閱卷工作提供方便，提高答題速度、答案唯一，從而使試卷信度很高[6][7]。

但正如李紹山所言，所謂“客觀”僅指閱卷過程而言，即閱卷時閱卷人員毋需作出主觀判斷，但是試卷的編制過程本身同樣要涉及大量的主觀判斷，例如考試的具體內容、各類內容的比例等。所以，客觀性試題并不能保證有關決策的客觀性，統計意義上的可靠性也不能保證決策的可靠性[8]。此外，Hughes也特別提到選擇題會容許猜測。從統計原理上說，每個題考生都有25%的猜對的機會[9]。Bachman認為選擇題比作答要簡單，而后者考核的是考生的語言產出能力[2](P129)。因此，多項選擇題不利于測量考生的真正的語言能力。

在衡量專四考試構念效度的時候，我們需要看該考試對所考核的能力的定義。英語專業四級考試大綱中在考試目的部分提到:“考核學生運用各項基本技能的能力及學生對語法結構和詞語用法的掌握程度，既測試學生的綜合能力，又測試學生的單項技能。”高等學校英語專業教學大綱的測試與評估部分也提到:“測試應既有助于提高學生的語言運用能力，又有助于培養學生的思維分析能力。”

這兩個文件雖然提到了要測的“基本技能”、“綜合能力”、“語言運用能力”等概念[10]，這些概念又是當今所推廣的交際語言測試中的關鍵詞，但這些概念的具體含義是什么?在設計考試的時候如何操作?可操作性有多強?從這兩個文件無法得出明確的結論。

在專四考試實際的測試試卷中，可以看到詞匯與結構，聽力、寫作等都是分開測試的，這似乎意味著語言可以分成不同的單獨的項目進行測試，而這正是如今飽受批評的分離式測試的做法。BachmanPalmer將語言運用定義為兩人或多人之間在特定情境下的相互交流意義的動態過程[3](P61-62)。顯然，分離式的語言項目不具有這樣的特征，而奇怪的是強調語言使用的口語考試卻不是該考試必考的項目。

高等學校專業教學大綱中21世紀英語專業人才的培養規格中強調:“能力主要是指獲取知識的能力、運用知識的能力、分析問題的能力、獨立提出見解的能力和創新的能力。其中創新能力的培養尤為重要。”可見高校英語專業人才培養的教學目標需圍繞學生的運用知識的能力，培養他們的實際語言運用能力。那么，當今的專四考試的效度不高是其改革的首個動因。考試設計者需要重視并定義清楚語言運用能力，并在考試中摒棄分離式測試的做法，設計考察語言運用的任務。

2.真實性

BachmanPalmer把真實性定義為:“某項考試任務的特征與目標語言使用任務特征的一致程度。”真實性與傳統上的內容效度有一定的聯系，對考生針對考試的看法和表現都有一定的影響。在設計考試時，我們應首先確定目標語言使用域中的任務特征，然后選擇或設計與此任務特征相一致的測試任務[3](P23-24)。

據此判斷，專四考試中的很多任務真實性較低，因為目標語言使用域中的語言使用任務特征沒有得到足夠的重視。以被設計者認為是效度較高的項目“聽寫”為例，“聽寫文章全篇約150個詞，共念四遍。第一遍用正常速度朗讀，錄音語速為每分鐘120詞”。聽寫任務顯然與考生目標語言使用域(大學生的現實生活和學習生活中的語言使用)任務相去甚遠。首先，考生在生活中聽到的英語并不都是標準英語。其次，他們可能在學習過程中需要聽講座記筆記、或在課上與同學用英語進行討論。換言之，“聽”不能與“說”、“讀”等技能分開。學生聽四遍英語材料，然后再填空的活動在生活中的發生率有多高?我認為這顯然不是目標語言使用域中的典型語言使用任務。

談到專四考試中影響真實性的因素，仍然需要提到多項選擇題的形式。Weir認為“多項選擇題是不真實的任務。現實生活中人們很少面對四個選項，從中選擇一個來表達自己的理解”。Hughes也認為選擇答案的形式給考生帶來“不自然”的負擔，因為他們在處理輸入信息的時候，還要記住那四、五個選項[9]。

3.相互作用性

BachmanPalmer將相互作用性定義為考生特點在完成測試任務中的參與程度和類型。某一測試任務的相互作用性可以體現在考生的語言知識、元認知策略、背景知識和情感圖式的參與程度上[3](P25)。

根據考綱的描述，專四考試設計者考慮了考生的背景知識因素，在聽力理解完型填空、閱讀理解中都注意選擇了“題材熟悉、難度中等”的材料。但由于這幾部分的任務普遍采用了多項選擇題的形式，“它所考察的能力僅僅是辨認能力而不是實際使用語言的能力”[8]。顯然在完成任務的過程中，考生使用的策略也許更多的是應試技巧，而不是計劃、監控語言輸出的元認知能力。同樣，由于采用了類似的答題方式，曾被認為是測試考生綜合運用能力的完型填空也難以擺脫應試技巧的干擾。

4.后效作用

BachmanPalmer認為考試的后效作用體現在宏觀和微觀兩個層面上:宏觀層面上是指考試對教育制度和社會的響應;微觀層面上是指考試對使用考試的個人的影響[3](P31-35)。

針對專四考試后效作用的文獻很多[11][12]。有人用問卷的方式調查其對教師和學生的影響[12]，談到其正面的影響是學生英語學習自主性加強，教師和學校在英語教學上的投入加大。但負面影響和有關負面影響的文獻要多得多。負面影響首先體現在教師和學生忙于應試技巧的訓練。教師花費很多時間講授如何選擇正確答案，學生忙于做模擬練習，以致于社會上的應試文獻的出版空前繁榮[13]。徐清平、張延續在分析1996、1998、2000年的試卷時發現詞匯與結構部分命題內容(考點)的重復。命題內容的重復主要表現為兩方面，一是幾份測試命題內容的完全重復。二是同一份測試中不同題目的命題內容雷同[14]。先不說這樣的題目效度如何，我們在此會明白為什么學生在考試前會深陷題海戰術了。

對于學生來說，痛苦莫過于專四考試成績與獎懲聯系起來，在有些學校中，學生過不了專四就拿不到畢業證，這給他們造成了很大的心理負擔，影響了學習英語的興趣[15]。專四考試是全國性的高風險考試，現每年數以萬計考生參加。考慮到其高比例的分離式測試任務，很難說它不對教育體系和社會構成也構成負面影響。

5.實用性

考試的實用性與考試實施的方式有關。衡量某考試的現實性需要考慮其設計發展所需的資源，可用資源的分配和管理[3](P35-37)。李紹山認為如果是大規模考試，如我國的專業和非專業英語的全國統測，就要注意其可行性，過多地采用綜合性題型或者運用型題型如寫作、口頭交流等，就會給閱卷工作帶來很多問題如人力、物力和財力，也不利于提高考試的信度，因此這類考試宜采用分離式考試[8]。但我不贊同這個說法。

雖然理論上分離式測試在施行和評分上較為容易，但現實中卻并非如此。在高校有過專業或非專業英語的全國統測監考經歷的教師都會有種感覺，監考過程十分繁瑣。考前監考過程的演練，監考程序絲毫沒有因為其分離式考試而減少。此外，正是因為分離式測試，試卷和答案的安全成為問題。非英語專業的大規模考試考題和答案泄密的事不止一次。專四考試同樣會存在類似的威脅。可以看出，在整個試卷的設計、使用前、使用中的監控上、閱卷等環節上，專四這類大規模考試的花費不是一筆小數。那么我們禁不住要問，為什么不設計和實施更直接測試語言使用能力的考試呢?兩者的花費真的會相差如此巨大以至于是設計者們望而卻步嗎?考慮到分離式測試對教學雙方的負面影響，對國家人才培養目標實現的阻礙作用，是該改革的時候了。

三、結語

綜上所述，我以BachmanPalmer提出的衡量測試的有用性原則為依據分析了我國高校英語專業的大規模考試:專業四級考試。雖然有些學者認同該考試任務的客觀性及其較高的信度保證，但正如劉潤清、韓寶成談到的，高信度不一定意味著高效度[1]。專四考試的設計理念仍以分離式測試為主，顯然與當今培養語言運用能力為主的教學理念相偏離。為教學服務的測試應該激勵真實生活中的語言使用。測試的真實性與測試的表面效度和內容效度緊密相關。由于專四考試高比例地使用多項選擇題，顯然真實性較低。雖然專四考試試圖把考生的語言知識、背景知識、認知策略等考慮在內，但不恰當的試題形式使其難以保證較高的相互作用性。此外，專四考試的影響力遠遠超越了教學考試的范圍，給考生造成了不必要的心理負擔;其對教學的副作用不容小覷。分離式的測試形式并未使其實施變得簡單，反而為保護其試題和答案，會造成一定的經濟負擔。

由此可見，一項大規模考試僅靠信度一項無法得出關于其質量的結論。根據有用性原則的六個方面，我們對專四考試進行全面的分析就會發現，專四考試的確需要改革了。正是因為其影響的巨大，才不能不花費精力和財力對其進行革新，否則其對教學的不恰當的指揮棒作用將繼續發揮，繼續造成損失。如李紹山所言[8]，只有通過使用才能最終學會使用外語，也只有通過使用才能檢驗學習者的外語水平，僅靠做選擇題是決計學不會外語的，僅靠做選擇題也是檢驗不出學習者運用語言的真實能力的。由此可見，專四考試改革也就有了自己的方向。Bachman和Palmer在測試理論與實踐一書中也詳細地探討了如何根據實際需要設計合理的考試，給出了一個設計框架。我們期待著我國的大型考試設計者能在科學的測試理論指導下，設計出與我國現行教學理念相一致的、激勵真實語言使用的語言測試任務和測試形式。

參考文獻:

[1]劉潤清，韓寶成.語言測試和它的方法[M].北京:外語教學與研究出版社，2000.

[2]Bachman，L.F.Fundamental Considerations in Language Testing[M].Oxford:Oxford University Press，1990.

[3]Bachman，L.F.Palmer，A.S.Language Testing in Practice[M].Oxford:Oxford University Press，1996.

[4]林勁.高校英語專業四級、八級考試的后效研究.碩士論文.杭州:浙江大學，2007.

[5]吳古華.淺談英語專業四級考試.外語界，1994，(3):18-19.

[6]侯艷萍.TEM4閱讀理解內容效度分析(2000-2002)，碩士論文.上海:上海外國語大學，2004.

[7]曹揚波.英語測試中的多項選擇題芻議[J].陜西師范大學學報(哲學社會科學版)，1998，(27)(增刊):301-501.

[8]李紹山.分離式考試、綜合性考試與語言運用考試[J].解放軍外語學院學報，1997，(4):72-77.

[9]Hughes，A.Testing for Language Teachers[M].Cambridge:Cambridge University Press，1989.

[10]高校英語專業基礎階段英語教學大綱，http://www.cnnb.com.cn/jy/system/2008/08/21/005740503.shtml.2009-1-31下載.高校英語專業基礎階段英語考試大綱.http://www.cnnb.com.cn/jy/system/2008/08/21/005740503.shtml.2009-1-31下載.

[11]李紹山.語言測試的反撥作用與語言測試設計[J].外語界，2005，(1):71-75.

[12]吳鋒針.論英語專業四級考試對教學的反撥作用[J].黑龍江高教研究，2008，(8):187-189.

[13]陳荷榮.淺析我院英語專業四級考試難點與教學——九八英語專業四級考試分析[J].廣州師院學報(社會科學版)，1998，20(4):56-59.

[14]徐清平，張延續.英語專業四級考試“語法與詞匯”內容效度分析[J].外語研究，2004，(2):57-59.

考試周刊2010年24期

考試周刊的其它文章: 女性男裝分析; 藝術\\體育專業大學英語趣味性教學改革及方法; 課改后開放式教學在高中物理實驗教學中的應用探究; 信息技術環境下小學語文閱讀教學模式初探; 以學生為中心的高中英語教學理念與模式; 盲校數學閱讀的調查與實踐