語言測試綜述

2008-12-31 00:00:00鄭麗萍

考試周刊 2008年24期

摘要：語言測試作為語言教學的一個重要組成部分。早已引起語言學界的注意，并且越來越受到重視。本文追述了語言測試的歷史，評述了語言測試的設計開發原則，并介紹了語言測試研究的新進展，以期開闊我們的視野。

關鍵詞：語言測試一致性有用性

一、語言測試的定義

語言測試是教育測量學的一個分支學科，雖然到了60年代才形成一門新興的學科，但對語言測試的研究由來已久。語言測試是多種科學的結合體，這多種科學可以概括為兩類：語言科學和技術科學。前者給測試饋入內容，后者給測試饋入手段（李筱菊，1997）。語言學、學習心理學和教育測量學構成了語言測試的三大理論支柱。然而，與語言測試關系最為密切的領域當推語言教學。語言測試是伴隨著語言教學出現的。語言教學的任務是培養學習者實際運用所學語言的能力，而語言測試的目的則是提供一種科學的測量工具。

二、語言測試的歷史發展

語言測試的歷史是一部發展史，它的變革無不反映語言學、心理學和科技等領域的新發展。尤其是語言理論，一旦被應用語言學界廣泛接受，就會有應用語言學界將其用于新教學大綱的編寫，產生新的教學思想、新大綱核心思想及開發出的新的教學方法和教學形式，新的教學效果又通過測試來進行檢驗，檢驗的結果為新的教學理論和方法提供反饋，以便修整教學大綱，這是一個循環往復、螺旋向上的過程。

外語測試的形成、發展和完善同語言學、心理學和教學法密切相關。每一時期流行的語言學流派和教學法流派相應地產生了不同的外語測試理論和測試方法。70年代以前，在語言測試界占主導地位的是分析法，這是測試的心理測量——結構主義時期。其語言學的理論基礎是結構主義語言學。自70年代中期起，語言測試界開始重視所謂總體綜合法的研究，這一時期成為語言測試的心理語言學和社會語言學時期。在社會語言學家提出了語言交際能力的概念后，語言測試進入了強調單一語言能力和提倡綜合測試法的社會語言學階段。自八十年代以來，隨著交際教學法的發展，交際法語言測試受到了愈來愈多的重視（Bachman1990）。

三、設計開發語言測試的原則

Bachman針對人們對語言測試的一些錯誤觀點及其結果，結合教學實踐中積累的成功經驗，提出了語言設計開發過程中始終要遵循的兩個原則：（1）必須保持測試中語言的使用和非測試中語言使用的一致，同時必須保持應試者的特征和語言使用者特征的一致，即一致性；（2）試題的適用與否在語言測試的設計與發展中有重要意義，即有用性。

1.一致性原則

Bachman和Palmer（1996）指出設計或開發一項新測試時，應考慮語言測試行為與語言實際使用情況相一致。語言測試的目的是根據被試的測試分數對其語言能力做出判斷。此時必須能夠證明被試的測試行為與在具體場景下語言使用存在一致關系。要做到這一點，需要設定一套理論框架，使我們能夠考慮把被試的測試行為視為語言使用的一個特例。設計這個理論框架需要考慮兩方面的因素。首先要考慮的是語言使用任務和情境的特征及測試任務和情境的特征。其目的是為了確保并證明測試任務與語言使用任務相一致。其次還要考慮語言使用者的特征和被試的特征，目的是為了證明這些特征在語言使用任務和測試任務中參與程度有多大。影響語言使用和測試行為的這兩組特征是我們開發和設計測試最關心的問題。

2.有用性原則

在設計和開發一項語言測試時，最重要的是考慮這項測試做何用途，因此，測試的重要性質之一是有用性（usefulness）。語言測試的有用性包括六個方面：信度（reliability）+效度（validity）+真實性（authenticity）+交互性（interactiveness）+影響（impact）+可實踐性（practicality）。

信度與效度原是計量學中兩個重要概念，20世紀30年代被引入語言測試領域。60年代，以Lado等為代表的結構主義測試學家對這兩個概念進行了系統的闡述和論證，標志著語言測試已形成科學的體系，成為一門獨立的學科。可以說，語言測試理論及實踐的發展和紛爭都是以信度與效度為主線進行的，信度與效度是語言測試永恒的主題。90年代以來測試學家對于信度與效度的討論主要集中在四個方面：（1）信度的重要性；（2）在對考生在測試中的表現進行多方面Rasch分析（multifaceted Rasch analysis）時該如何看待評分員之間的信度（interrater reliability）；（3）如果把信度看作效度的一部分，在理論上存在的問題；（4）出題者和試題使用者在理解“驗證”（validation）這個概念時可能會遇到的困難。

真實性是過去20年來測試界一直關注的問題。1984年的國際語言測試大會對此進行了專門討論。Spolsky（1985）總結道：“真實性標準給測試領域提出了語用和倫理的問題。測試材料缺乏真實性對我們根據測試成績做出的推論也提出了疑問?！庇捎谘芯糠椒ê徒嵌鹊牟煌?，人們對真實性尚無一致的看法?？偟膩碚f，可分為兩種，一種是將真實性定義為與現實生活的相似程度，即Authenticity as“real-life” language use。Bachman和Palmer（1996）認為，真實性指某一語言測試任務特征與實際語言運用任務特征的對應程度，即一致性。一致性越高，測試的真實性就越強（韓寶成，2000）。另一種是將真實性定義為交互真實性，即Authenticity as interactive language use。測試的真實性反映在對被試能力結構的恰當界定及被試與測試任務之間的交互作用上，測試的真實性不再以測試的表面效度為主要衡量標準，測試的構想效度對測試真實性的論證具有同等的、甚至更重要的地位（鄒申，2001）。測試真實性標準對于我們開發、評價某項測試是極為有用的，它可以幫助我們在設計時打開思路。

交互性指被試在完成一件測試任務時，涉及到的個人特征類型及程度。簡單地說就是在測試所涉及的任務中學生的參與程度。參與程度越高，測試的交互性也就越強。

影響指對社會、教育制度，以及對處于這個制度內的個人的影響。前者為宏觀層次的影響，后者為微觀層次的影響。結合影響，Bachman引入了“反撥作用（washback）”的概念。它是目前語言測試研究者和操作者最感興趣的話題之一，特指語言測試，尤其是外語測試對相應的教學和學習產生的影響。人們雖然早已認識到測試的巨大影響，但對這種影響進行大量而深入的研究是近幾十年的事（Hughes1989；Alderson Wall1993；BachmanPalmer1996）。這些研究主要集中在以下幾個方面：反撥作用是否存在；反撥作用是怎樣起作用的；影響反撥作用的因素；怎樣減少負面反撥作用，提高正面反撥作用，等等。隨著研究的深入，人們發現測試的反撥作用比預見的要復雜。其復雜性源于語言測試的復雜性和教學本身的復雜性，以及兩者之間的不可分性（AldersonWall1993）。測試的巨大影響及反撥作用的復雜性使反撥作用研究變得非常重要。

可實踐性，如果說前5項都是圍繞分數轉的話，這一項主要涉及將測試付之實施的方法，在更大程度上，涉及一項測試能否開發和使用。比如為實施某測試所需財力、物力資源如超過可利用的財力、物力，這個測試就不切實際了，可以說，在設計測試的每一個階段都要考慮可實踐性，它會影響我們的決定，不是做出修改。

在測試學界，傳統的看法認為上述這些性質互不相干，或片面地強調其中一個特征。而Bachman的觀點是：在把這些性質付諸實施時要考慮三個原則：（1）最強調的應是測試的整體有用性，而不是影響有用性的個別性質；（2）測試的個別性質不能單獨評價，必須就它們在測試的整體有用性的共同影響進行評估；（3）測試有用性和不同性質之間的適當平衡不能作一般的規定，而應根據每一個特定的測試情況決定。

四、語言測試研究的新進展

1.基于任務的語言測試（Task-based Language Assessment，簡稱TBLA）

九十年代以來，隨著任務語言教學法的應用，并不斷得到發展，隨著語言教學的主要目標從具體的語言知識的學習轉向系統的交際能力的培養，測試學生使用語言交際的能力日趨重要。TBLA隨之成為研究熱點（Brindely1994），它是交際性測試的最新發展。2000年在加拿大溫哥華召開的第22屆國際語言測試研討會，其中一個主題就是“Putting tasks the test’Language Testing于2002年第4期出?？懻揟BLA，這足以說明TBLA受到關切的程度。2007年9月21-23日在比利時召開的第一屆國際任務教學研討會中測試學家就從TBLA的角度談到了任務教學的開展。任何測試程序中涉及觀察真實生活中的行為或模仿真實生活的活動，以此進行評價的都可稱之為TBLA（Bachman，2002；Norris，Brown）。國外許多現行的考試采用的都是TBLA，比如：IELTS（International English Language Testing System），BEST（Basic English Skills Test），CLBA（Canadian Language Benchmarks Assessment）等。教育部2001年7月制定的《英語課程標準》明確指出：“教師應該避免單純傳授語言知識的教學方法，盡量采用‘任務型’的教學途徑”（2001）。“語言課程的改革要通過測試改革來實現”（Alderson 1986）。因此，隨著任務語言教學法在我國的英語教學中不斷推廣，與之相對應的TBLA的發展也不應忽視。

2.計算機適應性語言測試（Computer-adaptive Language Testing，簡稱CALT）

CALT的理論基礎主要是心理學程序教學思想和現代教育測量理論。具體說來，兩種理論成為CALT發展的主要依據，即難度可變性測試（Flexi-level Tests）和項目反應理論（Item Response Theory），在進行CALT時，計算機根據這兩種理論來生成適合每個考生能力的試題。人們有時稱CALT為“量體裁衣”式測試（Tailored Test）。CALT的主要優點有：（1）保證測試有較高的信度和效度；（2）具有良好的反饋作用；（3）測試安全性高；（4）測試的人性化加強；（5）測試的科學化和標準化；（6）開拓新題型；（7）測試開發的規?；?。Brown從試卷的設計、評分、后勤（如軟件、硬件、設備、漏題等）方面闡述了CALT面臨的問題。他把這些問題歸納為：怎樣對CALT進行試測？CALT是否應有一個標準長度或以考生的實際情況而異？怎樣對CALT項目進行取樣？改變CALT項目的難度會產生什么結果？如何對CALT進行評分？如何處理考生漏題的問題？怎樣避免漏題？等。Brown認為我們還要針對依據CALT的分數所作的推論的概化性進行研究。隨著我國計算機網絡的飛速發展，2004年1月頒布實施的《大學英語課程教學要求（試行）》中對課程體系的要求是：“該課程體系不僅包括傳統的面授課程以外，更應注重開發基于計算機—網絡的大學英語課程……”。同時我國的NMET、CET、PETS等大規模測試的組織和實施費時費力，而且不少測試中存在著信度和效度偏低、起到負面的反撥作用等問題，CALT為我們開辟了一條可行之路。

3.被試特征研究

同外語教學界由研究教學方法轉移到研究學習者本身上來一樣，被試特征對測試行為的影響也是當前測試界十分關心的問題。被試特征包括文化背景、背景知識、認知能力、性別和年齡等（Bachman，1990）。在英國的UCLES（University of Cambridge Local Examination Syndicate）和美國的ETS（Educational Testing Service）合作，就FCE（First Certification in English）和TOEFL對比研究，其中一個很重要的問題就是研究被試特征對測試行為的影響，它是目前該領域最大的一個研究項目。研究在Milanovic和Bachman的指導下進行，研究范圍主要包括兩個方面：（1）社會心理因素，包括態度、動機、焦慮感和努力程度四個因素；（2）策略因素，包括認知策略、元認知策略和交際策略。在談到研究被試特征及測試方法因素對測試行為影響的意義時，Bachman（1990）指出，隨著個人特征及測試方法對測試行為影響研究的不斷深入，測試開發人員對那些特征因素與方法因素產生交互作用會了解得更透徹，并在實踐中能夠設法減少這些因素對測試行為帶來的影響，為被試最大限度地發揮其測試水平提供機會，這樣我們就會更好地、更公正地測量語言能力。

4.電子評分系統（e-rater）

由于行為測試受到重視，語言測試中會出現較多主觀題目。主觀題的批改既費時又費力，且目標不宜掌握。研究者嘗試用計算機來對被試主觀題的答題情況進行評分。經過5年的努力，ETS（Educational Testing Service）采用先進的計算語言學技術成功地開發了一套電子作文打分系統（Electronic Essay Rater，簡稱e-rater）。與人工閱卷相比，其準確率已達87%至94%。e-rater的開發和利用，大大降低了閱卷的成本，將會引起測試評分的改革。e-rater系統的設計原理是，根據評分專家事先評定的評估作文成績的標準，計算機自動分析被試作文的特征，并與專家設定的特征相對照，然后給出一個等級。該系統實行6分制。如果被試文章內容切題，結構合理，邏輯性強，句式、用詞等富有變化，e-rater可給出5-6分。如果被試作文不具備這些特征，得分自然很低。目前，e-rater還不能完全取代人工閱卷，當e-rater和人工閱卷的結果出現較大差異時，ETS再請第三位閱卷人對被試的作文進行評閱，從而也提高了作文閱卷的信度。他們的下一個目標是進一步提高e-rater的準確率，并開發其診斷和解釋功能?？梢韵嘈牛S著e-rater功能的不斷完善，總有一天人們會對自己閱卷的思維過程有一個透徹的了解。而且隨著語音合成技術的發展，這樣的電子口語打分系統也將會實現。

五、結語

作為一門科學化、專業化的學科，語言測試學有著廣闊的發展前景?？梢韵嘈?，隨著語言學和語言教學方法的不斷發展創新，語言測試學也會不斷發展，日臻完善，并最終更為有效地為外語教學服務。

參考文獻：

［1］Alderson.C D.Wall.Does washback exist［J］.Applied Linguistics，199314/2：115-129.

［2］Bachman.L.F Fundamental Considerations in Language Testing［M］.Oxford：OUP，1990.

［3］Spolsky.B.The limit of authenticity in language testing.Language Testing，1985，2，（1）.

［4］韓寶成.語言測試：理論，實踐與發展［J］.外語教學與研究，2000（1）.

［5］李筱菊.語言測試的科學藝術［M］.長沙：湖南教育出版社，1997.

［6］鄒申.簡明英語測試教程［M］.北京：高等教育出版社，2000.

本文為2008年度廣西工學院教學改革立項項目成果（編號：J0811）

考試周刊2008年24期

考試周刊的其它文章: 論周公的“明德慎罰”思想; 預防骨質疏松癥從小做起; 綠色ＧＤＰ的核算方法; 地下室大體積混凝土裂縫預防與控制; 柴油發動機故障分析與預防; 中法酒店管理專業教學的比較研究