近二十年來第二語言測試研究新動向

2014-04-29 00:00:00劉楓

中國科教創(chuàng)新導刊 2014年1期

摘要：回顧近二十年來語言測試研究的六大新動向，并在此基礎上討論了語言測試領域內一些值得關注的問題，以及發(fā)展中必須面對的挑戰(zhàn)。

關鍵詞：第二語言語言測試研究新動向

中圖分類號：G4 文獻標識碼：A 文章編號：1673-9795（2014）01（a）-0056-04

韓寶成[1]認為語言測試的發(fā)展大致經歷了，以教什么就測什么為特征的前科學語言測試階段；強調標準化和客觀化的心理測量學—結構主義階段[13]；強調單一語言能力和提倡綜合測試法的社會語言學階段[14]；以及80年代以后流行的以測試語言運用能力為目標的交際語言測試階段（Carroll 1980；Bachman 1990；BachmanPalmer 1996）。

1990年被認為是語言測試發(fā)展的一個分水嶺[15]，因為在這一年，語言測試領域發(fā)生了幾件重大的事件。首先，第12屆國際語言測試研討會在美國舊金山召開，會議的主題是“語言測試新的10年：協作與合作”。其次，在新加坡召開了主題為“語言測試和項目評估”的研討會，會上許多學者就80年代語言測試的發(fā)展與存在的問題展開了討論。這兩次會議還討論了成立國際語言測試協會（International Language Testing Association）的問題。這一年還出版了一些很重要的關于語言測試的學術論著，其中包括Bachman的《語言測試要略》（Fundamental Consideration in Language Testing），Davies的《語言測試原理》（Principle of Language Testing），以及Weir的《交際語言測試》（Communicative Language Testing），這些論著對后來的語言測試研究和發(fā)展起了非常重要的作用。

ChapelleDouglas[16]于1990年預測語言測試研究在90年代可能會集中在以下一些方面：交際能力與語言測試之間的關系；語言測試自然和倫理方面的研究；對考試分數的解釋；對考試的效度的研究。

楊滿珍[2]在對1990年至1999年間的語言測試研討會和公開發(fā)表或出版的有關語言測試的論文或論著進行了統計和總結后，談道：20世紀最后10年國外語言測試的研究主要集中在以下一些方面：（1）交際語言測試；（2）信度和效度；（3）語言測試的社會作用；（4）影響考生發(fā)揮的因素；（5）做事測試（performance test）；（6）計算機化測試；（7）與二語習得的關系。

此后的幾年里，語言測試的動向是否像ChapelleDouglas所預測的那樣，還是延續(xù)了楊滿珍所總結的七大研究焦點。哪些方面依然是焦點，又有什么新的研究熱點出現，這是廣大研究者所關注的。

1 語言測試新動向

根據近二十年來國內外語言測試研究者（以國內為主）在理論和實踐方面的新的嘗試，總結了下面的六大動向。

1.1 計算機化自適應性語言測試（Computerized Adaptive Language Test）（下稱CALT）

計算機化自適應性語言測試源于計算機化自適應性測試（Computerized Adaptive Test）（下稱CAT），又譯為計算機化調適性測試，是一種技術上受計算機終端和PC管理的先進的測試語言能力的方法。從題庫中選取符合受測者語言水平的題目進行測試，迅速準確地估計受測者的語言能力，直到達到預定的測試精度（即標準誤）要求，即可結束考試。

陳冰冰[3]在《引領外語測試新方向—— 計算機化調適性語言測試》一文中提到，計算機技術的發(fā)展不僅影響了外語教與學的整個過程，而且也使得語言測試的技術手段和載體發(fā)生了革命性的變化。2001年在美國舉行的第23屆國際語言測試研討會的主題就是“語言測試與技術”，基于計算機技術所構建的測試新方法—計算機化調適性語言測試，成了此次會議的主要議題。計算機化調適性語言測試由于其因材施測、能精確估計考生能力及節(jié)省施測時間等顯著的優(yōu)點，正逐步滲透到各類外語測試中去，引領著外語測試發(fā)展的新方向。

CALT是現代化教育技術改變測試手段的新方向，世界上許多很有影響的國際性英語考試也正在全面推行CALT。1998年以來，GRE普通測試由傳統的紙筆測試全面改為CALT；東軟在線凱思考試（Compute

rized Assessment System for English Communication）結合日本頂級教育產品和服務提供商旺文社（OBUNSHA）教育集團的經驗開發(fā)的CALT系統已經廣泛應用于企業(yè)、學校和政府，成為評價國際職業(yè)英語能力的標準。

目前，對于計算機化自適應性語言測試的研究正朝著縱深方向發(fā)展，研究者們各辟蹊徑，跨學科研究引起越來越多的研究者的關注。

（1）基于Web的自適應性考試。

鄭珂，申瑞民[4]在《基于Web的自適應考試系統》一文中介紹了計算機化自適應考試（Computerized Adaptive Test）的基本理論和過程，更重要的是提出了一個基于Web自適應考試系統的框架。計算機網絡技術的發(fā)展和自適應考試理論的日漸成熟使得基于Web的自適應考試系統成為現實。

王路江[5]在世界漢語大會上介紹了中國漢語水平考試的改革與發(fā)展。為了提高考試和閱卷的效率，北京語言大學漢語水平考試中心正籌備開發(fā)基于項目反應理論的計算機自適應考試；為了提高主觀閱卷的效率，還將開發(fā)網上閱卷和計算機自動閱卷程序；提高HSK的服務水平，加強考試的安全性，建立漢語水平考試的“網絡平臺”勢在必行。因為它的作用不僅在于推廣，更重要的是使測試依靠現代技術和理念支持，通過方便快捷的網絡平臺的搭建，能更直接地服務于考生。

（2）認知計算機適應性考試模型。

何蓮珍[6]在研究認知科學與語言測試的關系及各種CAT模型的基礎上，運用項目反映的雙參數模型設計了一個包括閱讀、詞匯語法、完形填空的雙階認知計算機適應性考試模型（CCAT），并作了實驗，實驗結果顯示：這種測試方式不僅提高了測試的效率，而且提高了測試的精確度，與傳統的紙筆測試相比有無可比擬的優(yōu)越性。這是國內語言測試研究者將認知科學與語言測試相結合的一次有益的嘗試，為我們的語言測試研究提供了一個新的視角。

（3）個性化自適應性考試模型。

曾用強[7]根據自信心與測試行為之間關系的研究成果，提出了一個個性化自適應性測試模式，并與適應性測試和自適應性測試作了對比分析。結果表明：①個性化的自適應性測試模式由于引入自信心作為調整項目難度的指標，可以進一步提高測試的適應性程度；②其能力估算方法比項目反應理論中的極大似然值估算法更先進；③使語言測試不僅在項目難度上，而且在認知心理上適應于受試的個性特征，使語言測試過程更具個性。該文把語言測試與二語習得研究結合起來，探索一種機助的個性化測試模式，以引起研究者對語言測試的個性化和適應性的關注。

1.2 基于計算機語料庫的語言測試

肖依虎、潘翠瓊[8]立足于語料庫與語言測試的內涵，闡述了語料庫應用于語言測試的理性認識，分析了基于計算機的語料庫應用于語言測試的必要性，可能性，其利用過程中的優(yōu)勢和局限性，以及語料庫在語言測試上應用的前景。

TOEFL和GRE就是語料庫應用于語言測試的最典型、最成功的例證。這兩種測試在實踐上說明了語料庫用于語言測試的可能性。

語料庫在語言測試中的應用，也為保證語言測試的真實性提供了技術支持。

1.3 語言測試的真實性

20世紀70年代，隨著交際教學法的出現，Widdowson[17]提出了語言教學的真實性問題。80和90年代，隨著語言交際測試法的出現，Morrow[19]和Bachman[18]等人提出了語言測試的真實性問題。此后真實性問題成為語言測試的一個熱門話題，語言教學和測試界的學人為此進行了廣泛探討。語言測試方面的權威學術期刊《語言測試》專門出了一期特刊（1985/6）來討論這個問題。Morrow[19]認為“真實性問題是語言測試的一個重要方面”。Wood[20]認為，“語言測試的兩個主要問題，效度與信度，可以歸結為真實與不真實一個問題”；BachmanPalmer[21]認為真實性是語言測試的一個重要特征。

黃大勇[9]從文本的真實性、任務的真實性、輸出的真實性和情景的真實性等四個方面對語言測試的真實性概念進行解析，并指出真實性的兩個重要特征：真實性的主觀性和相對性。為語言測試的設計開發(fā)者科學地把握真實性提供了一定的依據。

目前國內外有影響的語言測試，由于語料庫技術的支持，在文本的真實性方面基本能保證，但其他三方面的真實性體現的水平則參差不齊。四、六級考試與托福的聽力題類似，基本上全是多項選擇的形式，正確答案實際上已經給出，考生要做的只是把這個正確答案挑出來。這樣的考題是脫離現實的，因為在日常生活中人們聽別人講話并試圖理解其話語的意思的時候，不可能給你A、B、C、D以供選擇呢？比如有人打電話來讓，要找的人不在，你得記留言，你要做的就是用筆記錄下來這個號碼和信息，而不可能是在幾個現成的選項中進行選擇。而雅思（IEL TS）的試題較貼近真實的生活場景。盡管雅思也有一部分聽力題是多項選擇的形式，但其比例不大，既不是惟一題型，也不是主流題型；應對雅思聽力考試，考生要做的除了圈定自己認為正確的答案外，還要拼寫出自己認為正確的答案，聽考題和答題是同時進行的，只有拼寫出正確的英文單詞和答案，才能拿到高分。

當前，國內語言測試界需要下大力氣研究的是任務的真實性，而這一點可以借鑒當前的另一熱點，即任務型語言測試的研究成果。

1.4 任務型語言測試（Task-based Language Assessment，以下簡稱TBLA）

近十年來語言教學研究的熱點是任務型教學，相關的教材和教學模式方面的研究成果層出不窮，相比之下，測試領域的研究有些滯后，但也逐漸成為測試領域的研究熱點。2000年在加拿大溫哥華召開的第22屆國際語言測試研討會，其中一個主題就是“Putting tasks to the test”。Language Testing于2002年第4期出專刊討論基于任務的語言測試，這足以說明TBLA受到關切的程度。

韓寶成[1]在《語言測試的新進展：基于任務的語言測試》一文中，介紹了基于任務的語言測試的發(fā)展情況，對TBLA出現的背景及其面臨的基本問題進行了分析和探討。并指出與以語言形式或技能為重點的傳統語言測試不同的是，基于任務的語言測試是以任務為核心，測試所要評定的是應試者完成任務的表現。在重交際、重表達教學思想影響下發(fā)展起來的“直接測試”或稱“行為測試（performance test）”，通常是由經過培訓的考官直接觀察應試者完成任務的行為，采用整體評估方式，按照一個綜合語言水平量表給應試者確定級別。與此不同，在基于任務的教學基礎上發(fā)展起來的測試，既不考核應試者對語言知識的掌握程度，亦不對其語言水平評定等級，而是考察他們能否使用語言完成目標任務。

在測試與評估的環(huán)節(jié)上，任務型教學途徑秉承了交際教學思想的原則，通過考察學生完成任務的過程來測試和評估學生實際的語言運用能力。Ellis[22]認為，任務型測試和評估的設計應該能夠誘導和評價學習者在以意義為中心、并有明確交際目的的語言使用環(huán)境下的交際行為。與傳統測試相比，任務型測試與評估呈現出以下幾個變化：一是測試內容的變化；二是測試形式的變化；三是測試目的的變化；四是測試結果的變化。

Ellis[22]區(qū)分了傳統測試與任務型測試中的“任務”，認為任務型測試中的“任務”特指“能夠用來誘導和評價學習者在意義至上、目標明確的語境中交際操作行為的設計”。Ellis還對測試結果的評估提出三種形式，即直接評價法、篇章分析法和客觀等級法。

1.5 測試的內容和形式的改革

分離式測試（Discrete Tests），這一代表心理測量-結構主義階段的特征的測試方式，是過去幾十年來各大語言測試的主要測試方式，也曾引領語言測試走上了科學化的道路。分離式測試考查的是受試者孤立的語言知識和語言技能（包括聽、說、讀、寫）。并認為，各考查項之和就是對受試者語言能力的全面評價。分離式測試注重微觀的語言知識和語言技能，一般采用多項選擇的題型，所以它具有可隨機采樣，量大面廣，評分客觀，可解釋得分等提高測試信度的優(yōu)點。但是，它自身也有缺陷，那就是，分離的語言知識不等于語言運用的能力，不能真實地反映出語言交際的能力，即得高分者其語用能力不一定高，也就是測試的內容效度較低。由于對分離式測試的批評越來越多，國內外的許多有影響力的考試都開始重新采用部分綜合性試題，來彌補單一的分離式測試的不足，以此來追求信度和效度的最佳平衡，正應證了一句古語“分久必合”。

客觀多項選擇題型是語言測試史上第二階段的產物，雖然曾經風靡全球，但也存在不少弊端。測試專家Alderson[23]說：“有證據表明，參加多項選擇考試的學生能夠學會一些應試技巧，如猜測正確答案、排除毫無意義的干擾項、避免選擇兩個意義相近的選擇項等，使自己的分數‘人工地’提高許多”。另一位測試專家Hughes[24]給多項選擇題型列了六大弊端：（1）只考識別能力，所以不能準確測量應試者的水平；（2）分數中的猜測成分可以很大而且不好確定；（3）嚴重限制了什么能考、什么不能考；（4）設計出好的項目極為困難；（5）反撥作用往往不好—— 準備這種考試不是提高語言水平的最佳途徑；（6）考生作弊容易。現在仍使用多項選擇題型的所謂標準化測試還很多，例如美國著名的TOEFL（托福）和國內的大學英語四、六級考試但也已開始進行改革，在逐步加大主觀性試題的比例。

2006年5月登陸中國的新托福由四部分組成，分別是閱讀（Reading）、聽力（Listening）、

口試（Speaking）、寫作（Writing）。新托福考察更加全面，各項技能相互滲透，并且題量明顯增加。說到考察更加全面，我們知道舊托福考試只考聽和讀，說由TSE考，寫由TWE考。口語TSE考試，在過去的考試里面一直屬于可以選擇性的考試，而現在的新托福里面進入了必考內容。再有一點，客觀題走向了主觀題的趨勢，如語法取消了，語法很大程度代表了客觀題的選擇。還有我們講到各項技能相互滲透方面，從出題的形式上更加靈活了，口語寫作都是各個技能互相滲透的，比如口語部分，它先讓你閱讀，然后再聽、然后再說，寫作也是這樣的，讓你閱讀、聽、寫。這樣的話，讀、聽、說和讀、聽、寫相互滲透，更加接近生活，更加接近北美大學的生活。

大學英語四、六級改革則是近幾年國內語言測試界的熱門話題。1996年以前，四級考試中客觀題占85%，六級占75%左右。為了改變客觀題比重過大的問題，考試委員會于1995年和1996年兩次公布了擬采用的新題型，適當增加了主觀題的比例，1999年開始舉行口語考試。從2005年起，大學英語四、六級考試加大了聽力理解部分的題量和比例，增加快速閱讀理解測試，增加非選擇性試題的比例。試點階段的四、六級考試由四部分構成：聽力理解、閱讀理解、綜合測試和寫作測試。聽力理解部分的比例提高到35%，其中聽力對話占15%，聽力短文占20%。聽力對話部分包括短對話和長對話的聽力理解；聽力短文部分包括短文聽寫和選擇題型的短文理解；聽力題材選用對話、講座、廣播電視節(jié)目等更具真實性的材料。閱讀理解部分比例調整為35%，其中仔細閱讀部分（careful reading）占25%，快速閱讀部分（fast reading）占10%。仔細閱讀部分除測試篇章閱讀理解外，還包括對篇章語境中的詞匯理解的測試；快速閱讀部分測試各種快速閱讀技能。綜合測試比例為15%，由兩部分構成。第一部分為完型填空或改錯，占10%；第二部分為短句問答或翻譯，占5%。寫作能力測試部分比例為15%，體裁包括議論文、說明文、應用文等。

沒有口語考試的語言水平或能力考試算不上全面的語言測試，其效度難以保證，語言如果不用說來測，那么這將是一種語言測試最大的遺憾。

1.6 評分制度的改革

評分制度的改革也是語言測試發(fā)展的一個新亮點。科學的評分制度和分數報告體制對正確地理解和解釋分數以及科學地決策至關重要。

新托福網考（IBT）總分數為120分，每部分為30分。美國各名校對托福考試最低分數的要求由550改為80分。以下是ETS官方網站公布的新舊分數換算表（見表1）。

四、六級改革所采取的另一重要舉措也是改革計分體制和成績報道方式。改革前的英語四、六級考試分為合格和不合格，只有合格者才能拿到合格證書。自2005年6月考試起，四、六級考試成績將采用滿分為710分的計分體制，考試成績在290～710分之間，呈正態(tài)分布，均值是500分，一個標準差在70分，成績低可以到290分，高可以到710分。不設及格線，成績報道方式由考試合格證書改為成績報告單，即考后向每位考生發(fā)放成績報告單，報道內容包括：總分、單項分等。為使學校理解考試分數的含義并根據各校的實際情況合理使用考試測量的結果，四、六級考試委員會將向學校提供四、六級考試分數的解釋。

2 結語

在發(fā)展的道路上，機遇與挑戰(zhàn)同在，許多問題還有待進一步探討和研究：

（1）CALT考試在國內要推廣，對考點的軟硬件有要求，題庫的安全要有保障，考生對新考試還需要一個適應期，CALT的信效度方面的實證研究還不夠多，CALT會產生什么樣的后效，我們都要預見到。

（2）測試的內容和形式如何結合，才能最大限度地發(fā)揮它的作用，即測到我們想測的語言能力。用技能分離式還是綜合式？還是二者結合？是分多還是合多？客觀的多項選擇題，是否能適用于最新的交際語言測試或任務型語言測試。主客觀題在測試中所占的比例應該多大，才能使測試的信效度達到最佳結合點。我們的大學英語四、六級和漢語水平考試是否也應該學習雅思和新托福，考試包括聽說讀寫四項技能的綜合考察。每一項的技能的考察又不是孤立的，同時考察其他技能。

（3）語言測試應該走在語言教學的前面還是后面？是走在前面引導教學，會不會又導致應試教學？走在教學后面，是該緊跟教學的步伐還是保持適當的距離？教學前進的步伐非常快，測試的發(fā)展是否能跟得上？

（4）國內語言測試的研究，或許應該在追隨國外測試發(fā)展潮流的同時，開始建立自己的與國內教育體制相適應的測試理論和模式。

參考文獻

[1]韓寶成.語言測試的新進展：基于任務的語言測試[J].外語教學與研究，2003（5）：352-358，401.

[2]楊滿珍.20世紀90年代國外語言測試的發(fā)展[J].外語教學，2002（5）：39-47.

[3]陳冰冰.引領外語測試新方向—計算機化調適性語言測試[J].外語電化教學，2005（4）.

[4]鄭珂，申瑞民.基于Web的自適應考試系統[J].微型電腦應用，2000（1）：3-6.

[5]王路江.中國漢語水平考試（HSK）的改革與發(fā)展[J].世界漢語教學，2005（3）.

[6]何蓮珍.認知計算機適應性考試模型的設計[J].現代外語，1999（2）：172-183.

[7]曾用強.個性化自適應性測試探索[J].外語教學與研究，2002（4）：278-282，320.

[8]肖依虎，潘翠瓊，陶特.語料庫在語言測試中的應用[J].外語教學，2002（6）：93-96.

[9]黃大勇.語言測試中的真實性概念[J].語言教學與研究，2004（2）：77-80.

[10]張新元.大學英語測試質疑述評[J].外語界，2004（2）：65-69.

[11]潘之欣.語言測試中的多項選擇題型[J].外語界，2001（4）：67-74.

[12] 韓寶成.語言測試：理論、實踐與發(fā)展[J].外語教學與研究，2000（1）：47-52.

[13]Lado，R.Language Testing[M].New York：McGraw-Hill，1961.

[14]Oller，J.W.J r.Language Tests at School[M].London：Longman，1979.

[15]Douglas，D.Developments in language testing[J].Annual Review of Applied Linguistics，1995（15）：167-187.

[16]Chapelle，C. D.Douglas.Foundations and directions for a new decade of language Testing[C]//In Douglas，D. and C.Chapelle （Eds.）.A New Decade of Language Testing Research.Stermling，Virginia：Teachers of English to Speakers of Other Languages，Inc，1993：1-22.

[17]Widdowson，H.G.Teaching Language as Communication[M].Oxford：Oxford University Press，1978.

[18]Bachman，L.Fundamental Considerations in Language Testing[M].Oxford：Oxford University Press，1990.

[19]Morrow，K.Evaluating Communicative Tests，In Anivan，S.，editor，Current Developments in Language Testing[J].Singapore：SEAMEO Regional Language Centre，1991：111-18.

[20]Wood，R.Assessment and testing[M].Cambridge：Cambridge University Press，1993.

[21]Bachman，L.and Palmer，A.Language Testing in Practice[M].Oxford：Oxford University Press，1996.

[22]Ellis，R.Task-based Language Learning and Teaching[M].Oxford：Oxford University Press，2003.

[23]Alderson J et al.Language Test Construction and Evaluation[M].Beijing：Foreign Language Teaching and Research Press，2000.

[24]Hughes A.Testing f or Language Teachers[M].Cambridge：Cambridge University Press，2000.

中國科教創(chuàng)新導刊2014年1期

中國科教創(chuàng)新導刊的其它文章: 用戶信息需求變化與高職圖書館知識服務新思路; 中專院校圖書管理引入激勵理論的運用分析; 智慧圖書館時代高職圖書館服務模式研究與探討; 淺談高校圖書館的自助服務; 基于非線性思維方式和積極心理學的教學研究; 中專幼師生心理健康狀況調查研究與對策