中國語言測試之源與流

2019-01-04 00:46:03何蓮珍

浙江大學學報(人文社會科學版)預印本 2019年10期

何蓮珍張娟

(浙江大學語言與翻譯系，浙江杭州 310058)

現代意義上的語言測試于20世紀60年代初被確立為應用語言學的分支學科[1]，是語言教學活動的重要環節之一[2]。在中國，外國語言學及應用語言學的創立要歸功于學界泰斗桂詩春。憑借其敏銳的學科洞察力和前瞻力，桂詩春牢牢把住了應用語言學在我國發展的時效性和必要性，王宗炎稱他為“不知疲倦的開山大力士、不言歇息的開路領航人”[3]4。隨著應用語言學在中國的興起，語言測試這一分支得以開花、結果。自桂詩春主持開發我國首個英語水平考試(English Proficiency Test，EPT)以來，我國的語言測試在其指引下不斷在現代化道路上前進。桂詩春作為我國引進標準化考試的第一人，被譽為“中國語言測試之父”[4]359。

新中國成立以來，理論、技術、方法的引介和創新為我國語言測試的發展持續注入了生命力。本文著眼于語言測試在我國的發源、實踐與走向，嘗試在新中國成立七十年，尤其是改革開放四十年的歷史畫卷中，描繪我國語言測試學者所做出的有益探索，提出三個值得進一步研究的方向，以促進我國測試研究的科學化、系統化。

一、中國語言測試之源

高考制度的恢復為我國語言測試的發展提供了契機。囿于我國當時教育測量學基本理論及研究方法不足，科學的考試幾乎無法有效開展。桂詩春積極引入國際主流的測試理論，為標準化考試的自主研發提供理論支持。1978年對我國語言測試領域而言具有里程碑式的意義，主要體現在四個方面：第一，我國第一個應用語言學碩士點在廣州外國語學院設立；第二，我國第一份外國語言學及應用語言學學術刊物《現代外語》在廣州外國語學院創刊；第三，全國首屆外語教育座談會在京召開[5]；第四，由桂詩春主持、我國自主設計的EPT項目啟動[4]。

EPT是中國有史以來第一次引進國際現代考試科學理論，把考試作為一門科學建立起來的全國性考試，也是我國首次取得國際承認的考試，其連年舉辦為我國哺育和造就了第一批考試科學人才[3]3。EPT最初用于測量出國留學人員的英語水平，其目的是預測考生的托福紙筆考試成績，避免其因英語尚未達到一定水平，在正式托?？荚囍械貌坏嚼硐敕謹刀斐赏鈪R浪費。EPT與托福紙筆考試成績的相關系數高達0.86[6]。EPT的設計與開發為我國標準化考試改革積累了寶貴經驗。

我國另一項早期的語言測試實踐是高等學校入學英語考試(The Matriculation English Test，MET)。20世紀80年代初，我國的英語教學觀嚴重滯后，從中學到大學，幾乎無一例外地將語言作為知識而非能力來學習。對此，李筱菊首先撰文介紹了“交際能力”這一概念及與之相對應的交際教學法，即同時注重語言知識、技巧和能力的培養[7]，并于1987年出版了《交際英語教程》[8]。然而，要想從整體上改變中國的語言教學觀，寫文章、出版教材對教學的影響遠不及考試。意識到這一問題后，“廣外雙杰”桂詩春與李筱菊決定從考試入手，改變我國外語教學“重知識、輕能力”的教學觀，通過考試的正面反撥效應推動外語教學改革。1982年，桂詩春及其團隊開發了MET，引進了第一臺光電閱讀器，研發了我國第一個題項分析軟件GITEST。1985年，廣東省高考標準化改革試驗開始，拉開了我國考試現代化改革的序幕[9]。1989年，MET推廣至全國，并更名為National Matriculation English Test(NMET)。結合我國考生規模大、水平差異大的特點，桂詩春等摸索出了符合中國國情的標準化考試改革的基本經驗[10]。MET堅持在現代教育測量學和教育統計學的理論指導下進行統計分析，試驗期間，桂詩春團隊對MET的成績分布、題項分析、評卷誤差控制、標準分及常模等進行了逐項報告[11]。這項改革于國內而言，“創建了我國有史以來第一個全國規模的標準化考試，使我國考試科學從理論到實踐都開創了一個新紀元”[3]3；于國際而言，在超大規模選拔性考試的標準化方面，測試理論、技術難題均實現了突破。

伴隨著EPT、(N)MET等測試實踐的開展，桂詩春結合標準化考試的設計和組織經驗，從以下四個方面提出了一系列觀點和主張，為語言測試學科的發展筑路鋪石。第一，呼吁學界開展教育測量學研究，鼓勵學界用不同的測試手段和統計方法檢驗教學效果，實現考試領導體制上的制度化、組織上的專業化、方向上的標準化和技術上的電腦化[12]。此外，桂詩春身體力行，在引介項目反應理論(Item Response Theory，IRT)的同時，倡導并實踐計算機技術在語言測試中的應用[13]。第二，將認知科學引入語言測試，提出了以認知信息處理模型(Cognitive Information-Processing Models,CIP)為基礎的語言測試，并嘗試在閱讀測試及評分中應用該模型[14]。第三，呼吁制定亞洲統一的英語語言能力等級量表，促進亞洲地區語言教學和語言測試的發展[15]。第四，關注語言測試的多維性，發揮考試的正面反撥效應?？荚嚨膬灹尤Q于內部和外部雙重因素。內部因素主要指考試本身的質量，包括考試的信度、效度及區分度等；外部因素則主要指考試管理的公平性、考試結果使用的正確性及考試結果誤用的可能性[16]。相應地，建立考試的黃金法則須從內部、外部兩方面入手[17]。桂詩春為我國外語考試建基立業，為我國語言測試與教學的良性發展開拓疆域，更為我國的測試從業人員留下了一座巨大的寶庫。

二、中國語言測試之實踐

(一) 考試的內部因素

我國的語言測試學者探索了一系列新理論、新技術與新方法，從測試內部問題入手，穩步提升語言測試的科學性。

語言測試在理論層面的研究呈現出明顯的跨學科特征，認知科學、教育測量學、心理學及隸屬于應用語言學范疇的二語習得均為測試的研究與實踐提供了思路。自桂詩春引介IRT,闡明其相較于經典測量理論的優點[13]之后，多層面Rasch模型(MFRM)作為項目反應理論的延伸被廣泛應用于評分的信度研究。何蓮珍、張潔對某次大學英語四、六級口語考試的成績進行分析，運用MFRM明確了測量誤差的來源及其大小，對提高評分信度具有一定參考價值[18]。借鑒二語習得的最新研究成果，韓寶成撰文介紹了動態評價(Dynamic Assessment，DA)理論，DA視域下的測評將教學、評估、干預、診斷、培訓等環節有機結合，更加關注學習者未來的發展，不失為“以評促學”的有效實現手段[19]。此外，“續理論”與心理學領域的互動協同模型一脈相承，推動了語言測試新題型的設計[20]。

技術的進步改變了傳統的施考方式，使考試形式、內容、評分、統計及成績報告體系日臻完善，在大規模和個性化測試中均有廣闊的應用前景。大規模測試中，各次考試分數的等值是標準化考試的基本要求之一。為建立穩定標準，結合我國高考考情，桂詩春等在廣東省率先應用(N)MET等值統計模型，通過在固定觀察點考同一套平衡試題的方法，考查考生水平、題目難度與歷年相比有無較大變化，為成績的縱向對比提供有效參考[10]。另外，教育部高等教育司于2007年5月啟動了基于計算機和網絡的全國大學英語四、六級考試項目(CET)，初步探索了我國大規模考試實施網考的設計原則[21]，并驗證了網考效度[22]。繼CET主觀題自動評分系統投入使用后，翻譯和寫作人工智能評分系統的開發極大地提升了閱卷效率[23]。一些大規模考試開始采用計算機輔助口語考試形式以避免考官因素對口語考試構念的影響，如NMET[24]、全國英語等級考試(PETS)[25]。與之相適應，智能化口語評分技術應運而生，彌補了人工評分主觀性強、成本高、閱卷人員易疲勞等劣勢，在復述題[26]、朗讀題[27]等題型的自動評分中均得到了應用。在個性化測試中，曾用強關注測試過程及考生個體心理差異，探究了個性化自適應測試模型，并在題項選擇標準中引入自信心這一認知因素，使測試過程更加個性化[28]。黃妍、何蓮珍開創性地使用三參數多級評分等級模型擬合題組，開發了自適應聽力測試系統，測試效率及信度均大幅提升[29]。

新方法的應用拓寬了語言測試學科的疆域?；谡Z料庫的研究方法為效度驗證和自動評分系統的研發提供了有效手段。在建立英語專業寫作教學語料庫的基礎上，曾用強嘗試用語料庫方法開發診斷評估系統，開展個性化教學[30]。He和Dai運用語料庫方法，輔以會話分析手段，考查了大學英語四、六級口語考試中小組討論題型的效度[31]。此外，新的統計方法和工具也不斷涌現，如結構方程模型[32]和Coh-Metrix文本分析工具[33]。

(二) 考試的外部因素

進入21世紀，學界開始轉向對語言測試外部因素的關注。一方面，語言測評是檢測語言學習、提供教學反饋的有效手段；另一方面，測試成績常被用作決策依據，決策風險高低有別，高風險測試的結果會影響考生、相關機構乃至整個社會[34]。楊惠中和桂詩春將考試置于社會環境中加以審視[16]；何蓮珍和呂洲洋認為，批判語言測試視角下的測試在教育領域實質上變成了控制測試利益相關者行為的有效工具，滲透著濃重的權力色彩[35]。

考試反撥效應是考試效度不可分割的一部分[36]，李筱菊將其歸為超考試效度[37]。我國學者從考試與教學的關系入手，開展考試反撥效應研究，為測試形式與內容改革及語言教學提供了有效反饋。亓魯霞深入高中英語課堂進行觀摩，并通過問卷調查與訪談，發現中學英語教學并不能有效提升學生的英語交際能力。該研究對NMET和外語教學改革具有重要的參考價值[38]。

三、中國語言測試之走向

回顧過去七十年語言測試在我國的實踐，筆者認為在深度融合教學與評價的過程中，學界需要繼續探究如何提升考試的科學性、如何有效應用《中國英語能力等級量表》(簡稱《量表》)以及如何對考試的社會性予以關切。

(一) 穩步提升語言測試的科學性

社會呼吁完善的外語能力測評體系。我國現存外語考試項目眾多、標準各異，考查內容或重復，或斷檔，直接導致試題本身的科學性存疑，評分、成績解釋等方面存在的問題更是不一而足。2014年，國務院頒發《關于深化考試招生制度改革的實施意見》，第一次從國家層面明確提出要加強“外語能力測評體系建設”。自2015年起，“國家英語能力等級考試”研發團隊從我國教學與測評現狀、能力需求、對外語考試改革的建議三個方面入手，進行了大規模調研，發現我國的外語測試缺乏統一標準，考查內容及反饋不足，對教學的反撥效應不佳，且國際認可度不高[39]。因此，科學的考試體系需以先進的理論為指導，以常態化的效度驗證作支撐，以促學為宗旨。

一項科學的語言測試必須有科學的測試理論作支撐?？v觀我國幾大高風險語言測試的題型改革，我們可以清晰地看到這一點。(N)MET、CET及英語專業等級考試(TEM)的題型改革體現了三個“注重”：注重考生的語言綜合應用能力，注重測試任務的真實性，注重考生的語言交際能力。1978—1988年，(N)MET的考查重點為語法、詞匯等語言知識，聽力、閱讀、寫作能力的考查嚴重缺位；1989年，啟用了書面表達題；2003年起，全國開始統一使用含聽力考試的英語試卷；2016年，新研發的讀后續寫和概要寫作替代了原短文改錯，讀寫結合，旨在考查學生獲取信息、處理信息及英語書面表達的綜合能力[9]。CET自1999年開始實行口試，體現了大學英語教學對學生英語口頭交際能力的基本要求；2005年的改革提高了聽力理解分值，并強調聽力材料來源于真實語料；2013、2016年的題型改革對聽力與閱讀題型進行了微調，注重考查學生的篇章理解能力。類似地，TEM-8閱讀理解部分在2015年的題型改革后新增了簡答題，寫作部分由原來以議論文體裁為主的話題作文改為材料作文，要求考生在總結閱讀材料的基礎上，撰文發表自己的看法。以上高風險測試中題型的調整均以先進的測試理論為依據，考試的科學性也得以穩步提升。

貫穿測試開發、實施和使用過程的是效度驗證[34,40]。Oller認為，沒有效度的考試不能稱其為考試[41]。Messick將分數解釋的有效性和測試結果的使用納入統一框架進行考量，認為考試的效度不僅關乎分數解釋，更關乎使用考試結果帶來的社會影響[36]。“評估使用論證”(Assessment Use Argument，AUA)不失為一個理想的、具有極強操作性的效度驗證框架。該框架幾經修訂，于2010年正式問世[34]。AUA提倡通過四條主張收集效度證據：(1)測試結果的使用對所有涉考者有益；(2)基于測試所做的決定需考慮現有的教育及社會價值觀和相關法律法規，且對受決定影響的涉考者而言是均等的；(3)對學生語言能力的解讀需有意義、公平，且能夠為決策提供足夠信息；(4)即使測試任務、測試過程和被測試者不同，測試記錄仍需具有一致性。效度驗證在一項考試開考之前就應被納入考量范圍，開考后，需建立常態化的效度驗證機制，為考試科學性提供保障，為分數的解釋和使用保駕護航。

考試應產生積極的導向作用，服務教學。學界可以從評價方式、新題型研發與測試反饋等方面著手，發揮考試的促學功能。其一，以更加個性化的評價方式促學。認知診斷測試能夠對學生語言學習過程中的問題進行診斷，教師能夠利用診斷信息及時調整教學內容和教學方式，提供個性化教學，從而發揮教師的中介作用以達到有效促學的目的。自桂詩春提出以CIP為基礎的語言測試[14]以來，學界對測試過程給予了更多關注。我國語言測試學者承襲了桂詩春的觀點，嘗試將IRT與CIP相結合，聚焦計算機認知自適應語言測試，使我國的語言測試研究與國際接軌[42-43]。認知診斷測試充分體現了以評促學這一理念，有助于教師診斷考生的語言能力，及時有效地提供補償性干預。然而，目前認知診斷測試研究多集中于閱讀技能，聽力方面的研究鳳毛麟角，口語、寫作方面的研究更是鮮有涉足，基于網絡的認知診斷測試模型及其實證研究目前尚無人問津。鑒于我國考生群體基數大的國情，開展這方面的研究具有極大的理論價值與實踐意義。其二，以新題型的設計與應用促進學生語言綜合運用能力的提升。諸多研究表明，隨著考試風險的提升，備考實踐強度也會增強[44-45]。我們期待通過對新題型的備考，發揮考試的正面反撥效應，為學生今后的學術生涯打下良好基礎。其三，以豐富和完善的評價反饋體系促進學習。我國多數語言測試項目的成績報告比較單一，不利于成績的有效使用。未來的語言測試項目在成績報告中需兼顧總分與分項分，兼顧量化及質性分數解讀，兼顧不同分數使用者的多元化需求。

(二) 積極探索《量表》的應用

對于如何在外語學習、教學與測評之間架起一座橋梁，國家層面及測試學界均給予了熱切關注。《量表》的研制正是為了解決我國教育體系中存在的教學與測試目標分離、考試標準不一、英語學習不連貫、語言能力等級劃分模糊等問題。學界對《量表》的研究基本圍繞本體規劃展開，集中在《量表》研制的理論基礎[46]、總體原則[47]、內在結構[48]、效度驗證[49]等方面。

經過三年多的研發，《量表》于2018年2月由教育部、國家語言文字工作委員會正式發布,國際重要語言考試與《量表》的對接研究隨之展開。國內外學界對《量表》及相關研究均給予了高度關注。

我國的考試項目眾多，考試與《量表》的對接研究及效度驗證在近期也成為一大研究熱點。然而，目前的對接研究中，證據搜集缺乏系統性，且未考慮對接結果使用的后效是否有益。為解決上述難題，基于AUA框架，何蓮珍提出了對接使用論證(Linking Use Argument，LUA)框架，主張從對接后效、對接決策制定、對接結果解釋和對接記錄等方面收集證據，為開展規范的對接效度驗證提供了理論指導[50]。此外，已有學者基于LUA進行了接受型語言考試與語言標準對接[51-52]、產出型語言考試與語言標準對接[53]的研究，對后續的相關研究提供了有效的方法參考。

除對接研究外，《量表》的應用潛力有待進一步挖掘，包括考試研發與改進、英語教學、教綱編寫、課程設計、教材開發等多個領域。測試研究人員應同廣大教育工作者一起用好《量表》，保證考試質量，促進多元評價體系的建立，培養高素質外語人才。

(三) 持續關注考試的社會性

目前多數語言測試研究聚焦考試的內部因素，對測試產生的反撥效應及社會影響關注不足。在有關反撥效應的研究中，較少關注NMET、考研英語等高風險測試。此外，多數研究僅關注測試、教學、學習之間的線性關系，忽略了其中錯綜復雜的動態變化。未來的研究可從動態系統理論視角入手[54]，重新審視測試的反撥效應。我們必須清醒地認識到，考試正面反撥效應的強化和負面反撥效應的弱化并不是語言測試工作者單憑一己之力就可以做到的，需要社會各方面的協同努力[55]。

此外，語言測試道德準則和行為規范的制定是測試專業化的重要標志，也是實現公平測試的重要途徑[56]，國際語言測試學會已經制定了道德規范與行為準則。在此背景下，國內已有學者提出制定我國語言測試的行業標準[57]。如何保證測試的公平性，提升利益相關群體的測評素養，減少對測試的誤用、濫用，回歸測試開發的初衷，仍然是值得繼續深究的主題，我們期待更多關于語言測試社會性的理論研究與實證研究。

本文聚焦新中國成立以來，尤其是改革開放以來，語言測試在我國的發端與發展，結合我國語言測試領域的研究與實踐，提出了三個值得進一步研究的方向，以期實現測試與教學的深度融合，提升涉考者的測評素養，并呼吁社會各界關注語言測試的社會性。我國外語能力測評體系建設關乎教育政策的落實，關乎英語課程與考試改革的成敗，需要相關領域的專家學者與教育行政部門、教育機構共同努力，攜手推進我國外語教育事業的蓬勃發展。