計算機輔助英語聽說測試任務研究
——以新托福、培生學術英語考試聽說測試為例

2022-07-14 07:16:40趙劍楠

考試研究 2022年4期

趙劍楠

一、引言

聽力理解和口語表達是英語語言運用中的兩項關鍵能力。雖然在日常的英語教學與學習中，人們十分重視對聽說技能的培養，但相較于讀、寫能力而言，成效卻并不顯著，部分原因在于當前暫時缺少合理的測試手段。測試的后效作用（wash back）不突出，導致英語教學中“輕聽說，重讀寫”的問題愈發嚴重，阻礙了英語學習者語言水平的進步與發展。

計算機輔助測試（Computer-aided Testing）以其獨特優勢彌補了紙筆型及面試型測試的部分不足，通過技術手段實現了英語聽、說能力在考查形式層面的結合。目前，這種測試形式已應用于我國的中高考英語聽說測試、大學英語四六級口語測試等國家級考試之中，對英語學科的教學評價以及英語學習者的語言提升起到了積極的導向作用。

測試任務是測試構念的體現，同時也是測試信度與效度的保障。新托福和培生學術英語考試是兩項典型的機助英語測試，積累了較多的實踐經驗，受到多個國家及地區的認可。本文對計算機輔助英語聽說測試的概念、優勢及應用進行簡要介紹，并結合交際語言測試理論（Communicative Language Testing）對上述兩項測試在機助背景下設計的英語聽、說任務加以詳細分析，以期為英語聽說機考的開發者提供參照。

二、計算機輔助語言測試的優勢及應用

計算機輔助測試指利用計算機協助進行測試的一種方法，其在語言測試方面的應用被稱為計算機輔助語言測試（Computer-aid language testing），簡稱CALT。與傳統的紙筆型或面試型語言測試相比，CALT 具備五項優勢，即（1）受時空環境影響小，測試便捷度高；（2）指令說明規范，測試公平性強；（3）計算機能夠通過其強大的信息加工技術適時調配諸如圖片、音效以及視頻等多模態（multi modality）語篇，充分還原語言任務的交際情境，為受試者提供更為豐富的語境信息，較面試型測試更加靈活真實；（4）自適應語言測試（Computerized Adaptive Testing）實現了計算機與受試者輸入的實時互動，且計算機能夠根據受試者的信息反饋派發與之相匹配的測試任務，以此形成更為動態、高效、精準的測試方式，較紙筆型或面試型語言測試具有更高的信度與效度；（5）自然語言加工技術實現自動化評分，評分靈活性與準確性高[1]。

目前，CALT 在英語聽說能力測試方面的應用十分廣泛。一般而言，英語聽力能力的檢測常與紙筆型測試結合進行，而口語方面則多采用面試型測試的形式展開檢測。兩種不同的考查形式使得英語的聽、說能力獨立存在，語言的輸入與輸出環節孤立呈現，不符合語言運用的規律，同時也無法反映受試者真實的語言能力水平。此外，面試型測試還存在著諸如組織復雜、人力物力成本高、測試信度效度不夠穩定等問題。CALT 在一定程度上彌補了紙筆型與面試型測試的不足，通過技術手段做到了視、聽、說的交互結合，實現了語言輸入與輸出在考查形式上的統一。計算機輔助下的英語聽說測試任務完整性高、綜合性強，加之圖片、視頻等多模態語篇的融入，使得受試者能夠在更為真實的語境下展現自身的英語聽說能力，有助于提高測試的效度。此外，CALT通過“人機互動”的方式留存受試者的音譜信息，形成“語音證據”，可供機器或人工評分員進行多次評審，大大提升了測試的信度。

三、新托福、培生學術英語考試聽說機考任務設計介紹

新托福和培生學術英語考試是兩項典型的計算機輔助語言測試。兩項測試均對受試者英語的聽、說、讀、寫能力進行了比較全面的考查，信度、效度較高，是衡量受試者語言能力水平的較為權威的測試，測試成績得到多個國家及地區的認可。這兩項測試之所以能夠比較精準地反映受試者的英語語言能力水平，關鍵在于測試開發者對測試任務的科學設計。任務的設計離不開諸多方面的考慮，包括施考形式、測試構念、考查目標以及評分方式等因素。本研究聚焦于新托福和培生學術英語考試的聽力理解和口語表達兩個板塊。

（一）測試項目簡介

托福全稱為“對非英語國家留學生的英語考試”（Test of English as a Foreign Language），是由美國教育考試服務中心（ETS）研發的學術英語語言測試，其成績可用于本科及研究生階段的院校申請。2005年9月，托福采用網考形式，新托福由此誕生。目前，新托福已成為全球100多個國家6000多所大學認可的標準化語言測試。培生學術英語考試由培生教育集團開發，是標準化的出國留學移民類英語語言能力考試。測試作答及閱卷評分均在計算機上完成，全程無紙化。培生學術英語考試目前已獲得美國、英國、加拿大等多個國家及地區的認證。

值得說明的是，雖然新托福和培生學術英語考試均為計算機輔助語言測試，但均未采用近些年流行的自適應性測驗形式。兩項測試均為常規的計算機化測驗，各受試者所作答的試題內容一致。兩項測試在施考形式上具有較高的相似度，可比性強。

（二）測試構念、能力目標及任務類型

測試構念（Construct）指測驗所測量的概念或特性。新托福基于交際語言測試（Communicative Language Testing）理論（由語言能力、策略能力及心理-生理機制構成）進行開發，旨在反映受試者在學術語言任務環境下的真實語言能力[2]。培生學術英語考試在測試任務類型的設計上也同樣體現了交際語言測試理論的內涵。兩項測試均屬于水平性測試（Proficiency Test），主要功用是為申請留學、移民的人群提供鑒別英語能力水平的憑證。兩項測試在聽說方面的測試構念可大致理解為：測量受試者在學術環境中，理解口頭語言與有效交談的語言能力、策略能力以及心理-生理機制等。

對于理解口頭語言，即聽力能力，新托福以選擇式回答（selected responses）任務為主，包括單（多）項選擇、語意搭配等。相較之下，培生學術英語考試的任務類型則更為豐富，融入了諸如聽后總結等建構式回答（constructed responses）的任務。此類任務不僅考查了受試者的聽力能力，同時還反映了受試者理解主旨、識別要點、思維邏輯、語言組織等層面的技能。在考查受試者有效交談，即口語表達方面，兩項測試均借助CALT 計算機技術將聽、說、讀等語言能力進行整合，以觀點討論、回答問題、圖像描述等綜合性較強的口語任務為主。語言情境方面，多為常見的日常生活、校園學習和學術交流等內容。與此同時，兩項測試在進行聽說考查時，還融入了不同區域的差異化英語發音和諸如圖像、表格等多模態語篇，以此保證測試的相對真實。

表1 新托福與培生學術英語考試聽力及口語任務細目表

（三）評分標準及成績報告

新托福聽力采用機器評分，口語方面則通過評分員遠程集中盲評的形式進行。評分員在評分開始前均需接受統一的訓練與嚴格的考核，以確保充分理解評分標準，保證最終評分質量。培生學術英語考試全程采用人工智能評分，機器深度學習算法后對受試者的聽、說任務作答情況進行評價。

聽力評分標準方面，新托福聽力以客觀性任務為主，機器依照任務的既定分值進行賦分即可。相較之下，培生學術英語考試的聽力任務更為多樣，評分辦法也相對復雜。例如，在多項選擇題中，受試者如存在誤選情況，則會進行分數的倒扣；涉及聽、寫能力相結合的建構式任務，還需視受試者的具體作答情況，制定相應的容錯機制。

口語評分標準方面，新托福采用綜合法（Holistic Approach）評分辦法，對受試者完成測試任務的整體情況進行打分。各口語任務分別設置5 個分數檔位，且各檔均附有整體描述（General Description）、內容傳達（Delivery）、語言使用（Language Use）以及主題發展（Topic Development）四個維度的描述，以幫助評分員進行評判。培生學術英語考試則采用分析法（Analytic Approach）評分的方式進行，其評分依據為培生教育集團自主研發的全球英語水平測量標準（Global Scale of English）[3]。計算機對受試者完成各項口語任務的內容（Content）、發音（Pronunciation）、流利性（Oral Fluency）等維度進行分析并賦分，最終合成該任務的整體分數。雖然培生學術英語考試采用全機器評分，但其評分結果同人工評分有著較高的一致性。研究顯示，培生學術英語考試口語人工評分與機器評分相關度高達0.96，口語部分整體信度為0.91[4]（Pearson，2009）。

成績報告方面，新托福除報告受試者整體成績外，還會相應顯示受試者在聽、說、讀、寫四個方面的分項成績。培生學術英語考試的分數報告則更為精細，共包含三個板塊，即考生信息、總體得分、能力分析等，每一板塊都通過文字或圖表的形式對受試者的作答情況進行解釋與說明。

四、新托福、培生學術英語考試聽說機考測試任務分析

（一）充分利用CALT優勢，語境真實，任務豐富

相較于紙筆型和面試型測試，CALT 具有獨特的優勢，這些優勢為英語聽說能力的科學測評提供了條件。新托福、培生學術英語考試聽說測試充分利用CALT技術，提高了測試的真實有效性。

語言測試的“真實性”通常指測試任務與目標語在真實情境中語言使用的吻合程度，是影響測試效度的重要因素[5]。以英語口語測試為例，基于“人人交互”的面試型測試雖能直觀地反映出受試者的語言能力水平，但因考官固化的“話術體系”，受試者機械的“作答模板”，以及程式化的“一問一答”流程，并非完全貼合現實生活中的交際環境，存在著一定的“非真實性”弊端。結合語言測試學的認知效度理論，測試的設計和開發應充分考慮受試者在真實語言使用環境中所經歷的認知過程，并盡可能使受試者在完成考試任務時經歷相似的認知過程，以支持測試分數的解釋和有效使用[6]。新托福與培生學術英語考試口語測試除在話題選材方面保證了相對真實外，兩項測試還充分借助CALT 的技術優勢，融入了諸如獨立語篇、連續文本、圖片表格等多模態語篇用于口語能力的考查，拓寬了受試者的信息輸入渠道，豐富了受試者的作答形式，在一定程度上緩解了面試型測試存在的問題。同時，CALT 下的英語聽說測試也充分反映了當下日常交際的“新形式”，即隨著信息技術的不斷發展，除單一的人際交往外，人類同各種形式的“多模態因素”的溝通互動也變得愈發密切。

語言使用任務通常指在特定的情境中，個人為實現特定目標而使用語言完成的具體活動[7]。基于CALT 技術的兩項測試在語言使用任務的設計方面各具特色，且類型十分豐富。對于英語聽力能力的測量，以往多以紙筆型測試的形式進行考查。為便于在紙質卷面上進行呈現，英語聽力測試主要以單（多）項選擇等客觀類測試任務為主。此類測試任務十分經典且優勢突出，但單一的任務類型僅能反映受試者有關聽力的個別能力，并不能全面體現受試者使用語言而達成的特定目標。借助CALT技術，新托福與培生學術英語考試在聽力任務的設計上加以創新，增設了諸如排序、搭配、標記以及聽后寫作等任務，極大豐富了聽力測試的任務類型，受試者也基于不同的任務類型表現出了更為全面而多樣的語言能力，起到了有效交際的效果。

（二）遵循交際語言測試理論，注重英語聽說能力的整合性考查

新托福與培生學術英語考試的聽說任務均反映交際語言測試理論的理念與內涵。20 世紀90 年代，語言測試學者Bachman 提出“語言交際能力”這一概念，并指出語言交際能力就是把語言知識和語言使用的情景結合起來，創造并解釋意義的能力；該理論主要由語言能力（語法能力、語篇能力、功能能力、社會語言能力）、策略能力（評估、確定目標、制定計劃、實施）和心理-生理機制三個部分構成[8]。

長久以來，多數語言測試受結構主義（the Structuralism-Psychometric Approach）影響，認為整個語言系統可以解構為若干個細小的語言單位，如語音、語法、詞匯等，且可進行單獨測量[9]。基于這一理論，以往的英語聽說能力測量簡單地劃分為“聽”與“說”兩個獨立的板塊，單一且割裂。但隨著語言研究的不斷深入，人們開始意識到，在語言學習的過程中，除應掌握各類不同的語言知識外，還應具備綜合運用各項語言技能的能力。新托福和培生學術英語考試遵循交際語言測試理論，其聽說測試強調受試者通過靈活運用聽、說技能解決實際問題的能力。以新托福的某一口語任務為例，該任務要求受試者先在規定時間內閱讀一篇語篇，閱讀完成后聽取一段相關主題的音頻，最后結合所閱讀的語篇及收聽的音頻，口頭回答一個問題。根據交際語言測試理論，本題所反映的相關能力如圖1所示：

圖1 基于交際語言測試理論的新托福某口語任務設計分析

該測試任務設于新托福的口語測試部分，所考查的目標自然以受試者的口語表達能力為主。但經過分析，該任務在測量受試者口語能力的基礎上，通過CALT 技術將英語的讀、聽、說等語言技能進行整合，對受試者的語言能力、策略能力以及心理-生理機制進行了全面而綜合的考查，形成了從語言輸入到輸出的完整閉環。作答該任務時，受試者首先需依靠語法、語篇、社會語言等語言能力閱讀語篇；再次，受試者通過聽力能力收聽音頻，獲取更多的內容信息；最后，受試者通過邏輯評估、目標計劃等策略能力進行內容整合、邏輯梳理、語言組織并最終形成口語輸出。與此同時，受試者在話題內容、素材情節等任務元素的引導下，勢必會激發出其內在的心理-生理機制，由此表現出不同層面的語言或非語言能力，形成獨有的“自主性”反饋，而這也真實反映了人們在實際語言交際過程中所經歷的心理、生理變化?；诮浑H語言測試理論的測試任務充分調動了受試者有關英語聽說方面的各項能力，符合語言交際與使用的規律，在一定程度上緩解了原結構主義語言測試存在的問題。

（三）基于不同評價理念的評分辦法，成績報告反撥作用強

新托福與培生學術英語考試均采用機評方式對受試者的聽力作答情況進行評閱?？谡Z方面，因其測試任務開放性大，受試者作答主觀性強，一直是英語測試評分中的難點。因此，選擇恰當的評分方式，制定合理的評分標準則尤為關鍵。新托福和培生學術英語考試基于不同的評價理念，在口語評分的評分方式、評分辦法以及評分標準等方面各有不同，具體情況如表2所示：

新托福采用多人參與的綜合法評分辦法對受試者的口語能力進行評價。評分員通過對受試者完成測試任務的整體情況進行打分，較為宏觀，注重受試者的綜合語言運用能力。培生學術英語考試則采用機評下的分析法評分方式對受試者的口語能力進行評價。通過對受試者口語表達的內容、發音、流利性等微觀維度進行賦分，較為細致，注重對受試者語言使用的不同側面進行評價。不同的評分方式及辦法也側面反映了兩項測試口語任務的不同特點：以人工綜合法評分為主的新托福側重受試者的整體交際效果，故其口語測試任務的開放性更大；而以機器分析法評分為主的培生學術英語考試側重具體語言知識，故其口語測試任務的語言技能針對性更強。

兩項測試在考后都為受試者提供了細致全面的成績報告。以培生學術英語考試為例，其成績報告一般分為三個部分，即受試者信息、總體得分以及能力分析。其中，總體得分是對受試者整體表現的評價，除顯示分數外，還附有詳細的文字說明。能力分析部分則分為交際技能分（Communicative Skills Scores）和語言運用技能分（Enabling Skills Scores）兩個維度[10]。前者是對受試者聽、說、讀、寫能力的評價，后者則是對受試者語法、口語流利程度、發音等具體情況的解釋，由粗到細，為受試者的語言能力提供全方位的評價。此外，培生學術英語考試還深入開展分值的對標研究，通過自主研發的全球英語水平測試標準，精細化分數標準顆粒度（10-90 分），同歐洲語言共同參考體系、雅思、新托福等國際重要語言標準及測試進行對接，以幫助受試者更加全面而精確地預估、比較自身的語言能力水平。

五、計算機輔助英語聽說測試任務設計的啟示

（一）借助機考平臺技術優勢，保證測試任務的多樣性與情境的真實性

計算機輔助測試是語言測試形式的一大發展。該測試形式不僅延續了紙筆型與面試型測試的各項特征，同時還具有一些獨特的優勢，即通過技術手段實現了上述兩種測試形式所無法呈現的內容。這不僅為英語聽說測試的開發提供了有利條件，同時也為英語聽說任務類型的豐富提供了良好的契機。測試開發者應充分借助計算機輔助語言測試的技術優勢，打破固化測試思路，勇于創新，力爭從單一的任務類型向多元的建構式任務進行轉變。這種轉變不僅能夠緩解原諸多英語聽說測試中僅對個別能力進行檢驗的弊端，同時還能夠反撥受試者英語聽說能力的全面發展。此外，測試開發者還應充分考慮受試者的語言交際實際，結合認知效度理論，通過計算機輔助語言測試技術融入更加多元的多模態語篇，以進一步保障測試的真實性與有效性。

（二）基于語言的交際功用導向，注重英語聽、說能力的整合性考查

受結構主義測試影響，在以往的英語測試中，各項語言能力與技能通常進行分項、獨立考查。這種測試方法雖能直觀地檢驗出所要考查的目標能力，但卻具有一定的弊端，造成眾多英語學習者雖能夠熟練掌握諸如語音、詞匯、語法等語言知識，但卻無法將這些技能整合，用英語進行自如表達，其部分原因就在于對整個語言系統的割裂化認識。在語言運用的過程中，各種語言技能往往不是單獨使用的，理解性技能（聽、讀）與表達性技能（說、寫）可能會同時存在。因此，測試開發者在進行英語聽說測試任務的設計時，應以語言的交際運用為導向，結合交際語言測試理論，通過計算機輔助語言測試技術將有關英語聽力與口語的能力進行整合。在考查語言知識的同時，設置一定比例的綜合性語言任務，調動受試者的語言能力、策略能力以及心理-生理機制，以此激發受試者通過運用語言解決實際問題，實現有效交際的能力。

（三）確定合理的評分辦法，突出測試的診斷反撥效果

英語口語評分通常包括分析法評分和綜合法評分兩種辦法。分析法評分注重語言使用的不同側面，側重語言的具體知識與技能。綜合法評分強調受試者的綜合語言運用能力，側重受試者完成語言任務的整體情況。測試開發者應結合具體的測試目標選擇相應的評分辦法。此外，測試開發者還應關注成績報告的設計。目前，國內大部分的英語測試僅向受試者報告其最終分數，受試者對自身語言能力的認識并不清晰，測試對語言學習的指導意義不強。測試開發者可以參考本文中兩項測試的成績報告設計思路，優化成績報告的內容維度，對受試者掌握各項語言技能的情況進行詳細說明，幫助受試者進一步明確需加強的重點，真正起到測試的診斷與反撥作用。

六、結語

計算機輔助測試在語言測試領域中的應用愈發廣泛。其獨特優勢為英語聽說測試的開發與實施提供了良好的條件與契機。新托福與培生英語考試是兩項較早基于計算機輔助測試開發的考試，積累了較多的實踐經驗。本文聚焦上述兩項測試的英語聽說部分，對其測試開發理念、測試構念、任務類型、能力目標、評分方法等方面進行了細致探究，并提出了在當今計算機輔助測試的熱潮下，英語聽說測試任務設計與開發的思考之處，以期為相關測試的開發者提供參考。

計算機輔助英語聽說測試任務研究——以新托福、培生學術英語考試聽說測試為例

一、引言

二、計算機輔助語言測試的優勢及應用

三、新托福、培生學術英語考試聽說機考任務設計介紹

（一）測試項目簡介

（二）測試構念、能力目標及任務類型

（三）評分標準及成績報告

四、新托福、培生學術英語考試聽說機考測試任務分析

（一）充分利用CALT優勢，語境真實，任務豐富

（二）遵循交際語言測試理論，注重英語聽說能力的整合性考查

（三）基于不同評價理念的評分辦法，成績報告反撥作用強

五、計算機輔助英語聽說測試任務設計的啟示

（一）借助機考平臺技術優勢，保證測試任務的多樣性與情境的真實性

（二）基于語言的交際功用導向，注重英語聽、說能力的整合性考查

（三）確定合理的評分辦法，突出測試的診斷反撥效果

六、結語