(東北大學外國語學院 遼寧 沈陽 110819)
一直以來,我國的研究者們都在不斷地對計算機輔助語言測試的歷史和現狀進行研究,一方面是對計算機輔助語言測試在國內外的發展追蹤研究,另一方面也試圖結合中國教育和測試的實際情況,順應語言測試今后在互聯網、大數據、人工智能等高新技術的發展趨勢,努力沖破傳統考試的缺點和局限,為我國的語言測試發展做出不懈努力。
從周珊珊(2018)對2011-2015年國外語言測試研究熱點的綜述中發現,近幾年國外對計算機輔助語言測試的研究逐漸減少,說明在新托福(網考)改革的風浪過后,學者們對計算機輔助語言的研究熱度大幅下降。但盡管如此,國外對計算機輔助語言測試的研究取得了十分顯著的成效。計算機輔助語言測試打破傳統書面測試的時間和空間的限制,發揮其巨大的互聯互通、及時可控的優勢,成為語言測試研究的未來式。相對地,在我國計算機輔助語言測試研究現狀中,張艷和張俊(2017)對1999-2015年我國外語類主要核心期刊上發表的相關研究論文為主要依據,對我國計算機輔助語言測試研究的進行概括和總結,并對取得的成就和存在的問題進行思考和分析。同時隨著新托福考試在全世界范圍的傳播和認可,其測試的信度和效度也成為許多學者研究的重點,無論是從考試形式,還是從信效度分析,對我國英語教學和考試改革都具有重要而深刻的啟示。
在我國,每年都有龐大的學生群體參加中國設置的語言測試,這些考試均采用書面答題的形式。而對于一些有出國留學打算和工作目的的學生們來說,托福、雅思、GMAT等國外設置的考試也逐漸走入學習生活。但目前來講,在眾多的語言測試中,托福考試實現完全的網考,成為計算機輔助語言測試的典型代表,這無疑是一項重大的測試改革。現如今,國內外對計算機輔助語言測試的研究正在不斷地更新和深入,對新托福的測試信效度也從未停止腳步,但對計算機輔助語言測試和新托福(網考)兩者的相互關系進行的深刻討論和研究卻不算多。
計算機技術對語言測試與評估越來越產生著巨大的影響。特別在測試管理、試題設計編寫、任務呈現、評分、成績分析與報道等方面,計算機的高效率受到越來越多大規模語言測試開發和管理者的青睞(Alderson&Banerjee 2002)。計算機輔助語言測試是指受試者直接在計算機上操作進行的語言測試;還可指教師在計算機上對掃描到計算機里的試題進行批閱,并對測試的結果進行數據統計分析或形成成績報表。新托福考試便是受試者直接在計算機上進行語言測試,而我國目前大多數的考試采取網上閱卷的形式,都是計算機輔助語言測試的范疇。現代語言測試的語言學基礎經歷了數次革新,測量學理論由經典測試理論(Classical Test Theory)發展到概化理論(Generalizability Theory)和項目反應理論(Item Response Theory,IRT)(李清華 2006)。
提到計算機輔助語言測試的同時,有必要對計算機自適應性語言測試進行解釋和說明,新托福便是基于這樣的系統環境。計算機自適應性語言測試是基于項目反應理論(Item Response Theory or IRT)的一種測試,它又被稱作“量體裁衣測試”(Tailor Test),是一種基于具備大容量和大跨度的題庫運行的計算機測試系統。在這種系統的運作模式下,通過實時網絡傳輸監控受試者的具體答題情況,同步地進行試題難度調整,最后自動生成一套與測試者語言能力對等的試題,并對受試者的答題情況給予相應的考量和評估。
網絡化語言測試只是在計算機輔助測試(CAT)單機測試的基礎上發展出來的,基于網絡的語言測試,IBT最理想的形式仍然是自適應性的語言測試,被稱為基于網絡的個性化適應性語言測試。新托福考試是這種形式的典型模式。這種測試可增強語言測試的真實性,對試題題目給出詳細的分析,并為考生提供人性化的成績報告單。
TOEFL意識到語言能力是一個連續的、動態的、不斷變化發展的過程。TOEFL IBT 考試方式充分應用了聽后再說(1isten to speak)、讀后再說(read to speak)、聽讀后再說(1isten and read to speak)、聽讀后再寫(1isten and read to write)的創新模式,對語言技能進行綜合測試,同時更為全面地對考生的語言能力進行測評。Bachman(1990)提出交際語言能力(CLA,Communicative Language Ability),由語言能力(language competence)、策略能力(strategic competence) 和心理生理機制( psycho-physiological mechanisms)三部分組成。它的這一模式有兩個顯著的特點,一是對語言交際能力的認識更為全面、深刻,二是指出了測試工具與目標語言情境的關系。此外,他還提出了語言測試的“真實性程度”( degree of authenticity) 問題,把它作為開發、評價一項測試時的標準(李清華2006)。
TOEFL考試比較徹底地從重視語言形式轉向重視語言運用,主要體現在從語法和詞匯到組句成章,從語法能力到語言能力,從語言能力到交際能力,從交際能力到語用能力到跨文化交際能力。但由于TOEFL考試對語法功能的削弱,也會使一些學生對語法等基礎語言知識的忽略,這也是在語言教育和學習中需要提起重視的一點,無論是語言基礎知識還是語言應用能力都是同等重要的。
托福考試要求考生依次完成讀、聽、說、寫四個部分的測試,每個部分滿分30 分,總120分。閱讀、聽力、口語、寫作四個部分各有側重,話題涉及文學、政治、經濟、科學、藝術等多個學科,甚至創設了真實的校園生活、學術報告等客觀情境,但是難度分寸又恰到好處,并不要求考生能對專業領域進行深入研究,對專業詞匯的掌握也不做過多的要求。
同時,根據計算機輔助語言測試的特點,考生所獲取的試卷題目決不僅僅是若干試題的簡單組合,這就需要一個強大的試題庫。試題庫的創建需要對試題進行分析和管理,試題庫中的試題不僅需要考慮題目的難度值,還須考慮區分度和答案的可猜測度以及使用歷史及行為特征(使用次數,被高分及低分學生答對的次數)等。這就需要題庫數據庫的建設緊跟時代的步伐,不斷更新題庫的內容和形式相應地調整數據庫。在建設中需要投入大量的人力和物力對計算機輔助語言測試,還需計算機輔助語言測試工作者不斷優化和完善。
計算機輔助語言測試使呈現方式從通過傳統的紙張、答題卡演變到電腦顯示屏,答題方式也從紙筆、橡皮演變到鼠標和鍵盤。在傳統的紙筆測試中,受試者只能看到靜態的文字圖畫等輸入,并以同樣的方式輸出答案。而計算機輔助語言測試使試卷呈現方式更加多樣化。
一方面,計算機輔助語言測試提高了語言測試的真實性,但另一方面也對受試者提出了新的挑戰。在這種新的測試方式下,受試者能否發揮出真實的語言水平受到廣泛質疑。在新托福考試中,變化最大的部分要屬寫作部分,從過去的紙筆寫作完全演變成使用計算機打字。受試者很有可能因為試題表現方式的不同而有不同的考試表現,比如針對那些并不經常使用計算機的考生,對計算機的基本操作不熟練或者打字速度太慢的話,勢必會影響考試的心態和成績,這也在一定程度上影響了計算機語言測試的效度。甚至有學生對使用計算機考試顯示出更強烈的焦慮感,比如在TOEFL的口語考試中,聲音洪亮清晰勢必會有優勢,但這對一些內向害羞的考生勢必造成無形的壓力,他們很可能在這種情境中無法發揮出他自己正常的語言水平。而由考試成績帶來的挫敗感也無益于那些原本自信心不強的考生,而那些試圖不斷刷分的同學也未必能支付起高昂的考試費用,這無疑是計算機輔助語言測試面對的最巨大的挑戰。
在硬件設備方面,計算機的硬件設備更新換代的速度也無比之快,在眾多的托福考場中,誰都無法預料自己將會和哪一臺計算機結緣,因此考生很有可能會面臨考場中所使用的計算機狀況糟糕的問題,也可能在考試時計算機軟件和硬件發生故障,受試者的心態容易受到影響,如果無法及時調整的話,發揮失常也極為可能,甚至有的考生會因為考試中使用的計算機“用不習慣”而影響考試成績。
在評分系統方面,托福考試主要是在口語部分和寫作部分的評價方面進行了巨大轉變。在TOEFL口語考試中,由于計算機評價系統的客觀化,對考生的口音或者是感冒的鼻音也會做出判斷,而考生是否能克服這些主觀因素發揮出真實的水。寫作考試的評價要求評分系統根據受試者的綜合寫作能力比如語法、句法、詞匯和修辭的綜合運用能力進行酌情打分,這對于用計算機評分軟件進行評分是一種巨大的挑戰,預示著在保證計算機輔助語言測試的評價效度方面仍然需要不斷地完善。
本文簡要論述了計算機輔助語言測試的定義和其理論依據,并以新托福考試為例,分析了計算機輔助語言測試的優勢和其在語言測試中存在著的不夠完善的因素。在目前的計算機以及信息技術發展環境下,CAT還不能完全取代人工,成為英語語言測試的主體。尤其在考生量極大的中國,以當前的發展水平和實力,我們尚無法建造龐大數量的語言實驗室,更無法創設優質的試題數據庫。
但CAT的交互性測試方面存在問題,但是并不影響人機協作式的英語語言測試模式的不斷發展。隨著大數據采集、語音識別、計算機人工智能等技術的不斷完善,計算機輔助語言測試的前景必將更為廣闊,翻譯、寫作等主觀題評分的信度和效度必將不斷提高,同時為語言測試提供更為客觀、經濟、高效的評價方式。