中學英語教師如何學會做語言測試

2020-12-06 10:44:21朱武平

廣東教學報·教育綜合 2020年134期

朱武平

【摘要】中學英語教師在日常教學中經常要面對大量的考試或語言測試，學會如何對測試試卷和測試成績作出正解的分析，這對提高語言測試水平和英語教學具有重要意義。在本文中，筆者簡要概述語言測試相關理論，探討如何對中學英語的語言測試作出分析和撰寫測試報告，希望能給中學英語教師提供借鑒經驗。

【關鍵詞】語言測試;信度;效度;測試分數;試卷分析

對于中學英語教師來說，在語言測試后作出測試報告是很有必要的。中學英語教師經常要面對大量的考試或測試，在教學反思或測試報告中都要對考試成績作出分析和合理解釋。在這種情況下，語言測試領域的一些問題常會讓教師感到困惑。中學英語教師應如何分析和解讀學生成績呢？他們的測試是否高度可靠或有效呢？這些測試結果又會如何影響他們未來的教學或測試開發呢？中學英語教師有必要學習語言測試的知識，及測試開發和測試分析的相關理論和原則。因此，筆者簡要概述語言測試相關的理論和原則，并提出一些與語言測試分析相關的問題。

一、影響語言測試的關鍵因素

英語教師要想對試卷和考試成績進行合理的分析，就必須考慮語言測試的信度和效度。由于信度和效度是語言測試中最重要的因素，我們應該了解和分析這兩個關鍵因素。

1. 信度

信度是任何一種好的測試的必要特征，如果一個測試是不可靠的，我們怎么知道被測試者的真實語言能力？語言測試的信度一般有三個組成部分：考試本身的信度，考生在不同場合的表現，測試分數的信度。測試的信度取決于許多因素，如測試的類型和長度，以及測試所檢測學生的能力范圍。總的來說，可能會影響到測試信度的因素包括：測試相同的語言能力;考生的方差;學習者的波動（動機、疾病等個人因素）;得分波動;考試管理波動;測試長度;充足的考試時間;測試項目辨析;響應特性誤差;為試驗所選擇的材料的樣本范圍;測試指令;試題難度。我們可以做的是通過測試設計，盡量減少那些不一致的潛在來源的影響。雖然不可能實現完全可靠的測試，但在設置測試工具時要盡可能使其可靠，比如我們應該確保測試說明是清晰的，并且沒有含糊不清的題目。

2. 效度

效度是一種綜合的評估判斷，效度不是測試或評估本身的屬性，而是測試分數的意義。Messick認為，測試的統一效度最好是通過對測試的整體評價來體現。

效度是一個統一的概念，包括五種效度：表面效度、內容效度、結構效度、預測效度和同時效度。表面效度指的是測試的“表面可信度或公眾可接受性”，經常被測試者認為是不科學的和不相關的。內容效度是指內容的代表性或抽樣充分性——衡量工具的實質、事項、主題。結構效度是一種研究活動，是對理論進行檢驗并加以確認、修改或放棄的手段。預測效度指的是測試對學生未來表現的預測程度。預測驗證需要時間來評估。同時效度是使用一個公認的、有信譽的測試來檢查目標測試的有效性，由此產生的相關性提供了測試同時效度的度量。

3. 信度與效度的關系

無論測試的理論假設是什么，測試的效度和信度構成了評估任何測試的兩個主要標準，信度和效度之間存在權衡關系。在實際的語言測試中，如何處理信度和效度之間的矛盾？中學英語語言測試往往更注重信度而不是效度。過分注重信度而忽視效度，會給我們的語言教學帶來嚴重的不良后果。我們必須在信度和效度之間做出積極的妥協。因此，當我們開始分析學生的考試成績和寫一份后測報告時，我們應考慮到這兩個因素來解釋考試成績的意義，并對所進行或執行的測試的信度和效度做出判斷。

二、試卷分析

語言測試使用者應該收集測試后的多種數據和信息，來分析和判斷這個測試是否令人滿意。此外，語言測試機構和教育部門也要求英語教師獲得一些相關的統計數據及其對數字的解釋。最重要的數據就是收集所有客觀題的分數和主觀題的分數。

1. 描述性統計

語言測試后，我們通常采用描述性的方法來處理測試結果。應該收集整個測試及其每個組成部分的描述性統計信息。最常用的統計類型是柱狀圖、平均值、眾數、中位數、極差和標準差。柱狀圖是用列來說明考試分數出現的頻率（見下圖1）。從這個圖表中，我們可以很容易地得到學生考試成績分布的信息。

我們常用眾數、中位數、均值等指標來描述學生考試成績的集中趨勢，其中，均值是衡量集中趨勢最有效的方法，但它并不總是恰當的。任何考試的平均分數都是均值，平均分數能夠通過比較來描述單個學生的分數，但它并不能告訴我們最高和最低分數以及分數的分布。標準差（s.d）是一種顯示分數分布的方法，它顯示了所有的分數是如何分散的，例如，如果50題測試的最高分是43分，最低分是21分，那么范圍只有從21到43分的，標準差卻可以給出了比這分數范圍更完整的描述。計算標準差（s.d.）的一種簡單方法如下圖2。標準差對于提供關于不同群體的特征的信息也是有用的。例如，如果一個班級在某項測試中的標準差是4.08，而另一個班級在同一項測試中的標準差是8.96，那么可以推斷后一個班級的異質性遠遠大于前者（引自：Alderson， 2000）。

2. 項目分析

許多教師認為，一旦取得了原始成績，考試就結束了。事實遠非如此，測試結果可以提供很多有價值的信息，比如學生群體的表現，從而在課堂測試中反映教師教學的有效性、學生個人表現和每個測試項目的表現。學生整體表現和每個學生的表現對于教學是很重要的，由于測試結果不僅顯示出最經常犯的錯誤，還可以顯示出犯錯誤的實際原因。

我們在設置測試時，應考慮測試項目的功能、難度和效度。一個項目的難度指數（或設施值）顯示了該項目能被證明的難易程度。困難指數（FV）通常表示為回答正確問題的學生的比例（或百分比）。計算公式：FV=R/N （R表示正確答案的數量，N表示參加考試的人數）。

另一個指數就是區分程度（D），表示該測試項目區分能力較強與能力較弱學生的程度。從統計學上來說，我們可以用這個公式來計算得出這個數值：D=正確的U -正確的L / N （D=區分度;N=檢測人數;U=上半部分;L=下半部分）。測試工具的信度和區分度通常都會以表格形式來記錄，并以相同的公式來統計得出，要注意區分度低于.30的測試項目是可疑的，因為它們不能有效地區分。

總之，英語教師應該學習關于語言測試的理論知識，尤其是測試成績分析方法和測試后報告的寫作。雖然不能在一篇文章中完全討論，但我們還是可以從中得到一些教學啟示。因此，我們需要進一步研究測試分析和基于分數的推斷技巧，這樣我們才能成為一個明智的語言測試使用者。

參考文獻：

[1] Alderson JC.C. Clapham. D. Wall. Language Test Construction and Evaluation [M]. Beijing：Foreign Language Teaching and Researching Press，2000.

[2] Bachman， L. F. Building and supporting a case for test use[J].Language Assessment Quarterly，2（1）：1-34，2005.

廣東教學報·教育綜合2020年134期

廣東教學報·教育綜合的其它文章: 淺析體驗式教學在小學數學課堂教學上的應用; 如何較好地發揮微課在高三藝考生數學復習中的作用; 小學班主任德育中有效實施激勵教育的策略; 呼喚“人”的回歸; 跟進錯題動態，提高小學生解題能力; 在小學語文教學中培養學生的創新意識