摘 要: 語言測試學主要研究語言測試的原因、目的、內容、方法及其與教學的關系。測試的目的是督促學生學習或檢查教學效果,使教學工作者能夠合理地安排下一步工作。作者將測試學應用于英語教學,旨在幫助教師提高教學效率。
關鍵詞: 語言測試學 英語教學 應用
1.前言
語言測試通常以所教的內容為基礎,也有一些標準化語言測試,例如雅思、托福等考試主要用來檢測學生的語言水平,通常不管如何教或如何學。因此,在一些統一考試之前,老師對學生進行針對性培訓。可見,教學和測試的關系是密不可分的。但無論哪種考試,都不應該機械地測量學生對語言形式的掌握,而應測量其實際的語言交際能力。這樣的測試才能夠對教和學產生積極影響。
2.測試的要素
2.1測試信度。
測試信度,即考分的一致性,如果一個考試信度很高,則無論什么時間、在什么情況下對同樣的學生施考多少次,各次的成績都是一致的。例如:
例1.利用試卷1對同一組人不同時間的兩次測試的成績:
我們能夠清楚地看出,例1中的測試成績,有部分學生兩次成績之間差距較大,大多數差距大于五分,名次排序也有較大差距。
例2.利用試卷2對同一組人不同時間的兩次測試的成績:
例2的表中可看出兩次考試成績的分數差距和名次差距都不是很大,而且部分學生的成績和名次保持一致。
通過對兩份試卷的比較,我們能夠發現后者的信度明顯高于前者,后者更能真實地反映學生的水平,我們在選擇試卷時更傾向于后者。那么,在教學和測試時我們該如何確定測試信度呢?通常有三種方法:重復測試法,即對同一組學生在不同時間連續使用同一份試卷進行測試來測定考試信度;平行卷測試法,即讓學生做兩套試卷,然后分析這兩次考試的結果,考試信度由分數組之間的一致性決定;對半分析法是把一份試卷分成兩部分,通過比較這兩部分的成績來測定考試信度,兩部分成績越一致,試卷的信度就越高。
2.2測試效度。
測試效度,即考試達到其預期測試意圖的程度。考試效度分為表面效度、內容效度、結構效度和尺度關聯效度。表面效度是指測試的表面可信度,如果一次考試表面上看著符合測試要求,例如測試寫作時讓學生寫作文或測試口語時讓學生說話,這些都具有表面效度,直接考試通常具有表面效度而間接考試缺少表面效度。內容效度則必須對測試目的或測試語言有較透徹的分析。因為考試所選材料要同所學內容一致,所選材料的覆蓋面要廣,要能夠反映所學內容的特點,但又不能超出教學大綱或所學內容的范圍。成就考試對于內容信度的要求較高。結構效度指語言能力理論中假設的基礎能力或特征。如果我們說某次考試具有結構效度,這就意味著此次考試能夠有效衡量某個語言技能與該語言技能的理論基礎要求的一致程度,即能夠有效衡量一名考生的成績能否達到要求。尺度關聯效度,取決于它同某個可靠的學生能力測量工具之間的關聯程度,即取決于兩次考試的比較。要衡量某次考試的尺度關聯效度,我們可以把此次考試的結果與一次公認的、很可靠的考試的結果相比較,關聯性大的、一致性高的效度就高。水平測試比較強調尺度關聯效度。
考試信度和效度都是必不可少的,有了信度,才可能有效度,不講效度而只談信度也是沒有意義的。假設我們用一份可信度極高的口語試卷區測試寫作能力,就沒有絲毫效度可言,此次考試也沒有什么實際意義了。因此,我們在選擇試題時必須兼顧信度和效度兩方面。
3.實際教學中測試結果的反饋及成績分析
通常測試一結束,教師就要立即閱卷并公布考試結果,就是要將成績反饋給考生,以使其認識到自己的不足并改進學習,本節介紹一些反饋成績的形式,下面的分析都是基于我所教的一個自然班在一次期末考試中的成績,該班成績如下:
總成績=網絡聽力成績×30%+期末卷面成績×70%
3.1分數的分布、集中量和差異量。
本次考試考生成績在80—89分之間有23人,70—79分之間有10人,60—69分之間有1人,60分以下有1人。分數多集中在80—89分之間,最高分和最低分相差39分。還可以將組距定得更小(比如每5分一個組),這樣能更精確地分析成績的頻數分布。分數的集中量是代表一組數據典型水平或集中趨勢的量,通常用算術平均數、中位數和眾數來表示集中量。算術平均數很容易計算,此次考試的平均分是80.77,但是如果出現一個過高或過低的時,平均分就不能很好的代表這組分數的典型水平了。中位數是位于按大小順序排列的一組數中間位置的數值,各有一般頻數分布在它的上下。當分數出現過高或過低的現象時,大多采用中位數來代表成績的典型水平。集中量只能代表分數的平均水平或典型趨勢,卻無法反映差異,因此出現了差異量以概念,即表達分數離散程度的量,差異量越大,表示分數的分布越不整齊;差異量越小,則分數分布越集中,變動范圍越小。最簡單的差異量表達是全距,即最高分與最低分之差,此次考試是39分,很明顯,全距易受到兩極分數的影響,不能很精確地反映分數差異。當需要比較兩組或幾組分數的離散度時,全距就不精確了,所以我們采用標準差(SD),SD=,其中∑表示總和,d表示離,即每個分數與平均分數之差,N表示總頻數或總人數。一組分數的標準差值越大,說明離散度越大,反之亦然。那么標準差大比較好還是小比較好呢?這就要看考試的目的了,若像這次學期成績,目的是要檢查學生是否達到教學要求,則希望標準差小一些,這說明學生成績比較集中;若是一些選拔性的考試,則希望標準差大一些,以便作出選擇。
3.2題目難易度和區分度。
要合理地分析試卷并作出改進,就要分析試題的題目難易度和區分度。題目難易度FV=,R代表總人數中答對某題的比例,N代表總人數,這個數值一定是在0—1之間,可見,數值越大說明題目越容易;數值越小則題目越難。通過對本次考試各個題目的分析和計算得出:
通常情況下,題目難易度過高過低都不利于區分考試水平,一般將難易度控制在0.3—0.7比較合適,可見此次考試的難易度適中。只看難易度還不能完全合理地評價學生的成績,還要看能夠表明試題區分高分和低分程度的區分度。區分度D=,RT表示高分組答對的人數,RB表示低分組答對的人數,NT高分組總人數,那么區分度就可能在-1—1之間,對于一個題目來說,如果高分組都答對了、低分組都答錯了,則區分度為1,這是最理想的狀態;如果兩組答對的人數相同,則區分度沒有,即該題目無法區分學生水平;如果高分組學生都答錯了而低分組學生都答對了,則區分度為-1,這是最糟糕的狀態,不合理。對于此次成績,我們把學生分為三個組,高分組和低分組人數相等,經過計算得出:
由上述兩組數據我們可以總結出,本次考試具有較強的可信度。
4.結語
本文旨在研究語言測試學在英語教學中的應用,開篇介紹了測試學的相關要素,最后以作者所授班級的成績為實例,利用測試學的相關原理分析了一次期末試題并作出評價,希望通過該分析能夠改進以后的教學工作和選題工作,更加有效地幫助學生掌握所學知識并予以考查其真實水平。雖然該研究能夠在一定程度上幫助師生解決教學中的問題,但在測試手段、評分標準,尤其是主觀題的評分標準、及格標準上還有待廣大測試學者和一線教師在實踐中的研究予以補充、發展。
參考文獻:
[1]Heaton,J.B.Writing English Language Tests,Foreign Language Teaching and Research Press,2000.
[2]J.Charles Alderson,Caroline Clapham,Dianne Wall.Language Test Construction and Evaluation,Foreign Language Teaching and Research Press,2000.
[3]鄒申,楊任明.簡明英語測試教程.高等教育出版社,2000.