高校外語教師語言測評素養(yǎng)研究：以一次校本測試為例

2020-07-21 00:44:00展素賢段翠霞

考試研究 2020年3期

展素賢段翠霞

一、引言

語言測評素養(yǎng)源于教育測評中的“測評素養(yǎng)[1]”，是一個復(fù)雜的抽象概念。盡管國內(nèi)外眾多學(xué)者從多角度對語言測評素養(yǎng)做出了不同闡述[2-8]，但學(xué)界基本達成共識：語言測評素養(yǎng)是指外語教師對語言測評知識和技能的理解和掌握，是外語教師素養(yǎng)的重要指標(biāo)之一[9，10]。其中，語言測評知識包括對語言測試?yán)碚摗y量概念，如測試信度和效度、試題難度和區(qū)分度等的理解；語言測評技能包括測試開發(fā)、試題質(zhì)量分析、測試成績解釋與報道能力等。

在當(dāng)下所倡導(dǎo)的“以評促教、以評促學(xué)”的測評實踐中[11]，更需我國外語教師具有較高的語言測評素養(yǎng)，以開發(fā)較高信度、合適難度和良好區(qū)分度的外語測試題，使之有效反饋外語教與學(xué)，保障教育評估的合理性和公正性[12]。因此，探究高校外語教師語言測評素養(yǎng)，有助于了解我國高校外語教師語言測評素養(yǎng)現(xiàn)狀，促進外語教師發(fā)展。

文獻梳理發(fā)現(xiàn)，我國已有的外語教師語言測評素養(yǎng)研究中，研究者多聚焦于中小學(xué)英語教師測評素養(yǎng)[13，14]，而針對高校外語教師的研究相對較少[15]；在有關(guān)高校外語教師語言測評素養(yǎng)的研究中，研究者多采用自編問卷調(diào)查高校外語教師語言測評素養(yǎng)的現(xiàn)狀[16-18]，鮮有針對測試開發(fā)實踐，如大型校本外語測試，來考察外語教師語言測評素養(yǎng)現(xiàn)狀的研究。

一般情況下，大型校本外語測試開發(fā)實踐中，大部分試題由本校外語教師自行開發(fā)，其各項質(zhì)量指標(biāo)，如信度、難度、區(qū)分度等，則取決于本校外語教師是否具有較高的語言測評素養(yǎng)。因此，通過分析校本外語測試題的信度、各項目難度和區(qū)分度等指標(biāo)，可探究外語教師語言測評素養(yǎng)。本研究以某高校一次校本英語測試客觀題為例，通過對試卷信度、各項目難度及區(qū)分度分析，并結(jié)合對命題教師的半開放式訪談，回答兩個研究問題：

（1）本次校本英語測試客觀題的信度、各項目難度和區(qū)分度是否達到質(zhì)量指標(biāo)？

（2）命題教師對語言測評知識和技能的理解和掌握情況如何？

二、數(shù)據(jù)采集與分析過程

（一）數(shù)據(jù)采集

數(shù)據(jù)采集主要分為以下兩個步驟。

首先采用方便抽樣，從某高校參加大型校本英語測試，即入學(xué)英語摸底測試的5000 多名新生答題樣本中，抽取了1423 個客觀題答題樣本，采集了相關(guān)定量數(shù)據(jù)。在每份客觀題答題樣本中，有25 道聽力題，包括3 篇短篇新聞、2 篇長對話和3 篇聽力篇章，以及15 道閱讀理解題，包括3 篇文章，每篇文章各有5 小題，試題均為四選一客觀選擇題。

隨后，從此次入學(xué)測試的聽力命題組和閱讀命題組中，選取兩位英語教師自愿參加了半開放式訪談，采集了相關(guān)定性數(shù)據(jù)。在半開放式訪談中，圍繞受訪者的“語言測評學(xué)習(xí)經(jīng)歷”和“語言測評實踐經(jīng)歷”，分別進行了大約20 分鐘的訪談。經(jīng)受訪者同意，對訪談進行了錄音，并將錄音資料轉(zhuǎn)化為文本，轉(zhuǎn)寫文本5490 字。

（二）數(shù)據(jù)分析

數(shù)據(jù)采集結(jié)束后，分別對定量和定性數(shù)據(jù)進行了統(tǒng)計與分析。

在對1423 份客觀題答題樣本的定量數(shù)據(jù)統(tǒng)計中，基于經(jīng)典測試?yán)碚揫19]，采用EXCEL 2010 和SPSS 22.0，對測試信度及各試題項目的難度、區(qū)分度等三項指標(biāo)進行了評估。首先，采用克隆巴赫α信度系數(shù)與試題內(nèi)部相關(guān)系數(shù)，對本次測試客觀題的信度進行了評估；隨后，從聽力和閱讀試題中各選取一道質(zhì)量不夠理想的試題，分別計算被試通過率和點二列相關(guān)系數(shù) （point-biserial correlation，Rpb），對試題項目進行了難度（difficulty，p）和區(qū)分度（discrimination，Rpb）分析。

在定性訪談數(shù)據(jù)分析中，主要采用了質(zhì)性研究的類屬分析方法[20]，對訪談數(shù)據(jù)的原始材料進行編碼、分析和提煉，得到命題教師對語言測評知識與技能的掌握概況，以補充和解釋定量數(shù)據(jù)分析結(jié)果。

三、結(jié)果與討論

（一）定量數(shù)據(jù)統(tǒng)計結(jié)果

通過定量數(shù)據(jù)統(tǒng)計以及項目個案分析，評估此次大型入學(xué)英語測試客觀題的信度、難度和區(qū)分度是否達到所要求的質(zhì)量指標(biāo)，以回答本研究的第一個問題。

本次入學(xué)測試的聽力、閱讀客觀題各小題分值1 分，共計40 分。描述性統(tǒng)計分析結(jié)果表明（見表1），隨機抽取的答題樣本平均分為14.13，全距為28，標(biāo)準(zhǔn)差為3.796，說明被試學(xué)生分?jǐn)?shù)普遍較低；但由于Skewness（0.391）和Kurtosis（0.381）系數(shù)的絕對值均小于1.96，測試結(jié)果分?jǐn)?shù)呈正態(tài)分布。

表1 描述性分析結(jié)果

1.信度分析結(jié)果

在心理計量學(xué)中，一般認(rèn)為，當(dāng)克隆巴赫系數(shù)α＞0.7 時，測試可被接受；而當(dāng)α＜0.5 時，測試不可接受。從表1 可見，本次客觀題克隆巴赫系數(shù)為α=0.445，聽力題和閱讀題分別為α=0.325 和α=0.401，表明客觀題總體信度及聽力題、閱讀題信度均未達到質(zhì)量標(biāo)準(zhǔn)，試題信度較低。

此外，試題內(nèi)部相關(guān)系數(shù)也是判斷一套試題信度高低的重要評估手段。從統(tǒng)計學(xué)角度，一套較高信度的試題其內(nèi)部相關(guān)系數(shù)至少應(yīng)在0.5-0.7 之間。但通過進一步對試題內(nèi)部聽力、閱讀、總分三者相關(guān)性分析發(fā)現(xiàn)（見表2），盡管聽力題和閱讀題與客觀題總分相關(guān)性系數(shù)達到0.7 以上，但試題內(nèi)部相關(guān)性系數(shù)僅有0.176，遠(yuǎn)未達到0.7 的理想質(zhì)量標(biāo)準(zhǔn)。

綜上，無論從克隆巴赫系數(shù)還是試題內(nèi)部相關(guān)性系數(shù)分析，均發(fā)現(xiàn)本次入學(xué)測試的客觀題部分信度較低。

表2 試題內(nèi)部相關(guān)性分析結(jié)果

2.項目難度和區(qū)分度分析結(jié)果

難度（difficulty，p）和區(qū)分度（discrimination，Rpb）是評估試題項目質(zhì)量高低的重要特征參數(shù)[21]。難度指答對該題人數(shù)占總?cè)藬?shù)的百分比，即通過率。難度值p 值越小，說明試題難度越大。對于本次研究中的摸底測試，目的是掌握新生的英語水平，試題難度需要有梯度，因此，本研究設(shè)定難度值可接受范圍為0.3＜p＜0.7。區(qū)分度則指試題項目能區(qū)分不同水平被試的程度，當(dāng)區(qū)分度Rpb ＜0.2 時，說明項目區(qū)分度較差；當(dāng)0.3 ＜Rpb ＜0.4 時，區(qū)分度較好；當(dāng)Rpb ＞0.4 時，區(qū)分度比較理想[22]。

通過對試題項目的難度和區(qū)分度評估發(fā)現(xiàn)（見表3），客觀題總體難度值p=0.35，聽力與閱讀分別為p=0.34 和p=0.38，難度值普遍偏低。其中，14 個題項難度值小于0.3（p＜0.3），且有6 個題項（第7、14、18、27、30 和38 題）難度值低于0.2（p＜0.2），表明過難試題數(shù)量較多，并對試題平均難度值產(chǎn)生影響；第31 題（p=0.89）難度值大于0.7（p＞0.7）；其余題項（共25 個，占總題量62.5%）的難度值均在可接受范圍內(nèi)（0.3＜p＜0.7），數(shù)量偏低。

難度值的高低勢必影響區(qū)分度的理想程度。換言之，過難試題和過易試題均會導(dǎo)致試題鑒別力過小，致使區(qū)分度不理想。

從表3 可見，客觀題總體區(qū)分度僅為Rpb=0.2，表明試題鑒別力較小。其中有16 個題項區(qū)分度Rpb＜0.2，5 個題項（第7、14、18、27 和38 題）區(qū)分度Rpb＜0.1；而區(qū)分度較好即Rpb＞0.3 的題項僅有4 個，分別為第8、15、29 和39 題，其中僅第39題（Rpb=0.41）區(qū)分度達到理想程度。

綜上，通過難度和區(qū)分度值評估試題項目質(zhì)量可以發(fā)現(xiàn)，試題難度和區(qū)分度值均未達到理想指標(biāo)，試題過難，區(qū)分度較差。

3.項目難度及區(qū)分度個案分析

為進一步探究試題開發(fā)過程中出現(xiàn)的試題難度大和區(qū)分度較差等問題，又分別從聽力題和閱讀題各抽取一個難度、區(qū)分度不夠理想的試題進行個案分析。

首先，從聽力題中抽取了第7 題（p=0.11，Rpb=-0.01），劃線部分為答題依據(jù)（見圖1）。

表4 第7 題各選項答題情況統(tǒng)計

通過初步統(tǒng)計發(fā)現(xiàn)（見表4），選擇D 項的學(xué)生人數(shù)最多，占比38.72%，這可能是由于該項復(fù)現(xiàn)了原文中的“cellphone”（與“phone”同義）和“school”，提高了其干擾強度；B 項選擇人數(shù)占28.67%，但選項內(nèi)容明顯與問題不匹配；A 項選擇人數(shù)占21.36%，該選項錯誤較明顯，A、B 項干擾性不強，但選擇的人數(shù)仍然占到近50%，而正確選項C 所占人數(shù)僅為11.17%。通過深入分析，筆者發(fā)現(xiàn)，C選項在語言內(nèi)容上存在用詞不當(dāng)情況，即：“can”在本試題中是“有可能”之意，但“can”還可表示“能，可以”之義，致使命題教師設(shè)定的正確答案出現(xiàn)“如

果學(xué)校禁止使用手機，學(xué)生們可以私底下用”還是“如果學(xué)校禁止使用手機，學(xué)生們可能私底下用”的歧義，進而導(dǎo)致學(xué)生在答題時避開該選項而擇其它選項。

表3 各試題難度和區(qū)分度統(tǒng)計結(jié)果

圖1 第7 題聽力試題原文、問題與選項

從閱讀題中又抽了第31 題（p=0.89，Rpb=0.22），答題依據(jù)見圖2。

圖2 第31 題閱讀試題原文、問題與選項

通過初步統(tǒng)計發(fā)現(xiàn)（見表5），正確答案C 的選擇人數(shù)高達89.04%；A 項選擇人數(shù)最少，僅占0.98%，該項幾乎不具有干擾性；B 項與D 項選擇人數(shù)分別占5.27%和4.71%，干擾性也較弱。該題需要學(xué)生思考試題中原文作者引用 “一日一蘋果，醫(yī)生遠(yuǎn)離我”這個諺語的目的，要解答該題，首先要理解該諺語本身含義，再聯(lián)系下文，而該諺語含義對當(dāng)前受試學(xué)生的英語水平來說難度并不高，答案C中的“diet”又與下文劃線部分的內(nèi)容相呼應(yīng)，因此，學(xué)生普遍能夠精準(zhǔn)地定位該正確選項；而A 項“為了建議人們多吃蘋果”，D 項“為了強調(diào)蘋果對保持健康至關(guān)重要”，與諺語本身含義直接相關(guān)，但沒有聯(lián)系下文內(nèi)容，能夠輕易被排除，干擾性極弱；B 項“…is particularly true” 與原文內(nèi)容 “…may hold some truth”不符，錯誤較明顯，幾乎不具有干擾性。從以上分析可知，命題教師在試題開發(fā)過程中存在對當(dāng)前受試英語水平把握不足和對干擾項標(biāo)準(zhǔn)把握不當(dāng)?shù)葐栴}。

綜合試題信度、各項目難度和區(qū)分度量化分析以及試題個案分析發(fā)現(xiàn)，本次入學(xué)測試客觀題質(zhì)量較低，信度、難度和區(qū)分度均未達到理想標(biāo)準(zhǔn)，且試題開發(fā)問題較多，折射出命題教師高質(zhì)量測試開發(fā)能力不足，語言測評素養(yǎng)有待提高。

表5 第31 題的被試各選項答題情況統(tǒng)計

（二）定性數(shù)據(jù)分析結(jié)論

為進一步補充和解釋定量數(shù)據(jù)分析結(jié)果，了解命題教師對語言測評知識和技能的理解與掌握情況，以全面考察命題教師的語言測評素養(yǎng)，筆者從命題教師中抽取兩名教師自愿參加了半開放式訪談，得出如下相關(guān)定性分析結(jié)論，以回答第二個研究問題。

（1）語言測評知識和技能匱乏

在訪談中，兩位教師談到語言測評知識和技能時僅涉及測量概念，如測試信度與效度、試題難度和區(qū)分度，而從兩位教師對測量概念的闡述中，甲教師對某些測量概念缺乏基本了解。

“對難度和區(qū)分度有一定了解，對信度、效度還不是很清楚……難度就是看學(xué)生這個答對題的這個情況，如果答對的學(xué)生少的話呢，這個難度應(yīng)該是偏高，就是正確率吧……區(qū)分度的話應(yīng)該是有專業(yè)的軟件來分析”（甲教師）

為了解受訪教師對語言測評技能的掌握情況，結(jié)合入學(xué)測試，邀請兩位教師談?wù)勗囶}質(zhì)量評價與分析方法。而從訪談結(jié)果看，甲教師僅提到測評理論與工具，乙教師具體提到信度和效度，但均未進一步闡述質(zhì)量分析過程，且兩位教師未從測試開發(fā)角度對校本測試信度和效度、試題難度和區(qū)分度進行質(zhì)量分析，可見兩位命題教師缺乏必要的試題質(zhì)量分析能力。

“試卷的質(zhì)量應(yīng)該有一些測評方面的專業(yè)的分析試卷的一些理論和方法……本次的測試結(jié)果，就是做過一般的那個正確率、及格率、然后各個分?jǐn)?shù)段的那個比例這些分析。”（甲教師）

“質(zhì)量分析看信度和效度吧……開學(xué)測試（本次測試）是分兩次進行的，開學(xué)只測了聽力和閱讀兩項，開學(xué)后又測試了翻譯和作文，老師沒有所有學(xué)生成績。”（乙教師）

通過進一步分析發(fā)現(xiàn)，兩位教師在任教前欠缺必要的語言測評學(xué)習(xí)經(jīng)歷。盡管甲教師畢業(yè)于師范院校，但在師范階段學(xué)習(xí)期間，并未學(xué)習(xí)語言測評相關(guān)課程，導(dǎo)致對語言測評知識缺乏必要的了解；而乙教師盡管在碩士研究生階段學(xué)習(xí)過語言測試相關(guān)課程，對語言測評知識和技能有一定了解，但對試題質(zhì)量評價與分析方法缺乏必要的掌握和應(yīng)用。

此外，訪談中兩位教師均反映，畢業(yè)從教后，參加的語言測評知識和技能培訓(xùn)很少。甲、乙教師均明確或間接表示學(xué)校未對教師進行過語言測評崗前培訓(xùn)和在職培訓(xùn)。

“我是師范畢業(yè)的，以前沒有開設(shè)過語言測評類的課程……（任教后）學(xué)校有崗前培訓(xùn)，但是崗前培訓(xùn)中有沒有語言測試培訓(xùn)這不清楚，在職沒有這方面的培訓(xùn)，……有參加過測試工作坊，學(xué)校派去的……”（甲教師）

“我之前在碩士研究所，研究生階段有測試學(xué)這門課程…… （任教后）學(xué)校沒有這方面的培訓(xùn)……有委派過出去參加外研社的講座和黃教授的工作坊……”（乙教師）

綜上，由于兩位命題教師任教前后缺乏必要的語言測評學(xué)習(xí)與培訓(xùn)，沒有掌握系統(tǒng)的語言測評知識和技能，導(dǎo)致兩位教師語言測評知識和技能相對匱乏，這也可能是命題教師語言測評素養(yǎng)較低的原因之一。

（2）語言測評知識和技能運用不足

訪談中，兩位教師也分享了自己參加語言測試實踐的經(jīng)歷，主要談及“期末測試出題”和“撰寫成績分析報告”兩個方面。

在“期末測試出題”方面，甲教師談到此次入學(xué)測試，相比之前的期末測試更為專業(yè)。之前的校本測試傾向于教師“湊題”，而不是以“開發(fā)”方式完成試題命制，進而折射出兩位教師在測試開發(fā)方面實踐經(jīng)驗不足。

“這種（本次入學(xué)測試）要專業(yè)水平的出題，是第一次。以前出題……就是我們一部分是課外題目……四級水平的題，然后一部分是課內(nèi)的題……比如說課后的練習(xí)啊，或者是那個課文里邊的一些知識點。”（甲教師）

在“撰寫成績分析報告”方面，乙教師表示學(xué)校每個學(xué)期要求寫成績分析報告，包括學(xué)生成績分段統(tǒng)計百分比、不及格率、測試結(jié)果中發(fā)現(xiàn)的薄弱環(huán)節(jié)以及對今后教學(xué)反思等，但有關(guān)試題質(zhì)量分析較少，可見兩位命題教師對試題質(zhì)量分析的相關(guān)實踐存在不足。

“每個學(xué)期都要寫成績分析報告，學(xué)生成績分段統(tǒng)計百分比，不及格率等等，以及某些測試顯現(xiàn)的薄弱環(huán)節(jié)，對今后教學(xué)的反思……對試題質(zhì)量分析的較少。”（乙教師）

綜上，盡管受訪教師每學(xué)期均有機會參加相關(guān)語言測試活動，如“期末測試出題”以及“撰寫成績分析報告”，但教師運用語言測評知識和技能的實踐經(jīng)歷明顯不足，折射出兩位教師語言測評素養(yǎng)有待提高。

四、結(jié)語

本研究以某高校一次大型校本英語測試客觀題為例，對試題質(zhì)量進行了分析。結(jié)果表明，本次測試試題質(zhì)量不高，反映出部分高校外語教師測試開發(fā)能力較弱的問題；通過進一步半開放式訪談發(fā)現(xiàn)，命題教師對語言測評知識和技能的理解與掌握情況不容樂觀，進一步折射出我國部分高校外語教師語言測評素養(yǎng)有待進一步提升。為此，作者提出如下建議。

首先，本科師范院校或有外國語言學(xué)及應(yīng)用語言學(xué)碩士點的高校，應(yīng)開設(shè)相關(guān)語言測評課程，為崗前外語教師提供必需的語言測評知識和技能學(xué)習(xí)機會，夯實外語教師必備的語言測評理論與知識體系。

其次，外語教師所在高校教師發(fā)展中心或所在院、系應(yīng)在外語教師任職前或任教期間，提供必要的語言測評知識和技能的培訓(xùn)，鼓勵教師參與校內(nèi)外測評實踐，以提升其語言測評素養(yǎng)，助力教師專業(yè)發(fā)展，促進高校外語教學(xué)。為此，建議高校應(yīng)針對高校外語教師的語言測評素養(yǎng)需求開展調(diào)查，并針對教師語言測評素養(yǎng)需求，邀請國內(nèi)外測評專家，開展針對性強的語言測評知識和技能講座、工作坊，建立相應(yīng)的院、系語言測評團隊或成立測評學(xué)習(xí)共同體，以合作交流等途徑共同探究求知，提高外語教師隊伍的語言測評素養(yǎng)。同時，通過政策導(dǎo)向，引導(dǎo)高校外語教師將測評知識和技能應(yīng)用到測試開發(fā)、試題質(zhì)量分析（如測試信度和效度、難度和區(qū)分度評估）和測試成績解釋與報道等校本測試實踐中。此外，高校還應(yīng)鼓勵外語教師積極參加大規(guī)模外語測試開發(fā)、閱卷與評估等工作，通過與校內(nèi)外語言測評專家和測評者的互動交流與合作，提升測評實踐能力。

更為重要的是，高校外語教師應(yīng)積極發(fā)揮自身主觀能動性，創(chuàng)造機會，不斷學(xué)習(xí)語言測評知識，掌握語言測評技能，并努力將語言測評知識和技能應(yīng)用到自己的日常教學(xué)中，以不斷增加語言測評實踐經(jīng)驗，努力提高自身語言測評素養(yǎng)。

由于本文只分析了某高校一次校本測試的命題質(zhì)量，考察了同一所高校的外語教師，研究結(jié)果缺乏一定普遍性。建議未來研究者在我國其他地區(qū)選擇更多高校，對其校本測試試題質(zhì)量進行評估分析，以實現(xiàn)對命題教師語言測評素養(yǎng)多方位、多角度的考察，促進我國高校外語教師發(fā)展，從而開發(fā)高信度、高效度的外語測試題，保障外語教育評估的合理性和公平性，真正起到以評促教，以評促學(xué)。