展素賢 段翠霞
語言測評素養源于教育測評中的“測評素養[1]”,是一個復雜的抽象概念。盡管國內外眾多學者從多角度對語言測評素養做出了不同闡述[2-8],但學界基本達成共識:語言測評素養是指外語教師對語言測評知識和技能的理解和掌握,是外語教師素養的重要指標之一[9,10]。其中,語言測評知識包括對語言測試理論、測量概念,如測試信度和效度、試題難度和區分度等的理解; 語言測評技能包括測試開發、試題質量分析、測試成績解釋與報道能力等。
在當下所倡導的“以評促教、以評促學”的測評實踐中[11],更需我國外語教師具有較高的語言測評素養,以開發較高信度、合適難度和良好區分度的外語測試題,使之有效反饋外語教與學,保障教育評估的合理性和公正性[12]。 因此,探究高校外語教師語言測評素養,有助于了解我國高校外語教師語言測評素養現狀,促進外語教師發展。
文獻梳理發現,我國已有的外語教師語言測評素養研究中,研究者多聚焦于中小學英語教師測評素養[13,14],而針對高校外語教師的研究相對較少[15];在有關高校外語教師語言測評素養的研究中,研究者多采用自編問卷調查高校外語教師語言測評素養的現狀[16-18],鮮有針對測試開發實踐,如大型校本外語測試,來考察外語教師語言測評素養現狀的研究。
一般情況下,大型校本外語測試開發實踐中,大部分試題由本校外語教師自行開發,其各項質量指標,如信度、難度、區分度等,則取決于本校外語教師是否具有較高的語言測評素養。 因此,通過分析校本外語測試題的信度、各項目難度和區分度等指標,可探究外語教師語言測評素養。 本研究以某高校一次校本英語測試客觀題為例,通過對試卷信度、各項目難度及區分度分析,并結合對命題教師的半開放式訪談,回答兩個研究問題:
(1)本次校本英語測試客觀題的信度、各項目難度和區分度是否達到質量指標?
(2)命題教師對語言測評知識和技能的理解和掌握情況如何?
數據采集主要分為以下兩個步驟。
首先采用方便抽樣,從某高校參加大型校本英語測試, 即入學英語摸底測試的5000 多名新生答題樣本中,抽取了1423 個客觀題答題樣本,采集了相關定量數據。在每份客觀題答題樣本中,有25 道聽力題, 包括3 篇短篇新聞、2 篇長對話和3 篇聽力篇章,以及15 道閱讀理解題,包括3 篇文章,每篇文章各有5 小題,試題均為四選一客觀選擇題。
隨后,從此次入學測試的聽力命題組和閱讀命題組中,選取兩位英語教師自愿參加了半開放式訪談,采集了相關定性數據。在半開放式訪談中,圍繞受訪者的“語言測評學習經歷”和“語言測評實踐經歷”,分別進行了大約20 分鐘的訪談。 經受訪者同意,對訪談進行了錄音,并將錄音資料轉化為文本,轉寫文本5490 字。
數據采集結束后,分別對定量和定性數據進行了統計與分析。
在對1423 份客觀題答題樣本的定量數據統計中, 基于經典測試理論[19], 采用EXCEL 2010 和SPSS 22.0,對測試信度及各試題項目的難度、區分度等三項指標進行了評估。 首先,采用克隆巴赫α信度系數與試題內部相關系數,對本次測試客觀題的信度進行了評估;隨后,從聽力和閱讀試題中各選取一道質量不夠理想的試題,分別計算被試通過率和點二列相關系數 (point-biserial correlation,Rpb),對試題項目進行了難度(difficulty,p)和區分度(discrimination,Rpb)分析。
在定性訪談數據分析中,主要采用了質性研究的類屬分析方法[20],對訪談數據的原始材料進行編碼、分析和提煉,得到命題教師對語言測評知識與技能的掌握概況,以補充和解釋定量數據分析結果。
通過定量數據統計以及項目個案分析,評估此次大型入學英語測試客觀題的信度、難度和區分度是否達到所要求的質量指標,以回答本研究的第一個問題。
本次入學測試的聽力、閱讀客觀題各小題分值1 分,共計40 分。 描述性統計分析結果表明(見表1),隨機抽取的答題樣本平均分為14.13,全距為28,標準差為3.796,說明被試學生分數普遍較低;但由于Skewness(0.391)和Kurtosis(0.381)系數的絕對值均小于1.96,測試結果分數呈正態分布。

表1 描述性分析結果
1.信度分析結果
在心理計量學中,一般認為,當克隆巴赫系數α>0.7 時,測試可被接受;而當α<0.5 時,測試不可接受。從表1 可見,本次客觀題克隆巴赫系數為α=0.445, 聽力題和閱讀題分別為α=0.325 和α=0.401,表明客觀題總體信度及聽力題、閱讀題信度均未達到質量標準,試題信度較低。
此外,試題內部相關系數也是判斷一套試題信度高低的重要評估手段。從統計學角度,一套較高信度的試題其內部相關系數至少應在0.5-0.7 之間。但通過進一步對試題內部聽力、閱讀、總分三者相關性分析發現(見表2),盡管聽力題和閱讀題與客觀題總分相關性系數達到0.7 以上,但試題內部相關性系數僅有0.176, 遠未達到0.7 的理想質量標準。
綜上,無論從克隆巴赫系數還是試題內部相關性系數分析,均發現本次入學測試的客觀題部分信度較低。

表2 試題內部相關性分析結果
2.項目難度和區分度分析結果
難度 (difficulty,p) 和區分 度(discrimination,Rpb)是評估試題項目質量高低的重要特征參數[21]。難度指答對該題人數占總人數的百分比, 即通過率。難度值p 值越小,說明試題難度越大。對于本次研究中的摸底測試,目的是掌握新生的英語水平,試題難度需要有梯度,因此,本研究設定難度值可接受范圍為0.3<p<0.7。區分度則指試題項目能區分不同水平被試的程度, 當區分度Rpb <0.2 時,說明項目區分度較差;當0.3 <Rpb <0.4 時,區分度較好;當Rpb >0.4 時,區分度比較理想[22]。
通過對試題項目的難度和區分度評估發現(見表3),客觀題總體難度值p=0.35,聽力與閱讀分別為p=0.34 和p=0.38,難度值普遍偏低。其中,14 個題項難度值小于0.3(p<0.3),且有6 個題項(第7、14、18、27、30 和38 題)難度值低于0.2(p<0.2),表明過難試題數量較多,并對試題平均難度值產生影響;第31 題(p=0.89)難度值大于0.7(p>0.7);其余題項(共25 個,占總題量62.5%)的難度值均在可接受范圍內(0.3<p<0.7),數量偏低。
難度值的高低勢必影響區分度的理想程度。換言之,過難試題和過易試題均會導致試題鑒別力過小,致使區分度不理想。
從表3 可見, 客觀題總體區分度僅為Rpb=0.2,表明試題鑒別力較小。 其中有16 個題項區分度Rpb<0.2,5 個題項 (第7、14、18、27 和38 題)區分度Rpb<0.1;而區分度較好即Rpb>0.3 的題項僅有4 個,分別為第8、15、29 和39 題,其中僅第39題(Rpb=0.41)區分度達到理想程度。
綜上,通過難度和區分度值評估試題項目質量可以發現, 試題難度和區分度值均未達到理想指標,試題過難,區分度較差。
3.項目難度及區分度個案分析
為進一步探究試題開發過程中出現的試題難度大和區分度較差等問題,又分別從聽力題和閱讀題各抽取一個難度、區分度不夠理想的試題進行個案分析。
首先, 從聽力題中抽取了第7 題 (p=0.11,Rpb=-0.01),劃線部分為答題依據(見圖1)。

表4 第7 題各選項答題情況統計
通過初步統計發現(見表4),選擇D 項的學生人數最多,占比38.72%,這可能是由于該項復現了原文中的“cellphone”(與“phone”同義)和“school”,提高了其干擾強度;B 項選擇人數占28.67%,但選項內容明顯與問題不匹配;A 項選擇人數占21.36%, 該選項錯誤較明顯,A、B 項干擾性不強,但選擇的人數仍然占到近50%, 而正確選項C 所占人數僅為11.17%。通過深入分析,筆者發現,C選項在語言內容上存在用詞不當情況,即:“can”在本試題中是“有可能”之意,但“can”還可表示“能,可以”之義,致使命題教師設定的正確答案出現“如
果學校禁止使用手機,學生們可以私底下用”還是“如果學校禁止使用手機,學生們可能私底下用”的歧義,進而導致學生在答題時避開該選項而擇其它選項。

表3 各試題難度和區分度統計結果

圖1 第7 題聽力試題原文、問題與選項
從閱讀題中又抽了第31 題 (p=0.89,Rpb=0.22),答題依據見圖2。

圖2 第31 題閱讀試題原文、問題與選項
通過初步統計發現(見表5),正確答案C 的選擇人數高達89.04%;A 項選擇人數最少, 僅占0.98%,該項幾乎不具有干擾性;B 項與D 項選擇人數分別占5.27%和4.71%,干擾性也較弱。 該題需要學生思考試題中原文作者引用 “一日一蘋果,醫生遠離我”這個諺語的目的,要解答該題,首先要理解該諺語本身含義,再聯系下文,而該諺語含義對當前受試學生的英語水平來說難度并不高,答案C中的“diet”又與下文劃線部分的內容相呼應,因此,學生普遍能夠精準地定位該正確選項;而A 項“為了建議人們多吃蘋果”,D 項“為了強調蘋果對保持健康至關重要”,與諺語本身含義直接相關,但沒有聯系下文內容,能夠輕易被排除,干擾性極弱;B 項“…is particularly true” 與原文內容 “…may hold some truth”不符,錯誤較明顯,幾乎不具有干擾性。從以上分析可知,命題教師在試題開發過程中存在對當前受試英語水平把握不足和對干擾項標準把握不當等問題。
綜合試題信度、各項目難度和區分度量化分析以及試題個案分析發現,本次入學測試客觀題質量較低,信度、難度和區分度均未達到理想標準,且試題開發問題較多,折射出命題教師高質量測試開發能力不足,語言測評素養有待提高。

表5 第31 題的被試各選項答題情況統計
為進一步補充和解釋定量數據分析結果,了解命題教師對語言測評知識和技能的理解與掌握情況,以全面考察命題教師的語言測評素養,筆者從命題教師中抽取兩名教師自愿參加了半開放式訪談,得出如下相關定性分析結論,以回答第二個研究問題。
(1)語言測評知識和技能匱乏
在訪談中,兩位教師談到語言測評知識和技能時僅涉及測量概念,如測試信度與效度、試題難度和區分度,而從兩位教師對測量概念的闡述中,甲教師對某些測量概念缺乏基本了解。
“對難度和區分度有一定了解,對信度、效度還不是很清楚……難度就是看學生這個答對題的這個情況,如果答對的學生少的話呢,這個難度應該是偏高,就是正確率吧……區分度的話應該是有專業的軟件來分析”(甲教師)
為了解受訪教師對語言測評技能的掌握情況,結合入學測試,邀請兩位教師談談試題質量評價與分析方法。而從訪談結果看,甲教師僅提到測評理論與工具,乙教師具體提到信度和效度,但均未進一步闡述質量分析過程,且兩位教師未從測試開發角度對校本測試信度和效度、試題難度和區分度進行質量分析,可見兩位命題教師缺乏必要的試題質量分析能力。
“試卷的質量應該有一些測評方面的專業的分析試卷的一些理論和方法……本次的測試結果,就是做過一般的那個正確率、及格率、然后各個分數段的那個比例這些分析。”(甲教師)
“質量分析看信度和效度吧……開學測試 (本次測試)是分兩次進行的,開學只測了聽力和閱讀兩項,開學后又測試了翻譯和作文,老師沒有所有學生成績。”(乙教師)
通過進一步分析發現,兩位教師在任教前欠缺必要的語言測評學習經歷。 盡管甲教師畢業于師范院校,但在師范階段學習期間,并未學習語言測評相關課程, 導致對語言測評知識缺乏必要的了解; 而乙教師盡管在碩士研究生階段學習過語言測試相關課程, 對語言測評知識和技能有一定了解, 但對試題質量評價與分析方法缺乏必要的掌握和應用。
此外,訪談中兩位教師均反映,畢業從教后,參加的語言測評知識和技能培訓很少。甲、乙教師均明確或間接表示學校未對教師進行過語言測評崗前培訓和在職培訓。
“我是師范畢業的,以前沒有開設過語言測評類的課程……(任教后)學校有崗前培訓,但是崗前培訓中有沒有語言測試培訓這不清楚,在職沒有這方面的培訓,……有參加過測試工作坊,學校派去的……”(甲教師)
“我之前在碩士研究所,研究生階段有測試學這門課程…… (任教后) 學校沒有這方面的培訓……有委派過出去參加外研社的講座和黃教授的工作坊……”(乙教師)
綜上,由于兩位命題教師任教前后缺乏必要的語言測評學習與培訓,沒有掌握系統的語言測評知識和技能,導致兩位教師語言測評知識和技能相對匱乏,這也可能是命題教師語言測評素養較低的原因之一。
(2)語言測評知識和技能運用不足
訪談中,兩位教師也分享了自己參加語言測試實踐的經歷,主要談及“期末測試出題”和“撰寫成績分析報告”兩個方面。
在“期末測試出題”方面,甲教師談到此次入學測試,相比之前的期末測試更為專業。 之前的校本測試傾向于教師“湊題”,而不是以“開發”方式完成試題命制,進而折射出兩位教師在測試開發方面實踐經驗不足。
“這種(本次入學測試)要專業水平的出題,是第一次。以前出題……就是我們一部分是課外題目……四級水平的題,然后一部分是課內的題……比如說課后的練習啊,或者是那個課文里邊的一些知識點。”(甲教師)
在“撰寫成績分析報告”方面,乙教師表示學校每個學期要求寫成績分析報告,包括學生成績分段統計百分比、不及格率、測試結果中發現的薄弱環節以及對今后教學反思等,但有關試題質量分析較少,可見兩位命題教師對試題質量分析的相關實踐存在不足。
“每個學期都要寫成績分析報告,學生成績分段統計百分比,不及格率等等,以及某些測試顯現的薄弱環節,對今后教學的反思……對試題質量分析的較少。”(乙教師)
綜上,盡管受訪教師每學期均有機會參加相關語言測試活動,如“期末測試出題”以及“撰寫成績分析報告”,但教師運用語言測評知識和技能的實踐經歷明顯不足,折射出兩位教師語言測評素養有待提高。
本研究以某高校一次大型校本英語測試客觀題為例,對試題質量進行了分析。結果表明,本次測試試題質量不高,反映出部分高校外語教師測試開發能力較弱的問題; 通過進一步半開放式訪談發現, 命題教師對語言測評知識和技能的理解與掌握情況不容樂觀, 進一步折射出我國部分高校外語教師語言測評素養有待進一步提升。為此,作者提出如下建議。
首先,本科師范院校或有外國語言學及應用語言學碩士點的高校, 應開設相關語言測評課程,為崗前外語教師提供必需的語言測評知識和技能學習機會,夯實外語教師必備的語言測評理論與知識體系。
其次,外語教師所在高校教師發展中心或所在院、系應在外語教師任職前或任教期間,提供必要的語言測評知識和技能的培訓,鼓勵教師參與校內外測評實踐,以提升其語言測評素養,助力教師專業發展,促進高校外語教學。為此,建議高校應針對高校外語教師的語言測評素養需求開展調查,并針對教師語言測評素養需求,邀請國內外測評專家,開展針對性強的語言測評知識和技能講座、 工作坊,建立相應的院、系語言測評團隊或成立測評學習共同體,以合作交流等途徑共同探究求知,提高外語教師隊伍的語言測評素養。 同時,通過政策導向,引導高校外語教師將測評知識和技能應用到測試開發、試題質量分析(如測試信度和效度、難度和區分度評估)和測試成績解釋與報道等校本測試實踐中。此外,高校還應鼓勵外語教師積極參加大規模外語測試開發、閱卷與評估等工作,通過與校內外語言測評專家和測評者的互動交流與合作,提升測評實踐能力。
更為重要的是,高校外語教師應積極發揮自身主觀能動性,創造機會,不斷學習語言測評知識,掌握語言測評技能,并努力將語言測評知識和技能應用到自己的日常教學中,以不斷增加語言測評實踐經驗,努力提高自身語言測評素養。
由于本文只分析了某高校一次校本測試的命題質量,考察了同一所高校的外語教師,研究結果缺乏一定普遍性。建議未來研究者在我國其他地區選擇更多高校,對其校本測試試題質量進行評估分析,以實現對命題教師語言測評素養多方位、多角度的考察,促進我國高校外語教師發展,從而開發高信度、高效度的外語測試題,保障外語教育評估的合理性和公平性,真正起到以評促教,以評促學。