漢語二語教師教師評估工具建構能力初探
——基于綜合漢語課期末考試卷的項目分析

2016-05-23 09:04:27李春琳

現代語文 2016年11期

◎李春琳

◎李春琳

前言

測試工具的建構是教師評估能力的核心維度，而測試卷的設計是典型的測試工具構建行為。本文通過對漢語二語綜合課的期末試卷進行項目難度和區分度等得數據分析，發現測試卷的整體構念和單項選擇題干擾項的設計等具有不同程度的問題，這表明教師的評估能力并不是與生俱來，也不可能從教學中自動習得。針對性強、注重實踐的教師評估能力課程是系統提高職前和在職教師評估能力的有效途徑。

Popham（2014）認為教師應該具備三種評估技能：構建評估工具、懂得使用別人構建的工具以及根據評估信息來備課。測試卷的設計是典型的測試工具構建行為。在對外漢語教學中，教師需要構建評估工具來衡量課程效度、了解學習者學業進步和收集實證研究數據等，并為接下來的課程安排提供證據。評估工具的構建要求教師清晰評估與測試的核心理論和基礎概念，并熟悉評估工具構建的每個步驟的理論含義。這就說明評估工具建構能力的形成會遇到理論與實踐結合帶來的挑戰。本文通過對廣東省某高校綜合漢語課的期末試卷進行宏觀和微觀的項目分析，來管窺漢語二語教師評估工具構建能力的現狀。

一、研究背景

Grabowski & Dakin（2014）提出的測試模型認為編寫測試卷需要經歷三個步驟（如圖一）：確定測試構念、確定目標語使用域和編寫測試規范整合測試細節。

首先是確定測試的構念。“構念”（ construct）是指一種心理構想，是對不能直接測量或觀察的人類行為的理論設想。構念的例子有動機、焦慮、閱讀理解能力等（Ebel ＆ Frisbie 1991，轉引自Alderson 2000： 183）。構念的確定是為了確保測試能夠獲取學習者語言能力和知識的準確信息（Grabowski & Dakin 2014）。如果測試能夠有效測量所要了解的能力（ ability，or construct，or trait），那么該測試就與其構念吻合，達到了預期目的，具有“構念效度”。“構念效度”是指根據測試分數對假設的能力做出推論的程度（肖維青 2012：109-112）。簡而言之，構念效度主要從理論上回答：應該測試哪些能力和是否測試了應測的能力。

第二步為確定目標語言最終使用的情境（T L U Domain），即學習者學得的語言最終會用到什么情境。例如對外漢語教學中，學習者學漢語是為了從事貿易，還是將來要進行漢語的學術研究。這一點是為了確保測試任務的真實性，使得測試能夠達到評估和促學的功能。

圖一 Grabowski & Dakin（2014）的測試設計步驟模型

第三步是對測試的格式和具體內容的確定。一般是基于教學大綱或者教學情境中的其他關鍵特征，這一點旨在保證測試質量，確保測試公正有效。Alderson （2000）提出考試規范（ test specification）的制定是命題教師在考試命題前所做的必要準備，對考什么和如何考做出詳細描述，并書寫編輯成正式的文件。考試規范的內容包含以下內容：測試目的、測試范疇、考試對象、考試內容、考試方式、考試題型、試卷結構及分值、評分標準等（Alderson 2000）。

在此模型中，測試構念和目標語使用域是編寫測試的基礎，唯有對二者有清晰的認識和把握，測試卷才可能有效的測量目標語言能力。本文以廣東省某大學漢語二語綜合課期末考試的試卷為分析材料，對其進行項目分析（item analysis），反觀教師設計測試時對測試構念、目標語使用域的理解，以期發現漢語二語教師構建評估工具時的特點。具體而言，本研究旨在回答兩個研究問題：

1. 漢語二語綜合課試卷的構念和目標域是否能夠保證綜合漢語課的測試效度？

2. 項目分析體現出漢語二語教師評估工具建構能力的哪些問題？

二、漢語二語綜合課期末考試試卷數據分析結果

該期末考試的試卷是幾位任課教師合作編寫，完成初稿后，再進行討論，對試卷的整體構成進行調整。

該考試的測試對象是來自八個不同國家的16名留學生（見表一）。

表一　參加考試學生的國別和人數

試卷總分100分，全班考試分數分布如下（見表二）：

表二　考試分數分布

從考試分數分布可以看出，分數基本處于正態分布，56%的學生分數八十分以上，初步發現試卷偏易。

通過進一步的難度系數分析（正確項目數/項目總數），發現試題整體難度偏低（詳細數據見表三）。一般來說，難度系數高于0.8的屬于簡單；0.5難度適中；低于0.3屬于難。而本卷平均難度系數為o.75，偏易。

表三　試卷整體難度系數和區分度

區分度是指試題能夠將高分學生和低分學生區別開的能力。0.3為臨界值，高于0.3都視為區分度良好，低于0.3高于0.2，可進行修改測試項改進題目區分度；區分度低于0.2的測試項應當刪除。從數據可知本卷區分度良好。

三、討論

針對前文提出的兩個研究問題，討論部分將對試卷的底層構念和任務類型進行一一分析

試卷的構念和目的語使用域

根據Grabowski & Dakin（2014）的回顧，確定測試構念的方法有以下兩種。第一種是以理論為基礎定義語言測試構念。這種方法一般都運用于編寫語言能力測試。這種情況下，語言能力被定義為不同的語言技能（聽說讀寫）或者語言成分（語法、詞匯和語音等），或者二者結合。另一種構念界定是使用大綱、教材以及教學目標等材料作為決定測試形式和內容的基礎。這種情況下，測試的構念是基于不同的教學標準或者學習標準的。理想的試卷構念來自于學習標準和某一個語言學習理論相結合。前文提到的構念效度具體而言是指教師編寫測試時計劃達到的目的（構念）和測試卷實際測試得出的結果必須是匹配的。如果不是，測試卷的效度就有問題。，例如測試任務（要求學生寫出生詞的意思）和測試的目的（寫作能力測試）沒有呈現出必然的聯系，那么測試的效度就值得懷疑。

就目前漢語綜合課（中級）的構念界定而言，編寫測試的教師應該考慮以下問題：中級學生綜合語言技能應該處于什么水平？這個學習水平階段綜合語言能力應該包含哪些獨立的語言能力？學習者之間的差別有可能體現在什么方面？由于是綜合語言技能，理論上將，測試卷應涵蓋聽說讀寫技能的考察以及正確使用語法、詞匯、漢字和語音等的能力評估。另外，很重要的一方面是確定目標與將來可能會用到的場景，設計相關的測試任務，測試學習者語言應用能力，并反過來引導學習者在今后的學習中關注這些使用語言的場景和技巧。

從本試卷的測試構念（見表四）來看，共有六道大題是針對學習者詞匯能力的，可見該測試的重心是“詞匯能力”。整個試卷并未出現單獨的聽力、口語和寫作能力的測試部分。也沒有專門針對學生的實際場景語言運用能力的試題。后來通過郵件采訪教授此課的教師得知：“有專門的聽說課和寫作課，所以就沒有在綜合課里再單獨測試這幾項能力了”。實際上，綜合語言技能并非單個的語言技能的簡單疊加，而是有機的合成（Lia 2013）。因此綜合課中聽說讀寫能力與分項技能課中的語言能力構念是不同的，不可以簡單的等同和互換。

本測試卷未涉及交際能力或者語用能力，沒有考慮目標語使用域，構念效度未達到理想的狀態，對學習者的綜合語言能力預測價值有待商榷，對未來促學效應不確定。

表四　測試構念

試題任務類型

測試任務通常分為兩類：選擇題型（selected response）和建構題型（constructed response）。選擇題型主要包含選擇題（填空和單項選擇等）、連線題和是非題。建構題型可以進一步的分為短建構題和長建構題。典型的短建構題包含簡短問答、完形填空（用短句填空）和完成對話題。最常見長建構題是讀完文章之后完成寫作或者口語任務。由于兩類題型測試信效度各不相同，一份高質量的測試卷應該包含不同的測試題型。

該該卷的選擇題明顯偏多（見表五），占總數的81.25%，優點是可以提高評卷效率，并且考試信度較高。但是，建構題型效度更穩定，也就是說，對于預測學習者語言能力方面，建構題更好。因此，適量提高建構題型的比例很有必要。

另外，測試任務的選擇遵循兩個“一致”的原則（Grabowski & Dakin 2014）：和課堂任務一致、和真實生活中語言使用一致。其中，第二點強調任務的真實性，關注測試任務的目的語使用域。根據教師采訪得知，測試的題型與平時課堂訓練相一致。但是，該卷測試項并未考慮和真實生活場景的語言場景的一致性。在目的語環境下，留學生應該有大量實際使用漢語的機會，例如購物、郵寄和校園內各類師生互動，因此也應該面臨對實際交際中的挑戰，例如語用知識的有限和恰切語言形式的選擇等。如果該測試能夠適量添加和實際語言使用相關的建構題型，如根據場景完成對話題（語用能力典型題型），將會提高學習者對目標語法結構及語用技能的關注，進而提高學習者的交際能力和語用能力。

表五　測試任務類型

完形填空題項目分析

為了對試卷的構念和目的域有更深的了解，本文選擇該卷中唯一一道綜合技能測試題進行細節的項目分析。該題為完形填空題，包含一篇短文和六道單項選擇題。

對本文目標試卷的完形填空的項目分析結果（見表七）可見，題目難度0.31-0.81不等，均在合理范圍內，但是區分度（-0.25-0.75）卻不如人意。題目3和題目6的區分度出現負值，這表明高分組的學生選錯答案，而低分組的學生卻能做出正確選擇。而題目2和題目4沒有區分度，即高分組和低分組學生的對錯率是一樣的。進而考察題目四個選項的選擇，發現題目3的四個選項都為轉折連詞，詞匯結構一致，但是正確答案“但是”為高頻詞。語言水平較低的學習者會因為對該詞更有把握做出正確的選擇，而語言水平率高的學習者會因為選項過于簡單和明確而產生懷疑，反而會選擇詞匯頻率等級略低的詞匯，比如“即使”和“只要”。如果，四個選項都是一個頻率等級的詞匯有可能可以避免這樣的情況發生。另外，題目6的四個選項詞性不同，干擾項不符合邏輯。

題號　難度　區分度　選項AA　選項BB　選項CC　選項DD

注：帶*的選項為正確答案

近年來，越來越多的學者提出“促進學習的評估”（Airasian等 2007），呼吁教學與評估緊密結合，促進學習者學習效果。評估作為教學決策的重要證據，必須和教學目標和語言實際運用緊密結合，并且評估的結果真實有效。可是，從本文的試卷文本分析和項目分析發現，教師對測試的設計原則（測試構念和目的語使用域）并未貫徹。不難推測，信度和真實性不高的測試目前并不鮮見，這樣的測試結果被用來作為下一步教學決策的證據，后果堪憂。最直接改善這種現象的方式就是提升教師對于評估和測試的核心概念和理論的學習和實踐。

四、啟示與結論

從該綜合課試卷項目分析結果來看，測試卷的編寫并非易事，直接遷移課堂教學的內容很難達到理想的測試效度。究其原因，教師仍欠缺如何將測試與評估的基本理論概念應用到實踐中的技能與知識。

自二十世紀九十年代以來，學者們不斷提出對外漢語教師應當具備的知識和能力，比如電腦能力（卞覺非 1997）、跨文化交際意識（周健 2004）以及學生意識、課型意識、目的意識等（李泉 2005）的重要性，但是沒有提出對外漢語教師應該發展語言評估能力。

實際上，不僅對外漢語教學界對職前教師的評估能力發展重視不夠，全世界的評估能力培養普遍缺乏（Mertler2004）。主要原因是針對教師評估能力的培訓課程的嚴重匱乏（Mertler 2003）。大部分在職教師都修習過學校開設的語言測試與評估課程，但是教學內容也大多是于心理測量學范疇下的語言測試的基本理論有關（ Jin 2010；Mertler 2003），和教師的實際需要相去甚遠。而語言評估與測試領域的著作專業性太強，使得很多在職教師很難自學，因此對相關的評估知識與技能望而卻步（ Taylor 2009）。這使得職前教師的評估能力培訓狀況和發展情況不容樂觀（DeLuca ＆ Klinger 2013）。

可見，目前提高漢語二語教師評估能力的關鍵是創造漢語二語教師測試與評估能力的培訓機會。培訓內容不僅需要理論和其他外語語種的實踐經驗，更需要有針對漢語二語教師評估能力發展的切實需求，建構實踐性和針對性強的培訓，以期高效提高漢語二語教師評估工具編寫的能力。

參考文獻：

[1]. Alderson，J． C． Clapham，C．＆ Dianna，W． Language Test Construction and Evaluation［M］. Cambridge： Cambridge University Press，2000

[2]. Airasian， P. W.， Engemann， J. F.， Gallagher， T. L. Classroom assessment： Concept and applications［M］. Toronto， ON： McGraw Hill， 2007

[3]. Deluca， C.， & Klinger， D. A. Assement literacy development： Identifying gaps in teacher candidates’ learning ［J］. Assessment in Education： Principles， Policy and Practice， 2013

[4]. Jin， Y． The place of language testing and assessment in the professional preparation of foreign language teachers in China［J］. Language Testing，2010，27（ 4）： 555-584．

[5].Lia Plakans， Assessment of Integrated Skills[C]. in Carol A. Chapelle （Ed.） The Encyclopedia of Applied Linguistics： 2013：1-8

[]. Mertler C A．Preservice versus in-service teachers' assessment literacy： Does classroom experience make a difference? ［R］． Paper presented at the annual meeting of the Mid-Western Educational Research Association，Columbus，OH，2003．

[7].Mertler C A. Secondary Teachers' Assessment Literacy： Does Classroom Experience Make A Difference? ［J］． American Secondary Education，2004，33（ 1）： 49-64．

[8]．Popham W J． Classroom Assessment： What Teachers Need to Know （7th ed．）［M］. Boston，MA： Allyn＆Bacn，2014．

[9]卞覺非.中國語文現代化：目標、現狀與對策[J].揚州大學學報（人文社會科學版）1997，（6）.

[10]肖維青.多元素翻譯能力模式與翻譯測試的構念[J].外語教學2012.，（33）.

[1]周健.論漢語教學中的文化教學及教師的雙文化意識[J].語言與翻譯2004（04）.

[12]李泉.對外漢語教學理論思考[M].教育科學出版社 2005

（李春琳中山大學外國語學院在讀博士，廣東外語外貿大學英語教育學院511495）

漢語二語教師教師評估工具建構能力初探——基于綜合漢語課期末考試卷的項目分析

前言

一、研究背景

二、漢語二語綜合課期末考試試卷數據分析結果

三、討論

四、啟示與結論

漢語二語教師教師評估工具建構能力初探
——基于綜合漢語課期末考試卷的項目分析