多項選擇題命題技術：基于新手命題員培訓的案例

2024-01-04 07:56:54王肖竹王佶旻

考試研究 2023年5期

王肖竹王佶旻

[摘要]聚焦一項語言測評課程中的命題培訓，分析27名研究生作為新手命題員，在經過命題知識講解，獨立編寫的多項選擇題和小組合作修訂后，命題成果中的題目缺陷，比較部分新手與專業命題員編寫的題目在作答結果上的差異，并對其中9名研究對象進行課后訪談。研究發現，新手命題員的題目經過合作修訂后質量有較大提升，在難度和區分度方面部分題目可以達到與專業命題員相似或更高的水平，以實踐和合作為基礎的命題培訓對語言測評素養有提升作用。研究結果為語言測試多項選擇題命題技術的學習效果提供了證據，為命題培訓提供了參考。

[關鍵詞]多項選擇題；命題培訓；合作命題；命題員；語言測評素養

[中圖分類號]G424.74[文獻標識碼]A

[文章編號]1673—1654（2023）05—031—010

基金項目國家社科基金重大項目“漢語交際能力標準與測評體系研究”（項目號15ZDB101）以及北京高校高精尖學科建設項目資助。

一、引言

客觀題（selected-response items）的編寫是一個需要大量指導和技術的創作過程，是一項藝術性和科學性兼具的工作，其中多項選擇題（multiple choice item）是最常用的一種，其作答和評分高效、可考查的內容豐富，通常用來測驗語言理解能力和語法、詞匯等語言知識，便于實現診斷功能[1]。盡管多項選擇題具有猜測的弊端，且對于語言測試而言，多項選擇題不能直接考查語言表達等交際能力，但高質量的題目依然可以有效測量多方面的認知能力[2]。由于試題質量是影響測試效度的關鍵因素，對于語言測評工作者和語言教師等相關方而言，命題是語言測評素養的必要成分[3-4]，在設計和評價試題上發揮著重要作用。已有研究觀察和總結了專業命題人員的工作過程與經驗[5-7]，但語言測試方面并沒有探究非專業人員的命題能力是如何形成的、命題培訓是否有效等問題。本研究以一項多項選擇題命題培訓為案例，通過分析語言學和教育學相關專業研究生在命題培訓中不同階段產出的題目的質量，體現命題技術學習以及合作命題的效果。從命題技術培訓效果這一角度，補充現有對語言測試命題工作的研究，從而更深入地理解命題能力的發展。

二、文獻綜述

（一）命題技術與語言測評素養

命題（item writing）是根據測評目的，編寫相應的試題任務來測評某種潛在能力的過程。在測試開發中，命題環節需要在測試規范（test specification）的指導下進行并對題目進行多輪修訂以確認其質量[8]。語言測評素養通常被定義為合理設計、評價和使用語言測評活動所需的知識、技能和原則[4，9-10]。在語言測評素養的定義中命題屬于“技能”部分[3]，它是一項綜合性的技術，既包含對基本命題原則的掌握，也需要與測試開發實施的各個環節配合，包含對語言測評目的和構念的理解。在高風險考試情境下，因為考試與備考的需要，命題可能被認為是語言測評素養的主要體現。例如，Zhang & Yan通過分析市級中學英語考試的題目質量來反映教師語言測評素養，發現題目整體難度、區分度和內部一致性較好，一些題目中正確答案設定出現問題，可能由教師語言水平不足和試圖編寫出有區分度的干擾項兩方面原因共同導致[11]。孫海洋、熊潔發現，大學英語教師在參與題庫共建項目中，不僅命題質量和能力有較大提高，其對語言測評各方面的理解也有所加強[12]。命題技術與語言測評素養息息相關，一定程度上可以反映語言測評素養水平。因此，命題技術在我國語言測評培訓中占有重要地位[13]。

在語言測評素養的發展中，實踐是一個重要的中介因素，通過培訓課程等方式學到的知識需要通過實踐運用才能得到鞏固和發展[14]。以語言教師這一群體為例，教師對語言測評培訓的需求也更偏向理論在現實中的表現和具體操作[15-16]。命題技術的規則性、操作性較強，在培訓中適合與實踐結合，以達到更好的學習效果。在此概念下，命題可以作為一個較為獨立的技術單元，具體而言，命題可以根據題型、考查技能、測評目的等分為多種類型，目前針對語言測試命題員的研究主要通過訪談等質性方法探索命題工作過程，如新手與專業命題員編寫聽力測試題的過程差異[5]、命題員合作命題過程中對測試規范的運用、工作組中的合作機制和影響個人命題過程的因素[6]，以及訓練聽力測試命題員編寫更加具有真實性的語料[7]等。針對漢語作為第二語言的測試，趙琪鳳對來華留學預科漢語考試命題員進行了調查，強調了命題經驗及反思對命題能力提升的作用[17]。這些研究主要從命題員自身工作過程反思的角度揭示命題工作經驗，為命題員培訓和測試編寫提供建議。對于新手命題培訓中的多項選擇題的編寫這一問題，目前尚未有研究探討。

（二）多項選擇題命題質量

題目質量是影響測試效度的關鍵因素，與命題技術密切相關。對于多項選擇題的編寫原則，學者基于教材、文獻等進行歸納，試圖全面、準確地定義選擇題命題原則，并且進行驗證[18]和修訂迭代[2，19-22]。在不同學科教育領域，已有一些研究通過對多項選擇題進行題目缺陷（item writing flaw）標注和分析，來作為測試效度驗證的證據[23-24]或檢驗命題經驗[25]等因素對題目質量的影響。從已有文獻對多項選擇題命題原則的歸納來看，主要可以從內容的適切性、格式的嚴整性、表述方式（語法）的規范性、語義表達的清晰性四個方面來理解，涉及題干、選項以及題組的編寫。本研究的編碼框架在Haladyna整理的31條[19]和Haladyna & Rodriguez的22條[22]選擇題命題原則基礎上進行改編，使其在對漢語二語水平測試的多項選擇題質量分析上具有可操作性，改編的具體內容見研究方法部分。

三、研究設計

（一）研究問題

Taylor指出，為了促進測試信息的正確解讀和使用，語言測評素養需要在不同的相關群體中建立起來，不僅包括專業的語言測試工作者，教師、學生以至公眾都需要具有相應水平的語言測評素養[9]。本研究旨在通過非專業新手命題員命題技術培訓這一案例，收集個人命題和小組合作修訂的兩次命題數據，探究多項選擇題命題原則框架運用于漢語作為第二語言水平測試所反映出的命題質量問題及發展，并通過小規模試測對比新手命題員與專業命題員產出的題目在作答結果上的差異，結合學生的課后訪談，以體現命題技術在提升命題質量和語言測評素養方面的效果。具體研究問題如下：

（1）通過題目缺陷標注，新手命題員的個人命題和小組合作修訂后的題目質量分別有怎樣的特點？

（2）基于同一篇閱讀理解文章，2份新手命題員的命題成果與1份專業命題員的題目在試測結果上有何差異？

（3）在課后訪談中學生認為命題培訓的效果有哪些？

（二）研究環境及研究對象

基于一門研究生階段的語言測評課程，該課程的目的是介紹語言測試專業的基本內容和研究方法，并掌握命題、測試數據分析等實用技術，以輔助研究生進行語言測試、二語習得等相關專業的研究，并為未來潛在的語言教師提供測評素養的基礎。在語言測評課程中，對命題技術的培訓包括4課時的命題講解和2課時的討論，共6課時，占授課總時長的1/4。在命題講解結束后，學生需要完成命題作業，內容為基于給定的一篇聽力語料（關于一次堵車事件的原因及化解）和閱讀語料（關于我國醫院男護士短缺的現狀及原因分析），分別編寫4—5個測試漢語二語聽力/閱讀理解水平的多項選擇題，作業完成情況計入學期成績。完成后學生自行組成5個小組，在小組內對命題作業進行篩選和修訂，每個小組整理出一份聽力和閱讀理解試題，并在課堂上展示和討論，在課堂建議的基礎上進一步修改，形成最終的命題成果。

研究對象為語言測評課程上的27名研究生新手命題員，其年級、專業和相關經驗分布如表1。

（三）研究方法

采用混合研究方法。首先對題目質量進行定性分析和編碼，統計題目缺陷的數量和頻率。題目包含新手命題員個人命題的成果，包括122道聽力題和130道閱讀題，共252道；新手命題員小組合作和班級討論后修訂的命題成果，包括21道聽力題和24道閱讀題，共45道（見圖1）。試題編碼框架的內容保留了Haladyna & Rodriguez的22條選擇題命題原則框架的“內容、排版、語言風格、題干、選項”五個主要維度（一級主題），并添加了“題組”這一維度（聽力和閱讀試題均以題組的方式呈現）。大部分編碼為二級主題，其中有四項下細分為三級主題（詳細編碼框架見附錄）。編碼框架確定后，2名語言測試方向的博士生分別對所有的聽力和閱讀試題（共297項）進行了編碼，對意見不同的編碼進行了討論，調整后達成一致。為了使數據呈現簡明，在分析和討論時，主要通過一級主題來歸納統計，在頻率較高的問題下描述更加細致的問題分類。

量化數據來源為82名中高級漢語二語學習者（基本信息見表2）對三份（5*3道）閱讀理解試題的作答情況。三份閱讀題目中（Set 1、Set 2、Set 3），Set 1為專業命題員編寫，Set 2來源于新手命題員最終命題成果中的1份題目，Set 3來源于新手命題員最終命題成果中的2份題目（為了盡可能使三份題目內容不重疊），用于試測的三份題目在試測前進行了少量局部修改以避免明顯的題目缺陷。選出的三份閱讀理解試題通過問卷星發放給被試完成，每名被試都完成三份題目，通過隨機順序來抵消題組順序對難度的影響。共回收有效答卷82份。對于三份試題的質量差異，使用SPSS 26和ITEMAN 3.50軟件分別進行均值比較和試題分析（經典測量理論），試題分析包含難度、區分度①、點二列相關系數②以及無效干擾項③的數量。

課程中的9名學生參與了課后訪談，訪談內容包含在整個課程中的收獲和對語言測評理解的變化，在訪談過程中沒有刻意引導學生說出對命題技術培訓部分的看法，對訪談內容進行開放式編碼后，分析其中與命題技術有關的理解和收獲。

四、結果

（一）個人命題和小組合作命題質量比較

從選擇題缺陷在每題平均出現的頻率來看，小組合作修訂后的命題質量（各題平均缺陷頻率為35.56%）明顯高于個人命題（各題平均缺陷頻率為104.37%）。其中聽力題的缺陷出現頻率從95.9%降至42.86%，閱讀題缺陷出現頻率從112.31%降至29.17%。從問題出現的數量來看（見表3），聽力和閱讀題目都是選項中的缺陷最多，閱讀題尤其明顯；其次嚴重的問題是考查內容合適性，這點在聽力題目上更為突出。

具體分析個人命題的缺陷特點，從聽力題目來看，在選項的編寫上，問題常見于選項的合理性、正確選項的設定和選項之間的語義或語法關聯產生暗示。出現頻率最高的問題是5.1.2（干擾項的區分度不足），共出現18次（14.75%），這一問題與出現頻數第二多（13.11%）的1.2.1（考查過于細節的內容）有較大關聯，問題出現的原因是有大量聽力題考查點在某個細節詞語，因此雖然命題員編寫的干擾項與正確答案具有同質性，但并沒有與原文產生內容關聯，干擾項的區分度不高。例如1-2和2-1，有這樣問題的題目共出現13次。聽力題目中另一個常見的問題是1.2.1考查內容與構念關聯較弱（13.11%），即考查的內容不是聽力理解能力，而可能是聽辨音能力（“十”和“四”），如15-1；或以閱讀理解的方式命題，如25-3。此外，聽力題目也存在3.1語言過于復雜（7.38%）、3.2表達不夠簡潔（6.56%）等問題。

1-2.小狗的顏色是：

A.白色B.黑色C.棕色D.黃色

答案：A

2-1.張先生使用的交通工具是什么？

A.電動車B.汽車

C.摩托車D.自行車

答案：D

15-1.這件事發生在昨天什么時候？

A.上午十點半B.下午十點半

C.上午四點半D.下午四點半

答案：A

25-3.“張先生估計這只小狗就是這兩天從主人家跑丟的”這句話是什么意思？

A.張先生推測小狗是最近跑丟的

B.張先生知道這只小狗是誰的

C.張先生想起曾見過這只小狗

D.張先生看到過這只小狗的主人

答案：A

閱讀題目的缺陷更加集中于選項編寫方面，74.62%的題目有選項方面的問題，其中出現最多的單項問題包括5.2.1正確答案不唯一（20.77%）和5.2.2正確答案不合適（15.38%），這與閱讀理解語料的信息量更豐富和具有層次性有關。如題目6-2，ABC三個選項都可以作為正確答案。題目13-2列舉數字是為了突出我國男護士比例低的情況，而題目中設定的正確選項沒有明確這一點，因此正確答案不合適。與聽力題目問題相似，5.1.2干擾項區分度不足的問題在閱讀題目中也較多（11.54%）。

6-2.女護士照顧男病員時，女護士會感到（）

A.很尷尬B.難為情

（二）閱讀理解試題作答情況比較

C.不方便D.很痛苦

答案：C

13-2.第四段的數字是為了說明？

A.護士的數量多B.男護士供不應求

C.美國、芬蘭經濟發達D.醫院很多

答案：B

從小組合作修訂后的問題來看（見表3），出現問題的總頻率降低，閱讀和聽力題目仍然存在題干和選項的問題，閱讀題題干出現問題更多（12.5%），如1-4題干沒有實際意義。這道題同時也存在考查內容不是單一維度（1.1）的問題。聽力題選項出現問題更多（23.81%），如3-1，該題A選項代入問題后邏輯上合理性不強，且各選項結構可能產生暗示。由此可見，小組合作產出的題目質量有明顯提高，這源于刪除了原來質量較差的題目，并對“潛力”較高的題目進行修改。不過在兩輪修訂后，依然存在一些沒有發現或解決的問題，說明僅一輪合作修訂還不足以保證題目質量。

1-4.下列哪種說法是正確的？

A.男護士有職業優越感。

B.作者支持中國的傳統觀念。

C.報考護理學校的學生很多。

D.男人覺得當護士很羞愧。

答案：D

3-1.十幾輛汽車為什么一起剎車？

A.張先生騎自行車B.發生了事故

C.發生了堵車D.主路上有狗

答案：D

基于同一篇語料的三份閱讀題試測結果顯示，15道題的內部一致性信度（Cronbachsα）為0.657，其中第1題（Set 1）和第13題（Set 3）得分與整體分數一致性最低，去掉兩題后Cronbachsα系數達到0.704，其他題項均與總分相關性較高。Set 2的內部一致性（0.507）高于Set 1（0.231）和Set 3（0.329），且與總分的相關性最高（見表4）。

表5列出了三份題目及各題項的正確率、區分度和題組內部的點二列相關系數。比較三份題目的平均分，方差分析結果為F（2，80）=9.52，p=0.00，LSD方法事后比較發現，Set 3的難度顯著低于Set 2和Set 1。具體看每道題的難度，Set 2的難度系數在0.38-0.78，較為適中；Set 1難度系數介于0.35-0.89，跨度較大；Set 3難度系數介于0.52-0.93，較為容易。

Kruscall-Wallis檢驗三份試題在點二列相關系數上沒有顯著差異，Kruscall-Wallis H = 5.055，df =2，sig = 0.08；區分度有顯著差異，Kruscall-Wallis H = 8.716，df =2，sig = 0.013，Set 2區分度系數顯著高于Set 3和Set 1，每道題的區分度均在0.5以上。說明Set 2的區分效果較好。

從選項來看，干擾項選擇率超過正確選項的情況Set 1和Set 2分別有1個；無效干擾項（選擇率低于0.05）的數量，Set 1為5個，Set 2為4個，Set 3為7個。干擾項的作用上，每份題目均有一定問題，側面反映了Set 3難度顯著低于另外兩份題目的結果。

（三）訪談結果分析

在談到語言測評課程中的收獲時，命題技術部分是提及次數最多的一個主題（占編碼總數的39.02%）。其原因主要有以下方面：（1）對于計劃進行二語習得研究和從事教學工作的學生來說，命題技術具有很強的實用性；（2）命題單元講練結合，在實際操作中可以更加深入地理解命題原則如何操作；（3）比起理論知識，命題技術的培訓更加易懂，學習過程參與度、興趣度高。經過語言測評課程的學習，學生對語言測評理解的變化中與命題技術有關的內容（占編碼總數29.17%）主要包含：（1）意識到命題工作的復雜性，從命題者的角度批判地看待題目；（2）意識到命題工作中團隊合作的重要性，命題是一項融合多種考量、多人貢獻的工作；（3）意識到母語者在為二語學習者編寫題目時需要轉變視角，具備相應的二語習得知識。

五、討論

（一）多項選擇題編寫的困難

通過分析多項選擇題命題缺陷及試測結果，可以總結出新手命題員選擇題命題的困難主要體現在選項、內容、語言風格和題干方面，在排版和題組設置上問題較少，這一結果與趙琪鳳對命題員的調查具有一致性[17]。具體來看，選項編寫中出現問題最多的是確保選項合理性和區分度，確保只有一個正確選項，以及避免選項之間的語義或語法關聯暗示。在內容方面的主要問題是考查點過于細節和考查內容非構念。多項選擇題本身在考查語言能力方面具有局限性，如果考查點過于細節，將進一步削弱選擇題對思維能力的考查，且容易導致沒有區分作用的干擾項。考查內容非構念這一問題可能由與新手命題員相關的兩個原因造成。首先，新手命題員對測試規范的熟悉程度不夠高，命題時對語境、構念的關注意識較弱，因此出現將聽力題出成閱讀題的情況。其次，新手命題員作為漢語母語者，有時從自身已有的測試經驗出發，對考查內容進行臆測，而不是對照漢語二語所需的知識和能力進行考查。例如考查聽辨音能力，或關聯詞的替換，這些考查點可能來源于漢語母語者的語文考試。在語言風格方面，表現為題目語言過于復雜，需要增進對漢語二語能力標準和大綱的了解程度。在題干方面，閱讀題目中出現不聚焦問題的題干，體現出命題中確定“提問角度、方式和內容”方面的困難[17]。

以上聽力和閱讀理解題目的問題分布與已有對于選擇題命題質量問題分析的研究對比，相似之處在于選項方面“干擾項不合理”“正確答案設定”的問題較多[23-25]，但從常見問題來看有所差異。在Tarrant等對香港護理測試多項選擇題的分析[23]，以及Costello、 Holland、Kirwan對（包含計算機、社會科學和醫學）30門慕課的202項選擇題命題缺陷分析中[24]，最嚴重的問題在于表達方面，包括絕對的表達、否定表達、信息模糊和不聚焦的題干等，這在本研究中體現不突出，可能是因為本研究命題員使用母語編寫二語測試時不會面臨語言水平和表達準確性的問題，但可能會因為不夠理解二語的學習和使用而引發其他問題。Pham等對醫學生和專業醫生的命題質量標注與本研究的分布情況大致相似，問題頻率由高到低依次是選項、題干、內容、風格和形式[25]。

（二）多項選擇題命題培訓的效果

本研究主要通過對比新手命題員經過命題指導學習后的個人命題和小組合作修訂的命題成果，以及對比新手命題員形成的兩份閱讀題和專業命題員命題的試測難度和區分度，來體現命題技術學習對命題能力發展的作用。首先，雖然在完成命題作業前學生已經了解了命題需要遵循的一般原則并了解了語言水平測試的目的和規范，而且也確保了學生參與的投入度，但個人命題中仍然出現較多問題，平均每個題目有1.04個錯誤。小組合作修訂命題質量的大幅度改善得益于合作和討論中集中的多人智慧，這與專業命題工作的特點一致[6，8]。第二，從難度、區分度和無效干擾項數量的對比來看，新手命題員完成的兩份題目中，一份的質量高于專業命題員，另一份過于簡單、無效干擾項較多。值得注意的是，由于采取被試內設計，為使題目內容盡可能不重復，Set 3是由2份合作命題重組而來的，這一操作可能降低了原題組的質量（影響了考查點分布的合理性）。結果說明，經過短期的命題技術培訓和合作修改，新手命題員可以產出質量較好的題目，有些甚至好于專業命題員，合作對于命題質量的提升有重要作用。

（三）多項選擇題命題實踐與語言測評素養的提升

通過訪談發現，在整個語言測評課程中，命題技術是多數學生反映有實際幫助的一部分，這與其較強的實踐性是分不開的，這一結果與已有研究中教師對于語言測評培訓的實踐需求一致[14-16]。同時，學生在進行命題實踐時不僅需要一般性的命題原則指導，也需要對語言能力和語言測評的構念有準確的理解，在選擇題質量上主要體現在內容部分，個人命題中考查內容過于細節或與構念無關的問題，經過小組合作和討論后，比例明顯下降。另外，訪談發現命題技術提高的效果不僅限于語言測試領域，對二語習得研究（如實驗材料的編制）以及調查問卷的設計方面也有所幫助，體現了語言測評素養并不孤立于專業領域內，而是融通于語言教學與研究中的，這一結果正面回應了Taylor對語言測評專業知識與其他學科及非專業群體的距離過遠、不利于社會各方語言測評素養發展的擔憂[9]。此外，在具體操作過程中，對原則的靈活運用、小組討論中互相學習等能力都是內化在實踐過程中的，是實踐能力提高的一種體現。因此，命題技術的培訓有助于語言測評素養的整體提高，有助于降低畏難心理并激發深入學習相關內容的興趣。

六、結語

對題目質量的定性、定量分析以及訪談中發現，以實踐和合作為基礎的命題培訓可以達到較好的效果，并提升了新手命題員的語言測評素養，為語言測試多項選擇題命題培訓提供了一定實證依據。因此，建議語言測評培訓課程可以采取實踐導向的方法，適當結合理論指導和實際操作，以使培訓獲得更高的效率和接受度。此外，改編的多項選擇題命題原則的編碼框架為命題質量分析提供了參考。本案例研究在數據代表性和準確性方面存在一定局限，由于所有的聽力和閱讀題目都基于一篇聽力和一篇閱讀語料，在試測中題項數量較少；此外，三份題目基于同一篇文章，一定程度上降低了作答難度和干擾項的選擇率，影響了試測結果解讀的準確性。今后的命題研究可以收集更大范圍的數據，對語言測驗試題編寫的過程特點進行刻畫。另外，Pham等認為將學生命題成果納入題庫建設中有一定價值[25]，將語言測試命題作為相關專業學生的實踐機會并實現試題資源的可持續發展，可以作為進一步研究的方向。

參考文獻：

[1] Rodriguez M C. Selected-response Item Development [C] // Lane S，Raymond M R，Haladyna T M.Handbook of Test Development（Second Edition）. Routledge，2016：259-273.

[2] Haladyna T M. Developing and Validating Multiple-Choice Test Items [M]. Routledge，2004.

[3] Davies A.Textbook Trends in Teaching Language Testing [J]. Language Testing，2008，25（3）：327-347.

[4] Fulcher G.Assessment Literacy for the Language Classroom [J]. Language Assessment Quarterly，2012，9（2）：113-132.

[5] Salisbury K.The Edge of Expertise：Towards an Understanding of Listening Test Item Writing as Professional Practice [D]. Kings College London，2005.

[6] Kim J，Chi Y，Huensch A，et al. A Case Study on an Item Writing Process：Use of Test Specifications，Nature of Group Dynamics，and Individual Item Writers Characteristics [J]. Language Assessment Quarterly，2010，7（2）：160-174.

[7] Rossi O，Brunfaut T.Text Authenticity in Listening Assessment：Can Item Writers Be Trained to Produce Authentic-Sounding Texts？[J].Language Assessment Quarterly，2021，18（4）：398–418.

[8] Spaan M. Evolution of a Test Item [J]. Language Assessment Quarterly，2007，4（3）：279-293.

[9] Taylor L.Developing Assessment Literacy [J].Annual Review of Applied Linguistics，2009，29：21-36.

[10]Inbar-LourieO. ConstructingaLanguageAssessment Knowledge Base：A Focus on Language Assessment Courses [J]. Language Testing，2008，25（3）：385-402.

[11] Zhang C，Yan X. Assessment Literacy of Secondary EFL Teachers：Evidence from a Regional EFL Test [J].Chinese Journal of Applied Linguistics，2018，41（01）：25-46+120.

[12]孫海洋，熊潔.命題對提升大學英語教師測評素養的作用：基于UNICOMM題庫共建項目的質性研究[J].西安外國語大學學報，2020，28（02）：75-80.

[13] Jin Y.The Place of Language Testing and Assessment in the Professional Preparation of Foreign Language Teachers in China [J]. Language Testing，2010，27（4）：555–584.

[14] Xu Y，Brown G.Teacher Assessment Literacy in Practice：A Reconceptualization [J]. Teaching and Teacher Education，2016，58：149-162.

[15] Malone M E.The Essentials of Assessment Literacy：Contrasts between Testers and Users [J].Language Testing，2013，30（03）：329-344.

[16] Yan X，Zhang C，Fan J J.“Assessment knowledge is important，but…”：How Contextual and Experiential Factors Mediate Assessment Practice and Training Needs of Language Teachers[J]. System，2018，74：158-168.

[17]趙琪鳳.來華留學預科漢語考試命題調查研究[J].語言教學與研究，2021，（02）：35-44.

[18] Rodriguez M C.The Art & Science of Item Writing：A Metaanalysis of Multiple-choice Item Format Effects [C] // Annual Meeting of The American Educational Research Association，Chicago，IL，1997.

[19] Haladyna T M，Downing S M，Rodriguez M C.A Review of Multiple-Choice Item-Writing Guidelines for Classroom Assessment [J]. Applied Measurement in Education，2002，15（3）：309-333.

[20] Frey B B，Petersen S，Edwards L，et al.Item-Writing Rules：Collective Wisdom [J].Teaching and Teacher Education，2005，21（4）：357-364.

[21]王佶旻.漢語測試中多項選擇題的命題技術探究[J].中國考試，2012，（05）：39-44.

[22] Haladyna T M，Rodriguez M C. Developing and Validating Test Items（1sted.）[M]. Routledge，2013.

[23] Tarrant M，Knierim A，Hayes S K，et al.The Frequency of Item Writing Flaws in Multiple-Choice Questions Used in High Stakes Nursing Assessments [J]. Nurse Education in Practice，2006，6（6）：354-363.

[24] Costello E，Holland J，Kirwan C.The Future of Online Testing and Assessment：Question Quality in MOOCs [J].International Journal of Educational Technology in Higher Education，2018，15（42）.

[25] Pham H，Court-Kowalski S，Chan H，et al.Writing Multiple Choice Questions—Has the Student Become the Master？ [J].Teaching and Learning in Medicine，2022：1-12.

Investigating the Development of Multiple-choice Item Writing Skills：A Case Study of an Item-Writing Training Program

Wang Xiaozhu Wang Jimin

Beijing Language and Culture University，Beijing，100083

Abstract：This case study，set in a Chinese as a second language（CSL）teaching environment，examines an item-writing training session focusing on multiple-choice items in a language assessment course for graduate students majoring in applied linguistics or educational evaluation.In the item-writing training process，the 27 participants took lectures on item-writing principles before they generated items of reading and listening comprehension individually with the purpose of measuring CSL proficiency，and then revised and refined them collaboratively in groups. The items were evaluated based on the principles of multiple - choice item writing adapted from Haladyna and Rodriguez（2013）to analyze the quality of items before and after collaborative revision.3 sets of reading comprehension items，two written collaboratively by the novice item writers and one by professional item writers，were piloted on 82 L2 Chinese learners to compare the quality of items in terms of item difficulty，discrimination，and non-functional distractors. Additionally，nine participants were interviewed about their experience and conception of language assessment in the course.The study found an obvious improvement in the quality of items revised collaboratively compared to those generated individually after lecture，with the mean number of item writing flaws dropping from 1.04 to 0.36 per item.Moreover，one of the two sets of items written collaboratively by novice item writers exhibited higher quality compared to the set written by professional item writers because of moderate difficulty and higher discrimination.The interviews revealed that item-writing training was evaluated positively in the language assessment course as it was practice-based and useful in future careers，raising the level of language assessment literacy in various aspects.In short，the evidence was supportive of the effectiveness of the item-writing training program.

Key words：Multiple-choice Items，Item-Writing Training，Collaborated Item Writing，Item Writer，Language Assessment Literacy

附錄

（責任編輯：吳茳）

①區分度計算方法為高分組（得分最高的27%）被試在該題上的通過率減去低分組（得分最低的27%）被試在該題上的通過率。

②點二列相關系數的計算方法為每個題項與該份題目（題組內部）得分的Pearson相關系數。

③選擇率低于0.05的干擾項，根據Pham et al.（2022）。

考試研究2023年5期

考試研究的其它文章: 指向“證據推理”素養評價的等級性考試命題探索; 高校藝術類專業招生省級統考制度改革的現實困頓與實踐指向; 構建河北省“職教高考”技能考試的思考; 基于PDCA優化新高考命題培訓機制; 新高考背景下高中開展生涯規劃教育的成效、困境與省思; 省級教育考試機構人員考核問題分析及精準考核路徑探究