選擇題(multiple-choice items或MC)作為選擇應答型試題(selected-response items)中的典型代表,從20世紀20年代開始就成為大規模標準化考試的主流題型(Fulcher,2014)。在施測和評分階段,選擇題有突出的優勢,例如在較短的時間內,測試者就可以收集到大量的測試數據,覆蓋較廣的考查內容。而在評分階段,運用機器很容易就能實現準確無誤的評分,因此在國內各大型的英語考試中,選擇題仍占據重要的地位。初中英語學業水平考試(以下簡稱“中考英語”)同樣運用大量的選擇題來收集數據。在本文中,筆者將首先闡述采用選擇題開展測試的四個方面的問題考量,介紹一個經過驗證的選擇題命題原則框架,并以此框架評價中考英語試題中選擇題的常見問題和改進建議。最后,本文從效度角度討論中考英語試題中選擇題的運用和建議。
Jones(2021)認為,命題者在考慮選擇題的適用性時應思考四個問題。第一個問題是選擇題本身的性質問題。一般認為,選擇題有天生的缺陷,就是它難以避免猜測問題,而且選項個數越少,猜對的可能性越大(Jones,2021)。僅僅看考生的最終選擇,我們無法了解他們答對或者答錯的原因。如果是因為猜測或者排除錯誤答案而答對,很明顯測試分數解釋和使用的效度就會受到威脅。但是,Rodriguez(2005)的研究發現,除非時間趕不及了,考生基本不會做完全盲目的猜測。Rupp et al.(2006)發現,考生在用盡其他所有的策略后才會啟用盲猜策略。Currie & Chiramanee(2010)則發現,在一項語法測試中,只有6.7%的正確答案是通過盲猜獲得的。當然,有策略地猜測也會對分數解釋和使用的效度構成威脅,因此在選擇題的命題中要盡量避免留下漏洞。
第二個問題是關于選擇題的構念效度的問題。Hughes & Hughes(2020)認為,語法選擇題不太能夠證明考生運用語法結構的能力,也就是說,考生能選對答案,但是卻不一定能夠在口語和寫作中正確運用語法結構。這就涉及構念效度的問題。從這個角度來說,選擇題僅僅能測量識別能力,卻幾乎不能用來測量口語和寫作等產出性能力。從這個意義上說,選擇題很難測量高階思維能力。但是,選出正確答案也不一定是簡單識別的結果。大部分選擇題可以被看作是提出問題并提供一系列可能的解決方案,而這個過程需要復雜的認知(Jones,2021)。因此,選擇題雖然不太能測試產出性技能,但也不僅僅可用于測量被動知識。設計良好的選擇題可以考查較為高階的思維能力。
第三個問題是關于選擇題選項個數的問題。Haladyna(2004)建議運用盡可能多的選項,但是似乎也可以有限制。Rodriguez(2005)綜述了跨度80年的27項研究,得出三個選項就足夠的論斷。命題人員應主要考慮以下三個方面的問題:1. 試題信度和題目區分度通常會隨著選項個數的增加而增加,但是從兩個選項到三個選項,信度和區分度提高明顯,而超過三個選項后,兩者提高得就很少了,增加第三個干擾項的效果不明顯。2. 在實踐中,第三個干擾項撰寫難度非常高。3. 三個選項的選擇題比四個選項的選擇題需要的做題時間減少,因此更好的策略應該是增加題量,收獲更高的信度。Lee & Winke(2012)比較了三個選項、四個選項和五個選項的語言測試,發現三個選項的測試題難度低,但在區分度和信度方面與其他兩類測試題未見明顯差異。Seinhorst(2008)也未發現三個選項和四個選項的語言測試題在難度、信度和區分度方面的差異,且三個選項的測試題比四個選項的測試題減少9%的施測時間,因此他認為,三個選項的測試題為測試者收集更多的證據提供了條件。
第四個問題是關于選擇題的適用范圍的問題。雖然選擇題有很強的靈活性,可測試的能力范圍很廣(Green,2017),但是在其適用性方面仍需做較多的思考。例如在閱讀理解試題中,要測量文本的內部邏輯結構,采用讓考生排序打亂的文本的題型會更加合適。在特定信息搜尋能力方面的考查可用簡答題。段落大意的考查則適用選擇題,因為在評分方面,如果讓考生直接產出,很難判斷答案是否足夠精準,而當考生直接抄寫文章的部分內容作為答案時,就很難判斷考生是否真正理解了原文。如果對原文進行有深度的釋義,則能夠用選擇題來測量考生概括大意的能力。另外,在難度方面,選擇答案和產出答案對測試的結果有影響。選擇答案的難度明顯會低于產出答案的難度。Currie & Chiramanee(2010)比較了產出答案和選擇答案在測量語言知識時的異同,并通過問卷調查的方式開展研究,發現超過25%的考生依靠部分知識答對選擇題,而接近25%的考生通過排除法獲得答案。由于產出答案的題目中不存在選項支撐或干擾,因此不同題型所考查的構念是否相同,仍需進一步的研究。
題目命制的質量是收集測試分數解釋和使用效度證據的重要來源之一。Haladyna & Downing(1989a,1989b)對教育測量學教材和命題原則開展了廣泛的研究,后期Haladyna et al.(2002)將研究更新,并最終由Haladyna & Rodriguez(2013)進行完整的論述(見表1)。表1的命題原則適用于選擇應答型試題,也同樣適用于指導選擇題的命題。本節將對該原則進行必要的解釋。
在內容方面,要嚴格按照多維細目表的規劃,每個題目只能測試一個內容和一種認知。在中考這樣高利害的考試中要杜絕使用陳題,要用嶄新的內容來測試學生,避免死記硬背。在多維細目表設計中,要注意選擇核心的內容進行考查,并保證題目之間的內容相互獨立,不互相提醒。在選擇題中要避免測量答案因個人觀點不同而不同的情況,也要避免偏題怪題。
在格式方面,建議選項應垂直排列。遺憾的是,在目前的中考英語試題中,我們可以看到密集的橫向排列選項,這會給考生帶來很大的心理負擔。
在風格方面,要細致編輯和校對題目,避免任何語法、標點等語言和規范問題,并確保在選擇題的題干和選項中沒有生詞。要嚴格控制題目的閱讀量。例如在閱讀理解題中,要避免選擇題的題干和選項的詞數達到閱讀文本本身的詞數。
在題干編寫方面,要注意題干的含義要明確,避免使用“What do you know from the text?”等空問題。題干的撰寫應盡量采用完整的問句,增強考生與試題之間的互動感。題干不應有否定輸入,以防過度增加考生的認知負擔。
關于選項的撰寫,表1已有清晰的論述,在此不再贅述。
在本節,筆者將根據近年來的中考英語命題評估經驗,結合表1的選擇題命題原則,分析中考英語命題中的突出問題及改進策略,以期為命題人員提升中考英語命題質量提供參考。
在內容選擇上,主要存在兩方面突出問題。一方面,部分試題存在單個題目測試的內容超過一個的問題,影響其構念效度。另一方面,部分試題測試內容過于寬泛,導致構念不清晰。要避免類似問題,命題人員在命題時應科學規劃多維細目表,明確目標測試構念,并嚴格依照細目表進行命題。以下結合具體示例進行說明。
(1)單個題目測試的內容超過一個
[例 1 ]
— As I know, your friend Jeff is very humorous.
— Yes. He is _______ person I know.
A. funnier B. the funniest
C. more serious D. the most serious
(參考答案:B)
該題既考查了funny與serious的詞義辨析,又考查了形容詞最高級的使用。這打破了單個題目與考點之間一一對應的關系,影響了構念效度。在本題中,如將選項改為funny、funnier、the funniest三個選項,考查內容就可以聚焦于形容詞最高級的使用,提升構念效度2。
(2)測試內容過于寬泛
[例2 ]
Which one of the statements below is a fact according to the passage?
A. Gan Yu is a hero like Lei Feng.
B. Zeng Qiangfei is warm-hearted.
C. Lei Feng’s hometown is in Hunan.
D. Edginton is a “foreign Lei Feng”.
(參考答案:C)
該題出自一篇閱讀理解,文章介紹了不同文化背景、不同年齡段的幾個人的志愿服務故事,生動說明雷鋒精神歷久彌新。但該題目設置過于寬泛,未能指向所要聚焦的信息和技能,考生作答時不僅需要搜尋整篇文章信息,根據文章表述進行推斷,還需要判斷該信息屬于事實(fact)還是觀點(opinion),導致題目構念不清晰,作答困難。若將題目限定于某一人物的具體細節,則可明確測試構念。
在題目風格上,主要存在兩點突出問題。首先,部分題目表述不當,題干或選項中存在超過被試水平的詞匯或表達。命題人員應當嚴格依照《義務教育英語課程標準(2022年版)》(教育部,2022)的要求進行命題,使用符合要求的語言知識。若題目所包含的語言知識超標,則會阻礙考生理解題目,進而影響作答。在選擇題命題中,不論是題干還是選項,都應使用符合考生當前認知水平的詞匯與表達,確保作答不被構念不相關的因素影響。其次,部分選擇題過度渲染情境,增加了考生作答時的閱讀量。命題人員在創設情境時,應盡可能使用簡潔的語言,避免冗余。以下結合具體示例進行說明。
(1)表達超過考生水平
[例3 ]
The best way for him is a kidney transplant. Many members of the family _______ to be matched (匹配) with him.
A. volunteered B. refused
C. hated D. announced
(參考答案:A)
[例4 ]
What did we mainly use single bamboo drifting for in ancient times?
A. A kind of sport.
B. A way of dance.
C. A form of traditional art.
D. A type of transportation.
(參考答案:D)
在以上兩道例題中,例3的干擾項D. announced和例4的正答選項D. A type of transportation.均不屬于《義務教育英語課程標準(2022年版)》要求掌握的語言知識。
(2)過度渲染情境
[例5 ]
A best friend is a person _______ is always there when you need him or her. As the saying goes, “A friend in need is a friend indeed.”
A. whom B. whose C. who
(參考答案:C)
在本題中,考生依據第一句“A best friend is a person _______ is always there when you need him or her.”即可作出選擇;而題干又增加了第二句的諺語,看似是使情境更加豐富,實則是情境的過度渲染,造成了題干繁冗。建議刪除第二句,保留必要情境即可。
在題干編寫上,最突出的問題在于采用否定表述,增加了考生作答時的認知負擔。Haladyna et al.(2002)指出,在題干中使用否定詞語會對學生及他們對此類題目的反應產生負面影響。當出現使用否定措辭的題目時,學生往往較難理解題目含義,或是容易在作答時忘記反向思維,造成不必要的認知負擔。要改進此類題目,一方面可以盡可能規避否定措辭;另一方面也可考慮將題型改為多項判斷題(multiple true-false items),將原選項則轉化為新的題目(Harasym et al.,1993)。以下結合具體示例進行說明。
[例6 ]
The mother albatross can do all the following things EXCEPT _______.
A. dive into water
B. reach faraway places
C. stay in air in windy weather
D. give birth to one baby every year
(參考答案:D)
[例7 ]
What can NOT passengers experience in the C919? 3
A. Comfortable seats. B. Clear screens.
C. Different kinds of foods. D. Exciting activities.
(參考答案:D)
例6和例7的題干中分別出現了EXCEPT、NOT這樣的否定表述。要改進此類題目,一方面可以規避否定措辭。以例6為例,建議將題干改為“What can the mother albatross do?”,同時對應調整選項。另一方面,可以采用多項判斷題,例如將例7進行如下改編:
What can passengers experience in the C919? Mark A if true or B if false.
① Comfortable seats.
② Clear screens.
③ Different kinds of foods.
④ Exciting activities.
最后,在選項撰寫上,主要存在三點最為突出的問題。第一,部分選擇題答案不唯一,影響題目的科學性。第二,部分試題選項之間存在重疊,增加了考生作答時的閱讀量。第三,部分選項設置不科學,存在答案泄露的情況,主要體現在選項間長度差異大、個別選項過于荒誕、選項內容不同質、干擾項干擾能力太弱等方面。以下結合具體示例進行說明。
(1)答案不唯一
[例8 ]
What’s possibly the best title for the passage?
A. An unbelievable behavior.
B. An unforgettable experience.
C. Misjudgment in the mirror.
D. Payment at the toll station.
(參考答案:C)
本題出自一篇閱讀理解,文章講述了作者一次在收費站被前車司機代付通行費后深受感動,從而決定延續這種善舉的故事。在一次代付車費時,作者起初因在后視鏡中看到后車司機憤怒的神情而有所猶豫,但在支付費用后,這位司機向他熱情地表示了感謝,這讓作者意識到不應急于對他人作出判斷。該題為主旨大意題,參考答案C概括了作者誤判了后車司機這一情節,但結合文章主要內容,B選項和D選項也具有一定的正確性,無法完全排除。在命題時,可以通過嚴格落實審題環節來避免這一情況。
(2)選項之間存在重疊
[例9 ]
What can we do if we feel disappointed?
A. We can go to bed.
B. We can call our friends.
C. We can walk on the playground.
D. We can write down our problems.
(參考答案:D)
在例9中,四個選項均包含“We can”,造成不必要的冗余。選項之間的重疊部分無疑增加了考生的閱讀量。要使這一題目更加簡潔,可以將選項中的“We can”均刪去,不影響本題表意。例如將該題進行如下改編:
What can we do if we feel disappointed?
A. Go to bed.
B. Call our friends.
C. Walk on the playground.
D. Write down our problems.
(3)答案泄露
[例10 ]
Which of the physical actions in singing can lead to your happiness?
A. The control of the lungs.
B. The filling of the stomach.
C. The increase of the voices.
D. The movements of the mouth and the body.
(參考答案:D)
在例10中,與其他選項相比,正確答案D選項長度較為突出,一定程度上增加了考生通過猜測作答正確的概率,降低了題目的效度。要想避免這一情況,應通過調整措辭盡可能保證各選項長度基本一致。
[例11 ]
What did scientists suggest people do before bed to sleep better?
A. Sleep an hour earlier.
B. Jump into bed.
C. Have a warm shower.
D. Set a time clock.
(參考答案:C)
在例11中,題干為“為了改善睡眠,科學家建議睡前做什么?”。B選項jump into bed(跳上床)明顯不合適,此時學生無需閱讀原文即可排除這一選項。
[例12 ]
She also to clean the house. When she finished her work, she felt happy to see the house much cleaner than before.
A. forget B. helped C. failed
(參考答案:B)
[例13 ]
— The food in the restaurant is great, isn’t it?
— Yes, it’s fine. I just don’t like the environment. The music is too .
A. talented B. useful C. noisy D. beautiful
(參考答案:C)
例12和例13呈現了選項不同質的情況。在例12中,三個選項的語法結構不一致(一個動詞原形,兩個動詞過去式),根據上下文時態,動詞原形可以被輕松排除,未能發揮干擾項作用;在例13中,四個選項的情感色彩不一致(一個負面,三個正面),根據題干中的“don’t like”,即可選出負面情感選項,并不需要對上下文情境進行仔細分析。因此,在命題時,應當注意各選項間保持同質,避免答案泄露。
[例14 ]
How do you know where to go?
A. By inviting a guide.
B. By asking people on streets.
C. By calling the Treasure Find team.
D. By following the directions from the app.
(參考答案:D)
本題出自一篇閱讀理解,文章介紹了一款名為Treasure Find的游戲。題目考查細節理解,但在原文中未出現A、B選項的相關信息,完全不具備干擾能力,不能有效考查學生的理解能力。要提升干擾項的干擾能力,應當確保每一個選項都有可能合理。以本題為例,可在答案出處的上下文選取其他細節并改寫為干擾項,起到一定程度的干擾作用。
選擇題作為中考英語最常見的題型,其質量的提升對中考英語分數解釋和運用的效度有極其重要的影響。《義務教育英語課程標準(2022年版)》在評價理念中明確了在語篇層面考查核心素養的要求(教育部,2022)。命題人員在運用選擇題題型時首先要摒棄傳統上在單句層面考查語言知識的做法。設計良好的選擇題對中考英語的難度調控也能起到積極的作用,避免出現難度過大而難以滿足檢驗初中英語課程目標基本達成情況的測試目的。本文中論述的三個選項的優勢應落實在中考聽力理解方面的考查,部分省份也可以考慮在閱讀理解中采用三個選項的做法。如有必要,可將通過三個選項的設計節省出來的篇幅和考試時間用于增加幾道高質量的選擇題,從而進一步提高內容覆蓋面和考試信度。限于篇幅,本文僅討論了經過驗證的選擇題的命題原則,建議命題者參閱更多語言測試相關的論著,如Green(2017)、Hughes & Hughes(2020)等,以磨煉選擇題命題技術。此外,命題人員應充分認識選擇題可能帶來的不良反撥效應,用良好的設計引導一線教學,避免大量的課堂時間被浪費在培訓學生尋找漏洞、猜測命題意圖上,切實發揮好選擇題在核心素養測試中應有的作用。
1 本文系中華人民共和國教育部課程教材研究所“初中學業水平考試命題質量研究”(項目編號:JCSZDXM2022009)的研究成果。
2 這里僅討論選擇題本身的設計問題。測查語言知識的單項選擇題因其缺乏足夠的語境,與《義務教育英語課程標準(2022年版)》的理念不相符,不建議在中考英語命題中采用。
3 更自然的表達應為“What can passengers NOT experience in the C919?”,此處保留了原始題目的說法。
Currie, M. & Chiramanee, T. 2010. The effect of the multiple-choice item format on the measurement of knowledge of language structure [J]. Language Testing, 27(4): 471—491.
Fulcher, G. 2014. Multiple-choice items [EB/OL]. (2014-03)[2024-05-04]. https://languagetesting.info/features/mc/items.html.
Green, R. 2017. Designing listening tests: A practical approach [M]. London: Palgrave Macmillan.
Haladyna, T. M. 2004. Developing and validating multiple-choice test items (3rd ed.) [M]. Mahwah, NJ: Lawrence Erlbaum Associates.
Haladyna, T. M. & Downing, S. M. 1989a. A taxonomy of multiple-choice item-writing rules: Applied measurement in education [J]. Applied Measurement in Education, 2(1): 37—50.
Haladyna, T. M. & Downing, S. M. 1989b. Validity of a taxonomy of multiple-choice item-writing rules: Applied measurement in education [J]. Applied Measurement in Education, 2(1): 51—78.
Haladyna, T. M., Downing, S. M. & Rodriguez, M. C. 2002. A review of multiple-choice item-writing guidelines for classroom assessment [J]. Applied Measurement in Education, 15(3): 309—333.
Haladyna, T. M. & Rodriguez, M. C. 2013. Developing and validating test items [M]. New York, NY: Routledge.
Harasym, P. H., Doran, M. L., Brant, R. & Lorscheider, F. L. 1993. Negation in stems of single-response multiple-choice items: An overestimation of student ability [J]. Evaluation & the Health Professions, 16(3): 342—357.
Hughes, A. & Hughes, J. 2020. Testing for language teachers (3rd ed.) [M]. Cambridge: Cambridge University Press.
Jones, G. 2021. Designing multiple-choice test items [A]. In P. Winke & T. Brunfaut (eds.). The Routledge handbook of second language acquisition and language testing [C]. New York, NY: Routledge: 90—101.
Lee, H. & Winke, P. 2012. The differences among three-, four-, and five-option-item formats in the context of a high-stakes English-language listening test [J]. Language Testing, 30(1): 99—123.
Rodriguez, M. C. 2005. Three options are optimal for multiple-choice items: A meta-analysis of 80 years of research [J]. Educational Measurement: Issues and Practice, 24(2): 3—13.
Rupp, A. A., Ferne, T. & Choi, H. 2006. How assessing reading comprehension with multiple-choice questions shapes the construct: A cognitive processing perspective [J]. Language Testing, 23(4): 441—474.
Seinhorst, G. 2008. Are three options better than four: Investigating the effects of reducing the number of options per item on the quality of a multiple-choice reading test [D]. Lancaster: Lancaster University.
教育部. 2022. 義務教育英語課程標準(2022年版) [S]. 北京: 北京師范大學出版社.
林敦來, 高淼, 劉森, 等. 2022. 中國初中英語教師評價素養量表研究[M]. 長沙: 中南大學出版社.
林敦來 北京師范大學外國語言文學學院副院長、教授、博士生導師。
羅正清 北京師范大學外國語言文學學院博士生。
李威峰 浙江大學教育學院博士生,浙江省教育廳教研室初中英語教研員,浙江省英語特級教師。