初中英語學業水平考試(以下簡稱“中考英語”)是初中階段最重要的一項終結性測試。它依據《義務教育英語課程標準(2022年版)》(以下簡稱《義教新課標》)命制,是對學生完成九年義務教育后英語學業水平的檢驗,也是高一級學校錄取人才的重要依據。因此,其試題質量對該項測試的分數解釋和分數使用都具有極其重要的影響。測試是一項綜合性系統工程,一項完整的測試系統至少包含測試目的明確、測試級別定位、測試構念界定、測試規范和任務撰寫、試測與試題評估、正式施測、分數推斷、教學決策等環節(Fulcher,2010)。這個過程會產生一系列文件,如試題、多維細目表、成績分析報告等。但一般情況下,非測試核心人員往往只能獲得試題。本文基于通常情況下僅能獲得試題的現實,以實踐為出發點,淺談在僅能獲得試題(不包括評分細則)的情況下,如何對中考英語命題質量開展評估。以下從宏觀層面和微觀層面兩個角度來展開討論。
從宏觀層面上來評估試題時,評估者應首先考慮測試中素材的價值取向;其次,評估者要考慮測試目的,進而從內容效度的角度來評估試題的質量。
測試是一種社會行為,發生在特定的社會情境中,發揮特定的社會功能,如促進社會公平、實現教育機會均等。測試也從來不是價值中立的,它本質上是一種政治行為(Fulcher,2009)。《教育部關于加強初中學業水平考試命題工作的意見》(以下簡稱《意見》)第一條為“堅持正確導向”,其中將落實立德樹人根本任務放在首要位置。《意見》提出,考試命題工作要堅持正確政治方向,牢固樹立“四個意識”,堅定“四個自信”,堅決做到“兩個維護”。注重加強對學生理想信念、愛國主義、品德修養、知識見識、奮斗精神、綜合素質等方面的考查,積極培育和踐行社會主義核心價值觀,弘揚中華優秀傳統文化、革O7u58m+7U/2NH05kSXamk8TizJ1EElYDMZoqaEWHNo0=命文化和社會主義先進文化,引導學生樹立正確的國家觀、民族觀、歷史觀、文化觀和宗教觀,促進學生德智體美勞全面發展(教育部,2019)。這些內容與《義教新課標》的育人理念是完全吻合的。
在測試素材的價值取向方面,評估者要通過閱讀試題中的素材,來判定試題內容的價值取向是否與《意見》和《義教新課標》的內容吻合。具體操作性表格可參考表1。評估者可以對試題中的素材進行編號,先判斷其是否堅持正確的政治方向,再通過通讀素材,歸納其所傳遞的核心意義,并將之歸屬于不同類別,如體現社會主義核心價值觀、弘揚中華優秀傳統文化等。
從語言測試學角度來說,不論是設計一項測試,還是評估一項測試,首先要考慮的是測試目的。Ingram(1968:70)曾說過:“所有的測試都有其目的。如果沒有清晰地陳述測試目的,那么這項測試不會是一項好的測試。”Carroll(1961:314)也指出:“語言測試的目的是提供信息,以幫助人們就可能的行動方案作出明智的決定。”但這些決定是多種多樣的,并且需要人們針對測試的每種預期用途作出非常具體的決定。從操作層面上看,Fulcher(2010)認為,測試者如果沒有清晰地陳述測試目的,在選擇測試的內容和形式時就無法提供令人信服的理據。具體來說,測試者對測試目的的陳述應該包含目標測試群體的信息和他們的水平范圍、目標語言使用域、知識技能能力的范圍等(Fulcher & Davidson,2007)。對測試目的的陳述為測試構念(即測試的能力是什么)和內容的選擇提供理據,在預期分數解釋和分數使用之間搭起橋梁。
就中考英語來說,根據《義教新課標》的規定,它承擔了雙重的考試目的:一方面檢測義務教育階段結束時學生的學業成就,另一方面為高一級學校招生錄取提供依據。此外,它也為評價區域和學校教學質量提供參考,還包含改進教育質量和教學方式的價值取向。從測試學角度來說,中考英語是一項終結性測試,兼具學習認證(certification)和選拔(selection)的功能;也是一項高風險考試,因為其分數使用會關系到考生能否畢業、是否有機會進入下一個階段的學習。同時,該考試還承擔教育問責(accountability)的功能。
因此,從考試目的的角度來評估中考英語試題質量時,評估者可以考慮試題在依標命題方面的執行情況和試題難度控制情況。王薔、葛曉培(2024)對依標命題做了詳細的解讀。筆者認為,從試題出發,評估者可以借助表2來對試題質量進行相應的評估。在課程理念落實情況中,評估者要關注試題是否體現對核心素養的考查;是否體現以主題為引領,以不同類型的語篇為依托的考查;是否為學生提供真實情境和真實問題,指向主題意義的探究;是否與《義教新課標》提倡的教學方法相匹配。課程目標覆蓋情況則需要評估者評判試題在多大程度上涵蓋語言能力、思維品質三級學段目標的內容,并兼顧對文化意識和學習能力的考查。在課程內容涵蓋情況方面,需要評估者評判試題在主題、語篇類型、語言知識、文化知識、語言技能方面在多大程度上綜合反映了《義教新課標》三級的內容和能力要求。學業質量標準的體現情況則需要評估者考量試題背后考查的構念與三級學業質量標準之間是否有對應的關系。在評級方面可采用四級李克特量表。0代表完全不符合,1代表基本不符合,2代表基本符合,3代表完全符合。總分8以上就可以認定為比較積極的評價結果。
從試題的難度把控上看,既要有反映初中學段結束后,學生應該達到的最低要求的題目,體現試題的基礎性,實現學習認證的功能;也要有反映《義教新課標》所規定的初中學段較高目標達成情況的試題,實現選拔的功能。這里有一個特別值得注意的地方:針對主觀性試題,特別是開放性強的主觀性試題,在評分標準制定中,分步計分中較低層級的得分情況也可以納入基礎性考查目標。試題的總體難度預估為0.65—0.75是比較理想的。
在閱讀一套試題時,讀者得到的最直接的印象就是測試內容。而對測試內容的判斷是測試效度驗證的一個重要組成部分。內容效度考察的是一項測試在多大程度上測量了欲測的技能或行為(Mousavi,2012)。內容效度主要從內容相關性和內容覆蓋面兩個維度考察(Bachman,1990)。對內容相關性的考察需要細化目標行為領域及其任務,特別是需要細化測試方法;對內容覆蓋面的考察指的則是考察測試中的任務在多大程度上能夠充分地代表目標行為領域(Mousavi,2012)。考察試卷的內容效度,可以通過審閱多維細目表來比對《義教新課標》與考試內容之間的匹配性。通常情況下,多維細目表未公布,因此評估者也可以通過逐題審閱試題,參考林敦來等(2024a)關于多維細目表編制的建議,反推考試內容,從而建構起試題與《義教新課標》之間的內容匹配情況。如表3所示,評估者可根據題目情況建構試卷結構、分值分布、考查內容、題型分布、輸入材料特征等。在完成表3的基礎上,評估者可判斷試題對《義教新課標》要求內容取樣的代表性和覆蓋程度。考慮到涉及評估者的主觀判斷,因此建議采用雙人或多人背對背互評。當評估者遇到不同意見時,應詳細研討以達成一致意見。
在從宏觀層面對試題進行判斷之后,評估者可對試題做進一步的深入分析。筆者認為,在微觀層面,我們首先可以借鑒Weir(2005)提出的效度驗證的社會認知框架來評估試題的質量。首先,情境效度證據是命題評估者可以參考的重要方面;其次,認知效度證據也同樣起到重要作用。
關于情境(context),Weir(1993)的論述頗具啟發意義。他認為,情境作為交際語言能力的決定性因素是至關重要的。情境必須是考生和專家考官一致認同的可用于評估特定語言能力的合適條件。在測試這些能力時,測試者應盡可能獲得正常執行任務的條件。Weir(1993)還指出,測試者應該有意識地努力在測試中建立盡可能多的現實生活場景,且這些生活場景應該被測試者及其同行視為是可行的和具有典型性的。如果測試任務反映了現實生活中的重要情境和操作任務,那么測試者在進行分數解釋時,就更容易推斷考生可以運用英語完成什么任務。除非采取措施識別和納入反映現實生活中重要情境和操作任務的特征,否則測試者很難推斷在未來目標條件下考生的語言能力是怎樣的。
情境效度可以從任務設定(考試指令、語言使用目的、應答模式、評分標準、權重、題目順序、測試時間安排)和任務要求(語篇模式、交流渠道、語篇長度、信息本質、話題知識、輸入輸出特征、寫作對象)兩大方面去評估(參閱Weir,2005)。這里對部分內容進行解釋。語言使用目的的適切性對考生調用元認知策略進行作答是很重要的。例如,廣告的目的是勸說大眾購買產品,測試者如果采用廣告作為閱讀素材,在命題時應該圍繞勸說購買這個目的去設置題目。語篇模式會影響測試構念。例如,測試者欲測試考生的互動能力,則需要采用考官與考生現場互動的語篇模式,考官需要針對考生的口語產出改變措辭和應答內容,以適應即時性的交流。這時,考官按腳本提問的語篇模式就不合適了。在書面交流渠道方面,測試者往往會運用圖表等方式傳遞信息。但是這些多模態的內容如果運用不當,可能會造成考生的理解困難。信息本質則指信息的具體程度和抽象程度。表4詳細列出情境效度證據評估的觀測點。通過評估者的判斷,可以定位有問題的題目,作為試題質量的駁證呈現。
Weir(2005)框架中的認知效度對試題評估同樣具有重要的啟發意義。Khalifa和Weir(2009)建構了閱讀的認知框架,其中主要的認知過程包含詞匯識別、詞匯通達、句法解析、建構小句和句子層面的命題意義、推斷、融合新信息建構心理模型、創建語篇層面的意義表征和創建跨語篇層面的意義表征。Field(2025)建構的聽力認知框架包含三個階段,即話語解析(含輸入材料解碼、詞匯檢索、句法解析)、意義單元(意義建構)和語篇含義(語篇意義建構)。在寫作方面,Shaw和Weir(2007)對寫作的認知做了闡釋,包含宏觀規劃、組織、微觀規劃、轉換、監控和修訂。通過評估題目對考生認知層次的考查,評估者可以更加清晰地了解題目是否達到測試者預期的認知層級。表5呈現了題目考查的認知層面的評估表。需要指出的是,在判斷對應題目時,評估者應該采納該題目考查的最高認知層次。也就是說,在閱讀中考查了語言層面的意義表征,就自然包含了對詞匯識別、詞匯通達等比它更加初階的成分的考查。通過對應題目數量以及賦分的比例,評估者可以較為清晰地統計出試題所測試的認知層級的分布情況,并依此判斷試題對考生認知層次的考查是否符合《義教新課標》對該學段學生思維品質方面的要求。
林敦來等(2024b)基于選擇題的設計原則,對中考英語命題中選擇題命制質量的常見問題進行了分析。評估者可以依據該框架對試題中的選擇應答型試題(含匹配題、判斷正誤題、選擇題等)的質量進行評估。具體評估指標詳見表6。
Haladyna和Rodriguez(2013)對建構應答題型的命題原則做了闡釋,詳見表7。該表從內容、格式和風格、指示語撰寫、情境等方面對建構應答題目的命題原則進行了規定。在內容方面,強調了測試的構念要清晰、測試的認知要符合初中學段學生的認知要求,以及試題中對相同構念的處理應具有可比性。
表8詳細列出建構應答題目命題技術與規范的觀測點,由于建構應答題目一般考查學生綜合運用語言來解決問題的能力,能夠更直接地體現對核心素養的考查,其質量評估也體現多層多維的特征。因此筆者認為,對題目質量的評估應采用評級的方式呈現。在內容維度中,除了對構念和認知能力的評判,還包含了對相同構念的處理是否具有可比性的問題。Bachman和Palmer(2010)介紹了三種不同的構念界定方式,即純語言構念、語言構念加話題構念,以及語言融合話題構念。在中考英語命題實踐方面,如果測試者在書面表達中選擇的構念是寫作能力且不包含話題知識,那么在閱讀表達開放性試題中如果考查寫作能力,就不應該把話題知識納入構念。建構應答題目命題技術與規范的評估也需要采用雙人或者多人背對背評估的方式,有不同意見需要進行商討達成一致,最終得分在22以上的試題可認為是質量較高的題目。
本文以中考英語試題為出發點,討論如何開展中考英語命題質量評估的問題。本文提出的方法主要靠評估者作為專業人士進行專業判斷,需要評估者擁有相應的評價素養,對課程標準、語言能力標準、測試方法的優缺點和命題規范,以及語言測試學的基本概念有深入的認識。命題評估工作一般建議以3—5人的專家團隊來開展,最好包含有語言測試研究背景的人士、課程專家、一線教師和教研員等。本文提出的評估方法也適用于測試者在題目開發階段對試題質量進行評估,以期改進試題質量。
* 本文系國家社科基金項目“核心素養下的國家義務教育質量監測英語指標體系和范型題研究”(項目編號:22BYY091)的成果。
Bachman, L. F. 1990. Fundamental considerations in language testing [M]. Oxford: Oxford University Press.
Bachman, L. F. & Palmer, A. S. 2010. Language assessment in practice: Developing language assessments and justifying their use in the real world [M]. Oxford: Oxford University Press.
Carroll, J. B. 1961. Fundamental considerations in testing for English language proficiency of foreign students [A]. Reprinted in H. B. Allen & R. N. Campbell (eds.). 1965. Teaching English as a second language: A book of readings [C]. New York, NY: McGraw Hill: 313—330.
Field, J. 2025. Cognitive insights into first and second language listening [A]. In E. Wagner, A. O. Batty & E. Galaczi (eds.). The Routledge handbook of second language acquisition and listening [C]. London: Routledge: 13—28.
Fulcher, G. 2009. Test use and political philosophy [J]. Annual Review of Applied Linguistics, 29: 3—20.
Fulcher, G. 2010. Practical language testing [M]. London: Hodder Education.
Fulcher, G. & Davidson, F. 2007. Language testing and assessment: An advanced resource book [M]. New York, NY: Routledge.
Haladyna, T. M. & Rodriguez, M. C. 2013. Developing and validating test items [M]. New York, NY: Routledge.
Ingram, E. 1968. Attainment and diagnostic testing [A]. In A. Davies (ed.). Language testing symposium: A psycholinguistic approach [C]. Oxford: Oxford University Press: 70—97.
Khalifa, H. & Weir, C. J. 2009. Examining reading [M]. Cambridge: Cambridge University Press.
Mousavi, S. A. 2012. An encyclopedic dictionary of language testing (5th ed.) [M]. Tehran: Rahnama Press.
Shaw, S. D. & Weir, C. J. 2007. Examining writing: Research and practice in assessing second language writing [M]. Cambridge: Cambridge University Press.
Weir, C. J. 1993. Understanding and developing language tests [M]. New York, NY: Prentice Hall.
Weir, C. J. 2005. Language testing and validation: An evidence-based approach [M]. Basingstoke: Palgrave Macmillan.
教育部. 2019. 教育部關于加強初中學業水平考試命題工作的意見[EB/OL]. (2019-11-22) [2024-09-08]. http://www.moe.gov.cn/srcsite/A06/s3321/201911/t20191128_409951.html.
教育部. 2022. 義務教育英語課程標準(2022年版) [S]. 北京: 北京師范大學出版社.
林敦來, 陳芳, 林玉琴. 2024a. 初中英語學業水平考試多維細目表的設計與編制[J]. 英語學習, (5): 17—22.
林敦來, 羅正清, 李威峰. 2024b. 選擇題的設計原則、常見問題與建議——以初中英語學業水平考試為例[J]. 英語學習, (6): 19—25.
王薔, 葛曉培. 2024. 依標命題,發揮考試評價對英語教與學的積極導向作用[J]. 英語學習, (5): 4—10.
林敦來 北京師范大學外國語言文學學院副院長、教授、博士生導師。主要研究方向為語言測試與評價。