初中英語學業水平考試是一項帶有學業質量基本要求檢測和高一級學校升學選拔雙重性質的考試,是一項高利害考試,對考試命題的要求非常高。考試的分數解釋和結果運用在多大程度上能滿足學業質量檢測和升學選拔的考試目的和要求,即測試的效度,是命題人員要密切關注的問題。2019年,教育部發布了《關于加強初中學業水平考試命題工作的意見》,明確規定“取消初中學業水平考試大綱,嚴格依據義阿務教育課程標準命題,不得超標命題”(教育部,2019)。依標命題是保證測試內容效度的基本要求。對于命題人員來說,就是要把義務教育課程標準的課程理念、課程目標、課程內容和學業質量要求全面反映在初中英語學業水平考試試題中,而連接課程標準與試題之間的橋梁就是考試規范(test specifications或test specs)及其具象化且可操作的多維細目表。
考試規范最早是由Ruch(1929;轉引自Davidson amp; Lynch,2002)引入教育和心理測量領域的,其含義是“提供高效的生成性藍圖,使得平行的測試任務得以開發”(Davidson amp; Lynch,2002:4)。可見考試規范具有生成性、平行性、高效性等方面的特征,是保證試題開發質量和效率的重要工具,是試題構念效度證據的重要來源,也是保證試題跨年可比性的重要抓手。Alderson et al.(1995)認為命題人員使用的考試規范要回答以下12個問題:1)測試目的是什么?2)被試的特征(如年齡、性別、能力水平、背景等)是怎樣的?3)試卷的結構是怎樣的?4)目標語言使用域是怎樣的?5)文本類型和特征如何?6)測試哪些技能或微技能,是綜合式測量還是分立式測量?7)測試哪些語言知識或運用(如語法、詞匯、功能意念、語用)?8)采用怎樣的任務?" 9)每個部分有多少題目,權重如何?10)測試方法或題型是什么?11)考試指導語是怎樣的,以及是否給作答示例或得分要點?12)評分原則是怎樣的?
為了使考試規范更加具象且更具可操作性,通常情況下,測試規劃者會把考試規范的核心內容以表格的方式呈現。這種表格被稱作命題細目表(The Table of Specifications,簡稱TOS)(Cheng amp; Fox,2017;Miller et al.,2009)。長期以來,教育測量實踐者們采用雙向細目表的形式,其中一個維度用于體現考試涉及的知識或技能,另一個維度呈現知識或技能的不同認知水平。樣例如表1所示。
但是很明顯,這種組織方式僅關注了知識點及其認知層次,未能考查學生的核心素養,未能建構知識點之間的關聯以產生對事物或現象的整體認知,未能體現整合和綜合運用知識來解決現實問題的能力,這與《義務教育英語課程標準(2022年版)》(以下簡稱《義教新課標》)(教育部,2022)的理念相去甚遠。賈瑜、辛濤(2020)提倡用多維細目表引領基于課程標準的試題設計。多維細目表能夠全面反映考查目標與內容之間的關系,考查目標、內容和題型之間的關系,題型與難度、區分度以及考查內容之間的關系,題型與難度、區分度以及考查目標之間的關系。
基于以上討論,多維細目表在測試與評價,尤其是在大規模的學業水平考試中的重要性不言而喻。但根據筆者多年的經驗和觀察,多維細目表在實際編制中存在頗多問題,歸結起來主要集中在主觀認識和設計操作兩個層面。
(1)對多維細目表的意義認識不夠,不重視多維細目表的編制
命題人員未能認識到多維細目表能夠提高命題效率、規范命題過程、幫助收集關于測試測了什么以及學生學得怎樣等信息。反之,他們認為多維細目表可有可無,故而出現了編制過程中比較隨意的現象,如測試前對多維細目表不予重視,測試后為了應付檢查補做;或者測試前隨意設計一個多維細目表,測試后為了使數據看起來更加漂亮便任意改動;還有的只是在多維細目表中簡單設置了幾個指標,以示完成了此項工作。諸此等等,說明命題人員還沒有清晰地認識到多維細目表對指導命題的價值和作用,不能通過多維細目表的設計建構好“教—學—評”之間的關系。
(2)缺乏課程標準理念,對多維細目表的認識還停留在雙向細目表上
部分命題人員在研制多維細目表時,不能及時更新測試與評價的理念,也未將課程的育人目標與素養立意滲透到多維細目表中來。所以,在編制多維細目表時容易受慣性思維的影響,依然按照教學內容(知識與能力)和認知層次(識記、理解、運用)兩個維度設計多維細目表,也就是上文所說的雙向細目表。但是雙向細目表的考查目標和范圍都太過狹窄,容易遺漏或忽視某些復雜的、多維度的教育目標,難以凸顯《義教新課標》所倡導的育人導向和素養立意,無法在真實情境中全面考查學生在解決真實問題、完成真實任務的過程中體現出的語言能力、文化意識、思維品質和學習能力。
(3)多維細目表的編制多依賴于命題人員的經驗,缺乏科學的實證依據
以中國知網收錄的2004—2024年文獻為例,輸入關鍵詞“多維細目表”,僅檢索到12篇文獻,其中4篇標題出現了“多維細目表”字樣,所涉及的學科為語文、物理和政治,談到了多維細目表的構建與應用,但未檢索到英語學科多維細目表編制的文獻。輸入關鍵詞“雙向細目表”,檢索到209篇文獻,其中與英語相關的有11篇,多從雙向細目表的功能和作用展開研究,利用雙向細目表解決教學中的問題(秦倩楠,2020),或只是泛泛地談及雙向細目表的內涵與實踐意義(強薇,2011)。只有1篇具體談論了命題雙向細目表在英語模擬考試中的應用(邢文俊,2018)。可見,在當前的英語多維細目表的研究上,無論是理論建設,還是實操層面的經驗,都比較匱乏。命題人員,包括一線教師,對多維細目表的編制尚未形成統一的認識,不清楚多維細目表中應該涵蓋哪些要素,以怎樣的形式去呈現各要素之間的關聯。在實際操作中,命題人員多是憑借自己的經驗來設計多維細目表的考查內容以及預設難度等信息,缺乏科學的實證依據。從目前各省市初中英語學業水平考試所依據的多維細目表來看,彼此之間的差異也很大。
(1)多維細目表的維度劃分不科學
多維細目表維度的設計主要圍繞能力立意、素養導向展開,維度與維度之間最好能相互獨立,彼此之間沒有交集,但又能從不同角度實現對核心素養的全面考查。表2所示的多維細目表將考查內容分成必備知識、關鍵能力和核心素養三個維度,這三個維度并列成為一級指標顯然不合適,因為必備知識和關鍵能力本身也都包含在核心素養里。預估難度僅標記易、中、難,沒有具體的難度值估計,難以幫助命題人員準確預設整卷難度,以滿足測試目的。
(2)多維細目表包含的要素不齊全
多維細目表一般從試題數量、分值、核心素養考查情況、任務類型(獨立型任務、綜合型任務)、題型、輸入材料特征(語篇類型、主題、長度)、作答方式、預期產出、評分原則和預設難度等方面去設置和規劃。但由于命題人員對多維細目表的設計沒有形成相對統一的認識,所以絕大多數多維細目表所包含的要素都不齊全。有的不能清晰反映出試卷結構,如試卷考查了幾個部分的內容,各部分包括哪些具體題型;有的缺乏分值的設計,如全卷的總分以及各小題的分值等;有的缺乏全卷的預設難度,也沒有提供易、中、難題的預估難度等,多數都沒有提供答案與評分原則等信息。
(3)多維細目表的考查目標不全面,且劃分不夠清晰
目前各省市的初中英語學業水平考試多維細目表基本符合課程標準的要求,但是考查目標比較籠統寬泛,如 “目標層次”通常只涉及識記、理解、運用的認知層面,缺乏對文化意識、思維品質、學習能力等多維目標的關注;在“技能目標”里,往往只涉及聽、讀、寫這三個維度,對“說”的目標以及綜合性技能的考查目標關注不夠。此外,考查目標劃分不清晰的現象也普遍存在,如將任務型閱讀和書面表達等綜合考查學生運用英語進行表達的題型劃分到“理解”的目標里,導致目標設置出現偏低的情況。
(4)多維細目表的預設數據與實際測試結果差距較大
這個問題主要表現在多維細目表的預設難度與實測結果存在一定差異,且個別試題的差異比較顯著。這主要是因為命題人員對參考學生學情的調研不夠充分,過程中僅憑自己的經驗預判各題的難度,所以容易出現預設難度與實測難度差異較大的情況。雖然預設難度與實測難度很難完全保持一致,但如果二者之間的差值超過0.1甚至更高,顯然是不盡合理的,難以發揮多維細目表對試題難度的指導與把控作用。
(5)多維細目表的編制過于繁瑣,不利于操作
多維細目表的編制是命題過程中很重要的一個環節,它能幫助命題人員有規劃、有目的地設計試卷。但如果多維細目表的內容過于繁瑣和復雜,也會增加命題人員的負擔,導致命題人員無法把時間和精力投入到主要的命題工作中去。在目前各省市的多維細目表里,有的是多維細目總表下又分成了若干個子表格,有的是多維細目表里的要素過多過細,且要素之間又多有交叉,這都不利于命題人員在實操中依據多維細目表有序開展命題工作。
筆者根據上文對多維細目表的論述及現有多維細目表設計的常見問題,以《義教新課標》的考試樣題1 Listen and write任務(教育部,2022:61)為例,設計含有該題目的初中英語學業水平測試試卷多維細目表,見表3。該多維細目表從試卷結構、考查內容、權重、題型、任務要求、預期產出特征、答案與評分原則以及預設難度等多個維度全面反映考試內容、能力素養和考查要求。
多維細目表的前四項從不同維度體現試卷的整體結構,包含試卷結構劃分、各部分聚焦的技能或知識、對應的具體題號以及總分值和該部分的具體分值。在聚焦的技能或知識模塊,多維細目表對考試內容做了規定。常見的有聽力理解、閱讀理解、書面表達、口頭表達、語言知識運用和綜合技能等。表3中的示例任務為綜合技能任務,要求考生在聽后根據聽到的內容進行簡短產出,不僅考查了聽力理解能力,也考查了簡單的閱讀理解和書寫能力。
在核心素養考查情況模塊,主要聚焦語言能力和思維品質,文化意識和學習能力作為次要構念予以體現。表3中示例任務的主導技能為聽力理解,根據《義教新課標》語言能力目標的規定,該任務主要考查三級語言能力學段目標中的“能在聽的過程中,圍繞語篇內容記錄重點信息,整體理解和簡要概括主要內容”或學業質量標準3-3“能理解多模態語篇的主要內容,獲取關鍵信息”的能力,表3將其提煉為“理解重要細節,記錄特定信息”,說明本題考查的是學生在聽力理解的基礎上,閱讀表格所提示的信息需求,記錄人名、年齡、星期、地名和電話號碼等特定信息的能力。在思維品質方面,表3中示例任務對應的是《義教新課標》三級思維品質學段目標中歸納與推斷維度的“能提取、整理、概括稍長語篇的關鍵信息、主要內容、思想和觀點”。作為次要的構念,文化意識在此段對話中也有所體現,說話者積極參加志愿活動,并希望能夠運用英語來為外賓介紹北京,體現了跨文化溝通的積極心態。在學習能力方面,因為本題要求考生邊聽邊記錄,與《義教新課標》三級學習策略內容要求中的認知策略第三條相關,即“在學習中善于抓要點、記筆記”。
在題型方面,本題采用的是填空題,要求考生填寫一個單詞或數列。其任務要求是聽對話,記錄關鍵信息。在輸入材料特征方面,對本題的輸入材料進行了詳細的說明,主要包含語篇類型、主題、文本長度以及其他說明事項。命題人員可以直接參考《義教新課標》對語篇類型進行詳細描述。就本示例來說,該文段是連續性文本中的對話。我們可以對其話輪數做相應的描述。本示例則是“人與社會”主題范疇下的“社會服務與人際溝通”主題群,具體反映的是“志愿服務和公共服務”子主題。文本長度為197詞。其他說明事項主要是描述技能特異性的內容。對于聽力理解來說,最主要的是要對其模態(音頻、視頻等)、口音、語速等方面進行描述。
在素材來源方面,一般有直接選取、改編和自編等方式。命題人員要在多維細目表里提供具體的出處,以備后續返回檢查。在改編和自編方面,命題人員要非常謹慎,特別注意不要破壞文本的真實性,并準備好原始的材料,當有疑問時可以隨時回溯原文,重新審視。
在預期產出方面,主要對作答方式和產出結果做具體描述。在本示例中,考生看到的是一張表格,為了防止學生因不熟悉題型而出現作答失誤的情況,試題提供了一個作答示例。之后,考生根據提示信息填寫表格。在預期產出方面,命題人員也需告知考生在哪里填寫答案,以保障評分效度。產出結果則具體說明考生的作答結果是什么內容。
在評分原則方面,主要是說明考生得分的依據,也反映考試的構念。在本示例中,主要的考查技能為聽力理解,因此評分要特別重視聽力理解的結果。考生如果因為拼寫、大小寫失誤而造成答案與標準答案不完全一致時,命題人員要具體規定每個題目如何給部分分數(partial credit)。涉及數字序列填寫的題目,要規定學生按原數字序列寫出多少個數字即可得部分分數。明確的規定能夠為考試分數的解釋和運用提供良好的證據。
由于學業水平考試兩考合一的性質,預設難度的設置也非常關鍵。每個題目難度的預設關系到整卷難度的預判。因此命題人員應根據歷年同類型的題目的實測難度,結合對本屆學生學情的適當調研,積極預測題目難度,盡量減少差異,使實測難度與預設難度盡量接近。
綜觀表3的示例,我們可以看到多維細目表通過多個維度描繪試題的特征,將試卷結構、考試內容、考查目標、評分等各個環節的內容緊密關聯起來,成為一個有機的整體,大大增強了對測試命題的指導作用。
多維細目表在初中英語學業水平考試命題中的價值和作用不言而喻。科學合理地制定多維細目表,體現素養立意的命題原則,真正實現兩考合一,首先,需要廣大命題人員從主觀意識上重視多維細目表的編制。其次,命題人員要基于課程目標和學業質量的要求,在實際編制中合理地設計考查目標、試卷結構、考查內容與考查形式,充分發揮多維細目表在命題中的指導和規范作用,避免命題的主觀隨意性,保證學業水平考試的信度和效度。最后,多維細目表的編制沒有統一的固定的模板,命題人員需要在編制過程中不斷摸索、改進,使之日臻完善。
* 本文系中華人民共和國教育部課程教材研究所“初中學業水平考試命題質量研究”(項目編號:JCSZDXM2022009)的研究成果。
Alderson, J. C., Clapham, C. amp; Wall, D. 1995. Language test construction and evaluation [M]. Cambridge: Cambridge University Press.
Cheng, L. amp; Fox, J. 2017. Assessment in the language classroom: Teachers supporting student learning [M]. London: Palgrave.
Davidson, F. amp; Lynch, B. K. 2002. Testcraft: A teacher’s guide to writing and using language test specifications [M]. London: Yale University Press.
Miller, M.D., Linn, R. L. amp; Gronlund, N. E. 2009. Measurement and assessment in teaching [M]. Upper Saddle River, NJ: Pearson Education.
賈瑜, 辛濤. 2020. 基于課程標準的中高考命題改革思路與途徑[J]. 清華大學教育研究, (1): 87—93.
教育部. 2019. 教育部關于加強初中學業水平考試命題工作的意見[EB/OL].(2019-11-22)[2024-05-08].http://www.moe.gov.cn/srcsite/A06/s3321/201911/t20191128_409951.html.
教育部. 2022. 義務教育英語課程標準(2022年版)[S]. 北京: 北京師范大學出版社.
強薇. 2011. 基于雙向細目表的初中英語命題[J]. 上海教育, (11): 70.
秦倩楠. 2020. 利用雙向細目表解決英語中考單元復習老大難問題[J]. 讀寫算, (35): 173—174.
邢文俊. 2018. “命題雙向細目表”在英語模擬考試命題中的應用[J]. 遼寧教育, (1): 93—96.
楊向東. 2018. 指向學科核心素養的考試命題[J]. 全球教育展望, (10): 39—51.
林敦來 北京師范大學外文學院副院長、教授、博士生導師。
陳芳 北京教育學院石景山分院中學英語教研員,正高級教師。
林玉琴 福建省普通教育教學研究室中學英語教研員,高級教師。