張建勇 錢永芳



摘要:測試效度是決定一個測試項目質量高低的首要要素。非紙筆測試可通過內容效度、效標效度、結構效度三類效度證據確保測試效度。利用“以證據為中心的設計”框架,通過領域分析、領域建模、概念性測評框架、測評實施及測評發布5個層次和步驟設計非紙筆設計,能夠保障測試效度,為教育者做出正確推論和教育決策提供有效的方法。
關鍵詞:非紙筆測試;效度證據;小學語文教學
中圖分類號:G622 文獻標志碼:A 文章編號:1673-9094(2023)13-0081-06
*本文系江蘇省教育科學“十四五”規劃青年專項課題“優勢探索:小學課堂積極評價研究”(C-c/2021/02/131)的階段研究成果。
作者簡介:張建勇,鹽城市天山路小學校長,高級教師,江蘇省“333高層次人才培養工程”培養對象,江蘇省卓越教師培養對象,鹽城市名教師,主要研究方向為小學語文教學;錢永芳,鹽城市天山路小學,高級教師,鹽城市學科帶頭人,主要研究方向為小學語文、思政教學。
學科核心素養集中體現了學科育人價值和學科目標,代表著學科的正確價值觀、必備品格和關鍵能力。由于它具備內隱性和整體性特點,如何有效考察與評價,成為當下面臨的一項重要教育議題。非紙筆測試的提出是對這一議題的有效回應。作為階段性評價的類別之一,非紙筆測試“旨在考查班級整體學習情況和學生階段性學習質量”,獲得基于科學證據的推論,進而“對學生個體作出及時反饋和有效指導”[1]。有效度的教育評價會提高決策質量,反之則會導致負面的結果。效度證據能夠幫助教育者判斷測試與欲測內容之間的一致性。從效度證據視角,通過逆向思維方式設計非紙筆測試,能夠確保非紙筆測試的效度,進而使教師對學生進行精確的推斷。
一、非紙筆測試的三類效度證據
效度就是測試對欲測內容的測量程度。測試本身并不具有效度,只是一種推斷學生學習水平的一種工具。非紙筆測試的效度,是基于分數或等級等多種證據做出推論的精確性。要判斷非紙筆測試是否有效,需要通過內容效度、效標效度、結構效度[2]54三類效度證據來考查。
(一)內容效度:測試內容與欲測目標的相關度
內容效度指測試內容對欲測課程目標的代表程度。此“內容”不僅僅是事實性知識,還包含了學科的核心素養。需要注意的是,一次非紙筆測試的內容主要指向某個特定時期內要求學生掌握的學習目標。那怎樣表示非紙筆測試內容代表預測課程目標的程度?可用五種圖式來表示不同的代表水平(如圖1)。
從圖1可知,“欲測課程目標”用矩形表示,“非紙筆測試內容”以黑點指代。當兩者匹配程度越低時,內容效度就越低。例如,圖1A,測試內容均勻分布于矩形所代表的預測課程目標中,則完全匹配;圖1B,測試內容中有一部分與預測課程目標不匹配;圖1C與1D,測試內容包含于預測課程目標中,但覆蓋面非常有限;圖1E,測試內容完全偏離預測課程目標。在實際測試中,如果教師設計的非紙筆測試內容不能體現預測課程目標,那以此所得證據進行推論,作出教育決策,就有可能導致錯誤的認定、反饋與指導。
(二)效標效度:評價標準與學業水平的關聯度
效標效度指通過評價標準推論學生學習水平的準確程度。它決定了教師基于分數或等級等非紙筆測試結果,對學生在某一課程目標上掌握情況,做出何種推論和決策。
基于群體均數、常模參照的紙筆測試,評價標準指向測量結果的數值,追求測試結果的數量化、客觀化,忽視數字背后的意義,無助于推斷學生學習是否達到教育目標和達到教育目標的程度。非紙筆測試的價值在于促進學生的學習,注重對測試過程的觀察、記錄與分析,基于證據對學生個體作出及時反饋與指導。因此,非紙筆測試的評價標準并不是對“事情是什么”“事情如何進行”以及事物的某種“真實”狀態進行描述,而是提出有意義的解釋[3]。這種解釋是針對課程目標,基于測試中行為表現及結果,作出關于達成狀況的一個或多個描述。通過描述,支持教師準確推論和作出決策,讓學生明確“要去哪里”“現在在哪里”“下一步去哪里”,提高學生自我評價和自我反思的能力,引導學生合理運用評價結果改進學習。
(三)結構效度:評價證據與素養結構的效應度
結構效度指對某一假想性結構的測驗準確程度。它指向預測課程目標中難以捉摸、隱蔽的知識結構的測量。學科核心素養所包含的正確價值觀、必備品格和關鍵能力,除事實性知識外大部分評價變量是內隱的,比如“數學能力”或“閱讀理解能力”。僅通過測試結果不能得到準確的推論,需要通過觀察學生在測試中的具體行為表現,收集相關經驗性證據方能有效推測。這就需要教師充分理解內隱欲測目標的假設性結構的“運行機制”,設計相匹配的非紙筆測試任務,并對學生在測試上的行為表現作出一個或幾個正式的假設。如果從評價任務中得到的證據能夠驗證某種假設,就表明學生的學習結果得到了有效推測。
二、基于效度證據的非紙筆測試設計策略
基于效度證據的測試設計,梅斯雷弗等學者提出了“以證據為中心的設計”(evidence-centered design, ECD)框架[4]。ECD包括使用不同的表征方式刻畫測試要素,并將其轉化為測試的設計——測試任務、評分規則、統計建模等。它把測試設計和使用具體分為領域分析、領域建模、概念性測評框架、“測試實施”及測評發布5個層次[5](見表1)。非紙筆測試作為測試的一種方式同樣適應。
(一)領域分析
非紙筆測試設計,首先要進行評價領域的分析,搜集預測領域內最重要、最關鍵的實質性信息。它主要來自課程方案、課程目標等內容標準,包括此領域內的內容、概念、術語、工具及表征形式。如“學習獨立識字”“學習圈點、批注等閱讀方法”“用口頭或圖文等方式整理、表達自己在活動中的見聞和想法”。
領域分析不是根據某種測評慣例和結構來組織的,如語文學科的“字—詞—句—篇”,而需從證據鏈視角進行整理。即分析課程方案和課程目標,從中整合和提煉重要的、關鍵的、有價值的知識、知識結構和關系,為非紙筆測試的設計提供學理依據和開發啟示。
(二)領域建模
領域分析后,要進行“測試要素陳述—關鍵知能匹配—預期結果表征”三項工作,從而形成測評結構,這就是領域建模。它使領域分析從內隱和抽象變得外顯和可操作,使測試領域要素、關鍵知能和預期行為表現和結果形成嚴謹的證據鏈。領域建模的意義在于建構非紙筆測試的測試藍圖或測試說明,保證“教–學–評”的一致性。這既有效區分了測試內容的篩選和審查,也清晰表征出要素測試中“可見”的行為表現和結果制品,讓教師在精準的預測目標和確證的測試證據中進行有效、精準的推論。
(三)概念性測評框架
概念性測評框架主要是根據領域分析和領域建模的內容展開非紙筆測試任務結構的設計。它由一組緊密關聯、邏輯嚴謹的6種模式組成:學生模式、證據模式、組合模式、任務模式、呈現模式和發布模式組成[6]。其指導著非紙筆測試開發與實施的過程步驟與操作細節。
學生模式主要回答“測什么”的問題,即測試的具體目標。它明確了教師希望通過非紙筆測試的結果做什么樣的推測,是領域建模中“知能匹配”的具體化,與欲測知識與能力等密切相關。證據模式主要回答“如何測”的問題,即非紙筆測試過程里不同的行為表現或呈現結果反映了不同的目標達成水平。它主要由“經驗性證據鏈”的設定來完成。經驗性證據鏈是教師針對預測目標,根據前測活動或專家經驗,決定測試中重要的行為表現并設立賦分標準。組合模式主要回答“測多少”的問題,即非紙筆測試中對特定預測目標,設置的證據數量。通常,一個特定測試目標的考查,需要多個證據的組合來實現,以保障推論的精準性。組合模式就是要規限每個測試要點需要的證據數量。任務模式主要回答“用何測”的問題,即非紙筆測試的情境與任務。參照證據模式設定中相應行為表現與呈現結果,研發與之相適配的情境與任務。呈現模式主要回答“怎么測”的問題,即非紙筆測試的呈現方式。它是根據預測目標的類型,確定相適應的操作形式,如口頭提問、觀察、對話、紙筆測試、開放式問答以及表現性任務與項目等。發布模式描述了一次非紙筆測試從學生模式到呈現模式的整體關系,以及各模式間的協調動作過程。同時也描述各個過程中的安全、時間等外在因素。
(四)測評實施
本環節主要工作是根據前三個階段的要求,開展具體的非紙筆測試的實施工作,用以明確測試情境與任務的選擇標準,布置場地和設施,及收集、分析、解釋學生測試過程中的反應數據。具體包括:確定預測目標與內容、明確測試任務與典型性題目、表述測試規劃、制定評分規劃與標準、布置測試現場、安排測試評定、分析測量效度、報告測試結果與分析等。
(五)測評發布
測評發布回應的是“學業成就水平描述”與“測試反饋與指導”兩方面問題。前面幾項環節,只涉及測試領域、目標、工具、組織、結果等潛在內容。而測試的最終目的是根據測試中收集的證據,得出指向預測目標的有效推論。這就包含對學生現有學業成就水平的質性描述,以及對下一階段學習提出針對性指導意見,讓他們既知道“我在哪里”,更知道“我如何去那里”。
三、ECD框架下非紙筆測試設計
下文以第一學段語文學科為例,討論如何基于效度證據,利用ECD框架來設計的一次階段性非紙筆測試。
(一)編寫測試說明
非紙筆測試的第一步是通過領域分析和領域建模編寫測試說明。主要過程是對課程標準中的學段要求及學業質量描述部分進行分解與整合,從學科專業視角確立測試的內容要素,并抽象為若干變量,以陳述形式呈現。第一學段語文測試以課程標準中學業質量描述為藍本,通過測試類別、測試項目、測試內容和測試要點的概括和提煉,形成以下測試說明(見表2)。
(二)界定測試范圍
測試說明完成后,要對學生模式中的變量進行厘析和選擇,也就是確定“測什么”。學生模式是在測試領域模型框架下,對知識、技能、能力等測試要素的變量集合。假定要測試“口語表達”中的“說清楚”,那要思考選用什么作為變量?這些變量能夠表現不同層次學生的何種表現?進而反推“說清楚”背后的知識、技能和能力要素。這個過程主要圍繞經驗性證據展開,通過論著查詢、專家訪談、學生前測等方法擬定。根據多方經驗性證據的整合,形成的關于“說清楚”的變量集合圖式結構(如圖2)。
(三)確定評分規則
評分規則包括評分要點和賦分規則,兩者共同完成了證據模式,澄清了測試中的行為表現作為評價證據的邏輯。評分要點是將學生模式中的變量集合假設為一個或多個具體的可觀察行為,并以不同權重賦值;賦分規則是結合評分要點,制定衡量學生行為反應的各種分值或等級指標,并說明是用整體評分還是分項評分方法。表3即為針對“說清楚”測試的分項評分規則。
(四)設立情境任務
《義務教育課程方案(2022年版)》提出“注重動手操作、作品展示、口頭報告等多種方式的綜合運用,關注典型行為表現,推進表現性評價”等要求[7]。因此,非紙筆測試的任務設計,更突出情境性與實踐性,要求根據學段特點和具體測試項目類別設計適配且完整的情境與任務,即確定任務模式。這個過程包括兩個步驟:匹配情境任務類別和設立具體情境任務。
匹配情境任務類別,就是根據測試項目內容的知識類別,定制情境任務設置的向度。這一步驟需要明確三個問題:預測內容歸屬事實性知識、概念性知識、程序性知識還是反省認知知識?不同的知識維度針對具體學生需要什么學習水平?需提供怎樣的測試任務或工具來支撐?根據分析,選擇相應情境任務的類別,包括識別性任務、表達性任務、操作性任務和動作性任務。識別性任務測試的是學生對事實性知識的記憶、認知能力;表達性任務主要考查學生的語言交流能力,包含口頭表達和書面表達;操作性任務是為考查學生的實踐能力,要求完成一系列技能動作;動作性任務重點為表演、動作技能的評估[8]。
在明確情境任務類別后,再通過任務設置六元素,即目標、角色、對象、情境、組織、表現(制品)或標準,來設計完整的非紙筆測試任務。表4清晰地闡釋了“說清楚”的測試情境任務的設置過程。
(五)整合測試方案
針對各項測試要素的情境任務設置完成后,需要進行整合,即確定組合模式和呈現模式。整合是基于考查內容的難度和完成時間,進行任務統整和數量擬定。任務統整是為整個測試方案中設定一個充滿趣味性、挑戰性的大主題,并圍繞大主題修正分項測試的各個情境任務,形成一個大情境任務下的分任務整體;數量擬定是為保障測試的信度與效度,部分測試要素需要多個證據予以確認,因此須包含一組任務或題目,以確保測試精度。
(六)發布測試結果方案
教師應該評估學生的唯一理由是為了做出更好的教育決策[2]52。無論哪種測試形式都不過是一種評估工具,更重要的是依據測試證據得出的推論,進而給予學生更好的學習反饋與指導。所以如何描述學生與任務之間的互動表現及如何報告學生測試結果,相比測試過程設計更為重要。
非紙筆測試的結果發布,不是以甄別和認定為目的,而是以“預估和支持學生后期發展”為旨歸。因此,測試結果發布應以“測試分析報告”為形式,用描述性語言,針對測試項目的各個類別,分別回應三個問題:任務完成中的個人表現是怎樣的?優勢存在與待提高學習要素是什么?后期需要完成什么任務或工作?通過這三個問題的敘事,讓教師調整教學進程和策略,使學生明確學習現狀與改進方法,從而讓非紙筆測試更好地促進學生學習。
參考文獻:
[1]中華人民共和國教育部.義務教育語文課程標準(2022年版)[M].北京:北京師范大學出版社,2022:48.
[2]詹姆斯·波帕姆.教師課堂教學評價指南(第5版)[M].王本陸,趙婧,譯.重慶:重慶大學出版社,2010.
[3]埃貢·G.古貝等.第四代評估[M].秦霖,蔣燕玲,等譯.北京:中國人民大學出版社,2008:2.
[4]陸一萍.實證中心設計模式及其對漢語水平考試設計的啟示[J].中國考試,2019(2):9.
[5]BRENNAN L R.Educational measurement(4th Ed.)[M].Westport,C T:Praeger Publishers,2006:141.
[6]楊志明,林蘭蘭.基于效度證據的英語測驗研發[J].教育測量與評估,2021(8):5.
[7]中華人民共和國教育部.義務教育課程方案(2022年版)[M].北京:北京師范大學出版社,2022:15.
[8]周文葉.中小學表現性評價的理論與技術[M].上海:華東師范大學出版社,2019:86.
責任編輯:賈凌燕