效度視角下的SAT考試開發研究

2020-01-22 14:39:58周云徐夢杰張民選

現代基礎教育研究 2020年4期

周云徐夢杰張民選

摘要：效度是決定考試質量的一項重要指標，但在我國還未引起足夠重視，新高考評價體系的實施使得我國考試效度研究迫在眉睫。文章從效度視角探索美國SAT考試開發的實踐，提出構建基于論證的考試開發效度驗證框架。并通過文本分析和內容一致性分析等方法，論證SAT考試開發的效度。SAT考試效度驗證的理論和實踐為我國考試測量目標的研制、教育測量技術的應用和考試機構專業化建設提供了啟示。

關鍵詞：效度;效度驗證;SAT;考試開發

作者簡介：周云，上海師范大學國際與比較教育研究院博士研究生，上海市教育考試院助理研究員，主要從事比較教育研究和教育測量研究;徐夢杰，上海師范大學國際與比較教育研究院創新團隊成員，博士，主要從事比較教育研究;張民選，上海師范大學國際與比較教育研究院院長，教授，主要從事比較教育研究。]

一、問題提出

2014年，國務院發布了《關于深化考試招生制度改革的實施意見》（以下簡稱《實施意見》），要求加強高考內容改革頂層設計，指出要依據高校人才選拔要求和國家課程標準，科學設計命題內容。[中共中央國務院：《關于深化考試招生制度改革的實施意見》，轉中國政府網：http：//www.gov.cn/zhengce/content/2014-09/04/content_9065.htm，最后登錄日期：2017年4月20日。]為全面貫徹落實《實施意見》精神，教育部考試中心歷時三年研究，構建了基于德智體美勞全面發展要求的高考評價體系，作為深化新時代高考內容改革和命題工作的理論支撐和實踐指南。[李勇，趙靜宇，史辰羲：《高考評價體系的基本內涵與主要特征》，《中國考試》2019年第12期，第7頁。]我國高考內容改革目前要解決的問題是如何在總體目標的指引下，根據高考評價體系框架，完善考試開發過程，提高命題質量，發揮高考評價的指揮棒作用。

新高考評價體系提出了涵蓋考查目標、考查內容和考查要求的“一核四層四翼”整體架構，可以作為檢測考試目標實現的評價量尺，也為考試結果的解釋和使用提供了依據。但我國目前的考試效度研究理論水平和實踐經驗還有待提高，借鑒世界上其他國家的高校入學考試效度驗證做法，有助于提高我國高考的開發質量。

美國主要的考試機構——大學理事會（College Board，CB）和美國教育考試服務中心（Educational Testing Service，ETS）歷來重視考試效度研究。SAT（Scholastic Aptitude Test）是美國大學理事會負責的一項高校入學考試，和ACT（American College Testing）同被我國學界視為“美國高考”。大學理事會每年都會出具SAT效度報告，這些效度研究，使得SAT考試的科學性和權威性越來越強。2014年，SAT考試開始了新一輪改革。改革后的SAT對于效度驗證尤其重視，SAT技術手冊（Technical Manual）用單獨一個章節詳盡地闡述了效度驗證的過程。[The College Board.Test Specifications for the Redesigned SAT[EB/OL]. https：//collegereadiness.colleg-eboard.org/pdf/sat-suite-assessments-technical-manual.pdf.]詳盡的考試開發技術文件和考試說明使得SAT成為一項完全公開透明的考試，一方面體現出考試開發完全遵從教育測量規范的科學精神，另一方面也顯示考試機構坦誠交流的專業素養。因此本文將從效度視角[效度（validity）是指為正確解釋考試分數累積證據提供充分的科學依據的程度。收集相關證據的過程就是效度驗證（validation）。效度總是與考試結果的解釋或某種用途有關，是評價考試結果是否達到預期目標和用途的一項重要指標。]研究SAT考試開發和效度驗證的過程，探索適應我國國情的考試效度驗證模式。

二、基于論證的SAT考試開發效度驗證框架

SAT考試的核心功能是測量考生的“大學學習和職業生涯準備”情況。為了實現這個目標，SAT考試通過精心設計閱讀、語法、數學和作文考試內容，力圖從學生的答題表現中收集能夠反映學生在大學學習和職業生涯準備成功方面的證據。如果收集到了所有證據，就能證明SAT考試分數可以有效地解釋考試的目標和用途，SAT考試開發是有效的。

1.基于論證的效度驗證理論

伴隨著教育測量理論和實踐的發展，效度驗證理論的發展經歷了幾次更新，大致可分為四個階段：效標效度、分類效度、整體效度和基于論證的效度。2014年版《教育與心理測量標準》指出，驗證效度需要五個方面的證據：考試內容的證據、答題過程的證據、考試內部結構的證據、和其他變量關系的證據、考試結果的證據。[American Educational Research Association A P A， And the National Council on Measurement in Education. Standards for Educational & Psychological Testing （2014 Edition）[M]. Washington， DC： American Educational Research Association， 2014：13-19.]凱恩（Kane）不僅提出要根據考試開發邏輯收集分數解釋和使用的證據，還架構起考試分數解釋和使用過程中推斷、假設和論證的內在邏輯。[周群：《基于論證的我國高考開發質量評價模型研究》，華東師范大學博士學位論文，2011年，第27頁。]

凱恩在1990年首次提出基于論證的效度驗證理論。2006年，他在《教育與心理測量》（Educational Measurement）一書中對這一理論進行了詳細闡述，之后他又在巴赫（Bachman）、查貝爾（Chapell）等人的研究基礎上進行了改進，正式確定了基于論證的效度驗證模式。凱恩的基于論證的效度驗證框架包含評分推斷、概化推斷、外延推斷和內涵推斷四個部分。[Brennan， R.L. National Council on Measurement in Education， American Council on Education. Educational Measurement[M]. Praeger Publishers， 2006：23.]本文為了研究SAT考試設計的原理，在凱恩的效度理論框架的四個推斷基礎上增加了“設計推斷”的環節，目的是研究SAT考試開發是如何根據考試目標設計考試內容規范，并證明考試內容規范與考試目標的一致性，這對我國新高考評價體系的實施診斷具有重要參考價值。基于論證的效度驗證框架，見圖1。

圖1 基于論證的效度驗證框架

基于論證的效度驗證模式采用兩步論證方法：第一步是確定考試分數解釋的詳細內涵，即對考試分數的解釋性論證;第二步是效度論證，是對提出的考試分數解釋和使用的評價，即效度論證。[雷新勇：《基于標準的教育考試——命題、標準設置和學業評價》，上海科學技術出版社2011年版，第26-27頁。]

2.SAT考試開發的邏輯過程（解釋性論證）

解釋論證是個邏輯嚴謹的論證文本，其嚴謹性來自以考試開發的邏輯過程為線索，包括編制考試說明，依據考試說明編制命題藍圖，依據命題藍圖命制試題、組成試卷;根據評分規則對考生應答表現進行評分;考試數據結構檢驗。解釋性論證包括“設計、評分、概化、外延、內涵”五個推斷的假設及其證據。[Brennan， R.L. National Council on Measurement in Education， American Council on Education. Educational Measurement[M]. Praeger Publishers， 2006：23.]圖1中解釋論證部分的目標領域是根據考查目標進行分解的考查內容領域或考查能力，是可以從學生答題上觀察到的表現。觀察到的學生答題表現是根據試卷進行評分的結果（原始分數或者量表分數），將觀察到的分數推廣到概化全域分數，再將概化全域分數推廣到目標領域分數，最后與考查特征相關的內涵被附加到目標領域分數上了。

在沒有技術手段保證的前提下，每個邏輯環節都有可能偏離教育測量學要求。因此，基于論證的效度驗證模式的解釋性論證部分以考試分數與預設解釋一致為前提，從教育測量學視角提出每個邏輯環節成立所需要的假設及其證據。

3.SAT考試開發的效度論證框架

效度論證是對解釋性論證的證明。SAT考試開發的效度論證就是要依次收集“設計推斷、評分推斷、概化推斷、外延推斷、內涵推斷”這五個環節的證據。具體方法是圍繞SAT考試試卷和相關考試說明及技術文本，對每個推斷需要的假設進行逐一證明。根據SAT考試解釋性框架提出的假設和證據，建立包含“設計推斷、評分推斷、概化推斷、外延推斷、內涵推斷”的效度論證框架，共包括9個假設，12個證據，如表1所示。

凱恩的基于論證的效度驗證理論隱含著項目評價的思想。考試的效度檢驗將考試作為項目來評價，需要評價考試項目的背景，包括考試目的、考試分數的預期解釋、考試開發的條件等。在收集證據之前先要回答“需要收集哪些證據，為什么需要收集這些證據”。因此，根據效度論證框架，評價過程不僅表現為效度論證和解釋論證之間的互動，而且證據之間也是一種遞推關系：只有當上一個證據得到證明，才能收集下一個證據。這種遞推的關系將效度證據緊密聯系起來，實現一個邏輯嚴密的論證體系。

三、SAT考試效度論證過程

新一輪SAT改革最主要的目標是更好地實現所有學生為大學學習和職業生涯做好準備。2010年6月，美國各州聯合開發了面向大學學習和職業生涯準備的《州際共同核心標準》（簡稱“CCSS”）。在全美教育目標和課程標準的前提下，SAT考試開發設計就有了統一的依據。

1.研究目標

研究目標是在假設SAT考試開發有效的前提下，學習SAT考試設計和開發的經驗。SAT最新的技術手冊通過交代SAT考試要收集的證據，包括基于內容的證據，新SAT和舊SAT分數之間的一致性證據，SAT分數與大學一年級特定科目的平均成績（FYGPA）和課程成績之間關系的證據等，論證SAT考試開發的效度。 [SAT Suite of Assessments Technical Manual[EB/OL]. https：//collegereadiness.collegeboard.org/pdf/sat-suite-assessments-technical-manual.pdf.]從效度理論發展進程來看，這種證據收集方式似乎還停留在整體效度階段，即已經認識到一項考試要搜集多方面的證據才能證明其對分數解釋和使用的有效性，但是仍未提供這些證據之間存在的內在邏輯關系。

本研究將采用基于論證的效度驗證理論對SAT考試開發進行效度論證，通過五個推斷所需要的假設和證據，架構起考試分數解釋和使用過程中推斷、假設和論證的內在邏輯，通過從考試目標的設計到考試分數的解釋證據層層傳遞，形成一個閉環的論證系統，來驗證新一輪改革的SAT考試開發能否真正收集到考試分數預期解釋證據，也就是“SAT考試能否有效測量大學學習和職業生涯準備”這一目標。

2.研究對象

大學理事會在大量研究和廣泛調研的基礎上，制定了SAT考試應該考查的測量目標。圍繞測量目標以及大學學習和職業生涯準備標準，SAT將要測量的學生大學學習和職業生涯準備方面的能力分解到SAT考試的各個部分。在SAT試卷中，閱讀、語法、作文和數學部分考試的每道試題都對應了SAT考查的一個或者多個維度的內容和能力。SAT的考試總體框架如表2所示。

SAT考試測量目標的分解過程和考查方式是通過考試說明和技術手冊等文本進行說明的。2014年新一輪SAT改革方案提出以后，大學理事會官網就發布了《SAT考試說明》（Test Specifications for the Redesigned SAT）和《SAT技術手冊》（SAT Suite of Assessments Technical Manual）。2017年第一次考試當年，大學理事會就發布了一套樣卷，以后每年都會在官網上發布一套樣卷，同步發布的還有SAT考試的試題答案和評分規則。

考試說明中的考試內容規范和試題內容規范是考試設計與開發的基本依據，試卷是考試設計與開發的最終產品，考試說明和技術手冊是考試設計和開發的重要“使用說明書”，這些文本是構成考試開發的基本材料。SAT考試在這些基礎材料的標準化編制和信息公開方面做得非常細致和規范，本文將以《SAT考試說明》《SAT技術手冊》以及SAT試卷和評分標準等相關材料為研究對象，研究SAT考試開發和效度論證的過程。

3.研究方法與過程

在“設計推斷”論證過程中，采取文本分析法，對SAT各科目考試內容規范（包括考試內容規范和考查的關鍵特征）與SAT考試測量目標進行一致性分析，對各科目考試的內容領域與課程標準進行一致性分析，然后再對試題內容規范與考試內容規范進行一致性分析，最后通過提供SAT考試的試測環節有比較完備的質量保證機制，證明SAT考試試題質量符合教育測量學要求。通過收集以上四方面的證據，論證考試內容設計是規范的，試題內容和試題質量是符合要求的，從而證明SAT各部分考試內容規范對命題的指導是有效的。

在“評分推斷”論證過程中，通過文本分析法對SAT考試的技術手冊等SAT技術資料進行分析。SAT考試題型為選擇題和網格填空題，且評分采用機器掃描答題紙的方式自動評分，選擇題選項的改革也從理論上避免了可能由考試策略帶來的誤差，網格填空題也體現學生真實自然的答題結果，因此可以證明SAT考試的選擇題和填空題的評分規則是適當的。其次通過研究SAT技術手冊中關于分數量表研究過程和結論的描述，說明分數量表設置也是合理的，從而證明SAT考試的評分是有效的。

在“概化推斷”論證過程中，采用文本分析方法，對SAT官方發布的一套樣卷進行試題分析，完成154道試題的內容領域、內容維度、行為描述等信息的編碼，并采用韋伯（Webb）內容一致性分析工具，對內容領域和目標領域的一致性進行論證。得出“試題考查的關鍵特征都在SAT考試內容規范規定的范圍內，且與各部分的關鍵特征和題量分布與考試內容規范要求完全一致”的結論。由此證明SAT試題是樣本的有效單元，可以概化到全域。

在“外延推斷”論證過程中，采用Webb內容一致性分析工具，對SAT內容領域和目標領域進行一致性分析，論證SAT試卷有效覆蓋了考試內容規范規定的主題和內容知識，因此可以證明概化全域的內容覆蓋范圍與目標領域一致，外延推斷論證成立。

在“內涵推斷”論證過程中，通過分析七個子維度和兩個跨學科專題[SAT考試分數報告需要單獨報告七個子維度分數和兩個跨學科專題分數，這是新一輪SAT改革設計的需要考查的關鍵特征，旨在用于識別考生的優勢和劣勢，以及學生在閱讀、語法和數學的核心技能應用于特定學術背景方面的成績。]在整套試卷上的權重，發現與考試內容規范表中的權重完全一致，說明考試分數結構與考試內容規范結構相一致，由此可以證明考試分數表征的特征內涵與考試預設解釋一致。

綜上所述，根據SAT考試分數解釋性論證框架，經過五個環節的推斷論證，能夠收集到SAT想要收集的證據。驗證過程中分析的材料來源、收集到的證據和證據收集方法，見表3。

4.研究結論

按照以上方法，SAT解釋性論證中所提到的9個假設和12個證據均已收集到，說明SAT考試開發的整體效度是好的。但采用基于論證的效度模式進行論證結果發現，SAT效度也并非它自身所宣稱的那么理想，例如，雖然SAT全卷的覆蓋率超過了50%，達到了標準，但是SAT語法部分和數學部分的內容在每個主題和行為目標的覆蓋度方面沒有達到標準。基于這樣的分析結果，SAT的未來調整可以有兩個方向：一是調整語法和數學考試的內容領域，使其更聚焦;二是調整試題考查的行為目標分配比例。但是無論如何調整，都必須按照考試開發流程重新進行效度驗證，以確保沒有因為調整一個證據而影響其他證據的收集。

綜上所述，可以得出結論：SAT考試結果能夠支持對考試分數和用途的解釋，說明SAT考試能夠有效測量大學學習和職業生涯準備這一目標，考試的開發是有效的。

四、對我國新高考評價體系實施的啟示

從效度視角研究SAT考試開發，對于我國進行新高考評價體系下的考試開發和效度研究具有以下幾點啟示：

1.加強考試測量目標與教育目標的一致性研究

考試的測量目標是從理論和實踐兩個層面解決“考試測量什么”的問題，也是解決考試的理論解釋和測量的有效性問題的前提條件。[雷新勇：《大規模教育考試：命題與評價》，華東師范大學出版社2006年版，第98頁。]從操作層面來看，考試測量目標是一個以指標系統形式呈現的評價標準，由行為描述和目標權重兩部分組成。行為描述是對將要測量的學科素養的內涵的理論演繹，目標權重是行為目標之間的比例關系。在整卷設計中，題型功能開發、試題題量分布、試題賦分等都以此指標系統為依據。[周群：《大規模教育考試測量目標合理性研究》，《第十屆海峽兩岸心理與教育測驗學術研討會暨全國教育與心理統計測量學術年會論文集》，2012年，第103-104頁。]我國教育考試可以參考SAT教育目標到考試測量目標的分解過程，要加強能力目標與測量目標、內容規范與內容領域、內容領域與課程標準的一致性分析，爭取做到“不遺漏，不走樣，可操作，易反饋”。但是，同時也要考慮到我國教育考試的特點，因地制宜，不照搬照抄。例如，新高考評價體系提出，高考考查的核心目標是“堅持以習近平新時代中國特色社會主義思想為指導，落實立德樹人根本任務”。[教育部考試中心：《中國高考評價體系》，人民教育出版社2019年版，第10頁。]相比于SAT考查目標內涵，我國高考除“選才”和“指導教學”兩個功能以外，還多了一項價值引導，即“立德樹人”的要求。

2.加大教育測量理論和技術的應用

SAT考試開發過程完全遵循《教育與心理測量標準》（以下簡稱《標準》）的要求。只有遵循《標準》，才能保證開發和組織的考試所得出的結果是可信的、有效的。我國教育考試設計的行政化傾向，是我國考試開發的特殊性所在，這使我國考試產品質量在開發之初就存在產生誤差的可能。因此，我國高考從一開始應該盡可能遵循《標準》進行考試開發，例如，考試說明的編制，就應該按照《標準》規定的要素進行編寫，同時借鑒SAT考試說明編寫的經驗，讓全國各地考試機構、高校、中學、教育研究者、家長和考生都能從考試說明中得到盡可能多的信息，促進社會對高考評價體系的深刻理解。

現代基礎教育研究2020年4期

現代基礎教育研究的其它文章: 小學藝術體操興趣課程的實踐研究; 美國、芬蘭、瑞典中小學音樂教育的比較與思考; “國學”教育的實踐反思與有效推進; 小學英語閱讀教學中的德育滲透; 初中英語教師網絡優質課堂中的話語追問; 5-7歲兒童數數概念性知識和程序性知識的發展