中圖分類號:G633.8 文獻標識碼:1
1 問題的提出
上海市普通高中學業水平合格性考試(以下簡稱“合格考”)作為全市普通高中在籍學生均須報考的考試項目,考試成績合格是高中學生取得畢業資格的必要條件,合格考成績合格的考生方可報考相應科目的等級性考試(以下簡稱“等級考”)[1]。此外,合格考成績是否全部合格,也是能否填報春季考試招生志愿的前置條件之一[2]。隨著《普通高中化學課程標準(2017年版2020年修訂)》(以下簡稱“新課標”)的頒布,新課標中明確提出“學業質量水平是考試評價的重要依據。學業質量水平2是高中畢業生在本學科應該達到的合格要求,是化學學業水平合格性考試的命題依據”。合格考作為一種基于標準的考試,其重要目的就是要依據考試結果對考生進行分類決策,即依據考生的分數將考生劃分為不同的等第或水平,如將考生劃分為合格和不合格兩類[3]。
目前我國各省(區市)在制定合格考合格標準時,大多采用比例劃分,預先規定不合格的比例,如廣西省規定不合格比例不超過當次當科考生總數的 2%[4] ,陜西省規定成績不合格的比例不超過當次當科目參加考[3」陳益,孫夕禮:從電子效應談把握《有機化學基礎》的學科內涵[J].化學教學,2016,38(5):3\~7.[4]杜寶山主編.普通高中教科書·化學選擇性必修3·有機化學基礎[M].北京:人民教育出版社,2020:7.[5]陳穎,王磊.凸顯學科核心思想促進素養進階發展—魯科版高中化學新教材《有機化學基礎》編寫思路及使用建議[J].化學教育(中英文),2021,42(17):5\~12.
試考生總數的 3%[5] 。也有一些省(區市)按照卷面得分60分制定合格標準,如江蘇省和北京市規定60分及以上為合格,60分以下為不合格。江西省則規定,每次考試的合格標準,依據基本教學質量要求以及當次命題和考試等情況確定[8]。上海市規定合格考的合格分數線以考試分數的標準分值劃定[9]
各省市合格標準的制定實踐,反映了當前教育評價改革進程中的多維考量。無論是通過預設比例劃定合格線,還是采用固定分數門檻,抑或是引入動態調整機制,其核心目標均在于平衡客觀性與公平性。然而,標準設定的不同策略在實際操作中仍面臨諸多挑戰。固定比例劃定標準可能會導致部分學生因“結構性淘汰”而無法充分體現其學力成長;固定分數標準則容易受年度命題波動的影響,進而影響評價的一致性和穩定性;而動態標準若缺乏清晰的參照依據和系統性調整機制,可能會削弱其公信力。
在高考綜合改革的背景下,合格標準的設定不僅需要統計學意義上的合理性,更應回歸教育評價的本質功能一—即精準診斷學生是否達到學科學業水平的要求,并以此引導教學回歸育人本位。鑒于合格考與學生畢業、升學息息相關,如何在招生考試中實現科學合理的合格標準設定,使之能夠得到社會的認可,并有利于促進教考銜接,落實課程標準,進而以學業質量標準衡量教學質量,應是考試研究者需重點關注的問題。
2 標準設定的方法
國際上標準設定的方法有很多種,常可分為兩類[10.1]。一類是以考生為中心的標準設定方法。以考生為中心的標準設定方法直接關注考生,要求專家對考生熟悉,要在不了解考生測驗表現的情況下,將考生置于有序的表現類別,如臨界組法和對照組法。
另一類是以測驗為中心的標準設定方法。該方法要求專家需基于測驗目的,對處于臨界能力水平的考生在各測驗試題能夠做出正確回答的概率做出判斷,并由此估計劃界分數,進而判斷考生是否掌握最基本的內容要求和能力要求。以測試為中心的標準設定方法主要有Angoff法、Ebel法、Nedelsky法等。其中Angoff法應用較為廣泛[12]。本文即采用Angoff 法和
Yes/No法設定劃界分數。
Angoff 法[13]最早是由Angoff在1970年代描述的標準設置方法,其原理為:評判專家組的每位專家需逐一審讀每一道試題。在審讀過程中,要求每個評判專家依據自身對考生群體的了解,針對每道試題,確定水平剛好達到某一等第的考生(即最低能力考生)做出正確應答的概率。或者說,確定每100個最低能力考生在每道試題上做出正確應答的人數比例。這一概率或比例被稱為Angoff評分。把所有試題的Angoff評分相加,得到的總和即為某一水平的最低能力考生在此次考試中的得分,而這個得分也就是該等第與下一等第之間的劃界分數。該方法主要可應用于0、1計分模式的選擇題。對于主觀題,可以采用擴展的Angoff方法,評判專家需要對多級計分的主觀試題,按照自身對考生群體的了解,針對每道題目,判定水平恰好達到某一等第的考生(即最低能力考生)在該題上可以得到的分數。
對于評判專家來說,運用Angoff法時,主要難點在于要估計最低能力考生在每道選擇題上的得分概率[14]。這不僅要求評判專家構建“最低能力考生”這一假設概念,還得預估該假設“考生”在每道試題上的得分概率。為解決這一問題,Impara和Plake提出了Yes/N0 法[15]。在標準設置過程中,評判人員無需估計最低能力考生在每道試題上的得分概率,而是判斷最低能力考生能否正確得出正確答案。若能,就在評分表上記錄“Yes”或“Y”;若不能,則記錄“No”或“N”。正因如此,該方法被稱為 Yes/No 法。除了這一關鍵區別, Yes/No 法的其他特征與操作和擴展的Angoff方法保持一致。
3采用擴展的Angoff法和Yes/No法設定劃界分數實例研究
本文以上海市某年高中學業水平化學合格性考試為例,詳細介紹如何采用擴展的Angoff法和Yes/No法進行合格標準設置。
該年化學合格考試卷共6大題,均為綜合題,每道綜合題中含選擇題、填空題、計算題、簡答題等形式,滿分100分,共36小題,其中選擇題共46分,其他題型共54分,根據評分結果,需將考生分為合格與不合格等第。
3.1 組建標準設置專家組
本次評判專家團隊由10位化學教師組成,分別來自上海市的高校、市實驗性示范性高中和區實驗性示范性高中、區教研員、考試院學科秘書等。這些教師具備豐富的教學經驗,長期從事化學課程的教學工作,大多教師參與了命題或審題工作,還參與了考后閱卷工作,對命題理念和試題設計有深人的理解,對考生的答題情況較為了解。
3.2培訓標準設置專家
對參與標準設置的專家組進行培訓,主要培訓以下內容:
(1)理解并熟悉合格等第表現標準。根據新課標,通過專家討論,以學業質量水平 2[16] 為合格標準。
(2)熟悉試題知識內容、核心素養,評分標準以及難度系數。
(3)掌握合格等第最低能力考生、合格等第最低能力考生得分等相關概念。合格等第最低能力考生,指能力恰好達到合格等第的考生,也就是邊界位置考生;合格等第最低能力考生得分,指合格等第最低能力考生在某選擇題上可能得滿分或0分,在某主觀題上的可能得分。
(4)了解標準設置基本程序。
(5)學習使用評判專家評分表。
(6)模擬標準設置。以典型試題進行練習,讓評判專家熟悉標準設置過程。例如,遇到模棱兩可的表述時,應該考慮哪些要素,是否理解最低能力考生等概念。
3.3 執行標準設置
由標準設置主持人主持標準設置全部工作。主持人要求評判專家依據試題考查的知識內容、核心素養、評分標準、試題難度系數,以及合格等第表現標準,逐小題審題,逐小題獨立評分,對于選擇題,使用Yes/No法,認為合格等第最低能力考生能正確回答,即給滿分;不能正確回答,即給0分;對于主觀題,使用擴展的Angoff法,認為合格等第最低能力考生能得多少分,即給多少分,并將得分錄人“專家評分表”。所有試題評判結束后,將所有選擇題和主觀題的得分相加,即可得到每位專家的合格/不合格劃界分數。在沒有任何交流的情況下,專家審視自己形成合格/不合格劃界分數。如果認可該劃界分數,則可以遞交評分表;如果不認可,則逐題檢查,可調整評分。當所有專家遞交評分表后,對專家的評分結果進行統計,需統計每小題平均分、中位數、標準差以及合格/不合格劃界分數的平均分、中位數、標準差。10位專家的評判結果及統計數據見表1。

由表1可見,10位評判專家對合格/不合格劃界分數評判最低的是專家1、專家3、專家6,均為40分;評判分數最高的是專家9,為58分,最低分和最高分差值為18分,標準差為6.36,評判專家的評判分數差異較大。
由于評判專家的評判分數差異較大,為提高分類決策的效度,縮小評判差異,降低誤差,需要將評判結果反饋給評判專家,供專家參考。評判專家集體觀察分數較高和較低的專家評判情況,查找造成較高或較低的原因,是所有試題都趨向較高或較低,還是個別試題較高或較低。無論哪種情況,相關專家都要在與其他專家交流溝通后,重新審讀相關試題,最終決定是否調整評分。此外還要觀察標準差相對較大的試題,要求評分較高或較低專家在與其他專家交流溝通后,重新審讀相關試題,最終決定是否調整評分,并重新提交評分結果。
如第22題,該題為:
四、食品添加劑 一二氧化硫
食品添加劑能改善食物色香味、延長保質期、調整營養結構。我國對食品添加劑的品種、使用范圍、最大用量及殘留量都制定了嚴格的標準。
SO2 是葡萄、荔枝等水果儲存時常用的保鮮劑,能降低水果腐爛率,提高維生素C留存率。
22.保鮮時若 SO2 不慎用量過大,會使水果表面明顯褪色,上述現象說明 SO2
A.易溶于水 B.是酸性氧化物C.具有漂白作用
只有專家1的評分為0分,其他專家的評分均為2分,該題的實測難度系數為0.78,區分度為0.35。其中選B的考生占 21.3% ,選C的考生占 77.9% 。該題涉及學生熟悉的常見化合物 SO2 ,考查的是其重要性質之一漂白性,考查的要求為學業質量水平1。經過討論,專家1重新審視合格標準,認為合格等第最低能力考生能得滿分,因此將其評分修改為2分。經過修改后,該題評分結果的標準差降為0。
再如第34-1題,該題為:
六、緩/控釋肥料
“民以食為天”,糧食安全是國家安全的重要保障。
“人靠田養,苗靠肥長”,糧食增產離不開氮肥。
34.尿素 CO(NH2)2. 是使用量最多的氮肥之一。
(1)尿素屬于
A.銨態氮肥 B.硝態氮肥 C.有機氮肥 D.復合肥
只有專家5和專家7的評分為0分,其他專家的評分均為2分。該題的實測難度系數為0.46,區分度為0.2,其中選A的考生占 42.3% ,選B的考生占 3.5% ,選C的考生占 46.4% ,選D的考生占 7.6% 。該題涉及學生熟悉的常見含氮化合物尿素,是必修教材中的正文內容。試題要求對尿素進行分類,考查的要求為學業質量水平1。盡管得分率不高,未超過 50% ,但經過集體討論,專家一致認為,合格等第最低能力考生能得滿分,因此專家5和專家7將其評分修改為2分。經過修改后,該題評分結果的標準差降為0。
所有專家經過修改評分,再次提交的評分結果如表2所示。

由表2可見,經過調整評分后,平均分為48.8,中位數為49,平均分和中位數比較接近;最低分為41分,最高分為53分,差值減小為12分,標準差為3.26,10位專家的評分差異性顯著減小。相比于第一輪,該評判結果作為合格/不合格的劃界分數,分類決策效度較高,評判誤差較小,可以作為最終結果,不需再次重新進行評判。最終我們選擇采用49分為合格/不合格的劃界分數。根據該劃界分數,與一般采用的60分法相比,其合格/不合格率結果如表3。

4結語
在多種標準設定方法中,基于學業質量標準的Angoff法因其獨特的邏輯起點和方法論優勢,受到廣泛關注。該方法通過組織專家對課程標準所規定的學生學業成就表現進行系統性研判,從而將合格標準錨定于學生核心素養水平的“絕對尺度”,而非基于群體表現的“相對排序”或經驗設定的分數界限。相較于傳統百分比法可能引發的競爭異化與標準波動,或60分法可能導致的應試導向與科學性質疑,Angoff法的核心價值在于重構標準、教學與評價之間的內在聯系。
首先,該方法以學科核心素養為參照,引導教學評價由“篩選淘汰”轉向“素養培育”,促使教學實踐減少低階重復訓練,更加關注學生真實能力的建構。其次,通過剝離群體表現與試卷難度對標準設定的干擾,該方法為教育評價提供了相對穩定的質量監測基準,避免了因群體成績浮動而引發的“水漲船高”式評價失真。此外,Angoff法在標準設定的同時,也強調教育公平。當合格標準的設定不再指向學生在群體中的相對位次,而是依據其是否達到既定的學業要求時,教育資源的配置將更傾向于精準補償薄弱環節,而非單純追求分數層面的競爭性排序。
當然,該方法的實施依賴于專家的專業判斷和協作能力,同時也需要教育管理部門完善相關配套政策,以確保標準設定的科學性和公信力。從長遠來看,以學業表現為導向的標準設定思路,不僅有助于緩解“分數競爭”帶來的教育內卷現象,更可能成為推動基礎教育高質量發展的重要路徑之一。
參考文獻:
[1][9]上海市教育委員會:上海市教育委員會關于轉發《關于2025年上海市普通高中學業水平考試的實施細則》的通知[EB/OL].上海教育,2024.https://edu.sh.gov.cn/xxgk2_zdgz_jcjy_02/20241122/b557c09b2b1042f784801f3edc103ac0.html.
[2]上海市教育委員會.上海市教育委員會關于印發《2025年上海市普通高校春季考試招生試點方案》的通知[EB/OL].上海教育,2024.htps://edu.sh.gov.cn/xxgk2_zdgz_rxgkyzs _ 05/20241118/2560d4d74cb945c28215e226687c382c.html.
[3][14]雷新勇.基于標準的教育考試——命題、標準設置和學業評價[M].上海:上海世紀出版股份有限公司,2011:204,227.
[4]廣西招生考試院.2025年廣西普通高中學業水平合格性考試政策問答[EB/OL].廣西招生考試院,2025,https://www.gxeea.cn/view/content_1155_31204. htm.
[5]陜西省教育廳.陜西省教育廳關于印發《陜西省普通高中學業水平考試實施辦法(2022年修訂)》的通知[EB/OL].陜西省教育廳,2022,https://jyt.shaanxi.gov.cn/gk/zc/gfxwj_20255/gfxwj_20254/202301/t20230103_3416214.html.
[6]江蘇省教育廳.省教育廳關于印發《江蘇省普通高中學業水平合格性考試實施辦法》的通知[EB/OL].江蘇省教育考試院,2019,https://www.jseea.cn/webfile/seniorhighschoollevel_high_files/2019-10-10/3576.html.
[7]北京市教育委員會.北京市教育委員會關于印發北京市普通高中學業水平考試實施辦法的通知[EB/OL].北京市教育委員會,2024,https://jw.beijing.gov.cn/xxgk/2024zcwj/2024xzgfwj/202409/t20240920_3902305.html.
[8]江西省教育廳.關于印發《江西省普通高中學業水平合格性考試實施方案(暫行)》的通知[EB/OL].江西教育網,2021,htp://www. jxeea.cn/art/2024/12/19/art _71807_4150125. html.
[10]李珍,辛濤,陳平.標準設定:步驟、方法與評價指標[J].考試研究,2010,6(2):83~95.
[11]高淑印,鄭剛.天津市初等信息技術考試標準設定方法的研究與實踐[J].考試研究,2013,(4):76~83.
[12]Cizek G J,ed. Seting performancestandards:foundations,methods,and innovations(2nd ed)[M]. New Yorkand London:Routledge,2012:181~199.
[13]Angoff W H. Scales,norms,and equivalent scores. In R.,L.Thorndike(Ed.),EducationalMeasurement [M].Washington,D.C.:American Council on Education,1971:508~600.
[15]Impara JC.amp; Plake B S. Standard seting:An alternativeapproach[J]. Journal of Educational Measurement,1997,(34):353~366.
[16]中華人民共和國教育部制定.普通高中化學課程標準(2017年版2020年修訂)[S].北京:人民教育出版社,2020:65~66.