陳方丁

中共中央、國務院印發《深化新時代教育評價改革總體方案》后,各界興起了學習、貫徹、落實的熱潮,尤其是教育領域,結合習近平總書記的講話及全國教育大會的精神,紛紛“對標對表”,對原有的相關文件、相關規定、相關管理方式等進行了修正,擬定貫徹落實的細則、工作主體及工作日程。
考試評價部門,泛指用大規模標準化考試的方式,對教育領域,特別是對教育領域內與試者的學業成就,進行測量評價的部門,包括從事命題、組織考試、評卷、分數解釋與使用等業務的相關單位。它作為教育評價的一個主體,在學習、貫徹、落實《深化新時代教育評價改革總體方案》中,更是對考試評價的所有工作進行了全面的梳理與反思。不少人對“唯分數”與考試數據的認識存在困惑甚至陷入誤區,工作上出現了“不敢為”的苗頭。因此,有必要匡正認識,放下包袱,更好地推進考試評價改革工作。
破除“唯分數”,能否不要分數——分數的必然性
數字只是一種符號,由于這種符號系統具有同一性、等級性、等距性、等比性等特性,特別適合邏輯運算,所以人們通常使用數字來描述事物的屬性。我們可以用數來描述事物屬性的類別(名稱量表),也可以用數來描述事物屬性的等級(等級量表),或者進行等距運算(等距量表)、等比運算(等比量表)推測事物的屬性。
數量是客觀世界存在的形式,“數量關系”是事物的固有屬性。任何現象,只要存在,就有數量。在教育領域,每個學生的學業成就、人格特征、能力傾向、職業性向、思想品德、綜合素質等屬性,總是存在差異。這種差異可能是類別上的差異,也可能是程度上的差異,也可能是暫時的差異,也可能是未來發展的潛在差異。所有的差異都可以用數據來描述。當我們用數據來描述學生學業成就的差異時,數據就是分數。例如,我們將考生普通高中學業水平考試的卷面分數從高到低劃分為A、B、C、D、E 5個等級,各等級的人數比例分別約為17%、33%、33%、15%和2%。對考生考試結果用A、B、C、D、E進行等級描述,事實上就是運用數據的等級量表對考生學業水平的差異進行5分制的分數等級描述。
可見,有物存在,就有數量;有數量存在,就可測量;有測量,就有數據。測量運用于教育領域,特別是運用大規模標準化的考試評價教育對象時,其結果的表征就是分數。
破除“唯分數”,并不是不要分數,考試分數仍然是評價教育的重要手段,考試評價仍然是教育領域中的重要工作,分數的統計與分析仍然是教育評價不可或缺的重要組成部分。在學校教學班中,教師通過對學生的診斷性考試得到的分數,仍然是診斷學生學習情況的重要指標;學校對年級各班進行的形成性考試得到的分數,仍然是促進教師完善教育方案、幫助學生改進學習的重要工具;教育行政部門組織的終結性考試獲得的分數,仍然是對已制定教育方案、計劃、課程等整體效益鑒定的重要手段;普通高等教育招生考試的分數,仍然是選拔人才的主要標尺。
只是每一種考試得到的分數,均有其獨特的功能和使用的邊界,不能夸大,更不能越界。正如列寧所說:“真理只要向前一步,哪怕是一小步,就會成為謬誤。”
追“分”路上,此分非彼分——考試評價的“分數”追求與“唯分數”的分數追求具有本質區別
考試評價部門使用大規模標準化考試的方式,評價考生的學業成就,以此作為招生錄取的依據,其成效是有目共睹的。《國務院關于深化考試招生制度改革的實施意見》對考試評價工作作了充分的肯定:改革開放以來,我國考試招生制度不斷改進完善,初步形成了相對完整的考試招生體系,為學生成長、國家選才、社會公平做出了歷史性貢獻,對提高教育質量、提升國民素質、促進社會縱向流動、服務國家現代化建設發揮了不可替代的重要作用。
然而,隨著時代發展,考試評價及其衍生的一些問題不斷顯現,甚至固化。“唯分數”終成了頑瘴痼疾。事實上考試評價對“分數”的追求,對“好的分數”的追求,從未止步。
考試評價對正確的分數追求,從未止步。2014年,《國務院關于深化考試招生制度改革的實施意見》頒布后,教育部考試中心構建高考評價體系的研究工作隨之啟動,組織多所高校的150多位專家,在全國廣泛調研的基礎上,最終形成了理論性與現實性相結合、國際化與民族化相結合、基礎教育與高等教育相銜接的中國高考評價體系。從高考層面對“培養什么人、怎樣培養人、為誰培養人”這一教育根本問題給出了回答。中國高考評價體系的科學建構,是健全立德樹人落實機制、實現德智體美勞全面發展育人目標的必經之路。個別地區的試題出現價值觀方面的誤導,值得警惕。
考試評價對科學分數(真分數)的追求,從未止步。組織教育學家、心理學家、測量學家、學科專家升級測量工具的工作,從未間斷。測量對象屬性的界定,不斷深化;各學科必備知識、關鍵能力、學科素養測量的可操作性,越來越強;學科內容測量的基礎性、綜合性、應用性、創新性的把握,越來越精準;編制的測量工具,越來越先進;測量誤差的控制,越來越好;考試分數的效度、信度,越來越高;特別是隨著新興測量理論的廣泛應用,數據的統計與分析,越來越科學。總之,考試分數越來越正確、越來越準確地標示與試者的知識、能力及素養狀況,分數越來越“真”,越來越有價值。
考試評價對公平分數的追求,從未止步。由于考試分數與教育資源、乃至社會資源的分配直接關聯,考試招生制度是促進社會縱向流動的機制之一,考試招生部門對公平分數的追求責無旁貸。在命題環節,從題型采用、分值分配、素材選取、情景創設、設問與參考答案和評分標準的確定、難度控制等,都將公平擺在重要位置;在考務環節,從標準化考場的建設、標準化考務流程的健全、評分細則的擬定、評卷誤差的控制等,無不凸顯公平。
考試評價對全面分數的追求,從未止步。廣東省2021年普通高校的招生,依據考生全國統一高考和省普通高中學業水平選擇性考試科目成績,參考綜合素質評價實施錄取。在《關于做好2021年基于高考基礎上綜合評價招生錄取模式試點工作的通知》中規定,綜合評價錄取試點高校要重點研判考生高中綜合素質檔案內容,將學生社區服務、社會實踐經歷、研究性學習和自主選修課程學習情況等作為初審的重要內容和必要條件……要按照6:3:1比例(即學生高考成績占綜合成績的60%,高校綜合素質測試成績占30%,高中學業水平合格性考試成績占10%)合成考生的綜合成績。這些改革,追求的就是不斷拓展的全面分數。
可見,考試評價主體的“分數”追求與“唯分數”論的分數追求,具有本質區別。考試評價主體追求的“分數”是一種“好”的分數,“唯分數”論者追求的分數是一種“多”的分數。在價值取向上,考試評價主體追求的是立德樹人、服務選才、引導教學的分數;“唯分數”論者追求的是“多”的分數,是為了個體獲得更多的教育資源或社會資源的分數。在思想方法上,考試評價主體承認分數的相對性,承認分數的使用邊界;“唯分數”論者把分數絕對化、標簽化,特別是對高考分數,任意擴大使用范圍,作為評估學生、評估教師、評估學校成績的唯一指標。考試評價主體努力使分數增量,表征著知識、能力、素養的增量,追求分數的“真實”;“唯分數”論者“走捷徑”,通過“刷題”獲取“練習效益”,在同等知識、能力、素養水平下,得到更多的分數增量,追求分數的“虛胖”。
當然,對于“虛胖”的分數,雙方都有責任。一方面,學校教師不應通過題海戰術,提高考生解題答題技能的辦法,獲得分數的增量,而應該走素質教育的道路,努力提高學生知識、能力、素養的水平,獲得分數的增量;另一方面,我們的測量還不夠正確、準確,效度、信度還要提高,教育測量者要反思,測量得到的數據究竟是與試者的知識、能力、素養等心理屬性,還是解題答題的技能技巧等心理屬性?在編制測量工具時,一定要想辦法把這兩種不同的心理屬性區分開來,降低甚至消除“練習收益”。我們要用專業智慧,讓分數更有價值。通過不斷改革命題形式,不斷創新題型,不斷創新試題情景,擠掉分數的水分,讓分數消腫,糾正“唯分數”主體的教與學行為及價值取向,難免會引發陣痛。
“唯分數”論的錯誤在于把相對的分數絕對化,把全面的分數狹隘化,把表征的分數本質化,把測量的誤差擴大化,把相對穩定、處于發展變化的分數絕對化、靜止化。考試評價與“唯分數”雙方在指派數據(分數)與獲取數據(分數)問題上的博弈,將長期存在。
“追分”路上,此分非彼分。切勿將所有對分數的追求一概排斥,“談分色變”,不要把孩子和洗澡水一起潑掉。
用“分”場處,此用非彼用——考試評價的數據使用與“唯分數”的數據使用存在重大差異
對考試數據的使用是否會導致“唯分數”?這需要做具體分析。大規模標準化考試數據的使用,包括首次使用和再次使用。
考試數據的首次使用,就是運用考試數據進行招生錄取。高等學校招生“唯”分數是導致高中教育“唯分數”困局的必要條件。高等教育在價值觀層面的唯分數錄取,恐怕無人認同;但在現在社會條件下,在實踐操作層面的唯分數錄取,恐怕是一種必然的選擇。
考試招生的有關文件規定,推行新一輪高考綜合改革的省區,高考考生總成績由統一高考科目成績和普通高中學業水平考試科目成績組成,普通高中學業水平科目考試成績以“等級”(一般分為五個等級,各等級具體比例由各省根據基本教學質量要求和命題情況等確定)或“合格、不合格”呈現。它一方面,擴大了錄取分數的范圍;另一方面,又使分數的形式更加多樣化,不僅有數據,也有等級。顯然這是破除“唯分數”困局的重要舉措。
但是,要將上述規定貫徹到考試招生錄取工作中,確實不易。第三批高考綜合改革的試點省區,為確保招生錄取的公平性與可操作性,將高考模式確定為“3+1+2”(“3”為語數外高考統考科目;“1”為普通高中學業水平選擇性考試的首選科目,即在物理與歷史中,選擇其一;“2”為普通高中學業水平考試的再選科目,即在化學、生物、地理、思想政治四個科目中,任選其二),“3+1”按原始分計入總分,“2”的等級成績按一定的規則依據卷面分數,分分轉換為等級分。唯分數錄取,似乎回到原點。但是它向社會昭示,使用分數錄取,只是操作層面,而非價值層面。依據分數錄取,是出于公平的需要。
考試數據的再次使用是指招生錄取工作完成后,根據一定的需要,借助各種分析工具,對考試數據的統計與分析。大規模標準化的考試,由于其測驗的編制、實施、評分、記分、分數的解釋與使用,都按照統一的標準和嚴格的規定進行,考試數據是高質量的原始數據,具有很強的原創性和針對性。我們知道,數據的質量是一切統計與分析的基礎,其重要性甚至超過分析方法本身。大規模標準化的考試數據庫,就是一個“金庫”,為我們的分析、研究和決策,奠定扎實基礎。對高考考試數據等大規模標準化考試的數據,如果在招生錄取工作完成后,便束之高閣,不再使用,不再進行深度挖掘,以此診斷學情教情,就是一種不作為。
在正確價值觀引領下,大規模標準化考試數據的再次使用和深度挖掘,并不會對“唯分數”取向推波助瀾,反而能更好地在服務命題、引導教學、幫助考生規劃生涯方面發揮積極作用。
從命題角度來說,一份試卷是否承載了它應該具有的功能,是否完成了它的任務,需要做定性與定量的分析。比如從服務選才的功能來說,總分將考生的區分程度是否能滿足招生錄取工作的需要,分數的變量是否能把考生知識、能力、素養等心理屬性程度上的差異,正確地、準確地標示出來,這就需要統計卷面的平均分、標準差、效度、信度、標準誤差,需要統計試題的難度、區分度、差異系數等等。這些數據的統計與分析,對于命題工作至關重要。
在國際大規模標準化考試項目中,中國命題團隊的工作難度最大。一則中國考試承載測量以外的其他功能較多;再者在中國的環境下,試測后的試題不能直接使用,試卷試題的許多參數都只能靠命題團隊借助試測、借助對往年考試數據的統計與分析,做出大致的估計,工作難度極大。考試數據的再次使用是下一年命題工作的基礎,與“唯分數”關聯不大。
教師、學校及市縣教育行政部門對考試數據統計與分析的愿望更為強烈。初級中學服務中考、高級中學服務高考,這是學校的職能之一。這些工作完成得如何,給學生、給家長、給社會的“工作匯報”,總得讓數據說話。當然,在“唯分數”價值觀引領下,統計并炒作諸如“高考狀元”“高分考生”“北清率”等,無疑會推波助瀾“唯分數”。但為改進本地區、本學校教育教學工作,深度挖掘分數背后所蘊含的信息,了解掌握本地區、本學校各學科必備知識、關鍵能力、學科素養等方面的水平與位置,了解自身的長處與短板,從只關注分數條的分數轉向發掘數據背后所蘊含的信息,并不會強化“唯分數”。不能因為數據敏感,而對基層考試數據的需求視而不見,聽而不聞。天津市教育考試院通過社會服務的辦法,為有需要的學校提供正確價值觀指導下的相關考試數據服務,其做法值得借鑒。有的省級考試機構正在研制考試年報的地市版、學校版,也不啻對基層考試數據需求的積極回應。
從考生個人角度看,目前給考生的考試數據,內容大體上就是總分、各學科分數、總分排位,通俗地說就是“分數條”,沒有更多的數據信息。教育部考試中心曾經啟動的云海工程項目,改革傳統的高考分數報告辦法,建立全方位、多層次、發展性、個性化的綜合考試評價體系,為考生提供內涵豐富、并具有診斷與發展導向功能的評價報告,幫助考生全面、清晰地認識自己,更好地選擇高校和志愿,做好職業生涯規劃。上海市教育考試院在普通高中學業水平合格性考試項目中改革了“分數條”形式,從學科的知識內容和能力目標兩個維度,報告考生的學業情況。浙江省教育考試院在普通高中學業水平考試項目中,從試題得分、學科知識、學科能力、認知目標掌握四個維度,分五個層次,報告考生學業情況。這些做法,都值得借鑒與推廣。
在正確教育價值觀的引領下,考試分數的再次使用與深度挖掘,不僅是必要的,而且是無止境的。