陳雅劍
隨著時代發展和科技進步,新時代對人才培育提出了新要求,傳統教育的人才培養方式越來越不能滿足新時代的復合型人才需求,倒逼著教育從上而下進行改革。在國家層面,教育部進行了課程標準的重新修訂及統編教材的編寫,在全國范圍內實現了教材的統一。在教育評價方面,2020 年6 月30 日,中央全面深化改革委員會第十四次會議審議通過了《深化新時代教育評價改革總體方案》。該方案明確指出,教育評價事關教育發展方向,要全面貫徹黨的教育方針,堅持社會主義辦學方向,落實立德樹人根本任務,遵循教育規律,針對不同主體和不同學段、不同類型教育特點,改進結果評價,強化過程評價,探索增值評價,健全綜合評價,著力破除唯分數、唯升學、唯文憑、唯論文、唯帽子的頑瘴痼疾,建立科學的、符合時代要求的教育評價制度和機制。無論是課標、教材還是評價方案,國家層面都進行了頂層設計,以期通過改革培養出符合時代要求的高素質復合型人才。
梳理相關研究文獻可以發現,近幾年對新課標如何具體落地實施、新教材采取怎樣的教學路徑的研究頗多,在具體實操路徑層面的研究成果豐碩,這里不再展開論述。教育評價是教育活動的“指揮棒”,有怎樣的教育評價,就有怎樣的辦學導向。教育評價改革一直以來是教育研究的熱點,其涉及人才培養要求、招生考試制度、學校學科設置、評價方案設定等方方面面;也事關國家人才選拔、教育成效評估、社會對教育的期望等。本文立足教育欠發達地區廣東省LF 市,在高考備考視野下分析該市基礎教育評價基本概念,探尋增值評價的實踐路徑。
開宗明義,我國教育界一般把教育評價定義為:“在系統地、科學地和全面地搜集、整理、處理和分析教育信息的基礎上,對教育的價值作出判斷的過程,目的在于促進教育改革,提高教育質量。”[1]從這個概念描述分析,教育評價包含三個層面:一是教育信息的前期規整,包含學科特征、學情狀況、教師隊伍資歷、學校辦學水平等等有關的教育信息匯總;二是診斷過程,即在已掌握相關信息的基礎上對某一特定的教育活動做出價值判斷的診斷過程;三是優化過程,即在前兩者的基礎上,相關的教育活動進一步優化,發揮優勢、更正不足。從概念屬性分析,教育評價內涵深、外延廣,涉及對象多。大多一線教師理解的教育評價指向教學評價,例如,對某個教學班的評價是“這個班考得好”,對某個學校的評價是“這個學校考得不錯”,諸如此類的偏向教學班級或某個學校教學效果的評價,是相對狹隘的教育評價概念。本文所論述的教育評價概念更為廣泛,下文將從傳統評價模式的不足及備考過程中增值評價的運用兩個角度展開分析。
高考是影響千家萬戶的大事,是國家選拔人才的重要方式,也是目前最為公平公正的人才選拔制度。作為一種教育評價活動,高考可以說是中國教育領域中涉及面最廣、參與人數最多、影響因素最復雜的教育評價活動。無論是國家選拔人才需求還是社會對高考公平的期望,都對進一步提升高考制度的科學性和合理性與保證高考評價活動的公平性提出了要求。高考成績關乎考生個人命運,關乎教師榮譽,關乎學校聲譽,故而各地均重點關注高三備考工作,期待在高考中能收獲好成績。從教育評價的本質分析,高考是偏向智育考量的一種評價活動,基于標準化測試選拔人才。在以分數論英雄的評價背景下,“題海戰術”是高考的必勝法寶,做題擠占高三學生課外時間成為常態。
教育評價作為教育活動的風向標,有怎樣的評價,就有怎樣的教育活動。在現階段,高考依舊是國家選拔人才的重要方式,高考分數依然是衡量一個考生能否繼續深造的“入門券”。基于這種狀況,在高三復習過程中如何提高考生的成績是每個學校和教師都要面對和研究的重大課題。偏向智育考查,基于標準化測試的高考評價是教育評價的一種常見方式,備考過程基本采用與高考類似的結果性評價作為主要評價方式,追求經過一段時間復習后學生學習成果的呈現,并進一步優化復習策略,以提高分數作為主要目標,已經成為常態。
以廣東省LF 市為例。LF 市地處粵東經濟欠發達地區,是革命老區,同時也是教育欠發達地區。在近幾年的高考年報數據中,LF 市所在的地級市排名靠后。當地政府及教育有關部門對此非常關注,均努力整合有效資源,想方設法提高高考教育質量,采取措施提高高考成績。當地黨政部門及有關學校采取的相關措施,主要有以下幾種。
這種由教育行政部門組織的階段性測驗,整個地級市的高中學校的畢業班考生都要參與,其范圍廣、對象多,評價結果相對客觀。高三一學年一般舉行四次,集中在八月底、十二月底或者次年一月、廣東一模、廣東二模。八月底的測驗主要是對全市考生進行摸底,對學生現有的學識水平進行檢測,并與中考入學成績進行比對,檢測經歷高一、高二兩學年后每個學生、每個學校的進步與退步情況,同時對相關學校進行排位;十二月底或者次年一月的全市高三一輪復習檢測,主要是檢驗高三第一輪復習的效果;廣東一模和廣東二模主要是橫向比較,和教育發達地區的學校、相似地區同個層次的學校進行對比,分析差距,尋找根源,確保最后階段復習的有效性及針對性,同時為下一輪高三備考提供數據,做好準備。可以說,這種由教育行政部門組織的階段性測驗作為評價手段具備科學性、合理性及有效性,有助于地方備考工作的整體規劃與統籌改進。
這種以標準化測驗作為評價手段的教育評價活動,是多要素、多層面、系統觀的大規模教育評價活動,涉及學生、教師、學校、政府、社區等多個要素,也囊括教育投入、教育過程和教育產出等多個相關環節,可以對學生、班級、學校和區域等等多個主體進行綜合述評。以十二月或次年一月的測試為例,該時間節點恰好是各科第一輪復習末尾階段,有些科目完全有可能已經完成了一輪各板塊的基礎復習,此次測試可以直接檢驗第一輪復習的成效。對評價結果縱向分析,具體到每個學生、每個科目、每個具體板塊的復習效果,讓學生知道需要怎樣調整學習方法,夯實基礎;對評價結果橫向分析,具體到班級之間的平均分、某個板塊的得分,抑或是同個地區的學校某個科目的橫向比較,以檢驗高考備考策略是否正確。這種大型的教育評價活動是一種區域性的評價活動,評價目標明確,方式相對客觀公正。但其弊病依舊明顯:以分數論英雄,以名次論成敗,依舊落入“唯分數論”的窠臼,較少觀照到學生復習過程中的德體美勞層面。
進入高三復習,高考模擬題或專項復習成為檢驗復習成效的常見手段。這種總結性評價常被用以呈現某一學生某一階段的復習效果。以筆者所在學校為例,高三這年常見的檢驗復習效果的方式是一個月一次的大型月考。統一網上閱卷保證了評價過程中的客觀性和公平性,避免主觀因素介入而致使分數評判有失公允。其間各學科復習又有配套的練習冊與測試卷,每復習一個知識點還會進行專項的隨堂檢測。無論是月考還是隨堂測驗,最終都是以分數呈現某個學生的復習效果。不可否認,以分數呈現的評價最為客觀,但也容易導致各教學班級一味追求分數最大化、平均分最大化。“在這種重視‘平均分’的導向下,監測分數成為地方政府和學校追求的另一種分數。還有一些地區以監測之名,開展‘借名統考’和‘搭車’考試,嚴重減損了質量監測在推動樹立科學的質量觀和教育教學改革方面應當發揮的作用。”[2]
以語文學科復習為例,同樣以具體語文分數的高低進行語文復習成效的檢驗,緊張的備考工作及有效的時間迫使教師無法聚焦學生語文素養培養。舉個簡單例子,在文言文復習板塊中,兩道翻譯題是重點也是難點,涉及文言實詞、虛詞和文言句式。新高考Ⅰ卷中的兩道翻譯題的分值是8 分,復習內容基本是實詞和虛詞、各種基本句式和特殊句式、幾種常見的翻譯方法,爭取在翻譯中拿到分數。在這個復習過程中,復習目標是很明確并且單一的:拿到分數,拿高分數。教師往往以學生翻譯能拿到多少分作為檢驗復習成效的依據,學生也是以此證明自己的復習是否有效。這種以分數評價學生習得狀況的方式無法評價學生在復習過程中的其他表征——比如學生進行古文閱讀的能力、古文閱讀的品質、對文言文內容的思維判斷等,這些都是在文言文翻譯復習過程中伴隨著的語文素養,是無法以量化的分數進行考量的。
“教育教學已經開始從單一化時代走向多元化時代,智能化時代的教師已不再是知識的傳遞者,而應作為學習合作者、情感引導者、價值協商者、道德培育者等多樣化的角色;學生也不再是一種學習機器或知識容器,而應成為智慧的學習者、知識的創造者、生命的享受者。這也催促著教師評價和學生評價的改革。”[3]無論是區域性的標準化測驗還是學校自己組織的各類考試,均是在高考制度指揮下的模擬評價活動,均關注分數,關注復習效果,追求復習效率最大化。這種教育評價活動適應高考要求,但也不可否認其功利地追求復習成效會弱化學生個體其他素養的考量。個別學生在復習過程中會因為分數沒有進步,而缺少復習的信心,教育基礎薄弱的學校也會因為在各類測驗中成績無法提高,排名不能上升,而受到教育行政部門的非議。因此我們迫切需要建立一套完整、公正、公平的教育評價體系,尋求可以給學生樹立復習信心、肯定教育基礎薄弱學校備考工作的評價路徑,而增值評價恰是不二選擇。
何為增值評價?作為一種發展性評價,學界對增值評價歷來有不同看法。
“與傳統的評價方式相比,增值評價關注的重點在于經過一段時間的學習后,學生的學業成就在哪些方面取得了進步,進步了多少。通過‘增值’間的比較,基礎薄弱的學生也擁有了超越優等生的機會。增值評價關注學生進步的幅度,以激發學生發展潛能為目的,促進了學生的可持續發展。”[4]“增值評價的內涵大體可以歸納為兩類觀點:一類傾向于關注學生在學業成績上的‘增值’或‘凈效應’。這類觀點認為,增值評價是指通過獲取學生在兩個及以上時間段上的學業成績數據,剔除學生性別、家庭背景等先賦因素和教師學歷、班級規模、班級條件等短時間無法改變的外部因素對學生成績的影響,利用合適的統計方法或分析模型對學生在前后不同時間點上的成績進行分析,最終得到學生學習成績變化的‘凈效應’以衡量學生的進步程度的一種評價方式。”[5]不以分數高低作為評判衡量依據,而以學生或高中學校在備考過程中的成效的“凈效應”作為研判依據,更為科學、客觀。
在具體的備考過程中,落實增值評價的主體是各學科教師。教師是否具備增值評價的相關素養能力,直接關系到復習過程中增值評價這一評價路徑是否可行。何為教師的增值評價素養能力?“我們可以將教師的增值評價素養理解為教師在評價理念革新、增值評價知識理解、增值評價技能掌握、增值評價方法運用、增值評價合作、增值評價倫理規范等方面所具備的專業能力和修養,是一種集增值評價知能、學科與跨學科知能以及信息技術融合評價的復合能力。”[6]教師若想具備運用增值評價的能力,首先必須轉變評價觀念,逐漸更換過去以分數和成績為主的結果性評價、接受新的評價手段并進行實踐;其次必須具備一定的跨學科知識,因為增值評價涉及數據采集、分析與統計等相關知識;同時必須學會合作,從學校視角審視增值評價,這涉及教師與教師之間、學校與學校之間的橫向比較,因此需要學會合作、取長補短,從而共同運用好增值評價方式,做好科學備考工作。下面我們從教師與學校層面談談對增值評價運用。
上文說到,在高三備考過程中,無論哪種形式的復習成效檢測,大多以標準化測驗或者考試分數作為評判依據,這是最為直觀有效的評價方式,大多高三教師在復習過程中也采用這一評價方式。這種傳統的評價手段之所以運用歷史比較久,自有它無可比擬的優越性,這是毋庸置疑的。但這種評價方式面對學生在復習過程中成績停滯不前或者在某一分數段內搖擺不定的情況時會打擊學生的復習信心。在高三備考中經常會出現某個學生的某個學科在復習過程中成績進步不明顯,停滯在某一個分數段,且題海戰術和精細講解均無法提高成績的狀況。這種情況下再以分數評判顯然不利于學生的高考復習。這時,教師需要更新觀念,轉變評價方式,充分發揮增值評價的優勢,幫助學生樹立復習的信心。
以語文學科復習為例,學生在復習中經常會出現這種窘境:對于課堂上復習的內容,都能理解,考試中卻無法用所學知識進行答題,以致答卷滿滿,分數卻低得可憐;復習強調語言表達的邏輯性和層級,學生組織答案時卻眉毛胡子一把抓;作文寫作強調觀點鮮明,論據充分,有章法結構,最后的結果卻是材料的堆砌、故事新編及一逗到底的寫作現實……教師的復習主觀愿望與學生的答題現狀往往不能契合,這種現狀在生源質量不高、師資力量薄弱的高中學校更為明顯。以分數論復習成效只能讓復習陷入惡性循環:教師怒學生不爭氣,學生哀自己學不懂,學校怪基礎薄弱,這均不利于高考復習工作的開展。這也恰恰為增值評價的開展提供了契機。下面結合筆者的實踐經驗談談增值評價的運用過程。
復習到詩歌鑒賞的人物形象時,筆者引用了教輔資料的一首宋詩:
九日①水閣
韓 琦②
池館隳摧古榭荒,此延嘉客會重陽。
雖慚老圃秋容淡,且看黃花晚節香。
酒味已醇新過熟,蟹螯先實不須霜。
年來飲興衰難強,漫有高吟力尚狂。
[注]①九日:農歷九月九日,也就是傳統的重陽節。這一天既有登高懷遠的習俗,也有以菊花配螃蟹的飲食習俗。②韓琦:字稚圭,自號贛叟,相州安陽(今河南安陽)人。北宋政治家、詞人。這首詩作于宋英宗治平二年(1065 年)秋。詩人正在京中任右仆射,可謂官隆位顯。
這首詩塑造出了怎樣的詩人形象?請結合全詩進行分析。
這首宋詩作為課前任務之一,是在進入詩歌形象鑒賞專題之前,對詩歌人物形象專題的一次檢測。結果顯示多數學生的回答為“這首詩寫了一個思念故鄉的詩人形象”“這首詩描寫了一個春風得意的詩人形象”。(注:這是一個物理類普通班)該結果充分說明該班學生尚未完全理解詩歌內容,也未掌握規范答題的方法。顯而易見,學生僅憑借“九日”“官隆位顯”等內容就輕率地解答。對于基礎相對薄弱的物理類普通班學生來說,他們只能組織類似的答案。在完成該知識點復習后,筆者重新讓學生對原來的答案進行修改,由此完成第一次增值,并以可視化表格的形式(見表1)呈現學生復習前后答案構造的變化。

表1
學生復習完知識點后,在原有的答案基礎上進行修改,或者對錯誤答案進行更正,再通過量化表格形式的比對,或者設置一定的分值(一般按詩歌鑒賞題設置6 分),以分數變化呈現習得情況,可以直觀感受到自己在遣詞造句、表達順序等方面的進步,從而展現出課前課后、知識點復習前后的增值。關注學生復習過程中的初步增值,對基礎薄弱的學生和學校尤為適用,因為它關注過程,聚焦知識點復習前后的進步,是一種發展性評價。
實現初步增值并不代表課堂增值評價活動就此結束,復習要有成效,方法策略固然重要,信心和能力也不可忽視。中等層次的學生在實現初步增值后,會陷入另外一個怪圈:分數集中在某個階段,提不上去、掉不下來。以這道詩歌的形象題為例,通過第一階段的知識點復習及答案比對,大多數學生做其他同類型題目時可以拿到3~5分,集中在4 分,但很難再拿到高分,學生此時會感到焦慮:我是不是掌握得不夠牢固?是不是還有遺漏的知識點?這時教師需要進行二次增值,用發展的、全局的眼光看待學生在復習中遇到的類似的瓶頸問題。“增值評價可以建立一個長期追蹤學生學習全過程、全要素的系統,形成全新的評價理念和方式,以實現學生德智體美勞全面發展。”[7]在詩歌板塊復習完畢后,筆者又讓學生完成自我評價對照表(見表2)。

表2
在這個焦慮期內,學生重溫類型題并進行對照。該物理類普通班的51 位學生中,復習前答案得3 分以下的有37 位,得5~6 分的有2 位,全班平均分為2.65 分;復習后得3~4 分的有41 位,得5~6 分的有6 位,全班平均分為3.88 分,并且有37 位學生表示能結合有關注釋看懂詩歌,理解詩意及所表達的情感。通過自我評價對照表,學生可以明確自身狀況:我做詩歌鑒賞題分數有了明顯的提高,并且能看得懂,能夠運用比較規范的術語組織有序的答案。這是復習過程中的二次增值。對成績徘徊不定、分數短時間內難以提高的學生而言,這是在第一次增值評價的基礎上實現質的躍遷,既能讓他們明確復習依舊存在不足,又能使其重塑信心,自信備考。兩次評價分別安排在兩個時間節點——某個具體知識點復習前后以及某個板塊復習前后。教師通過量化表格,剔除其他無關影響要素,直觀具體地評價學生在復習過程中的進步,可以實現學生的自我增值。
當區域性標準化測驗開始時,各學校之間的比拼就開始了。這種比拼在業內人士看來存在一定合理性,比如,會將生源、入學成績等因素納入考量從而作出相對客觀的研判。但普通社會人員大都以分數高低、排名前后衡量某個學校的教學成效,特別是在大型的教育評價活動——中考、高考中。“現有的監測評價多采用截面研究設計,即只能反映學生當前的發展狀況但是無法呈現學生的發展程度,這就導致監測評價只能反映教育質量的當前狀況和整體趨勢,無法對學生與學校的進步程度進行客觀衡量,也無法明確某項干預與學生發展的因果關系。”[8]由于這種大型的區域教育評價活動采用截面設計,只反映學生當前的習得狀況,所以當我們把這種評價結果進行橫向比較——在學校與學校之間進行比較時,就產生了排名的先后,而大多數人以這種排名的先后來定位某個學校的辦學層次水平、教學成效等。“所謂教育評價質量不平衡,是指在不同地區、學校、群體、個體之間存在差距;所謂教育評價質量不充分,是指教育評價的整體發展明顯落后于教育的發展水平,尤其是高質量、高效益的教育評價非常匱乏。”[9]這就需要我們用科學、發展的眼光來區別看待不同學校群體,而增值評價適用這一需求。
以筆者所在的地級市作為樣本,全市共有30多所高中學校,其中LF 市有8 所高中學校,以其中在當地享有盛譽的兩所高中學校作為例子,在2021 年的八月底組織的全市第一次模擬考試和十二月底的測試中,排位見表3。

表3
從表格我們可以發現,在兩次地級市的區域性測驗中,A、B 兩校的名次有明顯變化:A 校在地級市的排位由15 位上升到14 位,而B 校則由17 位下降一位。該表格傳遞了一個信息:A 校的備考工作有成效,排位上升;B 校則原地踏步或退步,排位下降,而在LF 市排位均不變。真實結果是否是這樣呢?我們再納入兩個變量(見表4)。

表4
我們納入兩個學校的中考成績作為參考變量,可以發現A 校學生入學質量在整個地級市30 多所學校中處于中間位置,兩次大型的評價活動縱向比較的結果顯示該校排名穩定,說明復習成效與生源質量成正相關;B 校入學排位為21,處于中下游位置,但8 月的測試排位為17,前進4 位;12 月測試排位為18,前進3 位,說明B 校的備考工作有成效,促使學校名次整體上升。兩校橫向比較,我們可以得出一個結論:不能以名次高低來評判一個學校的復習效能。
以上數據說明,作為學校領導,特別是主抓教學層面的業務領導,在備考過程中不僅需要運用增值評價手段研判學校、具體學科的“凈效應”,參照中考入學成績、師資力量、師生配比等變量,對本校做出科學、清晰的定位,為科學備考做出有效措施;還要建立科學、公正的學校效能評價與監控體系,通過分數增值、過程增值、效能增值,形成增值評價體系,充分發揮增值性評價的作用,并有效分析影響學生發展、學校備考的重要變量,為改進教育評價方式、促進學生的可持續發展和學校科學備考提供依據。