采訪_姚曦 編輯_楊軍
楊念魯:評價本質是改進教育
采訪_姚曦 編輯_楊軍
在2013年開始推行的教育質量綜合評價改革中,中國教育學會一直是為各實驗區提供專業指導的機構之一。“教育智庫深度參與,行政和專業雙向互動”的工作機制也是成都市推行評價改革的重要保障。為此,本刊專程采訪了中國教育學會秘書長楊念魯博士,通過他來解讀目前評價改革的意義和問題。楊念魯博士曾在教育部長期擔任基礎教育領域的工作,早在上世紀90年代就曾負責國家教育規劃重點課題《義務教育階段教育質量研究》,并出版專著《義務教育質量研究》。

本刊記者專訪中國教育學會秘書長楊念魯博士


兩份典型的教育質量監測結果。監測一般只起標定作用,而不作具體分析
本刊記者:您好,楊先生。中國整體推動教育質量評價改革至今已有3年,從30個實驗區確立到10月份在成都召開第一次全國性的現場會,可以說取得了階段性成果。我們該如何理解當前評價改革的迫切性、復雜性、長期性?
楊念魯:先說復雜性,復雜性主
要體現在兩方面。一是長期以來社會各方面,包括教育行政部門、校長、老師、家長等對評價都存在很大誤區。教育質量評價是非常復雜、嚴謹、科學的診斷和甄別過程,但迫于各種現實,過去我們往往簡單理解為考試分數。有多少孩子考上清華、北大,考了多少分。這是社會上一般的對評價的理解。現在來談新的評價理念,首先在觀念上阻力非常大。
分數只是評價中最基礎的鏈條。考試成績就好比生病了需要先測體溫,只是評價依據的一方面。醫生也不可能僅憑體溫就診病。還需要進一步體檢,比如驗血、做透視等,最后診斷出病人的整體健康狀況。
教育質量評價也一樣,其本質是改進教育,而不是給學習者一個標定。
您剛問到監測和評價的區別。監測從某種意義上就是起標定作用,了解學習者在整個群體中的某一方面達到什么狀態。并不是評價。當然可以根據標定深入研究和解析,從而進行診斷,但其主要目的是標定:測驗學生是否達到國家標準,至于達到多少一般不做具體分析。
如此,我們說,教育質量評價更主要是通過測量學生學習狀況并深入分析:達到標準是因為什么?(特別是)沒有達到標準的問題出在哪里?這才是評價最根本的目的。是為了提高質量、改進教學、優化決策。
本刊記者:據了解,一些地區把監測和評價等同或混淆起來,這樣是否存在一些問題?
楊念魯:這肯定是不夠準確的。監測和評價二者本身并行不悖,各有其用。但特別要說明一點,評價結果是不能跟教師獎懲、績效工資掛鉤的。監測應該與區域政績掛鉤,比如監測某區域的義務教育質量,是否達到國家課程大綱標準。沒達到要對官員問責。
但我們堅決反對把評價結果跟教師績效工資掛鉤。因為評價目的不是為了懲罰誰,不是標定作用,而是找原因、找病根。找原因的過程中憑什么去追究教師責任?假如一個孩子數學總考40多分,一般來說很多老師、家長都會覺得這孩子“不是學數學的料”。但評價可以幫他分析,數學教育涉及記憶、計算、推理、空間思維等各種能力。這孩子雖然總體看是不及格,但分析結果可能是他計算能力不差,數學思維沒建立。也可能是空間思維能力、推理能力很強,計算能力不行。同樣是不及格,在精細診斷后,就會發現不同的問題,對癥下藥。
現在很多校外輔導機構就在應用這種方法。有孩子來咨詢就做測評,分析短板,有針對性的輔導,效率很高。他們稱為“靶向治療”。當然他們使用的評價方法還是很簡單的,但做法很有效。
我們說評價方法很重要。復雜性的第二方面就表現在:它不是對一個工業產品進行標定、分析。產品的標定、分析可以精確到厘米、毫米甚至更小的單位。但教育質量評價的對象是人,是活生生的個體。從科學角度說,對兩個不同的人同一項學習內容的表現不太可能進行嚴格比較。但評價必須做比較,通過比較才有鑒別和分析,才能發現問題。
如何在技術和方法上把科學性和人的個性表現有機結合,這也是評價改革的困難所在。
本刊記者:我可不可以這么理解,既需要借助先進的技術,又不能迷信技術。
楊念魯:對。做小范圍分析時,現有技術大致是可以達到要求的。但大范圍分析就有難度了,不可能花這么長時間、精力、人力對整個區域的學業情況做細致的分析和鑒別。復雜性的第三方面就是我們對那些相對比較好測量的,比如成績,甚至某種學習能力。但有一些,比如人的情感、價值觀等等──我們統稱為綜合素質。這次教育部發的《意見》就非常強調兩點:學業成績和綜合素質;所以叫教育質量綜合評價改革。綜合素質要用什么方法才能準確判斷,據我所知,目前國內還沒有特別完善的方法。
本刊記者:有位一線老師問我,孩子誠信的程度要怎么來評價呢?
楊念魯:不僅是誠信。道德上的問題學生可以回答得非常漂亮,道德認知測試題可以得滿分,但他的道德情感是否“真的”認可這些答案?不一定。
本刊記者:知行不合一。
楊念魯:對,就是知行不合一,言行不合一。這種問題是比較難用簡單方法進行測量和分析的。尤其大范圍測量時更難。國外較通行的方法是檔案袋,記錄學生參加的活動的表現和反饋。一兩次行為可以偽裝,但時間長了次數多了就不行,因此積累的數據可以進行分析。這樣就能對學生的道德、情感、態度、價值觀等做出判斷。但這種方法不可能畢其功于一役,是一個長期、復雜的過程。檔案袋在跟蹤期間是否靈敏、真確,都是需要考慮的問題……
以上三方面就構成了基礎教育質量綜合評價的復雜性。評價和醫生看病不一樣,醫生通過CT可以看到腫瘤位置、大小,但教育的評價達不到這種(物理性的)精細程度。
楊念魯:再說改革的迫切性。為什么教育部特別抓學生的評價,就是因為我們過去總體上對基礎教育的質量評價出了問題。
一是以分數作為評價唯一手段;二是用一次性結果進行評價。這都是不全面的。其實一個人是在不斷成長變化的,他有多種潛能、智能。從不知到知,從不行到行,從不會到會的過程。不能因為他一次成績就扣一頂差生或優生的帽子,太簡單粗暴了。我總講一個例子:在同一場考試中,一個孩子從95分提高到98分,另一個孩子從40分提高到59分。都是進步,都要鼓勵。但方式方法不一樣。問題在于,對后者老師往往還認為他是差生,因為他沒及格。老師會更關注98分的孩子。這是我們過去教育質量評價的問題。
第三是一把尺子量所有孩子。國家有課程標準、基本的教學要求,學生接受完相關教育需要達到標準。但不能因此拿一把尺子量所有孩子,每個人都有個性。
第四,我們過去只注重語文、數學、英語等所謂主學科成績,對其它學科,或有的不能用學科知識反映的能力往往忽略。如音體美。社會實踐能力、動手能力、團隊精神等等。這種評價是瘸腿的、不完整的。
這都和我們現在的人才選拔機制有關系。高考是一種特定的選拔機制,嚴格說它不是面向全體學生的。它只是把那些適合進入高校深造的孩子選拔出來,還有很多不適合進入高校的孩子怎么辦?過去我們只用高考一把尺子來衡量,考上大學是好樣的,沒考上就被淘汰,這是我們整個社會的價值判斷……
如果這個問題不解決,整個教育就走偏了。它還催生了題海戰術、填鴨式教育。這一來教育的意義何在?培養的只是考試機器。我說得比較絕對,在教育過程中肯定也是要培養能力、教授方法。但導向不對,把整個教育導偏了,所以改革很迫切。
正是因為這種復雜性和迫切性決定了改革不可能畢其功于一役。國家有關部門充分理解基層的苦衷,意識到抓評價就是抓牛鼻子,如果能用正確的理念、方法去看待評價并正確運用評價結果,那教育質量就會有大的提升。但還有很多客觀條件限制,包括我剛剛說的:領導是否支持?老師是否擁護?方法是否科學?工具是否便捷可行?這些問題不可能在短期內解決。改革一定是長期的、螺旋式的提升,最終達到理想狀態的過程。
本刊記者:您剛才提到,評價出問題很大程度是我們的選拔機制有問題。現在各地也在進行高考改革。您如何看待高考改革和教育質量評價改革的關系?
楊念魯:高考也是一種評價,是一種比較簡單的、一次性、終結性的評價,跟我剛剛籠統講的教育質量評價有些不同。如果說基礎教育階段,特別是高中階段的評價相對科學了,對高考改革就會更加有利,更符合教育初衷。可以說是相互促進關系。
本刊記者:第二個問題,教育質量評價改革與“管、辦、評”分離改革也該是配套的,如何看待評價改革在其中扮演的角色?這實際也牽涉到專業機構和行政部門合作的問題。
楊念魯:我以為,在“管、辦、評”這三者中,牛鼻子是“評”。如果“評”做不到科學、準確,“辦”
就不知道朝哪個方向辦,缺乏有效工具來提供改進意見。“管”也一樣,我在政府工作過二十多年。有很大的體會,政府很好心,想把事情辦好、管好,但是往往管不到點子上,結果反而是缺位了。很大部分原因是信息缺乏,缺少對管理對象分析的信息。這就是抓“評”的作用。如果“評”能把“辦”的情況客觀、準確、及時地反饋給“管”,“管”就會到位,三方形成合力。

目前的高考改革也正在改變過去“一考定終身”的評價方式
本刊記者:正如您剛才談到信息問題。隨著網絡時代發展,現代教育質量評價技術也開始利用大數據分析了。能否談談相關的研究?
楊念魯:近幾年國外非常注重大數據分析,這是我國目前比較短缺的。我們支持公眾教育研究院每年搞一個大賽(本來不想用“賽”字,但沒辦法,不比賽就沒人來)。其實比賽的目的不是為了看成績,主要想搜集數據。參與者達到一定數量就可做大數據分析,分析目的是為了建模。當所有評價在某一環節、某一點都能有比較科學的、可參考的常模,評價結果就準確了。未來在同一領域、同一學科將有若干個常模,需要我們組織出面把這些有參考意義、有科學性的模加以整合,提煉出一個新的模。
本刊記者:我可以把最后提煉出來的模理解成未來的行業標準嗎?
楊念魯:可以。現在因為大家的測量方法不同,提供工具的機構水平也良莠不齊。教育主管部門和學校也不知道誰的準,誰的不準,該不該用。今年我們的研討會初步篩選了7家專門提供評價機構,讓他們“打擂臺”,展示各自的理念、結構、優勢。說完以后專家點評,用戶判斷。
教育學會作為國家級學術機構不會專門和一個機構合作,將來我們會吸納各個機構的成果加以整合。最重要是形成行業的標準、給教育改革做參考,讓更多的孩子受益。
本刊記者:我見證了中國教育學會和成都市教育局簽訂《合作框架協議》那次會議,你們跟成都市教育局合作是如何展開的?
楊念魯:2013年,當時教育部課程教材中心、基礎教育質量監測中心和教育學會受教育部委托給30個實驗區提供專業支持。在跟實驗區聯系過程中,我到成都出差,跟兩個青羊區教研員有接觸,他們告訴我青羊區以區域為單位在做教育質量評價的嘗試。一開始大家不理解,不太積極,但后來驚奇地發現,通過改革,把他們包括老師們的教研的熱情都充分調動起來了。我覺得這是一個非常積極的現象,是我們求之不得的。于是繼續了解,才得知公眾教育研究院在幫他們做評價工具。這個評價就和我前面說的理念非常吻合,后來學會就跟公眾教育研究院反復接觸、討論,決定用他們的工具為30個實驗區里愿意和我們合作的區域進行服務。成都市教育局正在招標,可以說一拍即合。
本刊記者:這個過程很有趣,從基層教研員了解到線索,然后找到他們背后的技術支撐,恰好公眾教育研究院的理念和你們高度契合,然后中國教育學會和公眾教育研究院就成了合作伙伴。
楊念魯:就像你說的,我們的理念非常契合。他們做的評價不是簡單給學生標定,也不是一次性報告,而是做學科分析。分析教學過程,從結果反推教學過程的優勢和短板,進而給出改進建議。公眾教育研究院和其他類似研究機構不同的一點,他們很注重讓老師們參與。這也是青羊區當時做評價改革的要求。其實純粹從技術而言,很多機構做得也不錯。但關鍵是老師有沒有參與進來。評測機構給出報告就走了,老師們拿到報告是似是而非的,不知下一步該怎么辦。評價結果怎么分析,怎么反思教學過程,這實際是老師專業成長最好的途徑。