熊志權,李自立
(1.華南師范大學物理與電信工程學院,廣東 廣州 510631;2.珠海市香洲區教育局教研室,廣東 珠海 519070)
2013年6月教育部頒布了《關于推進中小學教育質量綜合評價改革的意見》,要求建立以學生發展為核心、科學多元的中小學教育質量評價制度,切實扭轉以單純測試成績和升學率評價中小學教育質量的傾向,構建一套體現素質教育要求的“綠色評價”體系。“測試+同步問卷”這一方式除了看傳統的測試分數,還通過問卷關注獲取分數付出多少成本,能尋找區域學業質量形成途徑和付出的代價,這種評價方式便于操作,評價結果的解釋通俗易懂,能較好地引導區域學業質量評價進入“綠色GDP”時代。
當前,評價一個區域、一所學校學業質量的好壞,公眾的眼光普遍聚焦在測試成績排名和升學率的評價上,這種以單一紙筆測驗分數來衡量學校質量的傾向至今還沒有得到根本扭轉,也沒有因為新課程的實施而得到改觀,主要表現在:評價內容上注重知識領域,漠視學生感情態度和個性發展;評價方式注重靜態結果而忽視學校的起點和努力程度;評價結果過分強調甄別而輕視診斷和改進。“成績報告單”簡單地取代了評價的結果,測試分數的誤用濫用屢見不鮮,這些問題嚴重遮蔽了教育的豐富內涵,制約了學生社會責任感、創新精神和實踐能力的培養,要解決這些突出問題,適應經濟社會和教育事業發展的新形勢,必須大力推進區域學業質量評價改革。不僅要把學業成績、學習動力、學習方法和學習生活品質等都作為學業質量的重要組成部分,還要把學生睡眠時間、在校時間、課后作業量和體育鍛煉時間等納入評價的范圍。
學生是有差異的,學校間同樣存在差異。學生的學習活動并非只有高低之別,還有個性化特點和傾向的不同,也即學習風格的迥異,如果用測試分數粗暴地一刀切去評價學校的學業質量,總會存在一些誤判。[1]當測試成績偏低時,不能武斷地認定教師沒有教好,依據單一因素不能判別學校學業質量的優劣。有數據顯示,家庭背景、性別差異、遺傳基因都會影響學生的學業成績,而這些因素學校卻無法去改變。
另一方面,有些考得較差的學校往往都會歸咎于生源不好,那么究竟什么樣的生源能決定測試成績?生源在其中起多大的作用?生源的哪些方面起了作用?經濟條件、獨生子女、家庭文化背景、家長學歷水平等這些生源背景到底多大程度上影響學業質量,這些需要我們巧妙地設計問卷,并和測試成績相結合來分析,以便于進行基于數據證明的理性回應。
知識的獲取是需要計算成本的。以測試分數論英雄,不關注學生成長,不看育人過程只看測試結果,不重視分數獲取過程中產生的附加教育結果,并且,學生獲取學業分數也有不同的途徑,有的學校的測試分數是依靠教師加班加點,犧牲學生休息、鍛煉和睡眠時間獲得的,有些學校壓縮非測試科目課時獲取測試成績,有些學科的測試分數是教師誘逼學生在總量一定的課后學習時間多占時間去獲取的,這些分數形成途徑千差萬別,付出的代價也各不相同,考慮成本的分數能改變學校之間過度競爭和不斷惡化的教育生態環境。
只看測驗分數的評價腐蝕課程實施,導致教師所傳授的內容被限制在一個狹小的空間或囿于測試內容,教師不得不把生動的課堂變為單一的應試考堂,剝奪了學生學習比測試內容更重要的東西的機會。
為什么區域內學校間的測試成績會有顯著差異?為什么有些學生測試成績好,而大多數測試成績一般?有些學生測試成績卻很差?為什么有些學校測試成績低分層面會越來越大?這些差異能夠用學校文化、家庭背景、學校資源、教學行為的差異來解釋嗎?僅僅有測驗結果的評價就是用分數來解釋分數,做分數之間的數學轉換游戲,并不能真正分析學校問題的癥結所在,也達不到改進教學、促進學校發展的目的。要回答這些問題,我們通過問卷收集證據,便于學校尋找努力方向,也能使政策制定者對教育質量做出科學推斷并決策。
劉堅等人認為,從數據挖掘的微觀層面來看,學業質量分析的首要功能是了解一所學校、一個區域的整體情況,但除此之外,它還能幫助我們了解不同子群體之間存在的差異,如不同的性別、不同家庭經濟情況的學生間的差異,更進一步,它還可以回答造成這些差異的原因,以確定彌補這些差異的政策和辦法。[2]單純的測試成績并不具有實際的意義,重要的是找出測試成績與影響因素之間的關系,使人們能夠對測試分數做出深度的解讀。學業質量是多層次綜合、多因素累加的結果,多層次是指成績是由學生個人、家庭、學校以及教育系統多個層面共同作用的結果,多因素累加是指學生學習參與度、家庭社會背景、教師能力、學校風氣和教育政策等因素共同作用的結果,多層次和多因素構成的學業質量均隱含了豐富的教育信息。
學業評價絕非簡單的一個測試分數,當前的評價和反饋簡單粗糙,大量有用信息沒有充分利用。學業質量評價希望通過學業評價本身的規約,無限逼近學業本真的存在。學業有可見部分和不可見部分:學業中可以被觀察、測量和評定的是可見部分,如測試分數;不可見部分則是隱含的、通過推算和估量的,需要通過大量問卷引導出來。這兩個部分在學業質量評價中同樣不可或缺,問卷與測試分數相結合能使學業質量的可見部分與不可見部分相互解釋和驗證,便于挖掘數據背后的教育價值。
“測試+同步問卷”不僅體現了學業水平,同時還包含學習能力、情感興趣等因素,引導學校注重內涵發展。區域學業質量評價為全市教學提供診斷和決策,找出妨礙區域學業質量提升的主要因素,做出影響學校成績差異的因素分析,并提出改進意見與措施,引導學校回歸到對人的教育的本源上來。
“測試+同步問卷”能促進學校進行精細化評價與管理,根據雙向細目表中的雙向要求,對知識掌握水平和能力層次結構進行精細化的評價與分析,通過問卷,對不能測量的認知領域進行精細化評價與反饋。當今,信息技術已經達到研究者要什么數據就有什么數據的水平,學業質量進行精細評價在技術上不存在障礙,精細化評價能發現細微的教學問題并提出針對性的改進措施,把教育導向卓越。
“測試+同步問卷”能提高教育行政部門和業務部門的指導水平。現代教育研究決策不能僅僅靠權威和經驗,更不能憑習慣和直覺,教師要學會使用數據來解釋教育現象,從數據中發現教育規律,這樣才能經得起檢驗。教研員對數據要有敏銳性,倡導利用數據分析來改善教學,要開展基于證據的教學研究與指導,利用數據進行科學闡述和合理解釋。問卷和測試相結合,在教學效益導向中,能計算投入與產出的有效性,促使學校用較低的成本達到同樣的結果,這需要教師改進教學方法,把課堂教學效益發揮到最大。
問卷是教育評價中最常用的收集信息的一種方法,所獲得的信息能用來進行定量分析,利用問卷了解師生對教學工作的反映。珠海市統一測試中,每一份試卷的最前面設置了同步常規問卷和同步學科問卷,同步的目的是為了使“問卷內容”與“測試內容”相適應,問卷內容要為測試內容服務,不能隨意設置,設置問卷之前應該有預先的邏輯假設和教育猜想,每次問卷突出一個主題。問卷均以選擇題形式呈現,數據出來后對假設和猜想進行論證和分析,充分地解釋分數的意義。表1是同步常規問卷編制的基本內容。
紙筆測驗只能對三維目標中的知識與技能進行較好的評價,過程與方法在某些科目中可以體現,情感目標則無法企及。學科同步問卷是學科教研員根據某個學段的教學需要,有針對性地選擇問題進行問卷設置,沒有統一的格式和內容要求。問卷設置的基本原則是不能用紙筆考試測量的學科領域可以用問卷的形式進行。如2013年7月珠海市七年級英語測試中的學科問卷,采集了學生對英語的興趣、學習英語的習慣、英語語音方面的主觀感受等情況,彌補了紙筆考試的缺陷。也可以根據英語學科的問卷結果,把具有高相關的某些選項的學生進行類聚,結合學生的測試成績進行相關分析,進一步探究影響英語測試成績的因素。也可以將各選擇項賦值,將選項數據化后判定學校英語教學的實際情況。
每次測試后的評價結果將按兩個方面反饋給學校。一是常規的成績反饋,測試結果反饋給學校不再是單科的某個分數,我們把測試成績標準化并指數化,提供全市各類常模,便于學校自主診斷與改進。評價結果多元等級呈現,根據學科雙向細目表中按知識和能力結構進行反饋,方便學校發現學科教學中的細節問題,更好地反哺教學,可從多維度觀察、評價與分析某所學校的優點和弱點,將高利害的分數變成群體大致位置和學校個性化成績報表,把測試帶來的副作用降到最低。

表1 同步常規問卷編制的基本內容
單純的測試成績反饋是無法達到對人的全面理解的,我們把問卷結果數據化,形成標準指數和常模,測試成績不能解釋的部分用問卷的形式來表現,問卷結果和測試成績相結合相互解釋與佐證,能大致反映出一所學校的辦學行為和育人目標。
如果評價方式簡單,只有卷面測試的分數,缺少相關因素分析,那么測試結果就會淪陷為高利害的排序工具。同步問卷與測試成績相結合能進行大量的相關分析,也只有進行相關分析才能彰顯問卷的價值和意義,促進家長和社會對教育的理解。例如,為了獲取學生成績與學業負擔之間的關系,我們設置問卷做相關分析,圖1是珠海市七年級約3萬名學生的測試成績與學業負擔的關系圖。
圖1 中橫坐標是學業負擔指數,主要調查學生的客觀學習負擔和主觀學習感受,是通過學生的睡眠時間、家庭作業量、在校學習時間和參加文化課補習情況等因素構成,賦值統計后,綜合形成的“學業負擔指數”,縱坐標是測試成績,由語文、數學、英語三科的總分構成。我們發現,成績并不是隨著學業負擔加重而增加的,學業負擔達到一定程度后成績上升的趨勢會趨緩,如果學業負擔過重,成績會不理想。大數據統計說明一個道理:學生要有一定的學業負擔的,但不能過重,所謂減負,是需要減輕學生過重的學業負擔。
問卷調查結果的真實性要低于訪談和測驗,學業質量評價是對學生學業達到的水平進行以群體為對象的質量評價。[3]區域學業質量評價的目的是要改進教學政策,對教育系統的整體評價,并將評價結果反饋給各學校,方便學校進行自主評價。基于過程的真實性評價是我區評價發展的主要趨勢,教研室提供各類數據常模,下移評價重心,激活微觀主體,學校根據常模和本學校數據對照,找出自己的差距并做自主診斷,旨在引導學校自主評價。評價要充分地相信校長,依靠校長自主辦學,以校為本,教研室在評價過程中的功能定位是為各學校做高端的技術服務,包括命題、問卷設計、統計、分析等測量技術支持,同樣,學校對每個教學班和學生也可以開出個性化的“學習處方”。
目前,我們設計的問卷僅僅局限于學生在考場臨場回答,為了拓展珠海市學業評價的內容,還要逐步開發校長訪談、教師問卷、家長問卷等來進行補充,通過全方位問卷更加全面準確地采集學業質量的形成途徑和測試分數付出的代價。如收集學校特征、校長辦學思想、教學環境、招生政策、生源流失、家庭教育、親子關系、家長教育子女風格等因素,更加完善對學業質量評價結果的科學解釋。如在2013年七年級第一學期期末測試時我們設置學生問卷:“本學期,你們班的綜合實踐活動課,是否被其他教師所占用?”表2是統計結果。

圖1 珠海市七年級學生測試成績與學業負擔關系圖
結果顯示,珠海市屬各學校間對綜合實踐活動課程的開設情況有顯著差異,公辦和民辦學校間也存在顯著差異,甚至,我們發現同一所學校班級間的課程開設也有較大的區別。那么要詳細地分析結果產生的原因,我們還需要對校長訪談和教師問卷來深入剖析,是校長對課程的執行力不夠還是師資配備短缺?是任課教師擅自更改課程內容還是綜合實踐活動課程資源有限?公辦和民辦學校之間課程執行力差異是不是由于辦學體制原因決定的?如何才能促進學校更好地開足開齊國家課程?這些猜想和假設都有待進一步分析研究,最終提供詳實的數據和案例供教育行政決策。
決定學業質量的因素非常多,這些因素相互交叉、互相關聯,我們通過同步問卷也只能找出一部分影響學業質量的相關因素,并且這些因素影響學業的程度到底有多大,哪些是主要因素,哪些是次要因素,哪些是無關因素,如何將這些因素一并考慮來綜合評價學校的教學質量,這都需要我們長期不懈地研究并及時調整。我們現在只研究了學校測試成績相當的情況下,控制測試分數這個變量的前提下來分析各學校的問卷結果,并給出相應學校的綜合判定。但是,測試成績相差較大的學校如何控制這些變幻莫測的變量并尋找它們之間的關系,即學業背景和學業負擔如何加權處理進行綜合評價,這是我們迫切需要解決的問題。
如表3所示,我們以學業負擔的某個指標為例,立才學校測試成績整體偏低,但學生睡眠時間較長,能否說明立才學校的學業質量是綠色的?立才學校的教育經驗值不值得推廣?同樣是公辦學校的珠海七中和南屏中學,測試分數差異顯著,學生睡眠時間也有較大差異,那么,在測試成績和學生睡眠時間兩個重要指標上,我們怎么綜合分析這兩個學校的教學結果?睡眠時間對測試分數的影響程度究竟有多大?都是我們面臨的艱巨而敏感的任務。況且,學業負擔因人、因教學方式而異,同樣的任務與內容,對有些人是負擔,對另一些人可能就不是;對于同一個人而言,采用一種學習方式和教學方式是負擔,采用另一種可能就不是。[4]那么,通過問卷獲取的“學生學業負擔過重”是不是客觀存在的事實?是學生主觀感受還是學校的教學行為引起的?這都是我們后續將要努力研究的內容。
我們的研究都是在試題和試卷編制科學的基礎上進行的,即測試分數能精確反映學生認知水平和能力等第,如果大前提失去信度,所有的統計和推斷都將失去價值,甚至背道而馳。因此,命題教師要努力研究基于課程標準的命題策略。課程標準是國家對基礎教育課程的基本規范的質量要求,規范了學業評價的設計理念,提供了評價的維度框架,限定了內容范圍和認知要求,基于課程標準的學業質量評價是進行國家層面教育質量監控的客觀要求。如果根據與課程標準不一致的評價結果而做出教育推論與決策,這種失去效度的評價對學校和學生都是極大的不公平。
但是,課程標準的文本表述過于粗放和籠統,只提供了內容標準而未清晰地表述學生的預期學習結果,命題教師不能準確界定學生學習結果所涉及的行為動詞的確切含義,這不僅影響教師對課程標準的執行,更影響試題編制工作。從課程標準到評價標準是一個艱難而復雜的過程,吸引了很多教師在不曲解課標政策的同時對其進行二次開發,用來滿足學業質量評價方面的試題編制與開發的需要。[5]▲
[1]熊志權,李自立.差異化考試的內涵與價值[J].基礎教育課程,2013(4):74-76.
[2]劉堅,劉紅云,張珊珊.數據能告訴我們什么——兼談學業質量分析的內涵與要點[J].人民教育,2008(12):36-39.
[3]王蕾.大規模考試和學業質量評價[M].北京:高等教育出版社,2011.
[4]喬錦忠.“減負”新路徑[J].人民教育,2013(21):33.
[5]楊向東.課堂評價促進學生的學習和發展[M].上海:華東師范大學出版社,2012.

表2 對課程的執行力情況調查結果統計

表3 不同學校間睡眠時間與測試成績結果統計