一、問題提出
綜合課程深化改革與實施中希望根據\"兒童學習\"動態建構課程,這需要教師藉日常課程實施情境中觀察評價兒童表現(不能依賴量表)調適課程和生成后續課程。因此,在課程實施中教師需要一套在本園綜合課程框架與情境下建構起來的兒童發展參照指標體系。兒童發展評價是學前教育工作中的重點和難點,它是依據兒童教育目標以及與此相適應的兒童發展目標,運用教育評價的理論和方法對兒童身體、認知、品德與社會性等方面的發展進行價值判斷的過程[]。2001年,教育部印發《幼兒園教育指導綱要(試行)》,強調學前兒童發展評價是了解教育適宜性、有效性,調整和改進教育工作,促進每一個兒童發展,提高教育質量的必要手段。隨著時代發展,形成性評價的重要性日漸凸顯。2020 年以來,中共中央、國務院與教育部相繼發布《深化新時代教育評價改革總體方案》《中國兒童發展綱要(2021—2030年)》《幼兒園保育教育質量評估指南》等,明確要強化過程性評價,綜合發揮評價的導向、鑒定、診斷、調控和改進作用。
建構清晰的評價指標體系,且轉化為教師觀察理解兒童行為的內在參照標準是評價實踐的關鍵。1983年起,(下文簡稱“實幼”)率先在全國開展“幼兒園綜合課程\"改革,20世紀90年代從“動作與健康”“語言與認知”“情感與社會性”三大塊面,自主建構“三原色”兒童素質發展目標。隨著《3\~6歲兒童學習與發展指南》(下文簡稱\"《指南》\")的頒布,21世紀育人期待的更新,原有目標體系已無法滿足當下園所兒童發展的需要,且大部分教師只是目標的執行者,對自上而下既定的目標體系理解和認同也存在困難,難以轉化為科學評估兒童的內在標準。這是幼教界普遍存在的困境。教師評價時常常依據自身主觀意識、經驗、認知方式及期望等“另一套\"經驗化的、零散的標準開展評價[2,缺少對標符合實際情況的科學評價體系的意識,沒有運用科學的評價工具,導致評價的片面與刻板[3]。
一些國家和地區已形成較成熟的目標體系。在教育理論方面,多元智能理論強調關注兒童多智能領域表現,尊重個體智能組合差異,實施持續動態評價[4]。全人教育理論主張從多維度綜合評價兒童認知、情感、社交、品德[5]。主動學習、深度學習等多種教育理論,強調評價的過程性、情境性、個性化、動態性、整體性,要關注兒童主動活動與主動學習,注重讓兒童在與周圍環境互動的過程中構建知識]。在目標內容組織上,國際知名的學前兒童學習與發展評估工具COR,將目標分為學習品質,社會性和情感發展,身體發展和健康,語言、讀寫和交流,數學,創造性藝術,科學和技術,社會學習,英語語言學習9個維度,設8個連續發展水平層級,助力個性化教育干預7?!吨改稀窂慕】?、語言、社會、科學、藝術等5個領域建構目標,針對不同年齡段提出發展期望。山西省幼兒教育中心研制的《3\~6歲兒童發展評估工具》(2016),從7個領域評估,將學習品質與數學領域單列[8]。
綜上,當前國內外綜合課程的目標評價指標體系包括了兒童全面發展,涵蓋學習品質、個性與社會性、語言、健康與運動、藝術、數學、科學與技術等多方面。但還應考慮兒童發展的個性化、動態性、整體性,制定“去年齡化\"的連續性發展水平等級體系。雖然幼教領域不乏評價指標,但是多自上而下制定,大多數一線教師作為執行者對目標的理解與內化存在困難。由此,組織全體教師參與目標體系重構,以期形成指向完整兒童發展的科學的發展目標及評價參照指標,從根源上解決教師目標理解的難點,支持教師將其轉化為觀察評價的內在視角。
二、形成性評價參照標準的建構方法及過程
(一)行動研究
從2019年9月起,實幼利用2年時間,組織全體教師協同反思,共研共建兒童形成性評價參照標準,即“五維”兒童素質發展目標,并持續通過實踐來反哺參照標準的研制。目標建構采用U-G-S,即“大學-政府-中小學(university-govermment-school)”協同模式,在《幼兒園教育指導綱要(試行)》《指南》等國家綱領性文件引領下,匯聚高校專家智慧及一線教師實踐智慧共研。
目標建構主要可劃分為兩個關鍵階段:一是基于文獻分析以及自身經驗整合的評價參照標準框架搭建階段。在此階段,教師深入剖析相關領域文獻資料,全面梳理并融合自身過往所積累的各類經驗,搭建起一套相對完整且具有科學性的評價參照標準框架,目標框架下蘊含5大維度,14個子維度,36個關鍵經驗,每條關鍵經驗下進行發展目標描述。為了確保對目標理解的一致性,教師結合自身教學實踐經歷回溯到能體現目標的兒童學習與發展案例中,在36個關鍵經驗下,描述發展目標發展進程中的3個臺階,每個臺階下又細化出若干條“典型表現”,增強教師對兒童學習與發展情境的敏感性。此外梳理出每條目標中兒童進階的“發展脈絡”,幫助教師明晰目標進階的一般方向。
二是以真實情境中目標的使用狀況以及結果反饋為重要依據的參照標準修正完善階段。在這一階段,教師以日常生活中兒童的真實表現和典型情境為依據,充分考量應用過程中所呈現出的種種表現以及所產生的各類結果,持續反思目標的全面性、科學性。這一階段,主要通過教師日常觀察實踐、每周的班組評價例會、每兩周一次的全園課程組教研三層次活動檢驗目標框架。在兒童學習和游戲的真實場景中,教師觀察群體及個體兒童的行為表現,以初步搭建好的“五維”目標框架為參照,研判幼兒行為背后的學習與發展意義,以及框架是否能涵蓋兒童發展的關鍵經驗、表述是否適切,并依據這些反饋信息對目標框架進行修正與完善,使其能夠更加契合實際需求,具備更高有效性。在這一階段,針對教師在評估中出現的問題,按照個體教師—班組教師一全園教師的聯動模式,在不同范圍內協同審議,尋求解決策略,達成共識。同時,通過課程組教研觀摩兒童活動現場,不同教師對同一情境下的兒童行為表現進行研討,糾正評價感知中的認知偏差,并協同補充能體現目標的“評價案例”,幫助教師在生動、多樣、復雜的教育情境中,達成對目標理解的具象化、準確化,使目標更具實操指導價值。
經過兩輪的框架修正,實幼確定了綜合課程目標體系的初步框架,形成了“學習品質與創造”“運動與健康”“語言與認知”\"個性與社會性”“審美與表現\"5大維度,下設14個子維度,36個關鍵經驗的“五維”兒童素質發展目標體系,并且根據兒童在每一個關鍵經驗上發展的方向與規律,在每一個具體目標下都設定了3個發展臺階(I、ⅡI、II),補充出“發展脈絡”“典型表現”“評價案例”。
(二)德爾菲專家意見征詢
德爾菲法(Delphimethod)又被稱為\"專家調查法”,被認為是一種可靠的定性研究方法,主要是指按一定的程序,采用匿名的方式收集專家意見,之后經研究者的客觀分析,進行多輪征詢和反饋,最終使專家意見逐漸趨于一致,從而得出科學合理的預期結果的方法。
在本研究當中,我們首先建構了形成性評價參照標準。在此基礎上,采用德爾菲法對目標體系展開驗證工作。以專家對該體系的認同度來反向證明評價參照標準的合理性,并依據反饋結果不斷對參照標準進行修正。
1.意見征詢對象
專家的選擇直接關系到征詢意見結果的科學性與準確性。在選擇德爾菲專家時,需要考慮參與者的專業背景、工作經歷、判斷力等相關因素,參與者應該十分了解學前領域對兒童發展的評價,擁有自己的見解,或者是在兒童教育一線教學的教師,擁有進行兒童發展評價的能力9。綜上,本研究將專業背景、工作經歷、評價經驗等作為專家選擇的標準,兼顧理論與實踐層面。征詢結果分析顯示,專家權威程度為 CR=0.85(gt;0.7) ,專家積極系數為 100% ,指標數據表明本研究的專家征詢結果可靠,可繼續開展后續分析。
對于德爾菲專家人數的選擇,有學者指出:“專家人數過多,不利于數據分析和專家意見協調?!盵0]當專家人數達到13及以上時,誤差降幅不明顯[]。因此,本研究采取非概率\"主觀抽樣\"的方法,從高校、教研機構、園所中邀請29位征詢專家,他們主要從事學前教育、教師教育等學科專業研究(專家基本信息詳見表1)。

2.征詢問卷的編制
針對本研究的評價指標體系編制第一輪專家意見征詢問卷,采用李克特五點計分法,具體為:“非常不重要\"到“非常重要\"五個等級,依次計1\~5分,得分越高表明指標在評價體系中的重要性越高。專家需要對各級指標的重要性、判斷依據和對調查內容的熟悉程度按賦值標準進行打分。第一輪專家意見征詢問卷以網絡問卷形式發放。本輪共發放29份專家問卷,有效問卷29份,問卷的回收率和有效率均為 100% ,專家積極系數 p=100% ,指標數據表明專家組成員對本研究的參與積極性非常高。
在分析第一輪專家意見征詢結果的基礎上綜合專家意見對初建指標進行修訂,再編制第二輪專家意見征詢問卷,對修訂后的各級各項指標的“重要性”予以評定,第二輪專家意見征詢問卷仍采用李克特五點計分法,分為\"非常不重要\"到\"非常重要\"五個等級,依次計1\~5分,得分越高表明指標在評價體系中的重要性越高。第二輪專家意見征詢問卷再次以網絡問卷形式發放。本輪共發放 29 份專家問卷,有效問卷29份,問卷的回收率和有效率均為 100% ,專家積極系數 p=100% ,指標數據表明第二輪專家組成員的參與積極性非常高。
3.意見征詢情況(1)第一輪征詢結果
通過分析第一輪回收的數據并根據專家修改意見對指標進行修訂,以均值、差異系數和滿分率為篩選、確定指標和標準的統計量。均值表示專家對該指標的認可程度,值越大認可程度越高;差異系數說明專家對該指標相對重要性的波動程度或者說是協調程度,值越小表明專家們的協調程度越高[2;滿分率是對該指標完全認可的專家比例。首先是一級指標的征詢結果分析與修訂。從集中程度來看,5項一級指標的均值處于 4.75~5.00 之間,眾數大于4.75,總平均值為4.66,大于4.50;從分散程度來看,5項一級指標的標準差處于0\~0.51之間,均小于標準數值1;從專家意見協調程度來看,變異系數處于0\~0.11之間,均小于標準數值0.25?!罢Z言與認知”和\"審美與表現\"的滿分率均為 79.31% “學習品質與創造\"滿分率為 93.1% ,“運動與健康\"滿分率為 100% ,“個性與社會性”的滿分率為 89.66% ,由此可見,專家意見協調程度較高,保留所有一級指標,同時根據專家提出的修改建議對指標名稱進行修改:將“運動與健康”修改為“健康與運動”,突出健康是幼兒發展的第一前提,是一切運動的最終旨歸;將“語言與認知”修改為“認知與語言”,突出認知對兒童發展的重要作用,強調認知引領語言發展,語言促進認知提高。
其次是二級指標的征詢結果分析與修訂。數據顯示,二級指標的平均值處于 4.66~4.97 之間,總平均值為4.796,大于4.50;從分散程度來看,14項二級指標的標準差處于 0.19~0.55 之間,均小于標準數值1;從專家意見協調程度來說,變異系數處于 0.04~0.12 之間,均小于標準數值0.25。二級指標的滿意率大多都在 75% 以上,低于該數值的指標分別為\"運動與健康\"下的\"動作發展”,滿意率為 72.41% ,“審美與表現”下的“感受與欣賞”,滿意率為 68.97% ,由此可見,專家意見協調程度較高,保留所有二級指標并根據專家修改意見將“認知與語言”下的指標順序從“語言發展”“科學探究”“數學思考\"調整為“科學探究”“數學思考”“語言發展”。
最后是三級指標的征詢結果分析與修訂,首先專家對“不在‘學習品質與創造'的二級指標中進行三級指標添加\"的決定表示贊同,認同學習品質是高度概括且對各領域具有引領作用,認同學習品質不應該過于細碎導致與其他領域交叉,背離學習品質理念,因此三級指標共有36項。從數據的集中程度方面來看,三級指標的平均值處于4.31\~4.72之間,總平均值為4.56,大于4.50;從分散程度來看,36項三級指標的標準差處于0.8\~0.98之間,均小于標準數值1;從專家意見協調程度來說,變異系數處于0.17\~0.22之間,均小于標準數值0.25。36項三級指標的滿分率均在 50% 以上,專家意見協調程度較高,保留所有三級指標,同時根據專家建議,將“健康與運動一生活習慣”下的“生活衛生”修改為“衛生習慣”,達到增強三級指標針對性的目的。
(2)第二輪征詢結果
經過對第一輪專家征詢結果的分析,明確指標描述需要更加具體易懂,此外要提高兒童本位屬性,后續對指標順序進行調整,對部分指標名稱進行修改,形成了5項一級指標、14項二級指標、36項三級指標,再發放第二輪問卷。第二輪數據的分析結果顯示:一級指標的標準差處于0.31\~0.51之間,均小于標準數值1,平均值處于4.76\~4.90之間,總平均值為4.808,變異系數處于0.06\~0.11之間,均小于標準數值0.25;二級指標的標準差介于0\~0.38之間,均小于標準數值1,平均值在 4.83~ 5.00之間,總平均值為4.928,變異系數處于0\~0.08之間,均小于標準數值0.25;三級指標的標準差處于0\~0.44之間,均小于標準數值1,平均值處于4.76\~5.00之間,總平均值為4.902,變異系數處于0~0.09 之間,均小于標準數值0.25。上述統計指標數據表明在第二輪專家意見征詢中,專家對各級各項指標均有較高的認可度。
當專家共識率高于 80% 時,表明專家已達成共識,此時可以考慮結束德爾菲專家意見的證詢[13]。本研究將專家選擇“非常重要”和“重要\"均視為專家對該指標的認可。因此當這兩項所占比例之和達到 80% 及以上,且標準差小于標準數值1時,則通過專家一致性。經過兩輪專家意見征詢后,專家對
5項一級指標的共識率為 5/5=100% ,14項二級指標的共識率為 14/14=100% ,36項三級指標的共識率為 36/36=10% 。由此可見專家對各級各項指標的認識高度一致,無須進行下一輪專家意見征詢,結束德爾菲專家意見征詢,最終確立兒童發展評價目標體系(一級、二級、三級指標見表2,末列是對3\~6歲兒童在關鍵經驗下的發展目標描述)。

本評價參照標準體系的使用范圍既涵蓋作為建構主體的實幼,也包括踐行綜合課程、開展兒童發展評價及致力于通過評價提升課程質量的其他園所。不同園所的兒童發展狀況不盡相同,因而個別指標是否需要刪減、增加或調整,還需要在對關鍵經驗普遍認同的基礎上,在更大范圍進行征詢,讓評價參照標準體系更具普適性。
參考文獻:
[1]郭雄偉.我國幼兒發展評價研究綜述[J].河南科技學院學報,2011(1):94-96.
[2]郭良菁.社會認知視野中的兒童觀察評價[M].:師范大學出版社,2020.
[3]李克建,陸浩.學前教育質量評價工具的演進路徑與未來趨勢[J].學前教育研究,2023(2):1-11.
[4]郅姣姣.論加德納多元智能理論與幼兒整體教育觀[J].教育觀察,2021,10(12):51-52,57.
[5]巫蓉.全人教育視域下幼兒園園本課程的構建[J].學前教育研究,2019(12):90-93.
[6]董璐瑤,張曉梅.學前兒童核心素養的培養目標及策略[J].黑龍江教育學院學報,2019,38(2):93-95.
[7]霍力巖,陳雅川,周彬.美國學前兒童觀察記錄系統的評價內容、實施方法與借鑒意義[J].中國特殊教育,2015(1):63-67.
[8]趙立,薛佳寅.學前兒童身心發展評價工具述評[J].杭州師范大學學報(社會科學版),2024,46(3):80-89.
[9]王萍,陳萬針.幼兒園區域活動質量評價指標體系的構建與初步應用[J].學前教育研究,2022(12):55-74.
[10]MATTD,PENNY SB.The utilityof the Delphi method in MFT research[J]. The American journalof family therapy,2001,29(2):125-140.
[11]MITCHELL V-W. The Delphi technique: an exposition and application[J]. Technology analysis amp;strategicmanagement,1991,3(4) :333-358.
[12]王春枝,斯琴.德爾菲法中的數據統計處理方法及其應用研究[J].內蒙古財經學院學報(綜合版),2011,9(4):92-96.
[13]武麗志,吳甜甜.教師遠程培訓效果評估指標體系構建:基于德爾菲法的研究[J].開放教育研究,2014,20(5):91-101.
Construction of Evaluation Index System for Children's Development under the Background of Comprehensive Curriculum Implementation in Kindergartens ZHANG Li,XIA Pingping,SHI Hui
(Nanjing Experimental Kindergarten,Nanjing 21oo24 China)
Abstract:A clear evaluation goal system isthe crucial factor for teachers to conduct formative assessment. Currently,the evaluation goal indicators of kindergarten integrated curriculum can’t fuly meet thecurrent educational needs,and face problems like the internal reference standards for teachers to evaluatechildren are vague.To solve this,this study firstbuilta“five-dimension”child quality development goal which is formative assessment reference standard via action research method.Then,after two rounds of Delphi methodvalidationand revision,five first-level indicators(\"learning qualityand creativity”,“healthand physicaleducation”,“cognition andlanguage\",“personality and sociality”,and“aesthetics and expresion”), 14second-level indicators,and 36 third-level indicatorswere finalized.In the future,continuous efforts through teaching and daily practice are needed to transform these into teachers’internal perspectives for observing and assessing children,improving evaluation quality,and promoting currculum practice based on assessment.
Key words:the comprehensive curriculum;formative assessment;evaluation indicators
(責任編輯:劉向輝)