綜觀國內外教育質量監測項目,其監測對象與內容,以及在抽樣方式的選擇等方面均有較大的一致性。該項目的監測目標大多關注四年級和八年級的學生;在監測內容上,大多關注閱讀能力、數學能力和科學能力,或有所側重或全部監測;不僅客觀測量教育質量本身,還關注造成不同質量狀況的影響因素。同時,質量監測還關注課程標準提出的三維目標,除了監測學生的知識、技能外,還關注過程、方法,并盡最大可能地實現對情感、態度、價值觀的關注,以利于找到教育進一步發展的動力和教育質量不斷提高的途徑;在抽樣方式上大多采取分階段、分層抽樣的方式進行。這些通常的做法對我們開展雙語教學質量監測無疑具有較大的啟發。
一、國內外基礎教育質量監測基本情況
教育質量監測是發展基礎教育、提升教育質量、促進教育均衡發展和學生全面發展的一項基礎性工作。國外教育測評項目有國際比較項目、國家監測項目、地區監測和評價項目等不同層次、不同類型,比較有影響的項目有TIMSS、PISA、NAEP和NEMP等。
TIMSS是國際數學與科學趨勢研究。它由國際教育協會(1EA)組織和實施,評價各國學生對課程的掌握情況,為各國提高數學和科學教育質量提供建議。自1995年開始,每4年測試一次,測試對象為四年級和八年級學生,主要是監測學生的數學和科學能力。
PISA是國際學生評價項目。它由國際經合組織(OECD)組織和實施,評價各國即將完成義務教育的學生面向未來生活、應對知識化社會挑戰的準備情況,從而評價各國基礎教育系統的產出效果。測試對象為15歲的在校學生(不論其在哪個年級),從2000年開始,每3年測試一次,主要監測學生的閱讀、數學和科學能力。
NAEP是美國教育進步評價項目,也是美國國家教育質量監測項目。它從1969年開始就已經成為了一項常規性的全國教育測評項目,測試對象為四年級、八年級和十二年級學生,每4年測試一次。目前,該評價項目主要測試學生的科學能力。
NEMP是新西蘭國家教育監測項目,創立于1993年,每年選擇一定的學科,周期性地監測各學科的教育質量,測評的對象為四年級和八年級的學生。
TIMSS和PISA是試圖比較不同國家學生在校教育期間的學業表現,并比較不同國家(或經濟體)基礎教育的發展情況。NAEP和NEMP的目的是提供詳細的數據和信息,對本國不同區域、不同類別的學生群體的學業成績進行縱向和橫向比較,以全面了解國家教育質量的變化情況。
我國基礎教育質量監測始于2007年,每年實施一次,監測年級為四年級和八年級。目前,已實施了5次,是在國家“兩基”攻堅基本完成以后,國家基礎教育轉向內涵發展階段,由注重規模轉向注重質量,注重教育的公平發展、學生的全面發展和終身發展以及國外普遍開展教育質量監測的背景下逐步開展起來的。它是由教育部基礎教育質量監測評價中心和相關省、市合作組織實施,依據國家基礎教育質量監測評價工作的整體進程和安排,分年度、分領域實施全學科監測。監測內容除學生學業成績測試外,還包括學生的德、智、體、美各個方面及其影響因素。
二、國內外基礎教育質量監測的經驗
教育質量監測包含抽樣、監測工具研發、監測實施、數據清理、形成報告等幾個主要環節。
1.抽樣方案
抽樣是教學質量監測中非常重要的一個環節,是從組成某個總體的所有元素的集合(N)中,按照一定的方式選擇或抽取一部分元素(n)的過程,或者說是從總體中按照一定的方法選擇或抽取樣本的過程。抽樣的最基本的作用就是給人們提供一種“由部分認識整體”的途徑。國內外常見的抽樣方式主要有簡單隨機抽樣、系統抽樣、分層抽樣、不等概率抽樣、多階段抽樣等幾種。國外教育質量監測是根據不同情況分別采取不同的抽樣方式。
國內外監測項目在抽樣目標總體、抽樣方式和總體單元的確定上大同小異,有的以學生為抽樣單元,有的以某一年級學生為目標總體,有的以學校、班級為單元,等等。
PISA采用的是兩階段分層抽樣方式,運用外部分層指標將總體分成不同的子總體。第一階段的抽樣單元是為所有包含15歲學生的學校,列出所有包含15歲學生的學校名稱,統計每所學校15歲學生的人數,每所學校抽中的概率為這所學校15歲學生人數占國家總15歲學生人數的比例。第二階段的抽樣單元是為抽中學校的學生,列出第一階段抽中學校的所有15歲學生的名單。其抽樣的目標總體為在該國家接受教育的15歲學生,所在的年級為7年級或以上。它包含15歲接受全日制教育的學生;15歲接受非全日制教育的學生;15歲接受職業教育以及其他相關的教育系統的學生;國內接受外籍學校(國際學校)教育的學生;來自其他國家在本國接受教育的學生。它不包含不在學校上學,接受家庭教育的15歲青少年;已經參加工作的15歲青少年;在國外的15歲青少年。同時,排除因智力障礙無法完成測驗的學生(需要專業判斷)、因身體功能性障礙(永久性身體殘疾)影響測試的學生和無法采用測試所用語言回答問題的學生。
TIMMS是采用兩個階段分層抽樣。第一階段是在全國范圍內抽取學校采用的系統分層(PPS)方法,分層依據因各國具體情況而異,各層次均使用系統(隨機起點,固定間隔)PPS抽樣方法來抽取學校樣本。第二階段是在學校抽取的班級中采用簡單隨機抽樣的方式進行。
我國教育部基礎教育質量監測評價中心在天津市、遼寧省、浙江省等八省區開展的基礎教育監測的目標總體確定為四年級和八年級學生,基本采用的是三階段抽樣設計或兩階段抽樣設計。三階段抽樣設計以區縣為初級抽樣單元,兩階段抽樣設計以學校為初級抽樣單元。
2.監測內容
根據國內外的研究發現,閱讀能力、數學能力和科學能力是影響學生全面發展和終生發展的主要因素。所以,目前國內外基礎教育質量監測在學科的選取上大多傾向于這三個方面的能力監測。有的重點監測某一門學科或某兩門學科,如TIMMS主要監測學生的數學和科學能力;NAEP主要測試學生的科學能力;PISA是對學生的閱讀、數學和科學能力進行全面監測;有的采取周期循環的辦法監測全學科,如NEMP每年選擇一定的學科,周期性地監測各學科的教育質量。目前,在國內開展的基礎教育質量監測也是采取這一辦法,即每年選取一到兩門學科進行監測,逐漸實現全學科監測。從監測的實施上看,有的采取綜合測試,即把學生的幾種能力結合在一起進行監測,如PISA,有的是按學科分別監測,對科學能力的監測基本采用綜合監測的方式。
3.監測工具的研發與編制
監測工具研發是教育質量監測的核心內容,工具質量的高低,直接影響監測數據的可靠性和科學性。同時,監測工具的研發與編制也是一個非常龐大的系統工程,需要由專業教師、教育測量、命題和數據統計等各方面的專家共同組成一個多元結構的專家團隊才能完成。另外,監測工具的研發、編制還是一個非常復雜的過程,它包含分析課程標準、明確測量目標和行為目標,并確定指標體系,組織命題、審題、修訂試題、形成題庫等較為復雜的環節。
教育質量監測的工具(紙筆測試)包括外部形式和內部構成兩部分。外部形式包含指導手冊、測試卷(試卷和問卷)、答題卷等;內部構成包含測量系統(測試指導、測試題、答卷)、評價系統(記分鍵,計分方式,常模與分數解釋)、質量參數(取樣構成、項目參數、信度、效度)等。
PISA的測試指標、測量工具是由參與國委員會負責確定,其開發與實施不但需要先進的教育理念引導,還需要由心理測量理論、教育評價技術、數理統計方法等專業系統支撐,并由專業考試與評價機構依據標準化的流程研發繼而實施。NAEP主要是由教育考試服務中心(Educational Test-ing Service,ETS)負責題目開發、考試工具設計和數據分析報告。國內的基礎教育質量監測評價項目主要是由教育部基礎教育質量監測評價中心組織專家研發編制。
4.監測報告
監測報告是反映教育質量監測成果的一種書面報告,它是以文字、圖表等形式將監測的過程、方法和結果表現出來,引起人們的重視和進一步思考,為有關政策的制定提供參考依據。根據監測結果形成的報告并對教育產生影響,是整個教育質量監測的終極目標。撰寫監測報告的目的是了解監測的過程、方法和內容,體現監測的科學性,了解監測的結果,對現實中的重要問題提供分析的依據。
一是監測報告的主要類型有專題類報告、綜合類報告和基礎類報告三大類。其中,專題類報告包含專項報告、專項結果簡報、咨詢報告等;綜合類報告包含學科報告、結果摘要報告等;基礎類報告包含論證報告、技術報告、基礎數據報告等。
二是各類人員對監測報告的選擇。根據監測的最終目標,教育質量監測報告需要提供給不同人員。行政領導主要關注專項報告、專項結果簡報、咨詢報告等;專業研究人員主要關注論證報告、技術報告、基礎數據報告等;校長、教師主要關注專項報告、專項結果簡報、學科報告等;家長、公眾主要關注專項結果簡報、結果摘要報告等。
三是監測報告作為一種專業的報告,其撰寫應該體現這些特點:①科學性,它要求觀點正確、材料可靠,以事實為依據;②創新性,它要求關注新動向、新問題,提出新觀點,形成新結論;③規范性,它要求寫作規范、邏輯合理,表達簡潔;③針對性,它要求目的明確、主題清晰,有的放矢;⑤時效性,它要求及時捕捉信息,及時反饋;⑥可讀性,它要求語言闡述精確、通俗易懂。
根據監測的目的,針對監測結果中的某些具體問題,我們還需要進一步跟蹤研究,還要繼續撰寫相應的專題報告。
三、我國某些地方開展雙語教學質量監測的實踐
下面以新疆為例,根據新疆雙語教育實際,選擇小學四年級和六年級雙語班和普通班學生為監測目標總體,以班級為抽樣單元,采取分層抽樣和隨機抽樣相結合的方式確定樣本,以漢語能力監測為突破口,逐步延伸至數學和科學能力的監測。該監測符合國際通行做法,同時也符合新疆的實際情況。
1.實施監測的背景
為大力提高新疆少數民族教育質量,培養民漢兼通少數民族人才,增強各民族青少年的國家意識和對中華民族的認同感以及各民族之間的溝通與交流,自治區黨委、人民政府作出《關于大力推進“雙語”教學工作的決定》,印發《關于加強少數民族學前“雙語”教育的意見》,決定在新疆全面實施民漢雙語教育。經過幾年的努力,新疆雙語教育規模迅速擴大,涵蓋學前、小學、初中和高中的雙語教育體系初步建立,雙語教育取得了喜人的成績。截至2010年9月,學前和中小學接受雙語教育和民考漢的少數民族學生達到119.87萬人,占學前和中小學少數民族學生的48%。其中,接受學前雙語教育和民考漢的少數民族幼兒達到37.16萬人,中小學接受雙語教育和民考漢的少數民族學生達到82.71萬人,占中小學少數民族學生的38.9%。
但在雙語教育推進取得成績的同時,雙語教育質量問題也日益成為人們關注的焦點。大家普遍感到,當前雙語教師教育教學行為、教學效果同高質量的要求還有較大差距,雙語教育質量的提升同雙語教育發展速度、規模還不適應,還不能滿足各族群眾的期盼和少數民族學生全面發展的需要。廣大教育工作者迫切希望能夠用較為科學的方式客觀分析,把握目前雙語教育質量的實際狀況并著手解決當前面臨的問題。
正是在這樣的背景下,自治區成立了雙語教學質量監測評價中心,并與教育部考試中心密切合作,共同組織實施了新疆首次覆蓋7個地州,50個縣市的漢語教學質量監測。測試方式采取“MHK考試+學生問卷及教師、校長問卷”的方式進行,監測對象為小學四年級、六年級雙語班和少數民族普通班部分學生。此次監測旨在了解和掌握自治區小學漢語教學質量的現狀和水平,分析和研究有效提高雙語教育質量的途徑和方法,為自治區雙語教育工作科學決策、全面提高雙語教育質量提供有力依據,促進全區雙語教育工作積極、穩妥、有序地發展。
2.監測的組織實施
本次監測由教育部考試中心負責測試工具開發、數據清理及分析,新疆雙語教學質量監測評價中心協助,完成前期抽樣準備、測試安排、監測數據收集分析等工作。
根據設計方案,自治區確定了抽樣方案,完成了樣本數據信息的收集;相關命題專家在自治區進行了專題調研,組織開展了各地州縣市監測工作人員的業務培訓,做好了考場、考點、監考等相關測試工作的安排和準備;組織實施了MHK考試和學生問卷調查、教師問卷和校長問卷,并完成了數據清理和報告撰寫。
3.監測的基本原則
為保證監測工作的科學性、監測結果的可靠性及監測工作長遠發展的需要,根據新疆雙語教育發展的實際情況和工作實際,按照國際、國內教育質量監測項目的通行做法,本次監測的實施堅持了以下幾個基本原則。
一是先實驗后推廣。教育質量監測工作在新疆尚屬首次,沒有太多的經驗,為保證工作的順利進行,以及能夠有效積累經驗,使今后少走彎路,第一次監測只選擇部分縣市(7地州50個縣)、小學段中的兩個年級(四年級和六年級)進行抽樣監測。
二是確保工作的規范性。過程的規范是保證結果可靠、科學的基礎。因此,所有的抽樣均采取自上而下的方式進行,即由監測評價中心根據新疆相關統計數據確定樣本縣、樣本校及樣本班;抽樣方式采用通行的規范抽樣方法,保證抽樣結果不受人為因素干擾,保證抽樣的代表性。
在組織測試過程中,為保證數據的準確性,各個環節,均嚴格按照監測工作相關要求進行。在試卷的印制、運送、保存到試卷的開封、發放、銷毀等各個環節完全按照MHK標準進行,確保了試題的保密性。在監測考試及問卷過程中,新疆向每個地州分派了兩名巡視員進行監督,各地州縣市也相應地向各考點安排了1~2名巡視員。
三是對比與跟蹤相結合。通過對比和跟蹤可以更為全面地了解學習成效。為此,新疆選擇四、六兩個年級的雙語班和少數民族普通班作為監測對象。一方面把雙語班與普通班進行了對比,另一方面對四年級進行了跟蹤監測。四年級雙語班數量較多,從監測角度來看代表性較強,也比較適合做跟蹤監測。六年級是小學畢業班,和MHK一級測試要求相對應,可以使用MIlK一級試卷檢測其漢語學習成效。
四是保證抽樣的科學性、代表性。地區、城鄉之間的差異是反映全區各地不同類型雙語教育全貌的。在樣本地區、樣本縣的選擇上,新疆參照國際項目的具體做法,選擇南疆的喀什、阿克蘇、克州、吐魯番和北疆的伊犁、塔城和昌吉7個地區的50個縣作為樣本縣(7個地區中只有塔什庫爾干縣和奎屯市因雙語學生太少未納入樣本縣,其他縣市全部納入抽樣范圍)。
在各縣樣本班數量的確定上,采用的是分層等比例抽樣法。第一步,每個縣四、六兩個年級雙語班和少數民族普通班均按照總班數的20%進行抽樣,以確定每縣每個年級抽樣總數;第二步,每個縣根據城區、鄉村所占比例確定在每個縣市城區和鄉村樣本班的具體數量。在樣本班選擇上,采用隨機抽樣的方式,即根據每個縣已確定的城鄉班級數以隨機的方式確定具體班級。
通過上述規范的抽樣,力求全面反映新疆雙語教學的整體情況。抽樣結果為,7個地州四年級共抽取樣623個,學生20263名,涉及學校331所。本次監測小學四年級學生20263人,小學六年級抽取樣本班597個,學生18908人,涉及學校302所。
五是從實際出發。完整的MHK應包括聽力、閱讀、寫作和口語表達四個部分,因考慮到考點大部分在農村,難以滿足口語考試對設備的需求,所以本次測試暫未進行口語表達一項的測試。
4.監測報告的撰寫
根據監測的目標,該區委托教育部考試中心等部門完成監測報告的撰寫,在總體報告的基礎上,新疆雙語教學質量監測評價中心將根據當地實際需要在總報告的基礎上撰寫其他分報告。同時,還將根據監測到的情況,逐步開展后續補充調研,形成更具專題性的報告。
作者單位均系新疆雙語教學質量監測評價中心
(責任編輯 羅登廉)