




[摘 要] TIMSS是當今最具國際影響的評價項目之一,1995年至2007年進行了4次。本研究以歷年科學學科的試卷為樣本,從測試評價的具體內容、框架結果進行量性和質性的比較分析,歸納其評價的趨勢,以期為我國科學教育的教學和評價提供一些啟示。
[關鍵詞] TIMSS;科學;評價;趨勢
[中圖分類號] G71[文獻標識碼] A[文章編號] 1672-1128(2010)12-0028-07
一、研究背景及其意義
TIMSS(Trends in International Mathematics and Science Study,國際數學及科學趨勢研究)是由國際教育成就評價協會(International Association for the Evaluation of Educational Achievement,IEA)主辦的國際比較研究,其規模大、影響深遠、設計嚴密,是當今最具國際影響的評估項目之一,旨在通過測試及問卷調查,評價在數學和科學學科中學生(4年級、8年級)學業和教師教學的情況,從而了解影響學習和教學質量的因素,進而調整并改善教學的環境和質量。TIMSS自1995年始至2007年已進行了4次,每4年測試一次,在其發展過程中不斷調整改進,還曾進行過更名。1995年實施之初的TIMSS研究(The Third International Mathematics and Science Study)集中于三個年級段:小學中段(3、4年級)、初中中段 (7、8年級)和中學最后一年級(美國為12年級);1999年進行了TIMSS―R(The Third International Mathematics and Science Study―Repeat),研究對象為 8年級學生;在2003年,TIMSS更名為“國際數學和科學趨勢研究”( Trends of International Mathematics and Science Study),測試4年級和8年級學生數學和科學學科成就的發展趨勢,參與國家和地區已多達46個。
基于我國科學教育及其評價在不斷發展中的迫切需求,針對學生科學學業評價,本研究以測試卷為切入點,以具體題目為載體,深入剖析,縱觀12年來開展的4次國際評估,以時間為縱軸,以8年級公開的測試卷內容、結構為橫軸,連續、系統、有機地對國際科學教育評價的趨勢進行比較研究,以期為推進我國科學教育學生學業評價改革,提高教育質量,促進教師專業發展提供有益的借鑒和啟示;為豐富、完善我國科學教育評價體系提供大量、充分的國際比較研究數據;為我國科學教育評價提供參考和借鑒;同時有助于我國科學教育評價理論研究工作的深入,也為一線教師和教研人員的教學、科研和管理工作給予切實可靠的支持和幫助。
二、整體研究
1.內容結構的變化
TIMSS中科學學科的測評試卷的評估框架由兩個維度組成——認知維度和內容維度,每個維度涉及不同的領域和層級。科學內容維度主要有生命科學、化學、物理、地球科學、環境科學和科學本質等。科學認知維度為:事實知識、概念理解、推理分析。選取8年級的試卷為研究對象,在公開的4套測試題中,內容維度和認知維度的具體內容和所占的比重也隨著時間的推移和科學教育的發展有細微變化(見表1)。
從表1可見,內容維度中的具體學科領域一直處于調整中,變化的部分主要集中在環境和科學性質、科學探究。不同年度,對于內容領域的命名也有差異,并且在測試卷中所涉及到相關內容的題目也有所不同。這是因為設計者對科學本質及其測評的理解和掌握在發展,同時也是具體實施過程中不斷發現問題、解決問題的客觀需要。1995年,將“環境話題”和“科學的性質” 作為一個內容領域,在測試題目中將對科學性質的斟測與環境話題結合,并以環境話題作為內容載體。1999年對這部分進行了修改,將“科學探究和科學的性質”作為一個獨立的內容領域,但同時在“環境話題”部分中增加“資源”內容,形成了新的內容領域。2003年對內容領域又進行了新的調整,刪去“科學探究和科學性質”這一領域,將環境和資源的話題統稱為環境科學。2007年則只保留物理、化學、生物和地球科學4個基本內容領域,并且將“生命科學”改為“生物”。這一變化是有根據的,體現了一定的發展趨勢。“科學探究”領域的測試屬于過程與方法維度,“科學的性質”的測試屬于情感態度價值觀維度,而地球科學、物理、化學和生命科學這些已經普遍達成共識的學科內容領域,測試的為科學知識維度。1995年是測試初期,設計者將情感態度價值觀的測試與環境話題相結合,由于環境與學生的日常生活緊密相關,難度不會太大。1999年,設計者重點突出了對過程與方法、情感態度價值觀的測試,把科學探究和科學的性質單獨作為一個內容領域,與其他內容分離開來,可見對其重視。同時,隨著社會的發展和科技的進步,資源問題日益突出,TIMSS的時代性和時效性也得到了充分的體現,將資源問題與環境問題合并成為一個內容領域。2003年開始,內容領域的劃分改變了原來設計的方向,化繁為簡,將環境和資源問題統稱為環境科學,并且刪除了“科學探究和科學的性質” 領域。2007年,將“環境科學”內容分別納入“地球科學”和“生物”領域中。在領域的劃分及名稱的確定上力求簡明和綜合,將聯系緊密的內容加以整合,而“科學探究和科學的性質”領域,貫穿于科學知識之中。雖然在內容維度的劃分上沒有明確提出,但是在測試卷中卻將此部分內容滲透于其他知識內容領域中進行考查。這種設計和做法可以使過程與技能、情感態度價值觀維度的監測更加合理,更加科學,改變了簡單機械地將這兩個領域的內容以等同于知識測試題目的形式進行測試,而是將其滲透到內容領域之中,同時使題目覆蓋的范圍更廣,內容更全面。隨著科學教育改革的推進和科技發展的需要,學科綜合化的趨勢日益明顯,TIMSS中的科學評價也受其影響,在內容維度的框架結構上有所體現。
1999年的測試題目總數明顯減少,設計者將其視為一種基于現實和理想的改革和試驗。因為每個學生所做的測試題是以一本題集的形式呈現,每個參與的學生都要做完一本題集,做完一本題集需要長達90分鐘。由于測試的題目多、時間長,增加了學生測試的負擔和測試的成本,同時也從一個側面對測試的效度有一定的影響。2003年題目又增加至95道,這種變化并不是盲目追求數量,而是采用“主題式”的模式設置題目,將同一主題的大題分解為若干個小題,題目總數實為小題的數量;此外,2003年首次允許在測試過程中使用計算器以減輕計算帶來的麻煩和對檢測科學學習結果的干擾,并減少由于東西方學生計算能力的差異對測試結果的影響,盡量使這項國際比較研究平等,導致題目增加,而2007年,題量又適當減少,仔細查閱、分析測試卷,發現部分試題為創設問題解決那種真實復雜的情境,包含大量的信息,這可能是題量適度減少的一個原因。縱觀題目數量的變化,進一步證明了題目的數量、密度,題目之間的關聯性影響著測試的信度和效度。在保證測試質量的同時,盡可能減少測試的題目,減輕測試帶來的負擔,降低TIMSS項目從設計到實施,直至數據處理的工作量,從而提高效率。
圖1顯示不同內容領域的題目數量占題目總數的比重的變化。由于“環境、科學性質和科學探究”在3次測試中劃分的方式和名稱不同,故沒有在上圖進行統計和比較。1995年與1999年的內容結構沒有明顯的變化,而從2003至2007年,折線卻出現了一定的變動,地球科學與化學的占比分別增大了約5%,物理和生命科學相應的各減小了5%。這樣的變化基于以下因素:首先,由于在前兩次測評中,物理和生命科學領域的題目測試頻率相對較高,為避免學生對已經出現過的題目有一定了解和熟悉,影響測試的結果和效度,所以對題目分布的結構進行適當的調整;其次,8年級學生的測試內容領域不同于4年級,化學領域作為初中階段的新增內容,需要在測試中通過題量的增加得以體現。同時,通過對新學內容的考查,也可以從另一個角度測試學生掌握知識的方法、技能和水平,對于新知識的接受能力、接受速度和質量;最后,內容領域分布比例的變化與其劃分方式和命名也有一定關系,由于將科學探究和科學性質領域的斟測嵌入其他學科內容之中,所以勢必造成內容占比的變化。在對地球科學的測試題目中,可以將科學探究和科學性質與環境、資源等有機結合起來,在對化學領域的測試,可以與實驗、科學探究活動等結合在一起;此外,基于這兩個領域的測試,還可更好地將生活常識與測試題目相聯系,使學生更易理解科學。最后,21世紀科技發展的趨勢也對TIMSS中科學評價產生了前瞻性的影響。生物技術的突飛猛進,促使該學科有了很大的進步,而地球科學和化學卻沒有得到相應的重視和發展,所以在測試中加大這兩個內容領域的占比,可以更好地促進其發展,對科學教育的內容結構起平衡的作用,這也是TIMSS中科學評價的調整和預測功能的體現。
2.認知結構的變化
科學評價的認知維度分為3個層次,分別為事實知識、概念理解和推理分析。
據表2中的數據,事實知識所占比重逐漸增大并一直維持在1/3左右;推理分析試題的占比逐年減小;概念理解試題的數量隨前兩者的變化而變化,但總體趨勢是減少的。這是基于實際測評中的結果而進行調整的。設計者最初的本意是側重對學生高層次能力的斟測,但經首次測試及其結果獲得的數據比較、分析發現,學生認知水平的結構并沒有預期的那樣好,實際情況與理想狀況相差較大,所以盲目追求高標準不利于測試的進行和分析,也削弱了TIMSS評價的積極作用。此后,設計者在每年的測試中,對認知維度中3個層次的題目數量進行不斷地調整。這種趨勢逐步顯現以中國為代表的亞洲測試評價的結構,雖然東西方教育對科學知識關注和評價的角度不同,但早已達成共識——知識是解決問題、提高能力的根本,記憶是高級思維的基礎,進而更加重視通過對科學知識的評價來促進其教學。這再次體現了東西方教育的相互學習和相互促進的趨勢,并改善了以往極端和單一的局面。與此同時,這樣的評價趨勢也提醒了我們,我國的評價體系有自己的特色,需要客觀辯證地對待,有不足也有精華,不可妄自菲薄,而要在保持自己的優勢和特色的基礎上加以完善。
3.題型分布比例的變化
在TIMSS科學測試中,有兩種題型,一種是多選題,另一種是簡答題。根據測試內容和認知維度,兩種題型的占比在3次測評中也有變化。
分析圖2時要結合前面已討論的幾個問題,不能簡單地認為多選題先增加再減少,而簡答題相反。1999年題目總量較少,2003年開始使用計算器,其間經歷了一些試驗和變化。基于測試的效率和效度,簡答題的數目不宜過多,最多不能超過1/2,否則學生無法按時間完成,或答案無法體現應有的水平,也可能會導致學生厭倦的情緒,這也是1999年減少簡答題的原因。而在2003年,計算器的使用為很多西方國家的學生節省了時間,解決了他們由于計算能力弱而對測試產生負面影響的問題,同時也提高了做題的準確性和正確率,在某種程度上使TIMSS更加公平。2007年,簡答題的數量基本接近一半,但其中包括多種題型,例如畫圖題、判斷題、信息處理題等,而不僅限于文字表達。因為簡答題可以更直接表現學生的思維過程和思維水平,可以為此項國際比較研究帶來更多、更全面的有用信息,也給國家、學校、教師及家庭等各個層面的教育改革提供更有效、更真實的信息。
綜上所述,簡答題的數目需要保持在1/3至1/2之間,題目類型的設置也應豐富活潑。設計試卷時根據實際情況而進行微調,過少或過多,都會大大削弱測試、評價的效果;反之,要進行相應的增補或刪減。
三、具體題目分析
在TIMSS的測評中,會出現知識點相同且是以往測試過的題目。即使是相同知識點的測試,出題的語言和方式也是不同的,通過對一些重復題目的比較和分析,也可窺探出其中存在的規律,體現出一些變化趨勢。
1.題目包含的信息更加全面與復雜
1995-I13圖中有5支不同的攝氏溫度計。病人的體溫在36℃至42℃之間。圖中哪一支溫度計最適合用來準確地量體溫?
2003-S022225在不同的高度,水的沸點從 80℃到100℃不等。下面哪一支攝氏溫度計最適合用來精確測量水在不同高度的沸點?
這兩道題考查的知識點是溫度計的使用,并分別以測量體溫和水的沸點為情境。在題目整體設計和提問時,不僅保持語言一貫的精準,同時也體現了題目信息更加復雜、全面的發展趨勢。2003-S022225中的題目中,考查溫度計的使用時,還包含了對在不同高度,水的沸點受大氣壓強的影響。如此設計,不僅要求學生掌握溫度計的基本使用要考慮量程及其精確度,還要結合實際情況思考,要求學生在解答的過程中將理論與實際聯系起來才能更好地解決問題,所以題目包含的信息更加復雜、全面,從而在檢查知識點的同時,更好地測試學生的綜合能力和解決問題的能力。
2.題目內容更加生活化
1995-J05
J5.哪一種輻射導致太陽灼傷皮膚?
A. 可見輻射
B. 紫外線
C. 紅內線
D. X射線
E. 無線電波
1999-J08
J8.防曬油可用于保護皮膚。它能保護皮膚免于受到下列何種太陽輻射的傷害?
A. 可見光
B. X光
C. 紅外線
D. 紫外線
E. 微波
這兩道題考查的知識點是放射線及其防護。在題目的敘述方面,1999-J08的題目引入了人們日常生活中常用的防曬油,使題目內容與學生生活緊密相聯。學生在思考時可以從生活常識出發,也可以從課堂中所學的科學知識出發,更有效地將科學知識與生活聯系起來,也為學生未來學以致用做好準備工作。另外,通過此題正確率的數據,也可逆向證明隨著題目呈現方式的變化,學生的正確率也隨之提高。同時,也為課堂教學帶來了啟示和思考,教師在進行教學時需考慮選擇何種內容題材更易于學生的主動建構。
3.題目主題的明確化和直接化
1995-I10
I10.健康的飲食包括水果及葉類蔬菜,為什么?
A. 它們含水量多
B. 它們是蛋白質的最佳來源
C. 它們含有豐富的礦物質和維生素
D. 它們是碳水化合化物的最好來源
2003-S032637
39.食用葉類蔬菜對身體的健康是很重要的,因為它是下列哪一項的主要來源?
A.蛋白質
B.碳水化合物
C.礦物質
D.脂肪
這兩道題考查的知識點是飲食中的蔬菜和水果,但表達方式及測試范圍有變化。1995-I10的題目中側重“為什么”,而2003-S032637的側重“是什么”,并直接點明“食用葉類蔬菜對身體健康是很重要的”,對“主要來源”進行明確提問,將問題的內容和范圍縮小,使題目指向更加明確、更加直接,使測試的重點更加清晰,做到有的放矢。另外,在題目的表述中,設計者還滲透了對學生成長發展有益的信息“食用葉類蔬菜對身體健康是很重要的”,學生在測試時還會受到隱性信息的積極影響。
4.題目語言的生活化,問題設置的開放化
1995-R03將新的生物品種引入一個區域內,可能會有什么不良的后果?試舉一例說明。
1999-R3有一種新品種的魚放入某湖泊內。請列出因新品種引入后可能會產生的兩種后果。
這兩道題考查的知識點是新物種的引入。考查點涉及的詞匯和問題,設計者均進行了調整。1995-R03中直接采用“新的生物品種”,而1999-R3中卻將其換成“新品種的魚”。不難看出,題目的語言越生活化,越易于學生理解,減少了在測評中由于文本閱讀理解上帶來的障礙。此外,1995-R03的題目中的闡述“可能會有什么不良的后果”干擾并限制了學生的思維,而1999-R3的題目敘述中沒有任何暗示,不會對學生的思維和作答產生任何影響,并且提問方式更加開放,給學生提供了更大、更自由的思考空間。
四、總結和思考
通過對8年級學生的科學試卷進行比較、分析,筆者發現TIMSS科學評價中體現的一些趨勢及其對我國科學教育的啟示。
在科學評價中,越來越重視對科學本質的測試,其中包括科學的態度、科學精神及科學探究。同時,對科學本質的測評不需要以單獨的題目進行,而是采用結合學科知識,滲透到其他學科領域的題目中的方法,對于隱性內容的測評就需采用與之相適的方法,否則會使測評的結果產生一定的誤差。
測試作為評價的主要方式,充分發揮調控的作用。在測試的題目中既需要及時的反應現代科技發展的先進成果,也要對發展相對薄弱的學科重點測試,加重題目比例,以期對該學科的發展和教學起到促進的作用。
為了更好地確保測評的質量和效度,題目的數量要根據測試的范圍和內容,結合測試對象的認知、生理特點進行設計。如果數量過多,會使學生產生不良情緒,影響測試數據的質量;如果數量過少,不能完全體現測試的內容、重點和學生的水平。
題型的構成應更加豐富、合理。開放性的簡答題可以更好地反映學生的思維過程,以便發現學生學和教師教的問題,但是數量不宜過多。在試卷形式的測試中,應采用多種題型結合的方式,而不是局限在選擇題和簡答題。畫圖題、判斷題、排序題等都可以體現各自的特色。另外,不同的測試目的和不同認知維度的測試可以選擇與之相適應的不同題型,例如對于概念性知識的測試可以選用選擇題、判斷題,對于推理分析性題目的測試可以選用簡答題或者畫圖題,對于過程方法性題目的測試可以選用排序題等。
不可一味追求對高級認知水平的測試和評價。隨著測試的發展,推理分析性題目的占比逐漸減少,反而對科學知識性題目的考查比例大大增加。這一變化體現了對科學知識重視的一種回歸,科學知識是科學技能、科學情感態度價值觀的基礎。同時,我國科學教育的評價也要進行反思,不需要妄自菲薄、盲目地效仿西方,隨著社會對人才要求的提高、學科知識及教育理論的不斷發展,科學知識的重要性也愈加凸顯,客觀、理性地對待國外先進的理論,結合自身的特點,尋找到真正適合我國國情的結合點。
測評題目的語言、設置方式和具體內容,直接影響學生測試的成績和結果,同時也間接反映教學的情況和問題,為教師教學的改進提供了有用的信息。在不同年限、測試相同知識點的題目中,也體現出這樣的趨勢:題目包含的信息全面、復雜,更符合實際情境,而不是理想化的答疑狀態,對學生終身發展及解決實際問題的能力有切實的幫助;題目的內容更加貼近生活,語言也更加生活化,以學生為主體,以學生的經驗為基礎,使學生更好地理解題意;問題的設計也更加開放,不會在題目中對學生有任何暗示,避免過分限制學生的思路,反映不出學生真實的科學學業水平。此外,還需對教學進行反思,在科學課堂教學中,更好地運用科學語言和生活語言,將科學知識與生活常識銜接,體現科學的特性和本質,促進學生的科學學習,是該評價的重要作用之一,也是有待進一步研究的課題。
參考文獻
[1]田慧生,王連照.國際學生學業成就評價項目比較研究——以TIMSS-A2008和PISA2006為例[J].教育發展研究,2008(20).
[2]張勁松.第三次國際數學和科學研究(TIMSS)簡介及其啟示[J].課程教材教法,1998(10).
[3]魏冰.TIMSS中的科學素養[J].外國中小學教育,2001(1).
[4]賴小琴.國際學生評價TIMSS與PISA的比較與反思[J],廣西教育學院學報,2008(2).
[5]馮大鳴,周翠萍.第三次國際科學與數學研究-美國的回應及啟示[J],南京曉莊學院學報,2003(6).
[6]張橘,馮虹.TIMSS及其對我國標準化考試的啟示[J],吉林教育,2007(12).
[7]胡軍.國際數學和科學研究的趨勢(TIMSS2007)評估框架評介[J],亞太科學教育論壇,2008(6).
[8]黃丹鳳,趙中建.基于“問題”的美國TIMSS研究[J],全球教育展望,2007(7).
[9]趙中建,黃丹鳳.教育改革浪潮中的“指南針”——美國TIMSS 研究的特點和影響分析[J].比較教育研究,2008(2).
[10]William H. Schmidt,Curtis C. McKnight,What can we really learn from TIMSS[J].Scie