高繼偉,陳紅君,王垠杰,費金有
(1.長春師范大學物理學院,吉林長春 130032;2.中國人民解放軍軍事經濟學院,湖北武漢 430000;3.吉林師范大學物理學院,吉林四平 136000)
?
論TIMSS和PISA科學教育評價及其對我國科學教育的啟示
高繼偉1,陳紅君1,王垠杰2,費金有3
(1.長春師范大學物理學院,吉林長春 130032;2.中國人民解放軍軍事經濟學院,湖北武漢 430000;3.吉林師范大學物理學院,吉林四平 136000)
教育評價是全球教育都關注的一個重要問題,目前國際上大規模的評價體系有TIMSS和PISA,這兩種教育評價吸引了全球很多個國家參與。本文對歷屆TIMSS和PISA進行分析和整理,對素質教育的有效實施和新課程理念的培養有非常重要的作用。對TIMSS和PISA測評的評價目的、對象、周期和理論模型進行比較,對TIMSS和PISA的測試框架和測試題目著重進行分析,最后提出TIMSS和PISA給我國教育評價帶來的的啟示。
TIMSS;PISA;測試框架
1.1 TIMSS評價
TIMSS是20世紀60年代和80年代國際教育成績評估協會IEA組織的第一次、第二次國際數學和科學測評之后,與1995年舉行的第三屆國際數學與科學研究(Third International Mathematics and Science Study)的簡稱。在此之后,國際數學和科學研究學會每四年召開一次,所以在1999年,這項活動被稱為TIMSS-R或TIMSS-REPEAT。在2003年,TIMSS也成為國際數學和科學趨勢研究(Trends in International Mathematics and Science Study)的簡稱。TIMSS評價每四年舉行一次,分別在1995、1999、2003、2007、2011年舉行,這項活動參加的國家以及地區分別有美國、英國、意大利、丹麥、日本、俄羅斯、馬來西亞、韓國、中國臺灣和中國香港等40個,參與測試的學生在60萬左右[1],TIMSS評價是國際上著名的學生學業評價項目之一,對全球教育起到了深遠的影響。這項活動是對當代青少年數學和科學教育的國際比較研究,給我們的數學和科學教育帶來了很大的啟示。
1.2 PISA評價
PISA是國際學生評估項目(Program for International Student Assessment)的縮寫。它是一項經濟合作與發展組織(The Organization for Economic Cooperation and Development,OECD)統籌的學生能力的國際評估計劃。該評測項目于2000年推出,之后每三年進行一次,評測主要分為閱讀素養、數學素養、科學素養三個領域,每一個評核周期,都會對某一項領域深入評估,占時三分之二。其他時間對另外兩項進行綜合評估。PISA主要對于15歲的學生進行,由于他們處于義務教育階段的末期,所以來考察他們解決問題和終身學習的能力。全球參與的國家和地區有65個,2006年上海提出申請,成為第一個中國大陸參加PISA的地區。上海學生在2009年第四屆國際學生評估項目中,獲得閱讀和數學科學素養第一的成績,在2012年的測評中,上海學生再度以平均分613分居于榜首,深受全球關注。
1.3 TIMSS、PISA的趨勢研究
趨勢研究是比較某個國家學生在每次測評中的表現,從而得出變化趨勢。這樣就可以幫助各國明確當前的教育情況,并分析教育情況變化產生的原因[2]。曾經有人對TIMSS1995、TIMSS1999和TIMSS2003的數據進行了研究,顯示了數學和科學對國家經濟發展的應用[3]。但是進行趨勢分析時,由于抽樣方法和測量誤差決定了趨勢分析一定要細心慎重。并且在趨勢研究時,為了確保想得到結果的可信度,就一定要對測評工具進行嚴格要求,TIMSS和PISA測評題目在每一輪中都會保留一部分相同題目,被稱之為趨勢題目(trend item)。這些題目沒有公開,在下一輪測評中繼續使用,這樣可以幫助測評的標準不變,對發展趨勢起到良性循環作用[2]。
1.4 對科學測試題目的研究與比較
岳宗慧和張軍朋在《TIMSS 2011科學測評框架概況、變化及啟示》中強調在科學教育評價中科學探究是很重要的,要設計不同方式的科學探究測試題目。筆者建議測試題目應新穎,讓學生體會探究的過程,這樣就可以幫助學生在探究的過程中體驗知識建構的過程[4]。對于PISA評價,朱小虎曾在《面向未來的參與能力——PISA“素養”概念的發展》中指出“計算機化測評素養”的優越性,可以突破傳統的“紙筆測試素養”,使測評結果更準確化。賴小琴在《國際學生評價TIMSS和PISA的比較與反思》中對TIMSS評價和PISA評價的設計題型和評分的方法進行了比較,說明了大規模跨國評價的較高要求,體現了測評題目的普適性。
TIMSS、PISA評價針對學生學業成就測評項目,定義了明確的群體并且進行抽樣研究,應用的工具也都相似,例如問卷或試題。并且實施過程都應經過廣泛的研討,質量控制嚴格并逐步完善。TIMSS和PISA評價的測評方法類似,這源于它們都屬于大型國際學生學業的評價,這兩種評價方式都在各自所規定的范圍內進行問卷或者試題測試,并且根據不同周期的結果進行比較,研究其發展趨勢。但是這兩種評價方法也在一定程度上存在著不同。下面將通過對比來分析TIMSS和PISA的基本情況,然后對測評目的、測評對象、測評周期和理論模型進行深層次的對比研究。
2.1 TIMSS評價和PISA評價的基本情況對比分析
從實施的組織來看,TIMSS的實施組織是IEA,而PISA的實施組織是OECD。從時間來看,TIMSS評價首測時間是1995年,每四年一次,分別為TIMSS1995、TIMSS1999、TIMSS2003、TIMSS2007和TIMSS2011五次;PISA的首測時間是2000年,每三年一次,分別為PISA2000、PISA2003、PISA2006、PISA2009和PISA2012五次。在評價理念方面,TIMSS評價理念即“課程是學生學業成就的重要影響因素”。增強學生對科學探究的判別能力,對現今世界科學有正確的理解。PISA評價理念為“終身學習就是一個人在他的一生中不斷通過學習獲得成功的必要途徑”。PISA測試所要關注的是學生應用所學的知識和技能而解決當前實際問題的能力,并非是考查學生對所學課程內容的學習狀況。從測評內容來看,TIMSS測評的是數學和科學,PISA測評的是數學、科學、閱讀和寫作[2]。梁潤嬋在《TIMSS、PISA、NAEP科學測試框架與測試題目的比較研究》中對TIMSS2007科學測試框架進行分析,顯示各內容所占比例,其中生物占35%,化學占20%,物理占25%,地理占20%,并分析了數學和科學所占題目比例為1∶1。這篇文章也對PISA2006進行了統計,在13個題組中,科學題組7個,閱讀題組2個,數學題組3個。通過以上比較初步可知,科學和數學是每個測評都會進行的內容,并且所占比例相當。體現了各國對科學測評的重視[5]。
2.2 TIMSS評價和PISA評價測評目的的比較
無論TIMSS評價還是PISA評價,它們存在的同一個測評目的就是了解學生學習的結果,即考查學生現有的學習狀況,并在一定程度上激勵學生的學習興趣。但是二者的評價目的還是存在著很大的不同,其中TIMSS評價主要是考察各國學生在學校的各個課程的學習成績,這是為了了解各國的教學水平和教育方式,從而讓教育水平進一步提高。但是PISA評價則關心學生的終身發展,通過測試來體現學生終身學習的能力,為社會的發展提供幫助。通過以上分析可以看出,TIMSS評價注重了解學生在校期間對于數學和科學課程的學習,而PISA測量注重學生通過學習對實際的應用情況。
2.3 TIMSS評價和PISA評價測評對象和周期的比較
TIMSS評價和PISA評價的測評對象都是在校的義務教育階段的學生,但是TIMSS評價的主要對象是10~11歲的四年級學生和14~15歲的八年級學生,并且評價單位以班級為單位;PISA評價的主要對象不分教育類型和年級,只要是15歲三個月~16歲兩個月的學生就可以,評價單位是以學校為單位。從測評對象分析來看,TIMSS評價關注學生的科學和數學課程成績,二者的考察對象年紀不同,考察所得的方向就不同[6]。TIMSS和PISA的測評周期都是循環式的,可以從橫向和縱向進行比較,TIMSS評價對科學和數學的評價是同等的;PISA評價分為三種素養,但每次都設一種素養為研究重點[6]。
2.4 TIMSS評價和PISA評價理論模型的比較
圖1是丹麥技術協會利用“輸入-過程-輸出”模型對TIMSS評價、PISA評價的調查結果所進行的分析。其中,輸入包括教育政策的資源和規則,輸出包括學生的學習成就,TIMSS評價和PISA評價均受這個模型的影響。這兩個項目用問卷和測試兩個方式調查學生的學習情況,體現測評是對測評國家學生的各項表現進行橫向和縱向的比較,也分析了影響學生成績的各方面因素,使教育者和教育決策者更好地進行教育改革[2]。

圖1 國家水平學生成就分數分析框架
TIMSS和PISA在各自研究領域上各有側重。TIMSS以數學和科學成就的研究為基礎,分析得出影響學生教育質量的因素;PISA不只在意學生的學習情況,還在意教育資源,學生的發展等條件。
2.5 TIMSS、PISA評價的科學測試框架的比較
TIMSS評價、PISA評價不僅關注知識領域,也關注學生的科學認知能力和科學探究能力。測試框架包括評價目的、評價設計的哲學基礎、評價中各內容領域和認知能力所占的比重[5]。在評價目的方面,TIMSS是測評學科領域的知識和技能,是對學生在課堂上所學知識實施成效的評價,在教育所規定的框架之內。而PISA是測試學生能否掌握和參與社會所需要的知識和技能,是在教育所規定的框架之外的教育所得效果的評價。在評價設計的哲學基礎方面,TIMSS是在驗證課堂上的實際課程是怎樣被教授的,學生又能從實際課程中掌握多少知識;PISA是為了檢測學生的終身學習能力來進行試題檢測的,目的是為了檢測學生現在和將來適應社會的能力。
3.1 TIMSS2011和PISA2009內容領域和認知領域的比較
TIMSS2011的科學測試中對于四年級和八年級內容領域是不同的。相比八年級,四年級的內容領域更側重生物科學;而在八年級,物理和化學分為單獨的評估領域,比四年級有了更多強調,而認知框架是大致相同的。對于八年級,從內容維度來看,各科所占比例分別為生物35%、化學20%、物理25%、地球科學20%;從認知維度來看,了解所占比例為35%、應用所占比例為35%、推理所占范圍為30%[4]。
其中,內容維度涵蓋了整個科學所包含的領域,而認知維度則包括了所學基本技能的成分。PISA2009包括三個內容領域:閱讀、數學和科學,要求學生培養終身學習的認知能力。PISA的科學知識包括科學知識和科學相關知識兩個方面,所占比例為6∶4,科學知識包括四個方面:物質科學15%、生命系統20%、地球和空間系統15%、技術系統10%;科學相關知識包括兩個方面:科學探究20%、科學解釋20%。考查的科學能力包括:確立科學問題25%、解釋科學現象35%和運用科學證據35%[5]。
通過以上的比較可以發現,盡管TIMSS測評和PISA測評科學測評框架不同,但是其所包含的內容和能力類別是相似的。它們的不同之處就在于TIMSS測評框架把學校的教學目標作為標準,從內容和認知能力維度來看都是被教育者所熟悉的,而PISA測評則在學校課程的基礎上更深一步把科學與實際相聯系,更注重學生在科學上自身的理解與發展。
3.2 TIMSS和PISA科學測試題目的比較
TIMSS和PISA適應多個國家評價,對題目設計要求很嚴格,題目要考慮到學生的年齡和地域文化差異,并且還要注重與往年的對比和長遠方向的考慮。TIMSS的題目構成主要為選擇題和問答題,其中問答題分為問答和擴展問答兩個方面。選擇題的分值占總分的一半甚至更多。問答題每個題的分值也不高,主要考察學生所學知識的理解。PISA的題目構成同樣為選擇題和問答題,在這基礎上更加細致地設計了簡單和復雜的多重選擇題,并且問答題也分為封閉式問答、短答題、開放式問答。相比TIMSS而言,PISA更注重問答題對學生的考察,可以對學生根據所學知識升華為現實能力進行考察。在評分方面,TIMSS和PISA相似都嚴格通過編碼、計算機評分等來進行評價[6]。
3.2.1 TIMSS和PISA科學測試題目的分布及比例
以TIMSS2011為例,測評試題分為四年級和八年級。其中四年級的測評試題只簡單地分為生命科學、自然科學和地球科學三個方面;而八年級相比較而言就比較細化,包括生物、化學、物理和地球科學,表1說明了測評試題內容分布和認知維度。

表1 TIMSS2011科學測評內容和認知比例
從表1可發現,四年級相比八年級學生而言更注重認識的水平,而八年級則更注重推理的思維培養。
以PISA2009為例,其在測評方面更注重科學知識的應用方面,更關注學生日后的生活能力,所以相比TIMSS,多了一項技術系統的分析,而且還多了科學探究和科學解釋的分析,具體百分比如表2所示。

表2 PISA2009科學測評內容和認知比例
TIMSS2011 與PISA2009中科學的評估題目雖然對定義稍有不同,但是對科學知識及其應用都很重視。由表1和表2中可以看出,TIMSS2011與學生所學的課程聯系很大,評估方向很明確;而PISA2009則更注重學生的分析能力和解決問題的能力,更能考察學生的思維活躍能力以及與生活接軌的能力。
3.2.2 TIMSS和PISA科學測試題目不同題型分布及比例

表3 TIMSS和PISA科學測試題目類型以及所占比例
在測試題目方面,大多數學生認為簡答題比較簡單,而多項選擇題來考察的是學生推理與認知的能力,這對知識的掌握要求比較高,在表3中可以看到,無論是TIMSS還是PISA,簡答題所占的比例較少,而多項選擇所占的數目居多,擴展開放題考察的是學生的拓展應用能力,這是知識的升華,所以在題目總數中所占的比例也不是很多。相比TIMSS,PISA中具有不同答案的擴展開放性題遠遠比TIMSS所占的比例大,可見PISA更注重學生開放性思維的測試與培養。
3.2.3 TIMSS和PISA科學測試題目難度分布及比例
在測試題目中,無論是題目的數量還是學生對題目情境的熟悉程度,或者題目的陳述方式等都能夠造成試題的難度系數不同。在TIMSS和PISA在科學測試題方面,專家主要提供了推理、擴展問答、數學技能和文本四個方面的因素來評價題目的難度。如果以0、1、2、3、4代表難度的不斷提高,通過大量的對比研究發現PISA的難度遠大于TIMSS,其中難度最大的四個難度因素PISA就占了9%,而TIMSS只占1%,難度最小的0個難度因素,TIMSS占了56%,說明TIMSS一半以上的題目都是沒有什么難度的,而PISA在這部分只占了14%,其它的都是有難度的測評題目。
通過以上的分析可以看出,TIMSS和PISA科學測試題目的相同點都是與生活實際相關,注重科學知識的應用。但是TIMSS測試題中更注重中基礎知識的考察,而PISA測試題則更注重學生未來在社會上的發展,其測試的是學生把知識應用到以后的生活中的能力,所以在PISA測試中,更充分地考察了學生的實際應用和發散能力。
4.1 測評情境真實
TIMSS評價所考察的是學生對學校課程的思維理解以及基礎的概念性知識。測評在社會國家教育、教師課堂教育、實際課程學生理解三個方面進行測評,在創建測評情境時應考慮測評情境的真實性。
PISA測評這種大范圍的考試是一種專業性很強的工作。不僅要重視考察的結果,更要重視整個測評的過程。PISA測評所展開的投入程度評價在心理和行為兩個方面要求了學生積極的參與興趣和參與者投入的時間以及廣度。在這個過程中要注重測評的真實性。這樣才可以從測評中看到教育評價的真實性和可靠性,讓教育者更好地完善教學理念和教學水平,也可以讓學生從情感、態度和價值觀方面全面發展,起到科學素質的提升作用,真正起到測評的作用。
在TIMSS與 PISA測評時都要尊重測評情境的真實性,這樣就可以更好地培養學生把知識與實際相聯系的能力,將科學知識貼近生活情境,培養學生的學習興趣,提高他們的科學素養。
4.2 多種測評方式相結合
TIMSS測評的主要方式是試卷測試,測試題目主要源于課本知識,在歷年的改革中也及時地反應出現代科技的發展,但是單一性的試卷測評容易讓學生產生不良情緒,使測評的質量下降,因此可以在試卷的基礎上設置不同類型的測試方法,例如問卷調查、師生談話測評等。不同的測評方式可以讓不同層面的學生得到全面發展,而不是單一停留在試卷分數上。
PISA測評并不是基于課程的評價,而是面向未來發展和終身發展的評價。評價要客觀、理性,結合我國的教育特點,將多種測評方式相結合,通過試卷測評、問卷調查、隨時考核等方法進行全面、符合實際情境的評價,有助于我國教育的進一步發展。
4.3 同時測評基礎知識和解決問題
我國一直以來重視以知識為基礎,但是有時候卻忽略了能力的培養。所以在TIMSS和PISA測評中,要將基礎知識和解決問題相結合,讓學生將所學知識應用到現實生活中。TIMSS和PISA主要還是通過考試測驗來反映學生的學習成就,在試題選擇方面更多地關注實際問題,更接近生活的提問方式。在測評結果分析方面,鑒于各國的文化差異,應要合理、公正地發現并解決教育中出現的各種問題。上海在PISA2009和PISA2012兩次測評中取得包攬閱讀、數學、科學三項的第一名,這說明我們的教育取得了理想的成績。
[1]吳華志,李欣.TIMSS(2007)科學測試認知維度分析及其啟示[J].考試研究,2012 (5):69-76.
[2]魯毓婷.全球化背景下的學生學業成就比較研究——TIMSS和PISA[J].考試研究,2007(3):76-92.
[3]Hong,Hee Kyung.The impact of economic development on international mathematics and science achievement:A repeated measures design analysis of Trends in International Mathematics and Science Studies(TIMSS)for 1995,1999 and 2003[C].DAI-A 67/04,2006.
[4]岳宗慧,張軍朋.TIMSS 2011科學測評框架概況、變化及啟示[J].教育測量與評價:理論版,2012(12):49-54.
[5]梁潤嬋.TIMSS、PISA、NAEP 科學測試框架與測試題目的比較研究[D].桂林:廣西師范大學,2009.
[6]賴小琴.國際學生評價TIMSS和PISA 的比較與反思[J].廣西教育學院學報,2008(2):59-62.
[7]陸璟.PISA研究的政策導向探析[J].教育發展研究,2010(8):20-24.
[8]王蕾.從PISA試測研究實踐的視角看我國大規模教育評價改革[J].中國考試,2009(5):17-25.
[9]黃非非.美國NAEP公民教育評估發展研究[D].蘭州:西北師范大學,2011.
[10]李景梅.TIMSS、PISA、NAEP測評中物理試題設計的研究[D].重慶:重慶師范大學,2012.
[11]王學男,葉寶生.TIMSS 中科學評價的趨勢研究[J].基礎教育參考,2010(12):28-33.
[12]Jens Henrik Haahr with Thomas Kibak Nielsen,Martin Eggert Hansen and S ren Teglgaard Jakobsen.Explaining Student Performance Evidence from the international PISA,TIMSS and PIRLS surveys[C].Danish Technological Institute,2005.
2015-06-11
吉林省教育學會“十二五”規劃課題(1251157B)。
高繼偉(1964- ),男,吉林長春人,長春師范大學物理學院講師,從事課程與教學論基本理論研究。
G640
A
2095-7602(2015)10-0097-06