基于物理情境的九年級學生科學思維測試工具編制及驗證

2024-01-01 00:00:00田雪葳尹子娟劉文科王晶瑩

教學研究 2024年4期

摘要：科學思維是2022版新課程標準中核心素養的重要組成部分。為評估九年級學生的科學思維能力，特設計了一套測評工具，并基于Rasch模型從評分者信度、單維性、試題評分結構、試題擬合度、分離度、誤差統計、懷特圖等方面評估工具的整體質量。經分析，測評工具整體信效度較高，試題擬合度和分離度符合要求，誤差在可接受范圍內。懷特圖的分析結果顯示，學生們的科學思維水平普遍有待提高。總體上看，這套測評工具符合要求，可信度比較強。基于Rasch模型的測試質量分析也為進一步優化測試工具提供了參考。

關鍵詞：科學思維；質量分析；九年級學生；Rasch模型

中圖分類號：G62"文獻標識碼：A"文章編號：1005-4634（2024）04-0010-07

以科學思維為導向的科學教育改革受到了西方國家的高度關注，美國于2013年頒布《新一代科學課程標準》（Next Generation Science Standards，簡稱NGSS）"[1]，明確提出科學思維導向的課程與教學目標，確定了批判性思維、計算思維、比例推理、定性和定量思維等8種思維能力。我國《義務教育物理課程標準（2022年版）》（以下簡稱22版物理新課標）指向核心素養，其重要組成部分即科學思維，并聚焦于科學高階思維，涉及科學推理、科學論證、模型建構、質疑創新等能力"[2]，強調通過科學觀察、實驗探究、推理計算等方法，培養學生的物理觀念、科學思維以及科學態度與責任等核心素養。其中，科學思維主要涵蓋模型建構、科學推理、科學論證、質疑創新等要素，是從物理學視角對客觀事物的本質屬性、內在規律及相互關系進行認識的方式，是客觀事物本質屬性的反映，是一種認識世界的方法。22版物理新課標強調運用分析綜合、推理論證等科學方法，基于事實證據和科學推理進行論證、批判和反駁，進而提出創造性見解，以提高學生科學創新能力、科學實踐能力和培養科學思維習慣"[2]。由此可見，國內外課程標準均強調科學思維培育，在國際測評中，我國中學生雖然屢次在數學和科學方面取得出色的成績，但是諸如科學推理、協作式問題解決能力等卻沒有表現出優勢，且STEM職業期望不容樂觀。事實上，科學思維能力需要從小培養，學齡前兒童就已展現出識別和測試因果關系的基礎能力"[3]，但這些潛力的充分發揮仍需依靠學校的專門課程和系統化教學"[4]。為了持續并有效地提升學生的科學思維能力，需要通過科學化的測試來定期評估他們的進展，從而及時調整和優化課程結構與教學方式。值得注意的是，科學思維測評在國際上已被視為關鍵評估領域，但當前我國仍缺乏與新課程標準緊密契合的科學思維測評工具。

2022版物理新課標中的科學思維是指一種高階能力，不僅包括嚴密的科學推理過程，還需要科學論證進行推論，從而加工處理以表征建模的能力，需要一套嚴密的邏輯體系"[2]。正是由于這種能力的復雜性，很難直接去考察和測量，需要通過真實情境下的任務題來考察。低年齡段兒童的閱讀理解和寫作能力較弱，不宜采用紙筆的書面方式進行，以免影響結果的真實性。國際學生測評項目（Programme for International Student Assessment，簡稱PISA）的測試對象是15歲學生，在我國正好對應為九年級，該學段學生的認知能力處于形式運算階段，思維的可逆性、靈活性和邏輯思維能力均得到快速發展，也是科學思維培養的黃金期。因此，本研究聚焦于科學思維發展的關鍵階段——九年級學生，將其作為測評對象。鑒于學科內容導向的科學思維測評工具更符合我國的教學情境和學習文化，本研究開發了基于物理情境的紙筆測試任務題來評估學生的科學思維能力，并對此測評工具進行了Rasch模型的檢驗，旨在準確測量我國典型地區九年級學生的科學思維水平。最后，對試題的合理性進行了驗證，以確保評估的準確性和有效性。

1研究方法

1.1研究工具

本任務題共有3道大題，每道題分別設置2～3個小問"，均為簡答論述題。第一題的第一小問主要考察了串聯電路電流相等，額定電壓相同時額定功率大電阻小、實際功率大的相關電學知識，考察學生科學推理能力中提出問題與做出假設、解釋數據與生成結論維度，科學論證能力中觀點、事實證據與理論基礎和推理與反駁維度；第二小問主要考察了并聯電路電壓相等、并聯電路與串聯電路的識別與使用的相關電學知識，考察了學生科學推理能力中的設計實驗與生成證據維度，科學建模能力中的模型建構與使用、模型比較、修正與檢驗、建模元認知與元建模維度。第二題的第一小問和第二小問主要考察了電路模型中各個元件的用途、滑動變阻器和定值電阻的作用、串聯電路分壓原理的相關電學知識，考察學生科學建模能力中的模型建構與使用、模型比較、修正與檢驗、建模元認知與元建模維度。第三小問主要考察了電路中外接法與內接法誤差產生的原因、電流表和電壓表的阻值和伏安特性曲線的相關電學知識，考察了學生科學推理能力中提出問題與作出假設、設計實驗與生成證據、解釋數據與生成結論維度，科學論證能力中觀點、事實證據與理論基礎和推理與反駁維度。第三題的第一小問主要考察了影響導線電阻大小的因素、電路干路導線粗的原因、并聯電路中干路電流是支流電流之和/干路電流大于支路電流、焦耳定律和歐姆定律的相關電學知識，考察學生科學推理能力中提出問題與做出假設、解釋數據與生成結論維度，科學論證能力中觀點、事實證據與理論基礎和推理與反駁維度；第二小問主要考察了構建正確的電路模型、并聯電路各支路間電壓相等，各支路用電器相互獨立/互不影響的相關電學知識，考察了學生科學推理能力中設計實驗與生成證據維度，科學建模能力中模型建構與使用、模型比較、修正與檢驗、建模元認知與元建模維度。計分方式按照回答踩分點將等級劃分為水平0、水平1、水平2，共計得分點17個；該測試滿分為54分，測試時長為40分鐘。總體而言，測試項目的綜合能力要求符合科學思維的內容水平。

1.2研究對象

本次測試對象為九年級學生，抽取了北京、上海、浙江和山東主要行政區的中等偏上的學校，并且對各個地區學校的有效男女人數進行了統計，男生人數總計642人，女生為789人。原始測試卷共收集到1 390份，經過人工篩選剔除份無效問卷71份，最終保留1 319份有效數據，有效率達95%。共有4位評分員進行主觀評分。首輪根據制定的量規進行100份問卷的評定，計算兩兩之間的一致性，并且組織討論不一致的地方，打磨量規再次評分，直至達到80%以上的一致率。第二輪繼續抽取100份問卷，同第一輪步驟再次進行評分。第三輪繼續抽取100份問卷，持續磨合量規并進行評分，計算評分一致性，并在一次評定達到80%的一致性后進行獨立評定。最后進行抽評，抽評的方法也是由兩兩交叉進行抽評，抽取有效數據的20%，且其一致性均達到0.8以上，并再次進行校對統一得到最終的有效數據。

1.3Rasch模型測量原理

Rasch模型主要分析被試者能力水平與測驗項目之間的關系，常將學生能力與項目難度放在同一標尺上比較，對于能力型任務題質量的檢測具有廣泛的適用性"[5]。其在能力測評工具開發方面具有3個顯著優勢：第一，該模型可以將非線性數據轉化為等距離特征的線性數據，使得數據之間的差異具備客觀性與可比性；第二，Rasch模型可以將被試和項目放在同一個標準上進行測量，這時項目難度和學生水平就可以進行比較；第三，Rasch模型測量的被試能力和項目難度水平具有獨立性，不受樣本和項目變化的影響"[6]。項目反應理論討論被試的能力水平與測驗項目，克服了經典測量理論中的樣本依賴問題，能夠使測試過程更加穩定和客觀"[7]。

2數據分析

2.1描述性統計與分布檢驗

為明晰科學思維的表現，計算其極大值、極小值、平均值、標準差、方差、偏度和峰度。結果顯示，1 319名學生的平均分為16.143 4，最大值為52分，最小值為2分，標準誤為0.067，方差為107.423。"由此可見，學生能力差距較大，各地區學生差距也較為明顯。合格的測評工具測得的結果應該是呈正態分布的，測試難易合適，即得高分和低分的學生較少，本測試檢驗結果如圖1所示，學生科學思維的成績整體呈正態分布。其中，得分在7～20分的人數最多；高分數段的人數偏少，低分數段的人數偏多，說明題目對學生而言比較難，學生科學思維能力水平不佳。

為進一步呈現成績分布特征，做出科學思維累積率（圖2）和趨勢累積率（圖3）示意圖，前者的預計累計率用縱坐標表示，后者的實測累計率用橫坐標表示，兩者相等時測試結果呈正態分布，圖像應該是一條直線。另外，在趨勢圖中，如果數據呈正態分布，那么數據點應該均勻分布在Y=0的直線兩側"[8]。從圖2可見，實測累計概率與預計累計概率比較接近，因此可以認為科學思維成績是正態分布的。這個結果也說明測試項目的區分度較好，結合表1數據，偏態系數為0.625，表明學生成績呈正偏態，即低分學生比較多，這個結果與圖3呈現一致。峰態系數為-0.136，接近0，分布峰的形狀較正態分布更平、分布現狀相對矮胖，基本呈現正態分布。

2.2測試信效度

本研究運用SPSS26.0分析該數據的信效度水平。通過Kappa系數考查人工評分者的一致性，以確定評分者信度。當Kappa值介于0.75～1時，"較高程度的評分者之間具有一致性"[9]。人工[HJ59x]評分步驟如上文所述，最終達到總體項目的一致性信度為0.921。說明此測評工具的人工評分信度是可靠的，該測試項目信度良好。通過Winsetps 3.81.0導入了1 319個觀測值數據，對全部27個評價項目進行估算。并從以下5方面統計整體工具質量，即平均難度估計值（measure）、數據與模型擬合指數（infit與outfit）、誤差（error）、信度（reliability）和分離度（seperation），具體結果見表1。學生的measure為-1.26，說明測試項目整體對被試偏難，但測試項目的measure值為0，說明試題難度處于中等水平，評價項目較好地擬合了被試的能力水平，適合該樣本的評估。items separation為試卷的分離度，數值為10.10gt;2，說明該試題分離度好，items reliability的值為0.99，說明信度很好。infit與outfit是否擬合主要是看兩者之間的值，理想值為1，0.5～1.5之間屬于可接受范圍"[10]。items infit MNSQ為1.01，items outfit MNSQ為0.99，接近理想值，這說明測試項目整體的擬合度較好。"

項目單維性分析假設每個評價項目都在同一潛在特質上被測量"[11]，即被試在項目中的回答僅源自潛在特質或能力，其他因素不起作用"[12]。一般使用主成分分析方法來測查項目單維性，標準殘差對比圖通常表明項目難度估計值與評價項目載荷系數之間的關系"[7]。評價項目共計27個，分別用圖4的大小寫字母（A、a）表示，縱坐標是項目載荷系數，橫坐標是項目難度，理想區間為-0.4～+0.4，超出該范圍的，則認為不滿足單維性要求"[13]。圖4中所有項目的載荷系數均在-0.4～+0.4之間，因此本研究開發的測評工具單維性較好。

圖5展示了試題評分等級結構的分析結果。圖中的縱坐標（probaility of response）表示被試者得分為0、1和2的概率，橫坐標（person [minus] item measure）表示被試者能力與項目難度值之間的差異。在曲線交叉的地方即閾值（threshold）位置，對應的縱坐標表示被試者獲得兩種分數的概率相同。試題每個維度的評分等級類別曲線都有明顯的峰且平直，并且在橫坐標覆蓋一定的范圍，表現良好。

誤差分析與項目擬合上，該模型的標準來自項目難度平均估計值（measure）、標準誤（model S.E.）、擬合指數（infit與outfit）和點測量相關（ptmea corr.）。表2中項目序號的估計值排列即為測試項目的擬合數據。Outfit和Infit的取值范圍在0～正無窮大，其最為理想值為1。通常認為outfit和infit的值可接受范圍在0.5～1.5，說明擬合度較好"[14]。在擬合指數中，前者比后者更為重要，outfit MNSQ的值介于0.69～1.43之間，infit MNSQ的值介于0.76～1.39之間，都在可接受范圍內，ZSTD范圍在-2～2之間，說明被試樣本的實際作答與rasch模型預期結果一致，整體認為測試項目數據與rasch模型擬合度良好。標準誤（model S.E.）通常表示測試項目與被試能力之間匹配的穩定性，誤差值較小表示穩定性較高"[15]。本研究所有項目的誤差估計值非常小均在0.05左右，表明測試項目對學生能力水平的預估比較穩定，即測評工具具有較高信度。

點測量相關（pt-measure corr）通常衡量評價項目得分與總分的相關度，可以反映測試項目與所測目標的一致程度，即測評工具的聚合效度（convergent validity）。相關系數的大小表示測試項目與預設目標的接近程度，值越高表征符合預設目標程度越強"[17]。如表2所示，所有測試項目的相關系數均為正值，說明所有項目所測量的結構指向是一致的，即符合項目特征曲線單調性遞增假設"[16]。除了第11道題的相關系數為0.25，略低于可以接受的最低值0.30之外，其余26道項目的相關系數均可以接受，點測量相關較高，表示評價工具的效度良好。懷特圖可用于檢測測試項目難度與學生能力水平之間的關系分布，圖6左側是學生能力水平分布，左側M代表學生能力平均水平，相鄰兩個數字代表之間相差1個logit值，左側位置越偏上表明學生能力水平越好，反之則較弱，中間一條線是logit標尺，右側是測試項目的難度分布，右側的M代表測試項目難度的平均水平，位置越高代表測試項目越難，相反，位置越低測試項目難度越低"[17]。當右邊每一道測試項目都有一定數量的學生對應，則說明懷特圖較好，左邊的每個“#”表示2名學生，每個“.”代表1名學生。從圖6可見，第2個維度是難度最大的測試項目，幾乎所有測試項目都在平均水平徘徊。部分學生的水平分布在測試項目難度平均線以下，說明某些測試項目對于這部分學生而言偏難，學生能力水平低于平均水平。測試項目難度水平在平均水平以上的區域也有一定數量的學生，其能力水平高于測試項目難度，科學思維能力較強。

3結論與反思

通過Winsteps軟件對這套科學思維能力測試題進行Rasch檢驗，涉及對整體工具質量、項目單維性、試題評分結構、項目難度與學生能力關系（懷特圖）、項目擬合與誤差分析方面進行項目信效度分析。本測試項目難度略高于學生水平，也說明學生的科學思維能力相對不佳。其中，實驗題目難度最大，學生能力水平范圍大于試題難度分布，且處于試題難度水平之下的學生較多，學生的科學思維能力較弱。在工具質量上，項目的outfit MNSQ 值和infit MNSQ值都在可接受范圍0.5～"1.5之間，表明項目與被試之間都能夠很好地擬合，得到有效預估，能夠充分預估被試的科學思維水平，項目的信效度較好。從項目的評分等級結構看，評分等級分布比較良好；從項目擬合指數和誤差看，該測試工具的擬合度較好，測試項目信度較高。綜上所述，本研究開發的科學思維測試任務題整體信效度較高，區分度較好，對于學生而言相對偏難，這也說明九年級學生的科學思維相對較弱，還有待深入培養。樣本數據與Rasch預期模型基本符合，能夠比較客觀地考察出學生的科學思維水平，也揭露了九年級學生的科學思維現狀。

綜上，本研究基于物理學的電學情境設計任務題，開發出九年級學生科學思維的測評工具，能夠較好地評測學生的科學思維水平。本研究進一步調查九年級學生的科學思維現狀，以為新課程標準中科學思維教學的落地見效提供有利參考。根據Rasch模型的質量檢驗，除設計實驗與生成證據外，測試任務題各維度的難度與學生能力水平關系均符合標準值，這也說明九年級學生的科學建模能力不佳，在科學模型建構、科學證據提取、批判反駁論證的關鍵能力方面有待提高。本測評任務題的開發有助于監測九年級學生科學思維的發展水平，循證設計相應的課程和教學模式以有效促進學生的科學思維能力提升。

參考文獻

[1] OSBORNE J， ERDURAN S， SIMON S. Enhancing the quality of argumentation in school science[J]. Journal of Research in Science Teaching， 2004，41（10）：994-1020.

[2] 中華人民共和國教育部.義務教育物理課程標準（2022年版）[S].北京：北京師范大學出版社，2022.

[3] TOLMIE A K，GHAZALI Z，MORRIS S. Children’s science learning： a core skills approach[J]. British Journal of Educational Psychology， 2016，86（3）：481-497.

[4] SANDOVAL W A， SODIAN B， KOERBER S W. Developing children’s early competencies to engage with science[J]. Educational Psychologist， 2014，49（2）：139-152.

[5] 朱文琴.Rasch模型在小學科學素養評測質量分析中的應用[J].考試研究，2022，18（1）：38-48.

[6] 謝娟.Rasch模型在物理試題質量分析中的應用[D].福州：福建師范大學，2015.

[7] 張迪.Rasch模型在八年級數學學業測試卷質量分析中的應用[J].教育測量與評價，2020（8）：34-41.

[8] 田曉華.基于SPSS的一次物理試卷分析[J].中學物理，2018，36（19）：41-45.

[9] 王祖浩，楊玉琴.基于Rasch模型的“化學實驗認知能力”測驗工具編制及測評研究[J].化學教育，2012，33（9）：95-102，108.

[10] 趙守盈，何妃霞，陳維，等.Rasch模型在研究生入學考試質量分析中的應用[J].教育研究，2012，33（6）：61-65.

[11] 羅照盛.項目反應理論基礎[M].北京：北京師范大學出版社，2012：1-3.

[12] GUSTAFSSON J E.Testing and obtaining fit of data to the Rasch model[J].British Journal of Mathematical and Statistical Psychology，1980，33（2）：205-233.

[13] 宋歌. 科學教育中的跨學科素養測評框架建構及應用研究[D].上海：華東師范大學，2019.

[14] 謝云芝，李遠蓉.基于Rasch模型的高中化學學科核心素養測評研究——以“變化觀念與平衡思想”為例[J].化學教育（中英文），2020，41（21）：7-15.

[15] 高靖寒，柏毅.基于Rasch模型的小學四年級科學素養評價研究[J].東南大學學報（哲學社會科學版），2021，23（增刊1）：135-138.

[16] 徐佳敏，沈甸.基于Rasch模型的上海市某區化學高考一模試題分析[J].化學教育（中英文），2021，42（11）：10-17.

[17] 羅德紅，龔婧.Rasch模型在試卷質量分析中的應用——基于五六年級學生閱讀素養前測試卷的質量分析[J].教育測量與評價（理論版），2015（1）：18-22.

Development and validation of a scientificthinking testing tool for ninth grade students basedon physical contexts

TIAN Xue-wei"1，YIN Zi-juan"1，LIU Wen-ke"1 WANG Jing-ying"2

（1.Normal College，Qingdao University，Qingdao，Shandong266017，China;

2.Faculty of Education，Beijing Normal University，Beijing100875，China）

Abstract

Scientific thinking is an important component of the core competencies in the 2022 version of the new curriculum standards.This study developed a tool to evaluate the scientific thinking of ninth-grade students.Based on the Rasch model，the overall quality of the tool was evaluated from aspects such as rater reliability，unidimensionality，test scoring structure，test fit，separation，error statistics，and white map.The results show that the overall reliability and validity of the evaluation tool are high，and the fitting and separation of the test questions meet the requirements，with an error within an acceptable range.The white map indicates that the students’scientific thinking level is weak.Overall，this set of evaluation tools meets the requirements，and the reliability is relatively strong.The testing quality analysis based on the Rasch model also provides a reference for optimizing testing tools.

Keywords

scientific thinking;quality analysis;9th grade students;Rasch models

[責"任編輯孫菊]

收稿日期：2023-05-13

基金項目：北京市教育科學規劃“十四五”優先關注課題（CDEA22008）

作者簡介：

田雪葳（1985—），女，山東青島人。博士，講師，碩士生導師，主要研究方向為技術支持的科學教育。

*"通信作者：

王晶瑩（1980—），女，遼寧營口人。博士，教授，博士生導師，教育部基礎教育教學指導委員會科學教學專委會秘書長，北京學習科學學會科學教育專委會副主任委員，主要研究方向為技術支持的科學教育、教師教育研究。