基于Rasch模型的反直覺力學測試（CIDT）質量評價及其對中國學生的適切性研究
——對733名高中生測試數據的分析

2022-07-14 07:16:44李拉拉鄧金祥李太華

考試研究 2022年4期

李拉拉鄧金祥李太華

物理學中有大量的概念、規律與學生的直覺相悖。當新的物理概念與先前的認知沖突時，學生常常難以接受[1]，因為在潛意識里他們更相信自己的直覺，而不是習得的物理概念與規律。反過來，一些反直覺的物理問題，也往往會挑戰學生潛在的錯誤概念或思維定式[1]，促進學生質疑創新思維的發展。反直覺問題（counterintuitive problem）通常是指其答案或解決方案超出學生預期的問題[2]。這類問題看起來有一個顯而易見的答案，也稱常識性回答，但其正確答案卻與常識性回答相反[3]。有研究表明，利用反直覺物理問題能使學生形成認知沖突并激發學習興趣[4]，有效考查學生的概念理解程度[5]，有助于開展問題解決與概念轉變等方面的研究。

我國《普通高中物理課程標準（2017年版）》強調教學要增強學生創造性地解決實際問題的能力。而實際情境中的物理問題大多具備反直覺特征，需要學生具備突破思維定勢，實現質疑創新的意識和能力。因此，從提高學生物理概念與規律學習遷移能力、促進實際問題解決能力提升的培養需求角度，開展反直覺問題的研究極具現實意義與實踐價值。Nuri Balta 等人在綜合了一系列相關研究成果的基礎上，開發了反直覺力學測試（Counterintuitive Dynamics Test，簡稱CIDT）[2]，用于評估學生反直覺力學問題的解決能力，成為與國際上廣泛使用的力學概念測試（Force Concept Inventory，簡稱FCI），用于開展力學概念測試與問題解決的教學和研究。作為一個新開發的量表，CIDT 的質量如何，是否適切于中國學生，在國內開展探索其教學與科研價值的研究工作之前，有必要對其進行科學的檢驗。

一、反直覺力學測試

反直覺力學測試（CIDT）與力學概念測試（FCI）類似，由30 道單項選擇題構成，內容涉及牛頓三大定律，如表1所示。

表1 CIDT中的力學概念分布

CIDT 將反直覺問題作為載體，考查學生的反直覺物理問題解決水平。以第24題為例，如圖1所示，學生通常會認為t1=t2，因為直覺告訴他們，甲、乙兩種情況具有相同的光滑表面和粗糙表面，盡管順序不同，下落的時間應該是一樣的。但實際上，前一半路程木塊從光滑表面下滑，相對于粗糙表面，在中間位置的速度更大；且由動能定理可知，甲、乙兩種情況下木塊到底端時末速度相同，所以后一半路程，甲情況下的平均速度也大于乙。兩段時間相加可得t1＜t2，故選C。

圖1 反直覺力學測試（CIDT）第24題

二、研究設計

（一）研究對象

反直覺力學測試（CIDT）原為英文版，為了考察其質量及對中國學生的適切性，本研究先對CIDT 進行中文翻譯，并進行小樣本測試，再根據學生的作答情況組織語言學專家與學科專家進行語義修訂，最終得到CIDT 漢譯版。本測試采用CIDT 漢譯版，由專業人員在課堂上監督完成，測試時間為40 分鐘，計分方法為獨立記分法，即每答對一題計1 分，答錯計0分。

（二）被試

本研究選取四川境內的四所高中進行測試，包括瀘州市某重點私立學校、廣安市某重點公立學校、南充市某重點公立學校和一所普通公立學校。被試為已經學習了牛頓三大定律的高中普通班學生，共計733人，其中高一347人、高二386人。

（三）研究工具

本研究采用單維Rasch模型評估CIDT漢譯版的質量，并利用Winsteps4.4.6 軟件進行分析，輸出結果包括整體質量檢驗、懷特圖、各項目擬合分析、氣泡圖等。

Rasch 模型最早是由丹麥數學家喬治·拉希（Georg Rasch）在項目反應理論基礎上提出的用于測量被試潛在特質的概率模型[6]。Rasch模型是一種理想化的數學模型，采用個體能力（Bn）、題目難度（Di）以及個體n 正確作答題目i 的概率（Pni）的數學函數來表示，表達式是：

圖2 Rasch模型數學關系函數圖像

被試是否能正確回答某一問題完全取決于被試的能力與題目難度之間的差異。當被試能力與難度相當時（Bn= Di），被試n 答對題目i 的概率為0.5；當被試能力遠低于項目難度時（Bn＜Di），被試答對題目的概率趨近于0；當被試能力遠大于項目難度時（Bn＞Di），被試答對題目的概率趨近于1。

Rasch 模型具有被試與題目共用標尺、線性數據、參數分離等特點，所以與經典測試理論相比，更具優勢[7]。

三、研究結果

（一）測量工具整體質量檢驗

將實驗測得的原始數據導入Winsteps4.4.6 軟件進行整體質量檢驗，其中包括難度估計值（Measure）、項目擬合（Infit 和Outfit）、信度（Reliability）以及分離度（Separation）等指標，具體參數如圖3所示。

圖3 整體質量檢驗結果

Rasch 模型將項目難度均值設定為0。從圖3 可知，誤差（S.E）為0.09，低于0.4，趨近于理想值0。從擬合度指標來看，Infit MNSQ 和Outfit MNSQ 分別為1.00 和1.03，Infit ZSTD 和Outfit ZSTD 分別為-0.4和-0.1，均在理想范圍內，說明本次數據與Rasch 模型擬合程度較好。從分離度指標來看，項目分離度是10.40，大于2，表示CIDT 漢譯版能較好地區分被試的能力。項目的信度為0.99，大于0.7，信度較高。從上述各項參數指標可以看出測量工具整體質量較好。

（二）學生能力與CIDT難度匹配情況檢驗

Rasch模型通過對數轉換，將項目難度和被試能力標定在同一把量尺上，生成項目-被試對應圖，又稱懷特圖，如圖4所示。懷特圖中間的豎線為logit線性量尺，M（Mean）是均值，S（One Standard Error）指距離均值一個標準誤差，T（Two Standard Error）指距離均值兩個標準誤差。左側分布的是被試的能力水平，每一個“#”代表6 個被試，不足6 人用“·”表示。右側是CIDT漢譯版中30道題目的難度分布情況。從下往上看，被試的能力水平和試題難度均逐漸升高。

圖4 懷特圖

從圖4 可以看出，測試項目分布合理，不存在明顯的扎堆現象，項目難度分布較廣；被試呈現出中間多兩邊少的正態分布狀態；從被試與項目對應來看，被試能力水平的均值M 略低于項目難度均值，比較接近，表明測試的整體難度適當。被試的能力分布范圍約為4.6 個logit，試題的難度分布范圍約為4.1 個logit，大部分被試都有與之對應的題目，所以CIDT 漢譯版的難度基本能涵蓋到全體被試的能力。

（三）單維性檢驗

對Rasch 模型的分析需要符合單維性的基本假設，即測試項目僅考查被試的一種能力或潛在特質。通過圖5 所示的標準殘差對比圖，可以直觀地看出測試項目的單維性。圖中30 個大小寫字母分別對應一個測試項目，橫坐標表示項目的難度區間，縱坐標表示該項目與其他能力或潛在特質的相關系數。一般認為因子載荷（Contrast Loading）在-0.4～0.4 之間表明該項目單維性較好。

圖5 標準殘差對比圖

從圖5 可以看出，項目A 和B 超出了理想范圍，說明這兩個項目可能受到了其他因素的影響，但其他項目均在可接受范圍內，故從整體來看符合單維性假設，這表明CIDT 漢譯版能夠有效測試出被試解決反直覺力學問題的能力。

（四）各項目擬合情況分析

通過Rasch模型處理數據，不但能夠得到測量工具整體的質量情況，還能得到每個項目的詳細信息。表2 反映了CIDT 漢譯版中30 個項目的擬合指標統計情況，包括項目難度（Measure）、相關系數（PTEMEA）、未加權均方擬合統計量（Outfit MNSQ）、加權均方擬合統計量（Infit MNSQ）和標準化均方擬合統計量（ZSTD）等。

從表2 可知，30 個項目的難度范圍在-1.75～2.41logit 之間，跨度為4.16 個logit。誤差在0.08～0.13 之間，說明項目難度的估計值較為可靠。除了第3 題的Outfit MNSQ 為1.65 略大于1.5 外，其他各題的Infit MNSQ 和Outfit MNSQ 均在理想范圍內，且趨于理想值1。大部分ZSTD 統計量的絕對值偏大，超出了理想范圍，是因為ZSTD 值易受樣本容量影響。而本研究的樣本量較大，用Rasch模型進行分析時，導致大部分被試和項目都顯著失配，因此這里的ZSTD 值不具有參考意義[8]。相關系數（PTMEA）在0～0.53范圍內，且均為正值，表明各個項目與試卷的測量目標相一致。綜合各項指標來看，CIDT漢譯版中各項目與模型擬合度較好。

表2 各項目擬合情況統計表

（五）項目氣泡圖分析

圖6 是項目氣泡圖，它可以直觀地顯示各項目與模型的擬合程度以及測量誤差。橫坐標為未加權均方擬合統計量（Outfit MNSQ），橫軸中的Overfit（＜0.50）表示的是數據的變異量小于Rasch 模型的預期，Underfit（＞1.50）代表的是數據的變異量大于Rasch模型的預期[9]；縱坐標為項目難度估計值，從下往上難度逐漸增加。圖中每一個氣泡代表一個題目，氣泡的大小代表標準誤差的大小，氣泡越大則標準誤差越大，測量的誤差越大。

圖6 氣泡圖

由圖6 可見，第3 題難度最大，第22 題難度最小，且除第3 題外的所有試題的擬合度都落在可接受范圍內。其中第3 題氣泡較大，說明其難度估計值的誤差較大。本氣泡圖所呈現的結果與表1 能相互印證（具體題目可參考附錄）。

四、結論與討論

本研究基于Rasch 模型，應用Winsteps 軟件對CIDT 漢譯版進行質量檢驗。通過對測量工具整體質量參數、單維性、項目擬合、以及懷特圖和氣泡圖等指標的分析，得到以下結論。

CIDT 漢譯版整體質量較好。試題難度均值與被試的能力均值不相上下，所以試題的整體難度設置合理，而且難度分布比較均勻，能與不同水平的被試相匹配；試題的分離度較高，遠超理想值，說明該試題能有效區分不同能力的被試；除第3 題的Outfit MNSQ 指標超出理想范圍外，其余各項目的測試數據與模型擬合度較高，說明本研究中被試實際作答反應與模型的預期結果一致。

CIDT 漢譯版能有效測量被試的反直覺力學問題解決能力。基于Rasch模型的分析，需滿足單維性假設，即測試的項目僅能測試出被試的一種能力或潛在特質。從單維性檢驗的情況來看，除了A、B 兩個項目（分別對應第28題和第23題）以外，絕大多數題目都在理想范圍內，較好地滿足單維性假設。

CIDT 漢譯版中個別題目有待進一步觀察或優化設計。第23、28 題的單維性指標略超出理想范圍，說明這兩道題測量反直覺力學問題解決水平的有效性偏弱，在今后的測試中需要進一步觀察；第3題的Outfit MNSQ 指標超出理想范圍，說明第3 題的測試數據與模型欠擬合，其原因可能是部分低能力水平的學生正確回答了該題目，而部分高能力水平的學生錯誤地回答了該題目。同時結合難度指標來看，第3 題的難度最高，所以學生在作答該題時，猜測的成分比較大。在今后的研究中，對指標異常的題目，不提倡直接刪除，應該結合經典測試理論和學科知識進行判斷，再進一步觀察或優化。

綜上所述，本研究利用Rasch 模型對CIDT 漢譯版的質量進行了檢驗，結果表明該量表適用于我國高中學生。然而在解決了CIDT 適切性的問題后，如何利用該量表考查我國學生反直覺問題解決水平的發展趨勢，及其內在的認知機制與差異等問題，則亟需深入研究。

基于Rasch模型的反直覺力學測試（CIDT）質量評價及其對中國學生的適切性研究——對733名高中生測試數據的分析