“證據推理”能力測評工具的開發與檢驗

2024-01-04 10:23:38羅瑪

考試研究 2023年5期

[摘要]“證據推理”能力強調從已有經驗、問題情境中識別、轉換、形成證據，利用證據進行推理，從而獲得結論、解決問題的關鍵能力。基于測量評價理論的探討，確立測評工具研制的思路，利用前期研究中確立的“證據推理”能力的內涵結構，參考PISA試題，研究設計了試測工具。利用效標關聯設計和Rasch分析方法檢驗工具的信效度。根據數據結果對其進行修正，最終形成更為科學、信效度高、實用性好的“證據推理”能力測評工具。研究中測評工具的開發思路和方法，可以為素養、能力測評工作提供一定的借鑒。

[關鍵詞]“證據推理”能力；測評工具；Rasch分析；實證檢驗

[中圖分類號]G424.74[文獻標識碼]A

[文章編號]1673—1654（2023）05—050—011

基金項目本文系浙江省社科規劃課題“基于項目式學習發展學生科學思維能力的跨學科實踐和測評研究”（課題編號：23NDJC133YB）的階段性研究成果之一。

學科核心素養是不同學科培養人的指引，是課程目標，也是評價依據。其中，理科課程對推理思維的培養顯示出高度的重視[1]，在各科目的課程標準文件中有著不同但明確的表達，如數學學科中的“邏輯推理”、物理學科中的“科學思維”、化學學科中的“證據推理”、生物學科中的“理性思維”等。雖然表達各異，但對于科學研究的本質過程與思維要求，學界形成了共識，如“基于事實證據和科學推理對不同觀點和結論提出質疑、批判，進而提出創造性見解”[2]是科學思維的要求，也是科學素養的體現。本研究關注的是“基于證據的推理”能力素養，嘗試開發能夠測評這種構念的工具，并利用實證數據進行檢驗、修正。

在前期研究的基礎上，確立“證據推理”能力這一構念的內涵、結構；與之相匹配，選擇測評工具的內容載體，使每個項目都有明確的水平要求，每個水平層次都有多個項目來測查；結合專家審議的方式初步構建出測評的工具，由此保證其內容效度和表面效度。繼而利用實證校驗（empirical validation）的方式對工具進行質量檢驗，將試測工具與經典的LCTSR（LawsonsClassroomTestofScientific Reasoning）相比較，進行效標關聯效度的檢驗。基于Rasch測量模型對測試數據進行質量分析；依據參數結果，結合訪談，進行項目的修正、優化，最終獲得質量檢驗合格的測評工具。

一、測評對象的內涵結構

測評對象為“證據推理”能力，首先需要對該構念進行界定。結合新課標中學科核心素養的闡釋，及國內外文件中對能力素養的表達，將“證據推理”能力（Evidence-based Reasoning Competence，ERC）定義為：在科學學習中，從已有經驗、問題情境中識別、轉換、形成證據，利用證據進行推理，從而獲得結論、解決問題的能力表現[3]。識別、篩選證據，轉換、形成證據，應用、評價證據等過程是科學探究和科學實踐的重要環節，是科學工作者展開科學研究、得到科學發現的基本過程。關注于“基于證據的推理”能力，也即“證據推理”能力，對科學學習和教學具有重要意義。

基于理論探討和德爾菲調查法，整合“證據”和“推理”兩方面的復雜性，逐步構建形成了可操作的、多水平遞進的“證據推理”能力框架（Framework of Evidencebased Reasoning Competence，FERC）[4]。最終的框架確立了6個水平，在每一級推理復雜性水平之下各有兩個子水平（a與b），在證據復雜性上交叉體現，如表1所示。框架反映了學生“證據推理”能力的不同水平表現，即測評對象的內涵結構。

在此框架中，證據的復雜性（CE）從三個方面去刻畫，涉及證據的顯現程度（以E表示顯性，I表示隱性）、情境熟悉度（以F表示熟悉，U表示陌生），以及所需證據的數量（S表示單一證據，M表示多重證據）；推理的復雜性（CR）劃分為三個層級，初級水平、過渡水平和高級水平。例如，當學生解答問題時，遭遇一個陌生情境（U），線索不明（I），而且所需利用的證據較多（M），在這種復雜性表征的組合情況下（MIU），其解決問題的困難程度自然最高；若學生遇到的是熟悉的情境（F），僅需單一證據（S），而且顯而易見（E），這種證據復雜性（SEF）對思維的要求最低。

二、測評工具的設計

依據測評工具開發的理論基礎，按照研制思路，參照測量構念的水平框架，進行測評工具的設計。

（一）項目編制的原則

測量是以被試對工具項目的作答反應區分被試的能力水平，工具項目的難度表征需從主客體兩方面考慮[5]。被試群體是根據測量理論或實際情況挑選出的樣本，而項目本身的復雜程度則是在工具研制過程中必須設計、考慮的。從項目或工具客體的影響來看，項目的新穎性、邏輯結構[6]、情境設置、任務要求等問題本身的屬性影響著項目的難度，其本質是關系復雜性（relational complexity）的作用[7]。

本研究所關注的是學生在科學領域的能力表現，因此內容涉及科學學習、科學知識方面，這是項目設計可供選擇的情境來源和內容依托。“證據推理”能力的測查項目應注重情境的創設，在解決問題的過程中，從項目的情境中挖掘“證據”，在頭腦中進行轉換，運用推理思維去作答。根據水平框架（表1），證據所依托的內容載體應從顯性/隱性、熟悉/陌生等多個方面去設計。

例如，大型的國際測評項目PISA就是以“能力”測評為核心目標，以“情境”為主要載體，依據包含“能力”“知識”和“態度”的科學框架，開發了科學能力測評工具[8]。一般不要求學過有關的知識，只需根據題目情境、文字說明（提供信息）、圖表（如條形圖）等，加以分析、轉換，提取出有價值的“證據”，結合題目前面所提供的信息（類似于科學常識、道理）建立出正確的關系（運用推理思維），這樣才能正確解答問題[9]。題目的呈現形式和情境要求增加了解答的難度，主要涉及可能不熟悉的情境，甚至非常陌生，是被試解決問題的障礙之一；題目中的圖像解讀，需要被試從中提取“證據”，建立簡單的數學關系或因果關系等，做出推斷。此外，與PISA一樣，還需設計詳細的評分標準和編碼，尤其是對于非選擇題（如建構反應題）。

基于以上分析，項目設計主要遵循了以下原則：①項目中盡量不涉及具體的學科知識要求；②以不同的情境為載體；③以多種形式表現證據及其復雜性，如圖表、文字等混合呈現；④能力要求依據框架而來，水平層次具體而清晰；⑤避免冗長多余的表述增加閱讀負擔等。據此，結合專家小組審議的建議保證基本的表面效度，開發了適于測查學生“證據推理”能力的工具。

（二）項目對應與評分

參考PISA 2006的科學樣題①，初步編制的測評工具共有25個項目，包含12個單項選擇題（P01，P02，P06，P07，P08，P10，P11，P14，P15，P18，P19，P23）；13個建構反應題，其中8個1分題（P03，P04，P05，P09，P16，P17，P20，P25），5個2分題（P12，P13，P21，P22，P24），滿分為30分。工具項目的情境豐富，涉及科學的多個領域，涉及的證據來源于生活現象、實驗現象、科學常識、科學史料、數據資料等。

在項目設計的過程中，需要從顯現度、情境熟悉度和所需證據數量三個方面考慮每道題所呈現的“證據”，確保每道題都有一個水平歸屬，不至于出現某水平上沒有可測的項目，或者某項目的水平不明的情況。試測項目與框架水平的對應情況如表2所示。

例如項目P01，是一道選擇題，正確答案是D。題目涉及的情境是齲齒問題，被試很熟悉，而且解題所需的證據可以直接從題干中獲得，利用簡單的信息即可推理得到“細菌產生酸性物質”，能力水平要求低。而項目P12要求通過實驗情境（以圖示和文字說明）推導出壓強（或壓力）的影響因素，解題的證據并不復雜，但需要從圖中對比、轉換才能獲取（a與b相比增加了重量或質量），比較隱性，而且相比于齲齒、沙灘或雪地上的行走，被試并不熟悉利用小凳子和海綿做實驗的這種特定情境，下一步做出正確推理，回答出影響因素并不難。項目P12是建構反應題，獲得滿分（2分）還需要正確、完整地回答出因素與結果之間的關系，可參考評分標準示例。

項目示例（P01）：

生活在我們口腔中的細菌會導致齲齒（牙齒蛀蝕）。對于齲齒，我們查找到以下信息：

·導致齲齒的細菌以糖為食物；

·糖能轉化成酸性物質；

·酸性物質會破壞牙齒表面；

·刷牙對預防齲齒有幫助。

（1）（1分）為什么細菌會造成齲齒？（）（P01）

A細菌產生琺瑯質B細菌產生糖

C細菌產生礦物質D細菌產生酸性物質

項目示例（P12）：

人在沙灘或雪地上行走，會在沙灘或雪地上留下腳印，即壓力會使物體的表面產生凹陷的效果。為探究影響壓力效果的相關因素，開展實驗（如下圖所示），通過比較海綿凹陷的程度，得出結論。

（1）（2分）對比a與b，你能發現影響壓力效果的因素之一是什么？并請用一兩句話描述這個結論。（P12）

評分標準示例（P12）：

以下回答計2分：正確回答了因素，并且正確描述或對比了現象及壓力大小的作用效果。

·可能的回答：因素是重物（壓力）的大小（多少）；受力面相同時（或描述出圖a與b都是凳子腳作用于海綿），壓力越大（或說明加上重物），壓力的作用效果越明顯。

以下回答計1分：正確回答了因素；但僅描述或對比了現象，未描述作用效果與壓力大小這個變量之間的關系。

·可能的回答：因素是重物（壓力）的大小（多少）；圖a壓得淺，圖b壓得深。

以下回答計0分：因素回答錯誤（即使現象對比的描述正確，也計為完全錯誤）；或因素與現象對比均錯誤；或僅作答一部分且錯誤。

·可能的回答：因素是接觸面；重物大，作用效果明顯。

未填答記-3（缺失值）

在統計編碼時，將沒有作答的記為缺失值（編碼為-3），而非賦0分；得分即編碼數字；選擇題回答正確則編碼為1，錯誤為0，未作答的缺失情況同樣編碼為-3；卷面最低得分為0，最高分為30分。

三、測評工具的檢驗

除了利用專家審議的方法保證工具的內容效度、表面效度之外，還應運用試測收集實證數據的方式進行質量分析。本研究進行了試測，使用效標關聯的方法及Rasch測量模型進行數據分析。

（一）試測概述

在正式的試測之前，挑選部分樣本進行了小范圍測試，以檢視ERC工具施測時可能發生的情況，如測試時長、學生閱讀題項所遇到的問題等。之后挑選樣本進行試測，基本流程和數據處理方式概述如下。

1.測試實施的流程

以效標關聯效度（criterion validity）為指標檢驗“證據推理”能力（ERC）測評工具的實用效度（pragmatic validity）。許多研究采用LCTSR[10-11]進行推理能力的評價和分析，其內容效度已然得到證實[12-13]，因此可以將LCTSR作為一個基準，來檢視另一個測量工具，以二者的相關性來說明新的測量工具是否具有效標效度。

試測包含兩次測試。首先利用LCTSR對被試樣本進行測試，回收測試數據；在一周后，對同一批樣本進行“證據推理”能力的測試。在兩次測試過程中，由班主任或任課教師主試，向學生簡要說明測試的基本情況，強調根據題目信息進行作答（兩次測試的卷首位置均提供了說明），測試時間均為30分鐘。

2.試測的樣本選擇

兩次測試的樣本來自S市的兩所初級中學（YC與YL），包含八、九兩個年級，這兩所中學的基本情況類似，教學質量位于區內中等水平，數據分析時，并不比較學校差異，將樣本混合進行整體考查。

發放的測試卷共有627份，其中YC中學248人，八年級154人，九年級94人；YL中學379人，八年級186人，九年級193人。剔除未作答的答卷（缺失處理），前后兩次測試的有效樣本率均達到95%以上。被試的基本情況如表3所示，參加LCTSR測試的有效樣本數為N=582，ERC測試的有效樣本共有593人，兩個測試均是男生略多于女生，8年級略多于9年級。

3.數據的處理方式

施測之后，評閱所收集的問卷，評閱人為課程與教學論專業的博士生1名、碩士生1名，評閱之前對其進行培訓和指導，嚴格按照評分標準進行。對于建構反應題，評判不一致時需互相商議，仍無法達成一致則交由專家組決斷。

以LCTSR測試的結果為標桿，與同樣本下的ERC測試結果相比對，計算相關系數表征后一工具的效度。然后，運用Rasch測量模型對本輪試測結果進行具體分析，以期對ERC測評工具進行質量檢驗，更為重要的是獲得工具修正的依據。

（二）試測結果

按照第二輪試測的流程，利用SPSS 22.0對測試的數據進行描述分析和校標效度檢驗，利用WINSTEPS 3.72.0進行Rasch分析。

1.描述統計與效標效度

信度系數為Cronbachsα=0.809（N=593），表明ERC測評工具的內部一致性信度良好，可以認為25個項目所測查的是同一種構念[14]。

將ERC與LCTSR測試進行匹配，共計552名被試作答了兩次測試，二者得分的相關系數為0.527（Pearson積差相關），統計顯著（p = 0.000，N=552），即顯著的中度相關，說明用于試測的ERC測評工具具有較好的實用效度。

總的來說，SPSS分析獲得的信效度系數反映試測工具的質量良好。對于“證據推理”能力這一構念，它與科學推理能力既有共性，又有區別。與測量科學推理能力的LCTSR工具有顯著的相關性即可印證二者的共同之處，說明試測工具能夠對學生的“推理能力”構念進行測評；而本研究的ERC測評又不只如此，其研究的問題或對象是學生在科學學習領域，基于“證據”進行“推理”的能力。

2.Rasch分析的結果

參考WINSTEPS使用手冊及Rasch模型應用的實證研究[15]，對試測數據進行統計和分析，參照比對使用手冊中的參數指標進行評價。

（1）總體質量分析

將所有的觀測值數據（N=627）導入WINSTEPS中進行運算，軟件自動識別出缺失（missing）或缺少作答（lacking responses）的觀測值34個，即共計593個被試（person）的回答視為有效（valid responses），所有25個項目（item）均被估算，結果如表4所示。在Rasch模型中，將項目的難度估計值（Measure）固定為0，此時被試的Measure即反映了被試的平均能力水平，就本研究而言，即被試的ERC水平為0.35（Rasch分），略高于項目難度值，差距并不大，說明該工具項目合適于該輪試測樣本的ERC測評。

結合表中的其他參數可以說明工具的總體質量，這些參數均有其可以接受的取值范圍。模型誤差（Model Error）反映了實際觀測值與理論模型值之間的差異，被試和項目的誤差值均較小，接近于0，說明利用工具收集的觀測值（observation）能夠較為準確地反映真實情況，即學生的ERC；Infit與Outfit反映的是觀測數據與模型之間的擬合度，分別包含MNSQ與ZSTD兩個值，對本研究的被試和項目而言，其MNSQ趨近于1，ZSTD趨近于0，皆十分理想（perfect），說明ERC測評工具的觀測值與Rasch理論的理想模型適配良好；分離度（Separation）參數表示工具項目區分被試能力的程度，值越大說明區分得越好，從表中可以看到，項目的分離度大（9.98），被試的分離度接近于2（1.92），在可以接受（acceptable）的范圍[16-17]；信度（Reliability）系數說明的是觀測結果的一致性、穩定性，信度愈高表示測量誤差值愈低，進行某個構念的測評時，希望所獲得的觀測值不會因形式或時間的改變而有所變動，試測工具的項目難度測量信度值（0.99）趨近于1，被試能力測量的信度（0.79）低于項目信度，但仍屬于信度良好的范圍內。

基于Rasch模型假設，以上參數結果說明ERC試測工具的總體質量特征良好。但在被試分離度上略有欠缺，而且有可能存在其他未能反映的問題，還需進行深入細致的檢驗和分析。

（2）單維性的分析

滿足單維性（unidimensionality）是“好測量”（good measurement）的特征之一，將試測后的觀測值進行多維度檢查（multidimensionality investigations），得到標準化殘差分析的有關數據（表5）。

Rasch測量模型是利用基于標準的主成分分析（PCA，principle components analysis）（正交不旋轉）對原始分（raw score）進行檢驗。在以上標準化殘差表中，無法解釋的原始總方差（Raw unexplained variance）下的“對比”（contrast）最為關鍵，它反映了按照主成分分析能否分解出某成分（component）或因素（factor）不能由Rasch測量解釋，但這些成分或因素又需要被解釋。當第一個成分的殘差大于2時，則需要進一步審視項目的觀測值，找到是什么原因產生了這個“脫離”維度（off-dimensional）的成分。單維性即檢測是否有可能的“威脅”存在，存在非Rasch模型才能解釋那些“無法解釋”（unexplained）的部分，而這正是表中的“對比”（contrasts）所報告的內容。

就本研究的試測工具而言，第1個成分的殘差為1.8<2，滿足單維性要求，說明工具項目經Rasch模型檢驗，即使是“無法解釋”的部分也未發現威脅Rasch測量的因素，可以認為觀測值都能夠由Rasch測量下的項目難度、被試能力及評定結構等進行解釋。根據表中的數據，測量所能解釋的原始方差（Raw variance explained by measures）占原始分數總體方差（Total raw variance in observations）的31.6%，不算很高，但是因為不存在第2個維度，則數據在統計意義上仍是可控的，方差解釋率良好，可以不必修正工具或樣本[18]。

按照對數尺度（logarithmically scaled），以表中方差值的百分比為縱坐標，呈現出各成分方差的碎石圖（圖1）。圖中字母T、U、M、P、I代表的是不同方差；數字1～5則表示分解的可能成分（components），它們所占百分比皆在3%～4%，由圖可以清晰地比對出各自的差異不大，再次印證了試測工具的項目僅測量了一個ERC構念。

為探查測評工具中更加細節的問題，提供工具完善的線索和方向，對25個項目進行了具體的分析。圖2所示的標準殘差對比圖（Standardized Residual Contrast Plot）直觀呈現了所有項目的載荷系數（loading）與項目難度估計值（item measure）的關系。圖中的字母表示的是不同的項目，此處共有25個，當縱坐標的數值超過[-0.4，0.4]區間范圍時，即不滿足單維性檢驗。

由圖2可知，項目A（P12）、B（P13）與C（P21）超出規定的參數范圍，需要在工具優化的過程中重新審視，仔細考慮是否存在其他因素影響這些項目對于ERC的測查。

（3）項目作答分析

對于工具所有項目的作答情況，可以進行細致對比分析，例如對于選擇題，某些選項如無人選擇，則需重新考慮選項的設置。而本輪試測中，所有選擇題（共12個單項選擇的項目）的選項均有被試作答。

建構反應評分題，包括012計分題（5個）及01計分題（8個）。如圖3所示，以012計分題的作答概率曲線為例，橫坐標表示的是被試能力與項目難度估計值之間的差值（Person [MINUS] Item MEASURE），縱坐標表示對被試作答評分（0，1，2）的概率。在臨界值（threshold）位置，被試獲得兩種分數的概率相等，即曲線交叉處的縱坐標相等。圖示的3條曲線界限明顯，能至少涵蓋[-3，3]的能力區間，并在恰當的能力點有峰值，如能力最高的被試獲得最高分（3分）的幾率最大，或者說能力最高的被試才最有可能獲得最高分。根據項目的作答曲線，本輪試測工具在各評分等級之間區分度較好，能夠合理說明不同能力學生的得分幾率的大小，符合Rasch模型的基本理論假設。

此外，基于Rasch模型對觀測項目的分布及擬合情況進行分析，結果發現，除了少數項目需要再修正，工具能夠基本涵蓋被試樣本的能力水平，與模型擬合較好，對于ERC這一構念的考查和估計是“有效的”。至此，通過LCTSR測試及ERC試測，對測評工具進行了質量分析，數據結果表明，該工具的信效度良好，滿足Rasch理論模型的假設，但仍有一些項目需要修正、完善。

四、測評工具的修正

基于Rasch模型對ERC測評工具進行質量分析的過程中，不僅獲得了工具質量的參數，也發現了存在問題的項目。在項目修正過程中，主要依據量化的數據結果，同時還調查了答題者的實際感受，由此更加全面地考慮如何改進工具的項目。總體來看，試測工具的項目修正主要涉及剔除質量較差的項目，修改計分題的評分標準，或者改變題型和試題表述等方面。

在數據支持和訪談分析相結合的基礎上，我們修正了其他單維性不良、水平不一致、擬合指數不好的項目。我們也重新梳理了各項目的表述、措辭，某些項目的復雜性編碼、能力水平的歸屬等。而且在細節的修改上，質性的訪談方法更為有效。例如，項目P14預設的證據復雜性編碼為MEF，即需要多重的、顯性化證據，題目情境是面包制作過程中的發酵這類生活現象，屬于熟悉的情境。但經訪談發現，學生并不熟悉面團發酵，訪談對象表示“聽說過這個詞，不過不懂”“猜測應該是有氣體產生”等。可見，該項目的情境熟悉度并不符合預設，其證據復雜性編碼應為MEU。定量的數據結果與質性分析的合理結合有助于挖掘數據表層之下的意義，這些修正、調整對準確、深入分析學生的能力表現很有必要。

經過檢驗和優化，最終形成的ERC工具包含23個項目，滿分25分，與框架水平的對應情況如表6所示。

五、結語

本研究從測量理論的闡釋出發，擇定以IRT為指導，采用紙筆測驗，以Rasch模型為數據檢驗的方法，確立了ERC測評工具研制的思路，并依此進行具體的描述和討論。結合專家審議，依據“證據推理”能力的內涵結構，以盡量少的學科內容要求和情境創設為準則，參考PISA試題，編制了試測工具。其后利用實證方法檢驗工具的信效度，此處包含效標關聯效度的設計，以及Rasch分析方法的應用，以求更加科學全面地實施工具檢驗。

在效標關聯效度的驗證及Rasch模型的數據檢驗之下，得到了工具質量良好的結論，同時也獲得了工具修正的線索和啟發；針對試測工具中值得重新審視的項目，從評分標準、題型、情境表達等方面予以改進，甚至剔除，以求獲得更為科學的、信效度優秀的、實用性好的測評工具。

研究采用的測評工具開發思路和方法，可以為素養、能力測評工作提供一定的借鑒和啟發。本研究所開發的工具不依托于某特定學科，以求單純考查學生的關鍵能力，因此能適用于物理、化學等多個科學學科，在實際教學評實踐中，也可根據需要進行適當改編。但工具的應用、推廣，也需要更大樣本的測量調查。而且，測量過程中所挑選的樣本，所應用的統計方法對工具質量及樣本表現的分析等都有影響，對各種質量參數的結果也需謹慎采納，有必要結合深入的質性分析技術，實現進一步的優化。

參考文獻：

[1]核心素養研究課題組.中國學生發展核心素養[J].中國教育學刊，2016，（10）：1-3.

[2]教育部.普通高中物理課程標準[M/S].北京：人民教育出版社，2017：4-5.

[3]羅瑪.從科學推理到證據推理：內涵的探討[J].化學教學，2019，（09）：3-6.

[4]羅瑪.“證據推理”能力的水平框架構建——基于德爾菲調查[J].化學教學，2021，（03）：13-18.

[5]羅瑪，王祖浩.教育考試中試題難度的測評研究——影響因素、評估方法及啟示[J].教育測量與評價，2016，（9）：52-57.

[6] Fynewever H. A Research Methodology for Studying What Makes Some Problems Difficult to Solve [J]. International Journal of Science Education，2010，32（16）：2167-2184.

[7]辛自強.關系-表征復雜性模型的檢驗[J].心理學報，2003，35（4）：504-513.

[8] OECD. Measuring Student Knowledge and Skills：The PISA 2000 Assessment of Reading，Mathematical and Scientific Literacy. Education and Skills [Z]. Sourceoecd Education & Skills，2000.

[9] OECD.Cresswell J，Vayssettes S.Assessing Scientific，Reading and Mathematical Literacy：A Framework for PISA 2006 [Z]. 2006.

[10] Lawson A E.The Development and Validation of A Classroom Test of Formal Reasoning [J]. Journal of Research in Science Teaching， 1978，15（1）：11-24.

[11] Lawson A E. The Generality of Hypothetico-deductive Reasoning：Making Scientific Thinking Explicit [J]. American Biology Teacher，2000，62（7）：482-495.

[12] Bao L，Cai T，et al. Learning and Scientific Reasoning [J]. Science，2009，323（5914）：227-237.

[13] Lee C Q，She H C.Facilitating StudentsConceptual Change and Scientific Reasoning Involving the Unit of Combustion [J].Research in Science Education，2010，40（4）：479-504.

[14]榮泰生.AMOS與研究方法[M].重慶：重慶大學出版社，2010：81-83.

[15] Sondergeld T A，Johnson C C.Using Rasch Measurement for the Development and Use of Affective Assessments in Science Education Research [J]. Science Education，2014，98（4）：581-613.

[16] Lamar M M.Using and Developing Measurement Instruments in Science Education：A Rasch Modeling Approach [J]. Science Education，2012，96（1）：183–185.

[17] Mok M M，Cheong C Y，Moore P J，et al.The Development and Validation of the Self-directed Learning Scales（SLS）[J]. Journal of Applied Measurement，2006，7（4）：418-449.

[18] Linacre J. M. A Users Guide to WINSTEPS / MINISTEP：Rasch-model Computer Programs [M]. Chicago，IL：WINSTEPs. com，2011：333-337.

The Development and Validation of the Measurement Instrument of the Evidence-based Reasoning Competency

Luo Ma

College of Teacher Education，Ningbo University. Ningbo，Zhejiang，315211

Abstract：Thecompetencyof“Evidence-basedReasoning”（EBR）emphasizedtheidentification，transformation and formation of scientific evidence，using evidence to reason and reach a conclusion，leading to the problem-solving. This study begun with the discussion of the theory on measurement and evaluation in order to identify the process of instrument development.Based on the structure of the construct of EBR competency，according to our previous study，and the PISA instrument，this study designed an instrument for pilot test.It used the criterion-related examination and Rasch analysis to test the reliability and validity of the instrument after the pilot test.According to the data results，the modification of the instrument was conducted to obtain the valid and reliable，practical and scientific instrument for EBR competency measurement.And the development process and method applied in this study would provide some reference and inspiration for ability assessment and measurement.

Key words：Evidence-based Reasoning（EBR）Competency，Measurement Instrument，Rasch Analysis，Empirical Examination

①PISA 2006科學的樣題，來源鏈接為https：//www.docin.com/p-53392617.html。