基于項目反應理論的高中化學測試卷的編制

2012-12-29 00:00:00王星喬滕瑛巧

化學教學 2012年4期

　　摘要：基于項目反應理論，以高中化學平衡測驗的編制為例，探索了化學測驗的編制方法。首先，基于高中化學課程標準、考試大綱、高考試題等文本材料，構建了化學平衡內容的屬性模型；其次，編制了3份化學平衡的預測卷，利用項目反應理論軟件——BILOG-MG3.0，估算每個項目的難度、區分度、信息量等參數和被試的能力值（θ）；最后，基于信息函數的測驗編制法，組建了一份效度較好、信度較高的測驗卷。
　　關鍵詞：項目反應理論；化學測試；化學平衡；試卷編制
　　文章編號： 1005–6629(2012)4–0056–04 中圖分類號： G633.8 文獻標識碼： B
　　 1 引言
　　學生學業的認知診斷，類似于醫院的醫生給病人看病。當我們用診斷性測驗來探測學生的“病情”時，我們希望診斷性測驗準確、穩定，具有較高的信度、效度，不隨被試人群不同而變化。顯然，以經典測量理論為指導的傳統測驗不能達到上述目的，這是因為經典測量理論的理論基礎嚴重依賴于被試：項目的難度用學生的通過率表示，項目的區分度則以題目與總分的相關或高低能力組的通過率之差表示，測驗信度建立在平行測驗基礎之上。如何解決上述問題，克服經典測量理論的先天不足？項目反應理論應運而生。
　　 2 項目反應理論簡介
　　項目反應理論（Item Response Theory，簡稱為IRT）是在克服經典測驗理論的局限性上發展起來的一種現代心理與教育測驗理論。它以考生對題目的作答模式為依據，將考生在項目上的答對概率和潛在特質，以及項目的參數（如難度、區分度和猜測度），以概率模型的形式確定下來，估算出不依賴于項目樣本和考生樣本的能力值和項目參數，而且考生的能力值與項目的難度值定義在同一等距量尺上，這就給組卷時針對被試水平選擇相應難度項目提供了極大的便利。
　　2.1 項目反應理論的基本假設
　　項目反應理論與心理學上的潛在特質理論緊密相關，有3個基本假設：（1）潛在特質的單維性，即測驗僅測被試的一項特質（知識、技能、人格等）。單維假設是不能嚴格滿足的，因為總會有一些認知的、人格的影響測驗表現，只要有一個主導因素即可；（2）局部獨立性假設，它指考生對每道題目的作答行為相互獨立，考生之間的成績互不影響；（3）項目特征曲線假設（Item Characteristic Curve，簡稱ICC），ICC反應了被試對某一測驗項目的正確反應概率與該項目所對應的特質或能力水平之間的一種函數關系，這種函數關系稱為項目反應模型[1]。
　　2.2 常用模型和項目參數
　　到目前為止，項目反應理論已經提出了許多模型，其中最成熟、最常用還是logistic模型。根據參數估計所涉及的個數，可分為單參數模型，只估計項目難度；雙參數模型，估計項目難度和區分度；三參數模型，估計項目難度、區分度和猜測度。項目反應理論中項目參數的含義與經典測量理論項目參數的比較見表1。
　　圖1中橫軸表示被試的能力量尺，b表示項目的難度參數，可見被試的能力值和項目難度值在同一量尺上；縱軸表示不同能力被試答對該項目的概率；截距表示項目的猜測參數，它的值越大，說明能力水平低的被試更容易猜對項目。因此，利用ICC曲線，只要已知考生的能力值，就可預測出被試可能答對某個項目的概率。
　　2.4 信息函數
　　一般來說，信息可以看成是不肯定性的消除，當信息量增大時，這種不肯定性會隨之進一步消除。項目反應理論用信息函數來代替經典測量理論中的信度概念。項目信息函數曲線如圖2所示。橫軸表示被試的能力量尺，縱軸表示項目針對某一被試特質水平θ所能提供的信息量，隨θ取值的不同而變化。信息函數還具有如下重要性質：（1）每個項目在某一特質水平處所能提供的信息量，還受項目自身特性的影響，區分度越大，所能提供的信息量越多；（2）每個項目所提供的信息不受其他項目的影響，測驗中各項目均獨立地對測驗總信息作貢獻；（3）測驗信息函數在某一特質水平上的值的平方根的倒數，就是該點特質水平估計值的估計標準誤[1]。
　　 3 研究方法
　　3.1 認知屬性模型的構建
　　認知診斷根據測驗的觀察分數推斷被試的心理結構，需要施測者將想要了解的認知屬性投射在測驗中。研究表明，基于認知屬性模型編制診斷性測試卷較之傳統的測試卷編制方法具有結構效度上的優勢[2]。本研究以化學平衡內容為載體，認知屬性模型以Tatsuoka所構建的TIMSS數學測試認知屬性模型為框架[3]，以高中化學課程標準、考試大綱、高考試題等文本性材料為內容素材，構建了包含5個知識內容屬性、8個過程技能屬性的化學平衡屬性模型。
　　3.2 項目的編制及預測卷的形成
　　在項目的編制過程中遵循以下基本原則：一是依據化學平衡屬性模型；二是能實現對每個屬性的多次觀察；三是難度適中。歷年高考化學試題具有較高的信度和效度，所以關于化學平衡的高考測試題是本研究選編測試項目的主要來源，共選編了75個項目。選編好試題之后，征求了測試對象的任課教師的意見，并根據他們的反饋意見刪除了部分項目，并對部分測試項目作了修改，共保留65個項目，以確保測試項目的科學性和有效性。為了使所有的項目具有同一性，最好的辦法就是使這些項目都在相同的被試上實施，但是這是不現實的，因為這樣做不僅需要耗費大量的時間，另外被試的疲勞和倦怠也會對測驗結果產生不良影響。因此，本研究采用項目反應的鉚試題等值技術，從編選的65個項目中挑選5個作為鉚試題，其余60個按照上述編制試題的原則分布在測試卷1、測試卷2、測試卷3等3套試卷中，每套試卷各包括25個項目（其中含5個鉚題）。
　　3.3 測試對象
　　被試均是高二學生，完成了化學平衡內容的學習，具體構成如表2所示。發放測試卷520份，收回520份，剔除無效試卷19份，最后得到有效試卷501份。
　　3.4 測試過程
　　在各學校以班級為單位進行集體施測。采用紙筆測試，由各班級的化學教師擔任主試，測試前跟學生交代這是一次考試，但不限制作答時間，做完測試題即可上交。從實際情況來看，能一小時左右完成的學生居多。
　　3.5 測試數據的評分
　　施測的測試題有選擇題、填空題等，但這些測試題均是以（1、0）形式計分，答案對計1分，答案錯或者沒有作答均計0分。
　　3.6 統計處理
　　本研究使用BILOG-MG3.0軟件進行項目參數的估計，測驗等值及項目信息函數的估計，用SPSS 13.0軟件進行因素分析等。
　　 4 研究結果與討論
　　4.1 單維性假設檢驗
　　本文采用SPSS 13.0中因素分析主成分方法對數據進行單維性檢驗。從表3可以看出：3套預測卷的KMO檢驗值均大于0.7；Bartlett球形檢驗的P值均小于0.5，這表明3套預測卷完全適合進行因子分析。另外，3套預測卷的第一特征值與第二特征值的比值均大于或等于3.0，這表明3套預測卷的單維性假設是成立的，適合用項目反應理論進行分析[1]。
　　4.2 擬合度檢驗
　　本研究采用二參數Logistic模型，使用BILOGMG 3.0軟件“極大似然法（Maximum Likelihood）”進行項目參數估計和模型—資料擬合度檢驗（Assessment of model-Data Fit）。從χ2（prob）估計擬合度情況來看，項目8（測試卷1中項目12）、項目28（測試卷2中項目4）的p值小于0.05，χ2檢驗不接受該模型，說明這兩個項目參數估計擬合度較差。從校正卡方值（Chi/df）來看，項目28的校正卡方值則是正無窮，大于3，說明該項目與模型擬合度的確較差；而項目8的校正卡方值為2.1，小于3，滿足擬合度要求，暫時予以保留[4]。
　　4.3 項目初選
　　在使用BILOG-MG 3.0軟件估計項目參數時發現項目8（測試卷1中項目12）的參數值無法估計，其得分與測試卷1測驗總分的二列相關系數rb=-0.061。項目55（測試卷3中項目14）的參數值也無法估計，其得分與測試卷3測驗總分二列相關系數rb=-0.017。二列相關為負表明，能力值越低的學生反倒越能準確回答該項目，不符合測量理論的要求。因此，從測試卷1中刪除項目12，從測試卷2中刪除項目14。經過項目初選后，共刪除了3個項目，測試卷1、測試卷2、測試卷3均保留了24個項目。
　　4.4 測驗等值
　　采用鉚測驗設計的做法，把待等值的測驗分別向不同的被試施測，使用BILOG-MG 3.0軟件進3套試卷的項目參數等值轉換。研究結果表明，不同測驗間區分度參數、難度參數的P值均大于0.05，說明各試卷的項目（包括等值后的所有項目）結構是一致的。另外，項目區分度的分布范圍是0.353到1.195，項目難度的分布范圍是-2.802到3.000。區分度參數a＜0.5或a＞3的項目有18個，在項目終選階段列為替補項目。
　　4.5 測試卷的形成
　　一般來說，測量的標準誤在能力分布較為集中的區域需控制在0.4以內[5]。從初測情況來看，學生的能力值基本上分布在-1.5—1這段區域內，集中了80 %多的學生。因此，測試卷在這段能力值范圍內的信息量必須達到6.25。在遴選項目的過程中，如果兩個或多個項目考查的屬性相同或相似，則選擇信息量最大的項目，這樣既能使被選的項目的區分度得到保證，又能使測驗以較少的項目達到預定信息函數的要求，節約了測試的時間成本。
　　在測試卷組卷的過程中研究者將項目的難度、區分度、信息函數以及項目涉及的屬性等內容整合在一張表格中，形成高中化學平衡內容組卷信息表（如表4），那么組卷過程中各項目的信息以及整張測試卷的信息就一目了然。
　　依據上述挑選項目的原則，利用組卷信息表共挑選了22個項目，使得本測試卷達到了目標函數的要求，信息量與測量標準誤差如圖3所示。
　　從圖3可以看出，該測試卷在能力值-1.5—1之間的信息量在6.25以上，標準誤差在0.4以下，達到目標信息函數的要求。其中，在能力值-0.3處最大信息量達到11.40，測量標準誤僅為0.29。因此，該份測試卷能夠保證一定的測試精度。另外，從項目屬性的初步編碼來看，除了化學平衡中的思維策略（P5）這一屬性只被觀察了2次，其余屬性均被觀察了3次或3次以上，達到了屬性觀察次數的基本要求。
　　 5 研究結果
　　本研究主要取得了以下幾方面的研究成果：
　　（1）根據高中化學課程標準、考試大綱、高考試題等內容，建構了高中化學平衡內容的認知屬性模型，該模型獲得了專家、一線教師的高度認可；
　?。?）在認知屬性模型框架下，編制了3套高中化學平衡內容的預測卷并施測，利用項目反應中的BILOGMG 3.0軟件估算項目的性能參數，淘汰擬合度不佳、區分度較低的項目；
　　（3）在認知屬性模型框架下，基于各項目的特征曲線、信息曲線編制測試卷，并征求一線教師的意見，編制了一套效度較高、信度可靠的化學平衡內容診斷性測試卷。
　　參考文獻：
　　[1]漆書青.現代測量理論在考試中的應用[M].武漢：華中師范大學出版社，2003.
　　[2]李峰等.小學四、五年級數學診斷性測驗的編制——基于規則空間模型的方法[J].心理發展與教育，2009，（3）：113~118.
　　[3] C

化學教學2012年4期

化學教學的其它文章: 美國高中化學教材中的考試小貼士及其啟示; 探究學習中遇到的一些尷尬問題; 熱敏紙揭秘; 中國現代化學的起步; 確定同類烴混合物組分的別樣方法; 差量法在化學計算中的應用