基于CTT的多層次高校試卷質量評價研究

2019-10-21 09:30:26胡霞

高教學刊 2019年13期

胡霞

摘 ?要：針對現有試卷質量科學性不足、分析指標不一、評價層次單一的特點，運用經典測量理論（CTT）和SPSS軟件，探索多層次高校試卷質量評價體系。以某高校《心理統計學》課程為例，從宏觀的學生成績分析、整體試卷分析，到中觀層面的題型、章節模塊、能力要求分析，再到微觀層面的試題分析，全面反映學生的成績與試卷質量情況，并能根據分析的結果給師生的教與學提供有效的反饋，也為試題庫的修改和完善提供量化的參考依據。

關鍵詞：試卷質量分析;經典測量理論;宏觀;中觀;微觀

中圖分類號：G640 文獻標志碼：A 文章編號：2096-000X（2019）13-0056-03

Abstract： Aiming at the lack of scientific quality of the existing test papers， the different analytical indicators and the single evaluation level， the classical measurement theory （CTT） and SPSS software are used to explore the multi-level university test paper quality evaluation system.Taking a college psychology course as an example， from the macro student score analysis， the overall test paper analysis， to the meso-level questions， chapter modules， ability requirements analysis， and micro-level test analysis， the students are fully reflected. The results and the quality of the test papers， and can provide effective feedback to the teachers and students based on the results of the analysis， and provide a quantitative reference for the revision and improvement of the test questions library.

Keywords： test paper quality analysis; classical measurement theory; macro; meso; micro

引言

對于考試的監控與評價是教學質量管理的重要一環。目前學者們重點關注基礎教育階段的教育質量監測，著力建設國家教育質量監測體系來監測學生的學業情況[1]。高等學校的校內課程考試的監控與分析是高校教育管理體制的重要組成部分，也是目前高校教學評價中心的重要工作內容，高校教育質量監測和評價體系的構建也是大勢所趨[2]。但目前高校教育質量監測體系中的考試質量分析系統化研究比較匱乏，存在形式化和簡單化特點。本研究擬從宏觀、中觀、微觀三個層面，構建多層次高校試卷質量評價體系。

一、高校課程考試試卷質量評價現狀

高校課程考試是以課程考試大綱規定的合格標準為參照的水平考試，某次考試后的分數不僅是評定學生學業成就的重要參照，也是評價教師教學效果和改進教學工作的主要依據。

筆者對搜集到的高校目前正在使用的考試試卷分析項目進行對比和剖析，發現絕大部分高校課程考試的試卷分析的內容都是圍繞以下三個方面的內容進行：一是課程教學基本情況介紹，包括課程名稱、任課教師、專業班級、考核方式等;二是考試成績總分的概況，包括總分平均數、最高分、最低分、及格率、分數段比例、直條圖等;三是對試卷質量的主觀分析，如整體難度、與大綱符合程度、錯誤知識點分析等。少數學校基于經典測量理論（CTT）對試卷質量進行了量化分析，報告了試卷的正態性、整體難度值和整體區分度等[3，4]。

二、高校課程考試試卷質量評價存在的問題

通過以上分析，目前高校考試試卷分析存在以下幾方面的問題：一是試卷分析的主觀化分析較多而量化信息較少;二是側重對考試結果的分析而忽略了對試卷本身命題質量的分析;三是試卷整體情況的宏觀分析居多，題型分類、知識點分類和能力分類等中觀層面的分析和每一道試題的微觀分析極少。基于目前研究的不足，為提升高校教師的考試評價能力和素養，本文基于CTT進行多層次高校課程考試試卷分析探索，為廣大高校教師進行科學的試卷分析提供一定的參考。

三、基于CTT理論的試卷質量評價體系構建

（一）學生成績統計分析模塊和試卷整體分析模塊

主要實現對成績的各個統計值的計算，如最高分、最低分、平均分、標準差、偏度、峰度、信度和效度等指標。旨在從宏觀層面了解學生分數的總體分布形態和試卷整體的科學化指標。

（二）試題類型、考查內容及能力層級分析模塊

主要實現從試題類型、章節內容和能力要求三個不同視角對試卷進行中觀層面的分析。采用難度分析和區分度分析指標，并將定量的分析結果定性化，向教師提出合理的建議。

（三）試題分析模塊

主要實現從微觀層面對單個試題的難度和區分度的分析。旨在通過一定的標準來判斷試題質量的好壞，從而為下次組卷和試題庫建設提供一定的參考。

四、《心理統計學》課程試卷分析實例

（一）宏觀層面分析

宏觀層面的分析，這里主要對考生考試總分的集中趨勢、離散趨勢、分布形態、難度、信度等進行評估。通過表1可知，本次考試整體上較為容易，分數分布呈負偏態，題目一致性程度較高。研究還發現入學前是理科的考生分數顯著高于入學前是文科的考生。

（二）中觀層面的分析

中觀層面的分析是從不同的角度對試題的屬性進行歸類，如按試題類型、章節內容及能力要求來揭示學生對不同屬性類別題目的反應特征[5]。從表2的結果中發現，從題型的角度來分析，多選題的難度最大而簡答題的難度最小，填空題和多選題的區分度大而計算題的區分度小;從內容角度來分析，“方差分析”部分的難度最大而“相關關系”和“統計圖表”的難度最小，緒論部分的區分度大而卡方檢驗部分區分度小;從能力角度來分析，需熟悉的題目難度小而需掌握的題目難度相對較大，區分度都較高。

（三）微觀層面的分析

試卷的質量分析，還應包括對構成測驗的各個測驗題目進行質量分析。進行微觀層面的分析是考生對具體測試題反應的量化特征進行分析，不僅可以了解學生對每一題的掌握情況，還能對命題的質量進行分析。如表3所示，填空題10、單選題5和6、判斷題2和9等題目非常容易，填空題13和多選題9、10較難。區分度低于0.2的項目都是鑒別力低的題目，特別是單選題2、6，填空題10、判斷題3等題目是消極區分，這些題目都不能很好地區分能力高和能力低的被試，需結合考點考慮是否刪除。

五、結束語

從宏觀層面來看，整體試卷難度值為77.40，分數分布呈負偏態，綜合這兩個指標可以得出學生對試卷的總體掌握程度較好，相對來說高分段的學生偏多。另外內部一致性信度較高（α=0.83），說明題目間在功能上一致性的程度較高。關于是否要報告信度及報告哪種信度可能因需而不同。有人認為高校期末考試還沒有像高考等考試那樣重要到計算信度的程度，但高校教師需要了解信度的知識，也需要了解內部一致性信度不代表測驗的穩定性和復本一致性[6]。關于效度如何報告和報告哪種效度，本研究認為高校課程考試可將形成性評價成績作為效標參照報告同時性效度。宏觀層面的研究還發現入學前是理科的學生成績顯著優于入學前是文科的學生，提示我們在《心理統計學》授課過程中應給予文科生更多的課前和課后輔導。

從中觀層面的題型來看，多選題的難度最大而簡答題的難度最小，填空題和多選題的區分度大而計算題的區分度小。多選題是綜合能力的考察且猜測的可能性小，少答、多答、錯答都不給分因此難度最大;簡答題諸如“談談直方圖和直條圖的區別與聯系”是課堂中只需識記的內容因此難度最小;填空題和多選題能較好的區分能力高和能力低的被試。從中觀層面的內容角度來分析，“方差分析”部分的難度最大而 “相關關系”和“統計圖表”的難度最小，“緒論”部分的區分度大而“卡方檢驗”部分區分度小。“方差分析”部分的統計學原理復雜且不同的實驗設計容易混淆因此難度較大，而“相關關系”和“統計圖表”掌握起來相對容易，“緒論”部分和“卡方檢驗”部分能較好的區分能力高和能力低的被試。從中觀層面的能力角度來分析，需熟悉的題目難度小而需掌握的題目難度相對較大，是因為要求掌握的知識點往往既是重點也是難點。

從微觀角度來分析，填空題13和多選題9、10較難。需要進一步分析是知識點難還是學生掌握得不夠好，如填空題13的知識點并不難，可能是學生還未掌握標準分數與百分等級的對應關系而導致錯誤。區分度低甚至是消極區分的項目，不能很好的區分能力高和能力低的被試，根據美國測驗專家伊貝爾的標準，需考慮修改題目或予以刪除。對劣質題目的刪除會優化下一次組卷的質量，對試題庫的完善也起到積極作用。

總之，本研究基于CTT從學生成績和試卷質量兩個角度展開宏觀、中觀和微觀三個層次的全方位分析，能夠給教師和學生提供更多的評估信息，建立通暢的考試信息反饋機制[7]。由于CTT本身也存在著測驗及項目性能指標依賴樣本等缺點，項目反應理論（IRT）等新的測量理論應運而生，它能根據被試在各個項目上的實際作答反應，經數學模型的運算統一估出被試的能力水平及項目的計量學參數[8]，這是高校試卷質量評價新的研究方向[9]，有待我們進一步探索。

參考文獻：

[1]龐仙梅.高校教育質量監測與評價體系的構建[J].中國成人教育，2018（22）：54-56.

[2]王秀娜.大數據視角下的國家基礎教育質量監測[J].中小學信息技術教育，2018（11）：9-10.

[3]王金權，袁慧，丁書姝，等.衛生統計學試卷分析及對教學改革的啟示[J].醫學理論與實踐，2018，31（07）：1087-1088+1092.

[4]王軍，程晶晶，王加華，等.《食品生物化學》期末考試試卷分析與教改建議[J].廣東化工，2018，45（03）：204-205.

[5]司俊峰.高校課程考試質量評價統計分析模式研究——以《心理統計學》課程考試質量評價為例[J].高師理科學刊，2007（02）：113-117.

[6][美]詹姆斯·波帕姆.教師課堂教學評價指南（第五版）[M].重慶：重慶大學出版社，2015.

[7]邢維全.美國高校考試評價制度的特點及對我國的啟示[J].天津電大學報，2009，13（03）：49-51.

[8]羅照盛.項目反應理論[M].北京：北京師范大學出版社，2012.

[9]楊亮.基于項目反映理論的試卷質量分析[J].長春大學學報，2011，21（04）：64-67.

高教學刊2019年13期

高教學刊的其它文章: 以微博為載體的高校黨建帶團建工作研究; 基于移動互聯網+背景下高校學生黨建工作開展研究; 基于協同管理模式下的高校管理研究; 高校輔導員工作中的談心談話的作用探新; 21世紀以來國內高校師生關系研究綜述; 高校內部全過程教學質量監控保障體系構建與完善