結業試卷分析的基本方法及應用舉例

2017-04-12 06:51:37張東海徐德穎馬秀華趙留莊

衛生職業教育 2017年6期

關鍵詞：分析課程教學

張東海，徐德穎，馬秀華*，趙留莊，剛君，劉雙

（1.首都醫科大學大興醫院，北京 100069；2.首都醫科大學，北京 100069）

結業試卷分析的基本方法及應用舉例

張東海1，徐德穎2，馬秀華1*，趙留莊1，剛君1，劉雙1

（1.首都醫科大學大興醫院，北京 100069；2.首都醫科大學，北京 100069）

介紹結業試卷分析的一般分析方法、基本程序及如何應用。從試卷出題時就要考慮評價、檢驗試卷，試題要具體、標準化、能夠客觀評價，即需要對測驗結果進行信度、效度、難度、區分度檢驗。用Excel 2000建立數據庫，將題號、分值和學生成績等數據錄入計算機進行統計處理，分析計算學生測驗成績、分值范圍分布，必要時可以制作曲線圖。通過舉例介紹試卷分析的基本方法。

結業；試卷分析；信度；難度系數；區分度

考試作為一種基本檢測手段，不僅可以檢驗學生的學習效果，而且可以評價教師的教學質量、發現教學中存在的問題[1-3]。一般認為[4]，考試的功能包括：檢查和鞏固學習、辨別智愚、選拔人才、對比實驗（如：不同教學法的對比）、考查學生學習努力程度、預測能力、指導就業、課程評價。如何檢驗與評價考試的科學性、合理性等，這就需要進行試卷分析。我們對北京地區“3+ 2”助理全科醫生培訓結業考試進行了試卷分析工作[5-6]，對課程建設起到了一定的推進作用，現將工作中的體會以及試卷分析的基本程序做一簡單介紹。

1 教育測量、測驗的概念[7-9]

測量是根據法則給事物分派數字。廣義角度的教育測量就是對于教育領域內的事物或現象，根據一定的客觀標準進行縝密考核，并按一定的規則將考核結果予以數量的描述。狹義的教育測量是指對學生某些學科經過學習和訓練后所獲得的知識、技能的測量，又稱成就測量、學業成績測量或學科測量。它是按教育測量的規則，對學生掌握某些學科的知識、技能予以數的描述。

通俗地講，測驗是指編制試卷并施測，再根據測驗結果評估考生的學業、智力等的全部過程。即測驗是教育測量的工具。

一般認為，測驗的作用包括：檢查和鞏固學習、辨別智愚、選拔人才、對比實驗（如：不同教學法的對比）、考查學生學習努力程度、預測能力、指導就業、課程評價。如何做到較為客觀地評價，這就需要進行試卷分析。評價考試質量常用的指標：主要涉及試卷質量的指標：信度、效度、難度、區分度；主要體現學生成績的指標：平均分數、標準差、分布狀態、成績。

2試卷分析工作要起步于測驗前

2.1出題時就要明確考試目標

對于一般意義上的考試，試卷要符合考試的目的（根據考試目的，將考試分為常和目）。

常模參照性考試是依據測驗集體的常模（平均分、標準差等）來解釋分數的測驗。其目的在于把個體的成績與他人做出比較，著眼于集體中學生成績的區分（如：高考、競賽），即區別性考試、選拔性考試（如：高考、競賽），要注意加強試題的區分度與試題難度。

目標參照性考試是以某種目標為依據進行命題和分數解釋的考試，其及格的參照是最基本的教學要求水平，其分數解釋是依據達標情況和能力水平進行的，達標程度愈高則分數愈高（如：結業考試、畢業考試），主要是了解知識的掌握程度。但出題要有依據，經常采用的依據就是教學大綱。可按照檢驗的目的不同，分別對掌握、熟悉、了解內容采取不同的比例。對于結業性測驗，加大掌握與熟悉部分內容的比例，試題主要圍繞基本知識點展開。如果平均成績低于總分的70%，說明試題較難，或教學存在問題；高于總分的90%則說明試題過易，起不到考查的作用。尤其是后者，對優秀學生不公平，對后進學生起不到督導、激發學習熱情的作用。

2.2測量材料、測量實施、評分計分等要標準化

2.2.1測量材料標準化可以理解為所有測試對象采用統一（同一）試卷。

2.2.2測量實施標準化一般要求采用統一的教材、教學大綱、測驗時間、環境等。

2.2.3評分計分標準化即要求采用統一的評分標準。

2.2.4測量分數解釋標準化即測驗分數必須用統一的標準加以解釋。例如：按照每門課程的學時分配測驗分數，而不是隨意安排。按照同樣的標準制訂給分標準，如采取多選題時每個問題（試題）給分標準是一樣的[5-6]。例如：在首都醫科大學全科醫學與繼續教育學院主導的北京地區“3+2助理全科醫師規范化培訓”[10]的臨床綜合課程結業測試中（以下舉例均為臨床綜合課程結業測試），每屆學員的結業考試試題均由聯合教研室制訂統一原則，由各教學單位承擔課程的教師提供，建立題庫，然后隨機抽題組卷。課程負責人只負責組卷，不負責出題。試卷中的試題共計100題，每題分值1分，按照教學大綱內容、教學課時統一分配各章節知識點試題所占分數，平均每學時2分。鑒于學生的培養目標與將來的工作性質，對人文教育課程與全科醫學概論每學時各分配4分。考試由聯合教研室統一組織、同一時間舉行。試卷統一印刷，在考試前發放到各單位，考生就位后同時開始答題。考試結束后各考點將試卷交回教務處統一組織流水閱卷。試題事先列出標準答案。

2.3測驗評價要具備客觀性

即需要對測驗結果進行信度、效度、難度、區分度檢驗。信度是指測量的可靠性；效度是用于評判測量的正確性、有效性；難度是用于評判試題的難易程度，一般要求同時分析試題的難度系數、試卷的難度系數；區分度，即優秀生與差生的鑒別程度，一般也要求同時分析試題的區分度、試卷的區分度。

2.4要選擇合適的題型

考試題型一般包括選擇題（是非題、多項選擇題、配合題）與供答題（填充題、簡答題、論文題）兩大類[4]。理論上講，試卷分析可應用于所有題型，但在實際操作上簡答題、論文題受閱卷教師主觀因素影響。填充題、是非題猜測機會較大，一般占用試卷的比例較小，但可以分析。多項選擇題與配合題則較為相似。根據多數教育學家的評價及其所收集到的學生反饋意見，多項選擇題有利于擴大測試范圍、用多選題形式進行學習的學生學習比較深入，因此，它是標準化測驗較多采用的方法，但是也有命題困難、存在猜測因素的缺點。

臨床綜合課程涉及人文以及內、外、婦、兒等多個專業學科，因此多選題就成為最佳的選擇，可達到題目數量較多、測驗內容覆蓋面較大、題目取樣范圍較廣的目的。因此，從2015級開始，我們對北京地區“3+2”助理全科醫生培訓結業考試全部采用多選題組卷。

3試題分析的常用方法及基本步驟

3.1用Excel 2000建立數據庫

將各題的編號、分值和每名學生的成績等數據錄入計算機，利用Excel 2000進行統計處理。

3.2分析計算學生測驗成績

統計得出班級的應得總分與實際總分、最高分與最低分、平均分與標準差以及分值范圍分布，必要時可以制作曲線圖。如果要比較多個班級之間的差異，則需要分別計算，并且要與總成績進行比較；同時也可以進行不同班級成績之間的比較。

3.3測驗的客觀性評價

在測驗后，要評價試卷是否適合本次測驗，此時需要評價試卷的質量指標，即信度、效度、難度、區分度。例如：在對2015級學員進行“3+2”助理全科醫生培訓結業考試，目的是目標參照性考試而非區別性考試，因此在試題選用上期望最終平均分為80分且不要求過高的區分度。檢驗結果：（1）試卷的難度系數為0.73，區分度為0.27，屬于相對較易試卷，試卷設計基本符合考查目的及培訓課程目標。（2）本次試卷信度為0.79，試卷信度較高，適合于專業理論與能力的測驗。（3）試卷試題滿分為100分，116名學員中最高分為93分，最低分為52分。本次考試成績主要分布于65分～75分之間，平均得分（72.2±9.2）分，低于平均80分的期望值，說明部分試題難度略大，下次測驗需要注意。

3.4比較分析試題難度系數（P）與區分度的關系

比較分析試卷總的難度系數與區分度的關系，就要了解難度系數較小的試題學生的掌握情況，以評判應該掌握的教學內容學生是否掌握。P值越大提示試題難度越小，測驗內容為多數學生掌握，則區分度較差；P值越小說明試題難度越大，大部分學生未掌握，區分度也較差；難度適中的試題區分度則較好。難度系數≥0.7的試題屬于較易題；0.4≤難度系數<0.7屬于中等難度題；難度系數<0.4則屬較難題。

3.5比較不同班級學生試題得分的差別

若是采用統一的教學大綱、教材，但課程實施有多個考生單位（多個班級）且由不同的教師上課，那就需要比較不同班級學生各試題的得分差異。舉例（見表1）：下表中有6個班級在8道試題上出現差異，其中4道試題（試題1、試題9、試題11、試題50）有3~4個班級得分低于平均分；有2道試題（試題5、試題48）各有1個班級得分低于平均分；試題11則僅有1個班級正確率較高；試題15整體答題正確率較低。提示教師教學存在差異，有的薄弱部分需要加強。而試題2、試題15則提示是教學難點，需要組織集體備課。

表1 不同單位的考生20道A型題的答題結果分析（%）

3.6調查與反饋

測試結果需要通過適當的方式反饋給教師，然后收集教師以及教學管理部門的意見與建議，對下一次考題進行調整；對出現的問題按照不同情況開展分層次集體備課等。

4試題分析結果的意義及具體應用

4.1第一個層面：是教研室需要重點掌握的內容

（1）教研室要評價試卷是否適合本次測驗，主要要對考試成績與試卷做整體分析比較；（2）要分析試卷總的信度、難度、區分度，評價此次測驗所用試卷試題質量是否適合要求；（3）要分析試卷總的難度系數與區分度指數的關系，從整體方面評價教學效果；（4）同時也要比較不同教學單位之間的差異以及具體環節，必要時要對薄弱環節組織集體備課。具體來說，要分析不同教學單位之間存在的考試成績差異；要思考為什么存在差異？對教學管理者有什么提示？對授課教師有什么意義？對促進教學工作、教學水平有什么作用？對學生的學習過程有什么作用？同時要提出解決的對策。

4.2第二個層面：是教研室、各個教學單位管理部門需要共同關注的問題

本門課程中哪一部分學生掌握較好，哪一部分是薄弱環節，這就要求教研室與各個教學單位管理部門共同探討，分析原因，如教師的原因、學生的原因等。要達到上述目的，各單位就必須對本單位學生試卷進行分析。

4.3第三個層面：是各個教學單位管理部門需要關注的問題

各個教學單位管理部門要與教研室取得聯系，了解班級本次測驗水平，組織教師進行集體備課，交流教學體會、教學方法；同時收集教師與學生的意見與建議。對于高分學生與低分學生要有不同的側重點。

4.3.1高分學生重點了解其未掌握的內容，分析是個別情況還是整體情況，若是整體情況（即全部或大多數學生答錯），需要了解別的班級（教學單位）是否也如此，若別的班級也如此則由教研室拿出解決方案；若僅本班級如此，那就需要從教師處入手，分析教法、教學內容、教學能力等，必要時要對學生進行補課。

4.3.2低分學生（1）總體分析：首先看這部分學生共同掌握的內容，再看共同答錯的內容，即首先了解整體情況。如果學生的問題是共性的，原因大致同上；如果學生的問題是無規律可循的，就組織教師和學生一起分析原因。

（2）個體分析：具體對每位學生進行分析。如果學生在每門課程均屬于低分組，那班主任就要給予更多關注，分析原因。要重點分析低分（組）學生對難度系數低的試題的答題情況，即必須掌握的內容該生是否掌握？能否達到“助理全科醫師”的基本要求。

4.4第四個層面：是每位教師和學生均需要注意的問題

要將考試結果及時反饋給教師與學生，同時收集教師與學生的反饋意見。

（1）教學過程是“教”與“學”的過程，需要“教”與“學”兩方面的互動。該過程中教師起主導作用，這個作用不僅在授課過程中發揮，還要持續到課程結束后，將測驗結果向學生反饋，包括試卷講評。教師要了解自己對課程的教授效果，不斷提高教學質量。

（2）測驗不是目的，而是了解學生是否掌握本門課程知識的手段。學生要反思自己的學習效果，尋找薄弱環節進行補課。

綜上所述，結業試卷分析在出題前就要進行，測驗后除了計算總分、平均分、標準差，必要時還需進行分布狀態分析，評價試卷質量，檢驗試卷的信度、難度系數以及區分度，教研室以及各個教學單位的教學管理部門要將分析結果及時反饋給每位教師以及學生，以促進教學效果不斷提高。

[1]張正祥，劉國慶，王廷慧，等.延安大學醫學院藥理學試卷分析[J].中華醫學教育雜志，2008，28（4）：120-122.

[2]孫敏，王錦帆，祖勤，等.醫學生學習中期評估測試實效分析[J].中華醫學教育雜志，2013，33（4）：617-620.

[3]盧燕，王培玉，劉寶花.北京大學醫學部八年制疾病預防醫學期末考試試卷分析[J].中華醫學教育雜志，2013，33（5）：791-793.

[4]王孝玲.教育測量[M].2版.上海：華東師范大學出版社，2005.

[5]馬秀華，張東海，黃東明，等.“3+2”助理全科醫師培訓臨床綜合課程結業試卷評價及相關因素分析[J].中國醫學教育技術，2015，29（2）：213-217.

[6]馬秀華，張東海，徐德穎，等.“3+2”助理全科醫師培訓臨床綜合課程結業試卷分析評價[J].中華醫學教育探索雜志，2016，15（5）：445-450.

[7]高衛紅，任俊峰.利用教育統計學原理進行考試質量分析方法初探[J].武警醫學院學報，2004，13（3）：214-218.

[8]彭斌.試卷質量定量分析系統中的幾個參數及其應用[J].醫學教育探索，2004，3（4）：52-54.

[9]劉新平.教育統計與測評導論[M]．北京：科學出版社，2003.

[10]黃艷，線福華，趙麗莉，等.“3+2”助理全科醫師培養模式的探索與實踐[J].中華醫學教育雜志，2014，34（2）：31-33.

（*通訊作者：馬秀華）

G40-03

1671-1246（2017）06-0026-03

北京市教委“2016年度首都全科醫學研究專項”基金資助課題（16QK12）