試題難度分析的指數模型

2021-09-10 05:35:40黃玉平

中學生學習報 2021年7期

關鍵詞：標準

黃玉平

一、問題提出

檢驗教學質量，最常用也最有效的手段，是進行測試。在當今大數據廣泛應用的時代，每次測試結束后，各種閱卷系統都能導出每個學生每道題的得分，如果能對這些得分情況進行深入分析，能夠發現和提示教學中可能存在優勢與不足，優勢可以促進管理者發現優秀的教學經驗，不足則提醒管理者尋找教學改進的措施，從而不斷提高教學水平。

當考完一套試題，許多教師會進行試卷整體及各小題的得分率進行分析，研究各個群體解得較理想的題，解得不理想的題，評判的標準就是一個問題。

本文將全市同一個年級的學生做為全體，將其中每個學校的學生或每個班級的學生做為群體。

一些分析軟件，將全體得分率超0.7以上的設為容易題，評價為解答較好的題;得分率在0.3與0.7之間的為中檔題，評價為解答一般的題;低于0.3的為難題，評價為解答較差的題。這種絕對標準的方式，適合對整套試題進行難度分布的評價，不適合對具體某個群體的解答情況進行評價。例如，某次考試，某群體在第1小題得分率為0.8，如果按絕對標準，屬解答較好的題，如果其它基礎更弱的群體很多都考了0.8以上，那么這個群體在第1小題的解答情況就不太理想了，反之，這個群體在第10小題得分率為0.2，按絕對標準，屬解答很差的題，如果這是各群體中解答情況最好的，遠遠超過其它群體的得分率，那么第10小題反而是這個群體解答很好的題。

在一些學校，特別是初中和小學，會將同一個年級的每個班的每個小題的得分進行排序，這種方法在各班為平行班，基礎相近時，可以起到一定評判的作用，例如全年級有24個班，A班全卷平均分排名全年級第4，第8小題平均得分排名全年級第23，可以提示A班第8小題解答相對較弱。這種用排名次對基礎不同的群體答題情況進行評價的辦法，比較粗糙，例如：某班基礎最強，全卷平均分和各小題得分均排名第1，無法評判這個班哪個小題解答較理想，哪個解答不理想。

試題研究中，難度系數是被廣泛應用的一個概念，一道題的難度系數的簡單定義是：考試的全體人員在這道題上的平均分得分率，即全體人員在這題的得分之和與這道題滿分值與人數之積的比。

一個較容易的題，基礎較好的群體會解得很好，基礎較弱的群體則會水平低一些;一個較難的題，各群體的得分率都大幅下降，群體之間的差異很大，如果沒有與群體水平對應的評判斷標準，很難判斷各群體的答對情況是否正常，難以從中獲得反思，從而不能充分發揮考試的價值。

筆者發現，某個群體對某個試題的實際得分率，主要受到兩個因素的影響：試題本身的因素，群體的水平高低。同樣的試題，水平高的群體，得分率相對較高。經過對考試后統計出的各群體實際得分率表的長期觀察和思考，本文對試題難度的表示提出了一種新的模型：難度指數模型。

本文提出試題難度的指數模型，并給出一種評價標準：用同樣的試題相對某個群體的難度指數與它相對全體人群的難度指數的差距，作為這個群體解答這個試題的評價標準。

二、解決方案

（一）將試題得分化為試題得分率

用得分率比直接用得分更科學：得分率排除了試題滿分值對結果的干擾。例如A題滿分值為12分，實際得分6分，B題滿分值為10分，實際得分也是6分，表面上兩題得分相同，實際A題得分率為0.5，B題得分率為0.6。

群體A對試題N的得分率（或通過率）：設群體 A 的人數為，群體A解答試題N的得分數之和為M，試題N的滿分值為F，則群體A對試題N的得分率。

（二）將較難試題分解為若干環節

將試題看做由幾個環節串聯而成，環節可以理解為更小的試題。對同一個群體，不同試題的得分率由各題所包括的每個環節的得分率決定。較難的試題，一方面是環節越多，另一方面是這些環節中得分率低的也越多。上圖是試題N由三個環節構成的示意圖，三個環節呈串聯狀態，只有連續正確解答三個環節，才能完成試題N的解答。

（三）定義“標準微環節”和“最簡單題”：若全體對某一批試題的得分率的平均值為0.85，由稱這批試題為全體的“最簡單題”，規定全體的“最簡單題得分率為0.85，同時，稱全體得分率為0.85的環節為全體的“標準微環節”。計算每個群體在這批試題上的各題得分率平均值，得到每個群體的“最簡單題得分率”，稱同樣得分率的環節為該群體的“標準微環節”。筆者在實踐中觀察了近十年，在某個城市，由于各群體生源格局相對固定，每個群體這樣的“最簡單題得分率”相當穩定，例如，最好的群體各科都在0.95左右，居第二的群體則在0.92左右，最弱的群體則在0.6左右。

如果將一個試題分解為一些環節串聯而成，并且將每個環節都看作由一定數量的“標準微環節”串聯構成，則可以認為：每道試題由一定數量的標準微環節構成，試題得分率與標準微環節的數量呈指數函數關系，即：標準微環節數量越多的題，得分率越低;對于某個群體來說，將一個試題分解為該群體的“標準微環節”，其數量與得分率呈指數函數關系，其底數為該群體“標準微環節”的得分率。

環節四：運用不等式，求最值：

得分率預測：本題中，環節一相對簡單，由于有兩個知識點，假設相當于 2 個標準微環節，環節二則比較復雜，假設相當于 4 個標準微環節，環節三有較復雜的計算，因此假設相當于 5 個標準微環節，環節四用到不等式，假設相當于 4 個標準微環節，這樣全部加起來，相當于 15 個標準微環節。

假設群體A和群體 B 的“最簡單題得分率”分別為0.9，0.8，則群體A和群體B對此題估計得分率分別為：fT （ A） = 0.915 = 0.2， fT （B） = 0.815 = 0.03 。

真實的結果是，這道試題的得分率確實相當低，即使是全市最強的學校，也僅有不到三分之一的學生能夠正確解答。

（四）難度指數定義：某個試題對全體的“標準微環節”數量，就是這個試題相對全體的難度指數。對于某個群體，某個試題的相對本群體的“標準微環節”數量，即這個試題相對本群體的難度指數。

難度指數計算方法：在一份試卷各題中，將全市得分率最高的一批試題按得分率由高到低排列，其中得分率在0.7至0.95之間的試題一般須占全卷小題數量的30%，即8個以上，若這批試題的全市得分率的平均值在0.85左右，則將它們表示為“全市最簡單題”。全市各群體在這批試題上的得分率，是它們的“最簡單題得分率”。實踐中，基礎最好的群體（學校）“最簡單題得分率”在 95%左右，基礎最弱的群體則在60%至80%之間。

如果整卷試卷過難，則將所有題按全體得分率由高到低排列，取前三分之一（至少八個試題）的得分率的平均值，通過折算的辦法，得到理想的全體最簡單題得分率：

與此同時，將某群體對這批試題的得分率的平均值，同樣折算為理想的此群體最簡單題得分率，且。

（五）難度指數的計算方法：若某題N的全體得分率為，則此題全體的難度指數為（當時，改用計算）。若某題N的群體A得分率為，且群體A“最簡單題得分率”為，則此題對群體A的難度指數為（當時，改用）。

三、運用舉例

例1.用“最簡單題得分率”衡量各群體基礎知識的教學質量水平以及進步情況。教學質量越高的群體，最簡單題得分率越高。同一批對象，每一個群體的相鄰兩次考試的“最簡單題得分率”比較，可以分析出每個群體的基礎知識教學質量是否提高。

例2.判斷某一次考試中，各群體在不同試題的優劣情況。某一次考試，對于試卷中每一個試題，用試題對全體的難度指數與試題對某群體的難度指數之差，判斷某群體在哪些試題上解答優于全體（差值為正數），哪些弱于全體（差值為負數），特別是差的絕對值較大的那些試題，應特別注意。可以將試卷按知識板塊或考查的學科核心素養等類別將若干題合并為新的題，按以上方法計算，可以每個群體判斷這些板塊或相應的學科核心素養解答是優，還是弱，從而判斷是否加強這些方面的教學。

例3.命題時，除了預測每個試題的全體得分率外和整個試卷的全體平均分外，還可以預測每個試題的全體難度指數，并根據每個群體的最簡單題得分率，預測每個群體每個試題的得分率，從而預測整個試卷每個群體的平均分，與目標平均分對比，及時加以調整，更好地控制試卷的難度。

例4.預測各群體或個人的提升空間，提供明確的發展目標。

在某份試卷中，當群體的簡單題得分率由 0.8提升到 0.9時，則此群體預測總分由59分提升到 90分，提高了31分;如果這個群體的簡單題得分率由0.9提高到0.95，則此群體預測總分可提升到114分，提高了24分。再如某個學生，如果最簡單題得分率為0.98，則這個學生的預測總分為134分。

四、思考

1.用試題“難度指數”替代“難度系數”來分析試題，能獲得對試題更準確的認識。試題的復雜程度和結構特點決定它的客觀難度指數。不同的群體由于各自基礎掌握程度不同及知識面的寬窄不同，解答同一題的得分率差距非常大，因此不能用直接用各群體實際解答得分率高低來簡單評判它們解答某個試題的水平是否符合預期。本文用全體的難度指數做為評價標準，數據比較穩定，參考意義較大。

2.本文提出的總體“簡單題得分率”與各群體“簡單題得分率”，能夠揭示學生學習成效產生的根源。總分高的，其“簡單題得分率”也明顯地高，兩者呈高度相關的關系，大多數情況兩者的相關系數都在0.9 以上。“簡單題得分率”的變高還是變低，直接反映了基礎知識教學的質量變高還是變低，為評價基礎知識教學提供了可行的數據依據。

3.認識到試題難度是個客觀的量，能得出結論：要提升群體的總分，必須提升群體解答各個簡單問題的得分率，并且在思想方法上不能有遺漏，必須在平時大力培養學生的學科核心素養。因此課堂教學必須切實突出教學重點，解決學生理解知識產生與發展過程中存在的問題，大力提升知識的理解程度和運用的能力，使學生的素養得到真正的改善。

4.用難度指數進行各題與總分預測，也存在一定的偏差：簡單題得分率比較高的群體，在較難的題上得分預測往往偏高;簡單題得分率比較低的群體，在較難的題上得分預測往往偏低平。在實踐中往往要結合各群體最初的成績與本次考試的簡單題得分率進行回歸分析，用回歸以后的簡單得分率期望值進行各題與總分預測。

參考文獻：

[1]鮑建生.中英兩國初中數學期望課程綜合難度的比較【J】.全球教育展望，2002 （9）：48-52.