基于SAT的標準化題庫的設計構建與組卷策略

2022-09-16 04:16:18馮靜

中國核電 2022年2期

馮靜

(三門核電有限公司，浙江臺州 317112)

1 前言

核電廠中，考試是衡量被考評人員是否達到培訓目標、保證人員取得崗位要求的全面工作能力最有效的方式之一，核電廠為之花費大量的人力、物力和時間資源。而低質量甚至無效的考試不能客觀反映學員對培訓目標的掌握程度，影響后續的工作績效期望，并且對電廠運行造成重大風險。

考試的有效性很大程度上由試題的質量決定，行之有效的辦法是建立一個功能完備、結構合理的標準化題庫，對培訓領域的所有試題進行統一管理，不僅有利于提高對試題質量和安全性的管控能力，還可以對試題進行動態的有效性維護，真正實現有評估反饋環節的閉環管理。不僅如此，科學高效、規范便捷的題庫管理系統還能夠為教員節約時間，提高工作效率，為培訓、考試、評估等提供多角度、多層次、多功能的服務。

2 標準化題庫建設的理論基礎

目前世界上絕大多數核電廠普遍采用系統化培訓方法[3](The Systematic Approach To Training，簡稱SAT)進行人員培訓，認為SAT是獲得并保持核電廠人員資格和工作能力，保證人員培訓質量的最好的培訓方法。各國核電廠大多以國際原子能機構(IAEA)出版的《建立并保持核電廠人員資格和能力導則》為指引，遵循SAT的原則，根據自身能力和客觀條件開展培訓工作。

SAT是一種培訓組織形式，它把整個培訓活動分為分析、設計、開發、實施和評估五個階段，并在各個階段進行有效反饋。題庫的開發、使用和改進是系統化培訓方法的一部分，橫跨設計、實施和評估三個階段。首先，在設計階段，將根據分析階段輸出的崗位任務清單、分項任務清單以及分項任務需要的知識(Knowledge)、技能(Skill)和態度(Attitude)，產生最終目標、分解目標，并以這些培訓目標為基礎開發試題；其次，在實施階段，對有培訓需求的人員實施培訓授課并組織考試，有計劃地開發考核規范表并選取試題進行組卷；最后，在評估階段，針對培訓實施階段的考核結果進行定量、系統地分析，分析的結果不僅能體現培訓項目的實施情況，如學員對培訓目標的掌握情況等，還能反映出試題的質量、教員的命題水平，并將這些信息反饋到SAT的其他環節，以改進培訓的質量，從而使培訓的有效性得到不斷提升[8]。

3 標準化題庫的建立

3.1 出題的依據

考核的目的是檢驗學員是否掌握各培訓目標。按照系統化培訓方法的要求，考核中的試題應根據培訓目標進行開發[1]。因此，有效的考核需要在考題開發前將培訓目標進行仔細地選擇和分類。

三門核電廠培訓目標的分類參考Benjamin S. Bloom的培訓目標分類表，如圖1所示。

圖1 培訓目標分類表Fig.1 Training objectives classification table

Benjamin的培訓目標分類表分為6個層級，分別是：

1)知識/記憶用：機械記憶、識別或回憶內容，目標中常見的動詞有定義、列出、命名或陳述；

2)理解/理解用：理解內容的意義，這一層目標中常見的動詞有說明、識別、解釋、比較等；

3)應用/應用用：對所學習的概念、法則、原理的運用，這里所說的應用是初步的直接應用，而不是全面地、通過分析、綜合地運用知識，與此目標相關的概念如：應用、論證、操作、實踐、解決等；

4)分析/分析用：信息分解為組成要素部分，從而使各概念間的相互關系更加明確，詳細地闡明基礎理論和基本原理。相關動詞有：分析、檢查、辨別等；

5)評估/評估用：判斷或形成關于信息或情況的觀點，相關動詞常見有評價、評估、證明等；

6)綜合/創新用：采用不同方法，將不同元素融合成新類型或提出可供選擇的解決方法，這是培訓目標的最高層次，相關動詞有：建立、設計、計劃等。

各層級從簡單到復雜。知識、理解和應用屬于“較低認知”的層級。應用、分析、評估和創新屬于“較高認知”的層級，這類技能對于異常或應急工況下，崗位工作和問題的解決都是非常重要的。考題開發人員應清晰地認識到培訓目標的各個層級，防止考核的目標層級低于現實崗位工作所需要的層級。

3.2 試題開發

3.2.1 題型選擇

試題的題型確定，取決于培訓目標是針對培養學員的技能、知識，或者是運用信息的能力[2]。試題類型可以是實際操作、填空題、選擇題、判斷題、匹配題、畫圖/填圖題、簡答題，或者在特殊情況下使用其它類型的試題。試題題型的選擇可以以培訓目標的動詞作為指導。

1)技能型動詞建議使用實際操作類型的試題，而知識型動詞建議使用筆試類型試題。比如“啟動”和“停運”是兩個技能型的動詞，建議使用實際操作類型的試題。

2)填空、簡答類型的試題更加適合與需要大量知識的培訓目標，比如動詞為“記憶”、“識別”、“列出”。

3)類似“辨別”、“選擇”的動詞適合使用選擇題。

4)培訓目標要求學員“分類”、“聯系”時適合使用匹配題。

3.2.2 確定題量

根據培訓目標在復雜程度和重要程度上的打分，來確定試題的題量。復雜程度和重要程度高的培訓目標試題題量更多。一個培訓目標至少對應一條考題。對標國外同行電廠要求每個培訓目標至少兩條考題。原則上，題量越大，題庫功能越完善。

3.3 試題屬性

每道入庫的試題都有自己特定的屬性，首先，試題由題庫系統按照知識結構中的參數如培訓項目、系統、等級進行統一編碼，所有編碼都是唯一的。試題內嵌的圖形、公式、圖片等資料與相應試題建立唯一的數據關聯。其它屬性包括：所屬系統/培訓項目、對應培訓目標、題型、題干、答案、試題出處、認知分類、開發時間、上次使用時間、試題開發者、難度、區分度。需要注意的是，難度和區分度對于剛開發出的試題需要開發者在整個題庫的同一量尺上進行預估，給出一個初始值，經過考試抽用后可通過考試分析得到實際值，并經過歷次考試不斷修正，是一個動態維護、趨于真實的過程。

3.3.1 試題難度系數

難度是指測試試題的難易程度。試題的難度決定了整份試卷的難度及考試成績的分布。試題難度通常采用回答正確人數除以考試總人數來衡量，公式為：

(1)

其中：Pi：為第i題難度系數；

Xi：為第i題回答正確的人數；

Y：為總人數。

由公式可知，Pi的取值范圍是0≤Pi≤1。

3.3.2 試題區分系數

試題區分系數是指試題對不同水平學員加以區分的能力，采用IAEA和INPO推薦的算法：極端分組法。它是將學員的成績按總分排序，取前27%的學員作為高分組，取后27%的學員作為低分組，然后分別計算第i題的正確人數，則第i題的區分系數為：

(2)

數值從-1.00到1.00。

3.4 試題評估并反饋

從題庫中抽取出來的試題經考試使用后，應對其進行分析評估。試題分析是以學員的卷面數據作為信息來源，通過審查每位學員的答案，評估試題的難度和區分性和試題選項的有效性的過程。通過評估試題可以判斷學員是否掌握培訓目標，也能用來提高教員的試題開發技能。分析的結果能反映出試題的質量，識別有問題的試題并提出可行的建議，對于審查和改進試題是非常有價值的。將這些信息反饋給題庫管理維護環節，更加可以實現題庫的不斷改進和完善。試題分析主要包括以下三方面。

3.4.1 試題難度

由公式(1)可得到某試題在此次考試中的難度系數Pi，由公式可知，Pi的取值范圍是0≤Pi≤1，試題越簡單越接近1，試題越困難越接近0。功能完善的題庫應保證一定的題量，試題的難度也應覆蓋各個層級，但應盡量避免出現難度極高或極低的試題，對于得分率極低的高難度試題需要進行評估：題目涉及的培訓目標是否超出培訓范圍、題目是否存在理解偏差、培訓教材是否有誤(如存在設計變更等)。

難度系數是題庫中試題的屬性之一，可以在教員組卷時對評估考試整體難度，預測考試結果提供幫助。每次考試后的試題分析得到的試題難度系數反饋回題庫，可以幫助不斷修正該屬性值，實現題庫中試題的動態維護。

3.4.2 試題區分度

試題區分系數也是題庫中試題的屬性之一，需要通過歷次考試結束后的試題分析進行反饋，以不斷修正，提高準確性。由公式(2)可知試題區分系數數值從-1.00到1.00。D=1表示高分組全部答對，低分組全錯；D=0表示兩個分組的通過率相等；D=-1表示高分組全部答錯，而低分組全對。由此可知，區分系數越小，試題本身的問題可能越大，不能真實反映學員對培訓目標的掌握情況。表1列出了美國核運行研究所(INPO)推薦的標準性考試試題區分系數。

表1 試題區分評價標準

3.4.3 選項分析

選項分析是審查選擇題各選項(正確選項和干擾項)的過程，以驗證選項的合理性。選項分析可以計算每道題的系數，也可以通過直接審查選項結果進行分析。通過評估的結果確定試題是否需要改變。表2給出了描述此過程的一個樣例。

表2 選項分析

以上的例子共50人參加考核，通過給出各選項的選擇人數及其平均分進行試題選項的評估。如試題1，干擾項C沒有任何考生選擇，雖然并不能說明該試題存在問題，但在后續的開發或升版中，可考慮增加選項的迷惑性。而試題3，選擇正確答案C的人數為40人，這些人的平均分達到18.93分，但是選擇干擾項A的考生平均分也達到了18分的較高分數，這就需要教員進行試題的重新評估，可能是干擾項A迷惑性太強、干擾項B/D明顯錯誤或是干擾項A本身的缺陷等。

3.5 組卷策略

3.5.1 組卷模式

組卷功能是標準化題庫最重要的應用，本題庫考慮實現手動組卷和自動組卷兩種功能。手動組卷方式優點是教員選題靈活，自主性強，缺點是當題庫題量大時，工作量大，速度慢；自動組卷是計算機根據教員設定的參數要求，從題庫中抽取試題，反復迭代循環，組出符合要求的試卷，這種組卷方式要求題庫有足夠大的題量，題型、難度、區分度、認知分類等屬性參數覆蓋范圍全面，優點是自動化高，速度快，效率高，能大大減輕教員出卷的工作量。這兩種組卷方式的流程如圖2和圖3所示。

圖2 自動組卷流程圖Fig.2 Automatic test paper composition flow chart

3.5.2 自動組卷參數設置

組卷實質是從整個題庫中選擇出滿足教員設定的參數要求的一個試題子集，有了高質量的試題以及結構合理的題庫，還必須有正確的組卷策略、優良的成卷算法才能成功得到質量上乘的試卷[6]。

結構合理的題庫題量豐富且試題的信息全面，屬性多樣，參數準確且在同一量尺上。如前文所述，標準化題庫中試題的屬性很多，用于選題的參數主要有：所屬系統/培訓項目、對應培訓目標、題型、難度、區分度等。自動組卷時，教員首先依據考核規范表選定系統/培訓項目、培訓目標，并設置培訓目標對應的考核權重，實現對考核規范表計算機化的應用。對難度和區分度的參數設置可以避免以往組卷時存在的很大盲目性、考試結果難以預測的情況，設定好總體難度和區分度組出的試卷可以讓教員對考試有整體的把握和預期。

試卷的難度是指試卷的平均難易程度。試卷難度的公式為：

(3)

其中：Pi為第i題難度系數；

Fi為第i題分值權重；

n為考試總分。

4 標準化題庫的優點

1)實現動態閉環管理，保證培訓有效性。在培訓評估階段以學員的卷面數據作為信息來源進行試題分析，結果能反映出試題的質量，對于審查和改進試題非常有價值。將這些信息反饋給題庫管理維護環節，形成試題從開發到使用再到分析，最后將分析結果進行反饋的一個閉環流程，對題庫進行動態維護，能夠實現題庫的不斷改進和完善。優質的題庫是考試有效性的保障，而考試的目的是檢驗學員是否掌握各培訓目標，因此，建立標準化的題庫對于實現培訓有效性是至關重要的；

2)組卷時可客觀地預測和控制考試的難易。目前的組卷方式，缺乏對結果的預判。標準化題庫可以收集試題歷次使用得到的分析數據來跟蹤反饋試題的難度值，通過大量的數據支撐得到試題的平均難度，以此作為試題的期望難度，就可以在組卷時控制考試的整體難易程度，并且在考試前預測學員的總體成績，并將其與真實成績比較，了解培訓效果是否達到期望目標，也可以了解培訓過程中的改進是否提高了培訓效果；

3)標準化題庫的自動組卷應用功能方便將考核規范表[5]的使用納入流程。科學的考試規范表，可協助教員合理分布考核內容并明確重點，是一種保證考試內容合理性的有效管控方法，保證有規劃有目的地開展考核。如果將其交給學員，也可減少困擾和誤解；

4)實現教考分離，對教員提出更高要求。打破傳統由任課教員課后出題組卷的模式，試題在培訓設計階段就已開發好[4]，題庫能夠直接抽取實現自動組卷，迫使教員嚴格按照培訓大綱、培訓目標授課，注重培訓效果，提高教學質量。學員無法從授課教員處得知考試內容，促使其端正學習態度，努力掌握培訓目標指向的全面工作能力；

5)保障試題安全和保密性[7]。標準化題庫幫助實現培訓領域所有試題的統一管理，由培訓管理部門專人維護，可以通過設置進入權限來實現。