陶永才,賈圣杰,石 磊,衛 琳2(鄭州大學信息工程學院,鄭州45000)
2(鄭州大學軟件技術學院,鄭州450002)
E-mail:ieyctao@zzu.edu.cn
測驗通常由許多經過適當安排的項目(問題、任務等)構成,被試者對這些項目的作答可以記分,分數被用于評估被試者的情況.
項目反應理論(Item Response Theory,IRT)[1]是評估系統中作為項目參數估計的主要方法,較經典測驗理論(Classical Test Theory,CTT)具有參數多的優點,且項目參數的估計與被試者的樣本無關[2].同時在項目參數已知的情況下,可以根據相應的項目反應模型計算出被試者的能力參數.
參數估計是項目反應理論的重要組成部分,但是由于項目反應理論模型的復雜性,目前參數估計主要采用數理統計方法,項目參數和能力參數估計中常采用極大似然估計法、貝葉斯方法或最大期望(EM)算法進行參數估計的求解,求解中需要處理大量的積分運算,估計相對困難.而且數理統計方式的參數估計法要求較大的樣本容量,才能得到標準誤足夠小的參數估計值[3],即測驗人數和題數都較大時才有理想的估計結果.實際應用中需要大量的考生參加組有新試題的試驗考試,樣本的獲取難度較大,同時也增加了試題的曝光度.估計IRT模型參數,就是在考生作答試題得到的作答結果中,找到一組與IRT模型相符合的參數,這樣的一組參數能夠描繪出能力參數不同的被試者作答項目參數不同的試題,得到作答的概率分布與實際分布擬合.于是,IRT參數估計問題等價于IRT模型(函數)的擬合問題[4].
人工神經網絡(Artificial Neural Network,ANN)[5]是一種非經典數學方法,它通過生物神經網絡的模擬,使用網絡中的神經元間聯結權重值的學習機制,可以處理復雜的非線性函數擬合問題.文獻[6]使用ANN方法在小樣本數據下進行IRT模型的參數估計,其使用神經網絡研究CTT中的項目參數與IRT中的項目參數間的隱含關系.
本文提出基于廣義回歸神經網絡(GRNN)[7]的參數估計方法,以二值記分的測驗結果作為樣本,通過實驗與數理統計方法進行對比,并分析不同樣本量下參數估計結果的誤差.
項目反應理論是一種用來分析測驗成績或調查問卷結果的數學模型.項目反應理論模型是為了確定相關潛在特征(latent trait),被試者能力能否通過測試題反應得出,以及被試者與測試題間的互動關系.目前在心理測量和教育測量相關領域有較廣泛的應用.
項目反應理論的Logistics模型為一個非線性函數,其表示被試者在項目上的反應與被試者的能力和項目的參數之間的關系,常用的 3參數模型(3-parameter Logistic model,3PLM)的表達式如式(1):


圖1 項目特征曲線Fig.1 Item characteristic curve
其中被試者j的能力值為θj,項目i的區分度、難度和猜測系數分別由ai、bi和ci表示,D 為常數值 -1.702,表示被試者 j答對項目i的概率.根據3PLM繪制出的函數曲線為項目特征曲線(Item Characteristic Curve,ICC).項目特征曲線如圖1所示的S型曲線,其意義在于描述“被測試者成功作答某一特定項目的可能性”和“被測試者能力”之間的關系,其中被試者的能力值θ取值一般限定在[-3,3].對于項目i在圖像上,c所代表的是ICC的下限,一個能力值θ接近負無窮(非常低)的被測試者仍能答對此題的概率,c為項目的猜測系數.b一般表示在ICC圖像拐點處所對應的θ值,對于ICC下限為0(猜測系數c=0)的項目來說,b為p(θ)=0.5時被試者的能力值.b的改變會使曲線橫向移動,形狀保存不變,當b增加大時曲線向右移動,即θ保持不變時答對題的概率減小,題目的難度增加.題目的難度降低時曲線向左移動,b隨之減小.曲線拐點處的斜率k與區分度a的取值成正比(a=4k),在這一點附近上,能力值θ的微小的改變會引起最大的答對概率p(θ)變動.雙參數模型(2PLM)為ci=0時的特例,單參數模型(1PLM)為ci=0且ai=1時的特例.
參數估計是確定一組項目參數估計值以及被試者能力參數估計值的過程,估計出的參數值代入模型后,能夠最大程度的擬合項目反應矩陣P.當n個被試者對m個項目作出反應時,共有n+3m個參數需要估計.顯然,如果同時對如此多的未知數進行估計,那將是非常困難的.伯恩鮑姆(1968)提出將該問題分為兩個步驟[8]:
步驟1.假設項目的參數已知,只估計能力參數.
步驟2.將能力的估計值假設為真實值,只估計項目參數.并將迭代這一過程,當參數估計值趨于穩定時停止.目前參數估計的各種方法依據伯恩鮑姆提出的兩步驟進行.
測試的項目按照評分方式可分為二級評分項目、多級評分項目、連續評分項目.實際應用中,對二級評分項目的分析最為成熟.研究分析中的多級評分項目大多先轉化為多個二級評分項目再進行處理.在連續評分項目模型的研究分析中,通常先將其轉化為級數趨于無窮的多級項目,再做處理[9].二級評分又稱二值記分或0-1記分.本文主要研究二值記分項目的參數估計方法.
廣義回歸神經網絡(GRNN)是一種徑向基神經網絡,建立在非參數回歸的基礎上,以樣本數據為后驗條件,進行非參數估計,根據最大概率原則計算網絡的輸出,具有良好的非線性函數逼近性能,尤其適合解決曲線擬合問題.實驗表明[10],相比 RBF 網絡[11]和 BP[12]網絡,GRNN 在學習速度上較有更強的優勢,網絡在積聚較多樣本量的優化回歸面收斂.GRNN需要調節的唯一參數為平滑因子α(smoothing parameter),平滑因子的確定依賴于所選樣本,很好的避免了人為對參數的影響.樣本數據相對較少時,預測效果也可達到要求,得到較好的預測精度[14],這也是使用 GRNN進行預測的重要原因.GRNN學習過程就是確定平滑因子α的過程,相比其他網絡類型構建更為方便,在信號過程、結構分析、控制決策系統等各個學科和工程領域得到了廣泛應用.
GRNN的理論基礎
GRNN神經網絡為四層結構,各層由功能劃分分別為輸入層、模式層、求和層和輸出層,其中輸入為x=(x1,x2,…,xd)T,輸出為 y=(y1,y2,…,yL)T.學習樣本的向量維數 m 為輸入層的神經元數,神經元為簡單的分布單元,將輸入變量直接傳遞到模式層.學習樣本的個數n為模式層神經元數,樣本與神經元一一對應.求和層將兩類神經元求和.學習樣本的輸出向量維數L為輸出層的神經元數,輸出層神經元將求和層神經元各個輸出相除,估計的輸出結果yj對應第j個神經元.模型如圖2.

圖2 廣義回歸神經網絡模型Fig.2 GRNN model
若自變量x及其函數y均為隨機變量,其聯合概率密度函數記為f(x,y).x的實際觀測值記為X,y基于X的函數值記為Y,其數學期望 ^Y為:


使用GRNN進行回歸分析的主要步驟為3步.
第1步.將學習樣本數據按照規則分為兩個部分,第一部分樣本數據用做擬合訓練,使用擬合訓練所得到的網絡預測第二部分樣本數據,結合預測的誤差對網絡結構進行調整,當預測精度趨于穩定時神經網絡結構即可確定;
第2步.使用確定結構的神經網絡訓練全部樣本數據,獲得該學習樣本數據的神經網絡預測模型;
第3步.使用得到的神經網絡模型預測.
GRNN預測效果由唯一的參數平滑因子α決定.α的取值大于0,當其趨于0時^Y(X)與學習樣本近似,而且對非樣本點預測的效果非常差,表明網絡泛化能力較差.α越大時回歸曲面越平滑,α非常大時,^Y(X)接近樣本整體的因變量平均值.即α越小時,網絡對于樣本數據的數值逼近性越強;α越大時,網絡對于樣本數據的數值逼近過程就越平滑,但誤差也相應增大,通常α取值在0.01~1之間時能夠得到理想的結果.由于訓練數據通常較少,構建GRNN時常采取交叉驗證方法進行GRNN神經網絡學習,并結合循環找出最佳的平滑因子.
參數估計步驟
根據伯恩鮑姆的兩階段參數估計思想,使用GRNN網絡進行參數估計的步驟如下:
第1步.對于一個實際的得分矩陣F進行二值化處理得到項目反應矩陣P;
第2步.使用數理統計法由矩陣P估計出一組初始被試者能力θ;
第3步.根據上述θ,使用蒙特卡洛模擬法[13]產生項目參數(a,b,c)已知的項目反應矩陣 P'.項目參數(a,b,c)作為網絡輸出,樣本P'作為網絡輸入,學習得到item-GRNN網絡,用于估計項目參數(a,b,c);
第4步.根據上述項目參數(a,b,c),使用蒙特卡洛模擬法產生被試者能力參數θ'已知的項目反應矩陣P''.被試者參數θ'作為網絡輸出,由P''作為網絡輸入,學習得到θ-GRNN網絡,用于估計被試者能力參數θ;
第5步.重復進行第3步、第4步,直到估計值趨于穩定或循環次數達到限定終止.此時最終得到的兩個GRNN網絡可分別用于對被試者能力和項目參數的估計.
實驗表明,兩階段參數估計法在迭代次數較小時就能達到參數估計值在較小的范圍變化.
正在進行的FAVOR Ⅲ(The FAVOR Ⅲ China Study)中國單中心臨床試驗(NCT03656848)計劃入組評估3 000例冠心病患者,與冠狀動脈造影指導下的經皮冠狀動脈介入標準治療方案進行對照, 研究QFR指導下的經皮冠狀動脈介入治療方案能否獲得優效的臨床結果和手術成本效益。
本文使用實際考試作答結果即得分矩陣作為實驗樣本數即項目反應矩陣,對上述參數估計方法進行實驗.使用傳統的數理統計方法和GRNN參數估計法分別對得分矩陣進行項目參數和能力參數的估計,得到每一被試者的能力值和每一項目的項目參數,并計算其估計值對應的誤差(BIAS、RMSE).
本文使用于某初級中學采集到的真實測驗數據(2000個被試者對50道選擇題的作答結果)作為原始數據.對原始數據進行二值化處理(答對為1,答錯為0),將處理后的數據作為樣本.從樣本數據中隨機抽取100個被試者作為小樣本數據,原樣本數據作為大樣本數據,分別使用數理統計法和GRNN神經網絡法對大樣本和小樣本進行參數估計.
從二值化處理(答對為1,答錯為0)后的項目反應矩陣中隨機抽取N個被試者與M個項目組成的項目反應矩陣P,使用數理統計方法的Langtest[15]工具1http://langtest.jp.(2015)對矩陣P進行項目和被試者的參數進行估計.得出所有被試者的能力參數θ和所有項目的項目參數(a,b,c),并計算參數對應的誤差.
同樣從二值化處理后的項目反應矩陣中隨機抽取N個被試者與M個項目組成的矩陣P作為GRNN參數估計的樣本.根據數理統計法估計出的被試者能力參數θ,使用蒙特卡洛模擬法,按照表1的項目參數分布和取值范圍生成項目反應矩陣P',通過折交叉驗證法確定item-GRNN網絡的平滑因子.同樣按照表1中能力參數分布和取值范圍生成項目反應矩陣,通過k折交叉驗證法確定θ-GRNN網絡的平滑因子.根據3.1中的參數估計步驟進行迭代,直至參數估計值穩定.

表1 IRT參數分布及取值范圍Table 1 IRT parameter distribution&value range
隨機抽取N'個被試者與M'個項目組成矩陣作為樣本輸入item-GRNN和θ-GRNN網絡估計出項目參數和能力參數.
本文使用的標準誤差(Standard Error,SE)[16]作為誤差統計指標.

其中誤差E=測試值-真實值.
實驗中被試者人數 N 分別取 2000、1000、500、200、100、50,項目個數M取50,分別對每組數據使用Langtest方法和GRNN方法進行參數的估計.

表2 平均標準誤對比Table 2 Comparison of average standard errors

對比表2中在大樣本N=2000、N=1000、N=500時,兩種方法估計得出的各個參數的平均標準誤相差不大,當樣本數量N逐漸減小時Langtest法和GRNN法對應的平均標準誤差均增大,當樣本數量N=50時,Langtest方法對應的平均標準誤遠大于GRNN方法對應的平均標準誤.
當樣本量很小時(N<100),傳統的基于數理統計方法的IRT參數估計方法估計出的參數存在較大的誤差,而GRNN方法估計出的參數誤差較小.
表2列出了6組實驗的結果,其中每組為兩行數據,分別為被試者樣本數量為N時,兩種參數估計方法中估計出的各個參數的標準誤差的平均值值由式(11)計算得出.
本文針對測驗中參數估計的實際問題,提出一種基于神經網絡的試題參數和被試者能力參數的估計方法,以二值記分的IRT三參數模型,以GRNN為神經網絡模型,基于實際測驗數據使用蒙特卡洛模擬方法進行實驗研究,將GRNN估計方法與數理統計估計方法進行了比較.結果表明,該方法具有一定的優點,相對于數理統計方法,GRNN法在小樣本情況下參數估計的誤差較小,可在較少被試者參加的測驗中估計出較精確的參數.