


通訊作者,Email:hn_syb@126.com(北方民族大學基礎教育學院,中國 銀川750021)
摘要如何綜合閱卷教師的獨立評分,科學合理地確定考生的成績,是主觀性評價網上閱卷的關鍵問題之一.提出了考生獲得各個分數值的難度系數的新概念,認為考生試卷成績的確定不能是簡單的平均值,應該是考慮分數值難度系數的加權平均,根據隨機獨立專家評分構造了高考作文網上閱卷考生成績的統計量模型.該模型對于各種類型的主觀性評價網上閱卷的成績確定具有廣泛的應用.
關鍵詞難度系數;成績統計量;一致最小方差無偏估計;數學模型
中圖分類號O212.2文獻標識碼A文章編號10002537(2015)06006805
On the Construction of Statistical Estimation
of the Teachers Independent Score
TIAN Junzhong*
(College of General Education, Beifang University of Nationalities, Yinchuan 750021, China)
AbstractHow to calculate teachers independent score scientifically and reasonably determine the examinees score, is a key issue in the subjective evaluation of the online marking. The new concept of the difficulty coefficient that the examinee obtain each score was proposed. It is considered that the examinees score can not be a simple average, it should be the weighted average of the difficulty coefficient. Based on its randomness and independence, the statistical estimation model of the examinees score of online marking was constructed. The model has a wide practical application for all kinds of subjective evaluation of online marking.
Key wordsthe coefficient of the difficulty; statistical estimation of the score; uniformly minimum variance unbiased estimation; mathematical model
主觀性評價網上閱卷(如高考作文網上閱卷)的工作流程與計算機技術日益成熟,使用范圍不斷地擴大,目前全國各個省份都實行了網上閱卷[1].閱卷系統向閱卷教師隨時隨機分發評閱試卷,電子化的試卷完全消去了考生的個人信息.在整個評分過程中,閱卷教師在時間上和空間上是分離的,工作上都相互獨立,他們互不影響,工作流程的管理辦法保證了閱卷老師獨立自主地認真評閱,所以任何一位評卷人員對任何一篇電子化評閱作文的評分都是相互獨立的.
由于電子試卷的隨機分發,每一份試卷在整個閱卷期限內、在任何時間上都有同等的概率分發到每位閱卷教師; 電子化的評閱作文還可以多次分發,可以在同一時間發給不同教師,也可以在不同時間分發給不同的教師.不同的閱卷人員在評閱同一份電子化的評閱作文是有差異的,為了消除閱卷教師在對評分標準的理解、對敘述問題方式的喜好、評閱時的工作態度與心理傾向等方面的系統偏差,在組織管理中對閱卷教師進行嚴格選拔,他們都是長期從事本專業教學和研究的高級教師,多次參加此類型試題的網上閱卷,在評卷之前認真組織培訓 ,充分討論評分標準,模擬評卷,規范評卷行為,統一基調,使閱卷評分更加趨同[25].
由于評閱作文是一種主觀性評價,閱卷專家的評分受個人的知識業務水平、教學工作經驗積累、對評分標準的理解把握、對敘述問題方式的喜好、評閱時的工作態度、對題材的心理傾向以及持續工作的抗疲勞能力等等方面的影響較大,使得不同的評卷人員在經過培訓之后仍然對同一篇作文主觀性評價的評分往往有一定的差距[67].所以主觀性評價網上閱卷在數學上存在著一個關鍵性的問題:那就是如何確定一份試卷的考試成績,如何綜合各位閱卷老師的獨立評分,本文以高考作文網上閱卷為背景,研究構造給出主觀性評價網上閱卷獨立評分考生成績統計量的數學模型.
1問題的提出
設X=^一份電子化的評閱作文的評分.由于評閱專家是隨機抽取的,則X是隨機變量,E(X)=μ是評閱試卷水平的真值,是未知待估的.若在全體閱卷老師專家集合中隨機抽取n個專家對同一篇作文進行網上獨立評分,得樣本X1,X2,…,Xn,由辛欽大數定理可知,其算術平均值=1n∑nk=1Xk以概率收斂到其真值μ上,且是μ的一致最小方差無偏估計[89],所以,只要n充分大,在大樣本下,一般取作為μ的估計量,就可以作為該試卷的成績.
湖南師范大學自然科學學報第38卷第6期田俊忠:獨立評分考生成績統計量模型的構造然而在實際工作中n不可能充分大,由于閱卷時間、閱卷人數和閱卷強度等方面的限制,一份試卷往往進行兩評、三評(為了驗證某些疑點,在特殊情況下極少量的電子作文才有四評),在這種情況下如何根據一份試卷的兩評或三評的評分來確定它的考試成績.十幾年來,實際工作中為了簡便易行便于操作,憑經驗確定了一個誤差控制限A, 設X1與X2分別是隨機的兩位評卷教師對同一評閱材料的評分,若|X1-X2|≤A,則該試卷的成績為Y=X1+X22,若|X1-X2|>A,則由閱卷系統自動隨機地從評卷教師專家集合中再隨機地抽取一位專家進行獨立的評閱,設評分為X3,若|X1-X3|<A,則該試卷的成績為Y=X1+X32,若|X2-X3|<A,則該試卷的成績為Y=X2+X32.否則,由閱卷組長負責另行集體討論處理.
這種確定成績的方法實際上是在評閱專家集合中隨機搜尋相近的兩位專家,取他們評分的簡單平均值作為考生的成績.由于試卷隨機地分發,等可能地分發到每一位專家的手中,如果兩位專家的意見有較大的不一致性,那么隨機碰到的第三位專家的評分基本上左右了該試卷成績的高低.比如:為了使得三評量不要太大,取誤差控制線A等于10,如果對于一份試卷的兩評評分分別為X1=56與X2=36,那么就有|X1-X2|>A,于是隨機分發到第三位專家進行三評,當碰到的一個專家獨立評分給出的三評評分X3=50時,則該試卷的成績為Y=X1+X32=53,當碰到的是另一個專家獨立評分給出的三評評分X3=30時,則該試卷的成績為Y=X2+X32=33,所以,該份試卷的成績的高低基本上是由進行三評時究竟遇到什么樣的專家水平來決定,這樣,不論該份試卷的水平如何,這種確定方法使得該份試卷的考生要么吃虧,要么占便宜,總之是不公平的,也是不公正的,而且隨著誤差控制線A的縮小,三評的試卷份數將會增加,這種情況形成的不公平的數量也隨著增加,擴大了不公平的考生數量,本來縮小誤差控制線A,應該有利于縮小不公平的數量,但適得其反,成績的這種計算方法是有問題的,更何況取算術平均作為真值的估計,其基本前提是大樣本才行,因此需要深入研究網上閱卷成績確定這一世界性難題.
2分值的難度系數
根據兩評的成績X1與X2或三評的成績X1,X2,X3來計算考生的得分成績時,考生成績Y不僅取決于評閱教師的評分Xi(i=1,2 或i=1,2,3),而且也應該注意到這樣一個因素,由于種種原因,閱卷教師評分的趨中現象是個不合理的常態,是難以避免的評閱現象[1011].越是給出很高分或者很低分,評閱教師越是很慎重,所以,考生獲得此分值的難度就越大,若要獲得較高的評分,說明考生的綜合素質水平比較高、綜合能力比較強,在確定考生成績時應該加大其權重;反之,一般性的綜合素質水平與能力,其基本要求絕大多數考生容易做到,閱卷教師給出評分很低的分值也是比較困難的,意味著考生獲得很較低的難度系數也較高.因而處在不同的分數段則有不同的難易程度度,閱卷教師評分的分值不同,則其得分的難度程度也是不同的.
我們假定閱卷教師隊伍幾年來相對穩定和成熟,這可以通過組織領導、組織管理與工作總結討論學習在實際工作中能夠實現,那么,可以通過幾年的數據來測定各個分值的難度程度.
設f(x)是分值x的考生人數占全部考生人數的比重,由于說明高考作文試卷設定的滿分為60.則 0≤x≤60,實際上,f(x) 是分值x的統計頻率.如果設考生總數為N,即評閱試卷的總份數為N,那么分值為x的考生人數為Nf(x) .
定義1對于任意的分值x, 0≤x≤60,則稱
F(x)=11+f(x) (1)
為分值x的難度系數, 其中,f(x)=分值x的考生人數N .
從中可以看出,考生獲得分值x的難度系數與分值為x的考生人數所占總人數的比例成反比,那個分值上的試卷份數最多,或考生人數最多,則該分值的難度系數最小.從統計的意義上看,一般來說,考生獲得高分的難度較大,獲得低分的難度也較大,同時,在長期的閱卷工作實踐中,從閱卷的主觀性評價上看,閱卷教師給出高分的難度較大,給出低分的難度也較大,如果一個閱卷教師確實給出了高分或低分,它是經過斟酌評分標準尺度與作文內涵水平,慎重評閱給出的,其評分更加接近于該作文的實際水平.顯然,難度系數F(x)是有界的,且0<F(x)<1 ,它反映了一個考生獲得閱卷教師評分分值x的難易程度, F(x)越大,說明獲得分值x的難度較大,反之亦然.
3考生成績統計量模型的構造
由于閱卷教師精心挑選、長期實踐培養、嚴格培訓與不斷總結經驗,每一位閱卷教師都能把握標準,能夠做出準確判斷,同時在評分時互不影響,相互獨立,所以每一位閱卷教師的評分都反映了考生的某些信息,無論是兩評還是三評,考生的成績不應該是簡單的算術平均,應該更為全面,取它們的加權平均比較合理.權重以獲得該分值的難度系數為依據,來進行考生成績統計量的構造.
設X1,X2,X3是隨機抽取的三位閱卷教師的網上閱卷的評分,X1,X2,X3是獨立同分布的隨機變量,且都服從正態分布[12],考慮構成考生成績的數學結構是線性的.設βi(i=1,2,3) 為Xi的系數,于是確定考生成績的數學結構為
Y=β1X1+β2X2+β3X3, (2)
其中,β1+β2+β3=1.
考慮系數大小βi(i=1,2,3) 只與它們各自的難度系數F(Xi)有關,
若Xi的難度系數F(Xi)越大,則βi應該越大,即Xi對于考生成績Y的貢獻較大,反之亦然.于是令 βi=kF(Xi),且 β1+β2+β3=1,
于是得: k=1F(X1)+F(X2)+F(X3) ,
那么,考生成績的表達式結構為
Y=F(X1)F(X1)+F(X2)+F(X3)X1+F(X2)F(X1)+F(X2)+F(X3)X2+F(X3)F(X1)+F(X2)+F(X3)X3.(3)
由于X1,X2,X3是隨機變量,是閱卷教師評分X(它是一個正態總體)的一個樣本,Y是樣本X1,X2,X3的一個函數,不含有任何未知參數,所以Y是一個統計量,它是考生成績的一個估計量.
如果 |X1-X2|≤A,則沒有三評評分,即X3與F(X3)都不存在,
所以兩評條件下考生成績統計量為
Y=F(X1)F(X1)+F(X2)X1+F(X2)F(X1)+F(X2)X2. (4)
4模型的應用
根據難度系數式(2),利用2002年寧夏高考作文網上閱卷數據,經計算得到不同分值x的難度系數F(x)的值,
表12002年寧夏高考作文網上閱卷分值的難度系數
Tab.1The difficulty cofficient of Ningxia 2002 college entrance composition examinees score of online marking
分值頻數難度系數分值頻數難度系數分值頻數難度系數5640.999 748 311580.999 377 47105500.960 044 11660.999 740 321810.999 286 48118150.955 467 16680.999 732 332230.999 121 49129610.951 357 18690.999 728 342940.998 842 50139090.947 984 19720.999 716 354020.998 417 51146550.945 347 20780.999 692 365880.997 686 52151970.943 440 21790.999 688 378450.996 678 53156500.941 852 22800.999 685 3812060.995 265 54158870.941 023 23830.999 673 3917080.993 307 55161070.940 255 24850.999 665 4023310.990 888 56162300.939 827 25870.999 657 4131550.987 707 57162790.939 656 26950.999 625 4241170.984 018 58163410.939 440 27990.999 610 4351940.979 922 59163720.939 332 281060.999 582 4464040.975 359 60163840.939 290 291160.999 543 4577800.970 222 合計253 491301330.999 476 4691880.965 022 由于相鄰兩年全省的高考分數值的難度系數變化很小,我們以上年的難度系數作為當年的難度系數,比較合理的難度系數應該取近三年全省難度系數的平均值作為當年的難度系數.根據成績確定的數學模型(3)和(4),由招辦隨機抽取2003年寧夏高考作文網上閱卷的16份樣本試卷,分別計算兩評與三評時考生成績的模擬值,并與歷史成績進行對比,分析說明其數學模型的合理性.
隨機抽取16份樣本試卷,兩評與三評樣本試卷各8份,將根據(3)和(4)來計算其模擬成績,并與歷史成績進行對比,其結果由表2和表3給出.
表2兩評時考生成績的模擬值與歷史成績對比
Tab.2Contrast between the simulation value and the historical result of the composition examinees scores under two evaluation
一評成績難度系數兩評成績難度系數模擬成績歷史成績對比差值460.965 022450.970 22245 46 1480.955 467530.941 85250 51 1300.999 476360.997 68633 33 0460.965 022430.979 92244 45 1560.939 827480.955 46752 52 0300.999 476400.990 88835 35 0430.979 922470.960 04445 45 0540.941 023490.951 35751 52 1
表3三評時登錄成績的模擬值與歷史成績對比值
Tab.3Contrast between the simulation value and the historical result of the composition examinees scores under three evaluation
一評成績難度系數兩評成績難度系數三評成績難度系數模擬成績歷史成績對比差值350.998 417530.941 852430.979 92243 39 4 500.947 984380.995 265490.951 35746 50 4 520.943 440360.997 686480.955 46745 50 5 360.997 686490.951 357420.984 01842 39 3 440.975 359550.940 255400.990 88846 42 4 530.941 852360.997 686550.940 25548 54 6 520.943 440400.990 888400.990 88844 40 4 540.941 023400.990 888370.996 67843 39 5 當時根據經驗判斷,評分誤差控制限A取為10分,當 |X1-X2|<A時,不再進行三評,兩評樣本試卷的歷史成績是憑經驗使用簡單平均公式Y=X1+X22來計算的.從表2、表3中可以看出:二評時,考生成績的模擬值與歷史成績相比,當|X1-X2|越小,則模擬值與歷史成績越接近,或者相等.在這種情況下,考慮或者不考慮這兩個評分的難度系數F(X1)與F(X2),對考生成績影響不大,即:根據公式(3)及其推論(4)計算模擬值與歷史成績值相比較,是基本一致的,這說明了公式(3)與(4)的合理性.三評時,樣本試卷的模擬成績與歷史成績相比較,暴露了經驗做法的不合理性.歷史成績的計算是招辦憑經驗給出,由于 |X1-X2|≥A,若|X1-X3|≤|X2-X3|成立,則使用簡單平均公式Y=X1+X32來計算.反之,則使用簡單平均公式Y=X2+X32來計算,可以看出上述計算公式不妥,尤其是X1,X2,X3當中有一個大于50,更為不妥,在大量的閱卷工作中,由主觀經驗給出的考生成績計算公式所產生比較廣泛的不公平性沒有被發現,建議主觀性評閱網上閱卷成績的計算公式應采用(3)給出的計算公式,使考生的成績更加合理化.
參考文獻:
[1]羅友花,劉鐵明.網上閱卷研究述評[J].中國考試,2009(11):3437.
[2]賈志先.基于譜聚類的網上閱卷質量控制研究[J].智能計算機與應用, 2014,4(5):7679.
[3]曹建莉,張強.評卷質量監控模型及其統計分析[J].統計與決策, 2012,18(1):2931.
[4]肖廣. 大規模教育考試中網上閱卷的實施與思考[J].考試研究, 2009,9(1):4850.
[5]葛麗萍,李傳智. 基于Web的網上閱卷系統的研究[J].科技信息, 2007,11(2):126127.
[6]劉素梅. 俄語測試網上閱卷系統與主觀題的誤差控制[J].中國俄語教學, 2007,26(2):5356.
[7]仲軼宏. 基于B/S模式的網絡閱卷系統的設計與實現[D].成都:電子科技大學, 2013.
[8]陳希孺.高等數理統計學[M].合肥:中國科學技術大學出版社, 1999.
[9]LEHMANN E L, ROMANO J P. Testing statistical hypotheses (third edition)[M]. New York: Springer, 2005.
[10]彭恒利,俞韞燁.主觀性試題網上評閱趨中評分控制研究初探[J].中國考試.測量與評價, 2013,(6):39.
[11]王海. 基于Web Services 的網上閱卷系統的設計與實現[D].上海:華東師范大學, 2006.
[12]田俊忠.高考作文網上閱卷區分度的數學模型[J].工程數學學報, 2005,22(8):4952.