卜文娟,溫紅博,劉先偉
?
初中學業水平考試中固定分數法標準設定的信度分析——以中考數學為例
卜文娟,溫紅博,劉先偉
(北京師范大學 中國基礎教育質量監測協同創新中心,北京 100875)
綜合應用現代測量理論,分析中國初中學業水平考試中固定分數法標準設定的信度.分別從中國東中西部地區3個區縣隨機抽取3?000名初三學生為被試,對被試的數學學業水平考試數據進行分析.采用的信度指標包括經典測量理論的決策一致性系數()、概化理論的等級線決策信度(λ)和項目反應理論的信息量(θ).研究結果顯示,固定分數法標準設定下,決策信度接近0.7;等級線決策信度大于0.7,大部分在0.8左右;分界點的信息量大部分低于16.這些結果表明,中考采用固定分數法進行標準設定的質量一般,對于學業水平考試這種高利害性考試來說需要進一步提高.
學業水平考試;標準設定;固定分數法;信度
在新課程改革背景下,中考制度進行了改革,初中畢業考試與高中招生考試合二為一形成初中學業水平考試(以下統稱“中考”),考試結果既是決定學生能否畢業的主要因素,也是高中階段學校招生的重要依據之一[9].改革后的中考具有標準參照測驗的性質.考試結果以等級形式呈現,將原始分轉化為等級分的過程中涉及等級劃定,也叫標準設定.標準設定是指在測驗分數分布中劃出一系列分界分數,將考生分為兩類或者更多有序類別[2-3].中考標準設定的結果與學生的畢業與升學等人生重要轉折點息息相關,對考生具有深遠影響,因而標準設定的質量至關重要且廣受關注.
目前,中國已有的關于中考標準設定質量的研究成果主要集中在中考標準設定的重要性、現有中考標準設定質量存在的問題及改進措施等.但這些研究大多采用質性的思辨性研究進行理論層面的探討.而標準設定是一個復雜的需要綜合多種因素的心理測量過程,在鼓勵使用等級成績的同時應該加強對標準設定的研究和指導[4].因此,如何科學運用現代測量理論和技術,檢驗并加強中考標準設定的質量,為中考考試質量的提升提供科學指導,顯得尤為重要和迫切.
從測量理論上講,無論采用什么方法,標準設定的結果必須經過實踐的檢驗,測試機構有責任提供證據證明標準設定的質量[3,5].標準設定質量的重要指標就是分界分數的信度,分界分數的信度也受到了研究者的廣泛關注[6-8].中國中考改革強調務必保證中考測試工具的信度,以避免中考結果出現較大誤差[9].中考作為一個標準參照測驗,按照測量學的要求需要報告標準設定的信度以證實其等級劃定結果的質量.關于標準參照測驗的信度分析,現代測量理論基于自身的理論框架提出了不同的信度觀,為解決這個問題提供有效的方法和指標.從經典測量理論(Classical Testing Theory,以下簡稱CTT)的觀點來看,研究者提出了標準參照測驗的信度指標:決策一致性和決策準確性,決策一致性(DC)指考生在兩次平行測驗中被一致歸類的程度,其常用指標是和系數[10-11].決策準確性(DA)根據考生在考試中得到的觀察分數所作的分類決定和根據真分數所做決定的一致性,常用的指標也是和系數[10-12].概化理論(Generalizability Theory,簡稱GT)針對不同的等級分數線,提出了相應的等級線決策信度(λ)估計方法,以此估計各個能力水平點的測量信度[13-14].等級線的決策信度是用來描述依據不同的表現類別的臨界分數對被試進行分類的可靠性和穩定性.信息函數則是項目反應理論(Item Response Theory,簡稱IRT)中用以刻畫測驗或試題有效性的工具,它是直接反映測驗分數對學生能力估計精度的指標[15-16].作為一種判斷被試合格與不合格的標準參照測驗,重要的是要在分界分數及其附近有精確的估計及高區分的能力,而這些都反映在測驗在劃界分數點的信息量,因此可根據測驗在劃界分數點上的信息量來評價標準參照測驗[17-18].
等級劃定的結果受到其選擇的方法的影響.實踐中,中國中考標準設定常用的一種方法是固定分數法,即按照固定分數來劃分[19-21],而等級數目和等級標準則由各地根據考試結果和當地實際情況確定[22],因而各地有所差異.中國大部分地區采用的等級數目為4、5、6級,按照固定分數線的劃分,以百分制計算,4級劃分通常采用60分、70分和90分3個分界分數將被試分為4個等級;5級劃分是采用60、70、80、90分為分界分數將成績劃分為5級;6級劃分則是采用50、60、70、80、90分5個分界分數劃分為6級.而目前中考采用固定分數進行等級劃分可能會存在多種不足,進而影響中考標準設定的質量.然而目前缺乏相關的研究對中考標準設定的信度進行分析.因此,應用現代測量理論對中國中考標準設定的信度進行分析以提供其質量論證顯得十分必要.
此外,數學作為促進學生全面發展教育的重要組成部分,在培養人的思維能力和創新能力方面的不可替代的作用.義務教育階段的數學課程是培養公民素質的基礎課程,在各學段的學業水平考試中占據重要地位,此外根據調查結果顯示,數學是各地中考的必考科目[23],因而擬以中考數學為研究對象進行分析.
綜上,以中考數學為研究對象,綜合應用CTT、GT和IRT分析中考現有固定分數法標準設定的決策一致性、等級線決策信度和分界分數的信息量,對中考標準設定的信度進行探討.
鑒于中國中考由各地市統一組織進行的現狀,采用分層隨機抽樣.首先從中國東部、中部、西部地區各選一個地市,然后從所選擇的地市中隨機抽取3?000名被試作為分析對象.
將所抽取的3個地區的試卷分別記做A試卷、B試卷、C試卷.3個試卷結構如表1所示,其中部分解答題中包含兩個或兩個以上的小題,表中總題量統計是按照卷面的小題題目數量進行統計.

表1 試卷結構
由于中國大部分地區采用的等級數目為4、5、6級,因此,分別探討采用固定分數線將被試分為4、5、6個等級進行標準設定時測驗的決策一致性、等級線決策信度和分界分數的信息量.
采用Livingston和Lewis[11]提出了的LL方法分別估計測驗決策一致性和決策準確性的和系數.研究者建議對大規模測驗的分類一致性的高于0.7,系數高于0.6[11,24].
從GT測量設計的角度來看,A、B、C三套試卷的所有被試均需要作答對應測驗的所有題目,測驗均為隨機單面交叉設計(×).概化研究包括G研究和D研究,G研究分析各變異來源,D研究考察不同測量條件下測驗信度變化.有研究者建議基于GT的信度指標需要達到0.80[25],對于高利害性的大規??荚嚨母呕哦戎笜诉_到0.85才能滿足需求,理想情況下決策信度達到0.90則說明決策信度質量非常好[26-28].

研究采用SPSS 20.0對數據進行管理,使用BB-CLASS[31]進行決策一致性分析.使用GENOVA軟件[32]進行GT分析.使用Conquest 2.0[33]和江西師大統計與測量研究開發中心自主研制的“現代教育與心理測量通用分析系統(ANOTE)”進行IRT分析.
首先對測驗題目的質量進行分析,包括題目的難度和區分度,并分析測驗的內部一致性系數,在此基礎上計算各測驗的決策一致性和決策準確性.
3.1.1 題目的難度和區分度
難度指標采用的是項目通過率,區分度指標采用的是題總相關.分析結果表明,A測驗總體難度為0.74,題目的難度范圍為0.15~0.99;題目的區分度均大于0.2,大部分題目區分度大于0.4.B測驗總體難度為0.81,題目的難度范圍為0.11~0.99;題目的區分度均大于0.2,大部分題目區分度大于0.4.C測驗總體難度0.72,題目的難度范圍為0.15~0.98;題目的區分度均大于0.2,大部分題目區分度大于0.4,題目區分度良好.
3.1.2 決策一致性
A、B、C三個測驗的內部一致性系數(系數)分別為0.848、0.873、0.824,表明測驗信度較高.然后使用BB-CLASS軟件,計算分類一致性和分類準確性.采用不同等級數目等級劃分時,A、B、C三個測驗的決策一致性和決策準確性如表2所示.
由表2可知,采用6級分類時,測驗的決策一致性和決策準確性的值均低于0.7,值低于0.6.采用5級分類,3個測驗的決策一致性的值高于0.7,值高于0.6,而決策準確性的值接近0.7,值接近0.6.采用4級分類時,3個測驗的決策一致性和決策準確性系數均較高.
GT的分析包括G研究和D研究.由于只有D研究能夠提供信度信息,所以在此只呈現D研究結果.
在G研究的基礎上進行D研究,首先計算測驗的概化系數和可靠性指數,A、B、C的概化系數分別為0.86、0.85、0.82,可靠性指數分別為0.78、0.74、0.74.接著計算A、B、C測驗在不同等級劃分時的決策信度,6級分類時各分界點50分、60分、70分、80分、90分對應的等級線決策信度為(50)、(60)、(70)、(80)、(90),5級分類對應的等級線決策信度為(60)、(70)、(80)、(90),4級分類對應的等級線決策信度為(60)、(70)、(90),具體結果如表3所示.由研究結果可知,首先,3個測驗在不同等級劃分情況下分界分數決策信度均大于0.7,從總體上來講可以接受,但部分等級線的決策信度在0.80以下.其次,相對而言,低分段的決策信度較高,高分段的決策信度次之,但中等水平的決策信度較差.最后,不同地區的等級線決策信度存在差別,A、B兩個地區決策信度總體優于C測驗,其原因可能在于測驗工具的質量存在差異,C測驗的內部一致性系數和概化系數均低于A、B兩個測驗.

表2 各測驗固定分數法的決策一致性

表3 測驗各分界點對應的等級線決策信度
D研究所采用的測量結構和測量模式與G研究相同,進一步考察題目側面的樣本容量對測驗各等級線的決策信度的影響[26].研究以各測驗現有題目數量為基準(A測驗的現有題目數為35題,B、C兩測驗題目數為36題),每種條件增加或減少25%的題目,測試題目數量從18~72,每個測驗共有7種條件.研究結果分別如下表4、表5、表6所示,研究結果顯示,隨著測試題目數量的增加,各分界分數的等級線決策信度均持續提高,但增加到一定程度后決策信度的提升隨著題目數量的增加而減緩.由表可知一般測驗題目達到45,測驗的等級線決策信度可以達到0.80;題目數量增加一倍,測驗各等級線的決策信度可以達到0.85.

表4 A測驗題目數量與等級線決策信度的影響

表5 B測驗題目數量與等級線決策信度的影響

表6 C測驗題目數量與等級線決策信度的影響
研究首先檢驗測驗的單維性,分析測驗是否滿足IRT的前提假設[34],在此基礎上進一步分析題目的質量和測驗信息量.
3.3.1 單維性檢驗
使用SPSS20.0對各測驗進行因素分析,數據結果表明3個試卷的第一特征根與第二特征根比值均大于3,可以認為測驗符合IRT的單維性假設[34-35].
3.3.2 題目質量分析
研究采用IRT的單參模型對3個測驗的題目難度、區分度和擬合指數進行估計.研究結果顯示A、B、C測驗的題目難度分布合理,且所有題目擬合指數(MNSQ)擬合良好[36].測驗題目區分度均大于0.2,大部分題目大于0.4.總的來說,3個測驗的題目擬合良好,區分度較高.
3.3.3 測驗信息量


表7 測驗各分界點對應的信息量
4.1.1 中考標準設定的信度
綜合應用現代測量理論對中國中考標準設定的信度進行分析.通過探索和對比不同測量理論框架下的信度指標,以期為判斷學業考試等級設定的質量提供科學的理論支持,進而為初中學業水平考試的實施和改革提供參考和建議.
從CTT的分析結果來看,不同的標準設定等級數目下,測驗的決策信度存在較大的差異,采用6級分類時,測驗的決策信度較差,未能達到大規??荚嚨囊?;而采用5級分類時,測驗基本達到了大規模測驗的要求,采用4級分類時測驗能夠對被試進行較好的分類,滿足高利害考試的要求.綜合來看,測驗的決策信度受到分界分數數目的影響,分界分數越少,分類一致性越高,與已有研究結論一致[37-38].分界分數附近的考生越多,就更容易在兩次劃分中被分到不同的種類中,因此分界分數越多,分類一致性越低.此外,由研究結果可知,測驗的決策準確性略低于決策一致性,測驗的測量準確性還需進一步提高.
概化分析表明,測驗的各分界分數的等級線決策信度大于0.70,大部分分界分數的決策信度在0.80以上,可以認為學業水平考試的各等級線對被試進行分類時具有較高的穩定性和可靠性.而從各等級線決策信度的比較結果來看,低分端分界點和高分段的等級線決策信度高于均值附近分界點的決策信度,由此可知現有中考對于兩端的被試分類的可靠性和穩定性較高,尤其是低分段的決策信度相對最高.而這一結果可能與中考考試設計有關,目前中考數學的考試設計要求容易題、中檔題和稍難題的比例大致確定為7:2:1[39-40],由此可知大部分題目集中于較低水平的學生,因此對低分段學生的能力水平測量更加準確.為了使各決策線信度均達到0.80,更符合高利害考試的要求[26],D研究結果表明題目數量需要適當增加到約45題,如果想要使測驗各等級線的決策信度達到0.85,滿足大規模測試的要求,題目數量需要增加一倍.可以看出,隨著題目數量增加,測驗信度的提升效果逐漸減小,因此,需要結合考試成本等因素綜合考慮題目的合理數量.
從IRT的角度去分析各分界點的信度時,其分界點的信息量均低于16,特別是高分段的分界點信息量甚至低于8,遠不能滿足高利害測驗的測驗精度要求[29].由IRT的結果可知,目前中考對分界分數附近的被試的能力水平測量的準確性不高,尤其是高分段學生能力水平的測量精度.這可能是由于目前的中考測驗中難題的數量較少,很難對高水平能力的學生進行準確的測量.
值得注意的是,研究結果中GT和IRT的信度指標的變化趨勢不盡相同,等級線決策信度呈現一個U型的變化趨勢,而信息量則是倒U型,對此Brennan[41]指出是由于原始分與IRT能力值的非線性轉化造成的,其中GT和IRT對于高分段學生的判斷結果似乎是矛盾的,但這一點也不難理解.等級線決策信度反映的是分數線對被試進行劃分的可靠性和穩定性,而信息量反映的是分界點對被試的測量準確性.因此,這一結果可以解釋為目前的中考測驗對高水平學生的分類一致性較高,但由于測驗中符合高水平學生能力的難題數量較少,很難準確地測量高水平學生的能力,從而導致高分段的分界點信息量較低.
4.1.2 對中考命題的建議
研究結合中國中考標準設定的現狀,綜合研究結果,對中考命題及改革提出如下建議.
(1)中考標準設定需要借鑒國內外先進測評項目的經驗,完善課程標準,建立合適的表現標準,詳細描述各等級學生所需要具備的知識和技能.標準設定的標準不僅包括內容標準,還包括表現標準.內容標準規定學生應該掌握什么,表現標準是指期望被試達到的與內容標準對應的測驗表現水平.與國際大型測評項目相比,中國中考表現標準缺失,從而導致標準設定的結果指向不明確,解釋效力不足.因此,借鑒已有研究成果,建立中考各等級的表現標準顯得緊急而且重要.
(2)中考標準設定的方法需要各地區結合實際情況和可用資源綜合衡量選擇.各地區進行標準設定時,需要盡可能的基于測量學的指導,采用合理的方法進行標準設定,如采用專家判斷法(如Bookmark或者Angoff法)和客觀的標準設定方法(如聚類分析法)相結合,建立較為穩定的等級標準,使標準設定的結果更可靠、有效.
(3)中考標準設定的等級數目方面,研究結果與大量已有研究得到一致的結論:等級數目越少,分類的一致性越高.因此,建議在能夠滿足實踐需求的前提下,盡可能地減少等級數目,可以考慮采用3級或者4級進行等級劃分,不宜采用過多等級.
(4)關于中考題目數量方面,現有的中考題目數量(36題)基本能夠滿足考試需求,根據GT的研究結果,適當增加題目數量至45題,能夠使各等級線的決策信度均達到大規模測量的基本要求(0.8以上).增加題目數量時,可以考慮適當增加有一定難度的題目,以進一步提高現有中考對高水平被試的測量準確性.
(5)關于中考的題目難度分布方面,現有的中考采用的偏態分布不利于對能力分布兩端的學生的測量.建議題目難度采用多峰分布,具體根據各地區劃定的等級數量,針對對應的能力分界點設計對應的難度的題目,使各能力分界點附近均有足夠的題目數量,加強對各能力分界點附近學生的測量精度,從而進一步提高等級劃定的質量.
4.1.3 研究的不足與展望
首先,研究的樣本選擇存在不足.研究選擇了3個地區的數學試卷進行分析,標準設定的等級數目僅包含了4、5、6三種常見的等級劃定,在未來的研究中需要進一步豐富研究樣本,選擇更多地區,更多科目的中考試卷進行分析,進一步驗證研究結論.
此外,研究計算信息量時,采用的是單參數模型,估計方法是極大似然估計.IRT的模型和估計方法對參數估計結果會產生一定的影響,其它的模型和估計方法產生的結果需要進一步的研究來驗證.
其次,研究在進行信度分析時,關于決策一致性的分析僅從CTT的角度進行計算,在未來研究中可以結合其它理論探討更適合中考決策一致性的計算方法.
目前中考采用固定分數法進行標準設定的質量一般,雖然基本能夠對學生的能力水平進行較好地分類,但對于一些能力分界點附近的考生的測量精度還需要進一步地提高以滿足大規模測驗的要求.
[1] 教育部關于基礎教育課程改革實驗區初中畢業考試與普通高中招生制度改革的指導意見[J].中華人民共和國教育部公報,2005(4):38-41.
[2] 李珍,辛濤,陳平.標準設定:步驟、方法與評價指標[J].考試研究,2010(2):83-95.
[3] HAMBLETON R K, PITONIAK M J. Setting performance standards [M] // BRENNAN R L. Educational measurement. 4th ed. Washington, DC: American Council on Education, 2006: 433–470.
[4] 馬嘉賓,張珊珊,涂端午.從國際視角看我國中考改革[J].中小學管理,2014(1):21-24.
[5] AERA, APA, NCME. Standards for educational and psychological testing [M]. Washington, DC: Author, 1999: 35-36.
[6] GREEN D R, TRIMBLE C S, LEWIS D M. Interpreting the results of three different standard-setting procedures [J]. Educational Measurement: Issues and Practice, 2003, 22 (1): 22–32.
[7] KANE M. Validating the performance standards associated with passing scores [J]. Review of Educational Research, 1994, 64 (3): 425–461.
[8] PETERSON C H, SCHULZ E M, ENGELHARD G. Reliability and validity of bookmark-based methods for standard setting: comparisons to angoff-based methods in the national assessment of educational progress [J]. Educationl Measurement Issues & Practice, 2011, 30 (2): 3–14.
[9] 教育部“初中畢業和高中招生考試制度改革”項目組.解析初中畢業生學業考試改革[J].中小學管理,2004(6):5-7.
[10] 韓寧.評價考試質量的新指標:決策一致性和決策準確性[J].中國考試(研究版),2008(6):3-6.
[11] ?LIVINGSTON S A, LEWIS C. Estimating the consistency and accuracy of classifications based on test scores [J]. Journal of Educational Measurement, 1995 (32): 179–197.
[12] ?HANSON B A, BRENNAN R L. An investigation of classification consistency indexes estimated under alternative strong true score models [J]. Journal of Educational Measurement, 1990 (27): 345–359.
[13] ?BRENNAN R L. Generalizability theory [M]. NewYork: Springer-Verlag, 2001: 221-240.
[14] 楊志明,張雷.改進普通話測試的概化理論分析[J].湖南師范大學教育科學學報,2003(1):76-82.
[15] 羅照盛.項目反應理論[M].北京:北京師范大學出版社,2012:4-43.
[16] ?FISCHER G H, MOLENAAR I W. Rasch models: foundations, recent developments and applications [M]. New York: Springer-Verlag, 1995: 77-132.
[17] 涂冬波,蔡艷.信息函數在標準參照測驗中的應用研究[J].江西師范大學學報(自然科學版),2005(2):167-172.
[18] 熊建華,丁樹良,漆書青,等.用測驗信息量分析試卷質量[J].江西師范大學學報(自然科學版),2002(3):225-228.
[19] 肖永琴.目前中考理化學科評價體系的調查與分析[J].福建基礎教育研究,2011(5):106-109.
[20] 張雨強,魏夢其.初中畢業生學業考試的市域比較研究[J].教育參考,2015(5):28-34,53.
[21] 李建平.解析初中畢業學業考試改革新思路[N].中國教育報,2005-04-04(01).
[22] 教育部辦公廳關于印發《國家基礎教育課程改革實驗區2004年初中畢業考試與普通高中招生制度改革的指導意見》的通知[J].中華人民共和國教育部公報,2004(Z1):70-73.
[23] 王燁暉,韋小滿.初中畢業生學業考試的現狀調查[J].中國考試,2014(2):43-47.
[24] ?SUBKOVIAK M J. Decision-consistency approaches [M] // BERK R A. Criterion referenced measurement. Baltimore: Johns Hopkins University Press, 1980: 129-185.
[25] 黎光明,張敏強,張文怡.人事測評中的概化理論應用[J].心理科學進展,2013,21(1):166-174.
[26] 楊志明.標準參照測驗及其等級線信度的概化理論分析[J].心理學探新,2003(3):52-56.
[27] 王曉華,文劍冰.多元概化理論在高等教育達標性考試中的應用[J].心理科學,2010,33(5):1?223-1?226.
[28] 陸一萍.HSK高等考試信度的多元概化理論研究[J].中國考試,2011(5):20-23.
[29] 漆書青,周駿,張青華,等.用信息函數法對標準參照測驗作質量分析[J].心理與行為研究,2003,1(1):34-39.
[30] 漆書青,戴海崎.項目反應理論及其應用研究[M].南昌:江西高校出版社,1992:324-330.
[31] BRENNAN R L. Manual for BB-class: a computer program that uses the beta-binomial model for classification consistency and accuracy [J]. Casma Research Report, 2004 (9): 1–22.
[32] ?CRICK J E, BRENNAN R L. Manual for GENOVA: a generalized analysis of variance system [J]. Iowa City, IA: American Testing System, 1983: 1–102.
[33] ?WU M L, ADAMS R L, WILSON M R, et al. Manual for ACER conquest version 2.0, Australia [M]. ACER PRESS, 2007: 11–30.
[34] ?SLOCUM S L. Assessing unidimensionality of psychological scales: using individual and integrative criteria from factor analysis [J]. Social Indicators Research, 2005, 102 (3): 443–461.
[35] ?HAMBLETON R K, SWAMINATHAN H. Item response theory: principles and applications [M]. Boston: Klumer Nijhoff Publishing, 1985: 16–22.
[36] ?WRIGHT B D, LINACRE J M. Reasonable mean-square fit values [J]. Rasch Measurement Transactions, 1994 (8): 370.
[37] 陳平,李珍,辛濤,等.標準參照測驗決策一致性指標研究的總結與展望[J].心理發展與教育,2011,27(2):210-215.
[38] 杜佳萱,陳平,辛濤.基于IRT的決策一致性系數在大規模教育測量中的應用[J].北京師范大學學報(自然科學版),2015(6):643-648.
[39] 徐遠征.對普通高中學業水平考試命題技術的初步探討[J].課程·教材·教法,2013,33(2):104-108.
[40] 周彩鶯,沈啟正,季芳.普通高中學業水平考試命題研究(二)——難度控制技術探究[J].教育測量與評價(理論版),2013(10):35-38.
[41] BRENNAN R L. Raw-score conditional standard errors of measurement in generalizability theory [J]. Applied Psychological Measurement, 1998 (22): 307–331.
Reliability of Current Standard Setting Method of Fixed Score in Academic Level Examination for Secondary School
BU Wen-juan, WEN Hong-bo, LIU Xian-wei
(Collaborative Innovation Center of Assessment toward Basic Education Quality at Beijing Normal University, Beijing 100875, China)
The main purposes of this study were to examine the reliability of current standard setting method of Fixed Score in academic level examination for Secondary School. Using stratified random sampling design to select three counties from the East, Middle, and West of China respectively, 3?000 students of each county are chosen. The data from the Academic Level Examination for Secondary School was used. A comprehensive application of modern measurement theory to analyze the reliability indicators of standard setting, including Decision Consistency Index (Kappa) in Classical Testing Theory (CTT), Cut–score Dependability(λ)in Generalizability Theory (GT), and the amount of information index(θ)from Item Response Theory. The results showed that: (i) the Decision Consistency Index of current Entrance Examination for Secondary School approaching 0.7; (ii)(λ)of the cut-scores was greater than 0.7, mostly beyond 0.8; (iii)(θ)were less than 16 regardless of methods to Fix Score or Fix Ratio. All these results suggested that the quality of existing tests’ standards setting method of Fixed Score was barely satisfactory, and it should be improved for high-stakes examinations.
academic level examination; standard setting; fixed score method; reliability
2018–01–03
北京師范大學研究生院精品課程建設項目——研究生培養—方法課群教學團隊建設—SPSS數(1601121A2)
卜文娟(1993—),女,陜西商洛人,碩士生,主要從事學業質量測評研究.溫紅博為本文通訊作者.
G632
A
1004–9894(2018)03–0039–06
卜文娟,溫紅博,劉先偉.初中學業水平考試中固定分數法標準設定的信度分析——以中考數學為例[J].數學教育學報,2018,27(3):39-44.
[責任編校:周學智]