閱讀理解測試的信度研究：來自概化分析的視角

2016-04-07 05:27:57關丹丹

心理學探新 2016年1期

關丹丹

(教育部考試中心，北京 100084)

關丹丹

(教育部考試中心，北京 100084)

摘要：閱讀理解測試通常為多個題目共用一個語篇材料，屬于典型的題組題型，傳統的基于單題的信度估計方法將會高估測試的信度。研究采用概化理論模型，通過比較傳統?信度系數以及不同的概化理論測量設計模型，探討不同方法對閱讀理解測量精度估計的差別；同時，通過改變語篇和題目的數量來觀察概化系數和可靠性指數等指標的變化，為改進考試設計和命題提供參考信息。結果表明，忽略語篇的單變量概化設計以及基于題目的?系數會在概化系數上高估0.0404，將語篇作為多變量的交叉設計會在概化系數上高估0.0480，基于語篇的?系數與單變量嵌套設計的概化系數一致。另外，增加閱讀理解中的語篇量或題目量都可以提高測量的精度，但增加語篇量在提高閱讀理解測試的測量精度上更為高效。

關鍵詞：閱讀理解；題組；概化理論；信度；?系數

1引言

閱讀理解是語言測試的主要題型之一，通常包括一定語篇的閱讀材料，并在閱讀材料后設置一些與材料理解相關的題目，以達到考核學生語言能力的目的。這種受共同刺激影響和制約的項目集合通常被稱為題組(Testlet)，閱讀理解屬于典型的題組題型(Wainer & Kiely，1987)。以往的研究顯示，在對由題組構成的測試得分進行估計時，如果采用傳統的基于單題的信度估計方法(如?系數)將會高估測試的信度(Sireci，Thissen，& Wainer，1991；Wainer，1995)。在語言測試中，Bachman(1999)把這種由語篇題組造成的偏差稱為語篇效應(Passage Effect)，并建議增加語篇量以降低這種偏差。國外針對閱讀理解測試的研究表明，語篇效應確實會對信度的估計或者概化系數有影響(Li & Brennan，2007；Wan & Brennan，2005；Lee & Frisbie，1999；Lee，2002)。Li和Brennan(2007)采用多種概化設計對ITBS閱讀理解測試的研究表明，忽略語篇效應會導致信度高估0.015，Lee和Frisbie(1999)的研究結果認為使用基于單題的?系數對ITBS閱讀理解測試會高估0.04。在SAT考試中的言語測試也有報告0.10的高估(Sireci等，1991)。國內關于語篇效應對閱讀理解測量精度影響的量化研究相對較少，目前還是普遍以?系數報告閱讀理解的測試信度。

概化理論(Generalizability Theory)是由克龍巴赫等人于上個世紀70年代在經典測量理論的基礎上發展起來的。概化理論是一種把測量誤差作為模型參數來處理的測量理論，它不僅保留了經典測量理論中控制誤差的標準化技術，而且發展出了把誤差控制與決策需要或測量結果的概括程度相結合的理論和方法(楊志明，張雷，2003)。概化理論對測量目標和測量側面(facet)進行了區分，判別和分析不同側面對分數的不同影響。從概化理論的視角來看，在使用閱讀理解測試對考生閱讀理解能力進行測量時，至少包含兩個可能會影響考生分數的側面：語篇和根據語篇設定的題目。使用概化理論方法可以分離出閱讀中的語篇、題目效應，可以科學、有效地評價測量的精度。另外，使用概化理論還可以對其語篇量和題目量的大小進行不同設計下的調整，結合概化系數、可靠性系數、相對誤差、絕對誤差等指標綜合衡量，從而有助于獲得最佳的考試設計。Lee(2002)使用多種概化設計對閱讀理解測試分析時發現，增加語篇量和題目量能提升概化信度，張敏強等人(2010)采用數據模擬技術與概化理論對增加閱讀中的語篇量和題目量對提高測量精度也進行過探討。但國內尚缺乏對真實考試中閱讀理解測試測量精度的實證概化研究。

該研究以全國英語等級考試為例，對閱讀理解測試的信度進行實證性研究。研究目的有兩個：一是比較傳統?信度系數以及不同的概化理論測量設計模型下，對閱讀理解測量精度估計的差別，量化實際考試中語篇效應對測量精度估計的影響；二是通過改變語篇量和題目量來觀察概化系數和可靠性指數等指標的變化，為考試工作者改進該項考試的設計和命題提供有用的參考信息。

2研究方法

2.1被試與數據

數據來自某次全國英語等級考試(PETS)三級，抽取閱讀理解測試部分，共有考生6830人。該閱讀理解測試包含4篇閱讀材料，每篇閱讀材料設有5個題目，即共有20個題目。數據的描述統計見表1。

2.2概化分析

根據閱讀理解測試的數據結構和觀測全域的概念，采用兩側面嵌套設計p×(i：h)對數據進行分析是最為合適的模型。在設計中：p代表考生，i為題目，h為語篇。p×(i：h)表示考生依次作答每篇語篇下指定的題目。

但是，在使用概化理論分析英語測試的實際中，也可以忽略語篇的概念，或者是把語篇作為固定側面來考慮。因此，研究者共提出三種概化設計：(1)單變量p×i交叉設計，忽略語篇側面；(2)將語篇作為固定側面來考慮的多變量p?×i°交叉設計；(3)考慮語篇側面的單變量p×(i：h)設計。針對上述三種測量設計分別進行概化研究(G研究)、基準模式決策研究和改變語篇量和題目量的決策研究(D研究)。

數據分析采用GENOVA(Crick & Brennan，1983)和mGENOVA(Brennan，2001b)軟件。

3結果

3.1單變量p×i設計

單變量p×i設計的G研究與D研究結果見表2。基準模式下，該閱讀理解測試的概化系數為0.8211，可靠性指數為0.8055。在P×I決策研究中，假定題目全域是無限的，因此可以通過改變題目面的水平數來看測試信度的變化。研究發現概化系數和可靠性指數均隨著題目數量的增加而提高。

表2　單變量p×i設計的G研究與D研究結果

3.2多變量p?×i°設計

多變量p?×i°設計的G研究結果見表3。考生在四篇閱讀理解上的得分相關較高，為0.7549~0.9238。語篇4的方差分量最大，語篇3的方差分量最小。

表3　多變量p?×i°設計的G研究結果

基準模式下，按照每個語篇占25%的權重估計全域總分，D研究結果見表4。測量精度最高的是語篇4，其概化系數和可靠性指數為0.7329和0.7086；語篇2和語篇3的測量精度較低。全域總分的概化系數和可靠性指數均較高，分別為0.8287和0.8155；相對誤差和絕對誤差的方差均較小。這說明本次英語考試的閱讀理解測試的總體測量精度較高。

另外，4個語篇對全域總分方差的貢獻比例與當初命題時各占25%的意圖不完全一致。其中語篇4的方差貢獻最大，而語篇2和語篇3的方差貢獻則低于命題意圖。命題者有必要對語篇2和語篇3所提供的閱讀材料和有關問題作進一步的分析，以提升今后閱讀理解的命題質量。

表4　多變量p?×i°設計的D研究結果(基準模式)

表5　多變量p?×i°設計的D研究結果(改變題目量)

另外，通過改變題目量來看測試信度的決策研究中，增加每個語篇的題目量，則每個語篇的概化系數和可靠性指數增大，同時，閱讀理解測試全域總分的概化系數和可靠性指數也隨之增大，測量誤差減小。當每個語篇的題目數量為6時，即可保證每個語篇的概化系數和可靠性指數均在0.50以上。

3.3單變量p×(i：h)設計

單變量p×(i：h)設計的G研究和D研究結果見表6。結果表明，語篇的方差分量小于嵌套在語篇中的題目方差分量。在基準模式下(即語篇數量為4，每個語篇的題目數量為5)，D研究顯示概化系數為0.7807，可靠性指數為0.7533。考慮到我國閱讀理解測試通常包括20~30題，在此范圍內的D研究顯示，語篇的增加和每個語篇下題目數量的增加，都會增大概化系數和可靠性指數。具體表現為，當每個語篇固定為5題時，隨著語篇的數量從4增加到6，概化系數由0.7807提高至0.8422；當語篇數量固定為5篇時，隨著題目的數量從4增加到6，概化系數由0.7882提高到0.8365，結果見表6和圖1。可見，語篇的增加相對于每個語篇下題目的增加，在提高閱讀理解測試的測量精度上更為高效。這與Lee和Frisbie(1999)等人研究結果一致。

表6　單變量p×(i：h)設計的G研究與D研究結果

圖1　分別改變題目量與語篇量的概化系數變化

3.4幾種信度估計結果的比較

根據閱讀理解測試的數據結構和觀測全域的概念，采用單變量p×(i：h)設計對數據進行分析和信度估計是理論上最為合適的模型(Lee & Frisbie，1999；Brennan，2001a)，因此將其作為標準，比較基準模式下其他兩種概化設計與單變量p×(i：h)設計對閱讀理解測量精度估計的差異；另外，采用傳統信度估計方法，分別計算基于題目的?系數，以及基于語篇得分的?系數，比較傳統信度估計與單變量p×(i：h)設計對閱讀理解測量精度估計的差異。結果見表7。

表7　幾種信度估計與p×(i：h)概化系數的比較

結果顯示，忽略語篇效應或者把語篇作為多變量，都不能準確的估計閱讀理解測試的精度，在概化系數上將會高估0.0404或0.0480。若采用傳統信度估計方法，基于題目的?系數會對閱讀理解測試的信度高估0.0404，基于語篇的?系數與p×(i：h)設計的概化系數一致。

4討論與結論

研究發現忽略語篇的單變量概化設計會在概化系數上高估0.04，基于題目的?系數估計也同樣會高估0.04，Lee和Frisbie(1999)所報告的ITBS閱讀理解測試高估結果與此研究非常一致，但在SAT考試中的言語測試曾報告有0.10的高估(Sireci等，1991)。這說明，語篇效應對閱讀理解測試測量精度的影響是普遍存在且不可忽視的，影響程度及具體原因需要結合測試內容進行具體分析。另外，就語言測試而言，閱讀理解僅是語言測試的一個代表性題型，其所體現出來的“語篇效應”或者說“題組效應”同樣可能存在于聽力測試、完型填空測試等題型中。除了閱讀理解在測量精度上的高估外，聽力測試、完型填空測試亦有此類問題，因此語言測試若僅報告傳統基于單題的信度估計指標是不合適的，特別是對于高利害語言測試的信度報告應該尤為謹慎。

對于此閱讀理解測試的信度估計而言，基于單題的克龍巴赫?系數與在隨機單面交叉設計條件下的概化系數估計值相等；基于語篇的?系數與在語篇側面的單變量p×(i：h)設計中的概化系數估計值相等，也就是說報告基于語篇的?系數也是可以的。該研究中將語篇作為固定側面來考慮的多變量p?×i°交叉設計雖然不適合估計整個測試的信度，但是能夠對每一篇閱讀理解進行更精細的分析，從而為改進閱讀理解設計和命題提供更多參考。

最后，該研究僅關注了閱讀理解測試中的語篇和題目兩個側面，還可以關注其他側面，如題目的能力考查點——語言測試中稱為微技能。通常而言，閱讀理解主要考察理解文中具體信息、理解主旨要義、理解作者的意圖、觀點或態度，以及進行有關的判斷、推理和引申等四種微技能。關于語篇、微技能和題目的概化研究，將不僅有助于提高測量的信度，還有助于提高測量的效度。另外，考生自身的因素，如文化背景、常識、專業知識等也會影響測量的效果，同一份閱讀理解測試對于不同的考生亞群體，可能會表現出不同的語篇效應，這種跨群體的概化研究比較將有助于確保考試公平。

參考文獻

楊志明，張雷.(2003).測評的概化理論及其應用.北京：教育科學出版社.

張敏強，劉淑楨，黎光明.(2010).概化理論在英語閱讀精確性研究中的應用.教育測量與評價(理論版)，5，4-8.

Bachman，L.F.(1999).FundamentalConsiderationsinLanguageTesting.Shanghai：Shanghai Foreign Language Education Press.

Brennan，R.L.(2001a).Generalizabilitytheory.New York：Springer-Verlag.

Brennan，R.L.(2001b).ManualformGENOVA.Iowa City，IA：Iowa Testing Programs，University of Iowa.

Crick，J.E.，& Brennan，R.L.(1983).ManualforGENOVA：AGeneralizedAnalysisofVarianceSystem.Iowa City，IA：The American College Testing Program，the ACT.

Lee，G.，& Frisbie，D.A.(1999).Estimating reliability under a generalizability theory model for test composed testlets.AppliedMeasurementinEducation，12(3)，237-255.

Lee，G.(2002).The influence of several factors on reliability for complex reading comprehension testlets.JournalofMeasurement，39，149-164.

Li，D.M.，& Brennan，R.L.(2007).AMulti-groupGeneralizabilityAnalysisofaLarge-scaleReadingComprehensionTest(CASMA Research Report NO.25).Iowa City，IA：Center for Advanced Studies in Measurement and Assessment，The University of Iowa.(Available from http：//www.education.uiowa.edu/casma).

Sireci，S.G.，Thissen，D.，& Wainer，H.(1991).On the reliability of testlet-based tests.JournalofEducationalMeasurement，28，237-247.

Wainer，H.(1995).Precision and differential item functioning on a testlet-based test：The 1991 Law School Admissions Test as an example.AppliedMeasurementinEducation，8，157-186.

Wainer，H.，& Kiely，G.L.(1987).Item clusters and computerized adaptive testing：A case for testlets.JournalofEducationalMeasurement，24(3)，185-202.

Wan，L.，& Brennan，R.L.(2005).Reliabilityofscoresfortestscomposedoftestlets：Acomparisonofapproachesinthreemeasurementmodels.Paper presented at the Annual Meeting of the National Council on Measurement in Education.April 12-14.Montreal，Canada.

Reliability Study in English Reading Comprehension Test：From the Perspective of Generalizability Theory

Guan Dandan

(National Educational Examinations Authority，Beijing 100084)

Abstract：For a reading comprehension test，it is usually the case that several passages are used with many items in each.Previous studies have indicated that the reliability of test scores composed of testlets might be overestimated by conventional item-based reliability estimation methods.By conducting a series of generalizability analyses of a reading comprehension test，this study demonstrated the amount of discrepancy in coefficients when different methods are used or different facets are taken into account.Results showed Cronbach’s alpha based on item scores and the G-coefficients of p×i were both higher than the G-coefficients of p×(i：h) and Cronbach’s alpha based on passage scores.The magnitude of overestimation was found to be about 0.0404.The difference of G-coefficients between p?×i and p×(i：h) models were 0.0480.The generalizability coefficients based on increasing numbers of passages or increasing numbers of items within each passage were found to be raised，but the generalizability coefficients increase at a greater rate by increasing the number of passages than by increasing the number of items per passage.

Key words：reading comprehension test；passages effect；Generalizability Theory；reliability；Cronbach’s alpha

中圖分類號：B841.2

文獻標識碼：A

文章編號：1003-5184(2016)01-0070-05

心理學探新2016年1期

心理學探新的其它文章: 認知診斷模型下整體和項目擬合指標*; 定量數據分析效應值：意義、計算與解釋*; 刻板印象信息溝通的默認策略*; 權力感對為自己和為他人消費行為的影響; 微笑影響面孔吸引力判斷的眼動研究*; CAT中能力參數估計方法的改進：R-MLE估計法*