梅松竹,冷 平
(淮北師范大學 a.教育學院;b.數學科學學院,安徽 淮北 235000)
教育,是培養人的活動,教育的成效如何需要進行評價。評價原指對客體滿足主體需要程度的判斷[1],教育評價則是系統地、有步驟地從數量或性質上描述兒童的學習過程與結果[2],并判斷是否滿足個體發展和社會發展需求的程度。教育評價是教育測量的深化和發展,它屬于價值判斷,強調科學性與綜合性,是定量和定性相結合的活動[3]。教育評價的范圍十分廣泛,幾乎涵蓋了教育的所有因素。近年來,關于考試的評價逐漸升溫,特別是在“高利害”考試的環境下,試卷命制的科學性、合理性和規范性成為考試相關利益人評議的焦點。當前,試卷評價的理論主要有經典真分數理論(Classic True Score Theory,CTT)、概化理論(Generalizability Theory,GT)和項目反應理論(Item Response Theory,IRT)。此三種理論源于西方,我國教育界雖然對其進行了充分的借鑒和發展,但仍然存在著“誤用”“濫用”“非用”等亂象,這無疑不利于我國教育評價的健康發展和教育公平的順利實施。因此,在教育評價國際化和現代化的背景下,在我國基礎教育改革的當口,厘清試卷評價理論的本質屬性及其適用范圍,理性選擇恰當的評價理論,謹防陷入試卷評價的誤區,可謂當務之急、必要之舉。
CTT是歷史上第一個教育與心理測量理論,也是最基礎、最根本的測量理論,GT和IRT是為了克服CTT在信度和效度方面的不足而分別發展起來的現代測量理論,三者在諸多方面有所不同,比較如下:
CTT的理論基礎是隨機樣本理論,即隨機抽取足夠數量的試題樣本和被試樣本,進行測評和統計分析,它弱化個體間差異,強調總體表現水平,具有諸多不可避免的缺陷,但是發展至今仍具有旺盛的生命力,因此堪稱經典測量理論。GT從考試的外部和宏觀角度入手,繼續沿著隨機樣本理論的思路,關注考試的外部效度,重點討論測量條件和測量結論推廣及其應用范圍之間的關系,以及測量誤差及其來源的問題,改變了真分數固定不變,測量誤差只是含混不清的隨機誤差,測驗信度就是計算相關系數等傳統看法[4]。GT將考試看作是對考生進行觀測的一般樣本,將試卷看作是一個由無數試題組成的全域的一個樣本,它只假設平行試題來自同一全域。GT是一種評價行為測量的可靠性或信度的統計理論,它擴展了真分數理論,但并不包含真分數理論的所有特征。與GT相比,IRT從考試的內部或微觀角度入手,放棄隨機樣本理論的思路,轉而關注考試的內部效度,采取數學建模和統計調整的方法,重點討論考生的能力水平與試題之間的關系,它將被試對試題的應答看作是考生的特征和試題特征的函數,假定被測在某道試題上的表現只依賴于某一潛在特質或能力,并且被測在該題上的表現與其測量的特質之間是單調增函數的關系[5]。IRT將原始分數轉化為能力參數和難度參數的做法,是對CTT的一大改進,克服了樣本依賴性的弊端。由此可見,CTT、GT、IRT的理論基礎各異,但并不具有包含和從屬關系,GT和IRT只是在某種程度上完善了CTT,滿足了現代教育測量與評價的精度和多樣化的需求。
CTT認為測驗分數X是由真分數T和隨機誤差E組合而成。真分數,又稱為無誤差分數,在概念上它是假設對同一試卷(或不同試卷)多次重復測量后得到的平均分,它是一個單獨的參數,并假定考生的每個觀察分數都可以用來估計這個參數。CTT將真分數看作是考生的特征,將隨機誤差分數看作是考試的特征。GT的焦點不是真分數,而是全域分數,它將被測稱為測量目標,將影響和制約測量目標的各種因素稱為側面,如教師側面、試題側面,而評分教師和試題則構成了相應側面的一個條件,所有這些側面的總體構成可接受的觀察全域,考生在某個側面或某些側面的所有條件上的平均得分叫做全域分數。GT研究隨機側面和固定側面,關注觀測分數在隨機側面上可以被概化的水平及其信度。IRT放棄了測驗的原始分數,將被試對于試題的某種反應概率與此題目的特征聯系起來,進而確定考生具有怎樣的能力水平才能夠做出正確的應答。IRT用一組數學模型來估計模型參數,如考生的能力(或特質)參數、試題難度參數,并將其定義到同一量標之上,可以直接進行比較。IRT主要是為了獲得試題的特征參數,確定考生具有什么樣的能力水平才能夠對試題做出正確的應答,以及試題對什么能力水平的學生具有良好的區分能力,進而判斷試題是否有質量問題。因此,不管是“全域分數”,還是“能力參數”,都與真分數的概念非常接近,但是它們的計量單位不同,所具特征也有所差異。
CTT是基于桑代克(E.L.Thorndike)的“凡客觀存在的事物都有其數量”和麥考(W.A.McCall)的“凡有數量的東西都可以測量”這一可測性假設提出的[6]。1950年,古麗科森(Harold Gulliksen)提出了CTT的三個假設,即受測者總體的誤差分數的平均數為零、受測者總體的真分數與誤差分數的相關為零、受測者參加的兩次獨立測驗的誤差分數相關為零[7]。CTT假設是標準化考試的重要的理論基礎和技術支柱,是考試公平和評分公正的前提條件,在實際考試中發揮著巨大的作用。GT改變了CTT誤差因素的假設,關注樣本的代表性及概化推測,它有兩個基本假設——觀察樣本具有代表性、樣本容量足夠大,可以控制抽樣誤差[8]。也就是說,GT假定受測者的特定測量能概化到更廣泛的測量領域中去,不同側面對概化程度都會產生影響,通過擴大樣本容量來減少抽樣時的系統誤差。GT的假設將不同來源的測量誤差區別開來,并確定其效應,研究不同變量對整卷測量效果的影響,這是對CTT假設的一大改進。IRT有三個強假設,即假定考生對于試題的解答只由唯一潛在特質或能力來解釋,并且針對在潛在特質量表上的某一點的受測者子體而言,對所有試題的應答是相互獨立的,即單維性和局部獨立性。單維性假定表明決定考生對試題應答的能力只有一種,局部獨立假定表明任何一道試題都不會給另一道試題提供線索。單維性和局部獨立性不是等價概念,項目獨立有可能測驗是多維的,測驗單維項目局部獨立卻不一定成立。在實際測量時,單維性和局部獨立性往往難以滿足,還需要進一步驗證或修改試題以滿足此假設。IRT還假定所有試題沒有猜測因素,即試題特征曲線僅反映出被試的應答表現與其測量特質之間的單調遞增關系。
CTT認為測量誤差是觀察分數與真分數之間的假設差別,它是隨機的和不可預測的,在概念上不同于系統誤差。系統誤差往往是有規律的且是可以預測的,它可能是因為難度不等值的兩套試卷引起。當參加測試的兩個群體水平相當時,做難度較小的試卷的平均分通常會高于做難度較大的試卷的平均分,而且這種結果顯而易見,是可以事先預測到的。測量誤差的來源主要包括三個方面:測量工具、測量目標和施測過程。顯然,CTT并不區分這些誤差來源,而是將它們統一看成籠統的、含糊不清的隨機誤差,因而估計的測量誤差總是偏大,誤差分析單位定義太籠統,揭示的信息相對較少,獲得的考生群體和考生的真分數誤差較大[9]。GT改變了CTT無視誤差區別的做法,將誤差分為系統誤差和隨機誤差,并重點關注了誤差的來源,包括被試之間水平差異、評分差異、測量內容差異、平行測驗之間差異、不同施測環境差異、不同體力狀況差異、初試與復試的差異以及被試臨場發揮不當的差異[10]。GT將不同來源的測量誤差區別開來,進一步評價不同變量對整卷測量效果的影響,所獲得的概化全域的分數較為準確,為改善測驗、提高試卷質量提供了大量有用的信息。IRT雖沒有嚴格區分誤差來源,但是它從模型本身入手力圖減小不必要的誤差,根據測驗精度和試卷組成的不同,分別設計了Rasch模型、logistic模型及其改良形式,并引入難度參數、區分度參數和猜測度參數,采用迭代法計算參數,再對模型和數據的擬合程度進行檢驗和修正,以減小測量誤差。在IRT中,當獲得了能力參數的極大似然估計值之后,便可以對被試的能力參數估計值的精度進行估計,而且考生能力參數的估計值的標準誤與試卷長度和質量密切相關,試卷越長,或試題區分度參數越大,或試題猜測參數越小,或試題難度參數與考生實際能力水平越接近,標準誤都將越小,而且項目反應模式還提供了利用信息函數來評價試題和試卷的質量的方法,這與CTT中測量的標準誤差不變是不同的。
在CTT中,由于施測者真正關心的是真分數,而不是觀測分數。因此,如何在二者之間建立一種有效聯系,就顯得特別重要。由于無法得到真分數和所有可能的觀測分數,所以CTT采用平行測驗的方法,將兩套平行測驗分數之間的關系定義為信度系數,以此來驗證模型的可靠性。此處,平行測驗需要滿足兩個條件,即每個受測者在該測驗的兩種形式上的真分數相同,兩種形式的誤差方差相等。基于平行測驗的定義,可以得到兩套平行測驗的觀察分數之間的信度系數。實際上,完全平行測驗的獲得并非易事。若考慮在不同場合對同一組受測者進行同一形式的測試,則還需要判斷場合的變化、被測認知水平的變化及記憶的作用對測試的影響,通常用穩定系數來表示這個變化。若考慮在同一場合對相同受測者實施內容相同但形式不同的測試,那么平行試卷的命制就尤為關鍵,通常用等值系數來表示平行試卷的關聯程度。穩定系數和等值系數都有可能低估理論上真正平行測驗的信度系數。
類似于經典測量理論中的信度系數,GT用概化系數來刻畫觀察分數與全域分數之間的相關關系,以此來判斷測量結果可以概化到全域分數的程度。定義概化系數的常用方法是用全域分數方差與觀測分數方差期望值的比值來表示,根據測試情形的不同,有不同的概化系數計算公式,如不同評分者給每個受測者評分,每個受測只有一名評分者的情形下,其概化系數為σ2p/(σ2p+σ2i+σ2δ)。對于測量的精度,GT使用可靠性指數?來刻畫,并將其定義為(其中,?p是指考生p的考試結果被有效概化的可靠性指數,σ2p是考生 p自身的分數變異,σ2Δ則包括了全部的系統誤差和隨機誤差的變異)。GT用方差分析法來全面估計出各種方差成分的相對大小,既能估計出主效應,也能估計出交互作用的效應,并能對各估計值的大小進行直接比較。
相比之下,IRT對考試結果和模型的擬合性檢驗更為全面和細致,它從模型假設檢驗、模型性質檢驗和模型預測能力檢驗三個方面進行[11]。模型假設檢驗包括單維假定檢驗和等區分度假定檢驗,前者可采用因素分析法,后者可以計算各試題與總分的點二列相關系數。模型性質檢驗又包括試題參數不變性檢驗和考生能力參數不變性檢驗,前者可以在所有被測中隨機抽取兩個子群體,分別估計試題參數,然后檢查其線性相關程度;后者采用兩組難度不同的試題對同一考生群體施測,估計兩組能力參數,并檢驗其線性相關程度。模型預測能力檢驗主要采用試題和考試的信息函數來表示考生能力水平估計值的測量精度。為了充分驗證模型對考生能力水平估計的精度和可靠性,IRT定義了試題信息函數,根據試題提供的信息量的大小來判斷試題的優劣。考生能力水平與試題難度參數越接近,試題提供的信息量越大;試題區分度越大,試題提供的信息量越大,但是區分度很大的試題也只能在一定的能力水平范圍內可以提供較大的信息;試題猜測度越小,試題提供的信息量越大,猜測度較大的試題增加了考生正確應答的偶然性,基于偶然性的考試結果所提供的信息就有可能存在較大的偏差。
在CTT中,考生能力參數嚴重地依賴于試題樣本,試題難,則得分低,反之則高;試題參數也嚴重地依賴于考生樣本,考生的平均水平會影響試題的難度,考生個體的差異程度也會直接影響試題的信度和區分度水平。CTT對于樣本的依賴性使得抽樣誤差會明顯改變測評的結果,以及相應的統計論斷和教育決策。GT對于樣本也有一定的依賴性,試題抽樣的代表性以及對于全域的覆蓋程度將直接影響到概化系數。為此,GT采用擴大抽樣樣本容量,減小抽樣誤差的方法來提高整個模型的信度水平。IRT對考生能力水平的估計與考試采用試題無關,對試題參數的估計與考生樣本無關,考生的能力參數與試題的難度參數統一到同一量標上,可以直接對比,也可以直接估計考生能力參數估計值的精度,這一點是CTT和GT無法比擬的。
CTT自誕生之日起,便得到了廣泛的應用,它對心理和教育測量領域的理論和實踐都產生了巨大的貢獻,雖然它有明顯的缺陷,但是仍有不凡的效用,特別是為標準化考試奠定了理論基礎,并且這種影響一直持續到當今,并將繼續發揮作用。1950年,古麗科森(Gulliksen,1950)出版了《心理測量的理論》,首次使用公理化的方法系統地總結了標準化考試的原理和方法,這標志著CTT走向成熟。GT最重要的應用是概化推測,即根據觀察的分數推測概化全域的分數,因而常常被用作交叉設計和嵌套設計,通過控制某些側面,觀察其它側面對于考試結果的影響,從而找到控制誤差的方法,為測驗內容、測驗方式的設計提供了有價值的信息,并作出最佳決策設計。IRT在教育領域的應用更為廣泛,其一是指導測驗編制,其二是指導計算機自適應測驗系統的開發,其三是將測量導向與認知心理學相結合。在指導測驗編制的過程中,IRT不但可以提供全卷的信息量和標準測量誤差,而且能夠提供每一道試題或評分項的信息量和標準測量誤差,因此提供考試信度和標準測量誤差的信息最為完全,IRT還為因人(被試)實施測提供了可能。IRT通過項目特征曲線還可以預測被試在其他項目上的正確反應概率,提高了試題庫特征參數的完備性及題庫管理的可控性,對于基于標準的測驗的試題開發具有重要效用。
CTT的模型構造簡單、淺顯易懂,所用公式及其計算并不復雜,模型參數估計具有概念上的直觀性,不需要嚴格的擬合檢驗,統計結果對于分數的解釋相對直觀、清晰,因而容易為一線教師所接受。GT區別不同來源測量誤差,關注不同側面對整卷測量效果的影響,所獲得的概化全域分數較為準確,為改善測驗、提高試卷質量提供了有用信息,但由于需要利用方差分析等數學工具,導致很多一線教師理解困難。IRT提供考試信度和標準測量誤差的信息最為完全,通過項目特征曲線還可以預測被試在其他項目上的正確反應概率,提高了試題特征參數的完備性,測驗編制具有主動性和可控性,不需要嚴格的平行測驗來評估測驗信度,因而在技術層面具有一定的優越性。
CTT對考生能力參數估計的精度不夠高,用測量信度和標準誤來估計所有考生的能力參數,這一做法顯然沒有考慮考生個體的差異,因而是不恰當的;信度估計所依賴的平行測驗的假設在現實中往往難以滿足;試題難度定義在考生樣本上,考生能力參數定義在試題樣本上,二者不屬于同一參照系,因而無法統一,也難以判斷二者是否匹配,不利于測驗工作的改進;另外,由于使用了配對或標準化技術和隨機化技術,使得測量條件的完全一致性難以滿足,進而制約了測驗結果的可拓廣性。GT并未改良經典測量理論的微觀結構及其項目參數系統,只是更多地從整個測驗的宏觀結構及其與外部測驗條件的關系上作了深入的計量分析,因此,經典理論在其自身框架下的一些主要局限性依然存在[12]。而且,GT模型結構比較復雜,統計計算也相當繁雜,需要借助統計分析工具方可解決此類問題,這也是不利于GT廣泛推廣的一個重要因素。IRT依賴于更強的假設,模型結構復雜、計算量偏大,對信息技術的依賴性較強,項目參數的獲得需要合適的樣本量,而且被試的能力分布范圍要廣,如果不能滿足此要求,則會影響模型結果的精確性,也很難檢測出模型與數據之間的偏差。此外,項目反應模型并沒有對考試的效度問題提供獨到的見解。
CTT、GT、IRT既有廣泛聯系,又有顯著區別,它們各有利弊,三者分別展示了不同的試卷評價理論框架和參數表征,為研究者和應用者提供多樣化的選擇。
每一位研究者對試卷評價都有自己獨特的需求或希望獲得的報告形式,而不同的試卷評價理論正是為個性化的需求提供了自由選擇。如果研究者關注的是整卷的統計指標、總量指標、相對指標和平均指標,那么CTT將是最佳選擇,它可以提供試卷的信度、效度、難度、區分度、偏度、峰度、均值、眾數、中位數、標準差、分布圖表或曲線等方面的信息,呈現出直觀的或經驗性的統計數據和報表,有助于非專業人士的理解。如果研究者側重于測量的信度及其驗證,那么GT將是理想選擇,它可以提供概化系數、可靠性指數、誤差分類等信息,全面考量影響考試分數的多個側面,可以進行交叉設計和嵌套設計等方面的試題開發。如果研究者偏向測量的效度及其檢驗,那么IRT將是不二之選,它可以提供信息函數、參數驗證等信息,易于對不同群體的正確應答的預測及全面的誤差分析。
CTT、GT和IRT在誤差處理方面有著明顯的不同,因而產生了不同的測量精度。如果研究者對測量的精度要求不高,那么就可以直接選用CTT,它并沒有嚴格區分誤差的類別和來源,而且弱化了個體間的差異,強調樣本總體表現水平和整卷效果,因而統計結果是宏觀而粗糙的。如果研究者對測量精度有稍高要求,特別是希望區分不同的誤差來源對測驗結果的影響,那么就需要選用GT了,它將誤差分為系統誤差和隨機誤差,并考查誤差的來源,重點關注被試的生理、動機、興趣、注意力、情緒、答題速度、受訓情況、測驗技巧,以及考試的物理環境、監考者狀態、意外干擾、評分計分和分數轉換等環節所產生的誤差。如果研究者對測量精度有更高的要求,希望考查試題設置和呈現方式對不同群體的“偏見”或功能差異,那么就可以選用IRT,因為它以更加精確的數學模型和函數表達式來呈現難度參數、能力參數及其他參數之間的關系,可以量化地分析誤差的大小及其對測量的影響。當然,我們還需要注意到,并不是所有的分數變化都必然歸咎于測量誤差,還有可能是因為外部介入、自身學習或成熟度提高的結果。此時,分數差異或變化于是成為信度所依賴的測量值[13]。
三種評價理論的理論體系、方法原理、模型結構和參數估計方法各不相同,其復雜程度也有所差異。對于研究水平有限的一線教師和普通研究者而言,CTT相對簡單且容易被人理解和掌握,統計結果對于分數的解釋相對比較直觀、清晰,所倡導的標準化測驗技術在考試誤差等方面具有明顯的效果,并為多數人所認可。相比之下,GT對于研究者在測量與評價領域的理論素養和數學應用能力有一定的要求,否則難以理解各側面的影響及概化的過程和水平。如果研究者是專業人士,尤其是大規模測評試卷的命題或審核人員,可能會具有深厚的測量與評價理論基礎以及精湛的試卷評價技術,因而可以選用IRT來進行更為深入、細致的試卷質量分析,進而實施更廣泛的試卷質量評判、命題指導和有效測評。
綜上,CTT、GT與IRT有諸多不同,至于選擇哪一種理論模型,主要依據各模型的適用條件、測驗的分析要求以及研究者的理論與實踐水平。每一種理論模型都不是完美的,在實際測量與評價過程中,可以進行有效的組合,以發揮各自的優勢,從而對試卷質量進行全面、客觀、科學、理性的分析。
[1]陳玉琨.教育評價學[M].上海:華東師范大學出版社,2005:1.
[2]王景英.教育評價學[M].長春:東北師范大學出版社,2005:3.
[3]王孝玲.教育評價的理論與技術[M].上海:上海教育出版社,2002:2-3.
[4]漆書清,戴海崎,丁樹良.現代教育與心理測量學原理[M].北京:高等教育出版社,2002:42.
[5]Martin T Wells.Handbook of Modern Item Response Theory[J].Journal of the American Statistical Association,1997,92(439):1227.
[6]鐘軼,季曉輝.兩種教育測量理論在試卷質量控制和評價中的應用及其展望[J].南京醫科大學學報:社會科學版,2013(1):66.
[7]Linda Crocker& James Algina.經典和現代測驗理論導論[M].金瑜,等,譯.上海:華東師范大學出版社,2004:121.
[8]雷新勇.基于標準的教育考試—命題、標準設置和學業評價[M].上海:上海科技出版社,2011:27-29.
[9]周群.基于論證的我國高考開發質量評價模型研究[D].上海:華東師范大學,2011:165.
[10]楊志明,張雷.測評的概化理論及其應用[M].北京:教育科學出版社,2003:41.
[11]雷新勇.大規模教育考試命題與評價[M].上海:華東師范大學出版社,2006:71.
[12]熊江玲.經典測量理論、概化理論及項目反映理論比較研究[J].求索,2004(4):99.
[13][美]美國教育研究協會,美國心理學協會,全美教育測量學會,主編.教育與心理測試標準[M].燕娓琴,謝小慶,譯.沈陽:沈陽出版社,2003:41.