周學路 任 杰
信度指某一測驗測量結果的可靠度,是衡量該測驗質量的最重要的指標之一。基于真分數理論和方差分析思想,信度在經典測量理論中表示為真分數方差與觀察分數方差之比,即rxx=S2T/S2X。基于這一定義產生了許多信度估計方法,其中,α 系數、β 系數和γ 系數是三種常見的、具有代表性的信度估計指標。一直以來,經過Cronbach 公式化后的α 系數[1]幾乎成了測驗信度的代名詞,但它很明顯地受到一些與信度定義無關的因素的影響,尤其是測驗同質性和被試同質性,在這種情況下,陳希鎮和謝小慶先后分別提出了β 系數[2]與γ 系數[3]對其進行優化。從理論與計算公式上來說,β 系數降低了信度估計對題目高同質性的依賴,γ系數又在此基礎上降低了被試同質性程度對信度估計的影響,二者均在不同程度上優化了α 系數。那么,在實際應用中,三者在信度估計方面的效果究竟如何?以下基于某考試實測數據對此進行研究。
經過Cronbach 公式化后的α 系數的計算公式如下:

其中,k為測驗包含的題目數量,S2x為測驗總分方差,S2i為第i題的題目方差。
該公式的另外兩種表達方式為:

其中,δ2p為真分數方差分量的估計值,δ2pi為相對決策誤差方差分量,k為項目的個數。

其中,MSp為真分數均方,MSpi為誤差均方。
α 系數憑借其計算簡單易行和穩定性、優于分半信度估計等優點,逐漸成為應用最廣泛的信度系數。但是α 系數受到諸多方面因素的影響,如題目數量多少、題目同質性高低、被試同質性高低等,這在某種程度上與信度的定義相左[4-6]。
由于α 系數受題目同質性程度影響較大,當題目同質性程度較高時,即題目得分具有較高的相關、測驗測量的能力維度較為集中時,α 系數可以作為信度和同質性的測量指標,如果測驗的同質性程度不高或者測驗異質,α 系數就會低估測驗信度。為了降低測驗同質性高低對信度估計的影響,陳希鎮提出了β系數。β系數的計算公式如下:

其中,k為測驗包含的題目數量,ρ為各題兩兩相關系數的最大值,S2x為測驗總分方差,S2i為第i題的題目方差。
β 系數出于對題目間相關程度的考慮,實際是在題目同質性不高或異質時,對在題目同質性較高時的α系數進行了“放大”。
β 系數降低了信度估計對題目高同質性的依賴,為了降低被試同質性程度對信度估計的影響,得到對信度這一測驗本身性質的更加精確的估計,謝小慶提出了γ系數。γ系數的計算公式如下:

其中,k 為測驗中包含的題目數量,S2x為測驗總分方差,S2i為第i題的題目方差,Xmax為測驗得分中的最高分,Xmin為測驗得分中的最低分。
由此可導出以下兩個公式:

其中,SE為標準誤。

其中,σ為測驗標準差,α為α系數。

由公式(6)和公式(7)可知γ 與標準誤和α 系數的關系。而與α 系數相比,標準誤具有更高的穩定性,并不因被試同質性程度的變化而出現太大的變化。因此,利用標準誤進行信度估計更加可靠。
基于某次考試的實測數據執行多種抽樣方案,對各個樣本進行描述性統計并利用α系數、β系數和γ系數對不同樣本進行信度估計,比較不同的分數分布形態和不同的分數變異對三種信度系數的影響。
1. 研究對象
研究使用某考試的實測數據,該考試試卷結構如表1所示:

表1 某考試試卷結構
采用因素分析的主成分分析方法對該考試作答 數據進行分析,結果如表2所示:

表2 某考試試卷因素分析之總方差解釋
該考試三個分測驗作答數據的相關性如表3所示:

表3 某考試分測驗相關性
如表2 和表3 所示,抽取的特征值大于1 的因素只有一個,能夠解釋總方差的74.004%,其方差占比為第二位因素的4 倍以上(一般認為第一個因素方差所占百分比是第二個因素方差所占百分比的3 倍或5 倍以上,測驗基本滿足/滿足單維性假設),三個分測驗的相關性為中強度相關,故該測驗所測能力維度較為單一,題目同質性較高。
該考試描述性統計和分數分布直方圖如表4 和圖1所示:

圖1 某考試分數分布直方圖

表4 某考試原始樣本描述性統計
該考試的原始樣本的樣本量為1901,最高分為93.5,最低分為11.5,全距為82,均值為52.96,標準差為15.816,偏度為-0.211,峰度為-0.683,分數分布形狀可視為稍平緩的近似正態分布。
2. 抽樣方案
原始樣本的分組情況如表5所示:

表5 某考試原始樣本分組情況
將原始樣本1901 人按分數高低分為高、中、低三組,其中,高、低兩組的被試比例和被試數量均為27%和513人,中等分組的被試比例和被試數量分別為46%和875人。
為了驗證 α 系數、β 系數和 γ 系數估計信度時受被試同質性和分數分布形狀影響程度的大小,按照不同的被試比例和分布形態執行了八次簡單隨機不重復抽樣。抽樣方案如表6所示:

表6 抽樣方案
為盡可能控制無關變量,抽取的各個樣本的樣本量均為700。其中,方案一是從原始樣本中進行不分層簡單隨機抽樣所抽取的正態分布的樣本,用來作為樣本間比較的“原始樣本”,方案二到方案八是從原始樣本中進行分層簡單隨機抽樣所抽取的不同分布形態的樣本。
使用 SPSS、Visual Fox Pro 和 Excel 對各樣本數據進行分析,結果如下:

表7 各樣本描述性統計與題目間的最大相關系數

表8 各樣本信度估計結果
圖2 橫坐標中的漢字為樣本編號,字母為分布形態縮寫(N、PS、NS、B 分別對應正態、正偏態、負偏態、雙峰),數字為該樣本對應的標準差。

圖2 三種信度系數與標準差的關系

表9 基于抽樣對三種信度系數標準差的估計
結合上述圖表可知,從總體上看,在對某一樣本進行信度估計時,三種信度系數的大小關系為β 系數>α 系數>γ 系數。當被試分數標準差和變異系數相近,即被試同質性程度相近,且分數分布形態相同時,如樣本三和樣本六、樣本四和樣本七,三種信度系數均具有較好的穩定性;當被試分數標準差和變異系數相近,即同質性程度相近,而分數分布形態不同時,如樣本一和樣本四、樣本二和樣本三,三種信度系數亦均具有較好的穩定性;當分數分布形態相同,而被試分數標準差和變異系數差異較大,即被試同質性程度不同時,如樣本一和樣本五、樣本二和樣本五,γ 系數表現出比α 系數和β 系數更強的穩定性;當分數分布形態不同,且被試分數標準差和變異系數差異較大,即被試同質性程度不同時,如樣本五和樣本八,γ系數表現出的穩定性更加明顯。
基于抽樣對三種信度系數標準差的估計結果顯示,α 系數和 β 系數的標準差均在 0.04 左右,γ 系數的標準差僅為不到0.02。由此可知,特別是當原始數據樣本量較大,而基于抽樣進行信度估計時,γ 系數的穩定性將得到凸顯。即便是基于原始數據進行信度估計,γ 系數的穩定性優勢也不可忽視,因為所謂的原始數據實際上也只是從總體中抽出的一個樣本而已。
從標準差來看γ 系數是一種比α 系數和β 系數更加穩定的信度系數。當被試同質性程度相近時,無論分數分布形態是否相同,三種信度系數均具有較好的穩定性;當被試同質性程度不同時,無論分數分布形態是否相同,γ 系均數表現出比α 系數和β 系數更強的穩定性,尤其是當分數分布形狀不同時,γ系數表現出的穩定性更加明顯。
就信度估計結果而言,γ 系數比 α 系數和 β 系數低,存在低估信度的可能。一般情況下,在對某一樣本進行信度估計時,三種信度系數的大小關系為β系數>α 系數>γ 系數。β 系數未得到廣泛應用,可能與其信度估計結果和穩定性同α 系數的信度估計結果和穩定性差距微小有關;γ 系數未得到廣泛使用,可能與其信度估計結果與α 系數和β 系數的估計結果相比偏低有關,既然β 系數可以出于對題目間相關程度的考慮,相當于在題目同質性不高或異質時對在題目同質性較高時的α 系數進行“放大”,γ系數或也可參考此法進行適當修正。