摘要:文章指出了《教育測量學》一書關于信度理論和信度系數值得商榷之處:系數的定義表述不嚴謹,未區分信度系數的定義式和估計式。對信度系數定義的評注不符合科學現狀,定理的證明含有錯誤,證明的條件不全,符號使用混亂;建議在入門教材中刪除有關信度系數的證明過程。
關鍵詞:經典測量理論;信度;信度理論;信度系數
中圖分類號:G642
文獻標志碼:A
文章編號:1008-5831(2007)06-0116-05
教育測量學中的經典測量理論是一套關于明顯學業表現的測量學理論,它主要由信度理論、項目分析理論和分數等值理論組成。經典理論中的信度理論指的是20世紀初由斯皮爾曼和布朗發展出的一套關于信度系數估計的理論。由于學術傳統習慣的原因,這套理論至今仍有很強的生命力,因此,也是心理測驗和教育測量學教材的必講內容,更是入門教材的核心內容之一。由張敏強教授編著、人民教育出版社出版的“教育科學分支學科叢書”之二——《教育測量學》——當然也分專章介紹了這一理論。在閱讀過程中,我們發現該教材關于經典信度理論的介紹有多處疑點,茲提出來,和張教授商榷,也向廣大的讀者請教。
一、關于信度系數的定義及其評注
《教育測量學》第102頁把信度定義為“真分數方差與觀察分數方差之比例”,語言欠規范。用詞欠準確。確切些說,這里的“信度”應該是“信度系數”。用規范的現代漢語表達,信度系數的定義應該是:真分數方差與觀察分數方差之比;或者,真分數方差占觀察分數方差的比例。
我們之所以強調“信度”和“信度系數”之間區別的原因是。在現代教育測量學中,“信度”這個術語已經變成一個表示類屬概念的詞,其中包括信度系數、測量標準誤、信噪比、分類一致性等,即使在經典理論中,“信度”就已經包含了信度系數和測量標準誤兩層意思。
教材第102頁把信度系數形式化地定義為
rXX=S2T/S2x (1)
也有些欠妥。首先,做為信度系數的定義,式中的參數最好用希臘字母表示,而不是用拉丁字母,當然,為了方便,也可以全部用拉丁字母,但最好加以說明,而且要統一。該教材的主要問題出在符號約定的不統一上。一會兒用希臘字母表示參數,用拉丁字母表示估計(第51頁,第107頁等),一會兒又不加區分。其次,信度系數的下腳號也最好不用同一個拉丁字母,要么用兩個截然不同的拉丁字母。要么用同一個字母及該字母加上其他標號。如果沒有證明過程,用同一個字母做腳號也可以。如果有證明過程,用同一個字母做腳號容易引起混淆(下節討論的錯誤可能就是由于這個原因造成的)。因此,就本教材的符號體系而言,建議把(1)式用作信度系數的估計式,把下式用作信度系數的定義式
ρXX'=σ2T/σ2X (2)
式中ρXX',表示信度系數,σ2T表示真分數的方差,σ2X表示觀察分數的方差。
該教材對于信度系數定義的評注是:“經典理論定義的信度是一個理論上構想的、不可操作的概念,因此大部分實際中的信度資料都以相關系數來表示。”這個評注在20世紀60年代之前是成立的,此后,情景就有所不同。評注科學內容應該評它的現狀,而不是它的歷史,如果我們的重心不是歷史的話。事實上,60年代之后,克倫巴赫及其同仁就改寫了這個歷史,用概化理論既解放了經典信度理論的條件限制,也拓寬了經典信度理論的適用范圍。在滿足內部一致性的條件下,信度系數的定義自身就是一個相關系數的函數,不過是組內相關系數,而不是組間相關系數。發現了這層關系,就沒有必要假定平行測驗條件得到滿足(但實際上并沒有滿足)的前提下,用平均組間相關系數間接估計,而是直接根據組內相關系數的方差分量式定義信度系數的模型,這就是概化理論的全部內容。不幸的是,該教材并沒有介紹概化理論這一稱做經典理論現代版本的測量理論的任何內容。
概化理論充分挖掘方差分量分解技術的潛力,不僅估計出了真分數方差,也估計出了各種誤差源的方差,而真分數方差與誤差方差之和便是觀察分數的方差。最近,筆者在統一信度理論時,還發現了一種遠比概化理論更簡單、更明了的信度系數估計方法,完成了經典理論、概化理論、強真分數理論以及項目反應理論在信度理論上的統一,由于與本文關系不大,在此不便贅述。但無論怎么說,從概化理論的角度看,教材中的信度系數定義是完全可以操作的,而不是不可以操作的。
二、關于組內一組間相關系數等價的證明
在經典理論發展的早期,由于研究者并不知道信度系數用組內相關系數(關于組內相關系數的原始定義以及組內相關系數可以表示成兩個方差之比最少可以追溯到R.A.Fisher 1925年出版的統計學著作)的函數定義比用組間相關系數、組間相關系數的函數或平均組間相關系數的函數定義更方便。條件也更容易滿足,于是才提出嚴格的平行測驗條件,以便通過組間相關系數間接地估計組內相關系數。不難證明,當一組受考在兩次測驗上的分數的平均數和方差都相等時,組間相關系數與組內相關系數相等。可是,教材第102頁下方關于這個關系的證明顯然是錯誤的。請看教材的證明過程:

這樣的結果是顯然的,因為一個隨機變量跟它自身分數無關時,真分數方差與觀察分數方差之比(信度系數)等于真分數與觀察分數之間的相關系數的平方。關于該定理的用處本節開始已經論述過,此處無需贅述。


定理2:如果滿足平行測驗條件時。真分數方差與觀察分數方差之比(信度系數)等于兩個平行測驗的觀察分數之間的相關系數。
定理2是用兩個平行測驗上的觀察分數來估計信度系數的理論依據。對于經典信度理論的批評,主要是針對定理2的,因為它要求的平行條件在實踐中很難滿足。概化理論也正是在這一點上解放了經典理論中的信度理論。
定理1、定理2再加上信度系數的定義。就是我們常說的經典理論中關于信度系數的三個等價定義。就學科發展的水平而言,定理2今天已經沒有任何必要,定理1的用處也非常有限,斯皮爾曼-布朗矯正公式也沒有多大用場。關于這幾點,國內學界還沒有認識到。我們相信,隨著心理和教育測量學知識的普及,很快國內教育和心理測量界的同仁就會認識到這幾點。
六、關于信度系數模型的證明
證明對于透徹地理解模型含義非常重要。但是,對教材而言,還應該考慮學生和授課老師能否看懂證明過程,是否有足夠的基礎讀懂證明過程。關于信度系數模型的證明所用數學知識不算很多,主要是概率論中的方差和協方差算子。但是,據筆者所知,國內教育和心理相關專業的學生通常并不學這部分內容,即使到了碩士和博士階段也不學,他們主要學一些簡單的一元函數微積分學和應用統計知識。所以,這樣的證明過程,教育和心理學科的學生很難讀懂,很多授課老師,如果是純正的心理學或教育學專業出身的,也很難讀懂。鑒于這種情況,我們以為。在像《教育測量學》這樣的入門教材中,對于信度系數模型的證明似乎沒有多大的必要,即使證明過程沒有任何錯誤。
七、結語
教材是人類間接經驗的重要源泉之一,也是傳播人類文明知識的高效途徑。教材的主要讀者是學生,是對教材所講內容的正確性缺乏足夠判斷力的學生。他們往往把教材當做“圣經”,幾乎百分之百地相信。因此,教材的內容應該絕準確。一部教材個別地方出現疏忽在所難免,但是,如果在實質內容方面出了錯,其波及面就大了。如果再加上連鎖反應,后果不堪設想。我們真心地希望,就文中討論的問題而言,我們自己錯了,但終因我們無法說服自己。只好公開和張教授商榷,也向廣大讀者求教。如果真的是我們錯了,我們定會衷心感謝任何一位指出者;如果萬一我們的所言沒有錯誤,那么,還請大家攜起手來,共同消除由于這本教材中的錯誤對于全社會已經造成的非我們所期望的影響。
(責任編輯 胡志平)