胡 鵬,路 紅,馬子程
(1.廣州大學 教育學院,廣州 510006;2.中山大學嶺南學院,廣州 510275)
近年來,越來越多的社會科學研究者采用結構方程模型(SEM)來進行量化研究中的數據分析,其主要原因是相對于傳統的回歸分析,SEM具有允許自變量與因變量均含測量誤差、同時處理多個因變量、提供模型擬合指數等優勢[1]。事物之間的關系錯綜復雜,當今的社會科學實證研究需要考慮更多的變量,應用SEM是研究需要,SEM是多變量統計分析的重要方法,廣泛應用于心理學、管理學、社會學、教育學和經濟學等社科類實證研究。
SEM分為測量模型和結構模型[2],而驗證性因子分析(Confirmatory Factor Analysis,CFA)的分析對象正是SEM中的測量模型部分。通常,研究者先根據前人研究并結合理論提出一個因子結構模型,然后通過相關軟件建立模型,最后導入數據運用算法去估計模型待估參數,得到參數估計結果和擬合指數,評價模型。
在建構好模型并確保模型可以識別后,選擇恰當的估計方法對模型的參數進行估計,目前比較常用的估計方法有ML和PLS[3]。最后是模型評價階段,模型擬合的評價主要是通過擬合指數的表現來衡量,擬合指數分為絕對擬合指數、相對擬合指數和簡約指數[4],目前國內學者普遍建議使用的擬合指數有以下幾個:χ2/df、CFI、NNFI(TLI)和RMSEA,每個擬合指數都對應一個臨界值,χ2/df最寬松的標準是5以下,CFI和NNFI要達到0.9以上,RMSEA的要求是0.08以下[5-7]。由于在實際研究中,很難一次就達到具有良好擬合的模型,所以目前各大主流SEM軟件均報告修正指數(MI),修正指數的實質是對模型修正的“數學”提示,盲目地根據MI來修正模型是不可取的,不能忽略模型背后的理論意義[8]。值得注意的是,目前學界存在的一個較為普遍的現象:為了“提高模型擬合”,根據修正指數來設定CFA中部分條目的誤差項相關,但沒有緊接著給出一個合理的解釋(實際上大多數情況下是解釋不清的)。那么究竟在CFA中能不能允許誤差相關?什么條件下可以允許誤差相關?不能允許誤差項相關但擬合不達標又怎么辦?這是本文所關注的三個核心問題。本文從誤差分解的角度來闡述CFA中允許誤差項相關的條件,并結合兩個特例模型來說明其允許誤差項相關的合理性和必要性。
提到誤差分解,最容易聯想到的是經典測量理論(CTT):X=T+E(X為觀測分數,T為真分數,E為測量誤差),CTT框架下的測量誤差分為隨機誤差和系統誤差。隨機誤差是指那些研究者未知的也無法控制的因素所造成的測量偏差,如被試個人的緊張、生病或者測驗場景的偶發噪音等;而系統誤差的特點是對所有條目甚至所有被試的影響是一致的,如被試對模棱兩可的條目可能存在著一律選“是”或一律選“否”的傾向,這種誤差一旦被研究人員所察覺,在下次測量中就可以被控制甚至消除[9]。
CFA框架下的測量誤差被細分為:隨機誤差、系統誤差和獨特性成分[10],不難發現,與CTT相比,獨特性成分是CFA的誤差里所獨有的,指的是某條目與同因子下其他條目的公共變異被抽取后剩余的成分,反映的是條目自身的獨特性,而獨特的原因往往是源于條目不同的表述。雖然誤差被分解,但無法對三者進行數量上的區分,始終是綁在一起呈現一個數值,而且目前學界關于獨特性的大小要求也沒有明確的臨界值界定,但可以肯定的是條目間是需要有一定程度的獨特性的,否則采用多個條目測量同一潛變量的意義將大打折扣。
CFA中的修正指數主要包括兩大類:允許誤差相關和條目跨因子負荷。前者是指釋放誤差相關自由估計,后者是指條目同時負荷于多個因子,修正指數的原理就是通過釋放這些參數自由估計來提高模型擬合優度。每釋放一個參數自由估計,模型的卡方會減少,擬合相應也會有所改善,理論上說,當模型的所有參數自由估計時,模型達到飽和,擬合最優;固定所有參數時,即為獨立模型,擬合最差。在參數估計結果未知時,先驗的去固定某些參數值的做法不利于產生數學上最優的再生矩陣,有可能得到欠佳的擬合優度,這時軟件從數學的角度指引研究者釋放一些MI比較大的參數來減小卡方值提高擬合優度。一味的根據修正指數去不斷允許誤差相關,模型的擬合一定會越來越好,但這是典型的“數據驅動”,顯然不可取。對于軟件本身來說,模型只是一堆數學聯立方程,而對于研究者來說,模型富有深厚的理論意義,一旦設定一般不可輕易改動的,因此,研究者應始終堅持理論先行,否則改動的模型最終會變得無法解釋。那么究竟可不可以允許誤差相關?
首先,隨機誤差是未知的、不可控的,顯然,沒有任何理由去允許隨機誤差相關,其中的道理就像先驗的讓兩列數隨機,然后承認它們之間相關,這已經違背了隨機的本質;其次,系統誤差是同一變異源對某些條目的共同影響,如果在特定研究中真的存在這個變異源,那么在澄清這個變異源的情況下允許這些條目間的誤差相關是可以接受的,但問題是既然知道為什么不事前去控制這個變異源?又為什么只允許部分條目間的系統誤差相關,而不是允許所有條目?成功的解釋為什么這個變異源只是對量表中的部分條目產生影響并非易事,因為通常情況下這種變異源的作用對象是所有條目;最后,獨特性成分是每個條目所獨有的,如果可以允許不同條目間獨特性相關,那也就不可以稱之為“獨特性”了。
綜上所述,在CFA中允許不同條目誤差項相關是可行的,但理由只能是其中的系統誤差相關,因此要解釋清楚是什么系統誤差對這些條目的得分產生了影響。換句話說,只有當研究者清楚存在某個系統偏差(如方法效應)對條目得分產生影響才能去允許誤差項相關。如果沒有合理的解釋,很難擺脫“純粹為了提高模型擬合”的嫌疑。
雖然SEM在我國社科類研究中被廣泛使用,且越來越普遍,但仍然有很多研究者沒有認識到誤差相關的實質,不恰當地允許誤差相關,具有諷刺意味的是,這些文章是發表在了相關學科的權威雜志上,通過中國知網、萬方和維普進行“誤差相關”“殘差相關”“誤差項相關”“殘差項相關”等同義關鍵詞的搜索,可以查閱到大量在CFA中允許誤差項相關的文獻,其中大部分都沒有給出一個合理的解釋,在此不一一贅述,下面僅以近幾年的幾篇典型文獻來具體說明。
2016年發表在《心理發展與教育》上的《學生學業成績和教師控制知覺對教師差別行為的影響》在驗證其中一個量表的結構效度時論述到:“本文采用Mplus7.0軟件對該量表進行驗證性因素分析,刪除了機會特權維度中的一個項目與負性反饋維度中的兩個項目,并分別設定兩個維度內共三對項目殘差相關,修正后問卷結構效度良好,χ2/df=3.56,CFI=0.92,GFI=0.92,TLI=0.91,RMSEA=0.06”[11]允許了三對項目殘差相關后并沒有任何解釋,保守的說,有單純為了提高擬合的嫌疑。又如2016年發表在《心理與行為研究》上的《心理健康素質測評系統·中國成年人核心心理健康素質全國常模的制定》在CFA中論述到:“根據模型的修正指數表,依據每步修正對模型改善程度的大小,對測量模型進行逐步修正等。第一次修正:在誤差項e4與e6之間建立相關關系;第二次修正第六次修正:在誤差項e21與e2之間建立相關關系等。經過六次模型修正,模型擬合指數在可接納的范圍內。”[12]從一個欠佳的擬合出發“硬生生”經過六次誤差相關的設定將擬合疊到達標的水平,并沒有任何關于誤差相關的解釋,倘若經過n次誤差相關修正后使得模型擬合達標,那不如直接廢除模型擬合這個門檻來的直接了當。
除心理學外,其他社會科學也有此類現象,如2016年發表在《學前教育研究》上的《父母沖突與幼兒社會適應的關系:消極情緒的中介作用》在父母沖突量表的CFA中表述為“對該量表進行驗證性因素分析和模型修正,設定兩個項目殘差相關后的擬合指數為:χ2/df=2.31,RMSEA=0.06,GFI=0.95,CFI=0.95,NFI=0.93 ”[13]此處也是在誤差相關后緊隨一個良好的擬合但沒有解釋這么做的理由。又如2014年發在《社會學研究》上的文章《檢驗環境關心量表的中國版(CNEP)》中的表述:“以上兩個模型控制了2000版量表15個觀測項目可能存在的測量誤差以及測量項目之間的誤差相關”和“在依照模型修正指數逐步犧牲了一定的模型自由度后,兩個模型都達到了飽和,各項模型擬合度指標都達到了可接受標準”[14],前半句表述模模糊糊,后半句則表現出明顯的“數據驅動”。以上這些文獻均沒有對誤差相關做出解釋。其實也有一些文章給出了“所謂的”理由,比如2013年《管理評論》上的文章《IT治理績效影響因子分析:基于中國電子政務實施的實證研究》,文中給出允許誤差相關的理由是:“盡管建立誤差相關違背了模型的基本設定,但是從邏輯關系來講本測量工具的測量題目之間存在一定的關聯關系是可能的,誤差相關系數也非常低,修正模型可以接受。修正后的測量模型的擬合情況比較良好,多數指標達到了令人滿意的標準,可以接受測量模型。”[15]理論上講條目間確實是相關的,但這種相關關系已經被公因子所解釋,其次條目間相關和誤差相關也不是一回事。
綜上所述,目前此類不恰當允許誤差相關的文章對誤差相關的解釋分為三類:第一類,直接不解釋,可能認為根據修正指數來修正模型提高擬合理所當然;第二類,表述模糊,不明確指出允許了部分條目的誤差相關,但內行人能看的出來;第三類,似是而非的解釋,主要是類似于“理論上這些條目間是相關的,所以允許誤差相關可以接受”之類的表述。
在標準的CFA模型中一般不允許條目間誤差相關,但有一些特殊CFA模型可以允許誤差相關的存在,并且這種允許是合理的、必要的,下文僅以CT-CU模型和縱向等值檢驗為例來說明其允許誤差項相關的合理性和必要性。
關聯特質-關聯獨特性模型(Correlated Trait-Correlated Uniqueness,CT-CU)與標準CFA不同的是,所有條目的得分并不是采用同一種方法測到的,這里面存在一個方法學效應。下面舉例說明:
如圖1所示,與圖1模型不同的是,這里允許e1與e4相關、e2與e5相關、e3與e6相關,之所以這樣設定是因為在這個模型中,a1與 a4、a2與a5、a3與 a6這三對條目是分別用不同的方法測量的,比如老師評定、家長評定和自評這三種方法。因此,在這個模型中多了一個方法學效應,同一種方法測得的條目得分都受到該方法產生的系統誤差,不同方法造成的系統誤差可能是不同的,故可以允許同一種方法測得的條目誤差間相關[16]。此種情況下如果誤差相關全部限定為0,反而是不合理的,即沒有考慮到方法學效應對條目得分的影響。

圖1 CT-CU模型
與橫斷研究相比,縱向研究可以考察變量隨不同時間點的變化情況,例如考察某群體心理健康水平隨時間的變化趨勢就需要進行縱向研究設計。需要注意的是,在比較不同時間點變量水平之前,需要進行縱向不變性的等值檢驗,如果不滿足這個前提,則不能進行潛均值的比較[17]。圖2即為一個兩因子測量兩次的縱向等值檢驗,f1與f2是第一次測量,f12與f22是第二次測量,f1對應f12,f2對應f22。從圖2可以看出,允許兩次測量中的同一條目間誤差相關,如e1與e7,理由是e1與e7是同一條目,同一條目的獨特性是相同的,一般認為獨特性引起的變異在多次測量間保持恒定[18],因此,這里允許的誤差相關是同一條目獨特性的相關,并且合理、必要。

圖2 縱向等值檢驗模型
綜上,兩個特例模型說明CFA在某些情況下是可以允許誤差相關的,不難看出,這兩個特例中允許誤差相關是合情合理、有理有據的,實際上這兩個模型也代表了兩類可能出現誤差相關的模型:方法學效應模型、縱向設計模型。需要強調的是,本文利用這兩個模型進行闡述并不代表著只有這兩個特例模型可以允許誤差相關,其意旨在說明其允許誤差項相關的合理性和必要性。
在實際研究中,由于人力、物力和財力等種種因素,往往很難做到采用多種方法測評或者縱向的追蹤調查,最常遇到的是采用同一種方法(如紙筆測驗)、相同數據來源(如自評)的橫斷調查數據,由上述分析可知,在這種情況下去允許誤差相關往往是解釋不清的,尤其是只允許部分條目誤差相關。
如果不允許誤差相關,但CFA模型的擬合欠佳,這時該怎么辦?可能是研究者最關心的問題,下面按CFA的對象將其分為兩類來分別探討并給出建議:
第一類CFA的對象是成熟量表,研究者利用某公認的成熟量表收集調查數據,這時在進行CFA時一般不建議去改變量表的原結構,除非有特殊的理由(如跨群體研究)。不改變量表的原結構意味著要忽略關于條目跨因子負荷的MI,剩下關于誤差相關的MI就顯得尤為重要。雖然不允許誤差相關,但如果存在多個較大的誤差相關的MI值,意味著可能存在某個系統因素對這些條目的得分產生影響,這時可以將所有的條目都負荷在一個潛因子上(圖3),即共同方法變異(CMV)統計控制中的“控制未測單一方法潛因子法”[19],共同方法變異指相同數據來源或評分者、相同測量環境等因素所造成的測驗條目間或潛構念間的人為共變[20],因此,對于采用此類調查方式收集的量表數據,無論是從理論上還是邏輯上,假定存在一個方法因子可以解釋測驗條目的部分變異都是合情合理的;此外,從統計上說,在控制這個方法效應后得到的參數估計結果會更加精確,這也應是研究者所追求的;最后,增加一個方法因子后釋放了數量等于條目總數的參數,從理論上說,模擬的擬合一定會有所改善,并且改善的幅度一般會比允許部分條目誤差相關更大。總之,對于相同測量方法的橫斷成熟量表數據,如果擬合不達標,建議采用帶方法因子的CFA模型,而不是允許部分條目誤差項相關。

圖3 帶方法因子的CFA模型
第二類CFA的對象是自編量表或修訂量表,對于這類量表數據的CFA,不僅可以考慮加入方法因子,還應當重點關注條目跨因子負荷的MI,并根據量表背后的理論和條目的表述來判斷事先設定的條目的因子歸屬是否合理,如果存在交叉負荷的條目,建議予以刪除。總之,在理論解釋條目跨因子負荷的合理性的基礎上,可以通過這種方法來提高模型擬合。
本文首先利用一個簡單的模型闡述CFA的原理及過程,接著從誤差分解的角度,在闡述各誤差成分含義的基礎上,分析得出:
(1)可行性:雖然標準CFA不允許誤差相關,但在某些特定模型里可以允許誤差相關,如CT-CU模型和縱向等值檢驗模型。
(2)條件性:允許不同條目誤差項相關的理由只能是系統誤差相關,只有研究者能夠解釋可能是什么系統偏差對條目得分產生了影響,才能去允許誤差相關,否則允許誤差相關是欠妥的。
(3)建議:對于成熟量表的CFA,考慮加入方法因子;對于自編量表或修訂量表的CFA,還有重點關注條目負荷跨因子的修正提示,并結合理論來考慮量表的結構是否需要調整。