戴金輝,韓存
(山東工商學院a.統計學院;b.價格指數研究中心,山東煙臺264005)
考慮兩個類別自變量對數值因變量影響的方差分析稱為雙因素方差分析。在進行分析時有兩種情況:一是只考慮兩個影響因素對因變量的單獨影響,這時的方差分析稱為無交互效應的雙因素方差分析;二是除了兩個影響因素外,還考慮兩個影響因素的搭配對因變量產生的交互效應,這時的方差分析稱為有交互效應的雙因素方差分析。經常有人把有交互效應的雙因素方差分析或者無交互效應的雙因素方差分析模型直接應用,本文探討有交互效應雙因素方差分析與無交互效應的雙影響因素方差分析在應用上的區別。
雙因素方差分析的數據結構見表1。

表1 雙因素方差分析數據結構表
設影響因素A有I個水平,影響因素B有J個水平。兩個影響因素共有IJ種不同的水平組合。如果每種水平組合只測得一個觀測值,則有IJ個觀測值,這樣的測量屬于無重復測量(無重復實驗)。如果每種水平組合測得多個觀測值,這樣的測量就是重復測量(重復實驗)。如果每種水平組合重復測量的次數相同,那么將重復次數記為K(K≥2),這時兩個影響因素的IJ種不同水平組合共有IJK個觀測值。
為方便接下來的表述,引進下列表示符號:
μ:總均值,它是所有水平的均值μij的平均。
αi:影響因素A的效應。它衡量的是影響因素A的第i個水平均值與總均值的差異程度,即αi=-μ。
βj:影響因素B的效應。它衡量的是影響因素B的第j個水平均值與總均值的差異程度,即βj=-μ。
γij:影響因素A的第i個水平和影響因素B的第j個水平搭配產生的交互效應。它衡量的是影響因素A的第i個水平和影響因素B的第j個水平搭配(共有IJ個)對因變量產生的效應。
εijk:隨機誤差。反映隨機因素對因變量的影響。
這樣,對于任何一個觀測值yijk,都可以表達成下面的線性組合,即:
yijk=μ+αi+βj+γij+εijk
其中i=1,2,…,I;j=1,2,…,J;k=1,2,…,K
yijk表示影響因素A的第i個水平和影響因素B的第j個水平組合的第k個觀測值;μ表示不考慮影響因素A和影響因素B的影響時,觀測值總的平均值,它是模型的常數項(截距);αi表示影響因素A的水平為i時對觀測數據的附加效應,它所對應的就是影響因素A的水平誤差;βj表示影響因素B的水平為j時對觀測數據的附加效應,它所對應的就是影響因素B的水平誤差;γij表示影響因素A的第i個水平和影響因素B的第j個水平搭配產生的交互效應;εijk表示影響因素A的第i個水平和影響因素B的第j個水平組合中的第k個觀測值的隨機誤差,同時假定εijk服從均值為0,方差為常數的正態分布。
有交互作用方差分析過程:
(1)對于影響因素A的I種水平和影響因素B的J種水平,要檢驗影響因素A的效應,影響因素B的效應、兩個影響因素的交互效應,也就是檢驗下面的假設:
H0A:αi=0(i=1,2,…,I)(影響因素A的水平效應不顯著)
H1A:αi(i=1,2,…,I)至少有一個不等于0(影響因素A的水平效應顯著)
檢驗影響因素B的假設:
H0B:βj=0(j=1,2,…,J)(影響因素B的水平效應不顯著)
H1B:βj(j=1,2,…,J)至少有一個不等于0(影響因素B的水平效應顯著)
檢驗交互效應的假設:
H0AB:γij=0(i=1,2,…,I;j=1,2,…,J)(影響因素A與影響因素B交互效應不顯著)
H1AB:γij(i=1,2,…,I;j=1,2,…,J)至少有一個不等于0(影響因素A與影響因素B交互效應顯著)
(2)檢驗上述假設時,與模型yijk=μ+αi+βj+γij+εijk相應的誤差分解示意圖,見圖1。

圖1 有交互作用的雙因素方差分析誤差分解
根據上述誤差分解原理,可以構建用于檢驗的統計量FA,FB,FAB。
設yijk表示影響因素A的第i個水平和影響因素B的第j個水平組合的第k個觀測值,表示影響因素A的第i個水平的樣本均值表示影響因素B的第j個水平的樣本均值,表示影響因素A的第i個水平和影響因素B的第j個水平組合的樣本均值,為全部IJK個觀察值的總均值。
各平方和的計算公式如下:

將各平方和除以相應的自由度df,得到各均方,再將各水平均方分別除以誤差均方,即得到用于檢驗影響因素A、影響因素B、影響因素AB的統計量FA、FB、FAB,見表2所示。

表2 有交互作用的雙因素方差分析表
多重判定系數R2,它度量了影響因素A、影響因素B和兩者交互作用AB對因變量的聯合影響程度,R2的計算公式為:

R2數值越大,說明影響因素A、影響因素B和其交互作用AB對因變量的聯合影響越大,隨機誤差平方和占總平方和的比例越小,說明影響因素A、影響因素B和其交互作用AB中的一個或者多個對因變量的變動有顯著性的影響。
多重判定系數R2的平方根r(復相關系數)則反映了影響因素A、影響因素B和其交互作用AB聯合起來與因變量之間的關系強度,r取值越大,說明影響因素A、影響因素B和其交互作用AB與因變量之間有較強的關系。
(3)根據給定的顯著性水平α,查表,確定臨界值Fα。(4)做出統計決策。
如果FA>Fα,則拒絕原假設H0A,表明影響因素A對因變量的影響是顯著的;反之,若FA<Fα,則不拒絕原假設H0A,表明影響因素A對因變量無顯著影響。
若FB>Fα,則拒絕原假設H0B,表明影響因素B對因變量的影響是顯著的;反之,若FB<Fα,則不拒絕原假設H0B,表明影響因素B對因變量無顯著影響。
若FAB>Fα,則拒絕原假設H0AB,表明影響因素AB交互作用對因變量的影響是顯著的;反之,若FAB<Fα,則不拒絕原假設H0AB,表明影響因素AB交互作用對因變量無顯著影響。
當交互效應γij為0時,有交互作用的雙因素方差分析模型就變為:

這是無交互效應雙因素方差分析的數學模型,顯然它是有交互效應的方差分析模型的一個特例。無交互作用方差分析過程:
(1)以前面對有交互作用雙因素方差分析過程為基礎,對于無交互作用的雙因素方差分析就相對要簡單了。對于影響因素A的I種水平和影響因素B的J種水平,要檢驗影響因素A的效應、影響因素B的效應,也就是檢驗下面的假設:
H0A:αi=0(i=1,2,…,I)(影響因素A的水平效應不顯著)
H1A:αi(i=1,2,…,I)至少有一個不等于0(影響因素A的水平效應顯著)
檢驗影響因素B的假設:
H0B:βj=0(j=1,2,…,J)(影響因素B的水平效應不顯著)
H1B:βj(j=1,2,…,J)至少有一個不等于0(影響因素B的水平效應顯著)
與有交互作用雙因素方差分析的三種假設相比,變為兩種假設。
(2)與有交互作用雙因素方差分析的誤差分析相比,無交互作用的雙因素方差分析誤差分解過程也變得簡單,見圖2。

圖2 無交互作用的雙因素方差分析誤差分解
根據上述誤差分解原理,可以構建用于檢驗的統計量FA,FB(見表3)。

表3 無交互作用的雙因素方差分析表
多重判定系數R2,它度量了影響因素A和影響因素B對因變量的聯合影響程度,R2的計算公式為:

R2數值越大,說明影響因素A和影響因素B對因變量的聯合影響越大,隨機誤差平方和占總平方和的比例越小,說明影響因素A和影響因素B有一個或者兩個對因變量的變動有顯著性的影響。
多重判定系數R2的平方根r(復相關系數)則反映了影響因素A和影響因素B與因變量之間的關系強度,r取值越大,說明影響因素A和影響因素B與因變量之間有較強的關系。
(3)根據給定的顯著性水平α,查表,確定臨界值Fα。
(4)做出統計決策。
如果FA>Fα,則拒絕原假設H0A,表明影響因素A對因變量的影響是顯著的;反之,若FA<Fα,則不拒絕原假設H0A,表明影響因素A對因變量無顯著影響。
若FB>Fα,則拒絕原假設H0B,表明影響因素B對因變量的影響是顯著的;反之,若FB<Fα,則不拒絕原假設H0B,表明影響因素B對因變量無顯著影響。
假定有甲、乙兩種施肥方式,3種小麥品種,搭配共有6種組合。如果選擇30塊地進行試驗,則每種搭配進行5次試驗,實驗數據見表4。

表4 小麥品種和施肥方式的實驗數據
檢驗小麥品種、施肥方式和小麥品種與施肥方式交互作用對產量的影響。
解:這是一個雙因素(2×3水平)的實驗問題,并且每個因素的搭配各做了5次觀察,所以是等重復的雙因素方差分析。
提出假設:
H0A:施肥方式對小麥產量無顯著影響
H1A:施肥方式對小麥產量有顯著影響
H0B:小麥品種對小麥產量無顯著影響
H1B:小麥品種對小麥產量有顯著影響
H0AB:施肥方式和小麥品種搭配對小麥產量無顯著影響
H1AB:施肥方式和小麥品種搭配對小麥產量有顯著影響
數據經過統計分析軟件SPSS計算后(與統計分析軟件EXCEL計算結果會有一定差異),結果見表5。

表5 有交互效應的雙因素方差分析結果
有交互效應的雙因素方差分析結果表明:施肥方式和品種兩個因素對實驗結果的影響是顯著的,而施肥方式與品種的交互作用對實驗結果的影響是不顯著的。既然施肥方式與品種的交互作用對實驗結果的影響是不顯著的,可以對施肥方式與品種進行無交互作用的雙因素方差分析,結果如表6所示。

表6 無交互效應的雙因素方差分析結果
無交互效應的雙因素方差分析結果表明:施肥方式和品種兩個因素對實驗結果的影響都是顯著的。
比較表5和表6,在有交互效應的雙因素方差分析與無交互效應的雙因素方差分析結果表明:施肥方式和品種在兩種情況下的Ⅲ型平方和沒有變,但是在有交互作用的雙因素方差分析中,隨機誤差比無交互作用的雙因素方差分析要小,并且有交互作用的雙因素方差分析中,隨機誤差與交互作用平方和等于無交互作用的雙因素方差分析中的隨機誤差,相應的F值會有稍許變化,但是不影響計算結果。
根據方差分析表可知,施肥方式對小麥產量影響顯著;小麥品種對小麥產量影響顯著;施肥方式和小麥品種搭配對小麥產量影響不顯著。如果考慮施肥方式、小麥品種和兩者的交互作用,判定系數R2=89.47%,而如果忽略了兩者的交互作用,則判定系數為R2=88.59%,沒有出現明顯的降低。在經過檢驗施肥方式和小麥品種搭配對小麥產量無顯著影響后,此題可以按照無交互作用的雙因素方差分析進行解答。
總結有兩個影響因素時,考慮交互效應的方差分析與分別對兩個影響因素做單因素方差分析是不同的。兩個單因素方差分析實際上是假定兩個影響因素間不存在交互效應,在兩個影響因素間存在交互效應時可能會得出錯誤結論。因此,當有兩個影響因素時,應首先考慮使用有交互效應的方差分析模型,當經過統計檢驗,交互效應不顯著時,再考慮使用兩個影響因素的單影響因素方差分析模型。
[1] 賈俊平.統計學——基于SPSS[M].北京:中國人民大學出版社,2014.
[2] 茆詩松,周紀薌.概率論與數理統計[M].北京:中國統計出版社,2007.
[3] 戴金輝,袁靜.單因素方差分析與多元線性回歸分析檢驗方法比較[J].統計與決策,2016,(9).
[4] 戴金輝,代金輝.方差分析在跳水運動員成績管理中的應用[J].統計與決策,2016,(22).
[5] 戴金輝.單因素方差分析中異方差的檢驗與修正[J].統計與決策,2017,(8).