劉曉華
(山東工商學院 統計學院,山東 煙臺 264005)
在工農業生產和科學研究中,經常需要對影響某個結果的諸多因素的重要性判斷,例如,研究影響某種農作物單位面積產量的因素,可能有品種、施肥種類以及施肥量等。在這些因素中,哪些因素對產量有顯著影響,這些因素之間是否存在交互作用呢。為此,需要先做試驗,根據試驗的結果進行分析。方差分析是解決此類問題常用的方法。
在數理統計學的教材中,一般都會介紹單因素方差分析和雙因素方差分析,而在實踐中,影響試驗結果的因素往往不止兩個,而是多個以上。對于這樣的問題,應采用多元方差分析。但是查閱相關資料,發現沒有多元方差分析的嚴格數學論證。本文在雙因素方差分析的基礎上,拓展到三因素方差分析,給出了嚴格的數學推導和論證,并用一個實例對模型的使用進行了說明。
假定對某試驗的影響因素有三個,分別用A,B,C表示。其中因子A有r個水平,記為A1,A2,…,Ar,因子B有s個水平,記為B1,B2,…,Bs,因子 C 有 t個水平,記為C1,C2,…,Ct,在 (Ai,Bj,Ck)的水平組合下進行m次試驗,試驗結果記為yijkn, 其中i,j,k分別代表因子A,B,C的水平,n代表在此組合下樣本標號。
因為試驗因子較多,無法像雙因子方差分析一樣將兩個因子分別放在行列上,試驗結果一般需要通過諸如表1的表格進行展示,以r=2,s=3,t=2,n=4為例。
為研究方便,假設yijkn獨立服從正態分布N(μijk,σ2),也即模型滿足正態性,獨立性和等方差性假定。

表1 三因子方差分析數據結構(r=2,s=3,t=2,n=4)
為了研究方便起見,如雙因子方差分析那樣把參數改變一下,令:

其中上述定義中,i=1,2,…,r,j=1,2…,s,k=1,2,…t。
在此基礎上定義各因子的效應和交互效應:

為了研究交互效應是否對結果有顯著影響,在每個組合下至少要m(m≥2)次試驗,試驗結果記為yijkn,則:

這就是有交互作用的三因子方差分析模型,在此模型假定下,需要研究每個因子的影響是否顯著,以及兩個因子的交互作用和三個因子的交互作用是否影響顯著,也就是需要進行如下7個檢驗。

類似于雙因子方差分析中平方和分解的思想,先進行模型的方差分解,為此引入下面的一些符號:

由式(1)可以得到:

總的偏差平方和可作如下分解:

其中各偏差平方和表達式如下,且由式(1)和式(2)可知:

從上述公式可知,ST反映了試驗結果的總波動,SE反映了誤差的波動,SA,SB和SC除反映誤差的波動外,還分別反映了因子A,B和C主效應的差異,SAB,SAC和SBC除反映誤差的波動外,還分別反映了兩因子A、B,A、C,B、C交互效應差異引起的波動,SABC除反映誤差的波動外,還反映了三因子A、B、C交互效應的波動。
由數理統計中的cochran定理和假設檢驗相關理論,可以推出各個檢驗需要的統計量如下:

具體計算過程可以列成一張三元方差分析表展示,見表2所示。

表2 三元方差分析表
在給定的顯著水平α下,查F的臨界值便有如下的檢驗結論:
(1)FA≥Fα(r-1,rst(m-1))時,拒絕H0A,認為因素A對試驗結果由顯著影響。
(2)FB≥Fα(s-1,rst(m-1))時,拒絕H0B,認為因素B對試驗結果由顯著影響。
(3)FC≥Fα(t-1,rst(m-1))時,拒絕H0C,認為因素C對試驗結果由顯著影響。
(4)FAB≥Fα((r-1)(s-1),rst(m-1))時,拒絕H0AB,認為因素A和B存在顯著的交互作用。
(5)FBC≥Fα((s-1)(t-1),rst(m-1))時,拒絕H0BC,認為因素A和B存在顯著的交互作用。
(6)FAC≥Fα((r-1)(t-1),rst(m-1))時,拒絕H0AC,認為因素A和C存在顯著的交互作用。
(7)FABC≥Fα((r-1)(s-1)(t-1),rst(m-1)),拒絕H0ABC,認為因素A,B和C存在顯著的交互作用。
方差分析的模型假定條件為正態性、獨立性和等方差性。在這個前提下,用方差平方和分解推出了F統計量,并用F檢驗進行判斷因素的重要性,那么模型所用的數據是否滿足這三個假定,還需要通過嚴格的統計檢驗。
在方差分析中,正態性的常用判斷方法有殘差的直方圖和正態概率圖,但是直方圖容易受樣本量的影響,在小樣本時候不穩健。通??梢詷嬙鞖埐畹恼龖B概率圖,如果潛在的誤差分布是正態的,則圖像呈直線狀。
獨立性的判斷可以依照收集數據的時間順序畫出殘差圖,如果數據沒有明顯的趨勢性,可以認為數據滿足獨立性假定。等方差的判斷可以采用殘差和擬合值的關系圖,如果圖形沒有明顯的模式,認為數據滿足等方差假定。除此之外,還可以采用Barlett檢驗。
一臺機器用來把軟飲料糖漿灌注在5加侖的金屬容器內,現在需要判斷由起泡沫引起的糖漿損失量的影響因素,初步認為有三個因子會影響試驗結果:噴嘴設計A、灌注速度B和操作壓強C,選取3種噴嘴、3種灌注速度和3種操作壓強,在每個組合下重復進行兩次試驗,試驗結果見下頁表3所示。
按照上面的三因素方差分析模型對上述數據進行三元方差分析,得到下頁表4所示。
由表4最后兩列F值和臨界值的大小比較可以得到,在0.05的顯著性水平下,灌注速度B,操作壓強C,AB,AC和BC的F值大于臨界值,可以拒絕對應的原假設,也就是說灌注速度B、操作壓強C,AB,AC和BC對試驗結果的影響時顯著的。
由下頁圖1,殘差基本在一條直線附近,可以判斷出數據服從正態分布。由下頁圖2,殘差的試驗順序沒有表現出明顯的趨勢性,可以認為數據滿足獨立性假定。
對模型進行等方差假定,Bartlett檢驗(正態分布),檢驗統計量=11.68,p值=0.166,不拒絕原假設,可以認為數據滿足等方差假定。
進一步的分析表3和根據主效應和交互效應可以得到中等速度,噴嘴類型2或者類型3,低壓強為10或高壓強20對減少糖漿損失是最有效。

表3 糖漿損失數據 (單位:立方厘米)

表4 糖漿損失數據三因素方差分析表

圖1殘差的正態概率圖

圖2殘差的試驗順序圖
本文在雙因素方差分析的基礎上,拓展到了三因素方差分析,給出了三因素方差模型的模型假定,推導出了方差平方和的分解,確定了檢驗統計量和檢驗規則,最后用一個實例說明了模型的使用。按照三元方差分析的思路,可以進一步的拓展到多元方差分析,限于本文篇幅,不再贅述。
本文在證明過程中,主要考慮了均衡情形下(每個組合下實驗次數相等)的三因素方差分析,對于非均衡情形下的三因素方差分析,推導證明和均衡情形下類似,只需要在約束條件中需要根據樣本量進行相應改變即可。
本文在推導過程中,沒有進一步的研究在多元方差分析中如何進行多重比較,這是后續可以進一步研究的方向。