江忠偉,郭新穎
(1.中國人民銀行南通市中心支行,江蘇 南通 226007;2.中國聯合網絡通信有限公司南通市分公司,江蘇 南通 223000)
多元方差分析檢驗過程中,最關鍵的一步是構造合適的檢驗統計量,然后結合顯著性水平,就可以構建檢驗法則。常用檢驗統計量有:(1)威爾克斯檢驗統計量。需先計算出組內離差陣和組間離差陣,然后相加,再對相關矩陣進行行列式計算,最后做比值計算[1-3];(2)霍特林跡檢驗統計量(Hotelling's trace)。先計算出組間離差陣與組內離差陣,然后計算出相對廣義特征值,最后將所有廣義特征值求和[4,5];(3)費萊巴特萊特準則檢驗統計量(Pillai-Bartlett criterion)。該檢驗統計量的構造過程為:與霍特林跡檢驗統計量的構造過程類似,需要計算出組間離差陣與組內離差陣,然后計算廣義特征值,再以廣義特征值為分子,1加上該廣義特征值作為分母,對所有的特征值都做這樣的變換[6-8];(4)羅伊最大特征值檢驗統計量(Roy's Largest Root)。先計算出組間離差陣與組內離差陣,然后計算廣義特征值,挑選最大廣義特征值,以最大廣義特征值為分子,以最大廣義特征值加一為分母[9,10]。
如何評價這些檢驗統計量的檢驗效果?首先需要明確一個衡量標準。比如:有些研究者將將拒絕原假設的能力設為衡量標準,拒絕原假設的能力越強,則認為檢驗效果越好。利用控制變量法對上述4個檢驗統計量的檢驗效果比較發現:羅伊最大特征值檢驗統計量檢驗效果最好[11]。還有些研究者將檢驗統計量的穩健性作為衡量標準,穩健性越高則檢驗效率越高。通過試驗比較發現:通常,費萊巴特萊特準則檢驗統計量檢驗效果最好。
經過適當的數學變形,可以證明這些檢驗統計量都服從分布。那么,是否可以直接對原始數據做變換,然后基于變換后的數據直接構造檢驗統計量進行分析。顯然,如果該方法可行,從便于理解的角度來看,該檢驗方法優于上述檢驗方法。
選取一個行向量與原始數據進行線性組合,這樣就將多維數據降為一維數據,證明變換后的數據仍然服從正態分布,嘗試先對數據進行變換,再構建檢驗統計量進行分析。兩因素多元方差分析模型可以設為:A和B是影響實驗結果的兩個因素,因素A有k個水平,因素B有r個水平。即:


αi表示因素A的第i水平的影響,βj表示因素B的第j水平的影響。這時判斷因素對實驗指標有無顯著影響,就相當于檢驗:

設有p維非零行向量將其與yij相乘,則有:
檢驗問題就轉換為檢驗:

這樣就將兩因素多元方差分析問題轉化為兩因素一元方差分析。對A因素而言,如果能夠找到l′1使得因素A各個水平之間的差異最小化,然后將原始樣本數據向該法線方向投影,再由投影后的數據計算出F檢驗統計量的具體取值,若該值落入拒絕域中,則利用任一法線向量進行投影,帶入具體數據,計算出對應的檢驗統計量的值,都會落入拒絕域中,故恒拒絕原假設;反之,不拒絕原假設。類似的,對因素B而言,如果能夠找到l′2使得因素B各個水平之間的差異最小化,然后對數據進行投影,再由投影后的數據計算出F檢驗統計量的具體取值,若該值落入拒絕域中,則利用任一法線向量進行投影,帶入具體數據,計算出對應的檢驗統計量的值,都會落入拒絕域中,故恒拒絕原假設;反之,不拒絕原假設(見圖1)。

圖1 檢驗流程圖

由上文的分析知:原假設H01成立時,F1=與一般的服從F分布的統計量不同,F1中含有一個未知行向量l′。若F1min落入拒絕域中,則有充分理由拒絕原假設。具體過程如下:

由矩陣的譜分解知:


故:

顯著性水平為α且服從分布的臨近值為(下分為數)。故檢驗法則為:當時,拒絕原假設,因素A對數據有顯著影響;若不拒絕原假設,繼續保持對原假設的懷疑。
原假設H02成立時類似的,可以求解出B相對于E的廣義特征值及廣義特征值對應的特征向量可以將改F2寫成:

顯著性水平為α且服從分布的臨近值為(下分為數)。故檢驗法則為:當時,拒絕原假設,因素B對數據有顯著影響;若則不拒絕原假設。
可以利用R產生隨機數組進行模擬研究來驗證上述檢驗法則。為了簡化模擬過程,以單因素多元方差分析為例。模擬研究分兩步進行:
第一步:隨機生成9組樣本量為20的5維協差陣相同均值向量不相同的數組,驗證利用上述檢驗法則檢驗的結果是否為拒絕原假設。第一組數據見表1。

表1 協差陣相同均值向量不相同的第一個數組的5維向量樣品
利用計算機軟件可以算出水平間離差陣相對于隨機誤差陣的最小廣義特征值的具體數值為:

故:

對應的p值為:

p值非常小,有充分理由拒絕原假設。
第二步:隨機生成9組樣本量為20協差陣相同均值向量相同的5維數據,驗證利用上述檢驗法則檢驗的結果是否為不拒絕原假設。第一組數據見下頁表2。
利用計算機軟件可以算出水平間離差陣相對于隨機誤差陣的最小廣義特征值的具體數值為:

故:

對應的p值為:

p值很大,不拒絕原假設。

表2 協差陣相同均值向量相同的第一個數組的5維向量樣品
由模擬結果可知,利用上述檢驗法則進行多元方差分析可以得到與事實相符合的結果。當各個水平對應的均值向量不同,利用該檢驗法則進行檢驗,檢驗結果為拒絕原假設;若各個水平對應的均值向量不存在差異,該檢驗法則的檢驗結果為繼續保持對原假設的懷疑。
在上述檢驗過程中,若向使得水平間差異最小化方向投影后的數據計算檢驗統計量的具體取值落到接受域中時,有可能存在某一法線使得投影后的數據計算出的檢驗統計量的取值落入拒絕域中,這時需繼續保持對原假設的懷疑,即沒有得到明確的判斷結果。如何有效克服這個問題,將是下一步的研究方向。Large[J].Hiroshima Mathematical Journal,2014,44(3).