□陳 悅 魏巍巍
方差分析在實際應用中出現于20 世紀20年代,由英國統計學家R.A.Fisher 提出并予以應用。方差分析主要是應用于自變量對因變量的影響。在檢驗多個總體的均值是否相等時,借助方差分析,對數據的誤差來源進行檢查,從而判斷一個或多個因素對總體均值的影響。由此,方差分析根據因素的多少分為單因素方差分析和多因素方差分析。傳統方差分析的應用受諸多因素的限制,尤其是其計算量對普及應用方差分析的影響。但隨著現代計算機技術的不斷發展,方差分析更多地被應用于生活領域,如經濟、生物醫藥、社會學等多個方面。為此,本文借助實例分析的方法,探索單因素方差分析在實際應用中存在的優點和缺點。
方差分析在實際應用中是在一定情況下的統計假設試驗。方差分析的對象是試驗所得數據,目的是對客觀規律的發現和揭示。單因素方差分析涉及到因素、水平以及單因素試驗三個層次,所謂因素是指對研究對象具有影響的某一指標、變量;所謂的水平是指影響因素在不同狀態和變化下的劃分等級或組別;所謂單因素試驗是指每次試驗只考慮一個因素的試驗。以下將舉例說明單因素方差分析的工作原理,以便于更好地理解和認識單因素方差分析。
例如以不同種類的抗生素同血漿蛋白質結合狀況,分析抗生素與血漿蛋白質結合的百分比,為使用藥量和測定藥效提供參考。如表1,實驗數據所示,五種不同的抗生素在注入羊的體內后,測定的抗生素與血漿蛋白質結合的百分比。假設各總體服從正態分布,并且各總體方差相同,其中α=0.05代表顯著性水平,百分比檢查均值并無顯著性差異。本次試驗先根據實際情況提出原假設H0 與備擇假設H1,然后尋找適當的檢驗統計量進行假設檢驗。以抗生素為單一因素,以血漿蛋白質與抗生素的結合百分比為實驗指標,以5種不同抗生素代表單一因素的5 種不同水平。其余一切在本實驗中都被視為條件相同。以此檢查血漿蛋白質與抗生素結合百分比均值差異性,探索單一因素抗生素對二者結合百分比的顯著性影響。

表1 五種不同抗生素與血漿蛋白質結合的百分比(%)
(一)檢驗假設。假設,因素A(即抗生素)有s(=5)個水平A1,A2…A5,在每一個水平Aj(j =1,2,…,s)下進行了= 4次獨立試驗,得到如表1 所示的結果。所有實驗結果都是一個隨機變量。表1 中的數據可以視作來自s 個不同總體的樣本值,其中每個水平對應一個總體,形成一一對應的關系。將各個總體的均值依次記為μμμ,則依據題意進行檢驗假設。
Η0:μ1=μ2…μs。
Η0:μ1,μ2,…μs不全相等。
為了便于討論單一因素方差分析過程,現在引入總平均μ,得出下列公式:

在引入總平均μ 的基礎上,再引入水平的效應,得出下列公式:

依據假設則有n1δ1+n2δ2+…n8δ8=0,表示水平下的總體平均值與總平均的差異。
在以上檢驗假設的基礎上,本案例的假設:
H0:δ1=δ2…=δ8=0。
H1:δ1,δ2,…,δ8不全為零。
因此,單因素方差分析的目標就是檢驗s 個總體的均值是否相等,也即是檢驗各水平的效應是否都等于零。
(二)檢驗所需的統計量。如果所有體均服從正態分布,而且所有方差相等,也即是假定各個水平Ajj…s 下的樣本xjxjxnjj 來自正態總體N(,),和未知,且設不同水平下的樣本之間相互獨立,由此可以通過從總平方和的分解中得到單因素方差分析所需的檢驗統計量。接下來先引入樣本各種水平下的樣本平均值、數據總平均值以及總平方和公式:
水平下的樣本平均值:

數據的總平均:

總平方和:

總變差ST 和總平方能夠反映全部試驗數據之間的差異,因此將總變差ST 分解,其中:

綜上所述各項(xij-x·j)2代表在水平下,由隨機誤差所引起的樣本觀察值與樣本均值的差異,因此,稱為誤差平方和。由水平以及隨機誤差所引起的樣本平均值與數據總平均的差異,因此,稱為因素A 的效應平方和。由上述可以證明與相互獨立,且當H0=δ1=δ2=…=δs=0 為真時,與分別服從自由度為s -1,n- s 的分布,即

由此,當H0:δ1=δ2=…δs=0 為真時F(s -1,n -s)則為單因素方差分析所需的服從F 分布的檢驗統計量。
對于上述實例,假定給定顯著性水平α=0.05,我們可以求出5 個因素的樣本均值分別為=26.8,=28.3,=22.5,=31.1,=24.8。由此可見因素的四個總體均值的確存在差異。
借助Excel 中單因素方差分析工具,對上述實例進行分析,可以得到表2 的分析結果。

表2 方差分析——單因素方差分析
通過分析我們發現,F =12.0172 >=1.6082,由此可見,在顯著性水平α=0.05 時,可以相信5 種不同抗生素與血漿蛋白質結合百分比存在顯著性差異。
方差分析能夠較好地應用于統計推斷之中,也即是根據部分資料,對全部研究對象進行科學的統計推斷,以得到有價值的結論。目前,隨著計算機技術的不斷發展,借助計算機技術解決了方差分析計算量大的問題,從而提高了方差分析在生活各領域的應用,如生物領域、醫藥領域、經濟領域等等。尤其是單因素方差分析,在分析單因素對多組群實驗數據進行方差分析過程中,呈現出諸多優勢,而被社會各領域廣泛應用。
單因素方差分析方法作為方差分析方法的一種,隨著計算機技術的不斷發展,在對比分析觀測變量總的誤差平方和各部分所占比例方面具有顯著的優勢,對于研究自然變量與因變量之間的關系,具有重要的意義。因變量的變動與自變量之間具有密切的聯系,借助單因素方差分析,若在總的誤差平方和中,組間誤差平方和所占比例過大,則說明自變量引起因變量的改變??梢詮淖宰兞康慕嵌冉沂疽蜃兞康淖儎釉颉7粗?,則不能夠從自變量的角度解析因變量的變動,也即是自變量的不同水平對于因變量的影響不顯著。其變動由隨機變量因素決定。
單因素方差分析法的一個突出優勢是判定自變量是否為影響因變量變化的顯著性影響因素。如果通過單因素方差分析確定自變量誘發因變量的變動,對因變量具有顯著性影響,則可以說明實驗中各總體均值間存在顯著性差異。但這種顯著性差異并不代表每兩個總體均值間均存在顯著性差異。換言之,單因素方差分析能夠確定各總體間均值差異是否顯著,對于哪兩個總體間均值差異是否顯著,并未有效證實。為此,在探析多個總體間均值差異中的每兩個總體間均值是否顯著差異,仍然需要進行總體間的兩兩均值比較。這也就是多重比較,即在多個總體均值之間進行兩兩總體均值的顯著差異化比較。
[1]李玉毛.單因素方差分析在經濟數據分析中的應用[J].赤峰學院學報(自然科學版),2012,28(2):18~19
[2]印德中.EXCEL 在方差分析中的應用[J].中國現代教育裝備,2011,17:23~25
[3]林偉初.概率論與數理統計[M].上海:同濟大學出版社,2009:153~159