高文武,張 俠,2*
(1.安徽大學經(jīng)濟學院,安徽合肥230411;2.阜陽師范學院信息工程學院,安徽阜陽236037)
在統(tǒng)計學中,經(jīng)常會遇到相關(guān)關(guān)系、因果關(guān)系和函數(shù)關(guān)系[1],當兩個對象有相關(guān)關(guān)系時,需進一步判斷造成這種相關(guān)關(guān)系的原因,并探索它們之間是否存在因果關(guān)系;在研究函數(shù)關(guān)系時,關(guān)鍵也是判斷兩個變量之間是否具有因果關(guān)系,判斷方法主要包括參數(shù)統(tǒng)計法(如t-檢驗、方差分析等)和非參數(shù)統(tǒng)計法(如Kruskal-Wallis分析、Friedman分析等)[2]。在實際問題中因變量往往有多個水平,若利用t-檢驗則需要做多次檢驗,導(dǎo)致整個過程非常復(fù)雜,還會增加出現(xiàn)錯誤的概率。而方差分析法正是解決這一問題的有效方法。
方差分析又稱“變異數(shù)分析”,是英國著名的統(tǒng)計與遺傳學家菲希爾提出的一種用于判斷變量之間是否存在因果關(guān)系的統(tǒng)計方法[3]。它可以有效處理多個水平的因變量問題。從涉及的影響因素個數(shù)將方差分析分為單因素方差分析和多因素方差分析[4],文章主要討論單因素情形。
假設(shè)自變量為X,因變量為Y。方差分析的主要目標是檢驗X在不同水平(Xi,i=1,2,…,M)上的變動是否對Y有顯著影響。其準則為Y的變動主要是由X的變動而造成的,這就需要計算Y的總變動。而真實的Y是未知的,只能利用采樣手段獲得觀測數(shù)據(jù),通過樣本來計算Y的變動。樣本有以下假設(shè):Y服從正態(tài)分布,樣本之間相互獨立且同分布,若假設(shè)不成立,則選擇非參數(shù)檢驗[5]。方差分析整個過程主要由4個部分構(gòu)成[6]。
首先,計算Y的總變動SST。總變動是目標變量Y的觀測值與平均值之間的波動,它包含由于X在不同水平上的變動所導(dǎo)致的波動、隨機噪聲導(dǎo)致的波動。令Yˉ為所有觀測值的平均值,即Yˉ=根據(jù)方差的定義,總變動可表示為其次,計算組間均方和SSY。依據(jù)定義,計算Y在對應(yīng)于水平Xi的觀測值的平均值在此基礎(chǔ)上可得組間均方和SSY=再次,計算組內(nèi)均方和SSe。組內(nèi)均方和是由隨機噪聲導(dǎo)致的波動,其計算公式為SSe=顯然SST=SSY+SSe恒成立。最后,檢驗Y的總變動SST是否主要由組間均方和SSY構(gòu)成。這是方差分析的關(guān)鍵一步,它不僅展示了方差分析與假設(shè)檢驗之間的關(guān)系,同時也是假設(shè)檢驗的一個具體應(yīng)用。這里需要比較SSY與SSe的大小關(guān)系,而SSY與SSe都是總量指標,無法比較大小。因此,需要把他們標準化后,再比較組間均方和MSY、組內(nèi)均方和MSe之間的大小,其中MSY=SSY/dfY,MSe=SSe/dfe,這里,dfY=M-1,dfe=∑Ni-M,分別稱為組間平方和的自由度和組內(nèi)平方和的自由度。依據(jù)方差分析的基本思想,構(gòu)建統(tǒng)計量,即F=MSY/MSe。
進一步,組間平方和、組內(nèi)平方和各自除以總體方差分別服從卡方分布,兩個卡方分布分別除以各自自由度再相比構(gòu)建F-統(tǒng)計量,可知統(tǒng)計量F服從自由度為(dfY,dfe)的F-分布,從而利用假設(shè)檢驗判斷X對Y是否有顯著性影響。
為進一步加深對方差分析的認識和應(yīng)用,明晰其中的分析過程,下面通過兩個案例展示方差分析的具體應(yīng)用。
案例1 根據(jù)某高校經(jīng)濟學、財務(wù)管理、金融工程、國際商務(wù)和中韓財管等5個專業(yè)的學生統(tǒng)計學考試分數(shù),探討專業(yè)對于統(tǒng)計學成績有無顯著影響。
用相應(yīng)公式計算出其各專業(yè)統(tǒng)計學分數(shù)均值和方差,如表1所示[7]。根據(jù)以上方差分析的基本步驟,分析過程如下。

表1 5個專業(yè)統(tǒng)計學分數(shù)的描述統(tǒng)計
依據(jù)假設(shè)檢驗,原假設(shè)H0:專業(yè)對于統(tǒng)計學成績沒有顯著影響;備擇假設(shè)H1:專業(yè)對于統(tǒng)計學成績有顯著影響。由統(tǒng)計量F=6.34,又F0.05(4,15)=2.45,F(xiàn)>F0.05(4,15),故拒絕原假設(shè)H0,表明專業(yè)對于統(tǒng)計學成績有顯著性影響,這和實際是相符的,究其原因可能與統(tǒng)計學的學習需要扎實的數(shù)學基礎(chǔ)有關(guān)。
方差分析不僅可以用于處理分類型變量,而且還可以處理數(shù)值型變量的問題,是一種有效的檢驗變量之間是否存在因果關(guān)系的統(tǒng)計方法。下面通過一個例子展示方差分析法在回歸分析的應(yīng)用。
案例2 K.pearson收集了大量有關(guān)父親身高和兒子身高的數(shù)據(jù)(表2),試求兒子身高y關(guān)于父親身高x的回歸方程[8-9]。

表2 父親身高和兒子身高列表(單位:cm)
解在求解回歸方程之前,首先需要檢驗父親的身高是否對兒子身高有顯著影響,這正是方差分析要解決的問題。然而,不同于上一個例子,這個例子的自變量是數(shù)值型變量。按照方差分析步驟,首先計算總變動:其次,計算組間平方和、組內(nèi)平方和分別為SSY=進而可得組間均方和、組內(nèi)均方和分別為MSY=SSY/dfY=1152766.92/9=128085.21,MSe=SSe/dfe=11331.40/20=566.57。最后,構(gòu)造F-檢驗統(tǒng)計量F=MSY/MSe=128085.21/566.57=226.07。在置信水平α=0.05下,查表可得F0.05(9,20)=2.39。顯然F>F0.05(9,20),表明父親身高與兒子身高存在因果關(guān)系。
方差分析僅僅表明父親的身高對兒子的身高有較強的因果關(guān)系,但不能給出具體的數(shù)量關(guān)系式。為了進一步量化這種因果關(guān)系,需要利用回歸分析計算相應(yīng)的函數(shù)關(guān)系。由于在每個觀測點處有多個觀測值,因此選取這些觀測值的平均值yi作為對應(yīng)觀測點處的回歸值,通過取平均值的手段還可以在一定程度上過濾數(shù)據(jù)中的噪聲。
假設(shè)這種函數(shù)關(guān)系是線性函數(shù),即f(x)=ax+b,a,b∈R。由普通最小二乘估計式則有:

這里,xi,yi為樣本觀測值,xˉ為樣本觀測值的均值,yˉ為所有樣本觀測值的均值。最后,可得回歸方程為f(x)=35.98x+1.17。
文章探討了如何在教學過程中采用啟發(fā)式教學方法向?qū)W生講授方差分析,從而使學生理解、掌握和應(yīng)用方差分析。通過本次教學探討,學生明確了方差分析的概念、基本思想和計算步驟,為以后熟練應(yīng)用方差分析打下了堅實的基礎(chǔ)。文章最后通過案例2講解方差分析在回歸分析中的應(yīng)用,這將更有助于學生理解方差分析與回歸分析的關(guān)系,為以后學習回歸分析作了鋪墊。