曹玉茹
(上海對外經貿大學 統計與信息學院,上海 201620)
在計量經濟學的分析中,利用回歸模型來尋找經濟變量間的關系是廣泛應用的一種數量分析方法。通常情況下,回歸分析中變量都是定量數據,原因是模擬回歸需要樣本數據。然而在實際的操作中,模型中只考慮定量變量是不全面的。因為很多經濟現象不僅受一些定量數據的影響,還會受到一些定性數據的影響。比如自然災害、戰爭等特殊時期對經濟的影響,特殊政策的頒布對經濟產生的影響等。如果能確定某一研究結果存在這種定性影響,那么僅僅用定量數據對被解釋變量進行解釋顯然是不夠嚴謹的,很可能對模型的預測結果產生很大偏差。但由于定性數據是不等距的,不符合回歸分析中對自變量要求,如果直接把定性數據直接引入線性回歸模型,結果很難解釋,且容易存在很大偏差,此時可以考慮將虛擬變量引入回歸模型來解決此類問題。而關于虛擬變量回歸在軟件中的實現卻不是非常方便,尤其對于各種加法和乘法規則的實現,相應的研究也不多,本文利用虛擬回歸模型與方差分析及協方差之間的關系,提出了一種基于SPSS軟件的虛擬變量回歸模型軟件實現的新方法,通過實際案例得到了較好的驗證。
虛擬變量本質上算不上一種變量類型(如連續性變量分類型變量),虛擬變量技術就是把多分類型變量轉換成二分類型變量,即虛擬化,再把其作為解釋變量納入到回歸模型中的一種方法。如果多分類變量有k個類別,則可以轉化為k-1個二分變量。每個二分變量用0,1賦值,1表示受到某種因素影響,0表示沒有受某種因素影響。一般將基礎類、肯定類設置為1;比較類、否定類設置為0的原則。虛擬化后的變量將可以直接納入回歸模型進行分析和預測。
在實際數據分析中,如果不去考慮具體的模型結構和預測問題,關于影響因素的顯著性問題可以使用協方差分析來解釋,其中把定性因素作為固定因素,定量因素作為協因素考慮,其結論主要解釋定量變量的影響效果。但如果進一步想了解定性因素對結果影響程度的大小,一種解決方法是分組進行兩類情況的回歸,檢驗參數是否顯著不同,這種方法一方面計算比較繁瑣,最重要的是它割裂了變量之間具有交互影響的情況,所以不全面;還有一種方法就是用全部變量作單一回歸,其中包含定量數據也包含定類數據,從應用的角度出發,如何將這種轉換的理論利用統計軟件實現驗證,這正是本文討論的問題。
鑒于虛擬變量回歸和方差分析的密切關系[1],本文將方差與協方差分析的結果應用到虛擬變量回歸中,反推出虛擬變量回歸模型的具體形式,并提取出更多的信息。設因素有k個總體或水平,檢驗k個總體的均值是否相等,提出如下假設:

假設有三個總體A B C,虛擬變量設置如下:

虛擬變量模型為:

對模型(2)求期望:
當X1t=X2t=0時,E(y)=β0即總體C的均值E(C)。
當 X2t=0時,E(y)=β0+β1即總體 A 的均值 E(C)'β1為總體A與C的均值差。
當 X1t=0時,E(y)=β0+β2即總體B的均值 E(C)'β2為總體B與C的均值差。
則單因素方差分析的假設(1)等價于:

H1:β1'β2至少有一個不等于0,即虛擬變量模型中的總體顯著性F檢驗。
關于單因素方差分析中的多重比較指的是通過對總體均值之間的配對比較來進一步檢驗到底哪些均值之間存在差異,常用最小二乘法(LSD)來解釋。
從上面的分析可以看出:虛擬自變量回歸分析中的線性關系是否顯著問題與單因素方差分析中的因素的顯著性描述是完全一致的,也就是說單因素方差分析問題可以用回歸分析方法解決,反之自變量都是0-1型虛擬變量的回歸分析問題也可以用方差分析的思路來解決問題。
在文獻[2]中作者已經證明了行列因素分別為雙水平的雙因素無重復試驗方差分析問題在判斷行列因素是否有影響的F檢驗中等價于回歸分析問題中的系數顯著性的t檢驗。
一種情況是:回歸模型中只包含虛擬變量作為解釋變量。比如要分析A校的本科畢業生與B校的本科畢業生在收入上是否存在顯著差異,則可以設模型為:

其中Y1為收入變量,Dt為畢業學校的虛擬變量,當數據來源是A校畢業生時Dt為1,反之為0,當選擇工作年數相同的樣本分析,在滿足各種檢驗的條件下參數B2的估計值就是兩種畢業生收入的平均差異。如果解釋變量是多分類的(假設有N類),以某一個特征為參考可以設置N-1個虛擬變量。在SPSS數據分析模塊中,此模型實質等同于單因素方差分析模型或者均值比較模型,即可以使用方差分析給出是否存在差異性的解決方案,但如果要對兩校畢業生的收入作預測則最好使用回歸分析模型。
如果模型中想要同時分析多個定性變量的影響,比如在上述分析中加入性別因素的影響,此時可以用兩個虛擬變量。對于每個虛擬變量的取值仍然是0或1,如果是男生虛擬變量D2t取值為1,否則為0。模型為:

此模型說明相同性別中A校比B校畢業生的收入高B2,相同學校,性別男的收入比性別女的收入高B3。
但上面的模型隱含了一個假設條件就是:兩校畢業生之間性別的級差效應保持不變,在兩種性別之間學校的級差效應保持不變。這種假設顯然是有問題的,A校的男性和女性在收入方面的差距和B校的男女生收入差距可能不一樣,這就存在所謂的交互效應,簡單來講,就是說不同學校和性別這兩個因素對于收入的影響不是獨立的,而是互相影響,也即有交互效應。所以模型應該修改為:

至于模型的選擇取決于模型檢驗的結果,如擬合優度,標準誤差大小,自變量的顯著性以及考慮自變量之間的共線性問題是否影響模型精度。
假如定量變量X和定量變量Y存在顯著的相關關系,同時發現還有一個定性因素對Y的變動產生影響,此時可以建立一個如下的回歸模型:
此模型采用加法方式引入虛擬變量,主要描述截距的變換,模型表明:在不考慮定性因素影響的情況下,常數項即模型的截距為B1,在考慮定性因素的情況下,模型的截距為B1+B2。但此模型僅考慮了定性變量的單獨影響,而實際中由于定性變量不同相應的定量變量對應變量的影響有所不同,即可能存在交互影響,因此模型可修改為:

下面通過實例驗證說明虛擬自變量回歸在統計軟件SPSS中實現的新方法:
利用spss自帶的數據文件Employee.sav研究企業的當前工資水平與哪些因素相關,及其具體的的影響程度問題為例,分析基于虛擬變量的回歸模型的spss實現方法研究?;谔摂M變量回歸模型的spss代碼實現:
RECODE jobcat(1=1)(ELSE=0)INTO cat1.
RECODE jobcat(3=1)(ELSE=0)INTO cat2.
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(0.05)POUT(0.10)
/NOORIGIN
/DEPENDENT salary
/METHOD=STEPWISE educ jobcat salbegin jobtime prevexp minority cat1 cat2
/SAVE ZRESID.
EXECUTE.
注:cat1和cat2是jobcat變量的兩個虛擬自變量,其中cat1表示是否為Clerical(辦事員),cat2為是否為Maneger(經理)。模型指標結果如表1。

表1 模型綜述表g
模型擬合優度0.839,估計誤差6850.294,DW參數為1.832。
基于協方差分析的SPSS實現及其結果(表2):

表2 模型綜述表
UNIANOVA salary BY jobcat minority WITH edu csalbegin jobtime prevexp
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/CRITERIA=ALPHA(0.05)
/DESIGN=educ salbegin jobtime prevexp jobcat minority jobcat*minority.
EXECUTE.
在前面的無交互虛擬變量模型中minority對因變量不存在顯著影響,但是這里顯然可以看出jobcat與minority之間存在對結果影響的交互作用,這點啟發我們對于原來的虛擬變量回歸模型做進一步修改,添加交互效應到模型中。
進一步通過虛擬自變量完成協方差分析及相應結果(表3):

表3 自定義模型綜述表(含交互)
UNIANOVA salary BY minority cat1 cat2 WITH educsalbegin jobtime prevexp
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/CRITERIA=ALPHA(0.05)
/DESIGN=educ salbegin jobtime prevexp minority cat1 cat2 minority*cat1 minority*cat2 cat1*cat2 minority*cat1*cat2.
EXECUTE.
即cat2與minority之間存在對結果影響的交互作用,這點啟發我們對于原來的虛擬變量回歸模型做進一步修改,添加交互效應到模型中。根據上述分析可以考慮利用虛擬變量模型公式(5)進行分析,具體操作如下,首先得到交互項cat2m。
COMPUTE cat2m=cat2*minority
然后利用非參數檢驗證明虛擬變量的乘積cat2m是對因變量顯著影響的,方法結果(表4和表5):
NPAR TESTS
/M-W=salary BY cat2m(0 1)
/K-S=salary BY cat2m(0 1)
/MISSING ANALYSIS.
EXECUTE.

表4 非參數檢驗結果a

表5 非參數檢驗結果a
再利用公式(5)及回歸分析模型得到如下結果(下頁表6):
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05)POUT(.10)
/NOORIGIN
/DEPENDENT salary
/METHOD=STEPWISE educ salbegin jobtime prevexp minority cat1 cat2 cat2m
/RESIDUALS DURBIN
/SAVE ZRESID.
EXECUTE.
同時得到具體的虛擬變量回歸模型為:
Y=0.646*salbegin-0.145*prevexp+0.096*jobtime-0.237*cat1+0.113*educ+0.053*cat2m
結果得到模型擬合優度0.841,估計誤差6808.709,DW參數為1.830,模型參數得到改善。且通過模型得知辦事員的當前工資水平較其他類別員工要低一些,這也符合實際情況。

表6 模型綜述表i
進一步利用繪圖程序如下完成標準化殘差震動情況對比。其中,虛線表示無交互虛擬變量回歸模型標準化殘差的震動情況,實線表示新方法得到的虛擬變量回歸模型的標準化殘差震動情況,得到明顯改善。見圖1。
*Sequence Charts.
TSPLOT VARIABLES=ZRE_1 ZRE_2
/NOLOG.

圖1 兩種模型序列圖對比
因此,從表7中可以看出無論是模型的擬合優度、估計誤差還是從模型殘差的震動情況來看,經過改良后的虛擬變量交互回歸模型的效果更好,更適宜于預測估計。相比較協方差分析的參數情況,雖然擬合度更高,殘差標準差也更小,但在SPSS中方差分析只給出因素重要性指標,不能直接給出模型的具體公式,對于利用模型進一步預測來說很不方便,因此實用性并不如虛擬變量回歸模型好。

表7 三種模型估計指標匯總對比
綜上所述,在虛擬變量回歸模型分析中,可以結合方差協方差分析結果,對虛擬回歸模型的實現方法進行改進,從而得到更優化的模型參數和估計效果。
考慮到經濟現象的復雜性,定性因素的影響非常多,其影響的程度也有所不同,因此要判斷模型中何時要加入虛擬變量,采用何種方式加入,首先必須根據實際的經濟背景并運用正確的經濟理論進行分析,其次在引入虛擬變量的前后模型的模擬結果進行比較,如果回歸的擬合優度或估計標準誤差等效果更好,則可考慮增加虛擬變量;最后如果能結合方差、協方差分析模型并利用SPSS軟件來分析考慮交互因素的作用,將會得到更好的回歸結果。本文通過具體的示例展示了這種研究方法的優點。
[1]甘倫知.虛擬變量回歸和方差分析的聯系[J].統計與決策,2011,(8).
[2]陳凌宇,王桂明.虛擬變量在方差分析中的應用[J].統計與決策,2009,(11).
[3]章曉英.虛擬變量在線性回歸模型中的應用[J].重慶工業管理學院學報,1998,(4).
[4]劉振亞.計量經濟學教程[M].北京:中國人民大學出版社,1997.
[5]龐皓.計量經濟學[M].成都:西南財經大學出版社,2004.
[6]賈俊平.統計學[M].北京:中國人民大學出版社,2007.