胡乃寶 徐天和 王 玖
抽樣調查的目的是用樣本信息推斷總體特征,樣本要具有代表性,即是隨機樣本。但在實踐中,常常有部分觀測單位因為多種原因出現空缺,即無應答(nonresponse),這時抽樣調查得到的就是失隨機性樣本。抽樣調查失隨機性可以分為個體無應答和項目無應答,后者是指被調查者雖然接受了調查,但是僅僅回答了問卷的一部分,不能得到某些項目的信息。項目無應答表現在數據層面就是變量缺失〔1〕。如果回歸分析中的反應變量部分缺失,即反應變量的取值范圍受到限制,稱為“受限反應變量”(limited dependent variable)。受限反應變量主要包括斷尾數據(truncated data)、刪失數據(censored data)以及偶然斷尾數據(Incidental truncation data)等幾種情況。如果數據只有在某個區間才能被觀察到,稱為斷尾數據。例如反應變量為某市所有醫院的年效益,而統計部門只收集一定規模以上的醫院的數據,這樣年效益低于標準的醫院的數據就不能被觀測到,此時反應變量存在“左端斷尾”(left truncation),同樣存在“右端斷尾”(right truncation)、“區間斷尾”(interval truncation)。對于刪失數據而言,雖然收集到全部數據,但某些觀察值卻被壓縮到一個點上。例如,流行病學隨訪研究中,在規定的觀察期內,某些觀察對象由于某種原因未能觀察到終點事件發生,得不到確切的生存時間,即生存時間的刪失數據;刪失包括“右刪失”(right censoring)、“左刪失”(left censoring)和“區間刪失”(interval censoring)。偶然斷尾又稱為樣本選擇,假設反應變量的斷尾受其他變量的影響,如在糖尿病生存質量的研究中,全部患病人群中會有一定比例的病人由于種種原因(如疾病嚴重程度)不會進入研究范圍。
此類基于反應變量缺失獲得的樣本就用到了受限反應變量模型(limited dependent variable model)。三種受限反應變量對應著三種模型:斷尾回歸模型(truncated regression model)、刪失回歸模型(censored regression model)和樣本選擇模型(sample selection model)〔2〕。本文只介紹樣本選擇模型在偶然斷尾數據中的應用。
樣本選擇模型原理及參數估計的stata實現
樣本選擇模型〔3〕的結構是:

其中,反應變量Yi是否能被觀察到取決與指示變量Di,di為與指示變量相關聯的潛變量,yi是與反應變量 Yi相聯系的潛變量。假設 εi~N(0,σ2),μi~N(0,1),其相關系數為corr(εi,μi)。由于μi~N(0,1),所以Di服從 Probit模型,即P(Di=1|Z)=Φ(γZi)。這樣可以寫出觀測樣本的條件期望:

其中,λ(-γZi')為“逆米爾斯比率”,λ(-γZi')=通過上述推導可以看出,如果用最小二乘法進行參數估計將會遺漏非線性項 ρσελ(-γZi'),除非誤差項相關系數為0,否則將會導致有偏估計。Heckman和 Gronau〔4〕率先給出了樣本選擇模型的似然參數估計,該方法對誤差項分布做出假設:εi和vi服從正態分布,且(εi,vi)相互獨立,然后通過構造對數似然函數來估計參數。Lee Lung Fei〔5〕于1982年提出了僅要求εi和vi的邊緣分布已知,利用逆標準正態分布函數將ε和v的邊緣分布轉換為標準正態分布,然后用似然估計的參數方法。A.R Gallant和D.W Nychka〔6〕于1987年提出了不需要誤差項分布信息的半參數似然估計。似然估計參數法要求誤差項服從雙變量正態分布或者需要誤差項的邊緣分布信息,而半參數方法需要較為高深的數學理論且計算較為復雜,所以推廣較為困難,在實際應用中不常見。最為常見的方法是Heckman提出的兩步估計:第一步:用Probit估計方程P(Di=1|Z)=Φ(γZi),得到估計值^γ,并計算^λ(-^γZi');第二步:做yi對Xi和^λ的普通最小二乘估計,得到^β、^ρ和^σ的估計值。
stata 9.0以上版本有專用模塊來實現樣本選擇模型的兩步估計和似然估計〔7〕。程序格式:
程序1:

程序解釋:其中,dvar代表反應變量的名稱,indvar代表自變量的名稱。選項select()為必選項,它用來確定選擇方程的反應變量及自變量。varlist_s的變量用于決定原方程的反應變量dvar是否被觀測到。選擇方程的varlist_s至少應包含一個與前面方程不同的自變量。
或者,程序2:

程序解釋:設定方程的反應變量dvar_s,要求dvar_s的值必須為0或者1。0表示原方程的反應變量沒有被選擇,1表示被選擇。如果采取程序1,不設定選擇方程的自變量,則系統默認原方程的反應變量dvar非缺失值時即表示被選擇,缺失值時沒有被選擇。
如果設定twostep選項,系統使用兩步法進行回歸參數的估計,缺失默認使用最大似然估計。
女性工資水平的影響因素可能與文化程度、年齡等因素有關,但是只有她們選擇工作時才能觀察到其工資水平。她們是否工作并不是隨機的,受其保留工資以及工資數量影響,保留工資受婚姻狀況和孩子數量的影響,工資數量受教育程度和年齡的影響。很顯然我們只能收集到參加工作的女性的工資水平,無法收集到沒有選擇工作的女性的工資水平,這樣就發生了樣本選擇偏倚,應該應用樣本選擇模型分析數據。選取1975年美國女性勞動供給數據〔6〕中的1800條記錄進行實例分析,資料包括一般人口學資料和工資水平。變量賦值為:Y=工資收入(單位:千美元/年)、edu=文化程度(上學年數,單位·年)、age=年齡(歲)、married=婚姻狀況(0=未婚,1=已婚)、children=孩子數量。資料中工資缺失952例,偶然斷尾率為52.89%。應用樣本選擇模型的極大似然進行參數估計,結果等式ε的標準誤為5.93,選擇性效應為3.97;對模型假設檢驗 wald χ2=471.21,P < 0.01,模型中的系數是聯合顯著的;殘差項相關系數 ρ為0.67,差異具有統計學意義(對ρ的似然比檢驗,χ2=48.01,P=0.00),資料的樣本選擇模型似然估計是合適的。具體似然估計結果等式和選擇等式的回歸系數以及其假設檢驗結果見表1。
樣本選擇模型兩步估計結果為:ε=5.89,λ=3.84,ρ=0.65,模型檢驗 wald χ2=516.89,P < 0.01。兩步估計的結果等式和選擇等式的回歸系數以及假設檢驗結果見表2。

表1 女性工資水平影響因素的樣本選擇模型極大似然估計結果

表2 女性工資水平影響因素的樣本選擇模型兩步估計結果

如果抽樣調查的數據缺失不是隨機的,而且誤差項又是相關的,那么最小二乘法所獲得回歸系數β是有偏差的〔8〕。本實例中誤差項的相關系數 ρ=0.67(χ2=48.01,P=0.01),工資水平的偶然斷尾率為52.89%,最小二乘法不是有效方法。樣本選擇模型分析結果,女性是否參加工作受婚姻狀況、孩子數量、文化程度等因素的影響,且只有潛變量的線性組合值大于0時工資水平才能被觀測到,否則為斷尾。通過結果等式可見,女性工資水平受文化程度和年齡的影響,在同齡人中上學年限每增加1年,工資水平平均要增加1.01千美元;在文化程度相同的人群中,年齡大者容易得到較高的工資水平。
模擬實驗證實斷尾程度的大小影響參數估計方法的選擇,在輕度斷尾的情況下由于樣本信息量的損失并不嚴重,最小二乘法仍然可以得到較為理想的估計量,此時就沒有必要應用樣本選擇模型。由于資料限制,本研究沒有對重度和輕度斷尾數據進行實例分析。
當數據量比較大時,極大似然估計非常耗時〔7〕。本例對比兩步估計結果與似然估計結果,無論是殘差相關系數,還是殘差的標準誤,或者模型假設檢驗的P值均非常接近,可見兩步法對參數估計的確提供了一種很好的替代。而且兩步估計還有似然估計不具備的優勢:首先,當反應變量存在測量誤差時,似然函數的最大似然估計量不一致,而兩步估計由于測量誤差會被引入結果等式的殘差中,所以不會對估計結果產生太大影響〔9〕;其次,似然估計的對數似然函數通常不是全局凹的,無法保證解的唯一;最后,似然函數估計對于參數估計初始值的選擇比較敏感。基于此,兩步估計已成為樣本選擇模型參數估計的“最受歡迎程序”。但是有部分學者對兩步估計中存在的共線性問題心存疑慮,提出了幾種方法:一是嶺回歸,大量的蒙特卡羅模擬實驗證明嶺回歸能在兩步估計第二步時獲得較為穩健的估計量;二是適當增加樣本含量以增加選擇等式中自變量的變異,盡可能的獲得非線性校正項來避免共線性問題〔10〕。
本文涉及到的反應變量只是二分類的,對于多分類的樣本選擇模型可構建多分類probit模型,但是如何反映選擇等式與結果等式的聯系是很困難的,需要把樣本選擇模型與離散選擇模型結合來進行分析。軟件實現方面,SPSS沒有專用模塊實現樣本選擇模型的參數估計,而且stata 10.0并沒有涉及兩步的半參數估計。這些都是以后研究的方向。
1.劉世煒,王春平,楊功煥.調查研究中項目無應答誤差的識別與處理.中國衛生統計,2008,25(2):183-186.
2.薛小平,史東平,王彤.受限因變量模型及其半參數估計.中國衛生統計,2007,24(2):211-213.
3.James JH.Shadow prices,market wages,and labor supply.Econometrica,1974,42(4):679-694.
4.Gronau,Ruben.Wage comparisons-A selectivity bias.The Journal of Political Economy,1974,82(6):1119-1144.
5.Lee LF.Generalized econometric models with selectivity.Econometrica,1983,51(2):507-12.
6.Gallant AR,Douglas WN.Semi-Nonparametric maximum likelihood estimation.Econometrica,1987,55(2):363-390.
7.周廣肅,梁榮,田金秀,等.Stata統計分析與應用.北京:機械工業出版社,2011:222-230.
8.張磊,王彤.樣本選擇模型及其估計方法.中國衛生統計,2010,27(6):662-665.
9.David CS,Douglas JY.Censored normal regression with measurement error on the dependent variable.Econometrica,1984,52:737-760.
10.Davidson R,James GM.Estimation and inference in econometrics.Oxford University Press,1993.