摘要:社會(huì)政策是政府發(fā)揮職能的重要手段,對(duì)政策實(shí)施的效果進(jìn)行量化評(píng)估,有助于政府決策的科學(xué)化、合理化。本文基于非實(shí)驗(yàn)數(shù)據(jù),歸納了目前微觀政策領(lǐng)域各種致力于構(gòu)建“反事實(shí)”的政策效應(yīng)評(píng)估方法,包括工具變量法(IV)、斷點(diǎn)回歸(RD)、雙重差分(DID)和匹配方法(Matching),闡述了其各自的優(yōu)勢(shì)、劣勢(shì)及適用條件,并對(duì)實(shí)際政策評(píng)估中各模型的選用進(jìn)行了簡(jiǎn)要述評(píng)。
關(guān)鍵詞:政策效應(yīng)評(píng)估;反事實(shí);準(zhǔn)實(shí)驗(yàn)方法;匹配方法;工具變量法;斷點(diǎn)回歸;雙重差分
中圖分類號(hào):F224 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):16748131(2012)04004208
Review and Comparison of Researches on PolicyEvaluation Based on Micro Nonexperimental Data
WEI Mengxing
(Graduate School,Chinese Academy of Social Science,Beijing 102488,China)
Abstract: Social policy is an important means for governments to realize their function. Quantitative evaluation on the effect of policy implementation can help the governments make decisions scientifically and reasonably. Based on nonexperimental data,this paper summarizes the evaluation methods for all kinds of the “counterfactual” policy effects deliberately constructed in current micropolicy field, such as instrumental variable method, regression discontinuity method,differenceindifference method and matching method, elaborates the advantages, disadvantages and applicable conditions of each method, and makes brief review of the selection of each model in the practice of policy evaluation.
Key words: policy effect evaluation;counterfactual;quasiexperiment method;matching method;instrumental variable method;regression discontinuity method;differenceindifference method
進(jìn)行政策評(píng)價(jià)是計(jì)量經(jīng)濟(jì)學(xué)研究的核心目的之一。中國(guó)經(jīng)濟(jì)正處于高速發(fā)展階段,社會(huì)改革也在逐步深化,政策、規(guī)則的改變頻頻發(fā)生,這為政策評(píng)價(jià)方法與理論的發(fā)展提供了一個(gè)絕佳的背景。對(duì)政策實(shí)施的效果進(jìn)行量化評(píng)估,有助于政府決策的科學(xué)化、合理化。通過(guò)構(gòu)建“反事實(shí)”對(duì)政策效應(yīng)進(jìn)行評(píng)估是當(dāng)前政策評(píng)價(jià)研究中的熱點(diǎn),從搜集到的文獻(xiàn)來(lái)看,目前的研究成果主要集中在以勞動(dòng)經(jīng)濟(jì)學(xué)為主的微觀領(lǐng)域,在宏觀領(lǐng)域并未取得太多進(jìn)展。有鑒于此,本文將對(duì)國(guó)內(nèi)外微觀政策評(píng)估領(lǐng)域的研究方法做一綜述,闡述各種方法在應(yīng)用上的優(yōu)勢(shì)及劣勢(shì),總結(jié)其適用條件,并對(duì)實(shí)證研究中各模型的選用進(jìn)行簡(jiǎn)要述評(píng)。
衛(wèi)夢(mèng)星:基于微觀非實(shí)驗(yàn)數(shù)據(jù)的政策效應(yīng)評(píng)估方法評(píng)價(jià)與比較
一、政策效應(yīng)評(píng)估的基本問(wèn)題
1.“反事實(shí)”
假定總體中有兩組或多組群體,能夠在兩期或多期觀測(cè)到其中的個(gè)體數(shù)據(jù),并且在某些時(shí)期某些個(gè)體受到了一項(xiàng)新政策的“干預(yù)”(treatment)。在政策評(píng)估中,通常把接受政策干預(yù)的樣本稱為實(shí)驗(yàn)組,把未受政策干預(yù)的樣本稱為控制組。要估計(jì)一項(xiàng)政策的實(shí)施效應(yīng),一個(gè)簡(jiǎn)單的邏輯就是對(duì)所有個(gè)體在政策實(shí)施前后的結(jié)果變量做比較,將差值作為個(gè)體的處置效應(yīng)(treatment effect),進(jìn)而可推知政策實(shí)施效應(yīng)。
在二元選擇的情況下,定義指示變量D,當(dāng)Di=1時(shí),認(rèn)為個(gè)體i選擇接受政策的影響;反之,當(dāng)Di=0時(shí)則視為個(gè)體選擇不接受政策影響。Di由一系列個(gè)體特征因素決定,不同個(gè)體之間的選擇相互獨(dú)立。若定義時(shí)期0為政策未實(shí)施的時(shí)期,1為政策實(shí)施后的時(shí)期,則個(gè)體i的處置效應(yīng)可以寫作:
τi=Yi(1)-Yi(0)
但由于道德因素、社會(huì)成本等原因,現(xiàn)實(shí)中的政策只有極少數(shù)采用隨機(jī)實(shí)驗(yàn)的方式實(shí)施,研究者可觀測(cè)到的數(shù)據(jù)多是非實(shí)驗(yàn)數(shù)據(jù)。這就意味著社會(huì)實(shí)驗(yàn)政策實(shí)施以后,研究者不可能同時(shí)觀測(cè)到同一個(gè)體在接受和不接受政策干預(yù)時(shí)的表現(xiàn)。對(duì)于實(shí)驗(yàn)組中的個(gè)體,研究者無(wú)法觀測(cè)其在未接受政策干預(yù)時(shí)的表現(xiàn);而對(duì)于控制組中的個(gè)體,研究者也無(wú)法預(yù)測(cè)其在接受政策干預(yù)時(shí)的表現(xiàn)。也就是說(shuō),存在著兩組“反事實(shí)”(counterfactual)。因此,如何構(gòu)建 “反事實(shí)”就成為政策效應(yīng)評(píng)估中的關(guān)鍵。本文所討論的各種評(píng)估方法的不同,本質(zhì)上是其構(gòu)建“反事實(shí)”的方法不同。
2.個(gè)體的異質(zhì)性決策
在政策實(shí)踐中,個(gè)體并非通過(guò)隨機(jī)委派的方式接受政策干預(yù)。多數(shù)情況下政策的實(shí)施是區(qū)域性的,區(qū)域中的個(gè)體會(huì)預(yù)測(cè)自己接受政策干預(yù)時(shí)可能獲得的凈收益,進(jìn)而通過(guò)遷移等反應(yīng)來(lái)決定是否接受政策影響。也就是說(shuō),個(gè)體存在私人信息,并根據(jù)私人信息進(jìn)行參與決策。
個(gè)體的私人信息與個(gè)體特征緊密相關(guān),具有異質(zhì)性,不僅會(huì)影響個(gè)體的參與決策,間接影響結(jié)果變量,還可能直接對(duì)結(jié)果變量施加影響,是混雜因素(confounding factor)。如果研究者不能控制混雜因素對(duì)個(gè)體結(jié)果變量的直接影響,所測(cè)得的政策效應(yīng)就會(huì)出現(xiàn)偏差,稱為選擇偏差(selection bias)。不可觀測(cè)的混雜因素的存在是選擇偏差產(chǎn)生的主要原因。但在政策評(píng)估的實(shí)踐中,抽樣方法、樣本選擇等的不規(guī)范會(huì)使得控制組與實(shí)驗(yàn)組的可觀測(cè)變量分布并不相同,這時(shí)就會(huì)出現(xiàn)可觀測(cè)變量的不匹配引起的偏差。Heckman 等(1997)指出,可觀測(cè)變量的不匹配引起的偏差比不可觀測(cè)變量引起的偏差要大得多。
個(gè)體異質(zhì)性決策以及混雜因素的存在,使得微觀政策效應(yīng)的評(píng)估既要解決內(nèi)生性問(wèn)題,又要解決混雜因素的干擾問(wèn)題,傳統(tǒng)上僅將結(jié)果變量與協(xié)變量和指示變量D做簡(jiǎn)單回歸的方法就不再可行了,必須尋找新的方法來(lái)解決這一問(wèn)題。
3.相關(guān)統(tǒng)計(jì)量
如上分析可知,由于存在著“反事實(shí)”,估計(jì)單個(gè)個(gè)體的處置效應(yīng)是不可能的,只能關(guān)注平均處置效應(yīng)(average treatment effect, ATE)或?qū)嶒?yàn)組的平均處置效應(yīng)(average treatment effect on the treated, ATT)。其中,ATE表示從總體中隨機(jī)選擇一個(gè)具有特征X的個(gè)體接受干預(yù)時(shí)所能獲得的平均回報(bào),ATT表示通過(guò)自我選擇接受干預(yù)的個(gè)體相比于其未接受干預(yù)時(shí)能獲得的平均回報(bào)。ATT與ATE回答了兩個(gè)完全不同的問(wèn)題,一般情況下二者是不同的。但當(dāng)政策對(duì)所有個(gè)體的影響相同,或者當(dāng)受干預(yù)的個(gè)體是隨機(jī)選取,且研究者關(guān)注政策對(duì)總體的平均影響時(shí),ATT與ATE等價(jià)。ATE與ATT的計(jì)算方法分別如下所示:
此外,Bjorklund 等(1987)還提出了邊際政策效應(yīng)(marginal treatment effect,MTE)的概念。MTE指處于接受或不接受干預(yù)臨界狀態(tài)的個(gè)體最終選擇接受政策干預(yù)時(shí)的平均回報(bào)。可見(jiàn),研究者要根據(jù)實(shí)際需要選擇合適的估計(jì)量進(jìn)行測(cè)算。
因?yàn)锳TE所包含的研究對(duì)象來(lái)自于總體,包含了很多實(shí)際未被納入政策實(shí)施范圍的個(gè)體,MTE將處于臨界狀態(tài)的個(gè)體作為研究對(duì)象,二者都不是決策者關(guān)注的重點(diǎn)。ATT直接將實(shí)際接受政策干預(yù)的個(gè)體的平均處置效應(yīng)作為關(guān)注點(diǎn),符合決策者的政策意圖,有利于評(píng)估目標(biāo)群體從政策中獲得的平均回報(bào),從而幫助判斷政策是否達(dá)到預(yù)期目標(biāo)。因此,實(shí)際中ATT的應(yīng)用較為普遍。
二、使用非實(shí)驗(yàn)數(shù)據(jù)構(gòu)建“反事實(shí)”的方法
根據(jù)數(shù)據(jù)產(chǎn)生方式的不同,微觀政策效應(yīng)評(píng)估的方法可分為隨機(jī)受控實(shí)驗(yàn)(randomized controlled trial)、準(zhǔn)實(shí)驗(yàn)(quasiexperiment)以及匹配(matching)等方法。
1.隨機(jī)受控實(shí)驗(yàn)
從某種意義上講,隨機(jī)受控實(shí)驗(yàn)是最可信的一種政策評(píng)估方法。它通過(guò)將符合項(xiàng)目參與條件的部分個(gè)體隨機(jī)地排除至項(xiàng)目之外,為實(shí)驗(yàn)組對(duì)象提供一個(gè)自動(dòng)生成的控制組。但是,隨機(jī)受控實(shí)驗(yàn)有其自身的局限性:(1)在經(jīng)濟(jì)中很少遇到,且實(shí)施成本高,時(shí)間長(zhǎng);(2)不能用于外推,不能輕易用作政策實(shí)施前的決策依據(jù);(3)實(shí)驗(yàn)要求控制組完全不受政策的影響,但實(shí)際中很難排除政策的溢出效應(yīng)、替代效應(yīng)等。基于以上原因,隨機(jī)受控實(shí)驗(yàn)在實(shí)踐中應(yīng)用很少。盡管如此,這一方法仍可幫助我們判斷其它評(píng)估方法的效力。
2.準(zhǔn)實(shí)驗(yàn)
準(zhǔn)實(shí)驗(yàn)方法將政策改革視為一項(xiàng)實(shí)驗(yàn),試圖在精心設(shè)計(jì)的實(shí)驗(yàn)條件下,為實(shí)驗(yàn)組找到一個(gè)自然產(chǎn)生的控制組。準(zhǔn)實(shí)驗(yàn)方法包括工具變量(instrumental variables,IV)、雙重差分(differenceindifferences,DID)以及斷點(diǎn)回歸(regression discontinuity,RD)等方法。其中,IV是該領(lǐng)域最早使用的方法;RD在2000年后才開(kāi)始使用,目前使用還較少;DID是目前應(yīng)用最多的方法,可信度也較高。
3.匹配方法
匹配方法是利用非實(shí)驗(yàn)數(shù)據(jù)進(jìn)行政策評(píng)估時(shí)常用的方法。匹配的目的非常簡(jiǎn)單,就是要找出足夠的可觀測(cè)變量,找到與實(shí)驗(yàn)組個(gè)體足夠相近的個(gè)體作為控制組,二者結(jié)果的不同完全取決于是否接受政策干預(yù)。這樣,如果每個(gè)實(shí)驗(yàn)組個(gè)體都可以找到一個(gè)或多個(gè)與其具有相同協(xié)變量且未參與項(xiàng)目的控制組個(gè)體相匹配,那么實(shí)驗(yàn)組的每個(gè)個(gè)體的處置效應(yīng)就可以計(jì)算,ATT也可相應(yīng)地計(jì)算出來(lái)。
計(jì)量經(jīng)濟(jì)學(xué)方法依托于數(shù)據(jù),不同來(lái)源的數(shù)據(jù)具有不同的特征。在微觀經(jīng)濟(jì)政策評(píng)估領(lǐng)域,常處理的數(shù)據(jù)類型主要有以下幾種:截面數(shù)據(jù)(crosssection data)、縱向數(shù)據(jù)(longitudinal data)和重復(fù)截面數(shù)據(jù)(repeated crosssection data)。依托非實(shí)驗(yàn)數(shù)據(jù)進(jìn)行政策評(píng)估時(shí),必須根據(jù)數(shù)據(jù)特征選擇恰當(dāng)?shù)脑u(píng)估方法。數(shù)據(jù)結(jié)構(gòu)某種程度上決定了方法的選擇,而數(shù)據(jù)質(zhì)量則關(guān)乎實(shí)證結(jié)果的可靠性和正確性。由于隨機(jī)受控實(shí)驗(yàn)在實(shí)際中較少遇到,本文將著重探討準(zhǔn)實(shí)驗(yàn)方法及匹配等其他方法的原理及使用。
三、利用非實(shí)驗(yàn)數(shù)據(jù)進(jìn)行微觀政策效應(yīng)評(píng)估
1.工具變量法
標(biāo)準(zhǔn)的計(jì)量經(jīng)濟(jì)學(xué)提供了一種處理內(nèi)生性問(wèn)題的方法——IV法。Ehrlich(1975,1977)運(yùn)用時(shí)間序列數(shù)據(jù)和截面數(shù)據(jù)就美國(guó)執(zhí)行死刑對(duì)降低謀殺率的影響進(jìn)行的研究具有典型性。Ehrlich認(rèn)識(shí)到謀殺率與死刑執(zhí)行率之間的雙向因果關(guān)系,并試圖應(yīng)用IV來(lái)解決其內(nèi)生解釋變量和遺漏解釋變量的問(wèn)題。他選擇了此項(xiàng)政策支出的滯后量、總的政府支出、人口、非白人比例等變量作為IV,但并沒(méi)有解釋為什么這些變量是好的IV,所選出的這些IV與內(nèi)生的解釋變量之間又具有怎樣的關(guān)聯(lián)。直至Ehrlich(1987,1996)的研究出版,其選擇IV的考慮及相關(guān)的因果識(shí)別問(wèn)題才得到詳細(xì)的闡述。Angrist(1990)和Angrist 等(1991)分別用IV研究了參加越戰(zhàn)對(duì)老兵收入的影響和教育背景對(duì)收入的影響,從而充分顯現(xiàn)了運(yùn)用IV進(jìn)行因果推斷的價(jià)值。Card 等(1992a,1992b)將學(xué)生的出生州與出生隊(duì)列作為IV,研究了教育投入對(duì)教育質(zhì)量的影響,從而使得教育產(chǎn)出、教育質(zhì)量領(lǐng)域的研究出現(xiàn)了重大轉(zhuǎn)折。Bound 等(1995)指出了Angrist等.(1991)研究中存在的弱工具變量的問(wèn)題,從而將IV的效率問(wèn)題以及IV的選取準(zhǔn)則引入研究。此后,有關(guān)IV研究的理論問(wèn)題都主要集中在如何尋找最優(yōu)的工具變量上。
工具變量法是一個(gè)相對(duì)簡(jiǎn)單的估計(jì)方法,但是有兩個(gè)重要的缺陷:(1)工具變量的選擇問(wèn)題。在政策評(píng)估問(wèn)題中,要找出滿足條件的工具變量并不容易。在實(shí)踐中,尤其是當(dāng)縱向數(shù)據(jù)和政策實(shí)施前的數(shù)據(jù)可以獲得時(shí),研究者多使用因變量的滯后變量作為工具變量。但是,這同樣會(huì)引發(fā)相關(guān)性,并不能從根本上解決問(wèn)題。(2)如果個(gè)體對(duì)于政策的反應(yīng)不同,只有當(dāng)個(gè)體對(duì)政策反應(yīng)的異質(zhì)性并不影響參與決策時(shí),工具變量才能識(shí)別ATT、ATE。但這是一個(gè)很強(qiáng)的假定,有時(shí)研究者不得不假定非理性,或者忽略研究對(duì)象的行為異質(zhì)性(Heckman,1997)。
2.斷點(diǎn)回歸
RD是一種類似于隨機(jī)受控實(shí)驗(yàn)的準(zhǔn)實(shí)驗(yàn)方法。它的主要思想是:當(dāng)個(gè)體的某一關(guān)鍵變量的值大于臨界值時(shí),個(gè)體接受政策干預(yù);反之,則不接受政策干預(yù)。一般而言,個(gè)體在接受干預(yù)的情況下,無(wú)法觀測(cè)到其沒(méi)有接受干預(yù)的情況。而在RD中,小于臨界值的個(gè)體可以作為一個(gè)很好的控制組來(lái)反映個(gè)體沒(méi)有接受干預(yù)時(shí)的情況,尤其是在變量連續(xù)的情況下,臨界值附近樣本的差別可以很好地反映干預(yù)和結(jié)果變量之間的因果聯(lián)系,進(jìn)而計(jì)算出ATE、ATT等政策效應(yīng)變量。
RD最早是由美國(guó)西北大學(xué)的心理學(xué)家Campbell于1958年首先發(fā)展設(shè)計(jì)出來(lái)的,但一直沒(méi)有得到廣泛的應(yīng)用。Hahn 等(2001)為斷點(diǎn)回歸的模型識(shí)別和模型估計(jì)進(jìn)行了嚴(yán)格意義上的理論證明,并提出了相應(yīng)的估計(jì)方法。自此之后,RD在經(jīng)濟(jì)學(xué)上的應(yīng)用才開(kāi)始盛行。到目前為止,對(duì)這一方法的研究成果還主要集中在勞動(dòng)經(jīng)濟(jì)學(xué)領(lǐng)域。國(guó)內(nèi)學(xué)者運(yùn)用RD進(jìn)行分析的研究還比較少見(jiàn),余靜文等(2010a)研究了城市圈所產(chǎn)生的集聚效應(yīng)、輻射效應(yīng),考察了其對(duì)地區(qū)收入差距的影響;余靜文等(2010b)還使用該方法考察了城市圈對(duì)區(qū)域經(jīng)濟(jì)績(jī)效的影響,發(fā)現(xiàn)城市圈產(chǎn)生的輻射效應(yīng)和政府治理結(jié)構(gòu)轉(zhuǎn)變所帶來(lái)的效應(yīng)會(huì)促進(jìn)城市圈區(qū)域的經(jīng)濟(jì)發(fā)展。
RD是一種類似于隨機(jī)實(shí)驗(yàn)的方法,也是準(zhǔn)實(shí)驗(yàn)方法中最具有可信性的方法。Lee(2008)認(rèn)為在隨機(jī)實(shí)驗(yàn)不可得的情況下,斷點(diǎn)回歸能夠避免參數(shù)估計(jì)的內(nèi)生性問(wèn)題,從而真實(shí)反映出變量之間的因果關(guān)系。RD方法應(yīng)用的關(guān)鍵假設(shè)是要求在斷點(diǎn)附近的個(gè)體的特征相同,這一假設(shè)可以通過(guò)統(tǒng)計(jì)分析得到檢驗(yàn)。由此可見(jiàn),RD的吸引力不僅在于它的實(shí)驗(yàn)性,還在于它的因果推斷可以方便地得到檢驗(yàn)。
3.雙重差分
近年來(lái),DID在政策評(píng)估研究得到了廣泛應(yīng)用。DID處理選擇偏差的基本思想是:允許存在不可觀測(cè)因素的影響,但假定它們是不隨時(shí)間變化的。假定不可觀測(cè)因素Uit可分解為Uit=φi+θt+μit,其中φi是個(gè)體固定效應(yīng),不隨時(shí)間變化;θt是個(gè)體所處的共同的環(huán)境帶來(lái)的效應(yīng),對(duì)于所有個(gè)體而言都相同;μit是個(gè)體時(shí)點(diǎn)效應(yīng)。DID假定實(shí)驗(yàn)組和控制組在研究的區(qū)間內(nèi)具有相同的個(gè)體時(shí)點(diǎn)效應(yīng),也就是說(shuō)μit相同,因此通過(guò)對(duì)截面單位在項(xiàng)目實(shí)施前后的結(jié)果取差值,就能排除φi、θt的影響。反之,若在政策實(shí)施條件下,個(gè)體時(shí)點(diǎn)效應(yīng)μit不相同,則DID就不再是一致估計(jì)量。
應(yīng)用DID評(píng)估政策效應(yīng)的基本步驟是利用面板數(shù)據(jù)建立雙固定效應(yīng)模型并估計(jì)參數(shù):
其中,Tit=1表示實(shí)驗(yàn)組對(duì)象,反之則表示控制組對(duì)象;Ait=1表示政策實(shí)施后的區(qū)段,反之亦然;TitAit是交叉項(xiàng),其系數(shù)β3表示實(shí)驗(yàn)組對(duì)象在接受政策后結(jié)果變量的變動(dòng)程度,反映了政策變動(dòng)的效應(yīng),是目標(biāo)變量。參數(shù)β1表示沒(méi)有政策干預(yù)時(shí),實(shí)驗(yàn)組與控制組的經(jīng)濟(jì)行為如何隨時(shí)間變動(dòng),而參數(shù)β2則反映實(shí)驗(yàn)組和控制組中任何不隨時(shí)間變動(dòng)的差異。應(yīng)用DID評(píng)估政策效應(yīng)的一個(gè)關(guān)鍵假設(shè)是:當(dāng)不存在政策干預(yù)時(shí),β3=0,這一假設(shè)只有在實(shí)驗(yàn)組與控制組性質(zhì)非常接近時(shí)才是合理的。表1概括了DID方法的基本原理。
表1DID方法的基本原理
Heckman 等(1985,1986)最早提出使用DID方法對(duì)社會(huì)公共政策的實(shí)施效應(yīng)進(jìn)行評(píng)估,此后對(duì)DID方法的研究和應(yīng)用成果層出不窮,典型的有:Card 等(1990,1994)對(duì)移民政策、最低工資制度對(duì)工資和就業(yè)的影響進(jìn)行了研究;Puhani(2000)對(duì)波蘭1991年實(shí)施的失業(yè)救濟(jì)政策改革對(duì)失業(yè)持續(xù)期的影響進(jìn)行了評(píng)估;Stewart(2004)對(duì)英國(guó)1999—2001年引入的最低工資制度對(duì)就業(yè)的影響進(jìn)行了評(píng)估;Donohue 等(2005)發(fā)現(xiàn)美國(guó)與加拿大的謀殺率之間具有相同的變化趨勢(shì),從而以取消死刑的加拿大作為控制組,評(píng)估了美國(guó)恢復(fù)死刑制度對(duì)降低謀殺率的影響,結(jié)果表明美國(guó)執(zhí)行的死刑政策并未對(duì)社會(huì)謀殺發(fā)生率起到遏制作用;Chen 等(2008)使用中國(guó)2000個(gè)家庭的數(shù)據(jù)對(duì)世界銀行發(fā)展項(xiàng)目的效應(yīng)進(jìn)行了評(píng)估。
國(guó)內(nèi)學(xué)者近年來(lái)也開(kāi)始運(yùn)用DID方法對(duì)政策效應(yīng)進(jìn)行評(píng)估,主要的研究有:周黎安等(2005)就農(nóng)村稅費(fèi)改革對(duì)農(nóng)民收入增長(zhǎng)所產(chǎn)生的影響進(jìn)行了評(píng)估;朱寧寧等(2008)對(duì)我國(guó)建筑節(jié)能政策的實(shí)施效應(yīng)進(jìn)行了評(píng)估;黃清(2009)對(duì)2002—2005年電力行業(yè)放松規(guī)制的政策效應(yīng)進(jìn)行了實(shí)證檢驗(yàn)和研究;劉生龍等(2009)評(píng)估了西部大開(kāi)發(fā)對(duì)于西部地區(qū)經(jīng)濟(jì)增長(zhǎng)及中國(guó)區(qū)域經(jīng)濟(jì)收斂的作用;聶輝華等(2009)使用全國(guó)層面的企業(yè)數(shù)據(jù),胥佚萱等(2011)使用上市公司數(shù)據(jù)分別對(duì)2004年開(kāi)始在東北地區(qū)實(shí)行的增值稅轉(zhuǎn)型政策的影響進(jìn)行了研究;俞紅海等(2010)基于上市公司數(shù)據(jù),對(duì)股權(quán)分置改革的有效性進(jìn)行了實(shí)證分析;李楠等(2010)利用中國(guó)工業(yè)行業(yè)數(shù)據(jù),對(duì)國(guó)有企業(yè)改革的績(jī)效進(jìn)行了評(píng)估。
DID方法允許不可觀測(cè)因素的存在,而且允許不可觀測(cè)因素對(duì)個(gè)體是否接受干預(yù)的決策產(chǎn)生影響,從而放松了政策評(píng)估的條件,使得政策評(píng)估的應(yīng)用更接近于經(jīng)濟(jì)現(xiàn)實(shí),因而應(yīng)用更廣。但是,研究者在應(yīng)用中也應(yīng)該充分認(rèn)識(shí)到DID方法的局限性:
(1)數(shù)據(jù)要求更加苛刻。DID方法以面板數(shù)據(jù)模型為基礎(chǔ),不僅需要橫截面單位的數(shù)據(jù),還需要研究個(gè)體的時(shí)間序列數(shù)據(jù),特別是政策實(shí)施前的數(shù)據(jù)。因此,相比于Matching,DID方法要求更多的數(shù)據(jù)。
(2)個(gè)體時(shí)點(diǎn)效應(yīng)μit未得到控制。DID要求很強(qiáng)的識(shí)別假設(shè),它要求在政策未實(shí)施時(shí),實(shí)驗(yàn)組和控制組的結(jié)果變量隨時(shí)間變化的路徑平行,這一假設(shè)并沒(méi)有考慮個(gè)體時(shí)點(diǎn)效應(yīng)μit的影響。由于μit的影響,在項(xiàng)目實(shí)施前后,實(shí)驗(yàn)組和和控制組個(gè)體行為的結(jié)果變量并不平行,此時(shí)應(yīng)用傳統(tǒng)的DID方法就會(huì)出現(xiàn)系統(tǒng)性誤差。
(3)未考慮個(gè)體所處的環(huán)境對(duì)個(gè)體的不同影響。DID方法假定環(huán)境因素的沖擊對(duì)處于相同環(huán)境中的個(gè)體會(huì)產(chǎn)生相同的影響,即θt對(duì)所有個(gè)體都相同。但實(shí)際中,實(shí)驗(yàn)組和控制組個(gè)體可能因?yàn)槟承┎豢捎^測(cè)因素的影響,使得其在面臨相同的環(huán)境因素的沖擊時(shí)做出不同的反應(yīng),此時(shí)DID的應(yīng)用就會(huì)出現(xiàn)問(wèn)題。
針對(duì)以上問(wèn)題,國(guó)外學(xué)者在使用DID的過(guò)程中,逐步對(duì)其進(jìn)行了擴(kuò)展,擴(kuò)展的方向主要有兩個(gè):一是考慮DID中未控制的因素,從而進(jìn)一步放松其應(yīng)用條件;二是將DID與Matching等其他政策評(píng)估方法結(jié)合起來(lái),提出新的估計(jì)量。比如:Bell 等(1999)考慮了個(gè)體所處的環(huán)境對(duì)個(gè)體的不同影響,提出了經(jīng)趨勢(shì)調(diào)整的估計(jì)量;Heckman 等(1997)提出了“條件DID”這一新的估計(jì)量(conditional DID estimator),將 Matching與DID方法結(jié)合起來(lái)應(yīng)用,不僅能大大降低選擇偏差,且結(jié)果更為可信。但不容忽視的是,條件DID仍要滿足“共同支撐域”假定。
4.匹配方法
匹配是一種非實(shí)驗(yàn)方法,是對(duì)于一些沒(méi)有采用或不方便采用實(shí)驗(yàn)方法區(qū)分實(shí)驗(yàn)組和控制組的數(shù)據(jù)采用的一種近似實(shí)驗(yàn)的方法。匹配方法假定,控制協(xié)變量之后,具有相同特征的個(gè)體對(duì)政策具有相同的反應(yīng)。換句話說(shuō),不可觀測(cè)因素不影響個(gè)體是否接受政策干預(yù)的決策,選擇僅僅發(fā)生在可觀測(cè)變量上。因此,對(duì)每一個(gè)實(shí)驗(yàn)組個(gè)體而言,可以根據(jù)可觀測(cè)特征為其選擇一個(gè)控制組個(gè)體構(gòu)成反事實(shí)。
在實(shí)證分析中,根據(jù)選擇控制組時(shí)匹配方法的不同,Matching又可分為協(xié)變量匹配(covariant Matching, CVM)和傾向得分匹配(propensity score matching, PSM)等。其中,CVM涉及多個(gè)協(xié)變量,會(huì)導(dǎo)致“維度災(zāi)難”、計(jì)算過(guò)于復(fù)雜等問(wèn)題。Rosenbuam 等(1983)指出,如果協(xié)變量能使得條件獨(dú)立假設(shè)(conditional independence assumption,CIACIA是由Lechner1999年提出的概念,又被稱為unfoundedness (Rosenbaum et al, 1983)或selection on observables(Heckman et al,1985)。匹配方法的基本前提可表示為:Y(0),Y(1)⊥D|X或者Y(0),Y(1)⊥D|P(X),二者分別是CVM和PSM下條件獨(dú)立假設(shè)的不同表示形式。CIA意味著所有能同時(shí)影響干預(yù)分配機(jī)制和結(jié)果變量的混雜因素都能被觀察到,這樣就可消除由不可觀測(cè)因素引起的選擇偏差,進(jìn)而估計(jì)政策效應(yīng)。 )成立,那么傾向得分(propensity score,PS)作為協(xié)變量的一個(gè)函數(shù),當(dāng)然也能使得CIA成立。通過(guò)將協(xié)變量中蘊(yùn)含的信息轉(zhuǎn)移至PS中,PSM可以克服CVM的劣勢(shì),成功降維,從而在實(shí)踐中應(yīng)用更多。
Rusenbaum 等(1983)提出的利用PSM來(lái)消除混雜因素所引起的偏差,在提出之初并沒(méi)有受到很大關(guān)注,但是近些年被廣泛應(yīng)用于醫(yī)藥、經(jīng)濟(jì)、政策評(píng)估等領(lǐng)域,成為政策效應(yīng)評(píng)價(jià)中最常用的方法。Perkins 等(2000)討論了此方法在流行病藥效學(xué)上的應(yīng)用,Gilligan 等(2007)對(duì)在埃塞俄比亞農(nóng)村實(shí)施的應(yīng)急食品救援政策的效應(yīng)進(jìn)行了評(píng)估,Sandra 等(2009)對(duì)法國(guó)的一項(xiàng)再就業(yè)培訓(xùn)項(xiàng)目的效應(yīng)進(jìn)行了評(píng)估。國(guó)內(nèi)學(xué)者近年來(lái)也開(kāi)始運(yùn)用PSM方法對(duì)社會(huì)公共政策的效應(yīng)進(jìn)行評(píng)估。陳玉萍等(2010)運(yùn)用PSM方法研究了滇西南山區(qū)改良陸稻技術(shù)的采用對(duì)農(nóng)戶收入的影響,解決了應(yīng)用傳統(tǒng)方法分析農(nóng)業(yè)技術(shù)效應(yīng)時(shí),因農(nóng)戶技術(shù)采用存在的自我選擇而帶來(lái)的因果干涉問(wèn)題;李佳路(2010)運(yùn)用PSM方法,采用S省30個(gè)國(guó)家扶貧開(kāi)發(fā)重點(diǎn)縣2009年的農(nóng)村貧困監(jiān)測(cè)數(shù)據(jù),對(duì)扶貧項(xiàng)目的減貧效應(yīng)進(jìn)行了評(píng)估。
PSM作為非參數(shù)方法,不需要對(duì)可觀測(cè)因素的條件均值函數(shù)和不可觀測(cè)因素的概率分布進(jìn)行假設(shè),因而相比參數(shù)方法具有優(yōu)勢(shì)。但是,PSM也有局限性,主要表現(xiàn)為以下幾點(diǎn):
(1)極強(qiáng)的前提假設(shè)。PSM的應(yīng)用必須滿足CIA和共同支撐域假定,這兩個(gè)假定合起來(lái)稱為“強(qiáng)可忽略性”假設(shè)。一旦違背這一假定,ATE和ATT就會(huì)出現(xiàn)偏誤。Heckman 等(1997)通過(guò)假設(shè)檢驗(yàn)表明當(dāng)“強(qiáng)可忽略性”假定不滿足時(shí),不宜應(yīng)用PSM的方法對(duì)政策效應(yīng)進(jìn)行評(píng)估;Heckman(2008)通過(guò)理論分析認(rèn)為當(dāng)存在未觀測(cè)到的混雜因素時(shí),PSM方法不僅不能消除系統(tǒng)誤差,反而會(huì)帶來(lái)新的偏差;劉鳳芹等(2009)運(yùn)用蒙特卡羅模擬實(shí)驗(yàn)的結(jié)果也表明PSM對(duì)強(qiáng)可忽略性假設(shè)非常敏感,即使是輕度的違背,PSM的估計(jì)結(jié)果偏差也超過(guò)50%;Kannika 等(2010)運(yùn)用實(shí)際數(shù)據(jù),對(duì)比參數(shù)方法與PSM方法的結(jié)果,進(jìn)一步驗(yàn)證了PSM的應(yīng)用需要滿足“強(qiáng)可忽略性”假定。
(2)不能為所有的實(shí)驗(yàn)組個(gè)體找到控制組個(gè)體。匹配方法僅能為處在共同支撐域上的個(gè)體找到合適的對(duì)照個(gè)體。如果對(duì)于不同個(gè)體而言,處置效應(yīng)是同質(zhì)的,那么共同支撐域的假定不會(huì)對(duì)政策效應(yīng)的大小造成影響;反之,如果處置效應(yīng)是不同質(zhì)的,共同支撐域的假定使得某些實(shí)驗(yàn)組個(gè)體很難找到“反事實(shí)”,處置效應(yīng)無(wú)法識(shí)別。換句話說(shuō),如果匹配過(guò)程損失了大量的觀察值,處置效應(yīng)的估計(jì)量就僅在共同支撐域上具有一致性特征。在異質(zhì)性響應(yīng)中,如果實(shí)驗(yàn)組個(gè)體的處置效應(yīng)差別很大,估計(jì)出的ATT就不能代表政策的平均回報(bào)。
(3)數(shù)據(jù)量要求極大。Matching方法往往應(yīng)用于截面數(shù)據(jù),為了保證條件獨(dú)立假設(shè)成立,需要盡可能多地搜集協(xié)變量信息,將混雜因素分離出來(lái)。同時(shí),為了保證能找到與實(shí)驗(yàn)組個(gè)體特征最為接近的控制組,研究者也需要收集大量的個(gè)體數(shù)據(jù),以保證結(jié)果的精度。
(4)結(jié)果的穩(wěn)健性受到多種挑戰(zhàn)。PSM方法計(jì)算得到的ATE或ATT的穩(wěn)健性受到多種因素的影響,如干預(yù)分配機(jī)制方程的設(shè)定、匹配算法的選擇等。劉鳳芹等(2009)運(yùn)用蒙特卡羅模擬實(shí)驗(yàn)的結(jié)果表明,PSM對(duì)誤差項(xiàng)分布不敏感,對(duì)隱指標(biāo)方程的誤設(shè)極為敏感;在共同支撐域較小時(shí),PSM對(duì)具體匹配方法的選擇極其敏感。
綜上所述,Matching的應(yīng)用必須滿足很強(qiáng)的假設(shè)前提,并且要具有相當(dāng)?shù)臄?shù)據(jù)量。如果研究者認(rèn)為無(wú)法驗(yàn)證強(qiáng)可忽略性假定,手頭的數(shù)據(jù)樣本又不夠大,就必須選用其他的政策評(píng)估方法,如DID和樣本選擇模型等,它們都明確允許有未被觀測(cè)到的混雜因素的存在。
四、研究評(píng)述
本文對(duì)政策評(píng)價(jià)的基本原理做了簡(jiǎn)單闡述,指出構(gòu)建“反事實(shí)”是政策效應(yīng)評(píng)估的核心。目前利用微觀非實(shí)驗(yàn)數(shù)據(jù)構(gòu)建“反事實(shí)”的方法主要有RD、IV、DID和Matching等方法,其中,RD類似于隨機(jī)實(shí)驗(yàn),因果推斷最為清晰,結(jié)果最為可信,假設(shè)的可檢驗(yàn)性也最強(qiáng),但適用的范圍還較小;IV、DID、Matching是目前微觀政策評(píng)價(jià)中的常用方法。本文從適用數(shù)據(jù)類型、對(duì)混雜因素的處理以及參數(shù)識(shí)別三方面對(duì)三種方法做簡(jiǎn)要比較,如表2所示。
表2基于微觀非實(shí)驗(yàn)數(shù)據(jù)的政策效應(yīng)評(píng)估方法比較
數(shù)據(jù)類型及容量對(duì)方法的選用至關(guān)重要。IV法多用于截面數(shù)據(jù),但在縱向數(shù)據(jù)和重復(fù)截面數(shù)據(jù)中也有應(yīng)用;(條件)DID方法對(duì)重復(fù)截面數(shù)據(jù)的處理效果最佳,但必須能夠獲得政策實(shí)施前的相關(guān)數(shù)據(jù);Matching能很好地應(yīng)用于截面數(shù)據(jù)和縱向數(shù)據(jù),但需要大量的個(gè)體數(shù)據(jù)作為支撐,當(dāng)數(shù)據(jù)量充足時(shí),簡(jiǎn)單的PSM模型也能獲得理想的政策效應(yīng)參數(shù)。僅就數(shù)據(jù)要求而言,Matching所需的數(shù)據(jù)量最大。
不同方法對(duì)不可觀測(cè)因素的處理也不相同。IV和Matching假定不存在未被觀測(cè)到的混雜因素,所有能同時(shí)影響干預(yù)分配機(jī)制及結(jié)果變量的混雜因素都被觀測(cè)到,個(gè)體接受或不接受政策干預(yù)都取決于可觀測(cè)變量。從這個(gè)意義上講,IV和Matching是基于可觀測(cè)變量的評(píng)估方法。而DID則容忍不可觀測(cè)因素的存在,且允許其對(duì)個(gè)體決策產(chǎn)生影響,通過(guò)假定及差分消除不可觀測(cè)因素的影響。從對(duì)不可觀測(cè)因素的處理而言,DID更為嚴(yán)謹(jǐn)。
當(dāng)處置效應(yīng)同質(zhì)時(shí),IV、DID和Matching均可識(shí)別ATT、ATE,但當(dāng)處置效應(yīng)異質(zhì)時(shí),各種方法對(duì)ATT、ATE的識(shí)別情況各不相同。此外,Matching是非參數(shù)方法,不用設(shè)定方程,更具一般性;DID方法不用施加嚴(yán)格的外生假設(shè),只要處置效應(yīng)能以可加方式進(jìn)入結(jié)果方程,甚至都不用定義結(jié)果方程。相比而言,IV需要對(duì)方程施加嚴(yán)格的外生假定,實(shí)證分析中需要做更多的檢驗(yàn)。
綜上所述,各種方法的適用條件各有不同,優(yōu)劣各異,在政策效應(yīng)評(píng)估實(shí)踐中,研究者必須以經(jīng)濟(jì)理論為基礎(chǔ),根據(jù)政策本身的特點(diǎn),結(jié)合所能獲取的數(shù)據(jù)特征選擇適用的方法,并選擇符合研究目的的政策效應(yīng)參數(shù)進(jìn)行識(shí)別和估計(jì)。
參考文獻(xiàn):
陳玉萍,吳海濤,陶大云,等.2010.基于傾向得分匹配法分析農(nóng)業(yè)技術(shù)采用對(duì)農(nóng)戶收入的影響——以滇西南農(nóng)戶改良陸稻技術(shù)采用為例[J].中國(guó)農(nóng)業(yè)科學(xué)(5):36673676.
黃清.2009.電力行業(yè)放松規(guī)制改革政策效果的實(shí)證研究——基于發(fā)電業(yè)數(shù)據(jù)的雙重差分模型檢驗(yàn)[J].山西財(cái)經(jīng)大學(xué)學(xué)報(bào)(1):4956.
劉鳳芹,馬慧. 2009.傾向得分匹配方法的敏感性分析[J].統(tǒng)計(jì)與信息論壇(10):713.
劉生龍,王亞華,胡鞍鋼.2009.西部大開(kāi)發(fā)與區(qū)域經(jīng)濟(jì)收斂[J].經(jīng)濟(jì)研究(9):94105.
李佳路. 2010.扶貧項(xiàng)目的減貧效果評(píng)估:對(duì)30個(gè)國(guó)家扶貧開(kāi)發(fā)重點(diǎn)縣調(diào)查[J].改革(8):125132.
李楠,喬榛. 2010.國(guó)有企業(yè)改制政策效果的實(shí)證分析——基于雙重差分模型的估計(jì)[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究(2):321.
聶輝華,方明月,李濤. 2009.增值稅轉(zhuǎn)型對(duì)企業(yè)行為和績(jī)效的影響[J].管理世界(5):1735.
胥佚萱,林志偉.2011.增值稅轉(zhuǎn)型改革與企業(yè)固定資產(chǎn)投資決策——基于中國(guó)上市公司數(shù)據(jù)的面板雙重差分模型分析[J].稅務(wù)與經(jīng)濟(jì)(1):9097.
俞紅海,徐龍炳.2010.股權(quán)分置改革有效改善了公司績(jī)效嗎?——基于雙重差分模型的估計(jì)[J].浙江工商大學(xué)學(xué)報(bào)(1):5662.
余靜文,趙大利. 2010a.城市群落崛起、經(jīng)濟(jì)績(jī)效與區(qū)域收入差距[J].中南財(cái)經(jīng)政法大學(xué)學(xué)報(bào)(4):3038.
余靜文,王春超. 2010b.轉(zhuǎn)型時(shí)期中國(guó)城市圈的經(jīng)濟(jì)績(jī)效[J].當(dāng)代經(jīng)濟(jì)科學(xué)(5):1522.
周黎安,陳燁. 2005.中國(guó)農(nóng)村稅費(fèi)改革的政策效果:基于雙重差分模型的估計(jì)[J].經(jīng)濟(jì)研究(8):4453.
朱寧寧,朱建軍,劉思峰,等.2008.我國(guó)政府建筑節(jié)能政策(措施)的實(shí)施效果評(píng)價(jià)[J].中國(guó)管理科學(xué)(10):576580.
ANGRIST,JOSHUA D. 1990. Lifetime Earnings and the Vietnam Era Draft Lottery: Evidence from Social Security Administrative Records [J].American Economic Review,80:313336.
ANGRIST,JOSHUA D,ALAN B K. 1991. Does Compulsory School Attendance Affect Schooling and Earnings[J]. Quarterly Journal of Economics,106:9761014.
BELL B,BLUNDELL R,VAN REENEN J. 1999.Getting the unemployed back to work: an evaluation of the New Deal proposals[J]. International Tax and Public Finance,6:339360.
BJORKLUND A, MOFFITT R. 1987.The Estimation of Wage Gains and Welfare Gains in SelfSelection Models[J].Reviews of Economics and Statistics, 69:4249.
BOUND J,DAVID J,REGINA B. 1995. Problems with Instrumental Variables Estimation when the Correlation between the Instruments and the Endogenous Explanatory Variable is Weak[J]. Journal of the American Statistical Association,90:443450.
CARD,DAVID,ALAN B K. 1992a. Does School Quality Matter? Returns to Education and the Characteristics of Public Schools in the United States[J]. Journal of Political Economy,100:140.
CARD,DAVID,ALAN B K. 1992b. School Quality and Black–White Relative Earnings: A Direct Assessment[J]. Quarterly Journal of Economics,107:151200.
DANIEL O G,JOHN H. 2008. The Impact of Ethiopia’s Productive Safety Net Programme and its Linkages[C]. IFPRI Discussion Paper 00839.
DONOHUE,JOHN J,JUSTIN W. 2005. Uses and Abuses of Empirical Evidence in the Death Penalty Debate[J]. Stanford Law Review,58:791845.
EHRLICH,ISAAC. 1975. The Deterrent Effect of Capital Punishment:A Question of Life and Death[J]. American Economic Review,65:397417.
EHRLICH,ISAAC. 1977. Capital Punishment and Deterrence:Some Further Thoughts and Additional Evidence[J]. Journal of Political Economy,85:741788.
EHRLICH,ISAAC. 1987. On the Issue of Causality in the Economic Model of Crime and Law Enforcement:Some Theoretical Considerations and Experimental Evidence[J]. American Economic Review,77:99106.
EHRLICH,ISAAC. 1996. Crime,Punishment,and the Market for Offenses[J].Journal of Economic Perspectives,10:4367.
HAHN,TODD,VANDER K. 2001. Identification and estimation of treatment effects with a regression discontinuity design[J]. Econometrica,69:201209.
HECKMAN J J. 1997. Instrumental Variables: A Study of Implicit Behavioral Assumptions Used in Making Program Evaluations[J]. The Journal of Human Resources,32:441462.
HECKMAN J J. 2008. Econometric causality[J]. International Statistical Review,52: 127.
HECKMAN J J,H I. 1997. Matching as an Econometric Evaluation Estimator: Evidence from Evaluating a Job Training Programme[J]. The Review of Economic Studies, 70: 605654.
HECKMAN J J,ROBB R. 1985. Alternative Methods for Evaluating the Impact of Interventions// JAMES J HECKMAN, Singer B. Longitudinal Analysis of Labor Market Data. New York: Cambridge University Press:352.
HECKMAN J J,ROBB R. 1986. Alternative Methods For Solving The Problem of Selection Bias in Evaluating The Impact of Treatments on Outcomes[M]//Wainer H. Drawing Inferences from SelfSelected Samples. Berlin:SpringerVerlag.
KANNIKA D,CHENG HSIAO, XUEYAN ZHAO. 2010. Decriminalization and Marijuana Smoking Prevalence: Evidence From Australia[J]. Journal of Bisiness and Econometrics,38:344356.
LEE D S. 2008. Randomized Experiments from Nonrandom Selection in US House elections[J]. Journal of Econometrics,144:675 697.
PERKINS S M, TW. 2000. For objective causal inference:design trumps analysis[J].The Annual of Applied Atatistics,48: 93101.
PUHANI P A. 2000. Poland on the Dole:The Effect of Reducing the Unemployment Benefit Entitlement Period[J]. Journal of Population Economics,59:3544.
ROSENBAUM P RD. 1983. The central role of the propensity score in observational studies for causal effects[J]. Biometrika,84:4155.
SANDRA CAVACO DF. 2009. Estimating the Effect of a Retraining Program on the ReEmployment Rate of Displaced Workers[R]. The Institute for the Study of Labor Working Paper.
SHAOHUA CHEN RM. 2008. Are There Lasting Impacts of Aid to Poor Areas[R]. World Bank Policy Research Working Paper 4084.
STEWART MB. 2004. The Employment Effects of the National Minimum Wage[J]. The Economic Journal,63:110116.
(責(zé)任編校:夏冬)