金勇進 劉曉宇
(1.中國人民大學 應用統計科學研究中心,2.中國人民大學 統計學院,3.中國人民大學 調查技術研究所;北京 100872)
改革開放以來,我國政府長期致力于減貧事業,截至2019年底,我國貧困人口減少至551萬人,貧困發生率降至0.6%,2020年,我國已如期完成全面總體脫貧,人民生活水平實現了質的飛躍[1]。習近平總書記指出:“農村貧困人口如期脫貧、貧困縣全部摘帽、解決區域性整體貧困,是全面建成小康社會的底線任務,是我們作出的莊嚴承諾”[2][3]。如何衡量脫貧攻堅的實施效果,是一個重要而嚴肅的課題。
由于我國貧困人口絕對數量較多、分布較為分散,當前主要通過各地區各級政府對相關數據進行跟蹤統計。但實際操作過程中,各級政府有各自的訴求,標準和口徑也難以保持完全統一。目前,對國內脫貧攻堅相關政策影響分析的文章,主要基于中國家庭追蹤調查 CFPS(Chinese Family Panel Studies)進行,通過尋找和設置一些工具變量來間接評價脫貧攻堅相關政策的效果。這樣的處理受限于數據來源,缺少部分關鍵變量,可能造成數據分析層面的偏差,進而影響最終結論。由此可見,從國家層面開展針對性的調查,不但可以為各個領域的學者提供權威的分析數據,更為科學、全面評價我國脫貧攻堅的成效,對未來我國經濟政策制定具有深遠影響。
根據《國務院辦公廳關于開展國家脫貧攻堅普查的通知》(國辦發〔2020〕7號)的要求,各級政府已開展脫貧攻堅普查工作,并在此基礎上,通過抽樣調查的方式進行補充、完善[4]。本文從調查的目的、設計思路、權數問題及參數估計出發,對該抽樣方案加以解讀,從專業角度討論該調查設計的科學性,為后續數據分析提供參考。
此次脫貧攻堅調查的目的是:全面了解貧困人口脫貧實現情況,重點圍繞脫貧結果的真實性和準確性,調查貧困人口“兩不愁、三保障”實現情況、獲得幫扶和參與脫貧攻堅項目情況等,為分析判斷脫貧攻堅成效、總結發布脫貧攻堅成果提供真實準確的統計信息。
該調查由普查和抽樣調查兩部分組成。抽樣調查是普查的補充。為增強結論的完備性和科學性,在對832個國家扶貧開發工作重點縣和集中連片特困地區縣、享受片區政策的新疆維吾爾自治區阿克蘇地區7個市縣所有建檔立卡戶進行普查的基礎上,通過抽樣調查了解非國家貧困縣的建檔立卡戶情況。由于此次調查是我國首次對脫貧攻堅的實現情況進行調查,沒有以往的抽樣設計和調查經驗可以借鑒。因此,在設計抽樣方案時,不僅要切合調查目的,還要綜合考慮現實條件的限制。
我們將調查設計中存在的問題和需要克服的困難概括為以下幾點:
1.抽樣框的編制
好的抽樣框不僅與目標總體保持一致,而且能盡可能多地提供與研究的目標量有關的輔助信息[5]。由于此次調查是為了全面了解脫貧攻堅的實施情況,待評估指標與目標變量較多,如何編制抽樣框,便于后期設計抽樣方案、提高估計效率,值得細思。
2.輔助變量的選取
抽樣設計階段往往需要借助輔助信息提高估計效率、減小抽樣誤差,例如,分層抽樣需要借助輔助信息進行分層,確定層的數量、層分界點和每層抽取的樣本量等,系統抽樣中需要“按有關標志排隊”等[5]。眾多的待評估指標和目標變量無疑會為輔助變量的選擇帶來困難。此外,政府其他部門能夠提供的數據一方面難以契合多目標估計的需求,另一方面可能會由調查的時間差引入其他誤差。
3.樣本量的確定與分配
相比單一抽樣設計來說,復雜抽樣下的樣本量的確定更為復雜,不僅要達到精度需求,更要結合現實條件的限制,考慮調查目標的多樣性和復雜性。該調查除需要掌握全國層面的情況外,還要了解各?。▍^、市)的脫貧攻堅實施情況。因此,樣本量的確定需同時滿足全國層面和省級層面的精度需求。此外,對非建檔立卡戶的抽樣計劃采用入戶調查的方式進行,一些偏遠地區如內蒙古、新疆和西藏等,地廣人稀,調查成本較高,需要耗費較大的人力、物力和財力。這意味著,在分配各抽樣階段的樣本量時,還需考慮地方執行部門的調查能力,平衡調查成本。
1.抽樣框的編制
抽樣框是抽樣總體的具體體現。根據調查目的可以確定抽樣總體是中西部20個省(區、市)非國家貧困縣的建檔立卡戶,共涉及1072個縣約758萬建檔立卡戶。由于西藏自治區、青海省沒有非國家貧困縣,因此不參與抽樣。
為便于后續抽取樣本和分析數據,抽樣框還需包含相關的輔助信息。最終確定的抽樣框資料包括各非國家貧困縣的建檔立卡戶數和人數、農村戶籍人口數等指標,數據來源于2019年國務院扶貧辦建檔立卡信息系統,保證了數據的可靠性,能夠降低由于時間差異可能造成的抽樣框誤差。
2.抽樣方法
為了解全國非建檔立卡戶的脫貧攻堅情況,得到更加全面的評價結果,不僅要對全國層面的脫貧實現情況進行估計,還要掌握各?。▍^、市)的脫貧實現情況。因此,應采取以?。▍^、市)為總體的抽樣方案,各?。▍^、市)內再分別抽取下一級單元。
各省(區、市)內非國家貧困縣之間的脫貧情況也是有差異的,可以考慮概率比例規模抽樣(以下簡稱PPS抽樣)與分層抽樣兩種方式。若采用PPS抽樣,必須要有能說明每個單元規模大小的輔助變量來確定每個單元的入樣概率[5]。具體地,該調查的輔助變量可采用以下兩個指標,一是各非貧困縣的總戶數(或總人口數),二是各非貧困縣內貧困戶的戶數(或總貧困人口數)。對于前者,總戶數(或總人口數)多的縣不一定貧困戶的戶數(或總貧困人口數)多,據此抽取樣本會造成成本的浪費,并且可能會產生額外的誤差,降低估計精度;對于后者,貧困戶的戶數(或總貧困人口數)是一個動態變化的指標,且具有較強的時效性,難以獲得較準確的度量值,無法保證估計效果。因此,該調查選擇采用分層抽樣的方式抽取省內的非貧困縣,具體原因可概括為以下四點:第一,分層抽樣原理較簡單,在各層內獨立抽樣,方便調查工作的組織實施;第二,分層抽樣適用性強,經得住現實考驗,是全國各種大型抽樣調查最常用的方式之一;第三,輔助變量的選擇限制相對更少,在輔助變量與待研究變量相關的前提下,方便綜合考慮數據的可獲取性和準確性來選擇合適的分層指標,有利于提高抽樣效率;第四,分層抽樣通過分層減少了地區發展不平衡對調查的影響,使樣本中包含各種特征的單元,樣本的分布更加均勻,從而增強了對總體的代表性,提高了估計精度。
分層抽樣中,只要合理選擇了層的劃分指標,分層抽樣的精度會高于簡單隨機抽樣及其他抽樣方式[5]。對于該調查,根據上文對PPS抽樣輔助變量選擇的分析,綜合考慮數據的可獲取性和準確性,層的劃分可依據以下指標進行,一是各非國家貧困縣的建檔立卡戶數(或人數),二是各非國家貧困縣的建檔立卡戶數占總戶數的比重,三是各非國家貧困縣建檔立卡人數占農村戶籍人口數比重。最終決定采用第三個指標進行分層,該指標與貧困發生率(建檔立卡未脫貧人口數占農村戶籍人數的比例)有直接關系,能綜合評價不同縣的貧困人口狀況,且該指標可從2019年國務院扶貧辦建檔立卡信息系統中獲得,保證了數據的可靠性。
將各非國家貧困縣劃分到不同層后,在各層內獨立進行縣的抽取,由于分層時考慮了不同縣的貧困人口狀況,因此,在層內可采用隨機抽樣的方式抽取縣,例如簡單隨機抽樣、等距抽樣等。本調查在實施過程中,將每層內的非國家貧困縣按照建檔立卡戶數量從高到低排序,采用隨機等距方法抽選樣本縣。這樣做的目的是,使各層內不同建檔立卡戶數量的縣分布更加均勻,提高樣本代表性。為進一步提高工作效率,節約人力、物力等成本,確定樣本縣后,可以對該縣內所有建檔立卡戶進行全面調查。
綜上所述,此次脫貧攻堅抽樣調查的方案是:以?。▍^、市)為總體,省(區、市)內采用分層整群抽樣的方法抽取非國家貧困縣,樣本縣內所有建檔立卡戶全部參與調查。
3.樣本量的確定和分配
以?。▍^、市)為總體,在95%的置信度下,建檔立卡戶“兩不愁,三保障”實現情況的絕對誤差控制在0.05%的范圍內,由于該指標屬于比例,根據樣本量的計算公式,可得:

由上式可知,每?。▍^、市)需要抽選不少于11144個建檔立卡戶進行調查,以達到0.05%的絕對誤差要求。為進一步提高估計精度,對于非國家貧困縣數量較多、建檔立卡戶數量較多的?。▍^、市),可適當增加樣本量。
根據絕對誤差計算各?。▍^、市)要抽取的建檔立卡戶數是為了得到一個最低樣本量,以便在抽樣和后續數據處理時進行對比,保證估計精度。根據抽樣設計,在確定各省(區、市)要抽取的樣本縣數量時,需要參考該?。▍^、市)非國家貧困縣數量和建檔立卡戶數量的分布。非貧困縣數量少、建檔立卡戶數量少的省(區、市)少抽,非貧困縣數量多、建檔立卡戶數量多的?。▍^、市)多抽。結合調查成本,最終確定各?。▍^、市)抽取的樣本縣數量在2—8之間。為便于后續進行誤差估計,每層抽選的樣本縣數量需為偶數。根據上述的樣本分配方式,本調查最終共抽取了100個非國家貧困縣。
現行的抽樣方案,采用以?。▍^、市)為單位,各?。▍^、市)內分層整群抽樣的方式進行。通過分層,使層內各縣建檔立卡人數占農村戶籍人口數比重相近,抽選少量樣本縣即可較好地代表該層情況;各層內采用隨機等距的方式抽取,使得層內不同建檔立卡戶數量的樣本縣分布均勻。據此抽取的樣本代表性強、抽樣效率高。
分層抽樣采用了非國家貧困縣建檔立卡人數占農村戶籍人口數比重作為輔助變量進行分層,該指標能綜合評價不同縣的貧困人口狀況,具有很好的借鑒性。層內等距抽樣的排序指標采用各縣的建檔立卡戶數量,確保了各縣有均等的概率入樣。此外,以上輔助信息均可從2019年國務院扶貧辦建檔立卡信息系統中獲取得到,能夠保證數據的準確性和可信度。
樣本量的計算從估計出發,在達到精度要求下,確定各?。▍^、市)要抽取的建檔立卡戶數量,再確定各層抽取的樣本縣數量。考慮到后續估計的便利性,規定層內抽取的樣本縣數量為偶數。根據抽樣設計,最終抽取了100個非國家貧困縣樣本。將各縣的建檔立卡戶數量匯總到各?。▍^、市)進行核查,結果顯示,各?。▍^、市)的總建檔立卡戶數均不小于11144,滿足精度需求。
根據抽樣設計可以計算設計權數,后續調整以設計權數為基礎,校正抽樣實施過程中出現的與計劃不符的情況。隨后,還應對調整后的權數進行評估,以度量權數對估計的影響,決定是否對權數變異性進行進一步的控制。
根據抽樣設計,中西部20個省(區、市)的1072個非國家貧困縣中,以?。▍^、市)為總體,采用分層整群抽樣的方法共抽取了100個非國家貧困縣,對抽中縣的所有建檔立卡戶進行全面調查。根據方案,設計權數的計算需要考慮四個層面,分別是省級、層級、縣級和戶級。每個?。▍^、市)都進入樣本,各?。▍^、市)的入樣概率相等,在對省級層面的情況進行估計后可直接簡單匯總得到全國層面的結果,因此,省級權數相等。對省(區、市)內的縣進行分層抽樣,層級權數與分層指標相關,由該層所有的建檔立卡戶數和全省建檔立卡戶數的比值決定??h由等距法抽取,抽中縣內的卡戶均參與調查,因此,縣級和戶級權數均相等。
根據以上分析可以得到,對于j?。▍^、市)第h層第i縣的戶而言,其中,Nj表示j省(區、市)的非國家貧困縣數量,Njh表示j省(區、市)第h層的非國家貧困縣數量,njh表示j省(區、市)第h層抽中的非國家貧困縣數量。因此,j?。▍^、市)第h層第i縣的各戶權數。
1“.無回答”情況的處理
此次調查中,“無回答”的來源可分為三種,分別是整戶自然減少、失聯和拒訪。如何處理需考慮“無回答率”的高低。
根據抽樣設計,為保證估計精度,每個?。▍^、市)需要抽選約1萬個建檔立卡戶進行調查。分別統計20個?。▍^、市)的普查登記成功訪問戶數,結果顯示,各?。▍^、市)有效戶數均達到設計精度要求。因此,有理由采用直接剔除的方式處理“無回答”戶,以抽中縣有效戶數作為該縣建檔立卡戶數,未抽中縣的建檔立卡戶數以抽樣時國務院扶貧辦提供的數據為準。
2.校準調整
在“無回答”戶進行刪減后,“無回答”戶的戶權數變為0,根據原有戶權數推算的j?。▍^、市)第h層的建檔立卡戶數與實際建檔立卡戶數Mjh存在明顯差異。因此,應在層級層面根據建檔立卡戶數進行校準,對于j省(區、市)第h層而言,校準權數。由此可得,j?。▍^、市)第h層第i縣的最終戶權數,m表示 j省jh(區、市)第h層抽中的所有建檔立卡戶數。
通過對權數的校準調整,提高了樣本對總體的代表性,但可能會導致權數自身大小有差異。權數的波動性過大會增加估計方差,造成估計的有效性降低[6]。是否需要對權數進行進一步的調整,控制權數的變異性,應在對權數評估后決定。
我們對校準后的權數計算權效應,得到權效應的數值為1.193,這表明權數的變異性對估計量方差的影響不大,本調查無需對校準權數進行截取調整。
經過以上分析,該調查通過科學的抽樣設計得到了代表性強的樣本,并經過合理的權數調整校正了可能存在的偏差,確保了估計量的準確性。如何利用權數進行估計,與不同的估計問題有關。
此次抽樣調查中,入戶調查涉及的內容主要包括建檔立卡戶基本情況、“兩不愁、三保障”實現情況、獲得幫扶和參與脫貧攻堅項目情況、主要收入來源等。對應的估計問題可分為兩個層面,分別是戶層面的比重估計和人層面的比重估計?,F以j省為例,分別從戶層面和人層面,對建檔立卡戶“兩不愁、三保障”實現情況及其方差進行估計。假設j省有Nj個非國家貧困縣,根據抽樣設計劃分為Hj層,每層抽取了njh個非國家貧困縣。






為了科學、全面地評價脫貧攻堅的成效,我國定于2021年前后開展脫貧攻堅調查。該調查包括普查和抽樣調查兩部分,普查針對的是國家貧困縣的建檔立卡戶,抽樣調查作為普查的補充,針對的是非國家貧困縣的建檔立卡戶。
由于此次調查是我國首次對脫貧攻堅實現情況進行的針對性調查,具有參考資料少、調查目的多和調查能力有限的特征,這無疑會為抽樣框的編制、輔助變量的選取以及樣本量的確定與分配帶來困難。
現行的抽樣方案,根據2019年國務院扶貧辦建檔立卡信息系統編制抽樣框,采用以?。▍^、市)為單位,各?。▍^、市)內分層整群抽樣的方式進行。設計權數的調整分“無回答”調整、校準調整兩步。對于調查中涉及的輔助變量,無論是前期的方案設計還是后期的權數調整,均有可靠的數據來源,且在使用過程中符合抽樣理論,具有可信性和合理性。最終抽取的樣本量能同時滿足國家層面和省級層面的估計需求。此外,本文將該調查關注的估計問題分為戶和人兩個層面,并給出了估計量及其方差的計算方式。
至此,本文完成了對該調查設計科學性的論述,為各領域學者基于該調查數據進行相關具體問題的研究分析提供參考。