田少娟??
作者簡介:田少娟(1993—),女,山西長治人,山西財經大學2016級(統計學院)統計學
摘 要: 捕獲再捕獲方法早期由野生動物學家提出,應用于生態學領域,后經不斷發展,目前已被廣泛用于除生物科學外,社會科學、醫學和公共衛生等調查研究中以及更廣泛的領域中。本文從理論研究和應用領域研究兩個方面評述捕獲再捕獲抽樣方法的研究進展,并提出下一步研究方向。
關鍵詞: 非概率抽樣;捕獲再捕獲;估計量
【中圖分類號】 O212.2 【文獻標識碼】 A 【文章編號】 2236-1879(2018)11-0170-01
捕獲再捕獲的方法早期由野生動物學家提出,用于估計限定區域內野生動物種群的大小,后經不斷發展目前已被廣泛用于除生物科學外,社會科學、醫學和公共衛生等調查研究中,甚至有學者將捕獲再捕獲方法用于改進互聯網搜索第三方結果精度以及更廣泛的領域。捕獲再捕獲抽樣是一種常用的非概率抽樣方法,在現有的國內外文獻中,對捕獲再捕獲方法的研究主要包括理論研究與實際應用。
一、理論研究
理論研究集中于如何提高估計精度、減小誤差。最初由Lincoln(1930)發展了Petersen的估計量(簡稱P統計量),提出了LP估計量。隨后Chapman(1951)對LP估計量做了改進,提出了新估計量即C統計量。目前,兩種估計量廣泛應用在實際領域中,但研究者發現了這兩種估計量存在的一些缺陷,在之后的研究中不斷做改進。Brittain(2009)主要探討了不同估計量的性質,利用捕獲再捕獲方法估計傳染病的傳播情況,構建不同的估計量及它的修正形式,通過比較估計值與真實值討論不同估計量的性質,并提出進一步優化建議。Jones(2015)等運用捕獲再捕獲方法估計英國布里斯托爾吸毒(或注射毒品)的發生率,并說明單純地使用捕獲再捕獲方法會產生錯誤的結果,最后提出了解決問題的辦法:要仔細考慮數據來源是否適合捕獲再捕獲、將列表減少到更少的異構子樣本、使用協變量和納入外部數據。國內理論研究的主要貢獻有:文平(2001)介紹了捕獲-再捕獲抽樣的思想方法,提出了一個復合估計量,改進P估計量假定樣本中每個入樣單元入樣概率相同導致的估計量方差較大的缺陷,在之后的研究中還提出了一種多元組合估計量。楊貴軍等(2011)對捕獲再捕獲抽樣常用的LP估計量和C估計量的統計性質進行模擬比較,并提出一個新的估計量。
二、應用領域研究
實際應用領域主要在流行病學發病率、吸毒人群等隱形人群規模的估計中,隨著方法的不斷成熟,也有學者應用在一些新的領域,如估計商品總需求量。
在流行病學研究中的應用始于Wittes&Sidel,用捕獲再捕獲方法估計出生缺陷率,后來越來越多被用于傳染病、濫用藥物、腫瘤等流行病研究中,但大多運用兩樣本的捕獲再捕獲方法,如程慧健等人運用江西省1996-2000年傳染病疫情報告和醫院漏報調查作為兩次捕獲樣本,利用捕獲再捕獲兩樣本模型估計地區的傳染病發病率。楊茜茹(2017)嘗試使用多樣本捕獲再捕獲方法,利用廣泛使用的對數線性模型,通過擬合各樣本間的相依性,可以不考慮各樣本相互獨立的假設,從最簡單的模型開始逐步擬合,根據離差統計量選擇最優模型估計云南每個疫情地區的肺結核患者數,計算每個疫情地區肺結核患者的漏報率與漏失率。在其他領域的研究有:估計吸毒群體規模。梁伯衡,欒榮生(2004)以樂山市進入戒毒所戒毒的吸毒人員登記資料為分析數據,建立捕獲再捕獲使用的分析數據模型,估計當地吸毒人群基數。估計隱藏人口規模。Coumans(2017)等人研究使用捕獲再捕獲方法估計荷蘭無家可歸的人口規模,使用了2009年-2013年的荷蘭人口登記表、低收入群體收入保障表、國家煙酒個體信息登記表三個數據來源,采用三樣本捕獲再捕獲,建立對數線性模型估計無家可歸人口規模。邱泓,高霖琳在對難以接觸的女性性工作者規模估計的研究中對流動群體采用了捕獲再捕獲方法,在昆明市特定區域18個調查點開展調查,利用C統計量的無偏移計算公式估算目標人群總體規模。估計漏報率水平。張高輝,郭曉雷(2015)應用捕獲再捕獲方法評價山東省居民2012-2013年死因登記漏報率水平,采用分層整群抽樣法,將全省所有縣(市、區)按照2012年死因登記系統報告死亡率分成5層,以當地公安、民政和村(居委會)搜集到的人口死亡情況和死因登記系統已報告的死亡資料作為捕獲再捕獲模型,利用C提出的計算公式估算漏報率水平。
還有一些較新的研究領域:榮國平(2017)將捕獲再捕獲應用于軟件測試中,用于預測軟件評審后缺陷。智冬曉,許曉娟(2018)以互聯網電商所銷售的短生命周期商品為特定的實證分析對象,使用時變-行為反應模型,結合ARIMA模型分析捕獲概率,對商品在整個生命周期內潛在的市場總需求量進行估計。
三、研究評述
通過對國內外捕獲再捕獲抽樣方法的研究現狀評述得出,捕獲再捕獲抽樣方法在理論研究與實際應用領域都有廣泛應用,在下一步的研究中應考慮如何優化估計量以及如何設計抽樣方案將此方法應用于互聯網大數據中。
參考文獻
[1] Brittain. Estimators in capture–recapture studieswith two source[J] Asta Advances in Statistical Analysis, 2009, 93(1)
[2] 文平.捕獲-再捕獲抽樣中的多元組合估計量[J].生物數學學報,2011,26(04)
[3] 楊貴軍,劉艷玲,王清.捕獲再捕獲抽樣估計量的模擬研究[J].統計與信息論壇,2011,26(03)
[4] 楊茜茹.云南省3縣(市)肺結核病例存量研究[D].昆明醫科大學,2017.
[5] 梁伯衡,欒榮生.捕獲再捕獲法估計吸毒人群基數的數據模型研究[J].中國預防醫學雜志,2004(04).
[6] 張高輝,郭曉雷,鹿子龍,孫建東,徐愛強.應用捕獲再捕獲方法評估山東省死因登記漏報率水平[J].中國慢性病預防與控制,2015,23(05)
[7] 智冬曉,許曉娟.短生命周期商品市場總需求量估計——基于ARIMA-捕獲再捕獲模型的研究[J].統計與管理,2018(01)