非概率抽樣包括目標抽樣、時間地點抽樣、滾雪球抽樣、馬爾科夫過程抽樣、同班驅動抽樣等。在計算、存儲能力的限制下,全數據的獲取還難以實現,抽樣調查仍然將在一段時間內成為我們獲取數據的重要方式,因此如何改進已有的抽樣調查方法來適應大數據特點,就成為了我們必須解決的問題,而非概率抽樣方法作為重要的抽樣方法,在這個背景下就被廣泛的使用。其中滾雪球抽樣的應用最為廣泛。
滾雪球抽樣被廣泛地應用于定性的社會學研究中。而就目前來看,國內學者利用滾雪球抽樣進行的研究少之又少,而國外學者已經對滾雪球抽樣進行了十分細致的研究。因此本文從國內和國外兩個方面對滾雪球抽樣的研究進行闡述。滾雪球抽樣是一種可以獲得有效估計量的抽樣設計方法,該方法不僅允許個體提供有關自己的信息,而且提供其他相關個體的信息。傳統方法是基于漸進理論對模型進行推論的,但在小樣本的情況下,置信度的準確性是令人質疑的。
我國關于滾雪球抽樣的應用并不多見,文獻主要集中在米子川老師及他的學生所做的成果。米子川[14](2015)首次提出在滾雪球抽樣中使用捕獲再捕獲抽樣估計的方法來推斷某些特定群體規模的方法,基于此方法對太原市某社區心腦血管病人的規模和用藥情況進行估計,結果表明,滾雪球抽樣通過捕獲再捕獲方法的模擬和估計,得到了更精確的推斷結論。此方法對非概率抽樣的滾雪球抽樣進行進一步發展和推廣。米子川、金勇進和程開明等學者對大數據時代下的非概率抽樣方法進行了深入探究。米子川和聶瑞華[15](2016)將包含滾雪球抽樣的多種非概率抽樣方法與互聯網數據產生的特點相結合,提出在互聯網大數據背景下繼續使用非概率抽樣的思想,例如可以基于微博等社交網絡產生的大量數據,將滾雪球抽樣拓展到針對社會網絡群體的數據搜集工作上。在此基礎上,米子川和聶瑞華[16](2016)詳細介紹了利用非概率抽樣方法對社會網絡人群抽樣的研究現狀,并將滾雪球抽樣與其他非概率抽樣進行了比較,在此基礎上給出了作者的認知和應用的思考。作者認為,當需要在線上發起一項調查時,同伴驅動抽樣可能將是一種較好的調查方式,因為它加入了二次激勵的機制,而如果想要對社交網絡中某一群體的特征做研究,考慮到網友之間的推薦關系可由已存在的“好友”關系所替代,借助網絡技術就能達到搜集數據的目的,滾雪球抽樣和同伴驅動抽樣的效果是基本相同的。金勇進[17](2016)認為利用大數據進行抽樣,很多情況下由于抽樣框的構造比較困難,使得抽取的樣本屬于非概率樣本,傳統的抽樣推斷理論難以應用到非概率樣本中,他因此提出了解決非概率抽樣統計推斷問題的基本思路:一是抽樣方法的改進,可以考慮基于樣本匹配的樣本選擇、鏈接跟蹤抽樣方法等,使得到的非概率樣本近似于概率樣本,從而可采用概率樣本的統計推斷理論;二是權數的構造與調整,可以考慮基于偽設計、模型和傾向得分等方法得到類似于概率樣本的基礎權數;三是估計方法的選擇,可以考慮基于偽設計、模型和貝葉斯的混合概率估計。程開明[18](2017)等學者對大數據背景下還需要抽樣的定論進行了辯證分析,他認為大數據與抽樣的關系是互補的而非排斥的,在大數據背景下合理利用抽樣技術能夠更有效地開展數據搜集和分析,更好地釋放大數據的能量,挖掘大數據的價值。還有學者Frank和Snijders(1994)從頻率的角度,使用基于設計和模型的方法來估計隱藏人口的大小。 在本文中,我們考慮他們的圖形模型,并從貝葉斯觀點來解釋估計隱藏人口大小的方法。通常,有關要估計的參數的先前信息是可用。 通過貝葉斯方法有效地使用這些信息可能會改進的估計量。 初始樣品是在本文考慮的設計下進行選擇的。
滾雪球抽樣雖然應用廣泛,它也存在一些缺點。比如,初始樣本的選擇往往不是隨機的,隨著抽樣過程的進行,無法得到無偏估計;抽樣過程傾向于一些愿意合作的對象,較為排斥的對象自然參與度較低;一些敏感度較高的問題,也會導致抽樣過程難以進行下去。滾雪球抽樣方法還需要不斷的探索與推廣。
參考文獻:
[1]米子川.并發多樣本滾雪球抽樣的捕獲再捕獲估計[J].統計決策,2015(6):32-39.
[2]米子川,聶瑞華.大數據下非概率抽樣方法的應用思考[J].統計與管理,2016(04):11-12.
[3]米子川,聶瑞華,衛軍. 大數據下社交網絡人群抽樣方法文獻綜述[J].經濟師,2016(3).
[4]金勇進,劉展.大數據背景下非概率抽樣的統計推斷問題[J].統計研究,2016,33(03):11-17.
[5]程開明,宋藝旋.大數據還需要抽樣嗎[J].中國統計,2017(11):10-13.
[6]李金昌.大數據與統計新思維[J].統計研究,2014,31(01):10-17.
[7]趙國棟,黃永中.網絡調查方法概論[M].北京:北京大學出版社,2008.
作者簡介:
寧勐(1993—),女,山西臨汾人,山西財經大學2016屆(統計學院)統計學.