適應性群團抽樣,最早由Thompson提出,針對稀疏總體分布估計的抽樣方法。適應性群團抽樣是一種自適應抽樣方案,它的工作原理是:當一個初始選擇的抽樣單元的觀測值滿足一定的條件C時,在一些預定義的伴隨鄰域內的其他附加單元也將被添加到樣本中;反過來,如果這些額外的單元滿足C,那么它們的相關單元鄰域也會被添加到樣本中,以此類推。當沒有遇到滿足C的附加單元時,此過程將停止。本文將介紹ACS的主要發展和問題。
1 ACS抽樣介紹
在自適應抽樣方案下,選擇樣本單位的程序可能取決于在調查期間所觀察到的有關變量的值,即抽樣是根據數據“調整”的。“一般來說,這意味著如果你在一個特定的地點找到了你要找的東西,你就在那個地點附近取樣,希望獲得更多的信息。”通過此種方法,我們得到一個個的網絡,最小的網絡單元是一階鄰域。一階鄰域由單元本身和共享一個共同邊界的四個相鄰單元(表示為北、南、東和西)組成,二階鄰域包含八個單元,由一階鄰域加上西北、東北、西南和東南單元組成。這兩種鄰域類型適用于滿足C的y趨于聚集且沒有任何特定方向的研究。然而,面向社區抽樣時,鄰里關系可以通過單位之間的社會關系來定義,從技術上講,附近的單元不必是物理上相鄰的。ACS適用于:總體是個體趨于聚集且個體數量相對較少的群體。在這些情況下,如果使用經典的抽樣設計(簡單隨機抽樣),大多數測量值將為0,許多群團將被遺漏。因此,與估計總體均值或總體有關的方差將很大。
ACS現已被廣泛適用于生態學、生物學、流行病學、環境科學、人口統計學和地質學ACS還可能適用于由于群集、分散模式和環境碎片性等因素而具有聚集傾向的動植物種群。
2 ACS抽樣設計
(1)選擇初始樣本
ACS抽樣的第一步即選擇初始樣本,關于初始樣本的選擇方法是多種多樣的,包括:簡單隨機抽樣(有放回和無放回)、條帶抽樣、系統抽樣、分層抽樣、按概率比例大小抽樣和簡單拉丁方抽樣。從成本的角度來看,最后兩個選擇方法的潛在優勢是采樣單元之間的平均距離更小,更容易找到樣方位置。
(2)網絡數量和規模
ACS抽樣方法的基礎是網絡單元的選取。網絡的實際數量取決于總體的空間結構、臨界值和鄰域單元的設計。
① 總體的空間結構
在一項模擬研究中,利用泊松聚類過程的一種變體,以不同的速率k1生成200個種群。獨立個體在不同距離的星系團中心呈指數分布。隨著總數的增加,網絡的數量增加,達到最大值,然后減少。這是由于超網絡現象。也就是說,在某一時刻,當k1增加時,相鄰的網絡開始合并,形成更大的網絡,從而形成更少的總體網絡。
②臨界值
一個小的臨界值可以導致更大(數量更少)的群團的形成,而一個大的臨界值可以導致更小(數量更多)的群團的形成。因此,臨界值的選擇將取決于抽樣工作是集中于對較大的單個集群進行抽樣,還是集中于對許多較小的群團進行抽樣,而這些較小的群團最終取決于最大的變異源在群團內部還是群團之間。
③ 鄰域單元的設計
Chrisman使用三種類型的社區對幾個人群的ACS進行了研究。結果是,最有效的ACS設計是基于物理上相鄰的單元來利用鄰域。對于所有的總體,網絡的數量隨著鄰域定義的大小的減小而增加。小鄰域定義的使用提高了總體臨界值越大(網絡數越多)的相對效率,而對于非常低的臨界值(網絡數越少),相對效率越小。
(3)估計量的選擇
① Hansen-Hurwitz估計量
② Horvitz-Thompson估計量
(4)額外抽樣的標準
在某些調查情況下,條件的選擇可能很難或不可能確定。也許研究者還想尋找y的高值。在這種情況下,可以根據觀察到的樣本值,根據樣本順序統計量來確定額外抽樣的標準。
3 ACS抽樣方法的發展
(1)兩階段適應性群團抽樣
關于自適應群團抽樣方法的一種發展是采用兩階段設計方法,提出的目的是為了避免使用邊緣單元,具體方法是:主要抽樣單元被選擇,并根據預設條件的值,對整個主要單元進行調查;在下一步中,如果滿足第二個條件,則選擇周圍的主樣本單元。
(2)逆自適應群團抽樣
逆自適應群團抽樣方法中預先規定最初抽樣單元數中非零觀察值的樣本數量,直至抽到滿足的樣本數量,則最初形成的網絡數小于等于最初的單元數。
參考文獻
[1] Steven K. Thompson. Adaptive Cluster Sampling[J]. Publications of the American Statistical Association,1990,85(412):1050-1059.
作者簡介:郭歡萍(1994-)山西晉中人,研究方向:非概率抽樣。