艾小青
(北京工業大學 經濟與管理學院,北京 100124)
嚴格意義上的隨機抽樣,要求總體每個單元都有一定的概率被抽中,被抽中的概率稱作入樣概率,其值要大于0小于1。對于簡單隨機抽樣而言,在抽樣階段不借助任何輔助信息,總體單元平等對待,每個單元的入樣概率都相等。總體單元中存在極端值(包括極小值和極大值兩種情況)時,由于極端值的影響,總體自身的差異性較大,若直接采用隨機抽樣,估計量的抽樣方差將較大,使得估計精度較差。
本文將對有極端值存在時的隨機抽樣進行處理,主要理念是對極小值單元可以從抽樣框中剔除,對極大值單元可以確定為必抽單元,再進行隨機抽樣,使得隨機抽樣的抽樣框不包含極端值,從而減小估計量的抽樣方差。這種處理方法雖然不可避免的帶來了一定的偏差或損失,但在一定條件下能有效地減小抽樣方差,所以能減小總的均方誤差,從而提高了估計精度。同時從定性判斷的角度來說,極小值單元的影響可以小到忽略不計的程度,極大值單元的影響可以大到必然入樣的程度,這也是符合邏輯的。
本文中隨機抽樣以簡單隨機抽樣為例,估計量以總量估計為例,因為有極端值存在時,此時均值并沒有很好的代表性,不宜估計均值,但估計總量仍然是成立的。本文將針對極小值和極大值兩種情況分別討論,從論證和例證兩個角度揭示方法的應用條件和改進效果。




下面我們通過一個具體例子來說明。
例1:總體單元的27個值(按從小到大排列):

以上論證是以刪除一個特定值為例,刪除多個特定值下也有類似的性質。該結論的意義在于:若刪除極端值的干擾,使得總體自身的差異程度減小,應用于隨機抽樣中,將有可能使得抽樣方差相應減小。
在實際應用中,無法在調查之前知道哪些單元為極端值,需要借助相關輔助變量進行判斷。判斷要包含兩個方面:一是哪些單元的取值很小(或大),二是取值是否小(或大)到可以理解為極小值(或極大值)的程度。
一般情況下,如果能找到一個與目標變量存在正向相關關系的輔助變量時,輔助變量極小,目標變量也可能極小,輔助變量極大,目標變量也可能極大。當取值與均值的偏差在正負3σ以外時,一般可理解為是極端值。
還可以參考歷史數據或相關資料,或者通過定性分析來進行極端值的判斷。
一般說來,人們都是把均方誤差作為評價抽樣方法優劣的標準。即使有時估計量是有偏的,然后由于偏差小,估計量方差也比較小,從而使得均方誤差也比較小,這時選擇有偏的估計量也是更優的[1]。
本文中我們將針對極小值和極大值兩種情況,分別計算新方法下估計量的均方誤差,并與傳統簡單隨機抽樣下估計量的均方誤差做比較,如果基于相同的總樣本量,新方法下的均方誤差較小,說明新方法相對更優,具有對傳統抽樣方法的改進效果[2]。

把極小值單元從抽樣框中剔除,再進行隨機抽樣,雖然這不可避免的帶來了系統性的偏差,但只要能更大程度的減小方差,也能使得總的均方誤差減小。并且極小值單元的影響如果很小便可以忽略不計,這也是符合邏輯的。
假設確定了k個極小值單元不予調查。在總體余下的N-k個單元中,隨機抽取n個單元進行調查。
總體總量的估計為:

以例1中的數據為例,若剔除k個最小單元,總量估計均方誤差的結果見表1:

表1 剔除極小值后總量估計的均方誤差
可見:
1、當剔除最小單元的數量不超過5個時,均方誤差都會相比99203有所減小。
2、當剔除3個最小單元時,均方誤差減小的幅度最大,減小為86256。
所以,當總體單元中存在極小值,并且能判斷出哪些單元是極小值時,該方法將有較好的應用效果。
特別說明的是,若事先無法判斷極小值的情況,便不能輕易的剔除單元,以例1中的數據為例,若隨機剔除k個單元,總量估計均方誤差的結果見表2:

表2 隨機剔除單元后總量估計的均方誤差(一次模擬結果)
可見,在剔除單元的時候一定要慎重,否則將會有適得其反的結果。因為某些單元的取值可能并不是極小,卻被剔除了,這樣將使得估計的誤差增加。剔除單元數量越多,誤差就越大。
把極大值單元確定為必抽單元,再進行一定數量的隨機抽樣,在總樣本量一定的限制下,隨機抽樣的樣本量有一定程度的減小,只要能使得總的均方誤差減小,該方法也是更優的。并且極大值單元的影響如果大到必抽的程度,這也是符合邏輯的。
假設確定了k個極大值單元作為必抽單元。在總體余下的N-k個單元中,再隨機抽取n-k個單元進行調查。
總體總量的估計為:

仍以例1中的數據為例,若把k個最大單元確定為必抽單元,總量估計均方誤差的結果見表3:

表3 確定必抽單元后總量估計的均方誤差
可見:
(1)因為總的樣本量是10,所以必抽單元的確定個數最大為9。所有這9種情況下,均方誤差都會相比99203有所減小。
(2)當確定必抽5個最大單元時,均方誤差減小的幅度最大,減小為18017。
(3)相比對極小值的處理,對極大值處理下的改進效果更為明顯。
特別說明的是,如果不能確切的判斷出哪些單元是極大值,假設是隨機確定了k個單元作為必抽單元,在總體余下的N-k個單元中,再隨機抽取n-k個單元進行調查,此時相當于直接在總體的N個單元中隨機抽取n個單元[3],該方法將是無益之舉,與傳統的簡單隨機抽樣沒有區別。
說明在實際應用中,當總體單元中存在極大值時,只有在能確切地判斷出哪些單元是極大值的情況下,該方法才有很好的應用效果。
極端值存在時,有極小值或極大值兩種情況:
對于極小值,如果能通過相關信息確定若干個影響程度可以忽略不計的極小值單元,可以先把這些極小值單元剔除,再進行隨機抽樣,這樣雖然帶來了一定的偏差(不大),但可以減小抽樣方差,使得總的均方誤差可能減小,提高估計精度。
對于極大值,如果能通過相關信息確定若干個影響程度很大的極大值單元,可以先把這些極大值單元確定為必抽單元,再在余下的單元中進行隨機抽樣,在抽樣推斷中結合必抽單元和抽樣單元進行估計,這種估計是無偏的,并且在一般情況下,都能使得總的均方誤差減小,提高估計精度。
這種改進方法應用于有極端值存在并已知的情況下,事實上它已有著廣泛的現實應用,比如在我國的企業調查中,一般對大企業進行普查(相當于對極大值進行必抽),對中小企業進行抽樣調查。本文的意義在于明確的提出了對有極端值存在時隨機抽樣的改進方法,并論證和例證了該方法的優良性質和改進效果。
[1]金勇進,杜子芳,蔣妍.抽樣技術(第二版)[M].北京:中國人民大學出版社,2008.
[2]盧宗輝等.抽樣方法的比較研究[J].數量經濟技術經濟研究,2005,(4).
[3]艾小青,金勇進.樣本追加——一個抽樣技術難題的探析[J],統計教育,2008,(11).