摘 要:樣本的代表性的提高對于抽樣調查工作質量有著重要意義。樣本的代表性受抽樣設計和抽樣實施兩個方面諸多因素的影響,抽樣設計的相關因素主要影響到系統性誤差;抽樣實施的相關因素主要對隨機性誤差有較大的影響。所以有針對性地采取有效措施,可以減少抽樣誤差,提高樣本代表性。
關鍵詞:抽樣調查;樣本;抽樣誤差;抽樣方法;代表性
中圖分類號:F22 文獻標志碼:A 文章編號:1673-291X(2011)33-0153-03
抽樣調查的目的是通過有限的樣本的指標(樣本平均數,樣本成數)來估計總體(population)的參數(平均數,總體成數),由于用樣本來估計總體,所以人們期望樣本能如實地反映總體、代表總體,因而如何提高樣本的代表性,就成為當前研究的熱點之一。
一、樣本代表性的含義
目前在國內,不少關心或從事抽樣調查的統計工作者,對樣本代表性問題,有不同的認識:歷史上有一種觀點認為,樣本的代表性指的是樣本與總體在結構上相似的程度,如果一個樣本在結構上與總體越相似,那么其代表性就越大,否則就越小。因此,在抽樣調查中應該力爭獲得與總體在結構上盡可能相似的樣本,并認為只有這樣的樣本才能提供關于總體目標量的較為精確可靠的估計。另一種頗為普遍的理解是,抽樣估計就是用樣本平均數y來估計總體平均數,即總體均值Y(或同樣的,用樣本比例p來估計總體比例P)。如果y與Y很接近,這個樣本就好,它對總體的代表性就好。
其實以上兩種理解分別從不同的角度各自強調了樣本代表性的一個側面:一方面,利用樣本調查數據對總體目標量進行估計,自然希望樣本應盡可能全面、充分地反映總體的特性,因此希望樣本應盡可能把總體的結構反映出來。其實這是對抽樣設計的要求。1934年著名的波蘭統計學家奈曼(J.Neyman)從理論上說明了應用隨機抽樣比目的抽樣更加合理、更加便于操作,特別是在對總體有所了解的情況下,使用分層抽樣可以提高樣本相對與總體的精度。因為在這樣的情況下,樣本的抽取過程就完全避免了人為的干擾。根據大數定律,當樣本容量較大時,總體中具有各種性質的抽樣單元將各按其比例均衡地出現在樣本中,因而概率樣本能較好地反映總體的特性。另一方面,是要求基于樣本的估計量應具有良好的性質,例如具有無偏性或漸近無偏性、方差小、可用性、相合性,基于樣本構造的估計量的性質就越好,樣本的代表性就越好,反之就越差。這可以看做是對抽樣過程的要求。
通過對樣本代表性的理解,我們可以認為,樣本的代表性是由抽樣設計和抽樣過程兩個方面決定的,是可以通過科學的設計、精確的操作加以控制的。
二、影響樣本代表性的因素
影響樣本代表性的主要因素存在于抽樣設計和實施過程中:
(一)在抽樣設計方面的主要因素
抽樣設計是針對抽樣調查全過程所作的通盤考慮和安排,從一定意義上講,抽樣設計的質量好壞直接關系到系統性誤差的大小,決定了抽樣調查的成敗。
1.抽樣框。抽樣框是指能夠代表全部調查對象(目標總體)并可從中抽取樣本的名錄框架。理想的抽樣框應該由目標總體所決定,和目標總體完全一致。當作為研究對象全體的目標總體與抽樣總體(樣本框)不一致的時候,抽樣框就是不完善的抽樣框。用不完善的抽樣框估計總體必然產生抽樣框誤差,降低估計效率。
現實工作中,在抽樣設計上,常常出現抽樣框設計不完整的現象,以致該包括的單位沒包括,不該包括的單位卻包括了。以此編制的抽樣框,其抽樣誤差大,推斷的準確性差;另外,連續抽樣調查時,抽中樣本的鮮活性和代表性,也是影響抽樣調查數據質量的主要原因之一。隨著經濟社會的快速發展,樣本老化或死亡的速度加快,在調查周期內難已保持樣本鮮活性和代表性。
2.抽樣方法。抽樣調查要求樣本具有代表性,為此需要采取概率抽樣方式,把各種人為的主觀因素,如態度、情感、價值、偏好等等,全部排除在抽樣程序之外,使得抽樣過程近乎一種自然界的隨機選擇狀態,從而做到真正的客觀,讓樣本逼近總體。但在具體抽樣過程中不遵守隨機原則,或變隨機原則為隨意原則,從而導致樣本對總體的代表性大打折扣。同時,幾種抽樣方式各有不同的特點、程序、原則及其適用條件,應該認真研究選擇,避免因為偏好某種方法而濫用,如按有關標識排隊的系統抽樣(包括對稱系統抽樣)得到中國許多統計工作者的歡迎,一時此種抽樣方法風行全國,使得一部分抽樣工作者甚至到了不管什么場合都只采用這種抽樣方法的地步,從而影響了樣本的代表性。
3.樣本容量。樣本容量就是指在每個樣本中所包含的調查對象的數量,其數量多少直接影響到調查結果對于總體結果的推斷。若樣本容量過大,會使得實施難度增大,增加經費的開支;而若樣本容量過小,可能會影響樣本的代表性,使抽樣誤差增大,影響了調查研究推論的精確性。在實際要作中,由于受人力、物力的制約,調查中普遍存在抽取的樣本單位數偏少的現象。
(二)抽樣調查實施過程中的因素
抽樣調查的實施,就是對樣本單位進行登記獲取數據、處理數據、進行推斷的過程,實施過程的質量決定了隨機性誤差的大小。
1.數據獲取。一方面,調查人員由于工作態度、水平、方法等原因往往導致樣本數據的采集不夠全面精確。另一方面,存在無回答現象:由于抽樣調查的組織不夠科學合理,在調查設計上,問題設計不規范,常見的“長問卷”現象、“搭車調查”行為會導致無回答的產生和無回答率的增加;被調查者由于居住條件的變化使得被調查者越來越難接觸、社會環境的變化以及社會治安條件惡化導致被調查者的防備心理增強等原因,不能或不愿配合從而無法接受調查。這兩個方面都會導致抽樣誤差增加,影響樣本的代表性。
2.數據處理及推斷。在對獲取的數據處理之前,由于受時間、資源條件的限制,往往缺少對數據的有效性進行驗證,使錯誤的數據得以應用,增大了誤差。還有一種情況是在數據不夠理想時隨意篡改數據。從樣本對總體目標參數進行估計以及估計量的精確性進行估計,估計方法必須與抽樣方法相匹配。但在現實中,估計方法使用不當的現象常見,如不等概率抽樣使用等概率抽樣的簡單估計;不是隨機排列的系統抽樣的方差估計使用簡單隨機抽樣的方差估計等等。
三、提高樣本代表性的措施
通過以上分析可以看出,抽樣調查在廣泛運用的同時,樣本代表性也面臨諸多因素的干擾,要提高樣本代表性應注重以下幾點:
(一)強化抽樣調查的組織管理工作
一方面,要加強抽樣調查方法的培訓、抽樣調查知識的普及工作。不僅工作人員要熟練掌握抽樣技術,而且領導組織者也應該了解抽樣方法的原理,這對于提高抽樣調查的管理和決策水平很有必要。另一方面,抽樣調查的各階段、各項工作也應制定工作規范,并在工作中得到執行,這是提高抽樣調查工作質量的有力保障。
(二)科學設計抽樣框
抽樣應建立在對形成總體結構的關系和聯系的了解上,使樣本結構與總體結構相一致。如果樣本結構不符合總體結構這個樣本就沒有代表性。設計抽樣框時應注意以下幾個方面:
1.必須根據研究任務確定樣本結構。提出樣本結構依據是主要的研究假設。樣本結構完全決定于研究假設的性質,因為通常總體具有多種不同的特性,欲使樣本的各種特征都與總體相似是不可能的。這就是說,在確定樣本結構時所要考慮的僅僅是那些對于研究中規定的任務來說是本質的總體特征和特性。因此,抽選那些可用于形成樣本的研究客體的特征與特性,是研究假設在抽樣設計上的直接反映。這種樣本應當再現這些特征與特性在總體中的分布。
2.根據研究任務編制好抽樣框,使樣本的抽取有依據。所謂的抽樣框就是總體中所有元素的資料,也可以是總體中所有元素的目錄。合理的抽樣框必須滿足完整性、準確性、對等性、工作方便、觀察單位不重復等要求。
3.在連續性抽樣調查時,應考慮樣本的變化,根據不同的抽樣方式,選擇恰當的樣本輪換方法,以保持樣本的代表性。
(三)恰當選擇抽樣方法
抽樣調查中,為了抽樣實施方便,常常采用分層抽樣、整群抽樣、多階抽樣、系統抽樣。分層抽樣中層的劃分、整群抽樣中群的劃分,多階抽樣中各級別抽樣單元的定義,系統抽樣中抽樣單元的排列順序及抽樣間距的確定,均系人為因素。人為因素將影響上述抽樣設計的具體形式,從而對樣本的代表性會產生兩個方面的影響:或者有利于提高樣本的代表性,或者不利于提高樣本的代表性。
1.對于分層抽樣,抽樣理論證明,分層樣本估計量的方差與層間方差無關,只與層內方差有關。因此分層的原則應是使層內差異盡可能小,層間差異盡可能大,這樣就可以提高估計精度,樣本的代表性就比較好。
2.整群同樣中群的劃分原則正好與分層抽樣相反,群的劃分應盡可能縮小群間差異擴大群內差異,這是因為整群樣本估計量的方差只與群間方差有關,與群內方差無關。因此為了獲得對總體有較好代表性的整群樣本,劃分群時應使群和群之間盡量相似,群內抽樣單元之間差異盡可能大,這樣的整群樣本就能比較好地反映總體特性,使估計量具有較好的性質。
3.多階抽樣中各級別抽樣框內抽樣單元之間的差異都對估計量的精度有影響,所以對多階抽樣,為獲得對總體代表性好的樣本,在定義各級別抽樣單元時應使每一級別抽樣單元之間差異都盡可能小。
4.系統抽樣中抽樣單元的排列順序及抽樣間距的確定直接影響系統抽樣設計形式,從而影響系統樣本的結構及估計量的性質,應根據總體特征選擇適當的單元排列順序和抽樣間距,才能提高估計精度。
(四)合理確定樣本容量
樣本單位數目不是研究者可以任意決定的,它需要考慮以下因素:一是總體的規模。總體的規模越大,所要求的樣本數量也越大,這樣才能保證一定的精確度;二是總體的異質性程度。在異質性程度高的總體中抽所需要的樣本數量大些;而在同質性程度高的總體中抽樣時,所需要的樣本數量可小些;三是抽樣的精確性。置信區間越小,抽樣的精確性程度越高,所需要的樣本數量也越大;置信區間越大,抽樣的精確性程度越低,所需要的樣本數量也越小。
研究者需要綜合權衡、通盤考慮,從而合理地確定適宜的樣本數量,以較低的費用得到精度盡可能高的樣本。
樣本數量的計算上,通常可采用簡化公式n=t/4e2(n為樣本數量,t為置信度所對應的臨界值,e為抽樣誤差率)。只要t值和e值確定,可根據公式,計算出相應的樣本數目。分層抽樣、多階段抽樣,由于它是根據抽樣元素的層次關系,把抽樣過程分層或分幾個階段(初始階段、中間階段、終極階段)進行的,當樣本數量確定后,還存在樣本數目的不同分配問題。這就需要一個分配比例 W=(其中,n表示樣本容量,N表示總體容量),則某層(階段)抽取的樣本數量nk=W*NK。
(五)嚴謹數據處理,科學估計推斷
統計資料的適用性、及時性、可獲得性、可解釋性、一致性和可信性的要求,體現在數據處理的各個環節。調查來的原始資料要運用數學的方法進行加工整理,其方法包括運用數學模型消除季節性因素對統計結果的影響,還包括使用相對準確的已調查數據和其他輔助信息,運用比較嚴謹的方法,對新調查數據進行修正等,確保數據的真實有效。同時,用樣本推斷總體時,也要做到推斷方法和抽樣方法的匹配。
綜上,樣本的代表性表現為樣本與總體的相似性和樣本數據的精確性兩個方面,其代表性大小受抽樣設計和實施過程中多種因素的影響,必須針對這些因素,采取綜合措施,才能有效提高樣本的代表性,提高抽樣調查的工作質量,更好地為各級決策服務。
參考文獻:
[1] 俞純權.關于樣本代表性的理解[J].江蘇統計,2000,(10):15.
[2] 馮士雍.關于樣本對總體代表性問題的認識與討論[J].統計研究,2001,(9):30.
[3] 陳克明,寧震霖.市場調查中樣本容量的確定[J].中國統計,2005,(3).
[4] 馮士雍,施錫銓.抽樣調查——理論方法與實踐[M].上海:上海科學技術出版社,1996.
[責任編輯 陳鳳雪]