蘇州大學醫學部公共衛生學院衛生統計學教研室(215123) 傅 穎 高 歌劉升學 周云華 施佳琛
樣本輪換下兩階段抽樣連續調查的統計方法及應用*
蘇州大學醫學部公共衛生學院衛生統計學教研室(215123) 傅 穎 高 歌△劉升學 周云華 施佳琛
目的為實際需要的樣本輪換下兩階段抽樣連續調查提供科學的調查方法與統計公式,為制定某核電站職工輻射防護措施提供依據。方法采用數理統計學的理論方法推導統計量的計算公式;采用本文研究的樣本輪換下兩階段抽樣連續調查的統計方法,對某核電站職工的白細胞數進行了連續三年的調查分析;采用SAS編程模擬調查分析100個樣本,對本文研究的調查方法及其統計公式作信度與效度評價。結果對樣本輪換下兩階段抽樣連續調查,推導出總體均值的估計量及其方差與估計方差的計算公式;該核電站職工兩階段抽樣均輪換樣本的2010年、2011年白細胞數總體均值的估計量分別為5.88、5.84(103/mm3),其標準誤分別為0.247、0.255,與一般成人白細胞均數的差異具有統計學意義;100個總體均數的95%可信區間均包含模擬總體均數。結論本文研究的樣本輪換下兩階段抽樣連續調查的統計方法具有較好的理論與實際意義以及較高的效度與信度;該核電站職工的白細胞數偏低,應引起相關部門的高度重視。
兩階段抽樣 樣本輪換 連續調查 核電站職工 白細胞
為了調查總體在不同時間上的水平變化、平均水平或者累計,連續調查的方法已廣泛采用。樣本疲勞和代表性下降是多次調查固定樣本的兩個不可忽視的問題。不同次調查中重新抽取新樣本,也存在以下幾個嚴重問題:不能很好地體現出總體隨時間的變化;不能以固定樣本的前期資料對現期總體做出精度較高的回歸組合估計;調查時間、費用、操作要求均比固定樣本高。樣本輪換(sample rotation)是指在樣本容量不變的前提下,每隔一定時間更換部分樣本單元,既保留了部分原有樣本單元,又增加了部分新樣本單元,所以兼有全新樣本與固定樣本的優點,是控制系統誤差、減小抽樣誤差、提高估計精度、減少調查費用的重要手段,是國內外統計專業公認的在連續調查中采用的好方法。
目前,國內外對一次性(橫斷面)抽樣調查的統計方法研究較多,理論及方法也比較成熟;而對于連續抽樣調查,主要局限于樣本輪換下簡單隨機抽樣調查的研究。本文對實際調查中常需采用的樣本輪換下兩階段抽樣連續調查的統計方法進行了研究。
1.調查方法
在兩階段樣本均輪換的過程中,第一階段是初級單元的輪換,使現期初級樣本單元中既有保留的初級單元,又有輪換的初級單元,在輪換的初級單元中所有次級單元均是新樣本。第二階段是在保留的初級單元中對次級單元進行輪換,使現期次級單元中既有保留的次級單元,又有輪換的次級單元。對于初級單元和次級單元均按照最優樣本輪換率計算輪換和保留的個數并實施簡單隨機抽樣進行相應的輪換和保留。
設總體包含L個初級單元,第i個初級單元包含Ni個次級單元。初級單元的樣本容量為l,第i個初級單元的樣本容量為ni,第h次調查保留初級單元數為vh,輪換初級單元數為別是第一階段與第二階段的抽樣比。記Yhij為第h次抽樣時總體第i個初級單元中第j個次級單元的指標值,i=1,2,…,L;j=1,2,…,Ni。yhij為第h次抽樣時樣本第i個初級單元中第j個次級單元的指標值,i=1,2,…,l;j=1,2,…,ni。
2.總體均值的估計量
在樣本輪換下的簡單隨機抽樣,前人已給出第h次抽樣總體均值的組合估計量,因第h次抽中的第i個保留初級單元內作樣本輪換下的簡單隨機(第二階段)抽樣,故第h次抽中的第i個保留初級單元按次級單元指標均值的組合估計量為[1-2]:

因第h次抽中的第i個輪換初級單元,是采用簡單隨機抽樣獲取的新樣本,所以第i個輪換初級單元按次級單元指標樣本均值為:

這里,yhuij為第h次抽中的第i個輪換初級單元第j個次級單元的指標值,則兩階段樣本都輪換的第h次總體均值的估計量為[1-2]:

3.總體均值估計量的方差
對(3)式按方差的性質,總體均值估計量的方差為:

其中,根據初級單元大小不等的不放回抽樣的研究結果可知[3-5]:

因第h次抽中的第i個保留初級單元內作樣本輪換下的連續抽樣調查,故(7)式中的計算公式為[3-5]:

職業放射損傷是以造血組織損傷為主,而職業群體的血細胞變化特點是以中性粒細胞為主的白細胞降低,以及血紅蛋白、血小板的下降[6]。為了了解某核電站職工的健康狀況及其在連續時間上的水平變化,探討職業病危險因素,我們對該核電站職工的白細胞數進行了兩階段抽樣下樣本輪換連續三次(年)的調查分析。
1.調查設計
(1)調查對象 以2009-2011年中國某核電站(共22個處)全體職工為調查對象,調查指標為血液學指標白細胞(WBC)數(103/mm3)。
(2)調查方法
采用兩階段抽樣下樣本輪換的連續調查,以處為初級單元,以職工為次級單元,初級單元和次級單元均進行樣本輪換。對總體22個處(L=22)統一編號。根據相關公式[5]估計得:2009年(h=1)按40%的抽樣比隨機抽取9個處(l=9),每個抽中處按45%的抽樣比隨機抽取次級單元組成2009年的樣本;2010年輪換初級單元數u2=6,保留初級單元數v2=3;2011年輪換初級單元數u3=5,保留初級單元數v3=4(表1)。首先在初級單元進行樣本輪換,保留部分舊的處,換入部分新的處,保持l=9不變。新換入的各處中仍按45%的抽樣比隨機抽取次級單元;保留的各處中保留部分舊的次級單元,換入部分新的次級單元(舊的次級單元和新的次級單元來自同一個處)。2009、2010、2011年分別調查次級單元(職工)199人、218人、202人,共調查619人次。

表1 2009-2011年樣本處及其調查人數
(3)質量控制
蘇州大學醫學部前身隸屬于核工業部,長期以來與各核電站保持著良好的課題合作關系,本次調查亦得到了該核電站的大力支持。在本次調查之前對調查員組織培訓,讓其了解整個課題的意義并掌握樣本輪換的具體實施步驟。所采血液樣本亦是由專人送指定醫院測定,實驗室檢查結果返回后數據采用雙人錄入并校對。
2.調查分析結果
(1)2009年的調查計算結果
因第一年未涉及樣本輪換,所以按照一般(非輪換樣本)二階段抽樣均值的算法,得2009年的均值ˉy=6.26(103/mm3)。
(2)2010年的調查計算結果
基本指標vh、uh、nhi、uhi、mhi、Φh、Φhi等根據本研究提供的相關公式(本文從略)或按文獻[3-5]估計。
①總體均值的估計量
由式(2)計算得第7、8、11、15、17、20六個輪換處均值的估計值分別為5.54、5.91、6.47、5.53、 5.55、5.71(103/mm3),則按式(3)計算得輪換處均值的估計值為5.79(103/mm3)。
由式(3)得2010年總體均值估計量:

②總體均值估計量的方差


由式(4)得2010年總體均值估計量的估計方差:

(3)2011年的調查計算結果
(4)統計推斷
一般成人白細胞數的平均值為6.50(103/mm3),將樣本輪換后的2010年、2011年該核電站職工白細胞樣本均數分別與之比較做Z檢驗,結果如表2。表中可見兩個總體均值的95%可信區間均不包含正常均值,P值均小于0.05,表明該核電站職工2010年及2011年白細胞數的總體均值低于一般成人的總體均值。

表2 核電站職工與正常人白細胞數(103/mm3)的比較
1.基于計算機模擬的效度信度評價方法
以本文應用實例中該核電站為模擬總體,包含22個初級單位,次級單位數共3500。以次級單位(職工)白細胞數2010年調查所得樣本均數5.88、標準差2.11作為模擬總體的參數。通過SAS編程:建立模擬總體;模擬樣本輪換下二階段抽樣連續10次調查100個樣本(第一階段抽40%的初級單位,第二階段抽10%的次級單位);對模擬調查資料運用本文給出的公式計算10次調查總體均值估計量及其估計方差、總體均數95%的上下限,來評價本文研究的調查方法及其公式的效度和信度。
2.模擬調查分析結果
以樣本的序號為橫坐標,以每個樣本所得的總體均值95%可信區間為縱坐標畫圖,見圖1。圖1中的中橫線為模擬總體均數。從圖1看出,100個模擬樣本得到的100個總體均數95%可信區間全部包含模擬總體均數,可認為100個樣本均數與總體均數(模擬真值)的差別無統計學意義,說明本文研究的樣本輪換下二階段抽樣連續調查的調查方法及其統計公式具有較高的效度;又因100個樣本均數均接近同一數值(模擬總體均值),同時也說明本文研究的調查方法及其統計公式具有良好的信度。

圖1樣本輪換下二附段抽樣連續調查分析的模擬結果
1.樣本輪換的連續調查是固定樣本與全新樣本連續調查的折中方法,既能反映變化也能節省一定資源,其理論發展相對滯后[7-8],主要集中于對簡單抽樣下樣本輪換問題的研究[9]。本文對實際需要的樣本輪換下二階段抽樣連續調查,從數學上首次推導出總體均數的估計量及其方差、估計方差的統計公式,具有統計理論方法學意義。
2.新的調查方法及其統計公式的效度與信度需采用大個數樣本多次連續調查分析來驗證,進行實例調查幾乎不可能。本文采用計算機模擬的方法,不僅能實現理論上的大量重復抽樣調查,還能保證獲取資料的各項條件的穩定性。本文基于SAS進行大樣本個數(100個樣本)連續10次的計算機模擬實驗,對本文研究的調查方法及其統計公式,得到了高信度、高效度的評價結論。
3.樣本輪換下連續抽樣調查在國內外應用比較廣泛,主要應用于住戶調查[10]、貿易[11]、社會經濟[12]等領域,尚未見文獻報道用于醫學領域。本文首次在醫學領域,使用二階段抽樣下樣本輪換的方法調查分析出該核電站職工的白細胞數比正常人白細胞數低,與姚志剛[13]、馮曉敏[14]等人得出的結論一致,提示長期低劑量電離輻射已影響了放射人員的健康,放射人員要增強自我保護意識,同時相關部門要定期給職工做血液檢查并在輻射防護設計、管理和運行過程中應更加嚴格遵守ALARA原則[15]。
4.本研究對模擬總體,同時模擬二階段橫斷面抽樣調查100個樣本(各階段抽樣比與樣本輪換模擬相同),分析結果樣本均數的標準誤比樣本輪換模擬調查平均高出30%,說明本文研究的樣本輪換下二階段抽樣連續調查的方法可大大提高抽樣精度。因篇幅所限,精度比較的模擬實驗結果本文未予介紹。
1.趙俊康.考慮偏差時的樣本輪換問題研究.山西財經大學學報,2001,23(4):100-102.
2.Lind JT.Repeated surveys and the kalman filter.Econometrics Journal,2005,8(3):418-427.
3.Cochran WG.Sampling Techniques.3rd.New York:John Wiley&Sons,1977.
4.Fuller WA,Rao JNK.A regression composite estimator with application to the Canadian Labour Force Survey.Survey Methodology,2001,27:45-51.
5.歐輝,潘紅艷.不同規模單水平樣本輪換最優輪換率的確定.數學理論與應用,2010,30(3):88-92.
6.商希梅,喬建維,侯殿俊,等.150名60Coγ射線工作者輻射效應分析研究.中國輻射衛生,2003,12(3):183.
7.陳光慧.連續性抽樣估計方法研究綜述.統計與信息論壇,2010,25(12):3-9.
8.Duncan GJ,Kalton G.Issues of Design and Analysis of Surveys Across Time.International Statistical Review,1987,55(1):97-117.
9.U.K.Office of Population Censuses and Surveys.General Household Survey 1982.London:HMSO,1984.
10.陳光慧,劉建平.我國農村住戶連續性抽樣調查方案設計.統計研究,2013,30(2):80-87.
11.張同利,萬壽橋,任志安.小型批發零售貿易行業抽樣中樣本輪換方法.財貿研究,1996(4):58-60.
12.喻艷.連續性統計調查在社會經濟研究領域的應用.現代經濟信息,2011,24:264.
13.姚志剛,衣同曄,錢志遠,等.2007-2011年秦山核電站工作人員健康狀況分析.職業與健康,2012,28(11):1326-1327.
14.馮曉敏.放射工作人員的血液檢驗結果探討.中國輻射衛生,2012,21(3):294.
15.田浩天.核電站大修集體劑量控制管理淺析.科協論壇,2013,6:64-65.
(責任編輯:丁海龍)
The Statistical Method of Sample Rotation Under Two-stage Sampling Successive Survey and its Application
Fu Ying,Gao Ge,Liu Shengxue,et al.(Department of Epidemiology and Biostatistics,School of Public Health,Soochow University(215123),Suzhou)
ObjectiveTo provide a scientific survey method and formulae of sample rotation under two-stage sampling,and to offer scientific basis for the relevant departments to set the strategy on radiation protection.MethodsWe derived the statistic formulae with mathematical statistics method.Sample rotation under two-stage sampling was applied to successive survey on the number of white blood cells(WBC)three years.SAS programming to simulate 100 samples was taken to make validity and reliability assessment on the survey method and its statistical formulae.ResultsWe derived the formulae of estimation of population mean,variance and estimated variance for the sample rotation under two-stage sampling.After two-stage sample rotation,population means of nuclear workers′WBC were respectively 5.88 and 5.84(103/mm3)in 2010 and 2011,and corresponding standard errors were respectively 0.247 and 0.255,which were of statistical differences compared with healthy adults.Simulated population means was totally included in 100 population mean 95%confidence intervals.ConclusionSample rotation under two-stage sampling and its formulae have achieved well theoretical and practical significance,which are also of high validity and reliability.For the nuclear workers,numbers of their WBC were lower than healthy adults in 2010 and 2011,which should be paid more attention to.
Two-stage sampling;Sample rotation;Successive survey;Nuclear workers;White blood cells
*:國家自然科學基金項目(項目編號:81273188)
△通信作者:高歌,E-mail:gaoge@suda.edu.cn