無回答與計(jì)量誤差疊加時(shí)總體方差的校準(zhǔn)估計(jì)

2024-05-04 11:38:40龐智強(qiáng)牛璽娟王朝旭

統(tǒng)計(jì)與決策 2024年7期

龐智強(qiáng)，牛璽娟，，王朝旭

（1.蘭州財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院，蘭州 730020；2.青海師范大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院，西寧 810008）

0 引言

在抽樣理論中，研究者要處理兩種類型的調(diào)查誤差：抽樣誤差和非抽樣誤差。其中，抽樣誤差是由抽樣的隨機(jī)性引起的誤差，非抽樣誤差是除抽樣以外的其他原因引起的誤差。在經(jīng)典的抽樣理論中，研究的估計(jì)誤差主要是抽樣誤差，對非抽樣誤差研究較少。在估計(jì)總體未知參數(shù)時(shí)，非抽樣誤差在一定程度上比抽樣誤差更容易影響估計(jì)量的性質(zhì)。

在抽樣調(diào)查中，通常假設(shè)所有選定的單位都將全部參與調(diào)查，并且所有記錄的結(jié)果都是對變量的真實(shí)測量。然而，由于客觀條件的限制，難以完全避免非抽樣誤差的出現(xiàn)，使得調(diào)查得到的數(shù)據(jù)并不完整，從而會導(dǎo)致出現(xiàn)嚴(yán)重的錯誤推斷。總體方差估計(jì)作為統(tǒng)計(jì)推斷中非常重要的研究內(nèi)容，同樣存在上述困擾。因此，有必要開發(fā)能夠最大限度應(yīng)對非抽樣誤差影響的總體方差估計(jì)方法。

無回答誤差和計(jì)量誤差作為兩種重要的非抽樣誤差，對總體方差的估計(jì)結(jié)果會產(chǎn)生至關(guān)重要的影響。無回答誤差是估計(jì)研究變量總體方差過程中面臨的重大挑戰(zhàn)之一。Hansen 和Hurwitz（1946）[1]考慮了存在無回答誤差時(shí)有限總體均值的估計(jì)問題；Chaudhuri 和Pal（2015）[2]提出了不同總體參數(shù)的估計(jì)量；Ahmeda 和Pal（2005）[3]探究了簡單隨機(jī)抽樣下存在隨機(jī)無回答時(shí)總體方差的估計(jì)問題；Singh等（2012）[4]針對兩種不同的隨機(jī)無回答，提出了總體方差的估計(jì)量；牛成英和龐志強(qiáng)（2014）[5]運(yùn)用概率分析方法討論了無回答對總體參數(shù)估計(jì)量抽樣方差的影響。

除了無回答之外，估計(jì)總體方差時(shí)遇到的另一大挑戰(zhàn)是計(jì)量誤差。Singh 和Karpe（2009）[6]討論了計(jì)量誤差影響下總體方差的估計(jì)問題。在實(shí)際調(diào)查中，研究人員經(jīng)常面臨一些調(diào)查單元既存在無回答又有計(jì)量誤差的情況。Tiwari等（2023）[7]討論了無回答和計(jì)量誤差疊加時(shí)有限總體均值的估計(jì)問題。

輔助變量在抽樣調(diào)查中起著關(guān)鍵作用，恰當(dāng)使用輔助信息能有效提高總體參數(shù)估計(jì)的準(zhǔn)確性。使用輔助變量估計(jì)方差的技術(shù)最早由Das（1978）[8]提出，他重點(diǎn)討論了已知輔助變量變異系數(shù)情況下的方差估計(jì)。隨后Isaki（1983）[9]又將這一技術(shù)進(jìn)行推廣，探討了當(dāng)研究變量和輔助變量線性相關(guān)時(shí)總體方差的比率估計(jì)問題。當(dāng)輔助信息可用時(shí)，總體參數(shù)的校準(zhǔn)估計(jì)方法也被廣泛應(yīng)用于抽樣調(diào)查。自Deville 和Sarndal（1992）[10]首次提出校準(zhǔn)估計(jì)方法以來，該方法已成為統(tǒng)計(jì)學(xué)研究的一個重要課題。Tracy 等（2003）[11]、Singh 等（2020）[12]利用校準(zhǔn)估計(jì)，提出了不同抽樣設(shè)計(jì)下總體參數(shù)的校準(zhǔn)估計(jì)量。Plikusas 和Pumputis（2007）[13]將校準(zhǔn)估計(jì)的思想應(yīng)用到總體協(xié)方差估計(jì)中，得到了不同約束條件下總體協(xié)方差的校準(zhǔn)估計(jì)量。

本文考慮了無回答和計(jì)量誤差疊加存在時(shí)有限總體方差的估計(jì)，并基于校準(zhǔn)估計(jì)方法提出了分層隨機(jī)抽樣中方差的校準(zhǔn)估計(jì)策略。在數(shù)值分析方面，從模擬和真實(shí)數(shù)據(jù)兩個方面對所提校準(zhǔn)估計(jì)量的性能進(jìn)行了檢驗(yàn)。

1 抽樣基礎(chǔ)理論

1.1 抽樣框架

考慮一個容量為N的有限總體U，U={U1，U2，…，UN}，現(xiàn)按照一定的標(biāo)準(zhǔn)對總體U進(jìn)行分層，將其劃分為L個互不相交的層，使得，h=1，2，…，L。設(shè)Y為研究變量，X、Rx分別為第一、第二輔助變量，其中，Rx為輔助變量X的秩。

本文采用無放回簡單隨機(jī)抽樣方法（SRSWOR），抽樣分兩個階段進(jìn)行。第一階段：先從第h層的總體Nh中抽取容量為nh的簡單隨機(jī)樣本，且各層間的抽樣均相互獨(dú)立；再將每層得到的樣本組合為一個新樣本，稱該樣本為初始樣本，記為Snh，h=1，2，…，L。設(shè)在第一階段的nh個樣本中，共有r1h個單元發(fā)生無回答。第二階段：從初始樣本Snh提供回答的部分中進(jìn)行抽樣，同樣利用SRSWOR方法抽取一個容量為mh的樣本，記為Smh。設(shè)在第二階段的mh個樣本中，共有r2h個單元發(fā)生無回答。

1.2 符號說明

本文中所用到的一些符號及其含義如下：

：研究變量Y對應(yīng)的總體方差。

：第h層的校準(zhǔn)權(quán)重，h=1，2，…，L。

Qh：第h層的獨(dú)立權(quán)重，h=1，2，…，L。

1.3 隨機(jī)無回答的概率分布

考慮第h層的情況：在第一階段容量為nh的初始樣本Snh中，設(shè)r1h表示由于隨機(jī)無回答而無法獲得信息的抽樣單元數(shù)，則r1h可能的取值為0，1，2，…，nh-2。同理，設(shè)r2h為第二階段容量為mh的樣本Smh中發(fā)生無回答的抽樣單元數(shù)，則r2h可能的取值為0，1，2，…，mh-2，且0 ≤r1h≤nh-2，0 ≤r2h≤mh-1。假設(shè)p1和p2分別表示nh-2 和mh-2 個可能值中發(fā)生無回答的概率，則r1h和r2h均為離散型隨機(jī)變量，他們服從如下概率分布[3]：

其中，q1=1-p1，q2=1-p2。

2 校準(zhǔn)估計(jì)量的構(gòu)建

在本文中，假設(shè)無回答和計(jì)量誤差僅存在于研究變量Y和輔助變量X之間，而不存在于研究變量Y和輔助變量的秩Rx之間。Singh等（2020）[12]給出了分層隨機(jī)抽樣設(shè)計(jì)下有限總體方差的校準(zhǔn)估計(jì)方法，其校準(zhǔn)估計(jì)量的一般形式如下：

基于上述討論，本文提出了一種改進(jìn)的校準(zhǔn)估計(jì)量：

其中，是在新校準(zhǔn)約束條件下最小化卡方距離得到的校準(zhǔn)權(quán)重。

考慮各層估計(jì)量的一個復(fù)合類Th，

使得對函數(shù)g，成立。

2.1 校準(zhǔn)估計(jì)方法

在分層隨機(jī)抽樣中，校準(zhǔn)估計(jì)方法主要用于獲得最優(yōu)層權(quán)。為了得到合理的校準(zhǔn)權(quán)重，要保證校準(zhǔn)權(quán)重與原始權(quán)重Wh盡可能地接近。因此，需要建立校準(zhǔn)權(quán)重與原始權(quán)重Wh之間的距離函數(shù)關(guān)系，一般選擇比較簡單的卡方距離作為兩個權(quán)重之間的距離函數(shù)。在校準(zhǔn)估計(jì)中，最小化距離函數(shù)即為最優(yōu)化目標(biāo)函數(shù)，拉格朗日乘數(shù)法是經(jīng)常被用來求解最優(yōu)化問題的一種方法。即要使卡方距離在校準(zhǔn)約束條件下達(dá)到最小值。

本文用拉格朗日乘數(shù)法求解，結(jié)合卡方距離函數(shù)和校準(zhǔn)約束條件，構(gòu)造最優(yōu)化問題的拉格朗日函數(shù)如下：

其中，λ1，λ2，λ3為拉格朗日乘子。

對式（3）兩邊關(guān)于求偏導(dǎo)，得:

將式（5）中的解代入校準(zhǔn)約束條件中，根據(jù)等式關(guān)系可計(jì)算得到對應(yīng)的拉格朗日乘子值為:

其中，det=aeh-af2-b2h+2bcf-c2e，det1=deh-df2-bgh+bif+cgf-cie，det2=agh-aif-bdh+cdf+bci-c2g，det3=aei-agf-b2i+bcg+bdf-cde。

常數(shù)a，b，c，d，e，f，g，h，i定義如下：

將計(jì)算得到的拉格朗日乘子值λ1，λ2，λ3代入式（5）中，便可得到最終的校準(zhǔn)權(quán)重的值。

2.2 估計(jì)量的偏差和均方誤差

為了得到校準(zhǔn)估計(jì)量Tst(P)的偏差及其均方誤差MSE 的表達(dá)式，作如下變換:

其中，d1h，d2h，d3h，d4h為函數(shù)在點(diǎn)處的一階偏導(dǎo)數(shù)；同理，d11h，d22h，d33h，d44h，d12h，d13h，d14h，d23h，d24h，d34h為函數(shù)在點(diǎn)處的二階偏導(dǎo)數(shù)。

為計(jì)算方便，此處附加一個約束條件：

現(xiàn)將式（7）至式（9）代入式（6），并用相對誤差eih,i=0，1，2，3 的形式表示式（6），可得：

將式（10）代入式（3），則校準(zhǔn)估計(jì)量Tst(P)可寫為：

對式（11）作簡單變換，然后兩邊同時(shí)取期望，得到校準(zhǔn)估計(jì)量Tst(P)的偏差為：

進(jìn)一步，得到一階近似下校準(zhǔn)估計(jì)量Tst(P)的MSE，其表達(dá)式如下：

對式（13）分別關(guān)于d2h，d4h求偏導(dǎo)，并令其偏導(dǎo)數(shù)等于0，得到d2h，d4h的最優(yōu)解：

將式（14）代入式（13）中，得到Tst(P)最小的MSE：

令(xhi，yhi)和(Xhi，Yhi)分別為二元變量(X，Y)在第h層第i個單元對應(yīng)的觀測值和真實(shí)值，則研究變量Y與輔助變量X的計(jì)量誤差分別為Uhi=yhi-Yhi與Vhi=xhi-Xhi，且計(jì)量誤差Uhi與Vhi之間不相關(guān)。令、分別為研究變量Y、輔助變量X對應(yīng)的計(jì)量誤差的總體方差，可以得到當(dāng)計(jì)量誤差存在時(shí)估計(jì)量Tst(P)最小的MSE：

3 數(shù)值分析

本文從模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)兩個方面對所提校準(zhǔn)估計(jì)量Tst(P)與現(xiàn)有校準(zhǔn)估計(jì)量Tst(S)的性能進(jìn)行比較。

3.1 模擬研究

在統(tǒng)計(jì)軟件R 中進(jìn)行模擬研究，對估計(jì)量的估計(jì)效果進(jìn)行對比分析。將校準(zhǔn)權(quán)重Ωh代入式（1），通過計(jì)算分別得到不存在和存在計(jì)量誤差兩種情形下估計(jì)量Tst(S)最小的MSE：

本文使用估計(jì)量的百分比相對效率（PRE）作為估計(jì)量的評價(jià)指標(biāo)：

模擬數(shù)據(jù)中的總體參數(shù)說明見表1。為了使模擬過程順利實(shí)施，本文采用了Singh 軟件包中MASS 中的函數(shù)mvrnorm 生成服從正態(tài)分布的數(shù)據(jù)[12]。對于不同的控制參數(shù)Qh，在R 中進(jìn)行1000 次循環(huán)，控制參數(shù)Qh的取值有六種情形。情形1：Qh=1.0。情形2：情形3：Qh=。情形4：Qh=。情形5：Qh=。情形6：Qh=。

表1 總體參數(shù)說明

對于隨機(jī)無回答的概率p1和p2，令他們分別取0.05、0.10、0.15 和0.20 四個值。下頁表2 和表3 分別給出了校準(zhǔn)前后的權(quán)重和PRE的模擬結(jié)果。

表2 模擬數(shù)據(jù)下校準(zhǔn)前后權(quán)重對比

表3 模擬數(shù)據(jù)下的PRE結(jié)果

3.2 真實(shí)數(shù)據(jù)的應(yīng)用

為研究校準(zhǔn)估計(jì)量的實(shí)際應(yīng)用性能，考慮一個真實(shí)數(shù)據(jù)集。為了盡可能準(zhǔn)確地估計(jì)總體方差，本文有意考慮研究變量中某些數(shù)據(jù)的缺失，真實(shí)數(shù)據(jù)的總體參數(shù)情況仍然在表1中給出。

用于數(shù)值研究的總體來源于文獻(xiàn)[14]。數(shù)據(jù)可在R軟件的faraway軟件包中的prostate文件中獲得。

根據(jù)控制參數(shù)Qh，分別在不存在計(jì)量誤差和存在計(jì)量誤差兩種情況下取不同值，真實(shí)數(shù)據(jù)在校準(zhǔn)前后的權(quán)重和PRE分別在表4和下頁表5中給出。

表4 真實(shí)數(shù)據(jù)下校準(zhǔn)前后權(quán)重對比

綜合表2至表5的結(jié)果，可以看出：

（1）從表2和表4可以看出，使用校準(zhǔn)方法得到的權(quán)重與原始權(quán)重非常接近。這表明校準(zhǔn)技術(shù)可以有效地優(yōu)化權(quán)重，提高校準(zhǔn)估計(jì)量的估計(jì)精度。此外，從表3 和表5可以看出，對于每個控制參數(shù)Qh，本文提出的校準(zhǔn)估計(jì)量Tst(P)總是比Singh的校準(zhǔn)估計(jì)量Tst(S)更有效。且對于無回答的概率p1，p2而言，當(dāng)p1，p2∈(0.05，0.10) 時(shí)，校準(zhǔn)估計(jì)量最有效。

（2）無論是模擬數(shù)據(jù)還是真實(shí)數(shù)據(jù)，存在計(jì)量誤差的PRE都小于不存在計(jì)量誤差的PRE。從表5還可以看出，在分層隨機(jī)抽樣下，無論Qh取何值，本文所提校準(zhǔn)估計(jì)量Tst(P)在存在計(jì)量誤差和不存在計(jì)量誤差兩種情況下，都優(yōu)于現(xiàn)有校準(zhǔn)估計(jì)量Tst(S)。

4 結(jié)束語

本文關(guān)注的是無回答和計(jì)量誤差疊加存在時(shí)分層隨機(jī)抽樣中有限總體方差的估計(jì)問題。通過模擬分析和實(shí)際數(shù)據(jù)的應(yīng)用研究可以發(fā)現(xiàn)，本文所提出的校準(zhǔn)估計(jì)量Tst(P)在最小化非抽樣誤差的負(fù)面影響方面總是比現(xiàn)有校準(zhǔn)估計(jì)量Tst(S)更有效。

在非抽樣誤差和總體方差估計(jì)方面，還存在一些重要的問題值得考慮：（1）本文僅考慮了分層隨機(jī)抽樣中無回答和計(jì)量誤差同時(shí)存在時(shí)有限總體方差的估計(jì)，除分層隨機(jī)抽樣外，還可以考慮更多的抽樣設(shè)計(jì)。（2）受模擬結(jié)果的啟發(fā)，同時(shí)也考慮到處理非抽樣誤差問題的重要性，可以鼓勵統(tǒng)計(jì)調(diào)查人員適當(dāng)使用本文提出的校準(zhǔn)估計(jì)量，將其應(yīng)用于社會經(jīng)濟(jì)調(diào)查中。例如：估計(jì)社會不同階層在節(jié)假日的開支變化，估計(jì)全國不同地區(qū)婦女的收入變化，等等。

統(tǒng)計(jì)與決策2024年7期

統(tǒng)計(jì)與決策的其它文章: 評《教育經(jīng)濟(jì)學(xué)》; ESG表現(xiàn)與企業(yè)創(chuàng)新
——基于綠色金融改革的調(diào)節(jié)作用; ESG責(zé)任履行、綠色創(chuàng)新與企業(yè)價(jià)值; 區(qū)域市場分割、技術(shù)差距與企業(yè)創(chuàng)新策略; 數(shù)字化轉(zhuǎn)型、研發(fā)創(chuàng)新與企業(yè)價(jià)值
——基于中介效應(yīng)的實(shí)證; 數(shù)字化轉(zhuǎn)型、市場競爭與企業(yè)綠色創(chuàng)新