王 俊,金勇進,司亞娟
(1.中國人民大學a.統(tǒng)計學院;b.應用統(tǒng)計科學研究中心,北京100872;2.威斯康星大學麥迪遜分校生物統(tǒng)計及醫(yī)療信息系,美國 威斯康星州 WI 53726)
隨著人們生活節(jié)奏的加快、對信息安全的擔憂等因素的影響,傳統(tǒng)的概率抽樣的回答率持續(xù)降低、花費越來越高,并且任何試圖增加回答率的措施的單位成本也急劇上升。隨著回答率的持續(xù)降低,研究人員不得不開始懷疑這些概率樣本的代表性。與此同時,隨著互聯網的發(fā)展,網絡便利調查成為了一種更為便捷、快速、便宜的收集調查數據的方式,常見的網絡便利調查包括自我選擇式網絡調查、網絡志愿樣本池調查。
自我選擇式網絡調查中,調查研究人員直接將問卷的鏈接在各大互聯網平臺貼出,由上網的人群中感興趣的網民自行選擇參與調查。而對于網絡志愿樣本池調查來說,研究人員首先通過各種方式招募(通常為非概率抽樣方法)大量的志愿者組建網絡志愿樣本池,當需要進行市場調研或者民意監(jiān)測時,則根據一定的概率抽樣設計從網絡志愿樣本池中抽取一個隨機樣本。
這類基于非概率抽樣方法的網絡便利調查,在獲取樣本單元的過程中并不依靠特定的抽樣設計,而以招募受訪者的便捷性考慮為主,通常情況下,能夠在短時間內以較低的費用獲取大量的樣本單元。但對這類網絡便利樣本而言,由于最終樣本是網絡總體單元自我選擇參與網絡調查的結果,調查研究人員無法控制整個樣本選擇的過程,因此無法像概率抽樣設計那樣計算樣本單元包含概率,進而不能直接在基于設計的推斷框架下外推至總體。然而基于設計的推斷方法由于其簡單、方便、易操作而得到的廣泛的應用,所以如何估計網絡便利樣本的包含概率則是對網絡樣本單元進行過推斷的一個非常重要研究方面。
Rosenbaum(1987)[1]考察了傾向得分方法在非隨機樣本統(tǒng)計推斷中的應用,在其背景中,傾向得分解釋為總體中的單元被選進入非隨機樣本的概率,并將估計出的傾向得分的倒數作為非隨機樣本單元的權數,進而構建有限總體的HT估計量。在網絡便利樣本的推斷中,由于無法獲取總體單元層面所有的輔助信息,通常利用參照樣本來估計總體中的單元被選入網絡便利樣本的概率,即傾向得分。參照樣本可以是現存的質量更高的概率樣本,或與網絡便利調查同期執(zhí)行的、質量更高的、至少包含用于構建傾向得分模型的變量信息的隨機電話撥號調查。
Terhanian(2000)[2],Lee(2006)[3],Lee(2009)[4]將電話隨機撥號調查獲取的樣本作為參照樣本,并將其和網絡便利樣本融合成一個樣本。合并后的樣本中,網絡樣本單元的指示變量為1,參照樣本單元則為0,通過簡單邏輯回歸估計出單元的傾向得分。這些方法在估計傾向得分的過程中,直接忽略了參照樣本單元的設計權數。此時,利用逆傾向得分構建的網絡便利樣本單元的權數,只能將網絡便利樣本還原到合并后的樣本,估計出的傾向得分只能解釋為合并后樣本中的單元被選入至網絡便利樣本中的概率,而非待研究的目標總體的單元被選入網絡便利樣本中的概率。Valliant(2011)[5]進一步探討了逆傾向得分在構建網絡樣本池調查樣本單元權數中的應用,通過實證研究和嚴格的數學證明,認為在利用參照樣本和網絡樣本池樣本估計傾向得分的過程中,需要將二者樣本單元的權數考慮進邏輯回歸模型的估計過程,形成加權的邏輯回歸,并且將網絡樣本單元從參照樣本的抽樣框中剔除,否則將會導致估計量的偏差。然而在調查實踐中,如果參照樣本是現存
的高質量的概率調查,則對于普通的數據使用者來說,通常無法獲取全國層面的抽樣框,即使存在全國個人層面的抽樣框,由于隱私問題,也無法獲取參與調查者的身份識別信息,因此Valliant(2011)[5]提出的方法在實際操作中將存在困難;此外,其估計出的傾向得分的實際含義也模糊不清。本文在參照樣本的背景下,考察如何利用逆傾向得分構建網絡便利樣本的權數,以對目標總體的特征進行統(tǒng)計推斷,并在Valliant(2011)[5]提出的方法的基礎上,將通過設計權數還原后得到的參照樣本作為“偽總體”,并基于k最近鄰的方法將網絡便利樣本單元從“偽總體”中剔除,此時,網絡便利樣本則可以看成是來自“偽總體”的一個樣本,并通過加權的邏輯回歸估計出傾向得分,估計出的傾向得分則可以解釋為“偽總體”中的單元被選入至網絡便利樣本的概率,并將估計出的傾向得分的倒數作為網絡便利樣本單元的權數。
傾向得分方法是由Rosenbaum(1983)[6]在觀測研究中為了有效估計治療效應而提出的方法,在此背景中,傾向得分為觀測樣本單元在給定協(xié)變量X條件下,接受治療T=1的概率 πi=P(Ti=1|Xi;γ),當 πi滿足下列條件(1)、(2)時:
(1)?yi,P( )Ti=1|xi,yi;γ=P(Ti=1|xi;γ)
(2)?vi,0 < πi=P( )Ti=1|xi;γ<1
則稱單元進入治療組或者控制組的分配機制為強可忽略的,即在給定X的條件下,觀測樣本單元被分配到治療組T=1還是控制組T=0是完全隨機的,和待研究變量y不相關,且均有一個非0的概率被分配到治療組。此時,平均治療效應(ATE)的估計為:

通常情況下πi的值是未知的,可以通過Logistic回歸或Probit回歸估計后帶入式(1),進而得到。其實質則是分別利用治療組和控制組的樣本構造HT估計量,以估計樣本層面的待研究變量的特征,二者的差異則為樣本層面的治療效應。在抽樣調查的背景下,P(T=1|X;γ)則稱為樣本選擇機制,T=1則目標總體中的單元被選入至樣本,表示總體中的單元被選入樣本的包含概率。
Rosenbaum(1987)[1]探討了利用傾向得分對非隨機樣本s進行結構調整的方法,并假設 πi=P(i∈s|Xi;γ),i∈U為總體U中的單元被選入樣本的包含概率。通過Logistic回歸估計出參數γ?,進而得到估計出的傾向得分,進而形成類似于HT估計量的逆傾向得分加權估計量:

假設參照樣本sr通過樣本單元權數di,i∈sr還原得到的總體?為偽總體,由于sr為概率樣本,因此協(xié)變量X的設計無偏估計為,?則可以看成是通過基于設計的估計過程得到的估計出的目標總體抽樣框。網絡便利樣本sw,權數為(當為網絡志愿樣本池調查時,根據從網絡志愿者樣本池中抽取樣本的不同,可能不為1,自我選擇樣本則均為1)。估計網絡便利樣本的包含概率則近似為估計網絡便利樣本單元從偽總體U?中被選入至sw的概率。為了集中考察方法,本文假設參照樣本和網絡便利樣本均包含了協(xié)變量X的測量,且不存在模式效應,參照樣本不存在無回答、涵蓋誤差等問題。估計過程見圖1。

圖1 估計過程
為了估計 πi=P(i∈sw|X,?),則需要將偽總體U?拆分為{?-sw,sw} 。Valliant(2011)[5]認為應當將網絡便利樣本sw中的單元從參照樣本的抽樣框中剔除,然后將參照樣本單元的權數均乘以(其中N為目標總體的規(guī)模)。然而在實際操作過程中,對于大多數調查人員來說,無法獲取參照樣本的總體抽樣框,因此實際應用中存在困難,另外一方面如果參照樣本是通過復雜抽樣設計獲得的,簡單將參照樣本的權數乘以將會導致協(xié)變量X分布的改變,更為重要的是其估計出的傾向得分的含義模糊不清。
然而在強可忽略的假設下,有 ?yi,P(Ii=1|xi,yi;β,γ)=P(Ii=1|xi;β),此時研究變量yi在網絡便利樣本sw中的分布f(yi|xi,sw;β)滿足:

即控制了協(xié)變量Xi后,樣本中待研究變量yi在網絡便利樣本sw中的分布f(yi|xi,sw;β)和其在總體中的分布f(yi|xi;β)一致,如果網絡自愿樣本sw中的第i個單元的協(xié)變量Xi和參照樣本sr中的第j個單元的協(xié)變量Xj相同,則其待研究變量y的條件分布也相一致,此時,從偽總體?中剔除一個和Xi相同的單元,則等同于將對應參照樣本中的單元j的權數dj更新為dj-,更新后的權數不改變合并后的樣本的輔助變量X及待研究變量y在偽總體中的結構及分布。最理想的情況是,網絡樣本sw中的每個單元都能夠在參照樣本sr中找到對應的精確匹配的單元,偽總體?則拆分為{?-sw,sw}。但是實際應用中,一方面,網絡樣本的樣本量通常較大,而參照樣本的樣本量通常較少,因此網絡樣本中的單元并不是都能夠在參照樣本中找到精確匹配的單元;其次,滿足一對一式的精確性匹配的樣本單元往往較少,如果僅使用匹配后的樣本單元,將會造成網絡樣本單元的大量浪費;此外,如果使用1最近鄰的方法進行匹配通常會受到異常值的影響,尤其是當參照樣本和網絡樣本之間協(xié)變量分布存在較大差異的時候。因此,本文基于kNN方法提出基于距離的加權的權數調整及樣本插入的方法,過程如下所示:
步驟1:計算距離函數,并選擇最近鄰的k個單元。假如sw中第i個單元根據協(xié)變量Vi在參照樣本sr中的k最近鄰單元集合為Ni,k:

其中d(Vi,Vj)為距離函數,本文選擇歐氏距離。
步驟2:單元插入及權數更新。由于本文中原始網絡樣本單元的權數為,對于網絡樣本中第i個單元在參照樣本中的k個鄰近單元Ni,k中的第c個單元(參照樣本中的第j個單元)的權數dj更新為:

此時,Ni,k中的k個單元更新后的權數,(j∈Ni,k)的和為:

網絡樣本中的第i個單元,則相應地插入到參照樣本中,權數為,則第i個單元的網絡樣本單元的權數和Ni,k中的k個單元的權數和為即參照樣本和非概率網絡樣本融合后,不改變原始參照樣本單元權數和。
步驟2的實質是將網絡樣本單元的權數按比例從其在參照樣本中最近鄰的k個單元的原始權數dj中扣除。重復步驟1和步驟2,直到所有的網絡樣本單元均被插入參照樣本。則最終合并后的樣本單元s={sr',sw},相應的權數為
根據步驟2,可以得到最終合并后樣本s中單元的權數有:

即通過權數可以將合并后的樣本集合在規(guī)模上依然還原至目標總體U。
步驟3:令Ii=1,i∈s表合并后樣本s中第i個單元屬于網絡樣本sw,Ii=0,i∈s表合并后樣本s中第i個單元屬于網絡樣本sr'。使用加權邏輯回歸估計合并后樣本s中單元被選入網絡樣本sw的概率π?i。則網絡樣本單元的權數為wi=1,總體均值的估計為:

根據模擬的結果發(fā)現,步驟1中隨著最近鄰匹配個數k的增加,的相對偏差(定義見式(14)),隨著k的增加不斷減小,并最終趨向于穩(wěn)定,的標準差(定義見式(10))、離散系數(CV)隨著k的增加先增加后減小并趨向穩(wěn)定。以上述模擬過程中的一次為例(如圖2),隨著k的增加估計量的相對偏差的絕對值變化相對較小,當k=2 時,估計量的相對偏差、CV最小,因此,本文中選擇使得的標準差或者CV最小的k。

圖2 最近鄰個數k的選擇

的方差的估計為:

由于不同的調查模式之間會存在模式效應,比如紙筆調查和網絡調查、電話調查和網絡調查等,為了消除這種模式效應,并集中于研究不同傾向得分權數調整方法在網絡自愿樣本推斷中的效果,在本文的模擬研究中,使用2014年中國家庭追蹤調查(CFPS)的成人調查數據,刪除個案缺失數據,及對相關變量進行隨機插補后,一共有14039個個案,其中可以上網的個案有4084人,不可以上網的有9955人。為了減少抽樣比較高引起的高估估計量效率的影響,本文利用有放回式的簡單隨機抽樣從14039個個案中抽取1000000次,每次抽取一個單元,并將這1000000個個案作為模擬總體U。中國家庭追蹤調查(CFPS)是由北京大學社會科學調查中心組織的旨在了解中國社會、家庭及個人發(fā)展的全國性的概率調查,每年進行一起。在CFPS的問卷中,他們設計了一個問題可以識別出樣本單元是否上網,因此,使用CFPS的數據可以方便本文問題的研究。此外,本文通過對模擬總體數據進行逐步回歸選取了所在省份prov、地區(qū)類型urban、年齡age、性別gender、受教育年限eduy、戶籍類型qa作為解釋總體單元能不能上網的協(xié)變量,并為每個模擬總體U中的單元模擬了三個連續(xù)性變量x1,x2,x3,三個變量分別來至于均值為10,5,40,方差為9,9,9的正態(tài)總體,并將上述9個變量作為估計傾向得分的解釋變量,待研究的變量y由下面的模型生成:

步驟1:利用無放回式簡單隨機抽樣從總體U中抽取一個樣本量為nr的參照樣本;
步驟2:從總體U中可以上網的子總體UW中根據指定的樣本選擇機制:

抽取樣本量nw的網絡自愿樣本,其中=1表示子總體UW中第i個單元被選入到樣本,假定非概率網絡樣本的樣本選擇機制為Logistic形式:

步驟3:對于特定的參照樣本和網絡樣本的樣本量組合nr,nw,重復步驟1和步驟2抽樣過程1000次,每一次抽樣過程后,均計算以下估計量:
(1)將基本人口信息變量省份、地區(qū)類型、年齡、性別、受教育年限及戶籍類型作為輔助變量產生線性校準估計量
(2)將式(8)中的所有變量作為輔助變量產生線性校準估計量
(3)忽略參照樣本單元權數的簡單邏輯回歸得到的逆傾向得分加權估計量
(4)Valliant提出的加權邏輯回歸得到的逆傾向得分估計量
(5)本文提出的逆傾向得分加權估計量
本文從平均相對偏差(R.Bias)、平均標準差(S.E)及95%置信區(qū)間包含真值的比例(Coverage rate)三個方面對不同的估計量進行比較。
平均相對偏差定義為:

其中B為對于每次實驗過程重復的次數,本文中B=1000,?為第i次實驗得到的總體特征的估計,θ為總體特征真值。
平均標準差定義為:

其中為第i次重復實驗得到的估計量的標準差。
95%置信區(qū)間包含真值的比例定義為:

其中Interval為第i次模擬過程構造的置信區(qū)間。
步驟4:為了研究不同樣本量nr,nw對估計結果的影響,本文賦予nr,nw不同的樣本量組合,如表1所示:

表1 不同的樣本組合
表中“√”表示有效的實驗組合,“×”表示本文未做該樣本組合的模擬研究。相比較于網絡調查,傳統(tǒng)的概率抽樣花費較為昂貴,因此在本文的模擬研究中,限定參照樣本的樣本量不多于網絡自愿樣本的樣本量。對于不同的nr和nw,重復步驟1至步驟3。
從表2(見下頁)可以看到,估計傾向得分模型時,如果忽略參照樣本的設計權數,直接利用簡單邏輯回顧,則得到的逆傾向的分加權估計量平均相對偏差較大,均在-10%以上,當網絡便利樣本量固定時,隨著參照樣本量的增加,的平均相對偏差有減少的趨勢,但仍高于-10%,此時,網絡便利樣本樣本量的增加并不能有效減少此估計量的平均相對偏差;Valliant提出的使用參照樣本的設計權數,通過加權Logistic回歸得到的逆傾向得分估計量以及本文提出的基于kNN的樣本合并方法得到的逆傾向得分估計量的平均相對偏差較小,均在5%以內,當網絡便利樣本的樣本量為2000時,兩種估計量的相對偏差幾乎相同,網絡便利樣本的樣本量增加到3000時,的平均相對偏差均小于。

表2 不同樣本組合下估計量相對偏差R.Bias結果
從95%的置信區(qū)間包含真值比例方面來看(見表3),的95%的置信區(qū)間包含真值的比例較低,在本文的模擬研究中均不高于90%;及95%的置信區(qū)間包含真值的比例均接近95%,當網絡便利樣本的樣本量固定時,隨著參照樣本量的增加,兩種估計量的95%置信區(qū)間包含真值的比例,有微弱的下降趨勢,比如當網絡樣本量為3000時,隨著參照樣本量從500增加到3000,的95%置信區(qū)間包含真值的比例由95.1%下降至93.9%。

表3 不同樣本組合下估計量95%置信區(qū)間C.Rate結果
從平均標準差SE來看,在網絡便利樣本的樣本量固定的條件下,隨著參照樣本的增加(見表4),及的標準差逐漸減少,而對于忽略樣本單元權數的簡單邏輯回歸得到的逆傾向得分加權估計量卻有增加的趨勢。

表4 不同樣本組合下估計量標準差SE結果
值得注意的是,當校準變量為生成y的模型中所有變量時或者部分人口信息變量時,校準估計能夠顯著減少估計量的偏差,但不能完全消除偏差。然而校準變量的選擇必須與待研究變量高度相關才能達到減少估計量偏差的效果,本文中選擇的校準變量為生成待研究變量模型中的一部分或者全部,因此校準估計的模擬結果與其他方法相比具有較高的效率。
本文在網絡便利樣本的背景下,介紹了傾向得分及其在利用網絡便利樣本對目標總體進行推斷中的應用,并提出了基于k-NN的樣本合并方法及相應的逆傾向得分估計量。模擬結果表明在估計傾向得分模型時,如果不考慮樣本單元的權數,構建的逆傾向得分估計量的偏差相對較大、95%置信區(qū)間包含比例也較低;本文提出的基于k-NN樣本合并方法及對應的逆傾向得分估計量,與Valliant提出的方法相比,在實際使用過程中,具有更高的操作性,且當網絡便利樣本的樣本量較大時,能夠相對減少估計量的偏差。此外,相對于利用傾向得分構建權數的方法,當將生成待研究變量y的所有協(xié)變量都包含進校準模型時,校準估計的平均偏差最小,隨著樣本量的增加平均偏差趨向于0。當校準模型中只包含基本的人口信息變量時,雖然相對于未截取的逆傾向得分估計量有所減低,但不能完全消除偏差。