郭 靜 郭 巍 黃曉娟 王秀彬 翁昊藝
網絡規模迭加法(network scale-up method)[1-6]是一種在國外已經被廣泛應用的人群規模估計方法,這種方法只需要針對全人群代表性抽樣,數據的收集可以嵌入一項針對一般人群的調查或對全人群代表性抽樣進行調查。相對于需要針對目標人群進行抽樣調查的傳統方法,網絡規模迭加法更易于獲得數據,花費低且不易被察覺,近年來在敏感人群的規模估計中得到了較好的實踐應用。
本研究旨在對網絡規模疊加法進行綜合介紹,并以大學生中發生過異性性行為的人群為例,對其規模進行估計,并為該方法的進一步推廣應用提供理論和科學依據。
1.資料
采用分層整群隨機抽樣,從北京市88所高校中隨機抽取5所高校,在每所高校隨機抽取2個系,每個系二年級及以上隨機抽取2個班級(30人為一個班級),抽中班級中的所有學生均作為調查對象,共2005人。剔除沒有完整回答7個已知人群的記錄,剔除性別缺失的記錄,剔除年級缺失的記錄,剔除沒有完整回答對7種已知人群態度的記錄,并利用對數轉換和箱式圖對社交網絡規模C的異常值進行剔除,剩余1761條記錄,即最后分析的數據庫。
2.概念界定
(1)敏感人群:一般是指社會上的一些具有某種敏感特征的人群組合,本研究中設置了兩個敏感人群,即:“發生過異性性行為的男生”和“發生過異性性行為的女生”。
(2)已知人群:已知其規模大小的人群,本次研究選取了在校大學生中的少數民族、來自港澳臺地區、來自山東省、來自河南省、留學生、中共黨員和過去1年發生意外事故(車禍,溺水等)的人數,共7個已知人群。已知人群規模數據來自北京市教委。
(3)認識:本研究中的認識界定為北京市的在校大學生,看到對方或對方的名字或綽號時能認出對方,最近兩年內與其有過接觸(包括見面、聚會、通過電話網絡等方式聯系既往已經見過面的人,不包括素未謀面的網友)。
3.分析方法
網絡規模迭加法估計人群規模步驟可分為兩步:第一步是通過調查數據估計社交網絡規模C值;第二步是通過已得到的C值估算目標(未知)人群規模。
(1)社交網絡規模C值的估計和校正:采用反向預測法對C進行估計,依次從已知人群中剔除一個已知人群,利用其他已知人群估計得到C值,反推被剔除的已知人群的規模。保留反向預測值與實際值的比值在0.2~6.0之間的已知人群作為計算C值的人群;并利用大學生人口學特征對C值進行校正。
(2)敏感人群規模校正:調查對象對敏感問題的接受程度會對其認識敏感人群的規模造成影響,以不同認可度水平調查對象社交網絡規模平均值除以中等認可度水平社交網絡規模平均值所得到的權重對數據進行校正。權重較正系數的公式如下所示:

(3)本研究利用EpiData建立數據庫,采用SAS統計軟件進行分析,不同特征大學生社交網絡規模比較采用秩和檢驗。
1.一般情況
最終納入分析的1761名調查者中(初始納入1776人,經過一系列檢驗后最終納入1761人進行分析,具體過程見后“社交網絡規模的估計和校正”部分),男生有764名,占總體的43.38%,女生有997名,所占比例為56.62%。從年級來看,大二學生所占比例最大,共有668個樣本,占總體的37.93%;大三學生642個,占總體36.46%,大四學生所占比例最小,共有451個樣本,占總體的25.61%。從專業特色來看,醫學類院校和理工類院校的樣本量相對較大,分別占總體21.35%和21.24%;藝術類院校的323個樣本相對較小,占總體18.34%;其余為文科類院校338個,占19.19%;體育類院校350個,占19.88%。
2.社交網絡規模的估計和校正
本研究選取了在校大學生中的少數民族、來自港澳臺地區、來自山東省、來自河南省、留學生、中共黨員(包括預備黨員)和過去1年發生意外事故(車禍,溺水等)共7個已知人群,并從北京市教委獲取以上人群的規模數據。
(1)粗估計值:以7個已知人群估計的個人社交網絡規模的均值為98人,中位數為57人。
(2)C值的校正:利用反向預測的方法評價C值估計結果的穩定性,以反向預測值和實際數據的比值在0.2~6.0之間作為標準,確定用于最終分析的已知人群。各人群反向預測結果見表1。

表1 反向預測的已知人群規模
第7個已知人群“過去1年發生意外事故”的預測規模與實際規模的比值97.97超出標準,故將其剔除。
剩余6個已知人群,再次利用其他5個已知人群估計剩余的第6個已知人群的規模。結果顯示,反向預測值與實際數據的比值在0.21~5.76之間,說明剩下的6個已知人群基本符合已知人群的篩選標準,該6個人群作為最終計算社交網絡規模的已知人群。
(3)C值的分布、異常值處理:根據篩選出的6個已知人群,重新計算社交網絡規模,結果顯示C值呈右偏態分布,對C值進行對數轉換并利用箱式圖進行異常點診斷,刪除異常值,最終確定納入分析的調查對象為1761人。利用6個人群1761名調查對象計算大學生的社交網絡規模,并根據北京市大學生的人口學特征(專業、年級)對其社交網絡規模進行校正,經過逐步校正后的社交網絡規模C的均值97人,中位數55人,標準差109。利用上述方法對C值進行逐步調整的結果如表2。

表2 社交網絡規模C逐步校正結果
(4)大學生社交網絡規模比較:不同性別大學生社交網絡規模差異無統計學意義;不同年級大學生社交網絡規模差異有統計學意義,大三學生的社交網絡規模最大,大四及以上學生社交網絡規模最小。不同專業大學生社交網絡規模差異有統計學意義,其中藝術類大學生社交網絡規模最大,醫學類大學生社交網絡規模最小,其余三類大學生社交網絡規模居中(見表3)。
3.敏感人群規模和校正:
(1)人群規模初步估計:利用6個已知人群計算得到大學生社交網絡規模C的均值為97人,并計算北京市在校大學生有異性性伴的學生規模和比例(見表5)。
(2)人群規模校正: 調查對象對待每個已知人群都有5種態度:非常愿意、比較愿意、像一般同學一樣對待、不太愿意、非常不愿意。以態度作為分組標志,采用秩和檢驗比較不同態度學生的社交網絡規模,結果顯示不同態度學生的網絡規模差異有統計學意義(P<0.01)。因此在初步估計北京市在校大學生性行為發生規模和比例后,計算其校正系數(見表4),在此系數基礎上重新估計北京市在校大學生性行為發生規模和比例(見表5)。

表3 不同特征大學生社交網絡規模及比較

表4 已知人群和未知人群的態度1校正系數

表5 校正前后人群規模比較
結果顯示,北京市在校大學生中有異性性伴的大學生占總體比例為13.74%(2011年北京市在校大學生共819368人,其中女生409048人,男生410320人),其中男生比例為13.84%,女生比例為13.62%。
本次研究證明,運用反向預測法得到的已知人群規模與運用網絡規模迭加法得到的規模大體一致,并且計算得到的敏感人群規模與已有相關研究結果相似[7-8],說明了運用網絡規模迭加法計算社交網絡規模和敏感人群規模的可信性。
研究結果顯示北京市在校大學生的社交網絡規模C值呈偏態分布,與國內外研究中C值的分布情況一致[9-11]。關于社交網絡規模的描述是用均數還是中位數,目前沒有確定性的建議,本研究給出了兩個參數的估計值。不同性別、學校和年級學生的社交網絡規模存在差異,其分布差異可以從他們的身份特點上得到合理的解釋。本研究樣本理科和醫學生比例較高,而其社交網絡規模C值較低,為了排除樣本構成對結果的影響,用北京市大學生的人口學特征進行了校正,結果更為準確和可信。
已知人群的選擇將對網絡規模迭加法的運用產生極大的影響,繼而影響社交網絡規模和未知人群規模的計算。所以,在網絡規模迭加法的運用中,要慎重選擇已知人群。一般,至少需要6個已知人群,同時不能選擇規模太大或太小的人群,反向預測值與官方數據的比值在0.2~6.0之間較合適。
(同時感謝中國疾病預防控制中心性艾中心對于本次研究的項目資金支持。)
參 考 文 獻
1.Bernard HR,Hallett T,Iovita A,et al.Counting hard-to-count populations: the network scale-up method for public health.Sex Transm Infect,2010,86(supply 2):11-15.
2.Johnsen EC,Bernard HR,Killworth PD,et al.A social network approach to corroborating the number of AIDS/HIV+victims in the U.S.Social Networks,1995,17(3):167-187.
3.Bernard HR,Johnsen EC,Killworth PD,et al.Estimating the size of an average personal network and of an event subpopulation: some empirical results,1991,20(2):109-121.
4.Bernard HR,Killworth PD,Johnsen EC,et al.Mccarty C.Estimating the Ripple Effect of a Disaster.Connections,2001,24(2):18-22.
5.Bernard HR,Mccarty C.Scale-up method theory and history with notes,2009.
6.Killworth PD,Mccarty C,Johnscn EC,et al.Investigating the variation of personal network size under unknown error Conditions.Socio-logical Methods & Research,2006,35(1):84-112.
7.張絲艷,徐震雷.北京市四所高校大學生性行為現狀及相關因素調查.中國性科學,2010,9(2):3-6.
8.彭彧華,沈莉.當代大學生性行為和性態度,性知識的特點及關系.人口研究,2009,33(6):85-93.
9.惠珊,王璐,郭巍.網絡規模迭加法及其在男男性接觸者人群規模估計中的應用.國際流行病學傳染病學雜志,2010,37(6):405-407.
10.包水蓮,吳國輝,張維,等.利用網絡規模迭加法估計重慶市男男性行為人群規模的研究.中華流行病學雜志,2012,33(010):1036-1039.
11.還錫萍,包水蓮,等.利用網絡規模迭加法估計泰州市暗娼和嫖客人群規模.中華預防醫學雜志,2013,47(3):19-21.