張曉東,杰奎琳 ·J·拉森(著);艾里克木·艾合買提(譯)
2019年,一群應用方法學家和統計學家聚集在愛丁堡,就如何使用各種技術對現有記錄進行三角測量或多系統估算以改進人口販運流行率估計進行了為期兩天的熱烈辯論。在這兩天里,專家學者從不同視角對不同環境中應如何進行人口販運的多系統估算進行了有益的交流和討論,并針對如何利用現有記錄提高人口販運流行率估計提出了建議。筆者認為,不同的研究方法在人口販運領域有其不同的優勢,因此希望通過本文的分析為改進人口販運流行率估計提供一個更為全面的視角。
自20年前通過《聯合國禁止人口販運公約》(也稱《巴勒莫公約》)以來,由西方國家領導的經常關注性販運活動的反人口販運運動已經蔓延到世界各地?!栋屠漳s》確定了人口販運的法律定義(1)《巴勒莫公約》規定: 人口販賣是指通過威脅或使用武力,或其他形式的脅迫、綁架、欺詐、欺騙、濫用權力或脆弱性,或通過賄賂,為剝削目的而招募、運輸、轉移、窩藏或接收人員,以支付或給予利益的形式獲得控制他人的人的同意。剝削至少包括剝削他人賣淫或其他形式的性剝削、強迫勞動或服務、奴役或類似于奴役的做法、奴役或摘除器官。https://www.ohchr.org/zh/instruments-mechanisms/instruments/protocol-prevent-suppress-and-punish-trafficking-persons.——譯者注,為全球大多數國家所支持,迄今為止,多數國家已經批準了《巴勒莫公約》,并建立了打擊人口販運的法律和結構性機制。反人口販運活動也得到了來自政府機構和民間社會的極大關注,他們紛紛投入資源,根據聯合國大學研究人員的一項研究,在2000年至2013年期間,有30個國家為打擊人口販運進行捐助,總投入超過40億美元,其中美國是最大的資金來源,約占全球總量的60%(2)Gleason, K. &Cockayne, J. (2019). Official development assistance and SDG Target 8.7: Measuring aid to address forced labor, modern slavery, human trafficking and child labor, United Nations University Centre for Policy Research, September 2018. Retrieved July 3, 2021, from http://collections.unu.edu/eserv/UNU:6612/Development_Assistance_and_SDG_Target_8.7_FINAL_WEB_7_.pdf.。
盡管全世界都在關注人口販運,各國都在努力打擊人口販運活動,但對于人口販運的全球數據及各地的人口販運問題的嚴重程度仍然不甚清楚,不同渠道獲得的數據一片混亂。例如,奧基克(Okech)等人對94篇文章進行綜合分析后發現,目前的許多人口販運研究缺乏對販運的明確概念和定義,也沒有為項目、實踐和政策提供循證實證研究的信息(3)Okech, D., Choi, Y. J., Elkins, J., &Burns, A. C. (2018). Seventeen years of human trafficking research in social work: A review of the literature. Journal Of Evidence-Informed Social Work, 15(2), 102—121. https://doi.org/10.1080/23761 407.2017.1415177.。各種各樣的估計值在研究者及他們的作品中流傳,以至于研究人員也質疑一些信息來源的真實性,而這些信息來源恰恰是推動全球反人口販運運動的源泉(4)Weitzer, R. (2011). Sex trafficking and the sex industry: The need for evidence based theory and legislation. Journal of Criminal Law and Criminology, 101,1337—1370.Weitzer, R. (2014). New directions in research on human trafficking. The ANNALS of the American Academy of Political and Social Science, 653(1), 6—24.Zhang, S. X. (2009). Beyond the “Natasha” story: A review and critique of current research on sex trafficking. Global Crime, 10, 178—195.Zhang, S. X. (2012). Measuring labor trafficking: A research note. Crime, Law, and Social Change, 58, 469—482.。例如,費迪娜(Fedina)對有關人口販運流行率研究的文獻進行了系統的回顧,發現絕大多數已出版的書籍使用的都是沒有嚴格出處的數據。因此,費迪娜警告說,如果繼續使用這些未經證實的數據,可能會誤導甚至會對反人口販運運動有害(5)Fedina, L. (2015). Use and misuse ofresearch in books on sex trafficking: Implications for interdisciplinary researchers, practitioners, and advocates. Trauma, Violence and Abuse, 16(2), 188- 198. https://doi.org/10.1177/1524838014523337.。懷哲列舉了一些值得注意的流行率估計的宏觀數據的具體例子,這些估計似乎都沒有什么意義,且經驗數據有限(6)Weitzer, R. (2014). New directions in research on human trafficking. The ANNALS of the American Academy of Political and Social Science, 653(1), 6—24.。這些批評者質疑一些關于人口販運的普遍說法的經驗基礎:(1)全球范圍內的人口販運受害者數量巨大;(2)人口販運的規模在全球范圍內穩步增長;(3)人口販運是僅次于非法毒品和武器交易的第二或第三大有組織犯罪行業。這些研究人員呼吁,要更多地關注和強調收集原始數據,以支持政策制定,并指導執法和干預工作。
盡管大家對進行各種流行率估計的方法的適當性和嚴謹性有不同意見,甚至提出了質疑,但進行流行率估計仍有政治和道德上的必要。為了向政策制定者、受害者支持團體以及執法機構提供信息,許多研究人員已經開始著手這一工作——估算黑數的大小。毫無疑問,我們需要可靠的估計,但現實往往充滿了復雜性和挑戰,這早已為研究界所注意到(7)De Cock, M. (2007). Directions for national and international data collection on forced labor (Working Paper No.30). International Labor Organization.Gozdziak, E., &Collett, E. A. (2005). Research on human trafficking in North America: A review of literature. International Migration, 43(1/2), 99—128.International Labor Organization. (2011). Hard to see, harder to count: Survey guidelines to estimateforced labor of adults and children. Author.Laczko, F., &Gozdziak, E. (2005). Data and research on human trafficking: A global survey. International Migration, 43(1/2), 5—16.Laczko, F., &Gramegna, M. (2003). Developing better indicators of human trafficking. Brown Journal of World Affairs, 10(1), 179—194.Tyldum, G., &Brunovskis, A. (2005). Describing the unobserved: Methodological challenges in empirical studies on human trafficking. International Migration, 43(1-2), 17—34.Zhang, S. X. (2009). Beyond the “Natasha” story: A review and critique of current research on sex trafficking. Global Crime, 10, 178—195.。
人口販運流行程度的估算所面臨的挑戰很多,總體上可歸納為兩類:(1)計算規則(即,將什么算作人口販運活動);(2)估算方法(即,用于估算受害者人口規?;騿栴}范圍的數據收集和計算方法)。
第一類問題涉及將國際的或某個具體國家的法律框架應用到執行措施或調查文書。這不是一件容易的事,因為關于如何將法律框架轉化為具體項目的協議很少,再加上與受害者檔案相關的風險/保護因素的額外措施,本來嚴謹有序的法律條文很快就會變得混亂不堪。我們這些多年來從事初級數據收集工作的人可能會同意,獲得人口販運有效估計的一個主要障礙是普遍缺乏研究人員可以用于數據收集目的的一致和統一的措施(8)Zhang, S. X. (2012). Measuring labor trafficking: A research note. Crime, Law, and Social Change, 58, 469—482.。許多研究報告了勞工販運的流行率估計,其中研究人員都聲稱遵守了《國際勞工組織公約》《聯合國巴勒莫公約》和《美國人口販運受害者保護法》(TVPA)的法律框架。比較分析更是幾乎不可能,因為在法律框架實施方面,即將法律概念實際轉化為具體措施的運作過程中存在不一致。這種情況類似于公共衛生研究人員對一種正在調查的疾病采用不同的診斷標準,人們可以想象在這種情況下產生宏觀水平的流行率估計的困難。無論是被稱為人口販運、強迫勞動、現代奴隸制,還是用其他術語來稱呼,如果我們不能就這些人類經驗的共性達成一致,全球知識和進步都將難以衡量。在過去的十幾年里,研究界在測量問題上取得了很大的進展,其中一個例子是國際勞工組織于2018年發布了關于強迫勞動測量的指南(9)International labor Organization (ILO). (2018). Guidelines concerning the measurement of forced labor. Endorsed by the 20th International Conference of Labor Statisticians Geneva, 1019 October 2018. Geneva, Switzerland: International Labor Office. Retrieved July 3, 2021, from https://www.ilo.org/global/statistics-and-databases/meetings-and-events/international-conference-of-labourstatisticians/20/WCMS_648619/lang--en/index.htm.,這是該領域在衡量標準和分析方法方面朝著更加標準化邁出的重要一步。國際勞工組織和美國國務院等機構正在繼續努力,以提高在全球范圍內衡量各種形式的人口販運估計的標準化。
第二類挑戰涉及數據收集和后續估算方法。在很大程度上,我們如何估算所研究的社會問題的嚴重程度,往往取決于我們能夠收集到的數據的形式和質量。人口販運可以通過兩個數據來源進行估計:(1)當局和社會服務機構已經知道的案件,或在新聞媒體上報道的案件,在這種情況下,會存在某種形式的記錄可用于輔助數據分析;(2)主要數據收集,其中采用各種抽樣方法來生成估算數值。我們目前對人口販運規模的大部分了解都是基于現有記錄的調查結果,其中最主要的為國際勞工組織(10)International Labor Organization. (2012). ILO global estimate offorced labor: Results and methodology. Special Action Program to Combat Forced Labor (SAP-FL), International Labor Organization.和聯合國毒品和犯罪問題辦公室發布的《全球人口販運報告》(11)United Nations Office on Drugs and Crime. (2016). Global report on trafficking in persons 2016 (United Nations publication, Sales No. E. 16.IV.6). United Nations Office on Crime and Delinquency.。
很少有人會懷疑收集第一手數據(即初級數據)用于估算人口販運的流行程度的優點。但受資金不足的制約,迄今為止的大多數針對人口販運的流行率研究的規模和地點都十分有限,這使人們對在宏觀層面估算人口販運活動的可行性產生了懷疑。例如,懷哲就列出了一些值得注意的宏觀層面估算出錯的具體例子(12)Weitzer, R. (2014). New directions in research on human trafficking. The ANNALS of the American Academy of Political and Social Science, 653(1), 6—24.。
由于對人口販運進行全球調查的費用高得令人望而卻步,而且在邏輯上也不切實際,因此已經發展出了一些外插(或概括)法,就是收集地方和區域數據,然后進行全球估算。這個方法需要制定一套外插法或放大數據的方案,通過已知的數據來估算未知的東西。隨著可用的地方和區域數據越來越多,這種推算方法應該會隨著時間的推移而得到改進。
最突出的外插法例子是全球奴隸制指數(GSI)(13)全球奴隸制指數是由明德羅基金會發布的全球現代奴隸制研究。目前已在2013年、2014年、2016年和2018年發布了四個版本。 2018年版以現代奴隸制全球估計為基礎,估計2016年任何一天,有4030萬人處于某種形式的現代奴隸制中。 全球奴隸制指數提供三個方面的排名: 該指數是一個工具,可以為公民、非政府組織、企業和公職人員提供更好的理解,以便他們能夠制定合理的政策來結束現代奴隸制。參見全球奴隸制指數網站,https://www.globalslaveryindex.org?!g者注。這是一個由澳大利亞的反奴隸制組織“自由行走”(Walk Free)制作和發布的數據。該組織利用蓋洛普世界民意調查(Gallup World Poll)戰略性地收集多個國家的受訪者數據,然后利用分層的貝葉斯模型開發了一種外插研究方法,將受訪者層面的調查數據和當前GSI脆弱性模型中的國家級預測因子考慮在內,以估算在當前48個國家樣本之外的現代奴隸制的普遍程度。多級模型使用國家級脆弱性得分來改進對沒有調查數據的國家的預測。這種方法是基于這樣一種信念,即具有相似社會經濟和政治條件的國家可能會擁有相似的奴隸制水平。GSI脆弱性模型自2014年首次出現以來,已經經歷了多次迭代和審查?;谌祟惏踩头缸镱A防理論,脆弱性模型由23個變量組成,分為五個維度:(1)治理問題;(2)缺乏基本需求;(3)不平等;(4)被剝奪權利的群體;(5)沖突的影響。人口統計學家也經常采用類似的估算方法,他們必須研究人口趨勢和人口普查之間的變化。在公共衛生領域,也經常使用外插法來估算疾病的流行率。當無法獲得國家調查時,這種外插法方案是一個很好的替代辦法。
德·科克審查了幾種評估人口販運活動嚴重程度的方法,包括估算流行率的國家調查、基于企業的針對特定勞動部門的調查、為深入了解販運受害性質的定性研究,以及收集曾引起警察或服務機構注意的所有案件的國家數據庫(14)De Cock, M. (2007). Directions for national and international data collection on forced labor (Working Paper No.30). International Labor Organization.。雖然很少見,但也有一些研究使用了傳統的調查方法。這些努力大多集中在世界各地的特定勞動部門和特定區域范圍內,最好的例子可能是甘地和平基金會和國家勞工研究所在20世紀70年代末進行的調查。該調查隨機抽取了印度10個邦的1000個村莊做樣本,這些村莊的農民普遍依附于土地所有者(15)Sarma, M. (1981). Bonded labour in India. Biblia Impex.。該研究估計,印度有260萬擔保勞工。另一個例子是在柬埔寨進行的一項研究,在這項研究中,研究人員使用地理測繪技術和線人—采訪者來估算該國性交易受害者的人口(16)Steinfatt, T. M., &Baker, S. (2011). Measuring the extent of sex trafficking in Cambodia: 2008. United Nations Interagency Project on Human Trafficking. Retrieved January 15, 2020, from https://com.miami.edu/projects/measuring-the-extent-of-sex-trafficking-in-cambodia/.,采用一種新的方法來實地繪制所有性工作場所的地圖。最近,張曉東等人應用兩種傳統抽樣技術(即基于家庭的抽樣和基于時間—地點的抽樣)來估計印度比哈爾邦的擔保勞工規模和最糟糕的童工形式(17)Zhang, S. X., Dank, M., Vincent, K., Narayanan, P., &Bharadwaj, S. (2019). Estimating theprevalence offorced and bonded labor in the Indian State of Bihar. San Diego State University Research Foundation. https://delta87.org/2020/06/ human-trafficking-indian-state-bihar-prevalence-characteristics/.。這些大規模的流行率估算研究雖然進展緩慢,但已經廣泛開展起來,最終結果將取決于資助機構的興趣和承諾資源的到位。
對于大多數人口販運受害者而言,并沒有適合傳統的基于概率的抽樣方法的抽樣框架。近年來,研究人員一直在開發和應用各種技術,希望對“隱藏”人口進行參數估計。赫卡索恩開發了一種基于網絡的方法,稱為受訪者驅動抽樣(RDS),旨在消除傳統滾雪球抽樣技術中固有的偏見。受訪者驅動抽樣方法依賴一種“馬爾可夫鏈”(18)馬爾可夫鏈(Markov process),又稱離散時間馬爾可夫鏈,因俄國數學家安德烈·馬爾可夫得名,為狀態空間中經過從一個狀態到另一個狀態的轉換的隨機過程。該過程要求具備“無記憶”的性質:下一狀態的概率分布只能由當前狀態決定,在時間序列中它前面的事件均與之無關。這種特定類型的“無記憶性”稱作馬爾可夫性質。馬爾科夫鏈作為實際過程的統計模型具有許多應用?!g者注,通過多波招募來實現多樣性和平衡(連續樣本/波不再反映初始樣本的點)。該方法通過兩個基本的變化改進了傳統的滾雪球抽樣設計:(1)采用了雙重激勵系統,即受試者的參與和招募他人參與研究都能獲得獎勵;(2)通過使用推薦券,受試者不需要向研究人員確認推薦,由此產生的匿名性鼓勵了參與(19)Heckathorn, D. D. (1997). Respondent-driven sampling: A new approach to the study of hidden populations. Social Problems, 44(2), 174—199.。
通過一個結構化的流程來限制招聘機會,確保了多樣性,從而可以得到經驗驗證。志愿服務被最小化了,因為一個雙重激勵系統被認為可以鼓勵參與和招聘,這樣的招募程序阻止了研究人員故意尋找特定的研究對象。由于研究人員并不指明小組成員的方向,而是由小組成員自己招募,因此“掩飾”最小化了。因為每個參與者只能招募三個受試者,而且可以通過相對少量的波來實現平衡,同質性也被最小化了。最后,受訪者驅動抽樣最大限度地減少了那些擁有更大人際網絡的人可能帶來的偏差。受訪者驅動抽樣方法已被成功地應用于許多針對難以接觸到的人群的研究中(20)Abdul-Quader, A. S., Heckathorn, D. D., Sabin, K., &Saidel, T. (2006). Implementation and analysis of respondent driven sampling: Lessons learned from the field. Journal of Urban Health, 83(S1), 1—5.Heckathorn, D. D. (1997). Respondent-driven sampling: A new approach to the study of hidden populations. Social Problems, 44(2), 174—199.Heckathorn, D. D. (2002). Respondent-driven sampling II: Deriving valid population estimates from chain-referral samples of hidden populations. Social Problems, 49(1), 11—34.Robinson, W. T., Risser, J. M. H., McGoy, S., Becker A. B., Rehman, H., Jefferson, M., Griffin, V., Wolverton, M., &Tortu, S. (2006). Recruiting injection drug users: A three-site comparison of results and experiences with respondent-driven and targeted sampling procedures. Journal of Urban Health, 83, 29—38.Zhang, S. X., Spiller, M. W., Finch, B. C., &Qin, Y. (2014). Estimating labor trafficking among unauthorized migrant workers in San Diego. Annals of American Academy of Political and Social Science, 653(1), 65—86.。在人口販運研究領域,受訪者驅動抽樣持續受到實證研究人員的關注。例如,古普塔(Gupta)等人于2006年在印度沿海的安得拉邦應用受訪者驅動抽樣方法,招募了812名女性性工作者,以調查她們的性交易經歷。研究發現,這些受訪者中約有20%符合聯合國對性交易的定義。被販賣的女性性工作者比未被販賣的女性性工作者更有可能遭受暴力,而且每周工作時間更多(21)Gupta, J., Reed, E., Kershaw, T., &Blankenship, K. M. (2011). History of sex trafficking, recent experiences of violence, and HIV vulnerability among female sex workers in coastal Andhra Pradesh, India. International Journal of Gynecology and Obstetrics, 114(2), 101- 105. https://doi.org/10.1016/j.ijgo.2011.03.005.。
最近,加拿大統計學家凱爾·文森特(Kyle Vincent)設計了一種抽樣方法,即文森特鏈接跟蹤抽樣(VLTS,以其主要開發人員命名),該方法保留了傳統受訪者驅動抽樣招聘過程中的傳統概率抽樣的特征(22)Vincent, K., &Thompson, S. K. (2017). Estimating population size with link-tracing sampling. Journal of the American Statistical Association, 112(519), 1286—1295.。簡單地說,文森特鏈接跟蹤抽樣利用任何現有的(全面或部分)采樣框架來開發一個大的初始樣本。初始樣本可以基于傳統的抽樣設計,如簡單隨機抽樣、分層隨機抽樣或基于可用(盡管不完美)抽樣框架的系統抽樣,然后從初始樣本或種子受訪者的個人網絡中進行兩到三波的個人招募,以識別來自不同網絡的個體之間的重疊情況。換句話說,在選擇初始樣本后,就可以開發推薦或提名,其中社交網絡可以被映射,以識別重疊,從而自適應地建立最終樣本。文森特和湯普森提出的拉奧—布萊克韋爾(Rao-Blackwell)推理方法(23)在統計學中,拉奧—布萊克韋爾定理,有時稱為拉奧—布萊克韋爾—柯爾莫果洛夫定理,是一項結果,它描述了如何將任意粗糙的估計量轉化為通過均方誤差準則或任何一種類似準則優化的估計量?!g者注可以將通過鏈接追蹤選擇的其他受訪者納入推理過程中,以便對種群參數進行估算(24)Vincent, K. (2019). Recent advances in estimating population size with link-tracing sampling. arxiv preprint: arXiv: 1709.07556.Vincent, K., &Thompson, S. K. (2017). Estimating population size with link-tracing sampling. Journal of the American Statistical Association, 112(519), 1286— 1295.。
最終,文森特鏈接跟蹤抽樣利用所有可用資源,以基于研究人群知識的輔助信息的形式,在研究早期獲得盡可能具有代表性的樣本。因此,與傳統的受訪者驅動抽樣相比,在應用無偏估算方法之前,不需要獲得大量額外的層次。這種方法允許更復雜的網絡分析和有效的種群大小計算,通過標記—再捕獲技術來進行。文森特鏈接跟蹤抽樣的發展受到了湯普森(Thompson)和塞伯(Seber)(25)Thompson, S. K., &Seber, G. A. F. (1996). Adaptive sampling. Wiley Series in Probability Statistics.以及弗蘭克(Frank)和斯奈德斯(26)Frank, O., &Snijders, T. (1994). Estimating the size of hidden populations using snowball sampling. Journal of Official Statistics, 10(1), 53—67.的作品的啟發,他們研究了不均勻分布的種群,如瀕危物種或高度聚集的隱藏吸毒人群。該方法利用了在發現一個高興趣的單元后觀察與采樣個體相鄰(鄰近)單元的能力。用自適應抽樣設計來估算難以到達的人口的大小,已經引起了一些研究者的關注,并體現在他們的出版物中。菲力克斯·梅蒂娜(Felix-Medina)和湯普森(27)Felix-Medina, M. H., &Thompson, S. K. (2004). Combining link-tracing sampling and cluster sampling to estimate the size of hidden populations. Journal of Official Statistics, 20, 19—38.后來發展了一種基于假設的方法,即招募可以通過對隱藏人群的部分抽樣框架的可用性來完成,并且推薦是以可預測的方式進行的。
近年來,在難以尋覓蹤跡的人群的流行率估計方面引起廣泛關注的另一種方法是網絡擴展法(NSUM)(28)Salganik, M. J., Mello, M. B., Abdo, A. H., Bertoni, N., Fazito, D., &Bastos, F. I. (2011). The game of contacts: Estimating the social visibility of groups. Social Networks, 33(1), 70—78.。第一次將這種方法應用于估算未知人口的是一個由人類學家、數學家和社會網絡分析師組成的團隊,他們試圖估算1985年秋季墨西哥大地震造成的死亡人數。該方法基于這樣一個假設,即人們的社交網絡(即你認識的人群)平均代表了你居住地的一般人口(29)Bernard, H. R., Killworth, P. D., Johnsen, E. C., &Robinson, S. (1991). Estimating the size of an average personal network and of an event subpopulation: Some empirical results. Social Science Research, 20, 109—121.Killworth, P. D., Johnsen, E. C., Bernard, H. R., Shelley, G. A., &McCarty, C. (1990). Estimating the size of personal networks. Social Networks, 23, 289—312.,例如,如果一組受訪者報告他們平均知道300人的個人網絡規模,他們每個人的網絡中平均有2人死于地震,那么我們可以假設大約有2/300的普通人可能死于地震。由于有關于該城市的人口普查水平的信息或已知的人口特征,我們可以應用這種方法來估算特定群體的人口規模。
網絡擴展法可以附加到任何基于概率的抽樣程序中,因為它只需要一組獨特設計的問題來引出他們對以下方面的知識的回答:(1)他們自己的個人網絡中具有特定特征的人(即強迫勞動的受害者);(2)使用一些已知亞群體的估計作為參考。有幾種方法可以估算個人的網絡規模,包括已知的人口估算量及其總和(30)Maltiel, R., Raftery, A. E., McCormick, T. H., &Baraff, A. J. (2015). Estimating population size using the network scale up method. Annals of Applied Statistics, 9(3), 1247—1277. https://doi.org/10.1214/15-AOAS827.,還有更廣義的網絡擴展法模型(G-NSUM)(31)Feehan, D. M., &Salganik, M. J. (2016). Generalizing the network scale-up method: A new estimator for the size of hidden populations. Sociological Methodology, 46(1), 153—186. https://doi.org/10.1177/0081175016665425.?;旧?受訪者將被問及一系列“你知道多少X”的問題,其中X對應于幾個已知和未知大小的子群體。已知群體對應于規模和范圍已經測量過的參考群體,例如美國的糖尿病患者;未知群體對應感興趣的目標人群(如性工作者)。人們需要調整這些參照群體和那些隱秘群體之間的差異,以及受訪者對被估計的隱秘人口的看法。因為網絡擴展法不要求受訪者識別任何具有特定特征的個人(包括他們自己),所以它被認為能夠提高回答的誠實度。由于網絡擴展法項目可以附加到定期的社會調查中,所以通過搜索“隱秘的”人群可以顯著節省成本。
盡管目前對人口販運的普遍程度的估計存在很大差異,但大家普遍認為官方犯罪統計數字只是冰山一角,冰山下面隱藏著一個巨大的“黑數”。黑數是犯罪學術語,指的是報告的犯罪與當局不知道的犯罪之間的差距。近年來,多系統估算法因其在流行率估計方面的獨特性而受到人口販運研究界的廣泛關注。
多系統估算法的基本邏輯相當簡單,因為它是經典的標記—再捕獲估算技術的擴展。當一個人口販運受害者出現在一個機構的名單上時,被認為是“標記”,而如果同一個人出現在另一個名單上,就被認為是“再次捕獲”。在一個列表(或樣本)上標記的個體數量用于估計總體規模,其原理是在第二個樣本中標記的比例近似等于在總體中標記的個體的比例。經典的林肯—彼得森估算模型如下所示(32)Petersen, C. (1896). The yearly immigration of young plaice into the limfjord from the german sea. Report of the Danish Biological Station, 6, 5—84.:
其中S1是標記并釋放到種群中的數量(即第一個樣本的大小),S2是第二個樣本的大小,R是第二個樣本中再次捕獲的數量,N是種群大小的估計值。再次捕獲個體的比例越小,種群更替率就越大,因此估計的種群規模就越大。
然而,通常用于估算野生動物種群的標記—再捕獲方法在應用于人類種群時面臨著諸多的挑戰。人類種群的招募模式可能與野生動物種群有根本上的不同,例如人類可以用“自我選擇”的形式。對于那些引起當局或服務提供者注意的人來說,人們不能假設他們具有同樣程度的獨立性或“偶然”。在標記—再捕獲分析中,研究人員還必須面對一組不同的管理列表,并且為這些列表捕獲的記錄通常是通過許多不同的機制(如警察記錄、醫院記錄和受害者服務提供者的現場抽樣)收集的,數據保存很少或完全沒有一致性。此外,研究人員必須在研究過程中考慮到人類進出目標人群的情況,并考慮到捕獲場合和捕獲時間的不同情況,還要考慮與感興趣的人群相對應的異質性效應。因此,通常需要復雜的標記—再捕獲模型來獲得有意義的估計。隨著“標記—再捕獲”軟件的出現,統計學家們如今能夠越來越輕松地進行復雜的分析(33)這些軟件包括:(1)R中的Rcapture包;里維斯特,L.-P。Baillargeon, S.(2014)。Rcapture:用于捕獲—再捕獲實驗的Loglinear模型。R包版本1.4-2。https://CRAN.R-project.org/package=Rcapture;(2)節目標識:http://www.phidot.org/software/mark/;(3) CARE(表示捕獲—再捕獲),用于Chao, A., Tsay, P. K., Lin, S.-H。Shau, w - y。Chao, d.y。(2001)。標記重現模型在流行病學數據中的應用。醫學統計,20,3123—3157,https://doi.org/10.1002/sim.996。。
多系統估算法受到了研究界越來越多的關注。其中最突出的例子是國際勞工組織對強迫勞動的全球估算,該估算估計全球受害者總數約為2090萬,其中絕大多數被個體雇主或私營企業剝削(34)International Labor Organization. (2012). ILO global estimate offorced labor: Results and methodology. Special Action Program to Combat Forced Labor (SAP-FL), International Labor Organization.。本質上,國際勞工組織的抽樣方法依賴于利用兩個獨立的研究助理團隊來建立一個獨立的數據庫,其中包括每個小組所能發現的所有報告過的強迫勞動案例,以便利用標記—再捕獲原則。這個想法是,如果一個團隊搜索并找到所有已報告的強迫勞動案例,這些報告將代表一個已確定的強迫勞動事件的樣本。如果兩個團隊捕獲了相同的報告案例,它們將代表兩個“獨立”樣本之間的重疊。按照這個邏輯,基本的標記—再捕獲模型假設了樣本情況的二項概率分布。因此,販運報告要么“捕獲了”,要么“未捕獲”,概率分別為p和1-p。所有報告的p值是相同的,但不同團隊可能會有所不同,例如團隊1的p=p1,團隊2的p=p2。
這是一項意義重大的工作,國際勞工組織清楚地認識到使用現有受害者報告模式具有局限性,并呼吁通過國家或區域調查加大收集初級數據的努力。但是,當時還沒有從世界各地系統收集原始數據來進行全球估算。這一全球估計證明,利用現有記錄是可能的,而且在統計上是合理的,這些記錄往往代表一些最嚴重的人口販運行為。此外,國際勞工組織的方法還可以加強,比如,人們可以探索多個再捕獲點,如指派四個研究助理小組去尋找已報告的販運案件,每個小組代表一個獨立的抽樣場合。
使用多系統估算法有幾個優點。首先,多系統估算法可能是估算強迫勞動普遍程度的最便宜的方法。該方法利用現有記錄,利用不同機構數據系統之間的重疊,可以得出統計上合理的數字。估算技術背后的統計原理簡單而優雅,在缺乏其他更嚴格的數據收集方法的情況下,多系統估算法是一種有效的方法,可以獲得相關問題的范圍的一些指示。
在估算人口販運和與人口販運相關的其他研究中,使用多系統估算法的情況正在上升,其中大多數發生在美國以外。西爾弗曼(Silverman)(35)Silverman, B. (2014). Human trafficking: An application of multiple systems estimation. Home Office. https://www.gov.uk/government/publications/modern-slavery-an-application-of-multiple-systems-estimation.是早期采用多系統估算法進行人口販運估算的人之一,他利用官方記錄中的2,744名潛在人口販運受害者的記錄,確定引起當局或社會服務機構注意的不同登記機構之間的重疊之處。西爾弗曼估計,2013年英國的“黑數”或當局未知的案件的潛在受害者在10,000到13,000之間。貝爾斯(Bales)等人(36)Silverman, B. (2014). Human trafficking: An application of multiple systems estimation. Home Office. https://www.gov.uk/government/publications/modern-slavery-an-application-of-multiple-systems-estimation.將標記—再捕獲模型的方法(稱為多系統估算,MSE)應用于人口販運受害者的列表/記錄,以估計人口販運在英國的普遍程度??唆斠练?Cruyff)等人(37)Cruyff, C., Jan van Dijk, P., &van der Heijden, P. (2017). The challenge of counting victims of human trafficking: Not on the record: A multiple systems estimation of the numbers of human trafficking victims in the Netherlands in 2010-2015 by year, age, gender, and type of exploitation. Chance, 30(3), 41—49.應用了包含協變量信息的多系統估算法技術來估算荷蘭人口販運的普遍性。萊納姆(Lyneham)等人(38)Lyneham, S., Dowling, D., &Bricknell, S. (2019). Estimating the dark figure of human trafficking and slavery victimisation in Australia. Statistical Bulletin 16. Australian Institute of Criminology. Retrieved January 15, 2020, from https:// www.aic.gov.au/sites/default/files/2020-05/sb_human_trafficking_050219.pdf.應用多系統估算法估算了2015年至2016年和2016年至2017年澳大利亞人口販運受害者人數,并將數量定為1,300至1,900之間,即每發現一名受害者約有四名未被發現的受害者。最近,法雷爾(Farrell)等人(39)Farrell, A., Dank, M., Kafafian, M., Lockwood, S., Pfeffer, R., Hughes, A., &Vincent, K. (2019). Capturing human trafficking victimization through crime reporting (Final summary report for NIJ Project 2015-VF-GX-0105). Northeastern University. Retrieved January 15, 2020, from https://pdfs.semanticscholar.org/9bb7/3400e8 37bbedc58f770632f221ac334d1f6a.pdf.使用美國境內的行政記錄完成了可能是多系統估算法的第一個實證應用,并指出不完整和缺失的記錄是進行穩定的多系統估算法的最嚴重挑戰。
雖然如上所述,多系統估算法有其固有的優點,但該方法同樣存在一些缺點。最大的一個問題是現有數據源的最初創建方式方面的問題。與大多數流行率估計方法一樣,基于多系統估算法的研究結果最多只能被視為試探性的,因為正如西爾弗曼(40)Silverman, B. (2014). Human trafficking: An application of multiple systems estimation. Home Office. https://www.gov.uk/government/publications/modern-slavery-an-application-of-multiple-systems-estimation.所說,建模假設不容易驗證,數據來源也有局限性。一個明顯的限制是,政府或社區機構登記的正式確定的受害者只占潛在人口的很小一部分,這反過來也限制了隨后的估計。
在構建支持多系統估算法的策略列表時,存在多個挑戰。由政府或社區機構編制的現有記錄取決于幸存者或受害者透露個人經歷的意愿。由于兩個主要原因,人口販運記錄并不容易收集。首先,受害者或幸存者往往不愿報告他們的經歷,因為擔心后果或尷尬,人身安全得不到充分保證,執法代表可能濫用職權,受害者或幸存者之間普遍缺乏信任,執法部門在識別販運受害者方面培訓和工具不足。如前所述,記錄保存的不一致也使官方名單難以比較。記錄收集和匯編中的這些挑戰共同威脅著多系統估算法估計的有效性。
此外,性販運和勞工販運雖然在特殊情況下偶爾會重疊,但大多發生在非常不同的勞工部門,因此需要不同的調查實體和服務提供者。不同的服務需求和受害經歷在數據跟蹤和記錄中產生了額外的復雜性,這可能會給后續用于多系統估算法估計的數據池帶來進一步的復雜性。
多系統估算法還存在其他的局限性。首先,標記—再捕獲方法依賴于“隱秘”種群的獨立樣本,這些樣本是不可能或不切實際的,就好比用排干池塘的水來計算所有的魚。換句話說,很難確定那些引起當局注意的受害者之間的“自我選擇”偏見的概率或控制因素。例如,在歐文斯(Owens)等人(41)Owens, C., Dank, M., Farrell, A., Breaux, J., Banuelos, I., Pfeffer, R., Bright, K., &McDevitt, J. (2014). Understanding the organization, operation, and victimization process of labor trafficking in the United States. The Urban Institute. http:// www.urban.org/publications/413249.html.對強迫勞動的研究中,在122起勞工販運案件中確定的所有受害者中,沒有人在遭受虐待時得到當局或社會服務提供者的救助。她們找到了聯系這些服務提供者的途徑,這些服務提供者后來在她們離開被虐待的工作環境幾個月后才認定她們是人口販運的受害者。換句話說,在現有的官方記錄中,作為一個獨立樣本被“捕獲”的概率(這是標記—再捕獲分析的必要條件)從來都不容易確定。
其次,公開可用的記錄,例如國際勞工組織在其全球評估中使用的記錄,大多可以通過一些公開的渠道獲得,尤其是互聯網。如果國際勞工組織研究下的所有研究助理小組都盡了最大的努力,理論上他們應該找到媒體、政府報告或機構報告中報告的所有已知販運案件。因此,公平地說,所有研究助理團隊發現的人口販運案件可能是相同的,重疊部分應該是100%,或接近100%。如果兩個“獨立”樣本之間的重疊完全匹配,那么標記—再捕獲方法就變得毫無意義。
第三,列表內部必然存在某種依賴性,也就是說,一個“源”被捕獲的概率很容易影響在同一采樣場合捕獲的另一個“源”(即被同一個研究團隊捕獲)。例如,一本雜志可能會報道在一個主要城市中有兩起或更多的販運受害者被解救的案例。顯然,如果一個案例被捕獲,那么很有可能另一個案例也會被捕獲。這違反了標記—再捕獲的一個基本假設,即個體之間的捕獲概率在采樣場合內是獨立的。
然而,也有一些辦法可以緩解這些問題。例如,可以只通過記錄團隊遇到的第一個捕獲案例,然后停止,再從零開始尋找新的捕獲案例,從而避免在采樣場合中使用依賴來進行采樣。此外,也可以使用原始的方法來獲得捕獲案例的半詳盡集,隨機排列它們,然后將最終樣本作為排列列表中每K個捕獲案例的樣本。還可以通過重新排列和評估這些列表上的模型來重復標記再捕獲推理過程,每個列表都是基于第k個條目。這種策略有助于減少依賴的影響;考慮自相關的類似效應,并僅考慮每一K個條目以消除依賴性。隨著標記—再捕獲軟件的出現,統計學家現在可以輕松地進行復雜的分析(42)這些軟件包括:(1)R中的Rcapture包;里維斯特,L.-P。Baillargeon, S.(2014)。重新捕獲:用于標記重新捕獲實驗的Loglinear模型。R包版本1.4-2。https://CRAN.R-project.org/package=Rcapture;(2)節目標識:http://www.phidot.org/software/mark/;(3) CARE(標記重獲),用于Chao, A., Tsay, P. K., Lin, S.-H。Shau, w - y。Chao, d.y。(2001)。標記-再捕獲模型在流行病學數據中的應用。醫學統計,20,3123-3157,https://doi.org/10.1002/sim.996。。
杜爾加納(Durgana)和范戴克(Van Dijk)提出了幾種多系統估算法的估算方法,以充分利用政府掌握的人口販運統計數據來估算人口販運的流行程度。杜爾加納和范戴克在檢閱了多系統估算法在八個國家的應用后,評估了現有販運受害者數據庫對多系統估算法的適用性,以及當局和/或非政府組織發現各種類別販運受害者的不同概率。本文最后討論了多系統估算法的局限性及其進一步發展的前景,特別是在最發達的國家中的局限及前景。
統計學家們提供了具體的技術來提高基于多系統估算法進行估算的穩健性,特別是當數據源沒有以最佳方式重疊時。對于那些應用多系統估算法技術的人來說,不完整的列表和管理列表之間很少或沒有重疊是最常見的挑戰。法爾(Far)等人關注的是如何克服在組合現有數據源時由于列表遺漏和小重疊或沒有重疊而產生的問題??唆斠练虻热私鉀Q了類似的問題,但在試圖找到適合數據的對數線性模型時,他們關注的是多個不完整人口登記處和一系列協變量的稀疏列聯表。他們使用貝葉斯框架,提倡在模型選擇過程中用成對關聯作為一種策略,以保持模型的復雜性。文森特、法爾和帕普托馬斯(Papthomas)在這個問題中通過利用協變量信息來改進最大似然估算、模型可識別性和參數冗余來解決稀疏重疊問題。
沃辛頓(Worthington)等人則討論了在生態模型中用于估計高度復雜的、生物學上真實的情景(如模擬野生動物種群隨時間的變化)的標記—再捕獲技術如何使用于估計人口販運普遍程度的技術得以增強,但變化不大。通過比較和對比兩者的異同,作者指出了生態建模方法在人口販運研究中可以改善多系統估算法的關鍵領域。
伯德(Bird)還應用多系統估算法來確定一個受害者的逃跑如何引發其他人的救助。在她的應用中,她試圖量化逃跑路線的密度,這可以為執法工作提供急需的指導,因為我們假定受害者逃離人口販運的路線不是隨機或任意分布的。在這種情況下,多系統估算法嵌入了可能接觸到人口販運幸存者的醫療保健和其他社會服務機構。研究者主張制定國家方案,鼓勵已確認的受害者加入一個以研究為主的群體,在那里可以監測發病率和死亡率。換句話說,只要稍加調整,政府和社區服務機構保存的記錄就可以在根據人口販運受害者的來源地確定和援助受害者方面發揮重大優勢。
盡管在估算人口販運的普遍程度方面存在許多挑戰,但政治上的需要使這種估算成為必要,為的是讓國際組織和各個國家能夠調動(或不調動)資源來打擊人口販運或其他嚴重形式的侵犯人權行為。更重要的是,從科學的角度來看,研究界有責任回答這樣一個問題:人口販運是否是一種嚴重的社會弊病,從而需要采取大規模的應對措施?由于對人口販運進行全球調查的費用昂貴得令人望而卻步,而且在實踐上也無法做到,因此必須使用一些外插(或概括)法,即收集地方和區域的數據點以推導出全球估計數。必須發展一種外插法或擴展方案來概括已知的東西,以估計未知的東西。隨著更多的地方和區域數據的出現,這種推測方法應該會隨著時間的推移而不斷完善。
本文回顧了幾種估算人口販運流行率的方法,并強調了多系統估算法與現有數據來源的不同使用。無論是使用多系統估算法進行輔助數據分析,還是使用基于概率或鏈接跟蹤抽樣收集數據,都需要更多地關注如何生成估計數以及出于何種目的生成估計數。懷哲等批評人士一直在提醒大家,僅僅基于道德憤怒和未經證實的瘋狂言論來開展社會運動是危險的,并敦促政策制定者和公民社會尋求基于證據的實踐和對策(43)Weitzer, R. (2011). Sex trafficking and the sex industry: The need for evidence based theory and legislation. Journal of Criminal Law and Criminology, 101,1337—1370.。
對政策制定者和項目管理者來說,流行率估計都至關重要,因為它對倡導問題有影響,對基線測量也有必要。事實上,每一種估算方法在方法論或財政上都有其固有的問題。盡管有這些限制,但有一件事應該仍然很清楚,即多系統估算法在統計上仍然是可靠的,并且可以為估計人口販運的普遍程度的集體知識體系作出貢獻。本文所討論的方法已經在世界各地以各種形式和手段進行了嘗試,并取得了不同的成功。由于資金往往是方法決策的核心,研究界有責任教育決策者,并強調為各種研究中存在的問題和研究的場合中正確選擇方法的重要性。最后,在沒有關于問題的范圍的可靠資料的情況下,大多數想影響決策者的人必須依靠那些聳人聽聞的言辭和道德呼吁,這遲早會帶來信譽問題,甚至破壞整個運動的道德要求。