




[摘 要] 隨著信息傳播技術的飛速發展,網絡問卷調查業已成為相對主流的調查研究方法之一,被眾多行業調研機構者和學術研究人員所采用。在簡要介紹了網絡問卷調查的發展歷史及在我國的發展現狀之后,通過參與式觀察,我們剖析了國內網絡問卷調查中存在的兩大問題,即數據質量和個人信息安全,以期引起社會的關注和反思,針對這些問題,最后試圖提出可行性解決方案,以期推動網絡問卷調查行業的良性發展。
[關鍵詞] 網絡問卷調查;數據質量;信息安全
[中圖分類號] "G20 " [文獻標識碼] A " [文章編號] 1008—1763(2021)04—0149—07
Abstract:With the rapid development of Internet information technologies, online survey has become one of the mainstream research methods in China. First, we briefly introduced the historical development of online survey in the world, and evaluated its current state in China. Then, through participant observation, we analyzed two major problems with online survey practiced in China, i.e., quality of data and security of personal information. Finally, we put forward some feasible solutions to those problems in order to facilitate the healthy development of online survey industry.
Key words: online survey; data quality; information security
隨著信息傳播技術的飛速發展,問卷調查經歷了一場與技術同步的變革。無論是為公共或商業決策提供支持,還是為了方便科學研究乃至私人生活,通過網絡進行的問卷調查已成為時下主流的調查方法,發展至今,已涌現出數個用戶體量龐大的網絡調查公司,比如騰訊問卷、問卷星、問卷網等,其對外宣稱的用戶量常以千萬計。然而,面對業已普及的網絡問卷調查,鮮有研究者在應用之余對其進行反思,尤其是審視其發展過程中存在的問題和挑戰,這不僅影響了網絡調查行業本身的發展,也給用戶帶來了難以估測的風險和損失。有鑒于此,本研究先大致介紹網絡問卷調查的發展脈絡,之后對我國目前主流的網絡問卷調查平臺進行考察,闡釋其所存在的問題,在此基礎上提出改進思路,以期推動我國網絡問卷調查朝著更為嚴謹和規范的方向發展。
一 網絡問卷調查的發展脈絡
問卷調查指的是借助結構化問卷,從一定數量的個體樣本或人口單位中回收信息的方法[1]。借助問卷這一工具,調研人員能夠對社會活動過程進行系統、具體的測量,并運用統計手段對結果進行量化描述和分析。關于問卷調查的起源,學者尚未達成共識。有學者認為,問卷調查可追溯至古代社會的人口普查,它由政府基于政治、軍事等方面的原因組織開展,對特定區域的人口進行統計分析[2]。這或許可視為人口統計的起源,但和問卷調查還是存在一定區別。也有學者認為,英國社會學家布司(Charles Booth)1889年啟動的名為“倫敦民眾的生活和勞動”的研究,可視為現代調查研究的起源[3]。然而,在調查過程當中,布司并未明確其采用的抽樣方法,而主要依賴觀察和推斷得出結論,因而將其視為問卷調查濫觴的觀點遭到不少人質疑。
在進行歷史性回顧時,格羅夫斯(Roger Groves)等學者依據專業調查機構的出現、行業協會的發展及新技術手段的應用等指標,將問卷調查的發展分為三個階段,即開創階段(20世紀20年代至60年代)、拓展階段(20世紀60年代至90年代),以及網絡信息與調查數據相結合的階段(20世紀90年代至今)[4]。這個劃分得到不少專家的認可,闡述如下:
在開創階段,社會心理學家李克特(Rensis Likert)于1932年提出了李克特五級量表,促進了結構化數據和量表在調查研究中的應用。統計學家斯巴拉瓦-內耳曼(Jerzy Splawa-Neyman)在1934年首次運用概率抽樣進行調研,標志著抽樣調查的開端。在政府需求和商業利益的驅動下,一批聲名卓著的專業調查機構應運而生,包括1935年蓋洛普(George Gallup)在新澤西創立的蓋洛普調查公司(Gallup Inc.)、1946年羅珀(Elmo Roper)在威廉姆斯學院創立的羅珀公眾輿論研究中心(Roper Center for Public Opinion Research),以及1941年菲爾德(Harry Field)在丹佛大學創立的國家輿情研究中心(National Opinion Research Center)等。他們主要采取面對面的紙質問卷填寫或郵寄問卷調查的形式,不難想象其調查的成本比較高昂,很多訂單大都來自政府或非盈利組織,針對的大都是事關國計民生的重要議題。與問卷調查相關的行業協會在本階段也陸續成立,包括美國輿論研究協會 (AAPOR)、世界輿論研究協會 (WAPOR)、歐洲輿論與市場研究協會 (ESOMAR) 等,這些協會在本行業依然發揮重要作用。
在拓展階段,不斷迭代的電子通信技術成為問卷調查的主要手段,先后出現了電話調查、電子郵件調查等形式。與政府開展合作的專業調查公司和基于調查數據提供咨詢的私營機構陸續成立,譬如維思達特 (Westat)、美國三角研究所 (RTI International) 等。這一階段中,問卷調查的商業屬性漸趨突出。為洞悉消費者對產品和服務的感知與態度,越來越多的商業組織委托專業的調查機構進行市場調查,為其商業決策優化提供參考。除此之外,以皮尤調查中心(Pew Research Center)為代表的獨立調查機構開始興起。發展至今,皮尤調查中心已成為世界上最具公信力和影響力的民意調查機構。該機構基本上不開展商業活動,只接受政府機構和非盈利組織的資助,主要采取電話調查的手段,進行全美及全世界范圍內的輿情調查。
在第三個階段,新的技術手段進一步助力調查研究的發展。尤其是自20世紀90年代后期起,互聯網技術飛速發展,為調查研究創造了新的手段。電話調查、電子郵件調查等方式逐漸式微,便捷、即時、靈活的網絡調查發展迅猛。而且,相較于其他調查手段,網絡問卷調查的成本大幅降低,數據記錄和反饋迅速,因而逐漸成為時下主流的調查手段。一大批優質的網絡調查公司應運而生,重要的包括Qualtrics, YouGov, SuerveyMonkey等。它們不僅深刻革新了先前的問卷調查手段,也對全世界的同行產生了示范作用。
二 我國網絡問卷調查的發展現狀
進入21世紀以來,伴隨著經濟的快速發展,網絡問卷調查在我國也蓬勃發展起來。按照其調查目的,大致可分為三類:一類是政府、媒體、科研院所等公共機構發動的針對公共事務和公共政策的調查;一類是私營組織按照客戶需求進行的市場調查;還有一類就是混合了前兩種業務的調查機構,常常以私營為主。由于投入資源和專業技能存在差異,網絡調查機構的發展也參差不齊。發展至今,涌現出幾家用戶體量較大的網絡調查平臺,具體信息如表1。
這些網絡調查平臺的運行原理大致如下:遵循基本的網絡信息瀏覽原理,客戶端主要通過超文本傳輸協議(HTTP),借助互聯網將請求發送到服務器端,并將HTML頁面信息分發、傳遞到用戶所使用的頁面(客戶端)上。在服務器端,網頁服務器主要通過CGI、JSP、ASP等腳本將動態信息輸出到應用程序(如數據庫、程序、問卷應用等)中,相關應用程序對該信息進行操作并將應用程序的消息發送回網頁服務器,從而實現數據的存儲或處理(見圖1)。
網絡調查平臺具有相對智能化的編輯、發布和回收功能,以及相對標準、統一的數據處理方式,這些特點和優勢使其受到越來越多的公共機構、私營組織乃至個體用戶和小團體的青睞。即便如此,在調查研究方式中日益占據主導地位的網絡問卷,卻存在諸多潛在的問題和風險,主要有兩點:一是受商業利益驅使,不少網絡調查平臺存在明顯的“刷單”現象,直接影響了數據回收的質量和調查結果的可信度;二是由于沒有采取嚴格意義上的保護措施,網絡調查平臺在收集和處理用戶數據的時候,存在泄漏用戶信息的風險。這也是不少網絡調查平臺聲稱擁有數以千萬計的用戶體量,但其調查的公信力尚未得到用戶普遍認可的重要原因,值得我們進一步深思。
三 網絡問卷調查中的“刷單”問題
通過對國內的主要網絡調查平臺進行參與式觀察,我們發現數據質量存疑很大程度上源自“刷單”現象。刷單原本指的是店家雇人假扮顧客,用以假亂真的購買方式制造虛高銷量和好評,從而吸引更多顧客的一種不良商業手段。隨著電子商務的迅速發展,刷單逐漸成為網購交易中普遍存在的現象,參與刷單的假顧客則被稱為刷客。當前,眾多網絡問卷的發放與回收過程中存在相當數量的問卷服務代理,后者通過無意識、無意義的問卷批量填寫,提升問卷回收率從而從中獲利。由于其運作方式與電商刷單有相似之處,我們借用“刷單”這一概念來概括網絡問卷調查中批量生產問題問卷的現象。
(一)“刷單”的方式
問卷刷單大致涉及四類玩家,即具有問卷調查需求的客戶;提供問卷調查服務的網絡平臺;協助網絡平臺收集問卷的代理機構;填寫問卷的用戶/刷客。它們環環相扣,形成一個較為完整的生態體系(如圖2所示)。
提供資金的客戶可能是個人,也有可能是組織。進行問卷調查的目的可能是個人性的或商業性的,也有可能是為了公共決策或科學研究。提供問卷調查服務的平臺主要包括三類:社交媒體、電商平臺,以及專門的問卷調查平臺。其中,社交媒體以QQ、微信群為主,同時包括豆瓣、貼吧等社交小組,有問卷調查需求的客戶可通過此類社交媒體中的廣告信息聯系問卷收集代理。電商平臺主要包括淘寶和閑魚等交易平臺,在線店主可以上架“問卷數據收集”“真人代填問卷”之類的服務類商品。同時,一品威客、豬八戒網等部分線上交易網站也存在“問卷調查”“問卷填寫”的商品交易,客戶可直接與相關電商溝通交流,展開交易。此外,部分網絡問卷平臺在問卷發布頁面也開設了專門的樣本服務。譬如,問卷星平臺客戶可遵循“需求登記-需求評估及報價-支付訂單”的交易原則,委托問卷星平臺從其“樣本庫”中發放和回收問卷。
客戶與問卷收集代理之間達成委托協議后,后者就會動員眾多刷客遵循特定的規則填寫問卷。具體動員和任務布置主要在社交媒體群組(比如問卷收集代理組建的QQ群和微信群)中開展。填寫規則常常涉及填寫對象、具體題項要求、填寫時間等方面,其中一些規則也是網絡問卷平臺篩選無效答卷的主要方式(如表2所示)。
刷客是刷單行為的執行者。他們多聚集在前述社交媒體、電商平臺中。部分問卷調查網站還會成立專門的“樣本庫”或刷客團隊,以滿足客戶對問卷回收數量和時間的要求。以QQ群為例,筆者通過群名稱搜索的方式發現了40個以上的千人規?!皢柧砘ヌ钊骸薄皢柧砑媛毴骸?。刷單效率與刷客的刷題能力和問卷代理的技術水平有關。刷客刷題遵循“多填多得,少填少得”的原則,個體刷客可能利用問卷填寫過程中的時間間隔,或通過切換Wi-Fi、流量,或更換手機、電腦、平板等終端設備的方式重復作答,以獲取更多酬勞。問卷代理的技巧主要體現在相關技術人員編寫代碼的能力上,問卷代理可借助代碼開發、計算機編程實現問卷的自動重復填寫。
就刷單行為而言,問卷收集代理常將獲取刷單收入的大頭,刷客所得傭金基本按工作量計算酬勞,作答單份問卷的收益極為低廉。值得指出的是,問卷收集代理之間目前存在惡性競爭問題,不同代理之間存在互相干擾問卷回收質量的情況。比如,部分代理機構及其刷客會通過生產大量無效問卷影響其他代理的問卷回收質量。然而,問卷回收代理通常只負責回收事前協商好的“有效問卷”數量,不會對因惡性競爭導致的無效數據負責。因此,在上述情況中,客戶通常難以對相關問卷回收代理進行追責。
(二)“刷單”的影響
受訪者出于個人偏好、動機和意愿等原因,可能沒有認真對待在線調研,常常導致數據質量參差不齊[5]。依據皮尤研究中心發布的數據,在線民意調查中的虛假數據可能占到了4%-7%[6]。就“刷單”場景而言,虛假數據的問題只會更加嚴重。如前所述,刷客可以通過各種“作弊”手段,針對同份問卷提交多份答案,從而故意干擾數據結果。倘若問卷收集代理或網絡調查平臺采取機器人答卷,并進行惡意操控,問卷回收質量將進一步惡化。
除了虛假數據,網絡問卷調查存在的另一問題是涵蓋誤差(coverage error),它嚴重威脅了網絡問卷調查的樣本代表性?;ヂ摼W發展初期,涵蓋誤差主要源自網絡覆蓋率,因為不是所有研究對象都有機會接觸網絡[7] ;發展至今,互聯網在我國的滲透率已大幅提高,但其中的個體差異依然有可能導致涵蓋誤差。比如說,問卷填寫者與目標調查對象群體間出現偏差,便會出現涵蓋誤差,而“刷客”群體大規模的存在則使這個問題愈發嚴峻。另外,網絡問卷調查對象的獲取本身就具有相當大的隨機性,研究者常常難以控制研究對象的選擇過程及選擇概率,網絡問卷調查過程中無偏差的數據分析因而也難以得到保證。
問卷調查平臺不是沒有意識到問卷刷單對數據質量的威脅,也采取了一些措施來加以應對,但效果甚微,甚至成了形式主義般的擺設。以問卷星為例,其保證數據質量的主要方式是對答題時間的監控。時間設置包括開始時間、結束時間、填寫時間,不滿足時長要求的問卷將被視為無效問卷或問題問卷。然而,答題時間僅僅是衡量數據質量的一個參考標準,無法保證答題質量,刷客群中的時長間隔策略則使得此種檢測方法形同虛設。除了監測答題時長外,問卷星還通過“限制填寫設備”“限制IP地址”“指定驗證方式”等措施來提升答題質量(見圖3),但這些方式均存在一定的漏洞。其一,設備數量可以調控;其二,移動網絡環境下的IP和Wi-Fi環境下的IP可能不同,通過技術手段搭建IP代理池也可突破IP限制,而同一網絡環境中IP地址相同,限制IP反而造成樣本缺失;其三,限定手機號驗證碼或微信賬號,可能造成對用戶信息的不當或過度使用,增加用戶個人信息的泄漏風險;其四,受利益驅使,一些程序員或網站開發機構借助編程技術實現問卷自動填寫,或開發各種能繞開平臺監控的技術手段,使得問卷星的上述限制手段失效。
總而言之,在傳統的問卷調查環境中,調研者常常是訓練有素的社會科學家,他們通常會遵照行規采取各種手段最小化調查誤差,從而有能力提供一份有說服力的調查報告。然而,不少網絡平臺為了獲取短期收益,有意或無意、直接或間接將問卷交付刷客填寫,且缺乏有效的甄別無效問卷的技術,使得數據質量存在很大的問題,也難以為客戶提供有價值的、可信賴的數據分析。
四 網絡問卷調查中的信息安全問題
除了問卷刷單造成的數據質量問題,網絡問卷調查還存在嚴重的信息安全隱患。我國業已通過了包括《網絡安全法》在內的眾多法律法規來保證個人信息安全,并要求包括網絡問卷調查平臺在內的網絡服務提供商加以遵守。但在實際操作過程中,不少網絡問卷調查平臺關于個人信息的采集和使用的規范相對籠統,也并沒有采取切實措施來保證受訪者個人信息的安全。具體來說,網絡問卷調查中的信息安全主要涉及以下幾個方面:
首先,網絡問卷調查存在關聯性信息泄露的系統性風險。譬如,問卷的IP地址能夠暴露受訪者位置信息;身份驗證方式可能關聯受訪者電話號碼、身份證信息或社交賬號信息;人口學題項答案可能涉及個人身份信息、教育信息、財產信息等。因此,每一份問卷中題項所關聯的內容是否會被局部或全部披露,以及問卷填寫設備中的云端記錄是否會被關聯乃至調取,都給網絡問卷調查參與者的信息安全保護工作帶來了不確定性和風險。不少參與過網絡問卷調查的用戶發現,自己在填寫問卷后常會收到騷擾短信、推銷電話、垃圾郵件或釣魚網站鏈接,也反映了關聯性信息泄漏風險的系統性存在。
其次,在利用網絡平臺進行調研時,研究人員可以規避信息保護的相關程序或義務。在開展問卷調查之前,研究人員應當將信息采集內容、信息采集方式、信息披露范疇、研究人員聯系方式、參與者權利、隱私和安全保護聲明等充分告知受訪者[8]。但實際情況是,在未經提醒的情況下,大多數受訪者在參與調查前不會驗證相關告知內容是否缺失,也難以了解后續的個人信息使用過程。而且,信息披露、使用和泄露問題暴露之間的時間隔斷,容易讓受訪者忽視問卷調查與信息泄露之間的關系,因而也讓受訪者收集維權證據變得十分困難。
最后,嵌入或隱藏在問卷調查平臺的廣告、插件、木馬、病毒日益增多,對受訪者的個人信息安全構成實質威脅。以刊登廣告為例,不少網絡調查平臺會選擇與第三方機構進行商業合作。由于缺乏明晰的信息披露和保護機制,網絡調查平臺可以通過難以及時識別、難以追責的方式將受訪者置于信息風險當中,甚至與第三方機構進行個人信息交易。以問卷星為例,當受訪者完成問卷填寫后,頁面會自動彈出一個抽獎互動框(如圖4所示),抽中相關獎品后,受訪者又將面臨從手機信息填寫或App注冊到商品購買鏈接的頁面跳轉。此類以“紅包”“返利”為噱頭的商業操作,除了有誘導消費的嫌疑外,也是獲取受訪者個人信息的重要手段。
五 可能的解決方案
數據質量和信息安全隱患已構成我國網絡問卷調查發展的兩大障礙,也是我們不得不加以解決的問題。就數據質量而言,除去問卷設計過程中可能存在的抽樣和測量偏差,當前影響我國問卷調查質量的主要原因是刷單現象。有鑒于此,我們可考慮從幾個方面著手解決。首先,網絡調查平臺應當增強對受訪者身份審核環節的控制和管理。當前的設備審核、IP審核、指定賬戶及驗證碼審核等方式都存在程度不等的漏洞,網絡平臺在保障用戶個人信息安全的前提下,應探索和開發更有效的身份核實系統。其次,網絡調查平臺應當及時修改、更新風險防控規則。此前經驗表明,刷客群體炮制無效問卷的手段非常機動和迅速,且具有越來越多的技術含量。網絡調查平臺應加強對刷客群體的監控,預判他們的規避技術和手段,并通過技術或規制手段將漏洞補上。最后,相關政府機構應加強對問卷調查平臺衍生的灰色業務的監管,可考慮通過行政或法律手段對涉及商業欺詐的刷單行為進行打擊,以保護相關消費者的權益。
網絡調查中的信息安全隱患也必須引起我們足夠的重視。除了不斷完善我們的個人信息保護立法,加強行業自治可成為解決此問題的優先選項。就網絡問卷調查平臺而言,個人信息的保護主要涉及前期信息告知、中期信息采集和后期信息使用三個方面。在問卷調查之前,應明確告知受訪者個人信息收集的內容和方式、個人信息使用的方式、參與問卷調查的風險,以及相關隱私保護政策和措施等。在問卷調查進行期間,應分析受訪者所填寫內容是否是敏感、私密性信息,如何對這些敏感、私密性信息進行匿名化處理,以及如何防治終端設備上的留存信息被關聯使用等。在問卷調查結束后,網絡平臺要采取適當的措施確保個人信息的保存和使用是合法合理的,不會損害受訪者的權益。
另外,我們可以發動相關調查行業協會(如中國市場信息調查業協會)的力量,鼓勵其積極配合國家法律政策,統籌、制定更加明晰的信息安全保護規范和行業執行標準,在行業內部達成企業關于用戶信息安全保護的共識;在保持網絡平臺合法的商業利益基礎上,將保障受訪者信息安全內化為符合企業發展目標的關鍵舉措,從而形成行業自律的完美閉環。
[參 考 文 獻][1] Gault R H. A history of the questionnaire method of research in psychology[J]. The Pedagogical Seminary, 1907(3):366-383.
[2] Anderson H J. Survey identifies trends in equipment acquisitions [J]. Hospitals, 1990(18):30.
[3] Converse J. Survey research in the united states[M]. Berkeley: University of California Press,1987.
[4] Groves R M, Fowler F J, Couper J M,et al. Survey methodology[M]. 2nd ed. New Jersey: John Wiley amp; Sons, Inc., 2009.
[5] Zhifeng Gao, Lisa A,House, Jing Xie. Online survey data quality and its implication for willingness-to-pay: A cross-country comparison[J]. Canadian Agricultural Economics Society,2016(2):199-221.
[6] Pew Research Center. Assessing the risks to online polls from bogus respondents[R/OL].(2020-02-18).[2020-02-20].https://www.pewresearch.org/methods/2020/02/18/assessing-the-risks-to-online-polls-from-bogus-respondents/.
[7] Couper M P. Web surveys: A review of issues and approaches[J]. Public Opinion Quarterly, 2000(4):464-494.
[8] Lavrakas P J. Encyclopedia of survey research methods[M]. Thousand Oaks, CA: Sage Publications, Inc,2008.