沈菲 王天嬌
【內容摘要】 本文通過對比傳統語境與大數據語境民意研究的異同,嘗試對大數據民意挖掘的主要路徑和趨勢進行梳理,認為,一方面,合理使用大數據可以提高政府的民意收集效率、提高政府效率和社會的開放度;另一方面,過度使用大數據榨取商業價值,可能會限制個體的選擇自由并侵犯個人隱私。總之,大數據是工具,如何使用才是關鍵。
【關鍵詞】 民意研究;大數據;路徑;趨勢\
一、傳統語境中的民意研究
現代意義上的民意調查,普遍認為可追溯到19世紀20年代美國總統競選期間的“草根調查”(straw poll)①。早期美國的政黨政治孕育了各黨派內部在總統選舉前的投票意愿清點。但各自黨內的票數清點,無助于了解對手的民意支持情況,這就為媒體作為第三方機構介入民調領域提供了契機。
1824年,美國特拉華州當地的兩家報紙在威爾明頓市展開了總統候選人的喜愛度調查。②此次調查的效果雖然并不理想,但它開啟了美國報業收集民意、預測選舉的時代。在此后的一個多世紀里,美國出現了大量調研機構,包括報紙、雜志等媒體,參與到政治態度、選民傾向的調查中來。③
最廣為人知的民意調查或許要數19世紀二三十年代美國《文學文摘》雜志對美國大選的一系列預測。當時,該雜志秉承“樣本量越大,調查結果越準確”的思路④,按汽車牌照和固定電話記錄中的郵寄地址,給上百萬人郵寄并回收了“模擬選票”。《文學文摘》雜志用這種方法多次成功預測了美國總統競選結果,確立了郵寄回收問卷方法在民意研究中的地位。然而,盲目追求大樣本的民意調研在1936年被證實存在嚴重缺陷。
1935年,蓋洛普博士成立了美國民意研究所(即蓋洛普民調公司的前身),并誓言該所的民意調查不接受任何利益集團的贊助。1936年,《文學文摘》雜志用200萬張模擬選票預測蘭登當選總統。蓋洛普則利用配額抽樣法,僅從全國抽取了1000個樣本就成功預測了羅斯福當選。⑤《文學文摘》雜志隨后停刊,而現代民調漸漸引入抽樣、統計推斷等概念,進入了使用小規模科學抽樣代表性數據的時代。
在過去的大半個世紀,隨著媒體技術的發展,基于問卷和抽樣的民意調研方法日趨便捷與多元。從早期的入戶面訪和郵寄問卷,到20世紀70年代中期隨著美國家庭電話擁有量激增而產生的電話調查⑥,再到計算機技術帶來的各種民調系統,包括計算機輔助電話訪問系統(CATI),計算機輔助面訪系統(CAPI)、計算機輔助自主訪問系統(CASI)和計算機輔助網絡調查系統(CAWI)等。
問卷電話調查法對量化社會科學研究做出了巨大貢獻,不過這種數據收集方式正在受到多方面的挑戰。根據美國皮尤研究中心的統計,電話調查的接觸率從1997年的90%下降到2012年的62%,合作率從42%下降到14%,而應答率則從36%下降到9%。⑦除了應答率的大幅下降直接影響調查數據的質量,電話調查的數據收集成本也十分高昂。有研究指出,從2000年到2004年,在愛爾蘭進行電話調查一個有效樣本的成本已從4.48歐元飆升到15.65歐元。⑧
互聯網問卷調研的出現,給傳統民調帶來了新的生機。網絡問卷調研成本低、回收快、資料匯總過程中不易出現人工誤差。特別是在敏感問題的數據收集上,網絡調研更具優勢。克魯托(Kreuter)等人⑨發現,相較于電話調查,人們更愿意在填答網絡問卷時回答令人尷尬的問題,也更易于承認自己做過的社會不良行為(socially undesirable behavior)。網絡調研平臺還能嵌入多媒體資料,利用后臺數據庫收集填答問卷的行為數據。這些功能不僅有助于鑒別問卷填答的質量,也可以直接服務于特定的研究主題。例如,格瑞特(Garrett)和斯特勞德(Stroud)⑩利用網絡實驗,復現了網民在網絡新聞接觸過程中的主動選擇行為——通過操縱人們“看到”的新聞內容,更清楚地了解了選擇性接觸行為及其背后的動機。
網絡調查雖然高效,但在樣本和成本兩方面也有其局限性。首先,大量網絡調研使用的是方便樣本,即在各種網絡空間設置問卷鏈接,等待感興趣及有時間的網民點擊填答。如此樣本未必符合目標人群的人口統計特征,且樣本框的缺失也使得應答率無從計算。更嚴謹的做法可以是有償借助專業網絡調研網站的樣本庫(如問卷星、SurveyMonkey、SSI等),“配制”出符合特定人口統計特征的樣本(如性別比例、年齡分布、收入結構等)。但由于此類服務的費用往往隨配制條件的增加和樣本量的擴大而提高,因此要得到高質量的網絡調研樣本,成本依舊不菲。
隨著計算機硬件技術的發展,存儲、傳輸、處理數據的能力和速度與日俱增。今天的數據生產速度已經遠遠超過了人類歷史上的任何時期。 截至2012年,全球每天生產的數據量達2.5億字節(billion gigabytes),且當時人類90%的數據是在2010-2012年的兩年間產生的。有分析指出,海量數據約25%是結構化的,剩下的75%是非結構化的文本、音頻和視頻。人類社會生活產生的海量數據是否在民意研究方面有其價值?答案是肯定的。傳統的民意調研機構已經開始積極探討和嘗試使用互聯網社交媒體進行民意線索的收集;新興科技企業則更走在創新的前沿,提出大數據環境下民意研究的新理念。云計算服務提供商、大數據技術的領軍企業Cloudera,曾呼吁民意研究者“停止以提問方式獲取信息,而著手分析公眾在網絡上的表達和行為”。毫無疑問,大數據時代的到來重新提供了民意研究的思路、方法與手段的機遇。
二、“自然”數據和“被動”參與者
對大數據的定義,學界和業界一直爭議不斷。目前認可度較高的是源自3V理念的4V模型。微軟、IBM以及美國國家標準技術研究所目前均采用這一定義。早在2001年,道格·萊尼(Doug Laney)就以3V理念對大數據做了限定。3V指的是海量(volume)、快速(velocity)和多樣(variety)。其中,“海量”即數據的量級空前巨大;“快速”指的是數據產生的速度極快,這要求及時完成收集和分析工作,才能“抓住”源源不斷產生的新數據;“多樣”意即數據類型的多樣化,這既包括了傳統研究中用到的結構化數據,也包括了大量的半結構化 (semi-structured data)和非結構化的數據(unstructured data),如視頻、音頻、網絡文本等。
此后10年間,3V一直是微軟、IBM等公司沿用的大數據定義。直到2011年,國際數據資訊公司(IDC)在3V的基礎上提出了第四個V,即“價值”(value)。 “價值”強調的是通過快速抓取技術和分析技術,高效地從海量數據中提取有價值的信息。正如Facebook的副總工程師杰·帕瑞克(Jay Parikh)所言,能否提取到有實用價值的信息,也成為區別“大數據”(big data) 和“一大堆數據”(a bunch of data) 的主要依據。
無論是3V還是4V,都是自然科學和工程學界的定義視角。對社會科學研究者而言,大數據具有兩個極其重要卻常被忽視的特性。第一,大數據通常是二手數據,數據挖掘者一般不參與數據的生產和設計。肖恩·泰勒(Sean Taylor)從概念上區分“找到的”數據和“制造的”數據之間的區別,并指出:大數據的產生不是以研究和數據挖掘為目的,而是用戶的行為、表達被研究者“找到”后形成的數據。第二,大數據研究的數據生產者是“被動”的研究參與者,這與傳統調研方式中,參與者有意識的參與特定研究的調研模式不同。對民意研究而言,被動式的數據采集方式(如內容分析與歷史文獻分析)并非在大數據時代才出現。
“第一次世界大戰”期間,法國通信管理局就曾經通過審閱士兵家書來探查士氣,以求把握戰場民意動態。歷史學家經常通過歷史材料梳理民情,理解特定的歷史事件。
1937年,在英國,一位記者、一位人類學家和一位紀錄片導演共同成立了“大量觀察法”(mass observation)社會研究小組,旨在記錄英國社會的各個角落在自然狀態下各類人物的對話。而傳統的民意調研,提問是數據收集的核心——研究者通過文字提問,參與者提供答案。大數據則需要研究者靈活使用“被動的”研究參與者,接受雜亂無章的數據和新的統計技術。(未完待續)