【內容摘要】本文通過對比傳統(tǒng)語境與大數(shù)據(jù)下民意研究的異同,對大數(shù)據(jù)民意挖掘的主要路徑和趨勢嘗試進行梳理,認為,合理使用大數(shù)據(jù)一方面可以提高政府的民意收集效率、提高政府效率和社會的開放度;另一方面,過度使用大數(shù)據(jù)榨取商業(yè)價值,可能會限制個體的選擇自由并侵犯個人隱私??傊?,大數(shù)據(jù)是工具,如何使用,才是關鍵。
【關鍵詞】民意研究;大數(shù)據(jù);路徑;趨勢
(續(xù)上期)
三、大數(shù)據(jù)語境下的民意研究路徑
(一)非結構化文本數(shù)據(jù)
當研究者不能以主動提問來探求社會個體想法與傾向的時候,網(wǎng)絡空間遺留下的話語文本就顯得尤為關鍵。網(wǎng)民經(jīng)常在網(wǎng)絡空間的不同平臺主動留言表達觀點,比如聊天室、論壇、新聞網(wǎng)站及社交媒體。大量的網(wǎng)絡文本成了社會輿論的晴雨表。利用網(wǎng)民主動的自我表達數(shù)據(jù),可以追蹤社會關注的議題及對特定社會議題、事件和商業(yè)品牌與產(chǎn)品的態(tài)度。美國塔夫茨大學的“城市態(tài)度實驗室”通過分析處理推特文本數(shù)據(jù)來把握民意,從而達到為政策和規(guī)劃服務的目的。伊利諾伊大學的兩位學者①提出了一套消費者評論(customer review)文本挖掘的方案,針對消費者在網(wǎng)上對不同商品的評價,用特定的算法對雜亂無章的網(wǎng)絡評論進行態(tài)度傾向性預測。約瑟夫·雷格爾(Joseph Reagle)②在其新書《讀網(wǎng)評》(Reading the Comments)中指出,雖然海量的網(wǎng)絡留言質量參差不齊,但如果能使用不同數(shù)據(jù)處理方法披沙揀金,還是可以從社交網(wǎng)站和新聞網(wǎng)站上源源不斷產(chǎn)生的網(wǎng)友留言數(shù)據(jù)中提取出有價值的“民意”。
同時,日新月異的數(shù)據(jù)挖掘技術也在不斷提高著網(wǎng)絡文本研究的話題分類的精細度③和情緒分析的準確性④。情緒分析(sentiment analysis)是網(wǎng)絡文本挖掘的常用方法,它從海量文本中抽取有情感指向的詞語和短語,并經(jīng)過統(tǒng)計整合得出文章、段落或字句的好惡傾向。2001年前后,機器學習被大規(guī)模引入到自然語言處理和信息挖掘領域,同時,海量數(shù)據(jù)帶來的可用于訓練集的數(shù)據(jù)量的激增和情感分析潛在的商業(yè)價值,均促成了情緒分析研究的爆發(fā)式增長⑤。
除了從技術角度提高網(wǎng)絡信息的提取精度外,學界也關注網(wǎng)絡民意對現(xiàn)實世界的預測作用,以證明大數(shù)據(jù)的可靠性。美國學者約瑟夫·迪格瑞茲(Joseph DiGrazia)和他的合作者⑥于2010年8月到11月,從推特上隨機抽取了兩個月間的5億多條推文,并與同時期的406場國會競選結果進行比對。他們發(fā)現(xiàn),包含兩黨候選人名字的推文分享率與兩黨選票的差距之間存在強相關。即使在控制了人口統(tǒng)計學變量、各選區(qū)的黨派傾向和媒體報道特征后,這種相關性依然存在。之后,該研究團隊中的一名成員⑦又利用他們的數(shù)據(jù)對406場國會競選進行了預測,成功預測375場的結果,準確率高達92.5%。在英國,三位學者分析了4億條英國用戶的推特文本⑧,并利用推文中的情感性詞匯構建了4條時間跨度為兩年半的情感指數(shù)時間序列,包括恐懼、憤怒、高興與憂傷。結果發(fā)現(xiàn)正面情緒指數(shù)通常在各種節(jié)日達到高點,而憤怒指數(shù)則在2011年8月倫敦城市騷亂的幾天里達到頂峰。
政治領域之外,與經(jīng)濟話題相關的民意研究也有使用大數(shù)據(jù)的成功案例。美國卡內基梅隆大學的學者⑨在2008和2009年間產(chǎn)生的一億條推特信息里挖掘和經(jīng)濟、求職和工作等詞匯相關的正、負情緒,描述形成經(jīng)濟情緒指標,發(fā)現(xiàn)根據(jù)推特構建的情緒指標與密西根大學的消費者情緒指數(shù)高度吻合(r=.80)。而荷蘭學者皮特·達斯(Piet Daas) 和馬可·普茨(Marco Puts)⑩追蹤了三年半荷蘭社交媒體文本信息體現(xiàn)出來的情緒指標和消費者信心指數(shù)之間的關系,發(fā)現(xiàn)兩條時間序列之間存在高度相關性(r=.90)。也就是說,即使摒棄傳統(tǒng)的基于問卷方式的消費者信心指數(shù)調查,研究者依然能夠通過抓取社會媒體文本來精確把握民眾對于經(jīng)濟的信心程度。另外,惠普實驗室的研究者抓取并分析了289萬條討論電影的推特文本,利用相關推文的頻率和正負語義來預測電影的票房,發(fā)現(xiàn)模型的預測結果比傳統(tǒng)市場變量模型的測量結果更加精準。
(二) 結構化行為數(shù)據(jù)
事實上,不是每個人都喜好在網(wǎng)絡空間表達自己的觀點。根據(jù)麥康奈爾(McConnell)和赫伯(Huba)的估計,大約只有1%的互聯(lián)網(wǎng)使用者會在網(wǎng)上貢獻內容,而剩下的99%都是“潛水者”。如果我們在技術上只能挖掘網(wǎng)絡表達者的意見,基于大數(shù)據(jù)的民意推斷是否存在偏差?其實,除了網(wǎng)絡空間意見表達這種直接的民意載體外,互聯(lián)網(wǎng)使用者的網(wǎng)上行為,包括搜索、點擊、瀏覽、投票、測試等,也是一種意見與觀點的表達載體。從心理學的視角來看,行為是價值、觀點和意見的外顯和表達。這種表達有時候意味著“用腳投票”的好惡選擇——如同一個網(wǎng)站改版前后的訪問量變化,可能暗合了某種社會偏好與趨勢。比如,倫敦《標準晚報》(The Evening Standard)的網(wǎng)絡版經(jīng)常邀請網(wǎng)友票選最熱門的新聞——平均每次票選能獲得4.8萬個網(wǎng)友的投票,而投票結果大致可被看作是民眾對不同社會議題重要性的意見。因此,網(wǎng)絡行為數(shù)據(jù)也是網(wǎng)絡民意分析的重要來源之一。與文本、影像數(shù)據(jù)相比,網(wǎng)絡行為數(shù)據(jù)更加具有結構化的特點,處理起來也相對簡單。
網(wǎng)絡使用行為產(chǎn)生的“民意”及其預測價值,最典型的例子要屬谷歌搜索趨勢。谷歌搜索趨勢是谷歌利用全球用戶搜索引擎使用行為數(shù)據(jù)整合起來的搜索指數(shù)。利用與流感有關的搜索量變化和搜索地域分布特征,谷歌成功預測了流感在美國境內的傳播,其預測準確且高效,信息收集和處理的速度遠快于負責監(jiān)測流感疫情的美國疾病預防控制中心。近年來,雖有研究指出,谷歌搜索趨勢預測的準確性會受搜索引擎算法和數(shù)據(jù)本身特征的影響而與實際情況有所出入,但搜索數(shù)據(jù)本身作為人們線下關切的線上表現(xiàn)形式,依舊是一種值得關注的民意表達。最近美國學者在PLOS ONE 雜志上發(fā)表了一篇利用谷歌搜索趨勢來探究種族偏見的論文。研究者通過分析含有對黑人歧視性詞匯的谷歌搜索量,發(fā)現(xiàn)美國東部的互聯(lián)網(wǎng)使用者更頻繁地搜索歧視黑人的詞語,這為美國種族偏見的地域分布提供了新的證據(jù)。另外,通過分析2004至2012的谷歌搜索數(shù)據(jù),研究者發(fā)現(xiàn)股市相關詞匯的搜索量能夠提前預測股市的波動與起落。
使用搜索引擎獲取信息只是人們主動獲取信息的第一步,網(wǎng)民最終決定看什么是個人的決定和選擇(selective exposure),這本身也構成了一種隱性的意見和偏好表達。在商業(yè)和經(jīng)濟領域,行為“民意”的表達無處不在。購物網(wǎng)站上的產(chǎn)品銷量、瀏覽次數(shù)等信息都是潛在的行為數(shù)據(jù),它們雖不構成直接的民意表達,但對理解特定情境下的民意產(chǎn)生——如特定人群的購買決策等——有重要意義。有研究發(fā)現(xiàn),當谷歌瀏覽器返回搜索結果后,網(wǎng)民對搜索結果的選擇,不僅受到谷歌排名的影響,也受到同一頁面中其他搜索結果摘要的綜合影響。換言之,人們對網(wǎng)頁瀏覽有一定的主動選擇權,使得點擊率和訪問量依舊可以構成一種特殊的“民意”。2009年,法國第一夫人布魯尼開設了個人網(wǎng)站,首日便因登錄網(wǎng)友過多,導致網(wǎng)站癱瘓。2012年,中國某食品安全網(wǎng)站,兩小時點擊量超過25000次,網(wǎng)絡一度癱瘓。無論是蜂擁去看第一夫人的網(wǎng)站,還是擁向問題食品報道的網(wǎng)站,巨大的訪問量本身就代表了民眾的關注和焦慮。
除了網(wǎng)絡信息搜索和網(wǎng)絡信息獲取,網(wǎng)絡上的其他活動,比如“自我測試”、“趣味測評”,也可以帶來大量數(shù)據(jù)。與傳統(tǒng)的網(wǎng)絡問卷調研不同,趣味測評和自我測試在填答結束后會給填答者帶來信息和娛樂的回報。
(三) 社會網(wǎng)絡數(shù)據(jù)和群體趨同性
非結構化文本數(shù)據(jù)分析和結構化網(wǎng)絡行為數(shù)據(jù)分析契合了前面提及的Cloudera公司的大數(shù)據(jù)民意挖掘理念,即分析公眾在網(wǎng)上說了什么(非結構化文本數(shù)據(jù))和做了什么(結構化網(wǎng)絡行為數(shù)據(jù))。但是,如果大數(shù)據(jù)本身的不完整性使我們無法精確定位每條數(shù)據(jù)生產(chǎn)者的人口統(tǒng)計學特征,那么,我們是否還能用大數(shù)據(jù)判斷/預測不同社會階層、社會特征的人所持有的態(tài)度呢?
互聯(lián)網(wǎng)的技術特性是開放和聯(lián)結?;ヂ?lián)網(wǎng)不僅是信息聚合的場所,它更提供了一張巨大的關系網(wǎng)絡結構圖,在這張結構圖里,不同的個體被多種關系粘連在一起。亞里士多德在《尼各馬可倫理學》一書中提到了志趣相投者互相吸引的規(guī)律(“l(fā)ove those who are like themselves”)。也就是說,存在于同一個網(wǎng)絡中的個體有趨同的社會背景、行為傾向、個體特征和意見觀點。
所謂“道不同不相為謀”或“物以類聚,人以群分”,這兩句古語暗合了西方社會學中的一個重要概念——趨同性(homophily,或譯為聚類性)。這種趨同原則體現(xiàn)在各種社會網(wǎng)絡關系,包括婚姻、友情、工作、興趣組群等。在政治領域,有相同政見傾向的人之間通常有著更緊密的關系。趨同的形成機制多種多樣,比如自我選擇機制——人們選擇進入與自己興趣和價值觀相符的群體,或者人際影響機制,即人們嘗試融入群體以避免沖突和被疏離等。
利用趨同原則,研究者能利用機器學習的方法來預測大數(shù)據(jù)中未直接披露的個體信息和傾向,從而推斷個體的民意傾向性。例如,雖然只有極小部分的用戶會在社交媒體上透露自己的政治傾向,F(xiàn)acebook的杰克·林達穆(Jack Lindamood)和美國德克薩斯大學的學者使用樸素貝葉斯分類器(一種數(shù)據(jù)處理算法)來處理社會媒體的網(wǎng)絡結構和信息,以推測個體的政治傾向,通過分析16萬用戶的背景資料以及他們之間300多萬對朋友關系,他們以80%的準確率成功預測了Facebook用戶的政治態(tài)度傾向。哥倫比亞大學的研究者使用支持向量機器(一種機器學習方法)處理11000個網(wǎng)絡社區(qū)用戶的朋友圈關系和自我介紹,以預測個體的興趣。印度研究者運用網(wǎng)絡關系預測社交媒體用戶的政治傾向和性取向,精確程度分別達到63%和70%。在產(chǎn)品營銷的語境里,從原來的個體定位、地理定位、行為定位,發(fā)展到現(xiàn)在的社會網(wǎng)絡定位。此外,有研究發(fā)現(xiàn),就廣告點擊這個行為而言,如果使用者的朋友圈里有人曾經(jīng)點擊廣告,那么這個使用者點擊廣告的概率會比朋友圈里沒人點擊的使用者大很多,同樣的規(guī)律對產(chǎn)品購買行為也一樣適用。
四、大數(shù)據(jù)民意研究的問題和展望
越來越多的人參與到大數(shù)據(jù)民意挖掘的工作中來,關于大數(shù)據(jù)樣本的代表性和大數(shù)據(jù)研究的適用性等問題,也逐漸成為學界業(yè)界討論的焦點。對大數(shù)據(jù)研究持懷疑論者認為,大數(shù)據(jù)往往缺乏代表性,其理論和實用價值都有待商榷;而熱衷數(shù)據(jù)挖掘的研究者則認為,網(wǎng)絡中無處不在的數(shù)據(jù)為研究社會群體的態(tài)度、觀點、立場提供了前所未有的資源。
在有關大數(shù)據(jù)的討論中,“大數(shù)據(jù)缺乏代表性”常常成為否定大數(shù)據(jù)價值的主要論點。按照傳統(tǒng)的統(tǒng)計理論,用不具代表性的樣本來進行統(tǒng)計推斷和民意預測會造成系統(tǒng)性誤差。大數(shù)據(jù)代表性缺失主要體現(xiàn)在三個方面。第一,從特定網(wǎng)絡應用平臺(如人人網(wǎng)、天涯社區(qū)等)采集的不完整數(shù)據(jù),至多能代表該平臺用戶的意見特征,對全體網(wǎng)民缺乏代表性;第二,從網(wǎng)絡上采集的用戶言論和行為數(shù)據(jù)只局限于網(wǎng)絡使用者,并不能涵蓋非網(wǎng)民;第三,越來越多的社交網(wǎng)站為用戶提供了定制化的隱私設置選項,人們可以自主設定信息的公開程度:對公眾公開,對特定群體公開,或僅自己可見。海量數(shù)據(jù)往往意味著海量的缺失值。美國皮尤研究中心的報告指出,F(xiàn)acebook的青少年用戶中,有60%的人將其個人信息(Profile)設定為非公開的隱私狀態(tài)。在社交網(wǎng)絡中,只有1.5%的人填寫了自己的年齡,20%的人寫了受教育經(jīng)歷;抽取社交網(wǎng)絡上16萬用戶的大數(shù)據(jù),如果按照傳統(tǒng)方法去除個人信息有缺失的用戶,將只剩下3萬多用戶的數(shù)據(jù)可供分析。這種海量缺失值帶來的數(shù)據(jù)損失進一步降低了大數(shù)據(jù)的代表性。上述三個問題雖然確實廣泛存在于目前的大數(shù)據(jù)研究中,但利用不斷改進的計算機抽樣技術和統(tǒng)計方法,上述問題可以得到一定程度的解決。
針對第一個問題,有研究指出,利用新的“隨機漫步”(random walk)方法抓取數(shù)據(jù)可使得樣本數(shù)據(jù)對特定網(wǎng)絡平臺的全體用戶有代表性。葛喬卡(Gjoka)等人對比了多種隨機漫步算法對樣本數(shù)據(jù)代表性的影響,發(fā)現(xiàn)大都市黑斯廷算法(Metropolis-Hasting)和再加權算法(Re-Weighted)提取的數(shù)據(jù)樣本可以較好地代表Facebook的全體用戶。在既有算法的基礎上,有學者結合有向網(wǎng)絡的特征,又提出了USDSG算法,用來解決社交網(wǎng)站中提取數(shù)據(jù)代表性的問題。同時,Salehi及其同事利用“以應答者為導向的抽樣方法”(Respondent-Driven Sampling)從粉絲網(wǎng)絡的結構特征出發(fā)(如社交網(wǎng)絡的“入度”“出度”“粉絲與被粉比”等),以抽樣數(shù)據(jù)實現(xiàn)了對Twitter社交網(wǎng)絡結構具有代表性的抽樣。
針對第二個問題,在一項青少年酒精和藥物使用情況的研究中,鮑爾梅斯特(Bauermeister)等人利用“以應答者為導向的抽樣方法”,根據(jù)全國人口結構特征,在Facebook上選取了22名應答者作為“種子”,并在嚴格的問卷質量監(jiān)控下,利用“種子”Facebook的社交網(wǎng)絡發(fā)放問卷并招募新的應答者。經(jīng)比對,該研究中獲得的青少年問卷,在酒精、大麻等藥物使用方面與同期美國全國青少年調研數(shù)據(jù)相一致。除了改進抽樣方法,也可以通過統(tǒng)計技術修正嚴重有偏差的數(shù)據(jù)。有研究者在X-box的游戲網(wǎng)站上收集了該網(wǎng)站部分用戶的政治投票意愿。單從數(shù)據(jù)代表性的角度來看,這部分數(shù)據(jù)不僅不能代表廣大網(wǎng)友,更不能代表全體美國公民。然而,在數(shù)據(jù)處理過程中,通過多層次回歸(multilevel regression)和事后分層加權(post stratification)的統(tǒng)計處理,研究者發(fā)現(xiàn),可以用這套數(shù)據(jù)準確預測美國總統(tǒng)大選,其精準度不亞于整合了幾百份傳統(tǒng)調研問卷的預測結果。
至于第三個問題,則正如前文所述,可以利用可獲得的用戶個人信息和該用戶的社會網(wǎng)絡結構特征預測與之關聯(lián)的用戶未曾披露的個人信息,從而大幅降低缺失值給數(shù)據(jù)代表性帶來的影響。利用這一方法,可以較高的精度估算出多種未披露的個人信息,如政治黨派歸屬、年齡、受教育經(jīng)歷、婚戀狀態(tài),以及國籍、居住地及更新狀態(tài)時的個人地理位置信息等。
其實,大數(shù)據(jù)的批評者往往過度關注大數(shù)據(jù)的樣本代表性缺陷,而忽視了另一種代表性:數(shù)據(jù)對概念的代表程度,即社會科學中變量測量的效度問題。效度有很多種,但對任何科學研究而言,概念效度(又稱構念效度,construct validity)都是首要解決的問題。概念效度關心的是:研究者是否測量到了他/她想要測量的概念。比如,要測量人們對政府機構的態(tài)度,利用傳統(tǒng)的問卷調研法,可以通過不斷改進的問卷題目和題目順序,使得測量方法有較高的概念效度。然而,利用大數(shù)據(jù),從紛繁復雜的非結構化和半結構化的文本、視頻、音頻中提取“對政府機構的態(tài)度”,不僅是個披沙揀金的過程,同時也是確定何者為“金”的過程。在大數(shù)據(jù)框架下的民意研究,樣本代表性問題可以通過改進優(yōu)化抽樣和統(tǒng)計手段得到解決。而概念代表性問題卻更為棘手,因為它涉及學術研究的核心問題:網(wǎng)絡表達和網(wǎng)上行為到底能夠在多大程度上代表、反應或表征特定的民意傾向。這涉及特定的語詞和語句是否表征了人們的特定態(tài)度。此外,非結構化的大數(shù)據(jù)中也會包含一定比例的戲仿(parody)、諷刺(satire)等表意模糊的表達方式,面對這些“民意”,研究者如何界定人們想要表達的真實意見,如何將紛繁的大數(shù)據(jù)與理論框架中由特定的約束條件限定的特定概念對應起來,就成了大數(shù)據(jù)民意研究中的重要問題。
近年來,雖然網(wǎng)絡文本數(shù)據(jù)挖掘的效度在逐漸提高,但網(wǎng)絡行為數(shù)據(jù)對民意測量的效度問題依舊難解。學界歷來將認知、態(tài)度、行為劃分成三個獨立的概念進行研究,三者之間的轉化與相互影響只在特定的條件下才能發(fā)生。比如,有投票意向的人不一定真的去投票站投票;大量收看主流電視新聞的人可能是對媒體的可信度持高度懷疑態(tài)度的人群;經(jīng)常通過電話購物購買商品的人未必喜歡這些商品,他們可能只是想跟推銷員聊天以排遣寂寞??傊?,用行為表征態(tài)度,是將態(tài)度與行為的關系過度簡化了。在大數(shù)據(jù)時代的民意研究中,是否搜索歧視黑人的詞匯,就意味著搜索者對黑人持歧視態(tài)度?股市相關搜索量的上漲是否代表股市上漲?對于特定關鍵詞的搜索,可以是喜歡,也可以是厭惡。訪問一個網(wǎng)站可以是基于正面的興趣,也可以是基于負面的消息去看熱鬧。前文提到,大數(shù)據(jù)通常是二手數(shù)據(jù),數(shù)據(jù)挖掘者一般不參與數(shù)據(jù)的生產(chǎn)和設計。研究者無法運用問卷調查的量表效度和信度指標去評判大數(shù)據(jù)的質量。這就需要研究者運用合理的概念化和操作化手段去構建具有效度的民意指標。
大數(shù)據(jù)只是眾多研究手段之一。美國民意研究協(xié)會(AAPOR)在2015年發(fā)布的大數(shù)據(jù)報告認為,問卷調查數(shù)據(jù)和大數(shù)據(jù)并非是具有競爭關系的數(shù)據(jù)源。大數(shù)據(jù)不是萬能的,結合其他調研手段才能更好地發(fā)揮數(shù)據(jù)資源的優(yōu)勢和價值。大數(shù)據(jù)的應用價值離不開其他研究方法與數(shù)據(jù)的補充與整合。
最著名的案例莫過于奧巴馬團隊建立的整合式大數(shù)據(jù)系統(tǒng)在總統(tǒng)選舉中發(fā)揮的作用了。
該系統(tǒng)整合了各種數(shù)據(jù)來源,其中既有民調機構、公募組織、田野調研員、各種消費者數(shù)據(jù)庫,也有來自社交網(wǎng)站、移動終端和用戶網(wǎng)絡使用行為的大數(shù)據(jù)。該系統(tǒng)將這些數(shù)據(jù)與美國民主黨選民的個人資料一一對應后,給每個選民建立了一個有80多個變量的檔案——從性別、年齡、種族信息到有跡可查的性愛史(sex history)和投票史,不一而足。利用這套整合的數(shù)據(jù)系統(tǒng),奧巴馬的競選團隊賦予每個選民一個“可被說服”(persuadability)分,同時根據(jù)這套系統(tǒng)向尚未表明投票意向的選民推送特定的議題和立場,以遠小于競爭對手的競選成本贏得了選舉。奧巴馬競選團隊的成功仰賴的不是單純的線上大數(shù)據(jù),而是結合了各種類型數(shù)據(jù)的優(yōu)勢與特點,通過資源整合,提取到了真正有預測作用和實用價值的信息。
大數(shù)據(jù)的研究問題千絲萬縷。本文僅僅嘗試梳理了大數(shù)據(jù)民意挖掘的主要路徑和趨勢。關于大數(shù)據(jù)的討論十年前便已成為學界、業(yè)界共同關注的話題,而討論的廣度遠非一篇綜述所能涵蓋。值得特別提及的是,雖然本文旨在梳理民意研究中的大數(shù)據(jù)應用,但該領域涉及的隱私、數(shù)據(jù)開放和研究倫理等議題同等重要。這些議題超越了技術層面,關系研究者與公眾的關系重構、研究的合法性與合理性等問題。一方面,合理使用大數(shù)據(jù)可以提高政府的民意收集效率、提高政府效率和社會的開放度;另一方面,過度使用大數(shù)據(jù)榨取商業(yè)價值,可能會限制個體的選擇自由并侵犯個人隱私。總之,大數(shù)據(jù)是工具,如何使用,才是關鍵。(續(xù)完)
注釋:
① Hu, M., Liu, B. “Mining and Summarizing Customer Reviews”. In Proceedings of the tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, August 2004, 168-177.
② Reagle, M. Reading the Comments: Likers, Haters, and Manipulators at the Bottom of the Web. MIT Press, 2015.
③ Titov, I., and McDonald, R. (2008, April). Modeling online reviews with multi-grain topic models. In Proceedings of the 17th international conference on World Wide Web (pp. 111-120). ACM.
Abdelwahab, A., Robles, J., Chiru, C. G., and Rebedea, T. “Tweets Topic Modelling Across Different Countries”, In Ice Phil eds., The International Scientific Conference eLearning and Software for Education \", National Defense University, Vol. 4, p. 134, October, 2014.
④Pang, B., and Lee, L., “Opinion Mining and Sentiment Analysis” Foundations and Trends in Information Retrieval, Vol.2, No.1, 2008, 1-135.
⑤ 同4
⑥DiGrazia, J., McKelvey, K., Bollen, J., and Rojas, F., \"More Tweets, More Votes: Social Media as a Quantitative Indicator of Political Behavior.\" PlOS One, Vol.8, No.11, 2012, retrieved from https://orgtheory.wordpress.com/2013/08/16/more-tweets-more-vote-qa-and-erratum/
⑦ Rojas, F. “More tweets, more votes: Social media as a quantitative indicator of political behavior”, Orgtheory, 2013, retrieved from https://orgtheory.wordpress.com/2013/08/16/more-tweets-more-vote-qa-and-erratum/
⑧ Lansdall-Welfare, T., Lampos, V. and Cristianini, N., “Nowcasting the mood of the nation”, Significance, Vol. 9, No.4, 2012, 26-28.
O'Connor, B., Balasubramanyan, R., Routledge, B. R., and Smith, N. A. (2010). “From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series” ICWSM, Vol.11, 2010, 122-129.
⑨ O'Connor, B., Balasubramanyan, R., Routledge, B. R., Smith, N. A.. “From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series”. ICWSM, Vol.11, 2010, 122-129.
⑩ Daas, P. and Puts, M. “Social media sentiment and consumer confidence” European Central Bank, 2014, retrieved from https://www.ecb.europa.eu/pub/pdf/scpsps/ecbsp5.pdf
Asur, S., and Huberman, B. (2010, August). Predicting the future with social media. In Web Intelligence and Intelligent Agent Technology (WI-IAT), 2010 IEEE/WIC/ACM International Conference on (Vol. 1, pp. 492-499). IEEE.
McConnell, B., and Huba, J. “The 1% rule: Charting citizen participation”, Church of the Customer Blog, Vol.205, 2006, retrieved from http://web.archive.org/web/20100511081141/http://www.churchofthecustomer.com/blog/2006/05/charting_wiki_p.html
Bale, P. “Telephone Call with Neil Thurman”, 14 December 2004, as cited in Thurman, 2008.
Ginsberg, J., Mohebbi, M. H., Patel, R. S., Brammer, L., Smolinski, M. S., and Brilliant, L. “Detecting Influenza Epidemics Using Search Engine Query Data” Nature, Vol.457,No.7232, 2009, 1012-1014.
Lazer, D., Kennedy, R., King, G., and Vespignani, A. “The Parable of Google Flu: Traps in Big Data Analysis” Science, Vol.343, 14 March, 2014.
Butler, D. “When Google Got Flu Wrong” Nature, Vol.494, 2013, 155-156.
Chae, David H., Sean Clouston, Mark L. Hatzenbuehler, Michael R. Kramer, Hannah LF Cooper, Sacoby M. Wilson, Seth I. Stephens-Davidowitz, Robert S. Gold, and Bruce G. Link. \"Association Between an Internet-based Measure of Area Racism and Black Mortality\", PlOS One, 2015.
Curme, C., Preis, T., Stanley, H. E., and Moat, H. S. “Quantifying the Semantics of Search Behavior Before Stock Market Moves” Proceedings of the National Academy of Sciences, Vol.111, No.32, 2014, 11600-11605.
McAfee, A., Brynjolfsson, “Big Data:The Management Revolution” Harvard Business Review, Vol.90, No.10, 2012, 61-67.
Joachims, T., Granka, L., Pan, B., Hembrooke, H., and Gay, G. “Accurately Interpreting Clickthrough Data as Implicit Feedback” In Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, ACM. August, 2005, 154-161.
李燁池:《復旦大學研究生自創(chuàng)食品安全網(wǎng)站“擲出窗外”》,金羊網(wǎng), http://news.21cn.com/hot/cn/2012/05/05/11725208.shtml,2012年5月5日
Lipcon, T. “Big Data 101 for Public Opinion Research” Cloudera, 2012, retrieved from http://www.papor.org/wp-content/uploads/2014/12/Trends-Techniques-Big-Data-101-Lipcon.pdf
Aristotle. The Nichomachean Ethics. Rackman transl. Cambridge: Harvard Univ. Press, 1934
Knoke, D. “Networks of Political Action: Toward Theory Construction” Social forces, Vol.68, No.4, 1990, 1041-1063.
Huckfeldt, R. R., and Sprague, J., Citizens, Politics and Social Communication: Information and Influence in an Election Campaign. Cambridge University Press, 1995.
Kótyuk, Gergely, and Levente Buttyán. \"A Machine Learning Based Approach for Predicting Undisclosed Attributes in Social Networks.\" 2012 IEEE International Conference on Pervasive Computing and Communications Workshops (PERCOM Workshops), IEEE, 2012.
Lindamood, J., Heatherly, R., Kantarcioglu, M., and Thuraisingham, B. “Inferring Private Information Using Social Network Data”, In Proceedings of the 18th International Conference on World Wide Web, ACM, April, 2009, 1145-1146.
Agarwal, A., Rambow, O., and Bhardwaj, N. (2009, August). “Predicting interests of people on online social networks” In Computational Science and Engineering, 2009. CSE'09. International Conference on, IEEE, Vol. 4, August, 2009, 735-740.
Annapoorani, A., and Priya, M. P. I. Inferring Private Information from Social Network Using Collective Classification. International Journal of Innovative Research in Computer and Communication Engineering, Vol.2, No.1, March 2014, p.1851-1857.
Goel, S., and Goldstein, D. G. “Predicting Individual Behavior with Social Networks” Marketing Science,Vol. 33, No.1, 2013, 82-93.
Pew Research Center, “Teens, Social Media, and Privacy”, Pew Research Center, 2013, retrieved from http://www.pewinternet.org/files/2013/05/PIP_TeensSocialMediaandPrivacy_PDF.pdf
Dey, R., Tang, C., Ross, K., and Saxena, N. (2012, March). “Estimating Age Privacy Leakage in Online Social Networks” In INFOCOM, 2012 Proceedings IEEE, IEEE, March, 2012, 2836-2840.
Silver, N. The Signal and the Noise: Why So Many Predictions Fail-But Some Don't. Penguin, 2012.
Gjoka, M., Kurant, M., Butts, C. T., and Markopoulou, A. (2010, March). “Walking in Facebook: A Case Study of Unbiased Sampling of OSNs” In INFOCOM, 2010 Proceedings IEEE. IEEE, March, 2010, 1-9.
Wang, T., Chen, Y., Zhang, Z., Sun, P., Deng, B., and Li, X. (2011). “Unbiased sampling in directed social graph” ACM SIGCOMM Computer Communication Review, Vol.41, No.4, 2011, 401-402.
Salehi, M., Rabiee, H. R., Nabavi, N., and Pooya, S. (2011, December). “Characterizing Twitter with Respondent-driven Sampling” In Dependable, Autonomic and Secure Computing (DASC), 2011 IEEE Ninth International Conference on. IEEE, December, 2011, 1211-1217.
Bauermeister, J. A., Zimmerman, M. A., Johns, M. M., Glowacki, P., Stoddard, S., and Volz, E. “Innovative Recruitment Using Online Networks: Lessons Learned from an Online Study of Alcohol and other Drug Use Utilizing a Web-based, Respondent-Driven Sampling (webRDS) Strategy” Journal of Studies on Alcohol and Drugs,Vol.73, No.5, 2015, 834-838.
Wang, W., Rothschild, D., Goel, S., and Gelman, A., “Forecasting Elections with Non-Representative Polls” International Journal of Forecasting, Vol.31, No.3, 2015, 980-991.
Lindamood, J., Heatherly, R., Kantarcioglu, M., and Thuraisingham, B. “Inferring Private Information Using Social Network Data”, In Proceedings of the 18th International Conference on World Wide Web, ACM, April, 2009, 1145-1146.
Becker, J. L., and Chen, H. Measuring Privacy Risk in Online Social Networks (Doctoral dissertation), University of California, Davis, 2009.
Dey, R., Tang, C., Ross, K., and Saxena, N. (2012, March). “Estimating Age Privacy Leakage in Online Social Networks” In INFOCOM, 2012 Proceedings IEEE, IEEE, March, 2012, p. 2836-2840.
Davis Jr, C. A., Pappa, G. L., de Oliveira, D. R. R., and de L Arcanjo, F. (2011). “Inferring the Location of Twitter Messages Based on User Relationships” Transactions in GIS, Vol.15, No.6, 2011, 735-751.
Pontes, T., Magno, G., Vasconcelos, M., Gupta, A., Almeida, J., Kumaraguru, P., and Almeida, V. “Beware of What You Share: Inferring Home Location in Social Networks”. In 2012 IEEE 12th International Conference on Data Mining Workshops (ICDMW),IEEE, December 2012, 571-578.
Cronbach, L. and Meehl, P., “Construct Validity in Psychological Tests” Psychological Bulletin, Vol.52, No.4, 1955, 281-302.
Silver, B. D., Anderson, B. A., and Abramson, P. R. “Who Overreports Voting?” American Political Science Review, Vol.80, No.2, 1986, 613-624.
Tsfati, Y. and Cappella, J. N. “Why Do People Watch News They Do Not Trust? The Need for Cognition as a Moderator in the Association between News Media Skepticism and Exposure” Media Psychology, Vol.7, No.3, 2005, 251-271.
O'Guinn, T. C. and Faber, R. J. Compulsive Buying: A Phenomenological Exploration. Journal of Consumer Research, Vol.16, No.2, 1989, 147-157.
Japec, Lilli, Frauke Kreuter, Marcus Berg, Paul Biemer, Paul Decker, Cliff Lampe, Julia Lane, Cathy O’Neil, and Abe Usher. \"AAPOR Report on Big Data\" Mathematica Policy Research, 2015.
Crovitz, G. “Obama’s ‘big data’ victory” The Wall Street Journal, 2012, retrieved from http://www.wsj.com/articles/SB10001424127887323353204578126671124151266
(作者沈菲系香港城市大學媒體與傳播系副教授,王天嬌系香港城市大學媒體與傳播系博士研究生)
【特約編輯:李艷華,責任編輯:王 旖】