999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

不平行的空間:用戶生成內容大數據質量探析*

2021-01-07 02:56:46
圖書館 2021年3期
關鍵詞:用戶研究

陳 崢

(1.湖北開放大學 武漢 430074; 2.武漢大學社會學院 武漢 430072)

1 引言

隨著互聯網時代的到來,人類的生產、生活等行為活動越來越網絡化,互聯網/移動互聯網上每時每刻都在生成相關的數據(指存在于計算機系統中的信息資料),社會科學家很快就認識到了這些數據的價值。2009年,大衛·拉澤爾等15位學者撰文指出,當前被廣泛使用的電子郵件、移動通信、信用卡、電子購物清單、網絡診療記錄、社交軟件等已經為我們積累了大量長時間、連續性、大規模的人類行為與互動數據?;谶@種前所未有的廣度、深度和尺度的數據收集與分析,將為拓展、深化甚至革新對個體行為、群體交往、組織結構乃至整個社會運行規律的認識開辟一條新路徑[1]。

互聯網/移動互聯網中的信息內容可分為專業生產內容(PGC,Professional Generated Content)和用戶生成內容(UGC,User Generated Content)。Web2.0時代的信息交互技術,使互聯網用戶既是信息的受眾,也能方便地成為信息的生產者、發布者與傳播者。每一個用戶不僅可以在博客、微博、微信、論壇/BBS、分享網絡、好友社交網絡等平臺上生成自己的內容,也可以對其他用戶發布的內容進行點贊、評論、轉發。由此,互聯網上幾乎時刻都在產生新的用戶生成內容,形成來源復雜、形態多樣、規模龐大且持續高速增長的UGC大數據。早在2010年,UGC即已占據整個在線內容的50.7%[2]。

UGC大數據的產生和積累令社會科學家極為振奮,因為這種大規模的個人行為互動數據是前互聯網時代難以獲取甚至無法獲取的研究資料。以往,專業生產內容相對容易獲得,但社會科學研究最重要的對象是蕓蕓眾生,研究者必須了解普通人的思想觀念、行為傾向、情感心理等方面的狀態。為了達到這一目的,社會科學研究者一直在探索和完善社會調查、社會測量的方法。然而長期以來,社會科學研究仍只能以觀察、訪談、問卷調查等方法作為獲取普通人信息的主要手段。這些方法存在諸多不足,例如實施較為困難、成本往往較高,因而導致獲取的數據一般規模較小,并且時效性差。正因如此,來源于廣大群眾的UGC大數據成為計算社會科學關注的新型資料,社會科學各領域學者紛紛嘗試運用UGC大數據發現知識、探索規律。

將任何數據運用于研究都必須先考察其質量。在社會科學研究意義上,衡量數據質量的首要標準,就是看它們是否真實、準確地反映了社會事實(與計算機科學意義上的數據質量有所不同)。截至目前,基于UGC大數據的社會科學研究已有不少,但其數據質量問題似乎并未得到足夠的重視,至今少有人進行細致深入的研究。但是,UGC大數據是用戶的行為、心理、觀念在網絡上的完美映射嗎?顯然,這個問題對能否得到正確的研究結論具有決定性的影響。下文將就這一重要問題展開探討。

2 UGC數據質量的不均衡性及其形成原因

傳統的數據資料獲取方法存在固有缺陷,對社會科學實證研究能力形成嚴重制約。長期以來,社會科學家都在尋找克服缺陷的辦法。正因如此,當包括UGC在內的網絡大數據出現后,很多學者首先是將其與傳統數據進行比較,進而發現它避免了傳統數據的一些缺陷,這種優勢主要表現在樣本量大、時效性強、無研究者介入干擾、對象的無反應性。UGC大數據的這四個特點,正是計算社會科學對其極感興趣的最重要原因。但是,由此認為UGC大數據一定能夠真實、客觀、準確地反映社會事實與人們的行為、思想觀念和心理狀態,能夠完美地適應各種社會科學研究的需要,卻是過于輕率了。這是因為,克服了傳統數據的局限并不意味著不會有新的局限。排除了主試方干擾、受試方干擾,并不足以保證生成的就一定是真實的、自然狀態的數據。

互聯網的信息生態是極為復雜的,UGC記錄了海量的人類行為與互動,但其中有大量既非真實亦非自然的內容。事實上,大量虛假、錯誤、片面、未經證實、相互矛盾的信息每時每刻都在生成,UGC的實際狀態是過載、無序、優劣混雜、追溯困難,在數據質量上呈現極度的不均衡性。對于對精確性要求較高的社會科學研究來說,UGC大數據的總體數據質量,遠未達到可以放心使用的程度。以下從主體多元化、媒介市場化與政治化及其他因素對此展開分析。

2.1 主體多元化:UGC的內容真偽混雜

UGC大數據源自人類行為的網絡化,互聯網規模龐大的用戶群體在人格特質、文化素養、知識結構、心理狀態等諸多方面的異質性,決定了其內容生產動機的千差萬別和內容生產能力的巨大差距。同時,UGC數據生產者與PGC數據生產者不同,一般既無須對質量負任何責任,也無須承擔因質量低劣而引起的后果,這決定了很多用戶內容生成的隨意性很強。用戶的異質性與無責任性一方面使UGC的內容包羅萬象,另一方面也必然導致其質量良莠不齊。即便是以知識分享為旗幟,以創建人類歷史上規模最大的百科全書為口號的維基百科以及百度百科等網絡平臺,其很多詞條內容的質量也令人不敢恭維。例如,安德卡分析了2010年1月6日的2 958 303篇維基百科的快照,發現至少有8.52%的文章存在標記錯誤,其中以引用標注出現的錯誤為最多,很多文章被注明了引用卻實際上沒有任何引用來源或參考[3]。這還只是主要通過機器算法檢測出來的錯誤,如果請具有領域知識的專家來檢驗詞條,會發現錯誤更多。互聯網上每時每刻都有錯誤、虛假、片面的信息生成為數據,并且由于互聯網具有突破時空限制的強大傳播能力,這些信息可能會有極廣的傳播范圍和極快的傳播速度。例如,從百科獲取知識信息的用戶,有可能繼續在互聯網分享一些錯誤信息,或依據其生成新的內容,這意味著錯誤信息量還可能持續增加。換言之,錯誤的信息內容一經生成,就會不斷擴散,很可能呈覆水難收之勢。

除了錯誤、虛假、片面的信息之外,UGC還是謠言的淵藪?;ヂ摼W的虛擬性與隱匿性,固然有助于用戶的自然表達,且可為用戶的傳播活動提供安全保障,但也被造謠者當作保護傘。一直以來,社交媒介平臺上的各種謠言泛濫成災。例如,新浪微博曾被冠以“史上最佳謠言機器”的“美名”[4]。據中山大學發布的《2016微信年度謠言分析報告》,2016年微信中傳播最為廣泛的五大熱門謠言,閱讀量均超過2 000萬次,并被多個公眾號轉發[5]。一些謠言被缺乏甄別能力的用戶轉發擴散,在龐大的網絡空間中難以被及時堵截和消除。并且,一些已經由權威機構辟謠過的謠言,經過一段時期后又死灰復燃,其內容在互聯網上反復生成。所謂“造謠動動嘴,辟謠跑斷腿”“辟謠的腳步追不上造謠的翅膀”,即是對這種亂象的生動描述[6]。

社交媒介的興起催生了“后真相時代”?!昂笳嫦唷敝浮霸V諸情感及個人信念,較客觀事實更能影響民意”,該詞入選2016年牛津詞典年度詞匯[7]。羅什·沃索吉等人的研究展示了“后真相時代”的表征,他們力圖探究推特平臺中虛假與真實新聞傳播趨勢的異同,為此收集、分析了從2006年推特創立之初至2017年,由300萬用戶發布且被瀏覽、轉發450萬次的12.6萬條新聞。結果顯示,虛假新聞無論是在傳播廣度、深度還是速度上均顯著優于真實新聞。為保證結論的可靠性,他們先運用社交媒介機器人偵測算法將自動化的社交媒介賬戶進行識別并移除,而后再將這些機器賬戶產生的流量加入分析進程,發現機器賬戶散布虛假與真實新聞的速率一致,表明該結論依然成立。由此,他們強調,民眾的確更喜歡傳播虛假新聞[8]。此外,本杰明·多爾、默罕默德·法茲與托比亞斯·弗雷德里希的研究亦佐證了虛假信息傳播能力之強大。他們通過在代表社交網絡的拓撲結構與若干傳統的網絡拓撲結構的曲線圖上,分別模擬一個自然的謠言傳播過程,發現謠言在前者中的傳播速度遠快于后者。例如在推特中,一條始于一個隨機節點的謠言僅經8個回合的傳播便波及4 500萬名用戶,“速度是驚人的”[9]。

由上可見,信息生產與傳播主體的極端多元化及其異質性與無責任性,導致UGC內容真偽混雜,整體質量難以保證。

2.2 媒介市場化:利益驅動的數據造假

UGC創造了有利可圖的媒介市場,其商業價值已被充分認識和利用。特里·多爾蒂等指出,互動型媒介環境為將現今多元化的媒介市場變現提供可能性,這種可能性是通過提供能夠讓普通受眾的聲音在信息與廣告的漩渦中凸顯的方式來實現的。在互聯網世界中,這種有利可圖的媒介市場愈發由UGC而非發行商所驅動。早在2007年,這種新興市場即吸引了6 900萬用戶,并且產生了4.5億美元的廣告收入[10]。伴隨UGC大數據的商業價值而來的,是網絡媒介的市場化現象。各種互動式平臺上廣泛存在受經濟利益驅使的故意造假行為,大量的商業水軍在網絡上興風作浪。例如,近年來,影視劇口碑和點擊量倒掛的情況屢見不鮮。有些劇作觀眾評價較高,業內人士也予以肯定,但收視率和網絡平臺點擊量慘淡;相反,有些劇集格調較低,內容拖沓冗長,觀眾普遍給予差評,但點擊量卻節節攀升[11]。這種現象的背后隱藏著一條完整的流量造假產業鏈。影視劇播放量的攀升會讓其所屬制片公司名利雙收;視頻網站也會因為劇作播放量大、關注度高,贏得更多與其他制片公司合作的機會,并吸引更多的廣告贊助商。故此,競相刷流量成為影視劇圈內慣例,流量公司亦大行其道[11]。這些專門刷流量的公司會提供諸如“騰訊5元1萬點擊量”之類的服務[12]。低廉的價格造就了驚人的假流量,如《楚喬傳》2017年內的播放量竟被刷到457.9億,被調侃“全球人口不足一部劇點擊量”[12]。這種通過購買而得的點擊量實際上是對用戶觀看行為的偽造。再如,中國最大的電商平臺淘寶活躍著一批“職業差評師”,他們通過購買商品、收貨之后故意給賣家差評的方式,敲詐勒索賣家。某“差評師”的群里甚至喊出“十條差評擼垮一個店”[13]的口號。將用戶評價用作牟利工具,這種行為不僅誤導了消費者,而且污染了數據。這些數據不是互聯網用戶真實行為的記錄,而是出于利益驅動進行造假的產物,對研究者來說也無疑是陷阱。但發現這些假數據,并在研究中予以徹底剔除,往往是相當困難的。

2.3 媒介政治化:UGC中的信息偽造與操縱

作為一種傳播能力強大的新媒介,互聯網與傳統媒介一樣存在媒介政治化現象?;ヂ摼W的發展讓公民參與社會政治生活的模式產生了變化,相較于以往在社會政治生活中較為被動的地位,當今“任何人可以隨時在公開的站點上發表自己對有關事務的意見和建議”,公民政治參與的渠道愈發暢通[14]69。然而,政治參與渠道的暢通也為偽造與誘導民意提供了機會,樸槿惠組建網絡水軍、俄羅斯被疑干預美國大選兩起事件,都堪稱典型案例。

據報道,韓國國家情報院在一份報告中承認,曾在選舉前組建了30組“網絡水軍”,成員包括國家情報院官員和來自民間的網絡高手,專門負責發帖實施“心理戰”,以幫助樸槿惠贏得選舉。2012年1月1日至12月19日,“網絡水軍”利用716個推特賬戶,通過發帖、回帖、分享等方式生成帖子數量達到27萬多條。這些人在網絡上發帖,專門負責抹黑樸槿惠的競選對手。文在寅就是受害者之一,他最終以48.02%比51.55%的微弱劣勢敗北[15]。

至今仍處在爭議漩渦之中的俄羅斯干預美國大選事件更為錯綜復雜。2016年6月始,多家美國媒體相繼爆料稱,俄羅斯在網絡上運用多種手段支持特朗普。2016年7月,在對一家名為“互聯網研究機構”的神秘的俄羅斯在線宣傳組織進行長期追蹤之后,《紐約客》作者阿德里安·陳撰文指出:“為造成草根運動方興未艾之假象,該機構在各社交媒介平臺中運營大量馬甲賬號……從去年夏天到年末,我發現該機構名下的一些推特賬號已然開始置頂右翼新聞媒介,并將自己描述成愈發喜愛特朗普的保守派選民……有理由相信,如此支持特朗普的行為,是該機構力圖通過協助特朗普問鼎白宮,達成攪亂美國社會之目的的嘗試?!盵16]除涉嫌利用虛假社交媒介賬號為特朗普造勢之外,俄羅斯還被指責散布虛假的、經宣傳手法修飾的新聞。《華盛頓郵報》2017年1月5日的報道顯示,時任美國國家情報總監的詹姆斯·克拉珀當日在向國會作證時強調“俄羅斯炮制假新聞并將之發布于社交媒介,對此我們不應該忽視”。同時,希拉里·克林頓的競選伙伴參議員蒂姆·凱恩表示他是一些假新聞的對象,盡管主流媒介均未采信這些新聞,但“其中一條新聞被分享了80萬次”[17]。雖然上述事件至今仍未被坐實,并且這些手段在多大程度上影響了選民的投票意向,其與特朗普問鼎白宮是否具有相關性也尚未有定論,但具有諷刺意味的是,新聞聚合網站Buzzfeed強調“借助媒介進行宣傳攻勢絕非全新的策略,也非局限于俄羅斯,包括美國在內的若干國家,早已運用這一策略企圖操控他國民意”[18]。

以上案例表明,某些人會出于政治目的而借用普通用戶的身份偽造大量的UGC數據;借助于互聯網,這種偽造還可能是跨國界的。某些國家已經將互聯網作為插手他國政局的重要工具,當前,在出于政治目的的暗地操縱下,互聯網上虛假民意的聲音越來越大,與網民的自然表達混在一起,真偽難辨[19]。

2.4 其他影響因素

除了用戶因素、媒介市場化因素、媒介政治化因素外,還有一些因素也會影響UGC的數據質量,例如用戶線上與線下的不一致性、垃圾數據問題等。

用戶是以獨立的“隱形人”身份在虛擬空間中生產內容,這既可能讓其不受現實世界的道德與法律規范的制約,從而放縱自己的行為[14]70,也能較容易地將自身形象“完美化”。很多人在虛擬世界里的言論、行為與其在現實世界中的言論、行為存在不同程度的差異,有些人的差異還很大。一個靦腆的宅男可能在網上是兇悍的“暴民”,文體明星則一般是雇用專人打理其社交媒介賬號,在網絡上展現的往往是他們或其公關策劃公司認為“應該展現的形象”,互聯網記錄的顯然不是他們的平常狀態。UGC中還包含著大量的垃圾數據,如惡意灌水等行為產生的數據。這些垃圾數據一般體量較大,對話題提取、意見提取等研究無疑會構成不同程度的干擾,有些情況下甚至會導致研究失敗。正如奈斯比特所言:“失去控制和無組織的信息在信息社會并不構成資源,相反,它會成為信息工作者的敵人?!盵20]

3 UGC數據質量檢測識別技術的局限

鑒于UGC數據質量的良莠不齊,憑借檢測識別技術提高數據質量就顯得尤為重要。UGC大數據包括文本、圖片、音頻、視頻等多種類型,目前用于社會科學研究的主要是文本型數據。當前的內容檢測識別方式主要有人工檢測、自動測量兩類,前者即人工抽樣檢測,后者包括基于統計的自動檢測與基于機器學習的自動檢測。然而,各種檢測識別技術都是針對文本型數據且皆有其短板,尚無力應對互聯網信息生態的復雜性,亦難以適應UGC大數據的多態性、動態性特點;對圖片、音頻、視頻等數據進行檢測識別的技術難度更大,這些數據在社會科學研究中的價值發揮還很有限。下文將就基于人工研判的識別、基于統計的自動測量、基于機器學習的自動檢測技術等三個方面的應用與局限性展開分析。

3.1 基于人工研判的識別

3.1.1 標志列表匹配

虛假錯誤信息自有其信息源,一些域名即以散布假消息為人熟知。由此,為提醒互聯網用戶信息源的可靠性,相關研究人員開發了若干標志列表,將慣常發布錯誤或片面信息的域名做出標記[21]。比如,數據服務平臺卡哥(Kaggle)中名為“關于假新聞的真相”的數據集。該數據集包括通過webhose.io的應用程序接口爬取的244個網站的元數據,并且還在持續擴大之中。同時,Kaggle專門開發了名為“BS Detector”的網絡瀏覽器插件,安裝此插件的用戶點擊進入上述列表中的網站時,即會得到“可疑信息來源”的提示[22]。此外,名為“開源”(open sources)的數據服務平臺中包含一個由相關領域專家精挑細選的1 001個域名的數據集[23]。這種通過標志列表匹配的方法有很明顯的局限性,此種方式并不能甄別某篇文章內容的真偽,而是基于一個假設,即所有來自可疑信息源的信息皆是可疑的,但事實上社交媒體用戶發布信息的真實性并不必然與特定網站相關聯。

3.1.2 事實核查網站

事實核查網站是致力于識別在網絡上傳播的虛假信息及騙局的網站。這些網站會雇用職業記者、志愿者去核查用戶在網頁與社交媒體中分享的文章內容的真實性,尤其會關注那些熱點文章[24]。一旦文章內容的真偽得到確認,網站會公布其發現以及與之相關聯的信息,比如文章的網址等。根據杜克記者實驗室的統計,截至2019年10月,其收錄的活躍的事實核查網站已達210家[25]。較有代表性的事實核查網站如PolitiFact.com、HoaxSlayer.com等。前者主要關注美國政治新聞,該網站的員工會檢視國會議員、白宮職員、游說團體與利益集團的言論,并在“真假度量儀”(Truth-O-Meter)分級為真實、大部分真實、一半真實、大部分錯誤、謊言。后者旨在協助用戶識破各種網絡騙局,并為他們提供網絡安全知識[26]。此外,法國新聞社于2018年組建了面向外部的國際化的事實核查團隊,與其他國家、地區的核查者、編輯展開合作,并將發現公之于眾,目前此合作項目已遍及20余個國家和地區[27]。

雖然事實核查網站的準確度很高,但面對互聯網高速增長的海量信息,靠人工調查與研判,只能是面向一些特定類別的、相對重要的信息,無法對海量的優劣混雜的UGC大數據進行較為全面的清查。

3.2 基于統計的自動測量

基于統計的自動測量是對文本進行統計特征抽取,通過回歸分析、機器學習等技術手段對數據質量進行評測。在通過特定的算法進行識別后,可以過濾掉劣質數據,但統計算法能夠達到的識別精度往往不盡如人意。常見的算法有信息源評估、聲譽評估、用戶反饋評價等。信息源評估是根據生產者的社會身份來判斷其所提供內容的質量,如“.gov”表示政府組織,“.edu”表示學校,“.com”表示企業等,它假定社會身份越有權威性的用戶提供的內容質量越高。聲譽評估是根據個人在網絡的知名度、美譽度來判斷其所提供內容的質量,它假定越有聲望的用戶生產的內容越具有真實性。用戶反饋評價是基于互聯網眾籌模式的測評,它假定用戶評價越高的內容質量越高。顯然,這些假定都只有概率意義上的正確性,基于這些假定設計的算法雖然有助于數據質量的評測和提高,但顯然都存在缺陷,無法起到根本性的作用。例如用戶反饋評價在有些時候是失效的,因為測評者的主觀性及隨意性會影響測評效果,并且用戶好評也可能是水軍刷出來的。

在社會科學研究中,研究者必然會面對從不同數據源獲取的不一致甚至矛盾對立的數據,絕大多數情況下都是通過設計一定的算法對數據進行診斷,去偽存真。這種基于統計方法的檢測識別技術在某些時候是有效的。但必須看到,它形成正確判斷的前提是真實信息的量大于錯誤信息的量;對于運用加權算法的統計分析而言,權威性高的數據源一般不能出錯。然而在很多情況下,這兩點其實是難以保證的。

3.3 基于機器學習的自動檢測

3.3.1 基于在線社會網絡分析的識別方式

隨著社交媒體平臺成為虛假信息的溫床,有學者開始運用社交媒體數據以在線社會網絡分析的方式識別可疑用戶。有研究團隊使用推特數據進行了相應嘗試。他們基于一個標志列表,該表包含常發布虛假信息的域名,并通過推特應用程序接口獲取兩類數據:一是包含標志列表中網址的推文,二是不包含相應網址的推文。對于后者,他們按照時間順序以“一小時會話”為單位,將這些推文分組并使用基于會話的模型對其依次進行處理。之后,每一段會話會被“銳推”(即推文轉發)可視化工具Retweet Graph Generator分析,每一個“銳推”圖形G=(V, E)包括節點u,v(u,v∈V),描述了用戶之間的聯結與網絡邊緣((u, v)∈E),且表明了用戶u與用戶v之間由推文轉發產生的互動。然后研究團隊使用基于德格魯特模型的用戶概率模型計算用戶的虛假指數,即某用戶發布虛假信息的可能性。德格魯特模型為確定某特定團體能否就某一問題達成共識提供了簡單的方案。在此模型中,假設每個個體通過將自己與朋友的見解進行中和的方式形成自己的最終意見[28]?;诖耍课挥脩魎i會被指派一個虛假指數的初始值Pi(0)=0。然后,假定A為“銳推”圖形G的鄰接矩陣,若用戶u轉發了用戶v的推文,則A(u,v)=1;研究團隊通過調轉A的邊緣創造一個躍遷矩陣T,并使A值為1,意即每位用戶轉發若干用戶的推文,后者中每位用戶對前者的影響程度相同。矩陣T包括了每一節點根據假新聞的分享行為給予另一節點的權重。如此,發布可疑推文的用戶Pi(0)=1,未發布者Pi(0)=0。最后,他們運用更新規則提取新指數的公式,即p(t)=T.p(t-1)??傊?,如果某特定用戶發布或者轉發了包含標志列表中網址的推文,其虛假指數值即會上升。

由上可見,這種方式首先是基于一個假設,即在某在線社會網絡的子網絡中,有一些用戶發布過包含了標志列表中網址的推文,與之距離愈近的用戶,其發布虛假信息的可能性愈大;其次,此方式仍然是基于專業知識的標志列表;最后,此方式也無法對推文內容進行分析。該方式最大的缺陷在于,如果含有標志列表中網址的推文是辟謠的內容,則此方法極易形成誤判。

3.3.2 語言學模型與深度神經網絡算法識別

為實現對新聞內容真偽的自動監測,有研究團隊開發了語言學模型。其要義是提取新聞標題與正文的語言學特征,并將其導入一個被訓練用以識別文章內容真實性的深度神經網絡。該模型可分解為三個步驟:

第一步是數據獲取。研究團隊選擇名為假新聞語料庫的數據集。此數據集包括從開源數據服務平臺提供的1 001個域名中爬取得到的超過900萬篇新聞,它是為以識別假新聞為目的的深度學習算法的訓練而設的。每篇新聞都被貼上某種標簽,被分為12類,包括“假新聞”“極端偏激”“陰謀論”“仇恨新聞”“可靠的”等[23]。根據研究目的,他們選用“假新聞”與“可靠的”兩類,前者的定義為捏造信息、散布欺騙性內容或嚴重歪曲真實新聞報道的來源,后者的定義為以符合新聞業傳統和道德慣例的方式傳播新聞和信息的來源。兩者的數據集分別包括100萬、200萬篇文章。

第二步是語言學特征遴選。研究團隊將語言學特征歸為三類:第一,文體特征,即每篇文章正文與標題的句法及文本類型;第二,復雜性特征,即每篇文章正文與標題的可讀性與詞匯量等;第三,心理特征,即比照描述某種心理特質的專業詞典,判定每篇文章正文與標題的情感傾向。按此標準,從數據集中文章的正文與標題提取的、可用數值表示的特征共計534個。為消弭特征過多對模型訓練的負面影響,研究者先將缺失值比例較高、僅具有單一值以及高度相關的特征刪除,再運用梯度決策提升樹計算特征的重要性指數以排除零與低重要性的特征,由此剔除了134個特征;對于剩余的特征亦僅保留重要性指數排名前20者,比如正文行數、正文中平均每句話有多少個停止詞、標題中大寫字母的比例等。這些語言學特征將通過Javascript特征提取庫被導入深度神經網絡模型。

第三步運用深度神經網絡模型進行分析。首先進行的是數據預處理,根據輸入規格,通過離散化或者獨熱編碼,將定類數據轉化為數值。其結果是每個數據條目即代表數值特征的一個矢量。接著,將數據通過輸入層導入模型,輸入層之后是批歸一化層。批歸一化層的功能在于保證輸入數據具備零均值與單位方差,以使神經網絡處于更佳的運轉狀態。然后,經歸一化的數據將進入稠密層,或稱全連接層。這是一個共計5層的瓶頸結構,相應包含512、256、128、64、32個神經元。該層的作用在于分類,即決定數據屬于何種類型。最后,在模型的分類層中,將每類一個神經元與歸一化指數函數一起用來生成概率對Preal與Pfake,即表示文章內容是真實或虛假的相應可能性[29]。

這種基于深度神經網絡算法的識別技術可能在精確度上有所提高,但并非像人工一樣是基于對內容的理解,而是只有概率意義上的準確性。此外,深度神經網絡是一個黑箱系統,其判斷機理是“不可知的”,這也決定了在某些時候其可靠性值得懷疑。

4 案例:UGC中難以消除的錯誤信息

由于檢測識別技術存在明顯的局限性,UGC大數據中信息內容失實(信息內容與社會事實不符)、用戶行為失實(數據并非用戶行為的真實記錄)、用戶心理失實(數據未能反映用戶的真實心理)等問題難以消除,下文以幾個最為典型的案例進行說明。

4.1 信息內容失實

網傳美國未來學家阿爾文·托夫勒在《第三次浪潮》中寫道:“如果說IBM的主機拉開了信息化革命的大幕,那么‘大數據’才是第三次浪潮的華彩樂章?!睂嶋H上《第三次浪潮》中并無此語,阿爾文·托夫勒與此相近的言論為“計算機能夠記憶、聯系、篩選‘廣大數據’(vast masses of data),它將幫助我們以更為深刻的水平去認識很多問題。”[30]

運用慧科新聞搜索研究數據庫,以“大數據+第三次浪潮+華彩樂章”為組合關鍵詞進行搜索,可以發現從2014年10月至2019年10月,在1 000多種平面媒體和3 000余種網絡媒體中,共有2 247篇文章引用了這句話,分布于報紙、網站、論壇、博客之中,文章數分別為38、2050、135、23,其中不乏知名門戶網站乃至權威媒體;此外,還可見于學術論文(引用時均未標明頁碼)。

這句憑空杜撰之語在互聯網上廣為流傳,而阿爾文·托夫勒的原話卻在網絡信息空間中難覓蹤影。在慧科新聞搜索研究數據庫中用多種關鍵詞組合進行搜索,結果均為0;甚至直接采用百度進行網頁搜索,也難覓其蹤。對于這種虛假錯誤信息,基于統計方法與基于機器學習方法的檢測識別技術完全無能為力,必須由具有領域知識的人來判別,而靠專家來保證海量UGC大數據的質量顯然是不切實際的。值得注意的是,2018年已有學者在學術論文中給出了正確的引文[31],但影響甚微。

4.2 用戶行為失實

用戶行為失實最典型的例子是“刷單”。“刷單”指商家通過偽造資金往來或物流記錄,制造虛假銷量,從而實現促銷目的的行為[32]。這種對用戶購買行為的偽造源于經濟利益的驅使。2018年,阿里巴巴就監控到2 800多個炒信平臺,包括刷單QQ群2 384個,空包交易平臺290個,刷單交易平臺237個[33]。各電商平臺、相關政府部門對“刷單”行為的打擊力度持續加強,如阿里巴巴建立覆蓋全鏈路的大數據實時風控與稽查系統[34];2019年6—11月,市場監管總局、發展改革委、工業和信息化部等8部門聯合開展2019網絡市場監管專項行動[35]。在這種情況下,“刷單”現象仍然普遍存在。不僅網店商家刷,也有電商平臺授意供應商和員工“自刷”[35],只是手段因時而異且更為隱秘。例如,阿里巴巴的生態產業鏈條上滋生了大量的“刷單螞蟻”,他們組織嚴密,培訓嚴格,了解阿里打擊刷單技術體系的漏洞,這讓他們能夠“上有政策、下有對策”,刷出的銷量和評價能夠以假亂真[35]??梢?,這是平臺與刷單者的技術博弈,至少在當前還難以清除“刷單”對數據造成的污染。

4.3 用戶心理失實

前述特朗普“通俄門”事件是UGC大數據中用戶心理失實的典型例證。利用社交媒介平臺偽造民意,進而影響用戶思想、改變用戶初衷的問題,在美國引發廣泛關注。為此,美國參議院情報委員會多次舉行聽證會。在2018年9月5日進行的聽證會上,臉書首席運營官雪莉·桑德伯格承認對于問題的發現與應對過于遲緩,但堅持認為臉書已經在甄別、封殺可疑用戶方面取得相當進展,稱臉書“每天阻止成百上千萬次注冊虛假賬號的嘗試”;推特CEO杰克·多西亦直言對問題的棘手程度準備不足、相關技術亦不完善,但已經做到“每天阻止超過50萬個可疑賬戶登錄推特”[36]。除此之外,兩者并未就如何改進現狀透露更多細節。而本應參會的谷歌卻未如期前往,有媒介分析稱谷歌此舉意在回避那些可能讓其緊張尷尬的問題[37]。這表明擁有強大資源的互聯網巨頭雖然付出了努力,但其現有技術手段尚不足以對UGC數據偽造、操控民意的內容進行有效鑒別與剔除。

此外,用戶在社交媒體上著力構建完美“人設”,從而導致在網絡中的“言”與現實生活中的“行”不一致,即“前臺后臺效應”。近年來,經營“人設”成為明星自我推銷、攫取流量的手段。然而,不少明星的后臺行為一旦被曝光,其在前臺經營的“人設”便瞬間崩塌。同時,“人設”經營愈發大眾化。一些用戶在社交媒體平臺上謹慎經營自己的“人設”,比如,為秀文化底蘊,還沒有真正讀完一本書就先曬出三五句評論,或精心挑選“適合發朋友圈的句子”[38]?!叭嗽O”與真實生活有時存在巨大落差,只是刻意表演出來的“精神顏值”[38]。

可見,無論是對民意的偽造或操控,還是用戶刻意打造的網絡形象,都是虛假心理狀態的體現,這些對社會科學研究而言無疑是干擾項。對此,互聯網巨頭尚不具備令人滿意的去偽存真的技術手段。

5 UGC數據質量問題的對策

由上述分析可見,將UGC大數據運用于社會科學研究,在很多時候都會面對各種真實性值得懷疑的數據,因此不能拿來即用,必須以合適的方式檢驗數據的質量,判斷可能存在的誤差,并采用適當的策略,將研究結論的誤差控制在可以接受的范圍內。根據當前的數據狀態與技術水平,在研究中可采用的策略如下。

5.1 數據質量的預判

UGC大數據種類很多,基于UGC大數據的社會科學研究也有不同的指向和特點。當研究者決定采用某些UGC數據時,就需要憑借自己的知識和經驗,對數據的真實性、準確性做出初步判斷。有些數據所受污染較小,或雖有一定程度的污染但對研究結論的影響不大,例如,通過對用戶在網上言論的情緒分析,來研究人類情緒是否和季節、天氣有較強的相關性,以驗證心理學的相關假設。而有些數據則可能存在很嚴重的質量問題,例如在2016年美國大選期間,假新聞和民意偽造泛濫成災,此時用UGC數據來分析民眾投票傾向,其研究結論就會大受質疑。例如,2016年包括微軟必應在內的基于大數據對美國大選投票結果的預測幾乎“全軍覆沒”。對數據質量進行預判的主要思路是分析所選擇的UGC數據是否存在媒介市場化、媒介政治化、生產者動機等因素的影響,影響程度如何。

5.2 數據質量的抽樣檢驗

UGC大數據體量龐大,不可能進行總體的質量檢驗,但可采用隨機抽樣的方法,從中抽取一定數量的樣本,由具備豐富領域知識經驗的研究人員對樣本進行人工檢驗,并依據檢驗結果推斷其總體質量,進而判斷研究結論大致的誤差范圍(置信區間)。需要特別指出的是,這種檢測與計算機技術意義下的數據質量檢驗,兩種數據質量的含義是完全不一樣的。前者針對信息內容的真實性、準確性;后者指在大數據預處理環節進行的數據清洗、去重等技術性操作,其目的是保證獲取的數據集與源數據的一致性。當前基于UGC的研究,大多缺失抽樣檢驗環節。計算社會科學研究者必須正視現實,不能將受到嚴重污染的數據用于研究,除非能夠消除這些污染。

5.3 與傳統研究相結合

大數據分析最顯著的優勢在于研究的精細化以及對事物相關性的發現能力。UGC大數據尤其在對普通人群的心理、觀念、行為的研究中具有重要價值,但缺陷是數據質量往往難以保證。因此我們可以將大數據分析與傳統研究相結合,實現優勢互補。研究者基于UGC大數據進行探索性研究,以發現事物的多樣性及事物之間的相關性,但并不輕易將其作為可靠結論,而是在此基礎上提出研究假設,然后設計嚴謹的研究框架,用傳統方法對假設進行進一步驗證。

5.4 多種UGC數據的交叉驗證

對同一問題的研究,在條件允許的情況下,可采用多種數據源,如搜索數據可采用百度、搜狐、360等,社交媒體數據可采用微博、微信等;然后比較基于不同數據源的研究結論的一致性程度,看一項研究是否能夠得出跨平臺的結論。

以上只是對UGC數據質量問題的初步思考與嘗試,其應對策略還需要計算社會科學學者不斷探索與改進。

6 結論

隨著數字化生活時代的到來,互聯網/移動互聯網上產生了海量的用戶生成內容。這種大規模的個人行為互動數據是以往難以甚至無法獲取的研究資料,它蘊藏著廣大網絡用戶的思想觀念、行為傾向、情感心理等社會事實信息,具有重大的社會科學價值。但要將UGC大數據運用于社會科學研究,必須首先考察其質量。從UGC大數據生產者的異質性、生產動機的差異性、內容檢測識別技術等影響因素進行分析,可以發現網絡信息與社會現實是兩個不平行的空間,數據質量呈現極度的不均衡性。認為UGC大數據能夠真實、客觀、準確地反映社會事實與人們的行為、思想觀念和心理狀態,能夠完美地適應各種社會科學研究的需要,籠統地給大數據冠以真實性、準確性特征是輕率的。UGC的發布和傳播基本處于無控制或極弱控制狀態,這既是UGC的最大優勢,也導致了UGC數據的缺陷。各網絡平臺對缺乏信息審核評價機制的弊端早有所知,也采取了很多措施對數據質量進行控制,但效果有限。同時,當前基于人工研判的識別、基于統計的自動測量、基于機器學習的自動檢測技術主要是針對文本型數據且皆有其局限性,尚無力應對互聯網信息生態的復雜性,亦難以適應UGC大數據的多態性、動態性特點,因此從原始數據中提取出高質量數據往往是很困難的。

對計算社會科學而言,數據質量是研究質量的基礎,也是UGC大數據價值發揮的關鍵。致力于計算社會科學的學者一定要清醒認識到,包括UGC在內的大數據并不是萬能的。UGC大數據存在的一些缺陷,憑借當前的數據處理技術尚無法解決,這也是高水平的研究和高質量的成果并不多見的重要原因之一。在當前條件下,計算社會科學以UGC為研究資料,必然會面對各種真實性、準確性值得懷疑的數據。將UGC大數據運用于社會科學研究,必須根據具體情況對數據質量進行審慎的分析和判斷。但分析UGC大數據的質量缺陷,絕不是為了將其“棄之如敝屣”,而是為了探索提高數據質量的方法和途徑,使之更好地發揮價值。在技術方面,通過發展人工智能技術來提高數據的檢測識別精度應該是主要方向;在具體研究方面,需要通過數據質量預判與抽樣檢驗,采用與傳統研究相結合、多種UGC數據交叉驗證等策略予以應對,并不斷探索與改進適合UGC大數據運用的研究方法。

(來稿時間:2020年8月)

猜你喜歡
用戶研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
新版C-NCAP側面碰撞假人損傷研究
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
主站蜘蛛池模板: 免费人成又黄又爽的视频网站| 国产第二十一页| 婷婷色在线视频| 日韩成人免费网站| 99久久精品国产自免费| 久久黄色小视频| 午夜福利在线观看入口| 免费观看国产小粉嫩喷水| 国产成人AV男人的天堂| 亚洲欧美成人综合| 精品少妇人妻一区二区| 99热国产这里只有精品无卡顿"| 久久久国产精品无码专区| 亚洲国产精品一区二区第一页免| 激情综合网址| 丁香婷婷在线视频| 欧美不卡视频一区发布| 国产精品女熟高潮视频| 久久77777| 久青草网站| 制服丝袜国产精品| 欧美区一区二区三| 日韩欧美国产综合| 亚洲aⅴ天堂| 九九久久精品免费观看| 无码国产伊人| 91在线激情在线观看| 91九色国产porny| 国产后式a一视频| 精品国产污污免费网站| 久久久久久久久18禁秘| 蜜桃臀无码内射一区二区三区| 91精品专区国产盗摄| 五月天天天色| 久久一本精品久久久ー99| 五月激情婷婷综合| 91系列在线观看| 国产精品人成在线播放| 97青草最新免费精品视频| 亚洲欧洲日韩综合色天使| 十八禁美女裸体网站| 国产香蕉在线视频| 欧美日韩精品在线播放| 最新亚洲人成无码网站欣赏网| 国产真实乱人视频| 欧美有码在线| 精品视频一区在线观看| 日韩第八页| 国产91高清视频| 免费看的一级毛片| 国产欧美日韩在线一区| 欧美日韩91| 亚洲综合极品香蕉久久网| 精品福利网| 精品福利视频导航| 欧美天堂在线| 亚洲成人精品| 91在线国内在线播放老师| 亚洲成人精品| 亚洲午夜国产精品无卡| 激情六月丁香婷婷| 国产在线视频导航| 一本久道久综合久久鬼色| 日韩免费毛片| 精品国产一二三区| 亚洲熟妇AV日韩熟妇在线| 免费av一区二区三区在线| 国产精品偷伦视频免费观看国产| 国产精品嫩草影院av| 最新精品久久精品| 手机在线看片不卡中文字幕| 亚洲日韩精品综合在线一区二区 | 91精品国产福利| 全午夜免费一级毛片| 午夜日本永久乱码免费播放片| 欧美国产成人在线| 欧美在线免费| 青青青视频免费一区二区| 成人一级免费视频| 日本一区中文字幕最新在线| 精品福利视频导航| 亚洲一本大道在线|