宋磊

摘要:在互聯網飛速發展的今天,流言作為信息的一種,其危害在社交網絡的作用下不斷地被放大。隨著社交網絡的迅速發展,流言傳播無論從影響規模上和還是傳播速度上來說都每日劇增,這使得人們對判別流言和抑制流言方法的需求也隨之增長。為了對社交網絡中的流言進行判別與溯源,從真實社交網絡數據爬取入手,基于數據的時間軌跡,挖掘出流言的傳播路徑,構建信息傳播網絡,并基于傳播網絡拓撲特征分析對流言進行判別和溯源。并且基于傳播網絡以及相關拓撲特征信息,提出了通過檢測其連通分支節點數目和直徑分布是否滿足冪律分布來判別該網絡中是否有流言存在,對不滿足冪律分布的,通過檢測“離群點”的方法來初步定位流言。
關鍵詞:社交網絡;流言;傳播路徑;判別與溯源
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2019)04-0006-03
Abstract: Today, with the rapid development of the Internet, rumors as a kind of information, its harm is constantly amplified by the role of social networks. With the rapid development of social networks, rumors spread daily, both in terms of scale and speed of communication, which has led to an increase in the demand for discriminating rumors and suppressing rumors. In order to discriminate and trace the rumors in the social network, start from the real social network data crawling, based on the time trajectory of the data, mine the propagation path of the rumors, construct the information dissemination network, discriminate and trace the rumors based on the topological characteristics of the propagation network. Based on the propagation network and related topological feature information, it is proposed to determine whether there are rumors in the network by detecting whether the number of connected branch nodes and the diameter distribution satisfy the power law distribution. Then detecting the "outlier point" of the power law distribution to initially locate rumors.
Key words: Social network; rumors; propagation path; discrimination and traceability
1 研究背景
社交網絡就是社交網絡服務,它源自英文SNS(Social Network Service)的翻譯。基于Web2.0的社交網絡已經成為人們日常生活中維系社會關系和信息傳播的重要方式,在社會的各個方面都產生了深遠的影響:(1)社交網絡上的人們通過各種聯系形成了各種“關系結構”,其中最顯著的便是形成了大量的虛擬社區;(2)基于社交網絡的關系結構,社交網絡用戶圍繞著某個熱點事件或者話題聚集在一起,相互作用,影響,構成了社交網絡上具有相似特征的“網絡群體”;(3)社交網絡推動下,使得現實信息一旦變為“網絡信息”,得益于社交網絡本身自帶的關系結構以及各種網絡群體的出現,將以往常難以想象的速度在網絡上擴散,網絡世界與現實世界的信息互動將不可避免地造成影響。
流言與社交網絡的結合不僅改變了流言傳播的方式,同時也使得流言的傳播群體更容易被同化和產生從中心理。因此,對真實社交網絡中流言傳播模型以及其判別方法的研究具有非常重要的現實意義。近年來,盡管社交網絡中的信息傳播已經是當前熱點之一,但是大多數研究只是提供了傳播理論以及傳播模型,卻沒有結合真實社交網絡的數據來分析;也有一些文章研究了傳播過程中每個節點的行為及其影響,但是沒有從整體上去分析和研究社交網絡中整個話題的信息傳播;同時,當前對于真實社交網絡上的流言并沒有一個有效判別和溯源流言的方法。本文正是基于這樣的狀況,提出了一種從公共信息中判別流言的方法,并做到簡單的溯源,找到流言來源。
2 實驗分析
本文樣本數據是通過選取不同時間twitter上的三個熱門話題來作為搜索關鍵字,獲取推文數據和相關用戶數據,它們分別為BroadwayACeleb,FlyDubai,MakeTVShowsEvil。我們為每一類關鍵字建立了對應的信息數據庫。
2.1 社交網絡信息傳播網絡構建
傳統社會網絡中,通常以信息內容為主體,而在在線網絡中,信息依賴于人與人之間的好友關系進行傳播,通過人與人之間的關系影響人與信息的關系。具體到本文中我們采用的Twitter,信息傳播往往依賴于Twitter用戶之間的關注與被關注的關系,因此我們在構建信息傳播網絡中著重考慮了這一點。
網絡由點與邊構成,構建信息傳播網絡首先就是定義網絡中點與邊代表的內容。
首先是信息傳播網絡中的點,我們將話題下的每一條推文視為一個節點,這個節點對應我們數據庫中的一個文檔,因而每個節點都有一個用戶ID,一個對應的推文發布時間,同時也帶有該用戶的粉絲列表。
其次是邊的生成。由于我們所獲取的推文是在關鍵字搜索下得到的,因而傳統的轉發關系不能很好地描述我們話題數據庫中的所有信息,因而在這個信息傳播網絡中,我們需要重新定義一種關系來描述信息的傳播,結合社交網絡的實際:Twitter用戶發推往往受其關注者發推影響,我們對于每一條用戶發的推文,都去查詢:是否這個用戶的關注者中在不久前發布了同樣話題的推文。具體來說,在信息傳播網絡中,對于一個節點A,我們進行以下處理:
初始化最相鄰時間tnearest,遍歷數據庫,對于每一條推文B(對應網絡的一個節點),
(1)查詢A對應的用戶ua是否在B對應用戶ub的粉絲列表中,如果是,執行(2);否則,跳過該節點,繼續查詢下一條推文
(2)比較B對應的推文發布時間tb與最相鄰時間tnearest(初始值設定為早于ta的某個時間),若tnearest 在遍歷完整個數據庫后,我們就找到了節點A對應用戶關注者中最新發布相同話題的用戶IDidnearest_time,在節點A和idnearest_time對應的節點之間我們生成一條邊。 對每一個節點都進行上述處理,我們信息傳播網絡中的邊就由此生成。 2.2 拓撲網絡特性分析 由于我們所獲取的推文來自同一個話題,推文用戶本身并沒有特殊的聯系,因而網絡應該由各個不同的小網絡構成,每個小網絡中的節點用戶都或多或少存在關注與被關注的關系,其中還存在很多單個節點,這些節點在我們所得的數據庫信息中是單獨的,不存在互相關注的關系。我們根據話題數據庫構建的話題傳播網絡也驗證了這一點,整個網絡由一個個連通分支構成,從話題傳播網絡中可以直觀地發現:網絡中最多的是直徑為1(兩個節點的連通分支)的連通分支,而直徑特別大的連通分支數很少,連通分支的數量隨著直徑(節點數目)的增長而急劇減少。 之后我們定量分析拓撲網絡特征,分別針對三個不同的話題網絡統計了其聯通分支的節點數目和直徑分布(圖1-圖3)。 我們可以直觀地看出,直徑很大或者節點數目很多的連通分支數量很少,大多數都是直徑為1或者說節點數目為2的連通分支,直徑分布和節點數目分布圖呈現冪律分布的特征。 2.3 驗證冪律分布 如果樣本數據滿足冪律分布,那么對其橫縱坐標都取對數,即在雙對數坐標下,冪律分布表現為一條斜率為冪指數的負數的直線,我們以直徑分布為例,將傳播路徑網絡的直徑分布圖轉換為雙對數坐標,之后對散點圖進行線性擬合,得到每個話題傳播網絡連通分支直徑分布的雙對數曲線,分別如圖4到圖6所示。我們可以看到,在雙對數坐標下,直徑分布幾乎可被完美擬合為一條負斜率直線,因而,我們可以得出結論,話題傳播路徑網絡的連通分支直徑分布滿足冪律分布。 2.4 “離群點”與流言判別 2.4.1 “離群點”檢測 在樣本空間中,與其他的樣本點的一般行為或者特征不一致的點,我們稱為離群點。在這里,我們把雙對數曲線中明顯偏離擬合直線的點稱之為“離群點”,例如圖6中的第四個點,它明顯偏離擬合曲線,我們稱之為“離群點”。那么,如何確定這樣的“離群點”呢? 在聚類分析中,離群點檢測常用的方法包括基于統計分布的離群點檢測、基于距離的離群點檢測、基于密度的局部離群點檢測、基于偏差的離群點檢測等。 基于統計分布的離群點檢測:這一類離群點檢測方法首先假設樣本空間中所有的數據符合某一個分布或者某一個數據模型,之后基于模型或者分布采用不和諧校驗的方法來識別離群點。這種離群點檢測方法需要我們預先知道樣本空間中的數據結構的分布特征,這在檢測之前我們往往無法獲知。 基于距離的離群點檢測:這種檢測方法定義如果在樣本空間S中與對象O的距離大于d的至少有N個樣本點,那么我們稱這個對象O是以N(指至少N個樣本點)和d為參數的基于距離的離群點。這種檢測方法需要數據均勻分布,如果數據分布不均勻,那么可能檢測就會遇到困難。 基于密度的局部離群點檢測:定義如果某個對象屬于局部離群點,那么相對于它自己的局部領域,它是遠離的。區別于前兩種方法,基于密度的局部離群點檢測不將離群點看成是二元性質的點,換句話說,不僅僅是判斷一個點是否離群點,而是有一個權值來描述離群程度,它可以應用到樣本分布不均勻的情況下。 基于偏差的離群點檢測:這種方法通過檢查對象的特征,查看其是否有“偏差”的特征,通過這種方法來判別是否為離群點。 對圖3中的三個樣本分別進行“離群點”檢測,我們發現圖4和圖5不存在離群點,而圖6的第四個點為離群點,這與我們對圖像的直觀印象相符。 2.4.2 流言判別與溯源 研究表明,公共信息的相關分布符合冪律分布,不存在2.4.1中定義的“離群點”。上一步我們基于距離檢測,對每一個話題的樣本空間進行了檢測,關鍵字話題FlyDubai、MakeTVShowsEvil的樣本空間中不存在“離群點”,那么我們認為這兩個話題為公共信息,存在流言的可能性很低。而對于話題BroadwayACeleb,存在一個“離群點”,那么我們認為該話題下存在流言,且流言極大可能性存在于“離群點”所在的連通分支中,我們以”離群點”到擬合直線的距離為衡量標準,距離越大,那么”離群點”越偏離擬合曲線,流言的可能性也越大。這樣,我們就將可能流言從公共信息中判別出來了,并指出了流言的來源分支。
3 總結
本文主要針對當前熱門社交網絡平臺Twitter,以三個樣本話題為例,獲取真實社交網絡數據,再進一步的將原始數據進行數據處理,得到信息傳播網絡構建所需的用戶信息、用戶關系信息,建立相關的話題數據庫。之后,提出了一種新的信息傳播網絡的構建方法,基于此方法構建了網絡信息傳播網絡。基于網絡信息傳播網絡的拓撲特征分析,本文主要定量分析了話題信息傳播網絡連通分支的節點數目和直徑分布,提出了通過檢測其連通分支節點數目或直徑分布是否滿足冪律分布來判別流言的方法,對存在“離群點”的,通過檢測“離群點”的方法來溯源流言。經實驗研究,該方法與現實世界演化趨勢相一致,證明了其對流言判別方向的啟發性作用,有助于社交網絡流言的判別與溯源。
參考文獻:
[1] Tong H, Papadimitriou S, Philip Y et al. Fast monitoring proximity and centrality on time-evolving bipartite graphs[J]. Statistic Analysis on Data Mining, 2008, 1: 142-156.
[2] Ghoshal G, Zlatic V, Caldarelli G et al. Random hypergraphs and their applications. Phys Rev E, 2009, 79: 066118.
[3] 張彥超,劉云,張海峰,等.基于在線社交網絡的信息傳播模型[J]. 物理學報2011,5:050501(1-8).
[4] 趙遠萍.即時通信系統拓撲建模及消息傳播模型研究[D].北京:北京郵電大學,2010.
[5] Sznajd W K,Sznajd .A simple model of price formation[J] .Int.J.Mod.Phys.C ,2000: 1157
[6] 熊熙,胡勇,等. 基于社交網絡的觀點傳播動力學研究 物理學報[J], 2012,15: 10-110.
[7] Hethcote H. The mathematics of infectious diseases[J]. SI-AM Rev, 2000, 42: 599-653.
【通聯編輯:梁書】