李雪塵


摘 ? 要:當今大數據發展迅速,社交網絡也成為人們日常使用的媒介,用戶在虛擬網絡中產生的大量數據有助于研究災害問題,提升相關部門控制災害的效率。本文基于暴雨期間的微博數據,對用戶提及行為規律性進行研究,并分析社交平臺內用戶的提及行為對解決暴雨演變過程中并發問題的有效性。
關鍵詞:提及行為 ?災害 ?社交網絡 ?大數據
中圖分類號:P208 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A ? ? ? ? ? ? ? ? ? ? ? ?文章編號:1674-098X(2019)02(a)-0151-03
社交媒體數據規模和差異的不斷擴大,可為預測事件發生前的未來結果提供新思路[1-2]。Andrew Crooks基于從Twitter挖掘的大量數據,克服了社交媒體不能像地震儀一樣提供地震級別的衡量標準這一缺陷,并確定了地震的波及范圍[3],充分展現了社交媒體對災害研究的幫助。
在用戶行為分析方面,Linna Li等基于Twitter中用戶創建的地理數據與發布的照片,揭示了這些人的社會特征[4]。2015年Minh-Duc Luu等人比較了轉發與提及兩種行為與用戶使用標簽的相關性,發現提及行為更占優勢,因此能更高效地反映用戶交互與行為[5]。
在突發事件中,以相關性強的用戶為對象研究其行為會更有意義。本文以新浪微博為數據挖掘對象,通過構建網絡分析組件屬性,發現用戶提及關系在暴雨研究中的有效性。
1 ?實驗方法
本文以2012年7月北京特大暴雨為研究對象,通過微博提供的API搜集暴雨期間的微博數據,從中篩選出帶有“@”的信息并據此構建提及網絡與組件,分析暴雨中用戶的行為規律。
1.1 數據搜集與處理
以“暴雨”為關鍵詞通過網絡爬蟲和新浪微博API爬取暴雨相關信息,并經過去重等預處理得到24855條有效數據。據此篩選出興趣時間段2012-07-21-06到2012-07-24-04的16759條數據。之后去除這些數據中含有轉發標志“//@”的文本,從所有數據中識別出6529個被@的用戶名,作為構建網絡的基礎。另外,從處理后的數據中抽取500條進行采樣分析,經過人工分類發現詢問朋友情況與描述暴雨相關經歷的微博占比超過60%,表明處于提及關系中的用戶多數與暴雨有直接或間接聯系。
1.2 網絡構建
本文通過對社交網絡中帶有“@”的信息進行提取與分析,以有向圖的方式創建了一個以用戶為節點,以用戶間提及關系為邊,且具有連接關系的提及網絡。此網絡中包含6530個節點,4811條邊,2108條含提及關系的微博,1825個組件。在處理組件時主要分析節點分布、微博數、平均度、聚集系數、網絡直徑這五種屬性,通過組件內部特征反映災害趨勢。由此形成的具有分析價值的兩大組件將在第2節詳細闡述。
發布者與提及關系通過有序對(V,E)表示,可構建有向圖G(V,E),V的出度表示為d+(V),是E中具有原點V的鏈接數;V的入度表示為d-(V),表示與被提及用戶的鏈接數。同時,網絡中包含多個組件,一個組件由節點V與邊E構成,任意2個節點間有通過邊連接的可能性。當一群節點互相連接且不與其它節點關聯時,這群節點形成組件。
2 ?結果與分析
2.1 網絡與組件
可從網絡和組件的角度宏觀分析暴雨中用戶所發微博的規律、網絡空間中提及行為的誘因。并判斷信息傳播的方向以及在網絡空間和地理空間中的形式。
根據1.1所述方法從網絡中隨機抽取微博并進行人工分類,數量較多的類別為:詢問朋友情況(36%),描述暴雨相關經歷(31%),提醒朋友注意安全(7%),祈禱朋友安好(3%)。分析四種類別可知,暴雨發生時被提及用戶的位置基本都在暴雨發生地;同處于暴雨中的用戶可能在事件發生時或確認自身安全后使用微博來提及對方;同在北京的用戶會因共同經歷暴雨互相提及,北京以外地區的用戶會發布微博@自己擔心的朋友。可看出用戶提及關系有助于信息在暴雨發生地、暴雨以外地區雙向傳播的。
按1.2過程形成的1852個組件中節點數與微博數差異較大(圖1),其中多數組件內用戶數為2~12人,節點數為2的組件有1015個,與正常情況下用戶一條微博只提及一人的情況相符。總結發現,除去提及自身的用戶,組件內節點符合冪律分布。另外,含不同微博數的組件數量也存在差別,幾乎所有組件(1777個)只含1條微博,表明用戶很少使用微博交流討論,即暴雨發生時微博中用戶交流較少。組件基本情況如表1所示,兩大組件將在2.3中詳細分析。
2.2 組件屬性
此小節計算的組件平均度、平均聚集系數、網絡直徑是2.3中分析組件的基礎。
(1)在計算平均度時,以節點數為縱坐標,以組件內平均度為橫坐標。發現當樣本數量足夠大時兩者與平均度開始出現正相關性。且當平均度超過2之后,即使微博與用戶明顯增多,平均度依然處于區間(2,3)中(圖2)。首先取出14個平均度大于2的組件,去除只有兩個節點但度異常多的噪聲組件,剩余組件的平均度都介于(2,3),可推測出當用戶與所發微博趨于無窮多時,平均每位用戶涉及2-3段提及關系,說明用戶間提及數量有穩定趨向。
(2)通過計算聚集系數反映用戶相關性與交互行為(圖3),去除度與節點數差距很大導致聚集系數異常高的噪聲數據,剩余1個聚集系數較大(0.093355)的組件以及聚集系數為0的其它組件(1850個)。較多組件的聚集系數為0,說明用戶很少通過微博互動,且可看出微博是用戶發布動態、傳播信息的空間,和微信等社交軟件具有不同側重點。
(3)通過網絡直徑(平均最短路徑長度)反映組件內用戶間關系遠近。聚集系數從2開始與節點數、微博數有正相關趨勢,最大的網絡直徑(7.90)對應2.4中最大組件,網絡直徑2.00對應以“請輸入用戶名”為中心的第二大組件。剩余具有較大網絡直徑的組件具有相似的規律,即多名用戶發布多條微博且互相提及,且微博內容多為描述暴雨情況、關心問候,說明這些組件基本由現實中具有親近社交關系的朋友組成。與平均度不同,隨著節點與微博數量的增大,網絡直徑并沒有停滯于特定區間,而是持續增大,說明在一個社交群體內用戶數量越多,用戶間具有親近關系的可能性越小。
2.3 兩大組件
找出微博與用戶數量最多的兩大組件(簡稱),以政府媒體等4個用戶為中心,由其產生的提及或被提及行為形成組件內節點出入度,信息傳播方向與現實空間類似的中心節點只有一個微博幽默博主,大量用戶通過提及這位名人傳遞信息,體現了網絡空間中的名人效應。
最大組件(圖5)有四個出入度較多的聚集中心,都屬于媒體、政府這類現實生活中的主要信息源。通過分析出度最多的節點(一位現場報道的記者)、入度最多的兩個節點(“平安北京”與“北京發布”),發現在暴雨期間微博是用戶反映交通電路等日常問題的有效途徑,且可看出記者具有客觀展現暴雨情況的功能,同時北京市公安局起主要救援作用,而同樣入度較多的“頭條新聞”卻不能反映災害內容。據此引出通過建模來分析用戶角色的思路,以識別在災害中具有特定功能的用戶從而提高信息搜集效率。除建模識別用戶特征外,可看出事件突發時利用微博實時搜集民眾生活問題并傳播信息的作用。
第二大組件由多位用戶提及一位名為“請輸入用戶名”的幽默博主組成,其余節點入度幾乎全為0,此博主入度高達51,接近平安北京入度(19)的3倍,說明不能簡單地通過分析對比入度情況識別災害中起重要作用的用戶。但提及此博主的微博與暴雨發展趨勢密切相關,可作為信息收集的主要來源。據此可知在突發事件中用戶會通過提及現實中關系疏遠的名人傳遞信息,即名人加入組件會加快組件擴張速率,因此具有影響力的用戶是形成大組件的基礎之一。以網絡直徑的角度可解釋為,正是由于除普通用戶相互提及外,還有涉及名人的提及與被提及行為,所以隨著組件擴大,組件內用戶關系趨向疏遠。
3 ?結語
災害發生時社交媒體產生大量數據,可作為研究用戶行為的基礎,并為災害趨勢的反映提供源頭。已有很多從時空角度分析災害發生期間用戶行為的研究。社科類研究多聚焦于用戶提及轉發等行為的對比[2],少有針對災害中用戶行為的分析。
本文的成果可總結為兩方面:一是分析了暴雨發生時虛擬網絡空間內用戶提及行為的規律性;二是基于用戶提及行為,通過微博反應災害現實情況并幫助解決民眾生活問題。
之后的研究將基于本文進行擴充,本文在識別出災害中發揮特殊功能的用戶后,只粗略分析災害發展趨勢以及暴雨對用戶的影響,之后將考慮對災害中用戶角色建立個體模型,從而精確搜集處理災害信息。
參考文獻
[1] 吳志峰,柴彥威,黨安榮,等.地理學碰上“大數據”:熱反應與冷思考[J].地理研究,2015,34(12):2207-2221.
[2] Andrew Crooks, Arie Croitoru, Anthony Stefanidis and Jacek Radzikowski. #Earthquake: Twitter as a Distributed Sensor System[J]. Transactions in GIS, 2013, 17(1): 124–147.
[3] Tsou M H , Yang J A , Lusher D , et al. Mapping social activities and concepts with social media (Twitter) and web search engines (Yahoo and Bing): a case study in 2012 US Presidential Election[J]. Cartography and Geographic Information Science, 2013, 40(4):337-348.
[4] 陳梓, 高濤, 羅年學, 等. 反映自然災害時空分布的社交媒體有效性探討[J]. 測繪科學, 2017(8):48-52,133.
[5] Yu L , Zhengwei S , Chaogui K , et al. Uncovering Patterns of Inter-Urban Trip and Spatial Interaction from Social Media Check-In Data[J]. PLoS ONE, 2014, 9(1):e86026.