李雪塵 熊薪

摘 ? 要:在來自社交平臺大數據的支持下,已有多項研究揭示災害發展趨勢、災難位置與影響范圍,展現了社交媒體數據對災害研究的幫助。本文以2012年北京大暴雨為研究對象,通過分析用戶提及行為與暴雨時空變化,通過微博中暴雨數據反映了用戶在現實中的親近社交關系、實時展現暴雨相關信息并預測其發展趨勢,有助于研究災害動向以及其間用戶關系。
關鍵詞:時空大數據 ?提及行為 ?暴雨 ?新浪微博
中圖分類號:P954 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A ? ? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2019)02(b)-0119-03
Abstract: In this paper, the 2012 Beijing heavy rain was taken as the research object. By analyzing the users' mentioned behaviors and the temporal and spatial changes of the heavy rain, the heavy rain data in the microblog reflected the users' close social relationship in reality, presented the information related to the heavy rain in real time and predicted its development trend, which was conducive to the study of the disaster trend and the relationship between users.
Key Words: Spatiotemporal big data; Mention behavior; Heavy rains; Weibo
大數據擁有速度快多樣化等優點,從海量數據中挖掘巨大價值使人們能更好地理解世界[1]。如2014年陳佳等人基于手機定位數據推測出用戶特征[2]。在大數據高速發展的同時, Facebook、Twitter等社交平臺因便利高速,其用戶與日俱增,為政治、科技、娛樂等不同領域的研究提供新可能[3]。在社交媒體用戶行為分析與時空分布研究的基礎上,可通過將用戶行為與極端事件關聯來研究災害。
基于新浪微博數據,本文研究了2012年北京暴雨發生時與發生前后的用戶提及行為,并據此分析社交平臺中暴雨的時空變化。具體表現為以用戶為節點,提及關系為度,構建網絡形成組件,對組件分類探討并對比分析暴雨期間不同城市內的微博信息在時空范圍上的演變趨勢。
1 ?實驗方法
本文以2012年7月北京特大暴雨為研究對象,通過微博提供的API搜集暴雨期間的微博數據,從中篩選出帶有“@”的信息并據此構建網絡與組件,分析暴雨中用戶的行為規律。
1.1 構建組件
在網絡爬蟲的支持與關鍵詞“北京暴雨”的限制下,本文借助新浪微博獲取此災害發生時社交平臺內用戶發布的相關信息,經過預處理得到24855條有效數據。據此篩選出從2012年7月21日起之后連續3d內的16759條數據,其中部分包含地理坐標,作為研究災害時空變化趨勢的依據。之后從所有數據中識別出6529個被@的用戶,作為節點以形成網絡。
從網絡中篩選出2089條包含提及關系的微博,所形成的提及網絡中包括擁有不同數量節點與微博的1854個組件。將組件的平均度、平均聚集系數、中心性系數、網絡直徑可視化并據此對組件進行分類,之后用冪律分布驗證不同組件節點變化規律,在2.1中主要分析一個節點數較多且聚集系數較大的組件。
1.2 時空分析
將興趣時間段內所有包含地理坐標的微博以經緯度的形式可視化,同時篩選出含有提及關系的微博,以相同方式可視化后與前者對比,可觀察出提及微博聚集程度的減弱。并從網絡中隨機抽取微博進行人工分類以分析用戶提及行為的原因。
之后分析暴雨中與城市相關的微博信息在時空范圍內的變化。從不同角度對比上海、天津、北京、重慶、武漢、深圳的微博差異,統計了每個城市在不同時間點被提及的次數、每個城市不同時間點發出的微博總數、每個城市不同時間點的提及數量與總微博數量之比,將城市被提及數量可視化,并統計每個地區數據集內每小時的提及次數、微博數量。
2 ?實驗結果
2.1 組件分析
基于1.1的方法形成的網絡中含有一個聚集系數較大的組件(圖1),針對此組件聚集系數較大的特點,可將其解釋為一個在地理上聚集且互動較多的用戶形成的社區。作為基于提及關系的組件,其聚集系數較大說明提及網絡可體現親近社交關系,即提及行為能反映較強的用戶相關性,與Minh-Duc Luu在[4]中通過對比提及與轉發關系發現前者能更好展現用戶交互行為的結果一致。
另外,此組件內沒有中心節點,是由暴雨中相鄰用戶間的提及關系形成組件,將用戶地理空間的相鄰性體現在虛擬空間。說明此組件內用戶很可能因暴雨產生聯系,具有朋友關系的可能性較小。此組件作為聚集系數不為0的唯一正常組件,其用戶群體在虛擬空間與現實空間都聚集,且空間關系鄰近,內部節點數和微博數都較多,依次可看出用戶提及行為的規律性,以及虛擬空間與現實空間的關聯。此組件內的用戶因地理空間產生聯系并表現為微博中的提及關系,且網絡中的其它大組件反映出在微博中能高效傳遞消息的用戶一般為名人或大流量媒體,說明用戶傾向提及現實或網絡中具有影響力的對象,或在突發事件中具有短暫緊密關系的其它個體。
2.2 時空變化
對組件的分析有助于理解用戶提及行為的規律性,但不能明顯反映暴雨時空變化。此小節剖析暴雨發生前至暴雨發生后網絡中不同城市被提及情況與內部微博信息,觀察暴雨發生時不同地區涉及程度與變化情況,發現基于提及關系反應的暴雨時空變化趨勢與實際情況符合。基于1.2中方法初步得出暴雨期間用戶聚集地點(圖2),發現不止北京附近有用戶發布微博,其它地區微博數量也較可觀,如圖3將城市按微博數量劃分等級后,發現通州等地微博數量也較多。之后根據經緯度大致找出6座微博數量較多的城市:上海、天津、北京、重慶、武漢、深圳。
從圖4可看出不同城市被提及數量變化趨勢大致相同但數量差距較大,從7月21日暴雨發生開始上海、天津、北京、重慶、武漢、深圳這六座城市被提及數量劇烈增加,其中北京最早被提及且平均數量最多。城市被提及數量在7.21深夜或7.22正午達到最高,從7.23開始趨向減少,但深圳市在7.23正午至7.24凌晨出現反彈。六座城市微博數量變化與被提及情況相似,但北京與其它城市差距更大,且深圳市較為特殊,從7.23上午開始趨向增加,至傍晚到達最高點后趨于減少。
分析提及城市的微博占總微博比例(圖5)可觀察出上海、天津、重慶、武漢都存在提及微博占比接近或達到1.0的時間點,對應圖4中可發現對應時間點城市被提及數量與總微博數量極少且相等,這種微博發布者可能有親人朋友處于所提及城市。而北京總微博數量十倍于被提及數量,且兩者幾乎同步變化,故提及微博占比從暴雨發生前到暴雨發生后一直保持較穩定的變化趨勢。
由于北京市是災害發生中心,故這六座城市被提及總數和微博總數以及兩者比例的變化趨勢都接近北京市,但在7.21暴雨開始階段,六座城市被提及占比發生4次大轉折,突增至最高點后降回正常水平,又再次到達最高點,驟降后才與北京市情況一樣趨向穩定波動。
3 ?結語
上述研究以災害中用戶提及關系為研究對象,從時空角度分析暴雨演變趨勢且發現其與現實相符。具體表現為通過構建提及網絡并利用微博提供的位置關系,詳細分析微博和節點數量較多且聚集系數較大的一個組件從而發現突發事件中用戶關系,并通過不同城市所涉及微博的變化差異揭示災害進程。
本文除觀察出災害中用戶提及行為的規律性之外,還發現提及關系可作為用戶行為的有效表現形式、反映暴雨中親近社交關系、實時展現暴雨相關信息并預測其發展趨勢,為研究災害動向以及其間用戶動態提供新思路。
參考文獻
[1] Kato S , Koide A , Fushimi T , et al. Network Analysis of Three Twitter Functions: Favorite, Follow and Mention[M]// Knowledge Management and Acquisition for Intelligent Systems. Springer Berlin Heidelberg, 2012.
[2] 陳佳,胡波,左小清,等.利用手機定位數據的用戶特征挖掘[J].武漢大學學報:信息科學版,2014,39(6):734-738.
[3] Andrew Crooks, Arie Croitoru, Anthony Stefanidis and Jacek Radzikowski. #Earthquake: Twitter as a Distributed Sensor System[J]. Transactions in GIS, 2013, 17(1): 124–147.
[4] Luu M D , Thomas A C . Beyond Mere Following: Mention Network, a Better Alternative for Researching User Interaction and Behavior[J].2015.