曹彥波
(云南省地震局,云南 昆明 650224)
隨著云計算、大數據、互聯網技術、智能移動通信技術的高速發展,基于智能手機的社會媒體信息交互方式越來越普遍,人們獲取新聞資訊的技術手段更加多元化和智能化。美國全球媒體情報公司Cision(2017)發布的《2017全球社交媒體研究報告》統計顯示,全球社交媒體用戶排名前4的分別是美國的Facebook,Youtube,WhatsApp和Facebook Messenger,月活躍用戶總數60億,中國的新浪微博排名全球第十名。社交媒體已成為互聯網媒體中最為流行的媒體類型之一,憑借用戶基數大、信息傳播快、互動功能強等特點,已成為突發事件消息、熱點事件、社會輿情等信息互聯網傳播的重要載體和傳播途徑。中共中央網絡安全和信息化委員會辦公室(CNNIC)(2018)發布的第41次《中國互聯網絡發展狀況統計報告》顯示,截至2017年12月,我國手機網民達7.53億,新浪微博月活躍用戶達3.76億。廣大網民越來越傾向于通過微博獲取新聞、評論、娛樂、知識等信息,特別是在重大災害性事件發生后,大量網友通過微博來表達個人觀點、態度和情感等,使得社交媒體數據成為反應社會行為活動和災害特征的一種重要的數據源。這些信息的充分挖掘和分析,對于政府進行輿情的傳播、監控、引導和輿情處置等有著十分重要的意義。
在利用社交媒體數據進行災害輿情演化分析研究方面,Seltzer等(2015)對比網民在Instagram和Flickr社交媒體上針對“埃博拉”話題的評論,認為不同的社交媒體平臺對網絡輿情信息傳播具有不同影響;劉國巍等(2015)運用最優分割理論和Moran’s I指數構建非常規突發事件網絡輿情演化模型,并用實證揭示非常規突發事件網絡輿情演化的時空分異規律;王亞民和胡悅(2016)提出一種基于詞對主題模型的微博輿情熱點發現方法,解決了傳統模型在文本建模中所面臨的高維度和稀疏性問題;胡悅和王亞民(2017)提出了基于模糊神經網絡的微博輿情趨勢預測方法,以微博話題的博文總數作為微博話題發展趨勢的量化指標,采用模糊神經網絡來預測微博話題的發展趨勢。在地震輿情信息分析挖掘方面,趙金樓和成俊會(2015)以2013年四川雅安地震為例,運用社會網絡分析方法研究突發事件微博輿情傳播的網絡結構特征對微博信息傳播的影響;徐敬海等(2015)、褚俊秀和徐敬海(2016)建立了位置微博地震災情抓取框架,以永善5.0級地震、魯甸6.5級地震為例,實現微博地震災情的提取與展示;曹彥波等(2017a,b)調用新浪微博API,獲取景谷6.6級地震、九寨溝7.0級地震微博信息,通過對數據清洗挖掘,分析了微博災情時空演變特征。社交媒體的情感分析主要包括詞語的情感極性判別和語句的情感分析等,在利用社交媒體數據分析地震事件情感反應研究方面,王昊等(2012)利用基于情感的HITS算法分析了2011年日本9.0級地震發生后一周內,人們在社交媒體上對地震的評論和情緒反應特征;Cheng等(2016)以2011日本東部9.0級大地震為例,調查了社會媒體如何影響人們對災難的看法,及其在災后恢復活動方面的行為意圖,分析人們對災難感知產生的不同影響;Li等(2017)獲取了2011年的日本地震和2010年的海地地震Twitter數據,基于情感詞典分析隨著時間的推移人們在地震中的情感反應特征。
2018年8月13日1時44分云南省通海縣(24.19°N,102.71°E)發生5.0級地震,8月14日3時50分通海再次發生5.0級地震。地震發生后,震中附近大量網友在微博、微信、QQ空間等社交媒體平臺上發布了大量短文本、圖片、微視頻等信息,其中含有大量與本次地震相關的評論、觀點、感悟、心情、情感等輿情災情信息。如何對這些海量輿情大數據進行分析挖掘,有效利用網絡輿情信息輔助應急決策成為政府輿情管控引導的關鍵環節。在前人研究成果的基礎上,本文基于新浪微博數據,獲取2018年通海地震微博信息,對信息進行處理,挖掘與地震災情相關的信息,分析本次地震輿情信息的時空演變特征。
筆者通過新浪微博提供的API接口程序采集通海地震震中附近微博用戶發布的信息,獲取經緯度、博文、圖片等內容,對獲取到的數據進行清洗、分詞、災情識別、挖掘以及分類統計,在GIS平臺支持下,研究微博數據時空特征,分析此次地震輿情信息時空演變規律,研究技術路線見圖1。

圖1 本文研究技術路線
微博數據的獲取方法有:調用新浪微博應用程序接口(廉捷等,2011),采用網絡爬蟲多策略方法(孫曉等,2014),基于微博特征的事件提取算法(高永兵等,2016)和網格單元統計分析(雷程程等,2017)等。本文利用新浪微博開放平臺提供的數據接口服務功能,調用了“獲取用戶發布的微博”接口(statuses/user_timeline),返回值字段包括微博創建時間、微博ID、微博信息內容、微博來源、圖片、地理位置、轉發數、評論數等多個原始數據字段,數據獲取內容如下:
(1)采集范圍:以地震震中為圓心,100 km為半徑,采集研究區約3萬km2范圍內微博用戶發布的數據。
(2)采集時長:地震發生后48 h內微博用戶發布的數據,即2018年8月13日1時44分至8月15日1時44分。
微博文本作為一種特別的短文本形式,具有短小、不規則、碎片化、口語化等特點,博文中大量使用了縮寫、替代、網絡新詞及表情符號,這些特點決定了難以用規則的語法對微博內容進行理解。本文采用NLPIR漢語分詞系統對原始微博內容進行預處理,包括去噪、去重、分詞解析等。通過調用新浪微博API,共采集到震后48 h內研究區范圍內微博用戶發布的5 156條原始信息。經過分詞解析,統計對比2次地震后微博詞頻和詞云可以看出(表1,圖2),排名前10位的名詞中,“地震”高居首位,提及達377次,其余如“玉溪”“通海”“震感”等高頻詞,全部均與此次地震相關。從排名前10位的動詞和形容詞也可以看出,震后頻頻提及“起來”“出來”“晃動”“強烈”“悲傷”“明顯”“害怕”等詞匯。以上高頻詞匯表明:震后震區附近廣大微博網友高度關注此次地震事件,發布了大量針對地震的個人感悟、心情、情感、隨筆、圖片、視頻等。
參考《中國地震烈度表》(GB/T 17742—2008)、《防震減災術語第1部分:基本術語》(GB/T 18207.1—2008)、《防震減災術語第2部分:專業術語》(GB/T 18207.2—2005)等相關國家標準中提及到的地震專業詞匯,結合人工解譯和判讀,筆者對本次地震微博原始內容分詞結果進行了篩選和分類。與地震相關的微博特征詞分為人的反應、器物反應、房屋破壞、救援處置、震情5類(表2),博文里還出現了大量表達情緒的表情符號。

表1 通海2次5.0級地震后2 h內微博詞頻統計
圖2 8月13日(a)、8月14日(b)通海5.0級地震后2 h內微博詞云
Fig.2 The words clouds of the micro-blog in two hours after TonghaiMS5.0 earthquakes on >Aug.13(a),Aug.14(b)in 2018

表2 微博特征詞匯分類
經過數據預處理,研究區采集到的5 156條微博原始信息里,與地震相關的信息有898條,占總數的17%,其中,提及到人的反應信息777條,器物反應90條,房屋破壞33條,救援處置93條,地震震情101條。災情類別主要集中于人的反應、器物反應方面,約占總數的79%,由于本次地震無人員死亡,少量人員受傷,微博網友反映人員傷亡等信息較少(圖3)。
對比2014年以來川滇地區8次M≥5.0地震后2 h,100 km范圍內的地震微博數據發現(表3):在8次震例樣本中,微博網友關注度最高的是2017年8月8日四川九寨溝7.0級地震,2 h內共發布了276條信息,其次是通海5.0級地震的246條,遠高于其他6次地震。

表3 2014年1月—2018年8月川滇地區M≥5.0地震微博關注數量對比

圖3 微博災情數據分類統計
Fig.3 The classification and statistics of the micro-blog disaster data
通海5.0級地震發生后,震中附近微博日活躍量激增,微博用戶熱議的主題主要圍繞地震相關的話題。地震后3 min,即8月13日1:47:33,距離震中32 km的玉溪市紅塔區微博網友就發布了信息:“就在剛剛!凌晨1:45,地!震!啦!躺在床上嚇個半死![淚]”。2:02:00,距離震中11 km的江川區玉江大道職教小區微博網名為“我是一只小小鳥哇”的用戶發布了信息:“地震了!!!震感強烈,硬生生被搖醒了!震了兩次之后全小區的人幾乎都出來了,可怕[淚][淚]平生第二次經歷”,同時還發了一張室外避難照片(圖4)。從上述2位網友的博文內容我們也能清晰地感受到震區震感強烈,人們驚慌失措。
從震后48 h(2018-08-13 01:44—08-15 01:44)微博分時段發布數量的統計來看(圖5),震后1 h是微博發布的高峰期,與地震相關的微博數達到158條,占總數的18%;隨著時間的增加微博條數逐漸減少,在震后第22 h內(22:44—23:44),出現了一個小高峰。部分網友擔心還會不會來地震?還私信云南省地震局和中國地震臺網速報官方微博,發布了是否會再發地震的博文,并曬出外出避難以及塔帳蓬的圖片等(圖6)。在震后第27 h內,8月14日3時50分通海再次發生5.0級,微博發布數量突然激增至80條,出現峰值。15日20:44—00:44的4 h內,微博數量又逐漸上升至22條,再次出現峰值,這與地震期間謠傳密切相關。據2018年8月15日玉溪市公安局發布的信息,在玉溪市通海縣發生2次5.0級地震后,少數網民通過互聯網、微信群和手機短信散布謠傳、不實信息,擾亂社會秩序。因地震謠傳在互聯網傳播極快,導致災區生產生活秩序和社會穩定受到極大影響,廣大民眾緊張、恐慌情緒蔓延,在微博上發布了大量個人心情、感悟、隨想、避難等信息。

圖4 通海地震室外避難照片
本次地震博文里除了包含與地震相關的震情、災情、應急避難等信息外,還含有大量個人觀點、態度和情感傾向的表達。筆者在大連理工大學信息檢索研究室情感詞匯本體庫基礎上(徐琳宏等,2008),結合博文中的新浪微博表情符號和出現的網絡新詞,采用關鍵字匹配和人工解析方式,對博文從不同情緒角度來進行情感分析,將微博內容分為正面情緒(“高興”“喜歡”)、負面情緒(“生氣”“厭惡”“恐懼”“悲傷”“疑惑”)和中性情緒3種類型,同一條微博可能包含多種情緒,例如:在震后10 min,距離震中12 km的玉溪市紅塔區微博網友發布了信息:“是哪里發生了地震呀?玉溪紅塔區,明顯震感,直接被搖醒,待在床上不敢動,[允悲][允悲]。該條微博信息里包含了對地震“疑惑”“恐慌”和“悲傷”情緒表達。通過對震后與地震相關的898條博文中體現的總體情感極性來看,此次地震中,反映正面情緒的有10條信息,中性情緒的有361條,負面情緒有527條,在震后48 h內總體以負面情緒為主。在正面情緒中,有10名網友對救援行動、醫療救助、救援人員點贊和正面評論,表達了“高興”“喜歡”等正面情緒。在負面情緒中,在博文中提及“生氣”有50條、“恐慌”322條、“悲傷”157條、“疑惑”118條(圖7)。

圖5 8月13日通海MS5.0地震后48 h微博發布數量的時間變化特征
Fig.5 The temporal variation characteristic of micro-blog released quantity in 48 hours after TonghaiMS5.0 earthquake on Aug.13

圖6 通海縣體育場室外搭建帳篷避難
從本次地震負面情緒時間序列可以看出(圖8):地震發生后震中附近大部分網友被“震醒”“晃醒”,感到困惑、害怕和傷心。震后2 h是網友“生氣”“恐懼”“悲傷”“疑惑”情緒表達比較集中的時段,部分微博網友關注地震部門微博,轉發地震信息,多次感受到強余震并在微博中提及和轉發,并向中國地震臺網速報提出了疑問,如:“我提出了問題‘你好,我想請問一下這幾天通海縣地震將會持續發生嗎?’@中國地震臺網速報@云南省地震局”。一些網友也表達了對地震謠傳很生氣,13日3時13分,距離震中40 km的1位微博網友發布了信息“造謠的人立刻停止 不要害得人心惶惶的。也不要拿大家的生命和時間開玩笑[怒]”。8月14日第2次地震發生后2 h內(03:50—05:50),人們的負面情緒又出現了一個峰值,微博網友提出很多疑問,如地震后續趨勢、地震什么時候會結束、救災物資供應、救災帳篷領用等。到了15日夜間,人們擔心后續還會不會有地震,紛紛外出避難,“恐懼”“悲傷”“疑惑”情緒再次上升。

圖7 微博情感極性統計

圖8 8月13日通海MS5.0地震后48 h負面情緒時間序列
從震后48 h微博空間分布看(圖9a),以地震震中為圓心,微博空間分布遵循距離衰減效應,與距離震中遠近密切相關。由于地震未造成大面積通信中斷,距離震中越近的地方,空間分布越密集,微博活躍程度也遠高于平時。震中區通海縣微博數量最多,達到268條,其次分別為:紅塔區260條,江川區66條,華寧縣58條,建水縣46條(圖9b)。由于地震期間謠傳傳播,災區民眾恐慌情緒加重,322條微博提及到對地震恐慌的情緒,最高的是通海縣有98條,其次是紅塔區95條。
地震期間云南省地震局工作人員電話詢問了紅河、曲靖、楚雄、昆明、玉溪地震部門:曲靖未收到有感報告;紅河石屏震感強烈;個舊、開遠、彌勒、滬西有感;楚雄雙柏、祿豐有感;玉溪除元江未收到報告外,全境有感,通過詢問人工標注了此次地震有感范圍(圖9a中紅圈)。對震后網友發布的微博解析發現,提及人對地震反應的微博信息有777條,基于核密度算法,利用ArcGIS擬合了微博地震災情影響范圍圖。從圖9可以看出,越靠近震中,震感越強烈,有感范圍主要集中在人口密集的通海縣、江川區、紅塔區、華寧縣、石屏縣、建水縣以及昆明市城區和部分鄉鎮,旅游景點交通線附近,這一空間分布特征與人工電話調查詢問勾畫的有感范圍情況一致。

本文基于新浪微博API,獲取了2018年8月13日,14日通海2次5.0級地震后微博數據,對數據進行了分詞、清洗、分類統計和時空特征挖掘分析,取得了以下主要認識:
(1)從分類統計結果來看,震后微博活躍量總數激增,網友高度關注此次地震事件,發布了大量針對地震的個人感悟、心情、情感、隨筆、圖片、視頻等信息。與地震相關的信息有898條,可分為人的反應信息、器物反應、房屋破壞、救援處置、地震震情5類信息,災情類別主要集中于人的反應、器物反應方面,約占總數的79%。對震后2 h微博詞頻統計后發現,排名前10位的名詞、動詞、形容詞基本是與地震相關的高頻詞。
(2)從時空分布特征來看,微博日活躍量與時間的關聯度明顯,震后1 h是微博發布的高峰區間,之后發布數量逐漸降低,由于地震期間謠傳影響,出現多個波動。微博的數量和空間分布與震中距遠近密切相關,遵循距離衰減效應;有感范圍主要集中在人口密集的通海縣、江川區、紅塔區、華寧縣、石屏縣、建水縣以及昆明市城區和部分鄉鎮,旅游景點交通線附近。
(3)從情感特征分析看,在震后48 h里總體以負面情緒為主,負面情緒包括對地震事件“生氣”“恐慌”“悲傷”“疑惑”等情感表達,2次地震后人們的情緒出現峰值,由于地震期間謠傳傳播,災區民眾恐慌、悲傷、疑惑情緒加重。
本次地震震級雖小,災害程度與同級別地震相比也不高,但是對社會的影響時間較長,空間范圍較廣。造成本次地震社會輿情影響大的原因是多方面的,地震謠傳是主要原因,2次地震期間,當地部分民眾轉發和傳播地震謠傳,產生了較大輿情和社會影響。其次與該地區地震背景、震情形勢、人口密度、文化水平、互聯網普及率等也密切相關。災區人口高度密集,震中通海縣四街鎮人口密度593人/km2,距離不到10 km的通海縣城人口密度高達1 426人/km2,超過云南省平均人口密度的10倍以上;經濟水平高,互聯網普及率高,加之當地歷史上發生過7.8級大地震,造成大量人員死亡,多因素疊加在一起,造成了當地民眾恐慌情緒蔓延,震后數天里,大量民眾還室外避難,不肯回家。由此可見,震前要做好民眾防震減災科普知識、防震避震知識、地震謠傳識別等知識宣傳普及;震后及時進行輿情監控,做好輿情引導,同時與網信辦、通信管理局、公安等建立地震謠傳應對機制等,是地震輿情監管的有效途徑。