曹彥波 毛振江
云南省地震局,昆明市盤龍區北辰大道148號 650224
21世紀以來,在全球信息化和工業化高速發展的推動下,出現了物聯網和云計算,人類進入了大數據時代,與時空相關的位置服務和應用成為當前用來感知人類活動規律的重要手段(李德仁等,2014;劉經南等,2014)。近年來,隨著互聯網社交媒體的快速發展,數量眾多的個人成為信息傳播的重要載體。據2017年1月份中國互聯網絡信息中心(CNNIC)發布的《第39次中國互聯網絡發展狀況統計報告》①中央網絡安全和信息化領導小組辦公室等,2017,中國互聯網絡發展狀況統計報告[EB/OL],(2017-01)[2017-10-30],http://www.cac.gov.cn/2017-01/22/c_1120352022.htm顯示,截至2016年12月,中國網民數量達7.31億,互聯網普及率為53.2%,手機即時通信用戶6.38億,微博社交媒體用戶達2.42億。統計結果表明,相對于封閉的微信朋友圈,以微博為代表的新興社交媒體具有實時性、互動性、強擴散性、空間分布廣泛性等特點,特別是在重大災害性事件發生后,大量用戶群體在社交媒體平臺上發表言論,使得社交媒體數據成為反映社會行為活動和災害特征的重要數據源。
2017年8月8日21時19分四川省阿壩藏族羌族自治州九寨溝縣(33.20°N,103.82°E)發生7.0級地震,震中九寨溝景區是全球著名旅游景點,且恰逢暑假,國內外大量游客聚集,震后數小時內,震中附近電力通信未中斷,大量手機微博用戶發布了與地震相關的信息,各類信息廣泛傳播,匯集形成海量數據。發布內容包括用戶賬號、發布時間、經緯度坐標、博文、圖片、微視頻等,這些數據含有震感、人員傷亡、房屋破壞、生命線工程破壞、地震地質災害等地震災情相關信息。如何對這些海量的微博大數據進行分析和挖掘,以提取與地震災情相關的信息,有效利用網絡輿情信息輔助應急決策成為關鍵。在利用社交媒體數據進行災害分析挖掘研究方面,國外有關學者通過對Twitter數據進行分析和挖掘,研究地震的實時預警,監測災害事件發生,掌握事件發生的狀況(Crooks et al,2013;Sakaki et al,2013)。在國內,有關學者以新浪微博數據為基礎,圍繞著災害信息獲取、處理、分析、表達和應用等進行了研究。王艷東等(2016)基于新浪微博文本數據的應急主題分類模型,從實時、大量的文本流中快速分辨、定位突發事件的實況、救援等應急信息,探尋突發事件隨時間的發展趨勢并分析可能的影響;陳梓等(2017)利用微博信息分析臺風災害發展進程與受災情況間的關系;蘇曉慧等(2013)針對公眾通過微博發布的異常信息進行搜集篩選后,根據篩選后的信息從時間角度、空間分布等方面進行了蘆山7.0級地震前后宏觀異常信息的分析研究。在地震后關于微博災情挖掘分析方面的研究內容有地震災情位置微博抓取方法、技術流程、微博災情分類、空間可視化等(徐敬海等,2015;褚俊秀等,2016;曹彥波等,2017)。
本文以新浪微博為例,獲取九寨溝7.0級地震震前、震后24h的微博信息,對這些信息進行處理,挖掘震后與災情相關的信息,分析微博災情信息時空演變特征,并與實際災評結果進行對比分析。
新浪微博數據獲取途徑有網絡爬蟲技術和調用微博官方API接口2種方式,本文通過調用新浪微博的API,解析服務器返回的JSON數據文檔來獲取九寨溝7.0級地震的微博信息,新浪微博API接口提供的常用對象數據內容包括微博、評論、用戶、隱私設置、消息未讀書、短鏈、地理信息等7類數十個字段值。本研究主要獲取微博ID、經度、緯度、發布時間、博文、縮略圖等內容,并計算各微博發布位置與地震震中間的距離,生成用于地震災情信息分析和挖掘的微博數據 (表1)。

表1 微博數據結構設計
為了便于對震前與震后微博災情數據進行挖掘及時空特征對比分析,本次數據采集的時段為震前24h(2017年8月7日21時19分~8月 8日 21時 19分)和震后 24h(2017年 8月8日21時19分~8月9日21時19分),以九寨溝7.0級地震微觀震中(33.20°N,103.82°E)為圓心,200km為數據采集半徑,獲取研究區約12.5萬km2內震前、震后24h內所有微博用戶發布的信息,共收集到了1414條震前微博數據、3659條震后數據 (表2)。

表2 微博數據示例
獲取到的微博內容隨意性較強,口語化程度高,短文本、多語言背景、錯誤拼寫和縮寫、使用特殊符號等對內容的理解造成困難,但在表達內容的過程中仍會符合基本的句法規則(如“主謂賓”、“謂賓”等)。因此,為提高數據挖掘效率和準確率,需對原始數據進行解析、去重,提取微博的發布時間、內容、圖片、經緯度坐標等有效信息,并對核心博文內容進行中文分詞、清洗等挖掘處理,濾掉一些頻繁出現而意義不大的詞,比如“的”“就”“是”“和”等語氣助詞、副詞、介詞和連詞,提取與地震災情相關的特征詞、熱詞 (圖1)。

圖1 微博數據挖掘流程
本文采用北京理工大學張華平博士研發的NLPIR漢語分詞系統(又名ICTCLAS2016)分別對抓取到的震前24h內的1414條微博信息和震后24h內的3659條信息進行解析、去重、挖掘、中文分詞等預處理,然后結合人工解譯和判讀,對數據進行分類,提取與此次地震相關的特征詞和關鍵詞。經過對此次地震微博數據的挖掘和處理,提取地震特征詞匯并對這些信息進行了分類,共分為人的反應、器物反應、房屋破壞、人員傷亡、生命線震害、地震地質災害、救援行動、震情和其他等9類 (表3)。

表3 四川九寨溝地震微博災情信息分類
九寨溝7.0級地震發生前的24h內,震中附近200km范圍內微博日活躍量僅為1414條,平均每小時59條,單個小時段里最高122條,最低6條。但在地震發生后的24h內,微博活躍量總數激增至3659條,為平時的2.6倍,與地震相關信息達到2658,高出平時約2倍。在震后第2個小時段內(8月8日22時19分~23時19分)地震微博信息高達414條,為平時最高活躍量的3.5倍,震后最低數也遠遠高于平時,充分說明了此次地震事件在川滇地區乃至全國引起了社交媒體高度關注,影響大,范圍廣 (表4)。

表 4 震前24h內、震后24h內微博數據對比統計
震后24h內微博分時段數量統計分析結果表明 (表5),地震發生后,圍繞地震相關的話題是微博用戶熱議的主題,與地震相關的微博話題隨時間增加而逐漸減少,震后2h是微博發布的高峰區間,微博數量增至485條,與地震相關的微博數達到414條,占總數的85.36%,震后24h內該比例降至43.12%。
通過對微博博文內容的解析發現,地震發生后4h內,與此次地震相關的信息有1339條,其中,人的反應信息1070條,器物反應34條,房屋破壞36條,人員傷亡8條,生命線震害39條,地震地質災害23條,救援行動29條,震情信息81條,其他信息19條。災情類別主要集中于人的反應、器物反應方面,約占總數的86%以上,人員傷亡、生命線工程破壞和地震地質破壞等信息較少 (圖2)。

表5 震后24h微博數量統計

表 6 震前1h、震后1h微博高頻詞分類統計
經過分詞解析,統計對比地震前、后1h內微博詞頻可以看出 (表6),在博文出現的名詞中,震前1h內排名前10位的高頻詞有“月亮”“風景”“人生”“九寨溝”等,內容主要集中在個人感悟、心情、情感、九寨風景等描述,而在震后1h內排名前10位的高頻詞中,“地震”高居首位,達352次,其余如“九寨溝”“震感”“臺網”“震源”“感覺”等高頻詞,全部均與此次地震相關。從解析出來的排名前10位的動詞和形容詞也可以看出,震前以個人情感、興趣、話題的關鍵字為主,震后頻頻出現“發生”“測定”“祈?!薄捌桨病薄皬娏摇薄鞍埠谩薄懊黠@”“嚇人”等詞匯,說明廣大社交媒體用戶高度關注此次地震事件。

圖2 震后4h微博災情數據分類統計
3.3.1 震前24h內微博分時段特征
從震前24h(8月7日21時19分~8月8日21時19分)微博分時段發布數量的統計來看 (圖3),微博日活躍量與時間之間的關聯度明顯,暑假期間,九寨溝景區微博用戶晚上使用時間高于白天,在晚上21點左右出現使用小高峰,是微博用戶活躍時段,過了凌晨則逐漸降低,最低時段出現在13~16點,該時段正值景區游覽高峰期,微博活躍度較低。

圖3 震前24h內微博發布數量時間序列
3.3.2 震后24h內微博分時段特征
從震后24h(8月8日21時19分~8月9日21時19分)微博分時段發布數量的統計來看 (圖4),其與平時相比差異較大,震后微博活躍量明顯增多,日活躍量與時間序列特征顯著,在震后2h的23點左右出現微博發布峰值,9日凌晨1點以后數量逐漸減少,7點以后又緩慢上升,逐漸平穩,均勻分布。
3.3.3 空間分布特征
通過對比地震前、后24h內微博數據的空間分布狀況可見 (圖5),地震發生前24h內,微博活躍量與地域分布間的相關性顯著,震中附近微博日活躍量較低,受經濟、人口結構等因素的影響,微博活躍量的空間分布不均衡,大部分集中在景區較遠的九寨溝、松潘、若爾蓋縣城周邊,景區附近相對較少。但在震后24h內,由于通信未受影響,微博活躍量激增,距震中越近,微博活躍程度越遠高于平時,空間分布相對聚集,沿九寨溝縣城-九寨溝景區-松潘縣城呈線狀分布,且主要集中在交通沿線的景區、景點、城區和鄉鎮的人口密集區域。
獲取到的微博災情數據往往是在地理上分布不規則的離散數據,為了能夠更直觀地了解地震災情時空分布特征,筆者采用克里金插值法(Kriging)對震后0.5、1.0、1.5、2.0h的微博災情數據進行了空間擬合,描述災情在空間尺度上的變化特征 (圖6)。由 圖6可見,震后0.5h內發布的微博災情信息集中在九寨溝、松潘、若爾蓋縣城及道路沿線,影響范圍廣;在震后1~2h內,微博粉絲活躍度逐漸增加,信息發布量增多,地震的有感范圍增大,震感較強烈的區域主要集中在震中附近的九寨溝景區,強有感區邊界也較清晰明顯。

圖4 震后24h微博時間序列

圖5 震中附近150km微博數據空間分布
2017年8月12日,中國地震局發布了九寨溝7.0級地震烈度圖,此次地震的最大烈度為Ⅸ度(9度),等震線長軸總體呈 NNW走向,Ⅵ度(6度)區及以上總面積為18295km2,共造成四川省、甘肅省8個縣受災,包括四川省阿壩藏族羌族自治州九寨溝縣、若爾蓋縣、紅原縣、松潘縣,綿陽市平武縣;甘肅省隴南市文縣,甘南藏族自治州舟曲縣、迭部縣,Ⅸ度(9度)區涉及四川省阿壩藏族羌族自治州九寨溝縣漳扎鎮,面積139km②中國地震局震災應急救援司,2017-08-12 20:56:37,中國地震局發布四川九寨溝 7.0級地震烈度圖[EB/OL],http://www.cea.gov.cn/publish/dizhenj/464/478/20170812211337414565961/index.html。通過對震后微博信息的分類挖掘和災情解析,在震后4h內,災區Ⅵ度以上范圍內與地震相關的微博有721條,災情類別有人的反應、器物反應、房屋破壞、人員傷亡、生命線震害、地震地質災害、救援行動和震情信息等8類,其中,人的反應占總條數的80%。從空間分布情況看 (圖7),在烈度Ⅵ度區內,災情微博主要分布在松潘縣牟尼鄉、進安鎮、川主寺鎮、冰晶鄉,以及九寨溝縣南坪鎮、保華鄉、雙河鎮附近等人口相對密集的城區和鄉鎮。烈度Ⅶ度以上區內,災情微博沿S301省道主要分布在九寨溝景區、漳扎鎮、甲蕃古城、天堂洲際酒店附近。在烈度Ⅸ度區內,朗寨村、漳扎村、荷葉社區、樹正社區等地發布的信息大部分是震感描述,也有房屋破壞、人員傷亡和次生災害等的描述,極震區烈度調查點與微博用戶發布位置的空間分布基本一致(圖 8)。

圖6 震后2h內微博空間影響范圍示意圖


圖7 震后4h災情微博分類空間分布

圖8 極震區烈度調查點與震后4h微博災情對比
由 圖7還可見,震后1h內,災情微博相對較少,且主要集中在烈度Ⅵ度區內,但在震后17min(21:36:12),在距震中10km的Ⅷ度區內,1名位于九寨溝荷葉社區的微博用戶發布了1條“強烈震感”的信息。隨著時間推移,與地震相關的災情信息不斷增多。如震后50m in,在距震中10km的漳扎鎮荷葉社區1位微博用戶(22:12:25)發布信息“九寨溝、松潘等地震感明顯,目前九寨溝縣城多處房屋墻體脫落,從九寨溝景區通往九寨溝縣城的道路出現落石”,并配發了現場照片 (圖9)。震后2~4h是地震災情獲取研判、政府部門抗震救災工作部署的關鍵期,從地震發生開始計算,此次地震災評工作中隊員集結、出發、到達調查點開展實地調查和烈度評定等的時間一般為6~20h。但是借助互聯網廣大社交媒體用戶發布的數據,在現場工作隊到達災區前,我們可以直觀地解析出大量與地震災情相關的信息,進而可獲取有關災區的第一手資料。通過對信息進行挖掘和清洗,解析博文內容,亦可快速獲取地震的影響范圍和災害強度,為災情研判提供一定的信息支撐。
基于新浪微博API,本文獲取了2017年8月8日21時19分九寨溝7.0級地震震前、震后微博數據,通過對數據進行分類、清洗、詞頻統計、時空特征挖掘分析后發現,震后1~4h內,微博用戶活躍度較高,信息量較大且豐富,對信息的充分挖掘有助于對災情的宏觀把握,可彌補傳統獲取技術的時效性差、數據量少、覆蓋面小等問題,本文取得了以下主要認識。

圖9 漳扎鎮荷葉社區微博災情
(1)從微博數量統計分析來看,震后微博活躍量總數激增,總量、小時量的平均、最高、最低等數量指標均遠高于平時,超過2倍以上,占震后與地震相關信息總數的73.4%。震后與地震相關的話題是微博用戶熱議的主題,此次地震事件在川滇地區乃至全國引起了社交媒體高度關注,影響大,范圍廣。
(2)從微博數據分類和詞頻統計來看,震后與地震相關的微博信息可分為人的反應、器物反應、房屋破壞、人員傷亡、生命線震害、地震地質災害、救援行動、震情和其他等9類。災情類別主要集中于人的反應、器物反應方面,約占總數的86%以上,人員傷亡、生命線工程破壞和地震地質破壞等信息較少。震前震中周邊微博討論主題主要集中在個人感悟、心情、情感、九寨溝風景等的表達,對震后1h內發布的博文解析后發現,排名前10位的名詞、動詞、形容詞基本是與地震相關的高頻詞。
(3)從時間序列特征來看,微博日活躍量與時間之間的關聯度明顯,發震期間為暑假,震前24h內,微博用戶活躍時段晚上高于白天,21點出現峰值,最低時段出現在13~16點。而震后24h內,與平時差異大,8日夜間23點和9日上午9點出現2個峰值,自9日凌晨1點以后數量逐漸減少,7點以后緩慢上升,且逐漸平穩,均勻分布。
(4)從空間分布特征來看,微博活躍量與地域分布的相關性顯著。震前發布數量少,空間分布不均衡,震后微博活躍量激增,空間分布相對聚集,災情微博沿S301省道主要分布在九寨溝景區、漳扎鎮、甲蕃古城、天堂洲際酒店附近,距震中越近,空間分布越密集。根據空間插值擬合結果可知,震后0.5h內,發布的災情微博信息空間影響范圍廣,1~2h后,隨著微博信息發布量的增多,地震有感范圍的增大,震感較強烈的區域主要集中在震中附近的九寨溝景區,強有感區邊界也較清晰、明顯。
(5)從災情微博解析結果與實際對比來看,震后2~4h內是地震災情獲取研判、抗震救災工作部署的關鍵期,快速獲取震中附近微博數據,對數據進行分析和挖掘,提取地震影響范圍和災害強度,通過人的社會感知,真實客觀地反映地震災害,對于重點救助區域、救援目標的確定有一定的參考價值。在實際地震災情研判過程中,依托大數據技術,多手段、多渠道獲取災情,相互對比印證,對數據可靠性和信度作客觀評估,可使研判結果更具參考價值。