褚俊秀,徐敬海
(1.南京工業大學 測繪科學與技術學院,江蘇 南京 210009)
地震災情位置微博抓取與展示
褚俊秀1,徐敬海1
(1.南京工業大學 測繪科學與技術學院,江蘇 南京 210009)

探索了一種地震災情位置微博的抓取與展示方法。通過分析位置微博在地震災情獲取中的作用,建立了位置微博地震災情抓取框架。基于新浪微博SDK,實現了有效位置微博的抓取;在顧及地震災情專題屬性的基礎上,對抓取的微博進行分級。以云南省昭通市魯甸地震為例,實現了災情的提取與嚴重程度的圖示化展示。
地震災害;災情提取;位置微博;災情展示
地震災害具有突發性和不可預測性,與洪水、臺風等氣象災害相比,防御難度更大,除了災害直接造成的損害,往往還產生廣泛的次生災害。為了降低地震發生后的經濟損失、減弱社會影響,迅速及時的救援工作尤為關鍵。作為地震應急救援的前提,及時獲取災情信息就顯得尤為重要[1]。如何才能提取到有效且應急的地震災情是個關鍵性的議題[2-4]。研究人員對地震災情的獲取開展了大量的研究,其中以遙感技術為代表的空間信息技術得到了廣泛應用,并取得了好的效果[5]。但遙感技術通常是災區影像的呈現,對震后人員死亡、震感范圍、次生災害分布等地震應急救援急需的災情獲取困難。隨著微博、微信、人人網等Web2.0社交平臺的興起,用戶以自身感興趣的形式自發貢獻數據及資訊,這些海量數據中充滿著豐富的災情信息,如能得到合理應用將能有效補充現有方法的不足。最大限度地利用微博數據服務于專題地理信息的獲取也是地理信息領域研究熱點之一[6-7]。
從地理學視角對微博展開的研究還不夠充分。運用微博用戶自帶地理屬性來研究地震災情,為地理社交網絡的貫通提供了可行性,能夠快速形成更為有價值的地震嚴重度分布專題圖來指導救災實踐,也為大數據時代如何利用大數據的優勢將自發地理信息有效地應用于數據獲取開辟了新的途徑。
位置微博,即帶有位置信息的微博,為經緯度信息的反映,民眾發送的微博數據經過處理后在微博電子地圖上配準標注[6]。經緯度坐標需通過定位來實現,微博的數據匯集通過網友使用互聯網設備來實現,主要有網頁微博、PC客戶端“微博桌面”和手機客戶端“新浪微博”,兩個客戶端用戶在發送微博時都能獲取到位置,不過也取決于用戶自愿。微博在PC客戶端采用的是用戶IP所在的地理位置,非固定IP只能定位到所在城市,精度并不高;在移動客戶端采用的是GPS定位原理,運用空間距離后方交會的方法,以確定用戶發送微博的熱點位置,其精準程度主要依賴于GPS衛星定位的精度。
本文探索了地震災情位置微博的抓取方法,即采用地理標定策略。以地震災害為例,地理標定獲取策略的好處是便于以地震發生后時間空間的動態變化情況來預測地震的宏觀震中區域(極震區)、震災的嚴重性分布、民眾的態度及反應等,以可視化的方式更好地反映震災的時空屬性,提供更為及時的救災指導。
震后72 h被救災界稱為“黃金72小時”,此時間內受地震埋壓被救出的成活率較高,因此首先要選取的時間段為從發震后起算3 d。提取到存儲備用的原始數據后,對數據進行統一的規約處理,以作震災評估。經地理標定的微博位置點是離散的,但分布上有規律,在專題圖上就能得到災情分布模式和嚴重度趨勢,總體的災情微博抓取框架如圖1所示。
首先是參數的輸入,在系統中輸入地震震級和震中信息之后,根據地震烈度衰減關系,結合紙質媒體和網絡媒體的報道,判定地震影響區域的最小邊界矩形;接著運用粗網格+細網格的格網索引模式進行提取操作。其選擇依據為:對人口/居民點疏密度、地貌形態等多個因子進行綜合考慮,確定格網索引的密度,劃分為網絡。根據歷年地震發生頻率、規模,結合微博的普及程度調研發現,數據來源中以村為單元行政區域的微博幾近于無,因此確定單元行政區域級別為鄉鎮,即行政區域級別只取省、市、縣和鄉鎮(自頂層至基層)4級。

圖1 眾源位置微博災情目標處理框架
本文基于新浪微博開放平臺的SDK開發,為了實現用戶與第三方網站之間的安全鏈接訪問,采用OAuth 2.0認證標準,結合要用到的API,位置微博災情數據提取的具體過程如圖2所示。

圖2 位置微博災情數據抓取的實現流程
針對待提取的數據,確定主要使用的接口為位置服務接口、評論接口和關系接口。針對提取目標最關鍵的是獲取某個位置周邊動態的函數place/nearby_ timeline。本文需要從地震發生后同一時間段發布的海量微博中抽取信息點,然后以統一的形式集成,再用結構化形式進行存儲,以json格式返回的字符串組合成為CSV文件,如圖3所示。json是一種輕量級的數據交換格式,既易于閱讀和編寫,也易于機器解析和生成,這些特性使得json成為理想的數據交換語言。至此,抓取的數據已完成從非結構化到結構化的轉換。

圖3 抓取到的災情位置微博(CSV格式)
經過第一階段的微博數據抓取,入庫的是地震后3 d內震區受影響區域的數據,這些數據按照統一的二維表形式分字段存儲。由于數據中存在冗余、無關和記錄不完整的情況,因此還不能直接應用于地震災情展示,首先需要進行數據規約處理,再基于分類檢索庫匹配詞典,對規約處理后的數據進行災情信息等級評估。
為了給急需了解災區背景資料的用戶提供第一手資料,對災區的影響范圍做出快速估計,需要對處理后的位置微博地震災情離散點進行地理標定可視化展示。將位置微博以一定的分類分級符號表達,從而使得用戶能夠直觀地了解地震災情嚴重度的空間分布和定性、定量特征。通過專題圖的方式將數據圖形可視化,利于將位置微博數據中難以發現的災情分布模式和嚴重度趨勢通過符號化直觀地體現在地圖上。
3.1 位置微博數據規約處理
規約化處理的步驟主要為去噪、去重、分詞和索引。去噪和去重又合稱為數據清洗,通過篩查檢測數據集中存在的錯誤和不一致,并找到與地震災情分析無關的數據,利用人工或自動化工具將它們剔除或改正,以提升數據質量。
數據規約處理的結果是位置微博地震災情分類檢索表。構造這個表的目的是為了羅列經過分詞的基于微博社會化網絡詞匯的地震災情分類索引。它融合了災情匯報的網絡特征,并結合地震專業術語,引入人的情緒以及對地震的反應、表情等。微博的表情多樣,反映了微博發送人的心境,是重要的災情反饋手段。
3.2 地震災情信息等級評估
基于微博地震災情的分類檢索庫匹配詞典,運用微博文本情感分析的方式,從可利用的社會化網絡災情的5個維度來考察,綜合最新版本中國地震烈度表[8],對提取到的社會化地震災情進行程度及微博內容的進一步細分歸納,給定打分,如表1所示。

表1 微博內容的地震災情信息等級評估
本文以發生在2014-08-03 16:30云南省昭通市魯甸縣(北緯27.1°,東經103.3°)的6.5級地震為例證。在震級-烈度衰減關系的支持下,通過選定范圍,對云南省下轄的8個縣,四川省下轄的4個縣,貴州省下轄的2個縣進行微博挖掘,提取地震發生后3 d內的地震位置微博,得到了60 069條原始微博,經過信息抽取和數據清洗,得到1 616條。
利用現有的分詞模型進行數據規約處理和分級,并對這些數據進行有效整合、分析,將與本次地震相關度高的災情數據入庫。由于對抓取位置微博地震災情數據進行分級時利用的專題屬性信息的大小及性質不同,用符號大小反映地震災害影響域,用顏色深淺顯示災害影響程度,形成災情嚴重度評價的聚集圈,如圖4所示,其中底圖來源于天地圖“http∶//map. tianditu.com/map/index.html”。

圖4 基于位置微博的魯甸地震災情展示圖
在社會化網絡時代的背景下,微博等新媒介為地震災情的提取提供了新的方法與視角。本文展示了一種地震災情位置微博抓取方法;介紹了位置微博的概念,提出位置微博地震災情提取框架;詳細論述了基于位置API的位置微博抓取方法;最后以魯甸地震為例,展示了位置微博地震災情提取的應用,并對災情提取結果進行了分析與探討,驗證了位置微博災情提取框架的可行性及有效性。
[1] 帥向華,姜立新,成小平.利用WebGIS實現地震災害信息數據的管理[J].自然災害學報,2013,12(4)∶111-114
[2] 聶高眾,安基文,鄧硯.地震應急災情服務進展[J].地震地質,2012,34(4)∶783-789
[3] 徐敬海,聶高眾.城市地震應急處置方案技術研究[J].地震地質,2014,36(1)∶197-202
[4] 趙曉麗,李家存,屈新原,等.地震及其次生災害災情專題圖制圖模板研究[J].地理空間信息,2011,9(3)∶153-155
[5] WU H, CHENG Z P, SHI W Z. An Object-based Image Analysis for Building Seismic Vulnerability Assessment Using High Resolution Remote Sensing Imagery [J]. Natural Hazards, 2014, 71(1)∶151-174
[6] 王波,席廣亮,張浩,等.基于微博用戶關系的網絡信息地理研究∶以新浪微博為例[J].地理研究,2013,32(2)∶381-389
[7] 胡慶武,王明,李清泉.利用位置簽到數據探索城市熱點與商圈[J].測繪學報,2014,43(3)∶315-319
[8] GB/T 17742-2008.中國地震烈度表[S].
P208
B
1672-4623(2016)05-0038-03
10.3969/j.issn.1672-4623.2016.05.012
褚俊秀,碩士,研究方向為GIS在空間大數據地震災情挖掘方面的應用。
2015-03-23。
項目來源:國家科技支撐計劃資助項目(2012BAK15B06);空間信息智能感知與服務深圳市重點實驗室(深圳大學)開放基金資助項目(201404)。