王 琳 姜立新 楊天青 張維佳
1)中國地震局地震預測研究所,北京 100036
2)中國地震臺網中心,北京 100045
管理者經常面臨著與決策相關信息缺失和不相關信息泛濫的問題,往往會對管理者的決策造成負面影響(Detrick,2002)。此情況在地震災害應對過程中尤為突出,信息缺失或冗余往往造成抗震救災指揮決策的滯后,甚至導致救援力量和資源投放重點出現偏差。
近年來,中國地震局在應急救援領域先后開展了“九五首都圈防震減災示范項目”“十五中國數字地震觀測網絡項目”和“國家地震社會服務工程”。應急觸發、災情研判、快速響應及輔助決策等應急科技產出的日益豐富為國家及各省抗震救災指揮部實施地震應急救援提供有力的科學依據和技術支持。我國雖建成了較完整的應急指揮體系及相應的指揮技術系統,但在應急信息管理方面仍存在一些問題,具體表現為:①技術產出較豐富,直接有效利用率較低;②內容重復,存放分散;③尚未建立有效的災情管理技術。
為此國內不少專家學者對地震應急基礎信息及災情信息的收集、整理與分類編碼進行了大量研究。付繼華等(2009)、聶高眾等(2002)從建立數據庫的角度分別討論了地震應急數據的分類?!兜卣饘W專業分類表》(梁凱利等,2011)嚴格按照《中國圖書館分類法》的要求,結合地震科技資料分類的自身特點,對地震學專業進行了分類;白仙富等(2010)按照信息內容的本質屬性,依據發生什么事件、產生什么影響、對產生的影響人們做出什么響應、針對響應有何成效的思路對地震應急現場信息進行分類;張翼等(2016)根據地 震應急信息產品管理、更新及共享的需要,針對地震應急信息產品屬性、服務、時間、傳遞等特性,在借鑒地震應急基礎理論研究及相關行業分類標準的基礎上,研究地震應急信息產品的分類方法。
但對于多渠道的上傳機制,加之震后大量的災情及背景信息,使信息歸類難度較大。面對緊迫的時效性壓力和不同指揮決策部門對信息的不同需求,僅靠人工手動進行信息分類提取的方式難以達到令人滿意的效果,因此建立條理更為清晰、標準更具實踐應用意義、信息自動化程度更高的信息分類管理技術十分必要,以適應應急指揮決策部門對應急救援信息的快速獲取要求。
林子雨等(2010)根據關系數據庫的關鍵詞查詢問題研究背景,闡述解決該問題的基于模式圖和數據圖的優缺點、困難和挑戰,提出利用排序函數解決關鍵詞查詢時匹配結果可能很多的情況,最終反饋給用戶一個最相關信息。張曉民(2017)設計了基于關鍵詞數據庫信息檢索方法及時態檢索算法,主要采用時間修剪策略,同時提出時態邊權重的計算方法,實現了基于關鍵詞的關系數據庫時態檢索原型系統。通過借鑒關鍵詞在信息檢索中的應用,本文將關鍵詞分類法應用于地震應急信息管理中。
信息分類方法主要包括線分類法、面分類法、混合分類法(耿慶齋等,2014)?,F有與地震信息分類有關的標準與研究多采用線分類法,其特點是層次較清晰,易于理解;缺點是結構可塑性較差,一旦分類深度和每層級類目容量固定后,修改層級和插入新類將受限(劉若梅等,2004)。面分類法將選定的分類對象若干屬性或特征視為若干個“面”,每個“面”中又可分成彼此獨立的若干個類目,對于解決同種類型要素在不同應用中分類的矛盾具有優勢。
參考不同分類方法(楊天青等,2016;和銳等,2011),考慮自動分類結果的時效性與實用性,本文采用線與面相結合的混合分類法,以信息服務的高效便捷為目的,按照應急信息自身的特征屬性、地震發生時間線產生的直接與間接損失信息(即震前、震時與震后所造成的破壞與損失信息),針對產生的影響采取相應的應急救援信息,將地震應急信息分為震前基礎背景信息、地震震情災情信息、震后應急救援信息,如表1 所示。

表1 地震應急信息分類定義 Table 1 Definition of classification of seismic emergency information
(1)通過實地調研河北省、山西省、內蒙古自治區、四川省的基本人文地理環境信息概況,本文選擇收集四川省4 次地震應急資料的主要原因為:1)對同一省份的地震應急資料進行文檔分詞處理時,可直接忽略地名類固定性且不具實際區分意義的屬性詞,且同一省份文本文檔之間的語義描述差異性相對較??;2)相對于地震易發的其他3 個省來說,四川省地勢地形地貌相對較復雜,建筑物水庫大壩等公共基礎設施種類結構相對復雜,且抗震救災技術較成熟,從而使得到的信息更豐富和全面;3)四川省已建成一套獨立的信息上傳與協同管理體系,有助于提高資料分析和研究的準確性。
(2)應急信息資料分析統計
共收集2013 年4 月20 日蘆山7.0 級地震、2014 年11 月22 日康定6.3 級地震、2017 年8 月8 日九寨溝7 級地震、2017 年9 月30 日廣元青川5.4 級地震資料,由于收集到的數據較零散,且震級較小的數據資料較少,所以本文將4 次地震中相同類別的信息統計在同一文件夾下,如表2 所示。

表2 信息文檔分類統計 Table2 Classification statistics of information documents
(3)應急信息分類關鍵詞的選取
中文分詞(Chinese Word Segmentation)指將一個漢字序列切分成一個一個單獨的詞,作為文本挖掘的基礎,對輸入的一段中文進行中文分詞,可達到自動識別語句含義的效果(趙小華,2010)。
TF 詞頻(Term Frequency)指某一個給定的詞語在該文件中出現的次數。IDF 反文檔頻率(Inverse Document Frequency)的主要思想是:如果包含詞條的文檔越少,IDF 越大,則說明詞條具有很好的類別區分能力。TF-IDF 是一種用于信息搜索和信息挖掘的常用加權技術,在搜索、文獻分類和其他相關領域中的應用較為廣泛(施聰鶯等,2009)。
本文在對文本信息進行分析處理時,根據建立的分類標準,對收集到的信息進行分類,應用TF-IDF 技術,在Excel 表里對各類文本信息進行分詞和詞頻統計。此種方法的局限是處理的文檔只能是文本文檔(.txt)格式。按名詞和動詞的詞性,統計IDF 和詞頻數排名前20的詞,如圖1-3 所示。
由圖4 可知,地震、級地震、地震局、水庫4 個詞語的出現總頻數超過1000,其中地震出現頻數高達2439。各類別信息里的頻數具體為:震區背景信息119 次、震區震情災情信息1105 次、災區應急救援信息914 次,占各類別信息前20 頻數的比例分別為9%、15%、13%,在總文檔里所占比例為16%,平均出現頻率占12.3%。 對未分類的所有初始文本進行統計,結果如表6 所示。

圖1 震前應急背景信息詞頻統計 Fig. 1 Frequency statistics of emergency background information before earthquake

圖2 地震震情災情信息統計 Fig. 2 Statistical table of disaster information in earthquake area

圖3 震后應急救援信息詞頻統計 Fig. 3 Frequency statistics of emergency rescue information after earthquake

圖4 總文檔信息詞頻統計 Fig. 4 Total Document Information frequency table
頻數為700—1000 的詞語共6 個,分別為震中854 次、余震793 次、災害784 次、發生782 次、距離773 次、破壞708 次,占所有詞頻的比例為4.7%—5.7%,其中發生和災害2 個詞語的頻數相差2,在進行詞語篩選時,任選其一即可。
頻數為300—700 的詞語共8 個,其中400 以上的有3 個,分別為信息643 次、災區606次、藥品540 次;其余5 個為分布圖、大壩、災情、指揮長、醫療器材,頻數為300—400。8 個詞語從分類屬性來看,主要屬于應急救援信息,占總文檔詞語的比例為2%—4%。
整體來看,出現頻率越高的詞語,在分類過程中起到的作用越低,即作為關鍵詞的代表性越不強,本文最終選取的各類別信息關鍵詞是在各類信息詞語統計里頻率不高且在其他類別信息里頻率較低或沒有的詞語。根據頻數統計規律可知,本文關鍵詞的取舍主要按以下規則:①對4 個頻數數據按詞語詞頻占所有20 個詞語詞頻的比例,將頻率域劃分為2%以下、2%—4%、4%—6%、6%—8%、8%五個區間;②按各類信息的定義,每個區間選取一個詞(選取與本類信息最相關的詞語)作為3 類信息的基礎關鍵詞。如第一區間地震局、第二區間水庫、第三區間破壞、第四區間災情、第五區間震情,這個組合歸至震情災情信息類;③每個區間選取2—4 個固有關鍵詞,與基礎關鍵詞重合的排除,低頻率區間的詞語多選,重復詞語與高頻詞語盡量不選,最終每類信息選出15 個關鍵詞,如表7 所示。

表3 關鍵詞選取結果 Table 3 Keyword selection results

續表
百度、谷歌等搜索引擎成功顯示出關鍵詞檢索的方式已被廣大用戶所接受(張曉民,2017)。本文為解決應急信息的自動分類,采用 “關鍵詞分類法”,根據分類標準,對原始文本進行結構化處理,通過中文分詞、詞頻篩選與統計實現信息關鍵詞的提取,此階段中的中文分詞將一串連續漢字序列按動詞、名詞的規范重新組合成詞語序列。詞頻統計與篩選即對分詞結果進行統計,去除一些無效詞后,生成關鍵詞詞庫,用匹配詞庫的方法實現信息的自主分類,具體過程如下:①收集震后國家中心、各研究所、各?。ㄗ灾螀^)地震局上傳至應急信息共享平臺、評比FTP 站點、臺網中心臺網部FTP 站點的震后產出成果,建立相對完整的產出目錄;按照之前建立的地震應急信息分類標準,對收集到的條目進行梳理歸類。②對所有文檔按詞性進行詞頻統計,將無效詞語去除后,對每個大類建立相應的關鍵詞詞庫。由于高頻詞語的重合度較高,因此在建立關鍵詞詞庫時,需綜合考慮詞頻和詞語含義,首選該分類獨有且出現頻率較高的詞語。③以提取的特征詞作為自動分類程序中的詞庫,進行自動分類處理,在計算機語言的基礎上,實現信息的自動分類。要求程序在震后啟動,自動完成當前地震產生在各不同平臺上的信息分類,并將產出成果保存至本地服務器。根據已建立的分類類別和各應急指揮部門需求,可進一步實現對產出成果的重命名(非必要)和重新分發。分類流程如圖5 所示。
以九寨溝7.0 級地震產出為例:
報告及圖件總數如表8 所示。分類文件夾包括震前背景信息文件夾、震區災情震情信息文件夾、震后應急救援信息文件夾和其他文件夾。
建立的分類詞庫較簡單,結果與表3 的關鍵詞庫高度匹配。震前背景信息特征詞包括構造、交通、居民點、GDP、人口等,地震震情災情信息特征詞包括截止、余震、熱力圖、震動、態勢、數據、精密、水準、傷亡、災害、中央電視臺、設防、展開、遇難等,震后應急救援信息特征詞包括救援、救援隊、搜救等。

圖5 分類流程 Fig. 5 Classification flowchart

表4 報告及圖件總數 Table 4 Total number of reports and artworks
分類標準建成后,以提取的關鍵詞作為自動分類程序中的詞庫,進行自動分類,流程如圖6 所示。分類過程中各環節為:①將所有格式文檔轉為.txt 格式文件,并輸出至原始文件 夾;②搭建主程序運行環境(Python2.7 環境、jieba 程序庫);③運行shell 主程序,調用Python 子程序模塊,將原始文件夾下的所有文件進行分類處理。模塊1(cut):獲得文件對文件進行分詞,并將其存至臨時文件夾;模塊2(count):對原文件進行詞頻統計,并對統計結果進行排序;模塊3(order):分詞詞頻統計排序前15 的詞進行排序;模塊4(set):根據各類關鍵詞篩選結果,得到關鍵詞庫;模塊5(classify):將初始文檔進行結構化處理后得到的前15 詞頻作為該文檔的關鍵詞,將其與關鍵詞庫進行對比,通過文檔關鍵詞在所劃分的5 個頻率域區間的關鍵詞庫匹配率決定文檔的歸屬類別,將文檔劃分至匹配率最高的類別。判斷該關鍵詞屬于哪個分類,按照文件歸屬,把文件歸類至該目錄下。某個文件可能屬于多個類別,如果沒有對應的目錄,則把文件拷貝至其他文件夾。

圖6 自動分類流程 Fig. 6 Flowchart of automatic classification
目前我國地震應急信息是通過各省、市已建立的信息匯總渠道直接上傳至相關服務平臺,供指揮部及相關領導專家參閱,但大地震發生后面對的是大量災情震情救援及背景信息,僅靠上述傳輸和提取方式不能達到令人滿意的程度。本文的研究成果可實現多渠道應急信息的自動分類,輔助地震應急指揮控制與決策等。
(1)參考以往學者在地震應急信息分類與編號方面的研究,考慮分類信息的服務實用性,根據地震事件發生的時間軸,將地震應急信息分為震前應急背景信息、地震應急震情災情信息和震后應急救援信息。
(2)為實現地震應急信息的自動分類,研究采用 “關鍵詞分類法”,以實現地震應急信息的自動分類,提高信息處理的目標性、針對性和有效性。
(3)通過分析,本文對應急信息進行分類、分詞、詞頻統計,由前15 位關鍵詞信息統計結果可知,各不同類別應急信息關鍵詞之間存在較大差異,可見與傳統信息直接上傳法相比,“關鍵詞分類法”能使信息條理性更強,分析處理時更方便直接。
(4)在大數據的背景下,相比于傳統的信息分類方法,實現地震應急信息的自動分類,將大大提高信息利用率,并推動地震應急救援相關技術走向智能成熟化、自動服務化。
但對于有效應用關鍵詞分類法實現應急信息的自動分類、降低某個文件可能屬于多個類別的交叉情況,仍存在以下問題:
(1)如何建立關鍵詞之間的語義關系和邏輯關聯關系,處理并不斷豐富分類關系樹,還需對信息自身與信息相互之間更深層次的關聯關系進行探討,如時態上或語義上。
(2)對于關鍵詞重復和冗余問題,目前只有少數研究提出了初步解決方案,還需結合信息自身的屬性、信息之間的差異及用戶對信息的需求,由相關函數(如排序函數)探索建立一個權衡的標準。