王秀英張 玲張聰聰
1)中國地震局地殼應力研究所,北京 100085
2)山東省地震局,濟南 250012
探討地震前兆觀測中的大數據挖掘與應用1
王秀英1)張 玲2)張聰聰1)
1)中國地震局地殼應力研究所,北京 100085
2)山東省地震局,濟南 250012
大數據挖掘研究與應用是當今的熱點問題。本文簡要概括了大數據研究的基本思想,分析了地震監測中前兆觀測數據大數據研究的必要性,并設計了幾種前兆觀測大數據研究在地震行業內部的可能應用方向和具體應用問題,以期能夠推動前兆觀測數據利用大數據研究思想的創新應用和研究工作。
大數據 前兆觀測數據 隱含信息 數據挖掘 行業應用
王秀英,張玲,張聰聰,2015.探討地震前兆觀測中的大數據挖掘與應用.震災防御技術,10(1):39—45. doi:10.11899/zzfy20150104
隨著計算機、數據庫以及后來的物聯網、云計算等技術的發展和普及,各行業的數據量都呈爆炸式增長,然而數據量的激增并未使信息量也呈現同樣態勢的增長,出現了所謂“數據過剩,信息貧乏”的局面。正是基于這種原因,從大量數據中發掘其中隱含的信息并從中獲取收益,已成為當前信息技術研究的焦點問題。大數據不僅僅提供信息,也可能成為一種資源,從而改變人們的思維和生產方式,麥肯錫全球研究所的研究報告指出:“大數據是下一個創新、競爭、生產力提高的前沿”(McKinsey Global Institute,2011)。有鑒于此,最近幾年很多行業都開始關注大數據和數據挖掘的研究和應用,并且在某些行業已取得了比較明顯的應用效果和生產效益。
國外有關大數據的挖掘應用研究開展得較早,各行業甚至政府部門都已開展了這方面的研究工作(涂子沛,2013)。而國內相關研究起步相對較晚,還比較零散和缺少系統性。但隨著人們對大數據認識的提高,最近兩年國內的研究發展很快,然而目前的研究更多的集中在大數據挖掘方法和算法方面,與具體行業尤其是科研行業相結合的應用研究成果還不多見。
隨著大數據概念的普及和更多應用成果的取得,大數據挖掘技術在地震行業的應用正被更多行業專家和研究人員所關注。地震行業的大數據應用可以首先從地震監測數據的研究開始。就地震監測中的前兆觀測而言,經過多年的建設發展,特別是“九五”數字化改造項目和“十五”數字地震觀測網絡項目以來,已形成一個覆蓋全國范圍的多學科、多測項的智能化前兆網絡觀測系統,在觀測技術方面已經有了一個質的飛躍。數字化后的地震前兆觀測數據產出,無論從采樣率和采樣精度上都有大幅提高,使觀測數據量激增。目前,前兆觀測系統在數據生產環節的數據采集、匯集、數據同步已實現自動完成,大大減少了臺網工作人員的工作強度。但在產出數據加工處理和應用方法方面還沒有特別的進展,尤其在數據加工處理環節,大都靠人機交互方式完成,由于測項多、采樣率高,前兆臺網中心每日有大量觀測數據需要處理,半人工方式的數據處理使臺網工作人員每日工作量巨大,效率不高,而且很難保證處理結果的客觀性。在數據應用環節,雖然前兆觀測產出數據量較模擬人工觀測有幾個數量級的差異,但相應的數據處理方法并沒有隨著觀測資料的改善而有大的改觀,大都還在沿襲模擬和人工觀測時的方法,更多時候是由高頻采樣率數據提取低頻采樣率數據進行應用,導致數據的應用效果和效率并沒有得到更大的提高。
大數據研究應用的發展趨勢及地震行業的應用需求,使我們認識到在地震監測領域開展地震行業的大數據應用研究的必要性和迫切性。本文將就大數據研究的基本思想、前兆觀測大數據分析的可行性以及可能的研究工作進行討論,以期對前兆觀測數據的大數據應用研究工作有所推進。
所謂大數據,從字面理解是指數據量特別巨大的數據,往往需要特殊的存儲和處理方法,目前對于大數據尚未有一個公認的定義。這里需要特別指出的是:大數據中的“大”不是絕對意義上的大,是個相對的概念,更多是思考問題、研究問題的思路和觀念的轉變,強調的是使用全部數據。就地震前兆觀測而言,其數據產出同互聯網信息業數據產出相比,微不足道;但就行業自身而言,同人工和模擬觀測時代的數據產出相比,無論從觀測數據種類、觀測覆蓋范圍、觀測數據累積時間等方面都達到了前所未有的程度,數據量呈幾十倍、上千倍甚至上萬倍的增加,數據量不可謂不大。數據的量變伴隨而來的就是對數據存儲和處理及應用方法的改變,產生了與大數據相關的各種技術及應用思想。
維克托·邁爾·舍恩伯格等(2012)在《大數據時代》中指出:“大數據是指不用隨機分析法(小樣本抽樣)這樣的捷徑,而采用所有數據的方法”。即讓數據自身說話,從大量的數據中發現“相關關系”,不再追求“因果關系”。它與局限在小數據范圍相比,使用一切數據帶來了更高的精確性,可以讓我們看到一些以前無法發現的細節,更清楚地看到樣本數據無法揭示的細節信息。但相比于小數據和精確性,大數據更強調數據完整性和混雜性。小數據使我們的視野局限在可以分析和確定方面,導致對世界的整體理解可能產生偏差和錯誤,而大數據則可以使我們從不同角度更細致地觀察和研究數據的方方面面。
大數據研究主要涉及數據存儲、管理和分析,但對于更多應用行業和領域,對大數據的發掘、分析和應用研究是其更為關注的內容。在具備大量數據的前提下,如何從這些數據中發掘出有價值的信息是數據挖掘工作的目標。面對大量甚至海量數據,針對小量數據的傳統數據分析技術存在種種局限,數據挖掘技術則可以突破這些局限,它是在已有分析方法的基礎上,不斷引入新的概念和方法,以實現信息發掘的最終目的。現在的數據發掘中有一些經典的主題和算法,如:分類、關聯分析、聚類分析、異常檢測等,這在相關的各類圖書中都有介紹(Tan等,2013)。而目前的數據挖掘研究主要集中于此類算法研究,這些方法和算法是大數據挖掘研究與行業數據和專業概念相結合的研究與應用的基礎。目前的算法研究已取得一定進展,更多的行業應用及與行業結合的具體研究方向和問題亟待拓展。將大數據的思想引入具體行業應用時,需結合行業特點、數據特點、具體應用需求,設計需要解決的問題,利用已有算法成果(必要時可能結合行業特點研究新的算法)對行業數據展開大數據的挖掘工作,并對研究結果從專業角度進行分析與解釋,從而實現與傳統方法完全不同的數據應用方法,當然也可能產生意想不到的效果。
地震前兆觀測是對與地震孕育發生相關的各種物理量/化學量展開的連續監測,是進行地震預測和其它地球科學相關研究的基礎。無論進行地震預報還是地球物理科學研究,都需要長時間觀測數據的積累作為研究基礎。進行大數據研究,更需要大量數據作支撐。就地震前兆觀測而言,大數據體現在兩個層面:一是觀測的橫向廣度方面;二是觀測的縱向深度方面。前者可以理解為觀測數據覆蓋范圍的廣闊性、觀測手段種類的多樣性;后者則可以理解為觀測數據時間跨度的長期性。因此,應該從這兩個方面來分析展開前兆觀測大數據應用研究的必要性。
首先從觀測的橫向廣度上看,目前我國在全國范圍建立了由近千個地震前兆臺站、近3000套觀測儀器組成的地震前兆觀測網絡系統(周克昌等,2013)。這些觀測手段按學科可以分為流體、形變、電磁三大學科,每個學科有多種觀測測項,而每種觀測測項又有一種到多種測項分量,最終的觀測數據是以測項分量的形式保存于數據庫中,所以最終數據用戶看到的數據類型非常之多。除觀測數據外,還有與觀測數據伴隨的各類輔助資料,如:觀測環境、場地條件、觀測背景情況、觀測儀器信息、觀測日志記錄等,也屬于廣義的觀測數據資料。另外,如果將空間對地觀測中產出的GPS、InSAR等不同數據源的觀測資料、流動觀測、地方企業臺網臺站產出的數據資料也一并考慮的話,則數據類型更加豐富多樣,數據源及數據結構也各不相同。不僅是數據類型多樣,前兆觀測數據同時也呈現多區域、多臺站、多測點、多型號觀測儀器產出數據并存的情況,這些分類及其組合使得數據呈現多屬性的特點。還有,各種觀測手段依據觀測和應用目的不同,數據產出有不同的采樣率和采樣間隔,雖然大多數觀測數據為等時間間隔的采樣,也有少數不等時間間隔的產出數據,這種特性決定了數據形式、數據結構的多樣性。此外,不同時期觀測系統的觀測數據并存,即同一種觀測測項數據,但由不同時期的觀測系統產出,在數據精度和采樣率、甚至物理量綱上都有差異,這些數據同時存在,這種情況決定了數據在某種程度上的重復性、不一致性,甚至有些時候可能導致數據的雜亂性。當將這些數據一起使用時,傳統的方法顯然無法勝任,而這種情況正是大數據挖掘技術中經常面對的數據源情況。
其次,從前兆觀測時間跨度來看,我國地震前兆觀測始于邢臺地震后,由最初的模擬觀測、人工觀測,到“九五”數字化改造后的數字觀測,再到“十五”數字地震觀測網絡項目后的網絡化觀測,其間歷經近50年的時間,積累了相當長時間跨度的觀測資料。但數字化之前的觀測資料大都為模擬或人工讀數,數據保存比較分散,雖然各省都在致力于收集這部分資料并以數據庫的方式集中管理,相較于數字化數據的數據庫集中保存方式,這部分數據的完整獲取比較困難,而且在數據量上相對于數字化數據而言非常少。前兆觀測系統自“九五”數字化改造后的數據產出,都是以數據庫方式保存管理,獲取和使用非常方便。“九五”數字化產出的數據,最早始于1998年,至今已有15年以上的數字化數據積累;“十五”以來的觀測數據資料,大都始于2007年前后,至今也有8年時間的資料量。從時間跨度上看,僅就數字化觀測以來15年時長的數據資料,對于地震預報和相關科學研究而言,初步具備了長中短期預報和相關研究的基礎;與地震資料聯合,可以提供較為充分的地震發生前、發生中和發生后各種前兆量征兆的孕育、變化過程。而由時間軸分析前兆觀測資料時,存在數據缺失不連續、儀器停測復測、觀測地點變更、觀測測項更換、數據類型格式繁雜等問題,導致觀測數據的混雜性。顯然,傳統數據分析不僅在長時段、大數據量的數據處理時存在問題,對于觀測數據隨時間變化導致的數據混雜性也不能勝任,只能利用新方法來解決這種復雜的情況,為此引入大數據研究中的處理方法勢在必行。
地震前兆觀測數據按照從產出到應用的數據流程可以分為以下兩個階段:
(1)數據生產、數據產品加工階段
這個環節對應于儀器觀測數據采集、數據匯集同步到數據庫;對數據進行的前期處理工作,如突跳等問題數據去除;數據產品的提取保存,如:提取日均值、5日均值等數據產品;數據的檢驗測試等工作。這一環節為后續數據應用提供必要的基礎和保證。
(2)數據及其產品的應用階段
數據及產品的應用又可以分為預報應用和其它地球科學研究應用。目前的應用主要為地震預報的日常分析應用,以及學科研究和其它的研究應用。在這個環節需要結合數學方法和更專業的學科方法和模型對數據作深入剖析研究,以期從中得到更多信息和啟示。
下面按照這兩個應用階段對大數據研究在其中的可能應用,作簡要討論。
3.1 數據生產加工階段的應用
(1)數據質量控制
觀測數據的質量直接決定了數據是否具有應用價值,能否產出有用信息,因此對觀測數據的質量評價、質量控制是前兆臺網中心非常重要的一項工作。目前的質量評價辦法,更多靠人工方式,存在很大主觀性。通過將大數據研究思想的引入,對更多測項、更長時段觀測數據的梳理分析與比較,可以探索更客觀的數據評價方法和實現模型。另外,通過對大數據量的分析可以確定比較突出的數據問題,明確觀測系統的改進方向。這些對于前兆觀測數據的質量評價和控制具有重要意義。
(2)觀測儀器評價
觀測數據產自觀測儀器,觀測數據中攜帶了與儀器相關的各類信息,如:觀測數據精度、分辨率等技術指標;還有儀器運行中可能會發生改變的各項參數,如:儀器時鐘精度,儀器運行穩定性等一系列對觀測儀器評價具有重要意義的參數。通過對某類儀器大量產出觀測數據的挖掘分析,可以對儀器的技術指標、整體運行效率給予客觀公正的評價。
(3)“異?!睌祿z測
這里的“異?!辈⒎侵傅卣鹎罢桩惓#侵府愑诔R幥闆r的數據。前兆觀測系統受各種各樣因素的影響,導致觀測數據出現這樣或那樣的問題,在數據應用前需要對這些問題數據進行前期處理。大數據量的應用時,問題數據的檢測靠人工方式幾乎沒有短時間完成的可能。利用大數據挖掘的方法快速批量定位問題數據,大大減少數據檢查的時間,方法成熟時,甚至可以實現數據問題的自動處理(張聰聰等,2014)。
(4)預測預警模型(在線異常報警)
利用在線數據分析技術,對儀器產出數據進行預測,并與實時產出數據比較,超過規定范圍后,發出報警信息。通過這種在線異常報警的應用,一方面對于儀器產出數據質量的控制具有至關重要的意義;另一方面,對于一些突發狀況可以起到檢測突發事件的作用,便于問題的及時發現和問題的快速解決,提高數據連續率,最終目的是提高了觀測數據的質量。
(5)偽數據檢測
對觀測數據造假,人為提高數據質量,以取得好的評比成績,這種情況在人工讀數、模擬觀測時代就存在,在數字化觀測的今天仍有發生。人為假造數據,即使造假時參考了以往產出數據,總會受人的主觀思想的影響,尤其在較大數據量造假時,會存在與儀器自然產出數據不同的模式。利用大數據的分析方法,將所有觀測時段的觀測數據進行分析,會發現某些數據存在修改的痕跡,進而將真實觀測數據與人為修改數據區別開。
3.2 數據的應用
(1)觀測數據自身規律研究
地震前兆觀測由模擬、人工觀測向數字化觀測改進后,不僅是技術上的一個飛躍,更為重要的是數據質量的飛躍,觀測數據精度和采樣率都有大幅提高,這對于觀測數據的拓展應用至關重要。高精度觀測數據有助于分辨觀測對象更為細微的變化,而高采樣率觀測數據則攜帶了更多高頻信息。高精度、高頻的觀測數據雖然攜帶了觀測對象更多細節信息,同時也攜帶了更多干擾信息,使得觀測數據的變化更加不確定,簡單分析方法已經不能滿足實際數據需求。借助于大數據的研究方法,通過定義不同模式,或者定義不同的特征量,或者采用不同的數據降維方法,去發現不同維度下觀測數據所攜帶的隱含規律和信息,是前兆觀測數據進行預報和科學研究應用的基礎。這種數據研究目前可以主要集中于:單測項觀測數據長時間觀測時自身規律的探究、不同測項間相關性(關聯規則)研究、輔助觀測與學科專業觀測之間相關性研究、同一測項不同觀測點數據之間相關性分析、不同測項同一觀測點觀測數據之間相關性研究等。
(2)觀測數據預報應用
前兆數據用于地震預報,大都以出現某類異常作為可能發生地震的依據,這里的異常大都靠人為判斷,更多借助于經驗和感覺,存在很多主觀成分。這種異常和地震對應關系的關聯程度如何,至今無人做過深入的計算和分析。長時段數字化前兆觀測數據和地震信息的積累,使得數據異常和地震的關聯性分析成為可能。對前兆數據進行多種模式提取,計算其與地震的相關關系,利用相關性更高的模式進行預報,無疑會提高預報的準確性,更為重要的是模式提取按照統一的方法,消除了人為判定的主觀性。除單測項關聯規則外,還可以任意組合前兆觀測測項進行地震的相關性分析。這項工作以人工方式展開幾乎是不可能實現的,只能依靠大數據計算的方式實現。與此對應的另一種應用,也是目前前兆數據應用中常用的方法,地震發生后再去確定或尋找之前的前兆數據異常。利用地震發生的時間,去檢測之前的前兆數據各種可能的模式,出現頻率最高的模式對于將來的地震預報更有意義。這也需要大數據量的計算和比較才能找到有意義的結果。
在利用前兆觀測進行地震預報研究的多年實踐工作中,研究人員總結了大量方法和經驗(張國民,2002),這些方法和經驗或多或少都帶有一些主觀因素,在數據資料更多、更充分的情況下是否還適用,有待去進一步檢驗。利用大數據方法去檢驗這些方法和經驗,對于地震預報工作方法的甄別和選擇具有非常重要的意義,由數據自身得到的檢驗結果比統計分析的可靠性更令人信服。
此外,還有觀測數據與余震序列關聯關系的研究等,大量的余震序列與大量的觀測時序數據,只有通過對大量數據的挖掘研究,才能發現其中有意義的規律和規則。
地震前兆觀測測項眾多,種類繁雜,跨越時間較長,產自不同技術系統,加之其它各種原因,導致目前實際的數據集比較“雜亂”。將這些數據進行聯合應用時,無論進行長時段數據分析,還是多測項之間的數據應用,傳統的數據分析方法已不能勝任。大數據的分析思路為前兆數據的應用提供了一個新的模式,利用這種新思路,結合地震前兆觀測的物理意義,從中發掘更多以前研究中尚未被認識的規律或信息,對于以前兆觀測預報地震或以前兆觀測研究其他地震物理科學問題都具有重要的意義。利用大數據的研究思想,可能會改變前兆數據傳統的研究和應用模式,無論是對于前兆數據的推廣應用,還是利用它進行科學研究,都是一次非常有益的嘗試。
維克托·邁爾·舍恩伯格,肯尼思·庫克耶著,盛楊燕,周濤譯,2012.大數據時代:生活、工作與思維的大變革.浙江:浙江人民出版社.
涂子沛,2013.大數據:正在到來的數據革命,以及它如何改變政府、商業與我們的生活.南寧:廣西師范大學出版社.
張聰聰,王秀英,2014.前兆觀測異常數據檢測方法研究.震災防御技術,9(增刊):149—158.
張國民,2002.我國地震監測預報研究的主要科學進展.地震,22(1):2—8.
周克昌,趙剛,王晨,王方建,劉高川,2013.中國地震前兆臺網觀測技術系統整合.中國地震,29(2):270—275.
McKinsey Global Institute,2011.Big data:The next frontier for innovation,competition,and productivity.http://www.mckinsey.com/insights/business_technology/big_data_the_next_ frontier_ for_innovation.
Tan Pang-Ning,Michael Steinbach,Vipin Kumar著,范明,范宏建等譯,2013.數據挖掘導論.北京:人民郵電出版社.
Discussion on the Big Data Mining Application on Earthquake Precursor Observation
Wang Xiuying1), Zhang Ling2)and Zhang Congcong1)
1)Institute of Crustal Dynamics, China Earthquake Administration, Beijing 100085, China
2)Earthquake Administration of Shandong Province, Jinan 250012, China
Application of big data mining is the hot topic nowadays. In this paper we briefly introduced the basic idea of big data research, analyzed the necessities of big data application in earthquake precursor observation, and listed some application issues which can be solved by this technology when it is used in seismic related domain. By doing this, we hope it can be promoted to the innovative applications on earthquake precursor observation data.
Big data;Earthquake precursor observation data;Implicit information;Data mining;Seismic related application
地震監測專項“前兆觀測數據信息挖掘”
2014-07-26
王秀英,女,生于1972年。博士,研究員。主要從事地震災害學及前兆觀測技術研究。E-mail:xiuyw@sohu.com