李 忠,劉海軍,余偉豪
(防災科技學院,河北 三河 065201)
基于空地觀測的地震大數據處理系統研究
李 忠,劉海軍,余偉豪
(防災科技學院,河北 三河 065201)
地震觀測數據包括地面和空間兩部分,地面地震臺站能夠監測形變、重力、地磁、電磁、地電、流體等多種學科參數,空間衛星能夠采集電離層離子密度、溫度、電磁場等多種數據,數據格式多種多樣,數據采樣頻率長短不一,屬于典型的大數據。本文分析了地震監測產生的數據特點,符合大數據的“5V”特征;給出了大數據處理的技術框架,從大數據存儲、預處理、大數據分析、知識發現以及知識應用幾個方面,分析了大數據處理的六個層次,闡述了不同層次需要的數據處理方法;從存儲管理技術、MapReduce技術模型、深度學習技術、信息融合與數據挖掘技術、可視化展示與虛擬現實技術等幾個方面探討了地震大數據處理的關鍵技術,并給出了兩例地震大數據應用場景。大數據技術應用于地震監測分析將對人類戰勝地震災害具有重要意義。
空地觀測;地震大數據;“5V”特征;地震監測;處理框架
自2012年美國提出大數據戰略以來,大數據以及大數據技術就一直受到各界的關注。以2013年為例,中國產生的數據總量超過 0.8ZB(相當于 8億TB),是 2012年所產生的數據量的 2倍,相當于2009年全球的數據總量,其中約有 80% 的數據與空間位置有關(李清泉和李德仁,2014)。盡管大數據的提出僅有短短四年時間,但發展非常快,由最初的 3V(Volume,Velocity,Variety),到 4V(Volume、Velocity、Variety、Value),再到最近的 5V(Volume、Velocity、Variety、Veracity、Value)(Aydin等,2015)。目前大數據的5V特點已經在業界形成共識。我國政府在2015年也提出發展自己的大數據技術,將其提升到國家戰略高度,國內各行業都制定了或者準備制定針對性的大數據發展規劃。
地震造成的災害損失在國際上是廣泛認可的,對人類的傷害更是難以言表,因此各國政府對地震的監測高度重視。我國是地震多發國家,地震已經給我國人民帶來了巨大的災難和心靈創傷。我國從邢臺地震后,逐步建起了覆蓋全國、重點監測重要地區的地震地面觀測網絡,目前已建造了1500多個地震臺站,每天產生的數據達到
T級體量,包括地下水、地磁、應變、應力、地震波等若干學科,具有對一個地區持續不斷地、多角度觀測特點。地震衛星監測是近年來推出的新式監測手段,能夠全天候、全時段地觀測地球變化,采集空間電磁場、電離層溫度、離子濃度等多類信息,這方面法國政府已走在了前面。中國政府將于2017年發射一顆地震電磁衛星,實現中國境內全覆蓋監測,到時衛星每天采集的地震觀測數據體量龐大,每天達到幾百個 G,涉及多個學科參數,其中包括各種數據結構、數據類型、圖形圖像、流媒體數據等形式。空間衛星觀測與地面臺站監測遙相呼應,二者的有機融合能夠更加精確地實現對地震事件的監測(吳沖龍和劉剛,2016),所采集的數據將對地震監測分析提供大量的、多參數的基礎數據信息,形成體量巨大的大數據集合。通過分析研究這些多維度、連續的數據信息,挖掘其中的未知規律知識,科學家能夠更深入地理解地震,了解震源機制,揭示地震產生的機理、地質活動規律,分析地震涉及范圍、評估災損情況等,以便對震前進行預測預警、震后應急救援等工作,最大程度地降低損失。因此地震大數據蘊含著巨大的價值,為地震行業發展提供了難得的機遇。但是,地震大數據也為數據存儲、傳輸、處理、檢索、顯示等帶來很大的困難。
大數據(Big Data)應用需要新型處理模式才能使其具有更強的決策力、洞察發現力和流程優化能力,以便適應海量、高增長率和多樣化的信息資產(李清泉和李德仁,2014;吳沖龍等,2016)。地震監測大數據主要產生于覆蓋全國的地基監測臺站和全天候觀測的空間衛星以及相關的科研和生產過程中,包括地下水、地電磁、應變、空間電磁場、空間離子濃度與溫度等多個學科數據。
從前述可以看出,地震監測主要包括地面臺站和空間衛星兩大部分。地面臺站地震網已經運行了幾十年,臺站分布密度還在不斷加密中,已經產生的數據量達到P級,而地震衛星也將產生P級的數據,因此地震監測原始數據將是非常巨大的,人類觀測已進入大數據時代(何國金等,2015)。例如,空間衛星觀測數據可能被切割為5分鐘一段的數據文件,可以將250m和1000m分辨率光譜成像數據分別保存,每天將產生極其龐大的數據文件和數據量(劉嘉寧,2014)。不僅如此,各種二級、三級數據、遙感圖像、視頻流數據、三維可視化圖形等作為成果將共享在地震系統網絡中,數據體量更是難以估計,使得地震監測數據呈現出大數據體量特征。
毋庸置疑,地震監測數據涉及若干的學科參數,地面監測的水位、溫度、地磁場信息、應力、應變、地震波的P波、S波等等,不僅如此還有監測圖形曲線資料、圖像信息等;而地震衛星觀測數據包括電離層溫度、離子密度、空間電磁場、各種波形圖形、遙感圖像等若干數據參數,種類繁多,數據采集多樣,采樣頻率不一。如果再計算上模擬監測臺站的圖形數據信息,那么地震觀測數據在存儲格式方面既有文本格式,也存在數據庫結構化數據、半結構數據,以及圖形、圖像、視頻、音頻等流媒體數據,具有復雜的多樣性特征。
從 2012年開始,IBM 提出數據的真實性(Veracity)已經作為大數據的一個特征。由于數據的噪音、缺失、不一致性、歧義等問題會導致數據的不確定性,因此大數據必然要具體真實的(IBM,2012),地震監測數據具有真實性特征。觀測數據中的噪聲永遠伴隨著真正的信息而存在,噪聲也一直是地震數據處理中的一個難題!盡管目前的科學理論和技術很發達,國內外若干學者提出各種各樣的除噪算法,旨在將噪聲從污染的信號中剔除,保留清潔的數據信息,但是即使再好的除噪算法也很難完全將噪聲消除,因此污染的數據永遠是真實存在的。因為斷電、突發事件等因素,常常導致觀測儀器不工作,從而觀測數據出現短期甚至很長一段的數據缺失,為后續的數據分析造成困難。
眾所周知,如果不出現停電、突發事故等因素,無論天基的衛星還是地基的地震臺站,地震觀測儀器一直按照設定的頻率持續不斷地產出數據。但是人類的數據處理速度遠趕不上數據獲取的速度,這必然造成大量數據信息的浪費,不能有效地從數據中提取出人們關心的知識(石強,2016)。空間衛星觀測是一個全天候、多尺度、范圍廣的持續觀測過程,在突發災害事件來臨時,必然要求數據處理的高效率,以最快的速度從海量的信息中獲取需要的資料,便于決策和安排救援任務。實時的數據處理、高效的信息解讀將是大數據面臨的最重大的科研問題。
我國地震觀測歷經四十余年歷史,積累了寶貴的數據資料,這些資料是我國地震科學研究、防震減災、應急救援等工作的重要基石。隨著我國第一顆地震觀測衛星的即將升空,地震觀測數據將極大地擴充我國地震觀測數據資料庫,將為地震研究、應急救援等提供更豐富的數據資料,其中蘊含著巨大的科研價值和社會經濟效益。隨著計算機技術的發展和人工智能技術的進步,數據分析科學將發揮重要作用,地震監測數據的價值也將越來越大。
地震監測數據包括地震前兆數據和測震數據。盡管我國的地震衛星還沒有發射,但未雨綢繆,現在就需要做好規劃和預設,因此地震監測數據也包括空間衛星觀測數據。目前我國地面地震臺站能夠監測形變、重力、地磁、電磁、地電、流體等多種參數,數據格式多種多樣,數據采樣頻率長短不一。如果再包括將來空間衛星的電離層離子密度、溫度、電磁場等多種數據,將形成體量巨大的海量數據集合,完全符合大數據的“5V”特征。
地震監測大數據處理是一個復雜的過程,按照“數據采集—存儲—預處理—入庫—數據分析—知識發現—知識應用”的步驟,一個地震大數據處理的框架如圖1所示。
從圖1可以看出,各類監測設備獲得海量的多元數據,由于數據體量巨大,在存儲階段就遇到挑戰。地震觀測數據來源于分布全國的幾千個地基臺站以及空間衛星。地震臺站的數據逐級匯聚,直到國家臺網中心,存儲在多個位置;地震衛星數據保存在地面接收站,可以看做一個獨立的大數據系統。考慮到地震數據的安全性和保密性,地震監測大數據存儲可以采用“分布-集中”模式,采用通信專網進行數據傳輸。2.1.1 分布存儲
依托地震數字專網建立云存儲系統,各站點均是一個“云結點”,逐級匯聚生成結點、匯聚節點等,直到國家臺網中心,形成一個覆蓋全國的“樹型”云存儲結構。同時建立多個二級中心結點,建設多個備份庫,分擔國家中心節點的任務和負荷,形成一個“網狀”的存儲結構。
2.1.2 集中存儲
大數據問題主要是數據處理問題。因此地震觀測數據需要體現價值,必須進行數據分析和處理。盡管分布式處理技術、云計算等能夠滿足一些需求,但目前數據處理方法對集中式存儲數據更適用。因此在國家中心、二級中心、衛星接收站進行數據的集中存儲,更利于數據處理和分析。
高質量的數據是進行知識發現的重要保證。但是傳感器采集的數據總是存在這樣那樣的問題,如噪聲、缺失、重復、不一致等問題,這就需要進行數據的預處理操作。預處理的方法主要包括數據清理、數據集成、數據歸約、數據變換等。
大數據分析技術是大數據系統的基本任務,需要對獲得的數據信息進行基本的數據操作,如統計、查詢、報表、OLAP分析、圖形可視化分析、數據特征分析等,以便為進一步的知識發現提供基本的數據特征信息。
從大數據庫中挖掘有用的知識一直是人類夢寐以求的,這也是大數據處理中最感興趣的、最重要的一環。在知識發現階段,各種現代信息處理手段都會使用到,如數據挖掘、機器學習、可信計算、并行計算、云計算等,試圖利用強大的計算機計算能力獲取隱藏在大數據背后的知識。

圖1 地震大數據系統框架Fig.1 Processing system framework of seismic big data
大數據分析最終目的是為人類服務的,地震觀測大數據處理系統將為地震預測分析、地震預警處理、應急救援、虛擬現實、場景模擬、GIS合成、知識展現等提供服務,幫助人們在地震災害來臨前、中、后全過程進行科學決策和合理安排任務,最大限度地降低損失。
我國地震衛星還沒有發射,但是未雨綢繆。借鑒我國的氣象衛星、國土資源衛星、海洋衛星(洪陽等,2016)、農業衛星等大數據系統建設情況,可以進行借鑒,我國地震衛星觀測大數據結構如圖 2所示。
在圖2中,地震大數據系統被劃分為三個層次:數據層、技術層和應用層,下層為上層提供數據與信息,在頂層是大數據的應用部分,是基于大數據提供的服務。

圖2 地震衛星大數據系統結構Fig.2 Big data system structure of the earthquake satellite
作為一個全新的研究對象,地震大數據研究剛剛起步,還有很多問題需要探討,尤其是在大數據建模方法、面向地震大數據的機器學習算法、數據挖掘技術、信息融合技術、地震大數據可視化算法、存儲與安全技術等,都需要進一步的加以研究,以提高數據處理效率。
地震大數據面臨的首要問題就是存儲,傳統的存儲方式已經無法滿足要求。云存儲是將眾多低廉的存儲設備整合成存儲資源放到云端為用戶提供存取服務,通過虛擬化技術節省了存儲空間,提高了存儲效率,實現了彈性式擴展。海量數據的增速和數據組織的不確定性需要易擴展、易管理、高靈活、低成本的云存儲系統的支持。
NoSQL數據庫是在云環境下提出的用于管理大規模數據集合的分布式、非關系型數據庫系統(Cattell R,2011;申德榮等,2013),支持結構化和半結構化數據的高并發讀寫(Mikayel等,2012),對海量數據的存儲管理和分布式并行計算具有較大優勢。NoSQL的一個關鍵特征是能在多個服務器上實現“無共享”水平縮放,復制及數據分區(Cattell R,2011),在 Web2.0環境下對海量數據進行有效的存儲管理。
MapReduce是谷歌公司提出的并發式處理海量數據的編程模型,由Map和Reduce兩個階段組成,過程如圖3所示(Gao等,2017)。當用戶提交任務后,MapReduce將輸入數據切分成若干spilt片,并將每一個spilt交給一個Map任務槽進行處理,spilt被解析成一系列鍵值對(key-value);然后每個Map任務槽調用用戶自己編寫的Map函數,產生一系列中間結果,在被用戶定義的Partition函數劃分后,傳遞給 Reduce任務槽,并利用用戶編寫的 Reduce函數輸出到文件中;當所有的Map和Reduce任務都執行完畢后,返回用戶程序(王習特等,2015)。MapReduce隱藏了分布式實現的底層細節,擁有簡單實用的特點,省去了程序員在分布式編程上的勞動代價(Dean 等,2004)。

圖3 MapReduce處理過程Fig.3 MapReduce processing
深度學習來源于人工神經網絡,是通過一定的訓練方法對樣本數據訓練,得到一個多層的深度網絡結構的機器學習模型(BENGIO等,2009),其原理是模仿人類大腦處理信息的分層結構,以期得到事物本質的特征。深度學習的多層結構更容易實現復雜函數的逼近,提高泛化能力(BENGIO等,2011)。地震大數據系統信息學科多樣,種類繁雜,數據量龐大,傳統技術幾乎不可能發現數據中內在的本質特征,難以發現其中隱含的規律知識,因此將深度學習技術應用于地震大數據系統是一種必然的選擇。歷經十余年的發展,深度學習方法已經有幾十種之多,如卷積深度學習網絡、深度置信網絡(DBN)(Hinton等,2014)、深度玻爾茲曼機等,將這些方法應用于地震大數據處理將是下一步需要深入研究的課題。
對于一個地區地震的觀測,有來自地基的臺站觀測數據,也有天基的衛星觀測信息,因此需要綜合考慮這些傳感器獲取的寶貴數據資源,這需要采用信息融合技術。數據融合是對某個事件,協同組合兩個或更多影像數據,期望獲取比單一影像資料更多的知識(Alparone等,2015)。在衛星遙感圖像融合方面,多傳感器在同一時刻的遙感圖像融合和不同成像條件下具有互補信息的遙感圖像融合都屬于合理的信息融合(張良培等,2016)。融合后的影像比單一信息源圖像更清晰、分辨率更高、視覺效果更佳。
如果說,信息融合技術從廣度對地震大數據提高精度,那么數據挖掘技術更像是從深度對地震大數據進行規律探索。天基和地基的地震觀測大數據,在語義表達、信息組織、知識發現等方面存在不同層次的數據挖掘方法,這種時空大數據也給數據挖掘技術提供了充分發揮作用的舞臺(李德仁等,2015)。因此大數據挖掘技術對于地震數據處理是非常關鍵的。
數據可視化以直觀的視覺效果和符合人類思維的方式為人們提供信息服務,這在大數據時代尤為重要。大數據體量巨大、種類多樣、不確定信息占比很多,這造成大數據系統處理效率和計算結果都不理想,人類也很難想象其中問題所在。而地震大數據可視化和虛擬現實展示技術,可以將龐大的天基和地基數據集以一種直觀的形態呈現出來,人們可以觀察其中的奧妙和問題所在,實現地震要素、地震發生過程、地震監測預報、地震產生機理等的多維、動態的可視化表示,為地震前兆預警、震后應急救援提供直觀的信息服務。
在大數據時代,建立在相關關系分析法基礎上的預測是大數據的核心,同時人們需要從傳統的決策模式過渡到數據指導決策的新模式中,在大數據持續發展的過程中,會漸漸地進化為數據即決策的行為模式(李建中等,2012)。天基-地基一體化的地震監測大數據具有監測時間長、數據多樣、實時性強等特點,在地震災害來臨時需要及時、快速地處理,以獲取災區的全面信息。
不同的觀測站和衛星獲取的信息格式不一,學科多樣,無結構化數據居多,因此需要以私有云的NoSQL技術進行處理;結果通過數字專網傳送到上級匯聚節點,經過數據清洗等預處理后,進入中心節點;結合衛星地面站處理的天基數據結果,進行模式識別和可視化分析,確定地震前兆信息狀態;最后基于 GIS系統進行引發地震前兆的精確定位。
在大數據環境下,地震工作者需要利用MapReduce技術改進有關處理算法以便進行分布式并行處理和云計算,將地基和天基的信息結合起來進行模式識別、數據挖掘、虛擬場景等研究,以便于發現地震規律性知識和地震引起的災害評估問題,提供決策支持的技術服務。
大數據時代,各行各業都面臨著數字的挑戰和機遇,地震領域也無例外:大數據既給存儲、傳輸、管理、分析處理、應用等帶來麻煩,也給地震預測預報、震后救援、精確決策等提供了可靠的信息資料。地震監測大數據系統的結構還需要不斷完善,需要在實用中進行改進和優化。利用大數據技術將地基監測數據和天基觀測數據進行有機融合和處理,對人類戰勝地震災害具有重要意義。
[1] Alparone L, Aiazzi B, Baronti S. 2015. Remote Sensing Image Fusion. Boca Raton, Florida, USA: CRC Press.
[2] BENGIO. Y. 2009. Learning deep architectures for AI.Foundations and Trends in Machine Learning, 2(1): 1-127.
[3] BENGIO Y, DELALLEAU O. 2011. On the expressive power of deep architectures// Proc of the 14th International Conference on Discovery Science. Berlin: Springer-Verlag,18-36.
[4] Cattell R. 2011. Scalable SQL and NoSQL data stores. Acm Sigmod Record, 39(4): 12-27.
[5] Dean J, Ghemawat S. 2004. MapReduce: simplified data processing on large clusters// Conference on Symposium on Opearting Systems Design & Implementation. USENIX Association, 10-10.
[6] G. Aydin, I. R. Hallac, B. Karakus. 2015. Architecture and Implementation of a Scalable Sensor Data Storage and Analysis System Using Cloud Computing and Big Data Technologies. Journal of Sensors, vol. 2015.
[7] Gao Y, Zhou Y, Zhou B. 2017. Handling Data Skew in MapReduce Cluster by Using Partition Tuning. Journal of Healthcare Engineering, 8(2): 13-18.
[8] Han B, Zhao G, Bi Y, et al. 2014. A New Method of Identifying Ground-Based Electromagnetic Anomalies-Case Study of the Sichan Lushan 7. 0 Earthquake// Dragon 3Mid Observation Satellite in Large Data Age. Journal of satellite applications, 12: 28-33.
[17] Mikayel Vardanyan. 2012. Pickinh the right No SQL Database Tool Posted. http://blog.monitis.com/index.php/2011/05/22/picking-the-right-nosql-database-tool.
[18] SHEN De-Rong, YU Ge, WANG Xi-Te. 2013. Survey on NoSQL for Manangemengt of Big Data. Journal of Software,8: 1786-1803.
[19] SHI Qiang. 2016. Remote Sensing Big Data: Research Status and Development Trends. Electronic and Electro-optical Systems, 1: 1-12.
[20] WANG Xi-Te, SHEN De-Rong, YU Ge. 2015. Research on Maximum Benefit Problem in a MapReduce Cluster.CHINESE JOURNAL OF COMPUTERS, (01): 109-121.
[21] WU ChongLong, LIU Gang, ZHANG Xialin. 2016.Discussion on geological science big data and its applications.China Sci Bull, 61: 1797-1807.
[22] ZHANG L P, SHEN H F, 2016. Progress and future of remote sensing data fusion. Journal of Remote Sensing, 20(5):1050-1061.Term Results. Dragon 3Mid Term Results.
Study on Big Data Processing System of the Seismic Monitoring Based on Space and Ground
LI Zhong, LIU Hai-jun, YU Wei-hao
(Institute of Disaster Prevention. Sanhe, Hebei province 065201, China,)
Seismic observation data include two parts of the ground and space. The ground seismic stations can monitor various parameters such as deformation, gravity, geomagnetism, magnetism, geo-electricity, fluid and so on,and the spatial satellites can collect the ion density, temperature, electromagnetic field of space ionospheric and so on. Therefore, seismic observation data belongs to big data because of the format diversity and different lengths of sampling frequency. The seismic monitoring data conforms to the "5V" feature of big data based on Based on the analysis of data characteristics. The processing technical framework of big data is given. This paper analyzes the six levels of big data processing, and expounds the data processing methods needed at different levels from several aspects of data storage, preprocessing, large data analysis, knowledge discovery and knowledge application. The key technologies of seismic big data processing are discussed from several aspects of storage management technology,MapReduce technology model, depth learning technology, information fusion and data mining technology, and visual display and virtual reality technology. Two applying scenarios of seismic big data are given. The application of big data technology in seismic monitoring and analysis will be the great significance for human beings overcome the earthquake disaster.
Observation of space and ground; Seismic big data; "5V" feature; seismic monitoring; Processing framework
中央高校基本科研業務費專項資金(No. ZY20160106);河北省科技支撐計劃項目(No.13210122)
李忠(1966-),男,教授,博士,2008年畢業于中國礦業大學地球信息科學專業,現從事地質災害評價、信息處理技術、大數據技術等研究,已發表論文80余篇;劉海軍(1979-),女,現為防災科技學院講師,主要研究領域為數字圖像處理;余偉豪(1992-),男,防災科技學院碩士研究生在讀,研究方向:數據挖掘技術。
TP701
A
10.3969/j.issn.1003-6970.2017.12.010
本文著錄格式:李忠,劉海軍,余偉豪. 基于空地觀測的地震大數據處理系統研究[J]. 軟件,2017,38(12):54-60
[9] HE GuoJin, WANG LiZhe, MA Yan. 2015. Processing of earth observation big data: Challenges and countermeasures.SCIENCE CHINA PRESS, 60(5): 470-478.
[10] Hinton G E, Osindero S, Teh Y W. 2014. A Fast Learning Algorithm for Deep Belief Nets. Neural Computation, 18(7):1527-1554.
[11] HONG Yang, HOU Xue-Yan. 2016. Construction and Application of Big Data Platform for Ocean. Journal of satellite applications, 6: 26-30.
[12] IBM. 2012. What is big data?[EB/OL]. http://www-01.ibm.com/software/data/bigdata/.
[13] LI De-Ren, MA Jun, SHAO Zhen-Feng. 2015. Study on Space-Time Big Data and Its Application. Journal of satellite applications, 9: 87-91.
[14] Li Jianzhong and Liu Xianmin, 2012. An Important Aspect of Big Data: Data Usability. Journal of Computer Research and Development, 50(6): 1147-1162.
[15] LI Qingquan, Li Deren. 2014. Big data GIS. Geomatics and Information Science of Wuhan University, 39(6): 641-644, 666.[16] LIU Jia-Ning. 2014. Development Status and Trend of Earth