王圓圓, 孫可可
(防災科技學院 應急管理學院, 河北 三河 065201 )
地震前兆現象主要分為宏觀現象和微觀現象。本文主要分析地震前兆現象中的微觀現象,例如逸出氣氡、氣壓等。地震臺站檢測到的地震前兆數據在不間斷且不規律的波動中會蘊藏著動態演化和信號變化[1]。地震前兆數據具有在結構上的復雜性、前兆觀測方法的不固定性、數據位精度的可變性、數據采樣率的不一致性、數據源的多樣性等特點。地震前兆數據變化規律有長期、中期、短期變化[2]。通常用逐級降采樣率取年、季度、月、周、日、小時、分鐘、秒的平均值進行數據分析。正是由于這些大量高采樣率的觀測數值和與其協作的分析人員逐天逐臺的采集和處理模式,傳統的處理模式和計算方法己經很難在海量的觀測數據中迅速自動定位精確位置,這也制約了人類研究地震前兆數據的進展[3]。未來,在保證數據完整性的前提下,面對海量的地震前兆數據,利用機器學習進行地震前兆數據分析是一個至關重要的研究方向[4]。如果人類通過數據分析掌握了地震前兆數據變化規律,會對我們的研究帶來莫大的幫助[5]。
長短期記憶(long short-term memory,LSTM)模型由不同的記憶單元組成,例如單元狀態(cell state)和通過“門”(gate),其中通過“門”又分為3類[6],分別是:遺忘門(forget gate)、輸入門(input gate)、輸出門(output gate)[7]。LSTM的通過“門”(gate)發揮增加或刪除信息的功能,對應著模型中的記憶或遺忘的功能。“門”是一種將抽象具體化的結構,進行信息過濾,且由一個點乘和一個sigmoid函數構成。sigmoid函數的輸出值域區間為[0,1],1代表全部通過,0表示直接全部丟掉。3個這樣的門組成一個LSTM單元。LSTM記憶單元總圖如圖1所示。對此擬做研究分述如下。
(1)遺忘門。遺忘門的sigmoid函數的輸入值是上一單元的輸出ht-1和本單元的輸入xt數據,再為ct-1中的每一項產生一個在[0,1]內的值。通過這種方式來控制上一個單元狀態被遺忘的程度[8]。主要函數如下:

圖1 LSTM記憶單元總圖
ft=σ(Wf*[ht-1,xt]+bf),
(1)

(2)
it=σ(Wi·[ht-1,xt+bi]),
(3)
(4)
(3)輸出門。輸出門用來控制當前的單元狀態有多少被過濾掉。先將單元狀態激活,輸出門為其中每一項產生一個在[0,1]內的值,控制單元狀態被過濾的程度[10]。主要公式如下:
ot=σ(Wo[ht-1,xt]+bo),
(5)
ht=ot*tanh(Ct).
(6)
(4)單元狀態(cell state)。這是LSTM的關鍵,即用圖1上半部分的水平直線來表示,可以將數據從上一個單元傳輸到下一個單元,就象一條數據傳送帶一樣貫穿在整個結構中,在傳輸數據的同時只會有很少的線性相互作用[11]。單元狀態局部圖如圖2所示。
由于數據是精確到秒的檢測值,據統計分析可知,一個月的分鐘數據會達到三十萬。而在龐大的數據量中,卻會因為檢測儀器故障、自然環境、人為因素等作用導致監測結果中存在缺失值。為了保證提取數據的完整性和預測結果的準確性,就要對缺失值進行處理。在本次研究中,則將缺失值補齊,再進行數據分析。對此可做分析論述如下。

圖2 LSTM單元狀態圖
缺失值處理方法有3種,分別是:數據補差、刪除記錄和不處理。本次研究中,采用補差記錄的方法。原始數據中的缺失數據,采用補差法,用其周圍的數據進行補差。
由于個別數據會影響正常數據,不進行數據規范化會影響數據分析結果的準確性。本文采用Z-score方法進行數據規范化,因為Z-score的數據分布情況是正態分布(N(0,1)),并且正態分布又被稱為零-均值規范化。Z-score公式可表示為:
(7)
其中,x是原始數據,z是規范后的數據[12]。
研究可知,mu是均值,signma是標準差,Z-score的分布如圖3所示。
本實驗中取2005~2009年山西省臨汾地震觀測站第三個測項的氣壓值,全球精確坐標度為(36.073*N,111.505*E)、海拔為443.31 m的數據。和2008~2013年地震研究所測點為白浮的逸出氣氡值,精確位置度為(40.184*N,116.234*E)、海拔為45 m的數據。
分析不同的降采樣方法對氣壓值數據擬合結果的影響。根據4種最大值、最小值、均值、中位數不同的降采樣方法得出的采樣率為3天時的氣壓值的數據擬合結果圖和誤差結果圖,詳見圖4~圖7。
分析圖4~圖7可知,當降采樣方法為最大值時,RMSE=160.956 3、最小值時,RMSE=224.664 1、平均值時,RMSE=9.522、中值時,RMSE=12.390 9。通過比較4種降采樣的數據擬合結果圖和誤差值RMSE,選出誤差最小的情況為平均值法。

圖3 Z-scores分布圖

圖4 MAX 氣壓數據擬合圖

圖5 MIN 氣壓數據擬合圖

圖6 MEAN 氣壓數據擬合圖

圖7 MEDIAN 氣壓數據擬合圖
綜前所述可知,在數據分析過程中,首先對數據進行預處理。預處理分為兩步,分別是:缺失值處理,采用補差法;降采樣處理,有最大值、最小值、平均值、中位數四種方法。然后,給出了具體的實驗步驟,即:選出誤差值最小的降采樣方法,并用不同的采樣率運行,再選出誤差最小和數據擬合最優的情況。最后,得出數據預測結果。經過上述的實驗步驟得出如下結論:2005~2009年山西省臨汾地震觀測站,全球精確坐標度為(36.073*N,111.505*E)、海拔為443.31 m的最優情況是采用平均值降采樣方法,采樣率為3天的情況下得到的誤差值最小,數據擬合結果最優。