龐聰, 江勇, 吳濤, 廖成旺, 馬武剛
(1.中國地震局地震研究所, 武漢 430071; 2.地震預警湖北省重點實驗室, 武漢 430071; 3.湖北省地震局, 武漢 430071)
反向傳播神經網絡(back propagation neural network,BPNN)是當前研究地震事件類型辨識頻率較高的分類方法之一,取得了明顯的應用效果[1-4];但是在實際的地震預警預報或強震動監測中,除了對辨識準確率有極高的要求,辨識算法的穩健性及算法迭代效率也相當重要。傳統的BP神經網絡采用梯度下降法作為神經元訓練函數,激活函數采用S型函數,導致神經網絡易陷入局部最優解,且預測結果極不穩健,對訓練集規模及判據維度較為敏感。此外,BP神經網絡的預測效果還會受到隱藏層數目、學習速率、最大訓練次數及初始權值等因素的影響。文獻[2-4]在使用BP神經網絡時雖然根據經驗選取網絡參數,但沒有系統地闡述各個參數的含義以及對地震辨識效果有何種具體的影響。例如,蔡杏輝等[1]直接使用經驗計算公式來確定BP神經網絡隱層神經元數目,隱層與輸出層的激活函數默認采用線性函數和logsig函數,對訓練函數采用Levenberg-Marquardt算法也未明確說明原因;劉方斌等[4]直接使用0.15作為學習速率值,隱層神經元數目定為10個,也并未給定實驗數據驗證參數選擇的合理性??紤]到BP神經網絡的結構參數特點與較高的研究熱度,詳細闡述網絡參數對地震類型識別效果的影響,對震源精準識別研究有明顯的現實意義。
信號降噪技術有助于得到更可靠的地震波形特征,借助于經驗模態分解技術(empirical mode decomposition,EMD)[5-7]具有良好的原始信號自適應分解及去噪特性,近些年已被多位學者應用到地震事件性質自動辨識中,如畢明霞等[5]利用經驗模態分解技術將地震信號與爆破信號分解成10個固有模態函數(intrinsic mode function,IMF),進而在每個分量上提取出倒譜方差、自相關函數最大值等特征值;周海軍等[6]基于EMD分解,將提取到的8個IMF分量進行梅爾頻率倒譜系數(mel-scale frequency cepstral coefficients,MFCC)特征提取,完成高斯混合模型(gaussian mixture model,GMM)地震波形識別。雖然他們都是利用EMD將原始信號分解,進而從IMF中提取必要的特征,但是選擇的判據卻有較大的差異,如何合理地利用EMD技術從地震波形數據中提取出可靠的地震事件類型判據,是本文的重要研究目標之一。
因此,現基于EMD信號分解技術在歸一化后的地震波形數據中提取出若干個IMF分量以及對應的多尺度近似熵,再利用BP神經網絡參數測試實驗討論分析訓練函數、激活函數、隱藏層數目及學習速率等網絡參數對地震類型判別效果的影響,并應用震級存在較大差異的多個天然地震事件數據和人工爆破信號測試與驗證上述方法的有效性。
經驗模態分解[5-7]是一種用于將復雜信號分解為若干個固有模態函數的數據處理方法,相比于小波變換與快速傅里葉變換(fast fourier transform,FFT),具有基函數選取自適應和自由分解信號的特點。EMD分解原始信號的步驟如下。
(1)掃描原始信號X(t)的局部極大值點和局部極小值點,形成上包絡線和下包絡線,并計算得到兩條包絡線的均值曲線,將原始信號減去這條曲線值,得到新的信號波形。
(2)固有模態函數判別條件為:①局部極小值和局部極大值的總數目要與過零點數相等或相差絕對值不大于1;②當包絡線均值為0,僅余一個趨勢分量時,分解停止。
若不滿足以上條件,返回步驟(1)中繼續計算。
(3)得到IMF分量,并判斷是否滿足EMD分解終止條件,如果終止則進入步驟(5),否則進入步驟(4)。
(4)將原始信號減去該層IMF分量作為新的原始信號返回步驟(1),重新計算包絡平均值,進而得到下一層IMF分量。
(5)共得到N層IMF分量IMFi(t)及剩余分量c(t)。原始信號經EMD成功分解后,等價為

(1)
近似熵[8-10]是一種描述時間序列數據內部復雜狀態的度量參數,計算公式為
ApEn(T,m,r)=φm(i)-φm+1(i)
(2)
式(2)中:m為嵌入維數,常取值為2;φm(i)為當嵌入維數為m時的匹配概率對數形式的平均值;最大歐氏距離匹配閾值r常設定為0.2STD,其中STD為原始信號的標準差;T為該熵的輸入信號。
對原始信號經過經驗模態分解得到的若干個IMF分量分別提取近似熵值,即得到該條信號的多尺度近似熵特征,該特征可反映信號在不同尺度下的混亂程度。
BP神經網絡[1]是一種多層神經網絡算法,在訓練過程中采用有導師監督和服從Delta規則的學習方式,其網絡結構分為輸入層、隱藏層、輸出層等三部分,在地震類型識別領域應用廣泛,具有較強的非線性映射能力及網絡參數設置靈活的特點。
為使實驗方法能有較廣泛的代表性,增強實驗結果的合理性與嚴謹性,選擇震級存在明顯差異且震中距離相對較遠的地震事件數據,實驗數據按照類型分為天然地震事件強震動加速度波形數據和人工爆破事件加速度波形數據,分別來自中國地震局工程力學研究所和中國水利水電科學研究院巖土工程研究所。
(1)2021年云南大理州漾濞縣Ms5.6級地震:該地震發生于2021年05月21日21時21分,震中位于25.63°N、99.92°E,震源深度為10 km,選取22條地震波形作為實驗數據。
(2)2008年5·12汶川Ms8.0級地震:震中位于31.0°N、103.4°E,震源深度為14 km,選取62條地震波形作為實驗數據。
(3)2013年四川蘆山Ms7.0級地震:發生于04月20日08時02分,震中位于30.3°N、103.0°E,震源深度13 km,選取15條波形作為實驗數據。
(4)2021年青?,敹郙s7.4級地震:該震發生于05月22日02時04分,震中位于34.59°N、98.34°E,震源深度為17 km,選取40條波形作為實驗數據。
(5)人工爆破事件:事件發生于中國水利水電科學研究院巖土工程研究所試驗場,采用1.58倍TNT當量的RDX球型炸藥,主要由PCB-350B01型加速度傳感器負責記錄振動數據,采用39條波形作為實驗數據。
上述數據共178條加速度波形記錄,其中天然地震記錄139條,人工爆破記錄39條。截取固定長度的波形作歸一化處理,將信號幅值限定在[-1,1]內,并在上述4個天然地震事件和人工爆破事件中,各取一條歸一化振幅信號繪制成圖1。
影響BP神經網絡識別效果的因素主要為神經網絡輸出層激活函數、隱層激活函數、訓練函數、隱層節點數與學習速率等,其中激活函數類型選用常見的4種,即線性函數purelin、雙曲正切S型函數tansig、對數S型函數logsig和elliot2sig函數,網絡訓練函數選定為梯度下降算法、自適應動量GD、RPROP、共軛梯度法、牛頓法(BFGS)、Levenberg-Marquardt 6種,隱層神經元數目選定為分布在區間[20,2 000]內的1 000個整數值,區間值為20,學習速率選擇為[0.01,1]內的100個值,變化步長為0.01。

圖1 天然地震與人工爆破信號Fig.1 Natural earthquake and artificial blasting signal
在178個樣本組成的原始數據集中,將訓練樣本個數設定為100,測試樣本數為78,循環進行100次子實驗,均為計算機隨機抽取樣本,實驗結果利用識別準確率、辨識速度及均方誤差(MSE)評價。
EMD分解實驗主要參數為:IMF提取個數為6,篩選迭代最大次數為100,柯西收斂閾值為0.2,殘差信號極值最大個數為1。原始信號經過數據歸一化、EMD分解、多尺度近似熵計算得到的神經網絡輸入數據為178×7矩陣,部分結果(IMF1~IMF3)如圖2所示。
由圖2可知,天然地震信號(樣本號1~139)與人工爆破信號(樣本號140~178)存在明顯的熵值變化差異:在樣本號1~139區間,天然地震信號的IMF1近似熵值變化最為突出,有14個點的熵值大于1,局部接近于1.8,毛刺現象嚴重,極差超過1.5以上;在樣本號139與140附近,IMF1~IMF3的近似熵值發生顯著減小跡象;而樣本號140~178區間內的熵值維持相對平穩變化,畸變點較少且增幅不大,該區域的近似熵極差在0.3以下。以上分析表明人工爆信號特征具有較強的相似性,也證明天然地震信號的復雜性遠遠超過了人工爆破事件。

圖2 EMD近似熵結果Fig.2 Approximate entropy of EMD decomposition result
激活函數又叫傳遞函數,是模擬生物神經元輸入與輸出的關系模型,由于激活函數常常為非線性函數,可以增強神經網絡的非線性學習能力,處理較為復雜的非線性問題。激活函數如若設置不當,可能造成梯度消失、收斂不穩健、梯度爆炸或神經元“死亡”等現象[11],恰當地選擇或改進神經網絡激活函數,是當前神經網絡發展的熱點方向,也是改善地震事件屬性辨識效果的有效途徑。
常見的激活函數可分為線性函數與非線性函數,也可分為閾值型、Sigmoid型、分段線性函數等類型,常見激活函數如圖3所示。一般來說,神經網絡的輸出值分布會與輸入樣本標簽值區間保持一致,并散落在實際標簽值的附近,呈現為小數型,相對應的輸出層激活函數必須采用線性函數。
常見激活函數具體定義如下。
(1)對數S型函數(logsig):輸入值可為任意數值,輸出值范圍為(0,1),是ANN領域應用最為普遍的激活函數,即

(3)
式(3)中:α為斜率參數或者壓縮系數,常取值為1;σ′(x)=σ(x)[1-σ(x)]。當α趨向于無窮大時,該激活函數可近似為閾值函數,但是與閾值函數最大的不同之處在于,S型函數是連續可微的。
(2)線性函數(purelin):其輸入值可設置成任意數值,輸出值也可為任意數值,是輸出層的常用傳遞函數,即

圖3 神經網絡常見激活函數Fig.3 Common activation functions of neural networks
f(x)=x
(4)
(3)雙曲正切S型函數(tansig):又名雙極S型函數,其輸入可為任意數值,輸出值范圍為(-1,1),其數學形式為

(5)
當隱層神經元數為10、訓練函數為梯度下降算法時,不同激活函數組合下的100次辨識效果統計結果如表1所示,評價指標采用準確率(Accuracy)、辨識速度(Speed)與均方誤差(mean square error,MSE)的均值表示。就辨識準確率而言,Accuracy較高的隱層-輸出層激活函數組合為tansig-purelin、purelin-elliot2sig、tansig-tansig,分別為92.435 9%、91.923 1%、91.025 6%,各組合Accuracy極差達到18%以上,且當輸出層激勵為logsig時,識別效果均不理想,皆小于76%,該函數不適宜作為輸出層激勵;在辨識速度方面,效果較理想的隱層-輸出層激活函數組合為tansig-purelin、logsig-purelin、purelin-purelin,其值分別為1.199 6、1.220 7、1.237 1 s,各個組合的Speed差距不大,主要分布在1.2~1.3;辨識結果較穩健的隱層-輸出層激活函數組合為tansig-tansig、purelin-elliot2sig、elliot2sig-tansig,分別為0.075 6、0.076 8、0.082 9,以閾值0.1為穩健度衡量界值,輸出激勵采用tansig的各類組合整體辨識效果更加穩健,3/4組合皆在0.1以下。
訓練函數又稱學習函數[12],是神經網絡算法計算中的關鍵部分,旨在BP神經網絡的輸入矩陣、輸出期望基礎上,計算并修改網絡的權值與閾值,滿足網絡收斂條件后,實現預測目標。常見的訓練函數包括:①Levenberg-Marquardt(LM算法):其利用雅可比矩陣替換H矩陣,極大提高了收斂速度,但內存消耗較大,用于中型網絡預測;②梯度下降算法(GD):收斂速度較快,無需設置學習率:BP神經網絡默認訓練函數,迭代速度較慢,易陷入局部最小值;③自適應動量梯度下降算法(AdaDeltaGD):迭代速度較快,無需設置學習率;④彈性反向傳播算法(RPROP):其利用Resilient更新值直接修改權重和閾值,避免了偏導數數值變化對網絡權值的不利影響,內存消耗較?。虎莨曹椞荻确ǎ簩儆谑諗克俣扰c內存消耗較均衡的方法,計算速度優于標準梯度下降法;⑥BFGS算法:屬于Newton法一種,迭代較依賴Hessian矩陣,運算量相對于共軛梯度算法較大,適合小型網絡預測。
表2為輸出激勵采用purelin、隱層神經元數為10時,不同訓練函數下循環100次的辨識統計性結果。由表2可知,訓練函數設置對辨識效果有顯著影響:采用不同訓練函數時的分類準確率排名(以隱層激勵采用logsig為例)為:共軛梯度法> RPROP >LM>BFGS>梯度下降法>AdaDeltaGD;辨識速度較快的訓練函數-隱層激勵組合為LM-purelin、RPROP-purelin、RPROP-tansig;除隱層激勵采用purelin函數的組合外,其他組合的辨識誤差MSE皆在0.12以下,地震辨識過程較穩健,表明purelin函數不適宜作為BP神經網絡隱層激勵使用;綜合考慮3種指標,不論隱層激勵采用何種函數,訓練函數采用共軛梯度法的組合識別效果明顯優于其他大多數實驗組合,其識別率基本穩定在95%以上(除隱層激勵采用purelin外,該項為89.294 9%),辨識速度在0.3 s左右,MSE數值也較小,全方位指標都優于BP神經網絡默認訓練函數——梯度下降法的辨識效果。

表1 不同激活函數組合下的分類識別效果Table 1 The result of recognition under different combinations of activation functions

表2 不同訓練函數下的分類識別效果Table 2 The result of recognition under different training functions
隱藏層節點數[13]與神經網絡訓練時間和預測精度息息相關,過大的隱層節點數會增加網絡訓練時間,可能出現過擬合(over-fitting)現象,從而影響預測精度[圖4(a)],而過小節點數雖然辨識速度較快,但會使得隱藏層網絡汲取的關鍵信息過少,網絡訓練量可能大大降低。
學習速率[14]與神經網絡學習訓練中的權值變化息息相關,過小的學習速率可能導致網絡訓練時間過長,收斂速度極慢,過大的學習速率可能導致網絡訓練過程不穩定。學習速率的設定既要保證神經網絡的誤差能最終趨向于最小誤差值,訓練過程穩定,也要保證具有較快的收斂速度[圖4(b)]。
圖4(a)為隱層神經元數目對辨識準確率和辨識速度的影響曲線,橫坐標變化步長為20;圖4(b)為學習速率對辨識準確率和辨識速度的影響曲線圖,橫軸變化步長為0.01 s。由圖4中擬合曲線可知,隨著隱層神經元數目逐漸增加(20→2 000),辨識準確率逐漸下降至60%左右,辨識耗時隨之遞增至1.6 s以上;隨學習速率的增加(0.01→1),辨識準確率變化較平穩,耗時卻從2.2 s左右突降至0.6 s附近并逐漸減小至0.28 s上下的相對穩定水平。

表3 辨識率較高的前6種組合結果Table 3 The result of recognition under different combinations of activation functions
由表1~表3及圖4可知,本文影響因素試驗共設計了40個影響因素組合子實驗,在這40組子實驗中,識別率整體存在較大差異,識別率最高相差幅度接近23%,最高值超過97%,最低值為74%左右。如表3所示,辨識準確率較高的前6位組合中,輸出層激勵函數皆為線性函數purelin,隱藏層激勵函數為對數S型函數或者正切S型函數,識別率較高時采用的神經網絡訓練函數類型較為廣泛,如BFGS、Levenberg-Marquardt、共軛梯度法及RPROP法等。地震類型辨識實驗的最佳參數組合結果為:隱層激勵采用對數S型函數,輸出激勵采用一元一次線性函數,訓練函數為共軛梯度法(Powell-Beal復位算法),隱層神經元數為10,學習速率為0.01。在其他影響因素中,學習速率對辨識精度的影響可忽略,隱層神經元數目的選取需要控制在較小范圍內,不超過50。
在BPNN識別地震類型影響因素分析實驗中,5種影響因素——隱層激勵函數、輸出層激勵函數、訓練函數、隱層神經元數、學習速率等均對地震事件類型辨識產生了一定影響。其中,組合方式為logsig-purelin-共軛梯度法(隱層神經元為10,學習率為0.01)的辨識效果最佳;隱層激勵函數采用tansig、輸出激勵采用purelin時的各個組合方案辨識效果最穩定,均在90%以上;隱層神經元數應當取較小值,學習速率可隨機設置為(0,1)中任意數值。
文中提出了將EMD技術與近似熵相結合的地震類型識別新判據—EMD多尺度近似熵,設計的BP神經網絡識別地震參數影響實驗,有助于提高天然地震與人工爆破事件的辨識準確率及識別速度,減小地震監測系統誤觸發率。下一步研究工作的重點將引入ReLU和ArcReLU激活函數,或應用群體智能算法優化現有激活/訓練函數的超參數,進一步提高應用神經網絡識別地震類型的性能。