范曉易 王夫運 鄢兆倫 李婷婷 周康雅 王 麗
1 江蘇省地震局,南京市衛崗3號,210014
2 中國地震局地球物理勘探中心,鄭州市文化路75號,450002
地震信號識別是判定地震類型的首要工作。近年來,地震信號自動識別問題多集中在天然地震與人工爆破的識別上,主要從信號時頻分析、震相和波形特征等角度展開研究[1-3],基于大量數據的經驗總結,可以實現較好的地震信號分類效果。然而我國東部經濟發達地區不僅地震偏少、震級偏小,而且存在人工爆破、塌陷等干擾,在樣本量較小的情況下,需要進一步研究有效的地震識別方法,力求解決其他方法存在的樣本庫過大和局部地區樣本不足的問題,提高地震監測、震后應急與地震科學研究的效率。本文給出支持向量機方法應用于小樣本識別領域的原理,并通過實驗進一步驗證其在不同樣本量下對地震信號分類識別的效果。
支持向量機在解決非線性、小樣本、高維模式識別問題上有極大的優勢[4]。其分類思想是提取樣本特征并以向量形式表達,把樣本的識別問題轉化為向量空間中點的分類問題。如圖1所示,以二分類為例,在高維空間里建立起兩個相互平行的最大間隔超平面,把兩類點區分開。
本文所研究的地震信號包括人工爆破、天然地震與塌陷3 類,同二分類相類似,當擴展到多分類的情形時,對由訓練樣本建立的相應特征向量,劃定分類超平面,為測試樣本的分類判斷提供依據。分類超平面間的距離或差距越大,分類器的總誤差越小[5]。
為便于理解,對每個地震信號樣本取3個特征組成特征向量,即在三維特征空間中,每一個點代表一個樣本。如圖2(a)所示,選擇合適的訓練樣本能夠呈現較好的聚類效果。圖2(b)訓練樣本量過少,容易造成類間距離小于類別內部距離進而得到錯誤結果。圖2(c)在圖2(a)的基礎上繼續增加樣本量,特征典型的訓練樣本增多,逐漸充滿類別內部空間;同時特征不典型的訓練樣本也增多,造成類間距離縮短,分類器的總誤差變大。圖2(d)訓練樣本量過多,積累了一定的特征不典型訓練樣本后,類間距離縮短甚至消失,聚類失敗,無法獲得分類器。
由上文分析可知,支持向量機方法的分類效果與分類超平面間的距離直接相關,也就是取決于類別邊緣點和類別內部點的距離關系,并不依賴于大量訓練樣本的加入。加入過多的樣本僅增加了類別內部的數據冗余,甚至會造成類間界限不清晰甚至消失。因此理論上支持向量機方法能夠在小樣本條件下實現分類。
由上文可知,支持向量機分類方法本質上是提取特征向量,在高維空間對向量進行分類。當識別地震信號時,可使用小波分解產生的小波系數作為特征向量。如表1所示,同一類型信號的香農熵特征值接近,容易使用數學手段在向量空間中區分。
本文使用山東和江蘇地區2006~2017年地震事件的近臺波形記錄數據,兩地整體地震活動水平不高,就波形質量而言,山東地區略優。數據的選取充分考慮了地區環境、監測能力、數據記錄質量等因素的影響,為更好地驗證本文方法對小樣本的支持程度,并未嚴格限制事件的震級和信噪比,以期真實全面地反映臺網的常見記錄。最終選取450個數據,每類事件數據各150個,隨機選取其中50個數據作為測試樣本。

表1 部分樣本的香農熵特征值
根據文獻[6]可知,影響最終分類效果的因素主要有信號窗長度、小波分解方式、小波基類型、向量機算法類型、向量機核函數類型等。取識別率最高的3種最佳參數組合,設計3組實驗,訓練樣本數120個(每種地震事件各40個),測試樣本數150個(每種地震事件各50個),結果如表2所示。
為驗證訓練樣本數量對識別率的影響,使用識別率最高的參數組合1繼續設計樣本數量實驗。測試樣本均保持150個不變,以組1的訓練樣本數120個為基準,增加或減少訓練樣本數量,實驗設計及結果如表3所示。
從表3可以看出,隨著樣本量的增加,3類地震信號的識別率同步出現先升高再降低的現象,與理論分類效果一致。總訓練樣本為90個時,實驗組8實現了最好的分類效果。樣本量過少造成未能有效獲取分類超平面,因此識別率也降低(組9、組10);隨著樣本量的繼續增多,識別率略有下降,反映出一定的數據冗余和分類超平面間距的減小(組1、組4、組5);而過多的樣本量則使得對樣本過度學習,無法建立準確的分類超平面,導致識別率陡降(組6、組7)。由于本次研究側重于支持向量機方法對小樣本的支持程度,數據選取真實全面地反映了臺網的常見事件記錄,因此本文最終識別效果相較于前期研究中使用高信噪比數據的結果有所降低[6]。

表2 不同參數組合的分類識別結果

表3 不同訓練樣本量的實驗結果
本文研究支持向量機分類算法識別小樣本地震信號的可行性。使用山東和江蘇地區的實際數據開展實驗,在未篩選震級和信噪比的情況下,僅需每類事件(地震、爆破、塌陷)30個訓練樣本即可達到85%左右的正確識別率,充分證明了支持向量機方法在小樣本識別領域的可靠性。
本方法的識別率不依賴于對大量訓練樣本的學習,在保證一定的訓練樣本建立分類超平面的基礎上,過多的訓練樣本反而會降低識別率。此外,支持向量機分類算法通過引入核函數解決復雜的非線性化問題,可避免非線性化導致算法出現局部極值以及其他機器學習方法中的局部極小化問題,訓練結果具有穩定性和可靠性。因此,本方法適用于在地震數據樣本量少的地區進行地震信號識別,對于地震數據充足的地區,也可以精簡樣本庫、提高識別效率、降低運行成本。相較于普遍需要大量數據經驗的其他機器學習方法,本方法在小樣本識別領域表現出了一定的優越性。