龐 聰,江 勇,廖成旺,吳 濤,丁 煒,王 磊
(1.中國地震局地震研究所 中國地震局地震大地測量重點實驗室,湖北 武漢 430071;2.湖北省地震局地震預警湖北省重點實驗室,湖北 武漢 430071)
強震儀是指由加速度計、數據記錄器、對時系統、存儲系統等組成的地球物理觀測儀器,在建筑物震害分析、結構模態分析、結構損傷識別、常規譜分析中應用較廣(王雷等,2011;宋金龍,2012;榮立爽,2008;趙懷山等,2017;周綺鳳等,2012;王文才等,2018)。但是,強震儀在各類監測場地(野外監測臺網、超高層建筑物、水電站、大壩、核電站等)布設后常常遇到高頻低能量、寬頻帶大能量等振動特征相差較大的噪聲,這些含噪強震動記錄如果不加以處理與識別,易造成地震事件錯誤收集、預警事件誤觸發等異常情況。因此,基于強震動監測數據的抗干擾或防誤觸技術研究開始受到相關研究人員的重視。傳統的強震儀系統抗干擾技術多以儀器失真校正技術、信號負反饋技術、觸發控制技術等基于內干擾源的抗干擾技術為主,以區分電磁干擾信號、溫變信號、誤觸操作等,技術主要應用在儀器硬件結構內部,且研究應用難度較大。例如,趙松年等(1987)設計幅度特征—窗口比較器觸發電路,減小強震儀誤觸與漏觸概率,提高觸發器的抗干擾能力。于海英等(2006)對未校正記錄做低通濾波后運用近似理想微分器做兩次微分得到校正加速度記錄,以校正儀器響應失真。傳統強震儀抗干擾技術較多集中在內部信號干擾、誤操作等領域,研究較為豐富,而專門針對外環境激勵源的抗干擾研究較少,這也給強震儀在防災減災領域的應用推廣造成了較大阻礙。
隨著計算機技術和人工智能科學的發展,基于分類、決策的機器學習方法越來越受到各行各業專家學者的重視,同時一些學者嘗試將該機器學習方法應用于強震儀外環境干擾源(風致振動、機械施工、起重機工作、人為走動等激勵)抗干擾技術研究,但是仍處于研究的起步階段。比如江汶鄉等(2015a,2015b)基于決策樹原理設計強震動單陣抗干擾算法,通過提取強震動記錄和干擾記錄觸發事件后3s內數據的多個特征值建立決策樹學習樣本數據集,有效區分出地震動振動源與其它干擾源。趙剛等(2017)基于AdaBoost集成學習方法和BP神經網絡對天然地震動事件和人工爆破事件進行波形特征識別,結果表明集成學習方法識別效率較高,不易過擬合。雖然基于決策樹的強震儀抗干擾技術解決了強震儀在外干擾源環境下的抗干擾辦法,但是采用的決策樹方法存在過擬合、分類不準確的缺陷;基于集成學習的adaboost學習算法克服了決策樹的部分缺點,是一個效果較好的特征識別方法。
本文采用機器學習中的AdaBoost集成學習方法以克服決策樹的上述缺點,設計一種針對外干擾源的強震動數據抗干擾算法,有效區分天然地震動事件與人工干擾事件,以提高強震監測時的抗干擾水平,推動強震觀測系統的智能化和自動化,對防震減災工程技術的發展和應用具有一定意義。
決策樹(decision tree)是一類常見的、較為簡單的機器學習方法,其目的是根據損失函數最小化的原則產生一棵泛化能力強,即處理未見示例能力強的決策樹(龐聰等,2019;趙剛等,2017)。決策樹按照分支時的屬性選擇方法不同可分為ID3、CART、C4.5等類型。ID3決策樹基于信息增益量(Information Gain)進行屬性選擇;C4.5決策樹從ID3法發展而來,依靠信息增益率進行屬性選擇;CART決策樹又叫分類回歸樹,利用GINI指數增益作為屬性選擇依據。本文采用CART法。因為決策樹方法具有計算速度較快、分類規則易理解等特點,一些研究人員將其大量應用于地震預警、震后損失評估、地質災害評價等諸多防震減災領域。決策樹在處理大樣本數據時存在易過擬合、分類準確度不高等問題,易過擬合的問題采取剪枝的方式對決策樹進行處理。按照剪枝操作出現的時間順序不同,分為預剪枝(Pre-Pruning)和后剪枝(Post-Pruning):預剪枝發生在決策樹算法過程中,后剪枝則出現在決策樹算法執行完畢以后。由于預剪枝一定概率上會導致決策樹生長過早停止,而后剪枝操作較為麻煩,采用機器學習中的集成學習方法以解決決策樹存在的各種問題,集成學習方法是指利用多個單一的機器學習方法(弱學習器)實現某一個強學習任務的方法,其在數據挖掘和機器學習領域應用較為廣泛。
AdaBoost(Adaptive Boosting)算法由Yoav Freund和Robert Schapire于1995年提出,作為一種同質集成學習方法(同質集成方法是指每一個子學習器都屬于同一類,例如CART決策樹、人工神經網絡等機器學習算法),其基本思想為:通過構建多個弱學習器,根據前一個學習期的錯誤率更新下一個訓練樣本的權重,直至滿足指定最高錯誤率或最大迭代次數等限制條件,從而形成一個強學習器(Guo H,2016;Spenger M,2017)。AdaBoost算法的一般數學計算過程如下:
(1)初始化樣本訓練數據集:設定原始訓練數據集為T={(x11,x12,…,x1n),(x21,x22,…,x2n),…,(xN1,xN2,…,xNn)},設定每一個訓練樣本在算法開始時都被賦予相同的權值ω1i,即ω1i=1/N;權值向量D1=(ω11,ω12,…,…,ω1i,…,ω1N),其中,i=1,2,…,N。

(3)更新訓練集的權值分布向量:Dm=(ωm+1,1,ωm+1,2,…,ωm+1,i,…,ωm+1,N);

近些年來,強震儀在防災減災的諸多領域得到大量應用,如超高層建筑物結構健康監測、大跨度橋梁振動監測、水電站結構損傷識別、重要建筑安全防護及地震預警等(江汶鄉等,2015b;榮立爽,2008;宋金龍,2012;趙懷山等,2017;周綺鳳等,2012),并在實際監測中容易受到風致振動、列車高速行駛、采礦爆破、夯實機工作、外部電磁干擾、人為跑跳等諸多干擾激勵(如表1),不同干擾類型的強震動記錄波形特征或數據統計特征差異性較大。因此,利用波形特征和數據統計特征進行正常地震動事件與異常干擾事件的辨別是可行的。

表1 強震儀常見外界激勵
部分學者在此基礎上提出或應用以下一系列強震儀數據特征參量(如表2):記錄持時、波形對稱度、卓越頻率、波形稀疏度、波形集中度、波形峰值總數、相鄰最高增速等特征參量進行強震儀抗干擾技術的研究(江汶鄉等2015b;龐聰等,2020)。這些參量主要從基于加速度波形特征的角度提出,對強震儀在外界環境激勵下的振動特征描述較為全面,但是仍存在計算量過大、實際應用時參量過多等問題。根據應用較便捷、特征描述準確的原則,對上述特征參量進行簡化處理,選擇部分參量作為研究基礎。

表2 強震動加速度記錄數據振動特征表(龐聰等,2020)
表2中,持時(end)表示振動事件的有效持續時間,不同振動事件的時長判斷閾值為3.0 s,持時在此閾值內的事件記為環境干擾事件,持時判斷方法為Allen零交法(于海英等,2009;趙懷山等,2017),且事件在閾值內結束end記作1,否則記為0;對稱性(sym)表示振動波形的對稱特性,利用天然地震動波形的對稱特性可以用來區分天然地震和部分異常振動,其公式為:sym=ssmall/sbig,其中ssmall和sbig分別表示波形在直線y=0上、下兩側面積中較小的面積和較大的面積;卓越頻率(ZY)屬于加速度的頻域特征,即快速傅里葉變換中幅值最高成分對應的頻率,其能有效區分復雜振動事件和地震的區別,ZY在文中的閾值區間設定為[0.5,100] Hz;波形稀疏度(sparse)屬于波形特征范疇,表示在峰值分布直方圖中峰值數為零的直方數在全部直方數中的占比程度,其中直方圖的組數一般設為20,組距基于加速度記錄的統計學極差來確定,組距=極差/組數;波形集中度(pration)表示在峰值分布直方圖中最高頻度直方峰值數在波形圖全部峰值數(ptotal)中的占比程度;最大增長速度(MaxSpeed)為相鄰采樣點的幅值增加最大值與采樣率之比,可作為幅值變化較小的振動干擾事件與幅值突變型振動事件的鑒別特征,例如爆破事件與人類活動干擾事件,其計算公式為:MaxSpeed=MaxGrow/sprate。
強震儀系統抗干擾算法本質上屬于一種學習、推薦行為,其在算法框架上屬于AdaBoost法,算法計算核心是決策樹算法。強震儀抗干擾算法在進入主要計算階段之前必須采用一定的數據預處理手段進行異常點剔除、基線校正、濾波處理,然后進行相應地初始化操作,設定弱分類器個數(迭代次數);經過k次訓練集權值分布的循環迭代,持續降低分類錯誤率,得到最終的強分類器,從而提高干擾信號的識別精度(算法流程圖如圖1)。

圖1 強震動數據抗干擾算法流程
本次實驗采用國家強震動臺網中心(www.csmnc.net)和中國地震局工程力學研究所的天然強震動記錄與人工干擾數據來測試本文提出的方法。天然地震動記錄包括:汶川地震、蘆山地震、集集地震等,人工干擾記錄包括:采石爆破、儀器電磁干擾、重型機械作業、列車行駛等。為了充分了解AdaBoost方法的優勢,將決策樹算法的數據抗干擾結果與AdaBoost方法進行對比,并按照實際訓練樣本占比10%、20%、40%、60%、80%,對兩者的算法抗干擾準確率進行對比分析。
基于單純決策樹原理的強震動數據抗干擾算法識別結果如表3所示,其中決策樹方法的分支類型為CART。決策樹方法的抗干擾結果準確率總體與實際訓練樣本量的比例呈正相關:隨著訓練比例的增大,識別錯誤數有所減小,識別準確率逐漸提高,最終接近98%。但是,當訓練樣本比例低于40%時,識別準確性不太理想,小于90%,這也符合決策樹算法易過擬合的特點。因此,基于單純決策樹的強震動數據抗干擾方法識別效果基本取決于決策樹算法的關鍵參數,對實際樣本訓練比例較為敏感。在針對超大數據量的應用環境中,算法性能較差,應用價值值得商榷。

表3 基于決策樹原理的強震動數據抗干擾算法識別結果
由圖2,該決策樹將ZY(卓越頻率)、Sym(波形對稱性)、End(事件結束否)等3個參數作為決策特征參數,并沒有將最大增長速度最大增長速度(speed)與峰值數(ptotal)等參量作為決策特征參數,是因為某些大地震的瞬時速度增長與人工爆破等事件的結果相近,同時天然地震動的波形早期特征與人工事件可能相似,較為稀疏、不規則。

圖2 基于決策樹原理得到的決策樹
基于AdaBoost的強震動數據抗干擾算法識別結果如表4所示,其中弱學習器為CART決策樹。抗干擾準確率總體與實際訓練樣本量的比例沒有明顯的關聯:訓練比例依次從10%到80%,該算法的識別準確率整體都在90%以上;識別結果與訓練比例相關性不大,具有較強的魯棒性與適應性。在數據量不確定或極大、極小的實際應用環境中,該算法都有一定的識別準確性保證,具有較好的實際應用價值。

表4 基于AdaBoost的強震動數據抗干擾算法識別結果
由圖3、圖4可知,采用80%訓練比例的AdaBoost法進行異常數據識別時,算法不斷通過學習強化自身,并在第14次循環訓練后完成訓練目標,即通過14次弱學習器的強化學習得到一個強學習器(圖3),該學習器將Sym(波形對稱度)作為決策特征參數,識別誤差率為0,而波形對稱性確實反映了天然地震動事件與人工干擾事件的波形特征差異,Sym較大時,天然地震動的可能性也較大,反之,人工干擾事件的可能性就較大。

圖3 基于AdaBoost原理得到的最終決策樹

圖4 80%訓練量的AdaBoost算法訓練過程誤差變化
本文采用AdaBoost技術、決策樹學習器及集成機器學習理念設計一種新的強震動數據抗干擾算法,可有效識別、區分地震動事件與其它干擾事件,相對基于單純決策樹的強震儀抗干擾算法,識別準確度有了一定提高,算法穩健性更好,對強震儀的智能化發展與推廣應用具有一定的積極意義。
致謝:感謝國家強震動臺網中心、國家地震科學數據共享中心、中國地震局工程力學研究所提供了大量的強震記錄和實驗數據。