李 廣,丁 迪,石福升,鄧居智,肖 曉,陳 輝,何柱石,桂團(tuán)福
1.江西省防震減災(zāi)與工程地質(zhì)災(zāi)害探測(cè)工程研究中心(東華理工大學(xué)),南昌 330013 2.有色金屬成礦預(yù)測(cè)與地質(zhì)環(huán)境監(jiān)測(cè)教育部重點(diǎn)實(shí)驗(yàn)室(中南大學(xué)),長(zhǎng)沙 410083
可控源電磁法(controlled-source electromagnetic method,CSEM)利用人工源電磁信號(hào)代替天然的交變電磁場(chǎng)作為場(chǎng)源,具有抗干擾能力強(qiáng)、勘探深度較大等優(yōu)點(diǎn),近年來(lái)被廣泛應(yīng)用于頁(yè)巖氣勘探、金屬礦勘探以及工程物探等領(lǐng)域[1-2]。但隨著人文活動(dòng)范圍的持續(xù)擴(kuò)大,CSEM數(shù)據(jù)受人文噪聲的干擾越來(lái)越嚴(yán)重,因此對(duì)觀(guān)測(cè)到的數(shù)據(jù)進(jìn)行噪聲壓制變得越發(fā)重要[3-4]。
為改善勘探效果,國(guó)內(nèi)外學(xué)者提出了多種方法處理人文噪聲干擾。例如:基于時(shí)變雙邊濾波的海洋可控源電磁數(shù)據(jù)噪聲壓制方法[5];基于有理函數(shù)濾波的可控源音頻大地電磁信號(hào)[6]及廣域電磁法(wide-field electromagnetic method,WFEM)信號(hào)處理方法[7];基于小波變換(wavelet transform,WT)的瞬變電磁信號(hào)去噪方法[8];基于經(jīng)驗(yàn)?zāi)B(tài)分解(empirical mode decomposition, EMD)的激電信號(hào)[9]及長(zhǎng)偏移距瞬變電磁信號(hào)去噪方法[10];基于字典學(xué)習(xí)的航空瞬變電磁數(shù)據(jù)[11]及廣域電磁數(shù)據(jù)去噪方法[3];基于相關(guān)度的激電信號(hào)篩選法[9]及基于灰色判別準(zhǔn)則的廣域電磁數(shù)據(jù)篩選方法[7]等。其中,數(shù)據(jù)篩選方法通過(guò)一定的評(píng)價(jià)標(biāo)準(zhǔn)從觀(guān)測(cè)數(shù)據(jù)中挑選出質(zhì)量較高的數(shù)據(jù),而不必改變信號(hào)原有的形態(tài);因此既不會(huì)損傷有用信號(hào),也不會(huì)引入新的噪聲,處理結(jié)果可信度高,在實(shí)際的數(shù)據(jù)處理中應(yīng)用最為廣泛。多數(shù)情況下,以上列舉方法均能夠顯著地提高數(shù)據(jù)質(zhì)量,但其也存在一定的局限性。例如:基于EMD的數(shù)據(jù)處理方法會(huì)因?yàn)镋MD的模態(tài)混疊效應(yīng)產(chǎn)生一定的誤差;基于相關(guān)度的數(shù)據(jù)挑選法需要人工設(shè)定閾值,難以實(shí)現(xiàn)自動(dòng)化的批量處理,且該方法要求操作人員具有一定的經(jīng)驗(yàn),易造成主觀(guān)偏差。
近年來(lái),隨著人工智能技術(shù)的飛速發(fā)展,機(jī)器學(xué)習(xí)算法在地球物理領(lǐng)域得到廣泛關(guān)注。支持向量機(jī)(support vector machine, SVM)是眾多機(jī)器學(xué)習(xí)算法中的典型代表,它是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上提出的一種模式識(shí)別方法,具有良好的泛化能力,特別適合于小樣本分類(lèi)等應(yīng)用場(chǎng)合[12]。可控源電磁法所使用的信號(hào)是周期信號(hào)或者變頻的多周期信號(hào),每一個(gè)周期的時(shí)間序列均可以視為一個(gè)樣本,但有時(shí)為了節(jié)省成本,可控源電磁信號(hào)觀(guān)測(cè)時(shí)間較短,觀(guān)測(cè)的樣本數(shù)量較少,因此利用在小樣本情況下具有優(yōu)異表現(xiàn)的SVM算法對(duì)可控源電磁信號(hào)進(jìn)行挑選是極為恰當(dāng)?shù)摹榇耍疚膰L試將SVM引入CSEM數(shù)據(jù)篩選,代替?zhèn)鹘y(tǒng)的基于人工設(shè)定閾值的篩選法,以消除人工干預(yù)所帶來(lái)的主觀(guān)偏差,提高數(shù)據(jù)篩選的自動(dòng)化程度與精度。
可控源電磁數(shù)據(jù)中的人文噪聲主要包括隨機(jī)噪聲、沖擊類(lèi)噪聲以及基線(xiàn)漂移干擾等。其中:隨機(jī)噪聲幅度較小,多數(shù)情況下,通過(guò)多個(gè)周期的數(shù)據(jù)疊加并取平均值可以較好地壓制隨機(jī)噪聲的影響;沖擊類(lèi)噪聲包括脈沖噪聲、方波噪聲等,它們具有幅度大、能量強(qiáng)等特點(diǎn),是一類(lèi)對(duì)可控源信號(hào)的信噪比具有較大影響且現(xiàn)有方法難以去除的噪聲;基線(xiàn)漂移干擾是可控源電磁數(shù)據(jù)中極為常見(jiàn)的一種持續(xù)性低頻干擾,往往會(huì)造成視電阻率低頻部分嚴(yán)重畸變。現(xiàn)有的文獻(xiàn)[1,3]表明,利用互補(bǔ)集合經(jīng)驗(yàn)?zāi)B(tài)分解(complementary ensemble empirical mode decomposition, CEEMD)可以較好地校正基線(xiàn)漂移。本文基于可控源電磁信號(hào)周期性的特征,結(jié)合CEEMD與SVM,提出了壓制可控源強(qiáng)噪聲的CEEMD-SVM方法,即在CEEMD處理之后,采用SVM識(shí)別出受到脈沖、方波等噪聲污染的片段并予以丟棄,達(dá)到消除噪聲的目的。
互補(bǔ)集合經(jīng)驗(yàn)?zāi)B(tài)分解由經(jīng)驗(yàn)?zāi)B(tài)分解和集合經(jīng)驗(yàn)?zāi)B(tài)分解(ensemble EMD,EEMD)改進(jìn)而來(lái)。集合經(jīng)驗(yàn)?zāi)B(tài)分解通過(guò)給待分解數(shù)據(jù)添加白噪聲的方式,較好地克服了經(jīng)驗(yàn)?zāi)B(tài)分解的模態(tài)混疊問(wèn)題,但加入的白噪聲會(huì)對(duì)原始數(shù)據(jù)造成一定的污染。互補(bǔ)集合經(jīng)驗(yàn)?zāi)B(tài)分解則通過(guò)添加成對(duì)且互補(bǔ)的白噪聲,有效地消除了添加白噪聲的影響。EMD以及CEEMD等算法均被用于可控源電磁數(shù)據(jù)的基線(xiàn)漂移校正,限于篇幅,本文對(duì)CEEMD的原理部分不再贅述,詳情可以查閱文獻(xiàn)[3,13]。
支持向量機(jī)是由前蘇聯(lián)學(xué)者Vapnik最早提出的一種基于統(tǒng)計(jì)學(xué)習(xí)理論的新型學(xué)習(xí)機(jī),它是一種二類(lèi)分類(lèi)模型,是定義在特征空間上的間隔最大的線(xiàn)性分類(lèi)器[14-15]。SVM目前已被應(yīng)用于大地電磁信噪識(shí)別[16]、地震體波震相的自動(dòng)識(shí)別與拾取[17]、地震事件分類(lèi)[18]和巖性識(shí)別[19]等領(lǐng)域。假定一個(gè)特征空間上的訓(xùn)練數(shù)據(jù)集Q={(x1,y1),(x2,y2),...,(xN,yN)}, 其中xi為第i個(gè)特征向量[12],也稱(chēng)為樣本,yi為xi的類(lèi)標(biāo)記,xi∈Rn,yi∈{-1,1},i=1,2,...,N。支持向量機(jī)的學(xué)習(xí)目標(biāo)是在特征空間中找到一個(gè)分離超平面,能將實(shí)例分成不同的類(lèi)。分離超平面(w,b)對(duì)應(yīng)于方程[20-21]:
w·x+b=0。
(1)
式中:w為超平面的一個(gè)法向量;b為截距,用來(lái)確定超平面的具體位置。對(duì)于給定的訓(xùn)練數(shù)據(jù)集Q和超平面(w,b),定義超平面(w,b)關(guān)于樣本點(diǎn)(xi,yi)的函數(shù)間隔為
ξi=yi(w·xi+b)。
(2)
函數(shù)間隔ξ的取值并不影響最優(yōu)化問(wèn)題的解,本文取ξ=1。一般地,將尋找最優(yōu)超平面的問(wèn)題轉(zhuǎn)化為最優(yōu)化問(wèn)題
且滿(mǎn)足
yi(w·xi+b)-1≥0,i=1,2,…,N。
(3)
這是一個(gè)凸二次規(guī)劃問(wèn)題,如果求出約束最優(yōu)化問(wèn)題式(3)的解w*,b*,那么就可以得到最大間隔分離超平面。應(yīng)用拉格朗日對(duì)偶性,通過(guò)求解對(duì)偶問(wèn)題可得到原始問(wèn)題的最優(yōu)解。構(gòu)建拉格朗日函數(shù),對(duì)每一個(gè)不等式約束,引進(jìn)拉格朗日乘子αi≥0,i=1,2,...,N,定義拉格朗日函數(shù)為

(4)
式中,α=(α1,α2,…,αN)T為拉格朗日乘子向量。
根據(jù)拉格朗日對(duì)偶性,原始問(wèn)題的對(duì)偶問(wèn)題是極大極小值問(wèn)題:

(5)
所以,為了得到對(duì)偶問(wèn)題的解,需要先求L(w,b,α)對(duì)w,b的極小,再求對(duì)α的極大。
求解得:
(6)
(7)
將式(6) 及式(7)代入拉格朗日函數(shù)式(4),即得
(8)

且滿(mǎn)足
(9)
對(duì)線(xiàn)性可分的訓(xùn)練數(shù)據(jù)集,求得對(duì)偶性最優(yōu)化問(wèn)題,其中,式(9)中的α解為α*=(α1*,α2*,…,αN*)T,可以由α*求得原始最優(yōu)化問(wèn)題,對(duì)(w,b)的解w*,b*,有:
(10)
(11)
由此可知,分離超平面可以寫(xiě)成
(12)
求得相應(yīng)的分離超平面后,再利用高質(zhì)量信號(hào)與低信噪比信號(hào)之間的參數(shù)差異,將高質(zhì)量信號(hào)分為正類(lèi),低信噪比信號(hào)分為負(fù)類(lèi),將二者分離,達(dá)到噪聲壓制的效果。
特征參數(shù)指在信號(hào)篩選時(shí),能夠評(píng)價(jià)信號(hào)質(zhì)量或者衡量受噪聲污染程度的指標(biāo)。本文采用了4個(gè)特征參數(shù),包括觀(guān)測(cè)信號(hào)的最大值、樣本熵、相關(guān)度及分形盒維數(shù)。
1.3.1 最大值
可控源電磁信號(hào)為多周期的時(shí)間序列,當(dāng)沒(méi)有受到噪聲污染時(shí),每一個(gè)樣本其幅度的最大值都是相同的。當(dāng)某一個(gè)樣本受到脈沖等強(qiáng)沖擊類(lèi)噪聲污染時(shí),其最大值明顯大于其他樣本,因此最大值可以用于識(shí)別受到脈沖等沖擊類(lèi)噪聲污染的樣本。
1.3.2 樣本熵
樣本熵(sample entropy,Es)在定義上與近似熵十分接近。兩者均通過(guò)測(cè)量信號(hào)中生成新模式的可能性來(lái)比較時(shí)間序列的復(fù)雜性。與近似熵相比,樣本熵具有兩個(gè)優(yōu)點(diǎn):一是樣本熵的計(jì)算可以脫離對(duì)數(shù)據(jù)長(zhǎng)度的依賴(lài),二是樣本熵比近似熵有更強(qiáng)的一致性。樣本熵的值越小,序列的相似程度越高;樣本熵的值越大,樣本的序列越復(fù)雜。目前,樣本熵已經(jīng)被應(yīng)用于大地電磁信噪辨識(shí)[22]以及生物醫(yī)學(xué)信號(hào)分析[23]等多個(gè)領(lǐng)域的研究中。其定義如下:
1)設(shè)原始數(shù)據(jù)為{xi}={x1,x2, ...,xn},長(zhǎng)度為n。預(yù)先給定嵌入維數(shù)m和相似容限r(nóng),依據(jù)原始信號(hào)重構(gòu)一個(gè)m維向量X(i)=[xi,xi+1, ...,xi+m-1]。
2)定義x(i)與x(j)間的距離dij為兩者對(duì)應(yīng)元素差值絕對(duì)值的最大值,即
dij=d[x(i),x(j)]=
max[|x(i+k)-x(j+k)|] 。
(13)

(14)

(15)

6)理論上,原始序列的樣本熵定義為
(16)
當(dāng)n為有限數(shù)時(shí),上式可表示為
ES(m,r,n)=lnBm(r)-lnBm+1(r)。
(17)
1.3.3 相關(guān)度
利用發(fā)送信號(hào)與觀(guān)測(cè)信號(hào)時(shí)間域波形的因果關(guān)系,引入相關(guān)度分析進(jìn)行激電信號(hào)的篩選[1]。但計(jì)算時(shí)間域波形的相關(guān)度時(shí),時(shí)間序列的相位需要嚴(yán)格同步,操作起來(lái)多有不便。CSEM法使用的信號(hào)為周期信號(hào),并且信號(hào)穩(wěn)定度很高,同一次發(fā)射的信號(hào),只要數(shù)據(jù)長(zhǎng)度相同,不管相位如何變化,其頻譜都是相同的。因此,本文通過(guò)轉(zhuǎn)換到頻率域進(jìn)行歸一化互相關(guān)度分析解決上述困難。對(duì)于采樣點(diǎn)長(zhǎng)度為N的觀(guān)測(cè)信號(hào)頻譜序列Rλ及相同長(zhǎng)度的發(fā)送信號(hào)頻譜序列Tλ,二者的歸一化互相關(guān)度(normalized cross-correlation,CNC)可利用Pearson相關(guān)系數(shù)[3,9]表示:
(18)

1.3.4 分形盒維數(shù)
本文采用的第4個(gè)參數(shù)是分形盒維數(shù)(fractal box dimension,DFB)。分形理論由美籍法國(guó)科學(xué)家Mandelbrot B創(chuàng)立[24],該理論用分形維數(shù)來(lái)度量不規(guī)則程度,揭示自相似特性,是一種能夠刻畫(huà)非線(xiàn)性系統(tǒng)行為的數(shù)字特征的參數(shù)。其核心思想是以一定尺寸的柵格來(lái)覆蓋目標(biāo)并記錄所用柵格的數(shù)目,然后擬合出柵格尺寸與所用柵格數(shù)目之間的曲線(xiàn),最后以擬合曲線(xiàn)的斜率表征目標(biāo)的不規(guī)則度[25]。目前,分形盒維數(shù)已被廣泛應(yīng)用于裂隙多孔介質(zhì)運(yùn)輸特性的評(píng)估[26]、微震及爆破事件的模式識(shí)別[27]和大地電磁信噪辨識(shí)[16,22]等領(lǐng)域。假設(shè)柵格的尺寸為ε,X是Rn的一個(gè)非空有界子集,M(X,ε)是實(shí)現(xiàn)目標(biāo)X全覆蓋所用的柵格數(shù)目,則目標(biāo)X的分形盒維數(shù)可表示為
(19)
本文所提的可控源電磁數(shù)據(jù)處理方法流程如圖1所示。首先,導(dǎo)入觀(guān)測(cè)到的實(shí)測(cè)數(shù)據(jù);其次,利用CEEMD去除實(shí)測(cè)數(shù)據(jù)中的基線(xiàn)漂移噪聲;隨后,對(duì)時(shí)間序列進(jìn)行分段(每一個(gè)時(shí)間序列片段即為一個(gè)樣本,其長(zhǎng)度為一個(gè)周期的時(shí)間序列),并計(jì)算每一個(gè)樣本的特征參數(shù);最后,將樣本的特征參數(shù)作為SVM的輸入,利用SVM進(jìn)行分類(lèi),篩選出高質(zhì)量的時(shí)間序列。

圖1 數(shù)據(jù)處理流程圖
樣本庫(kù)是SVM準(zhǔn)確識(shí)別高質(zhì)量信號(hào)的依據(jù),良好的樣本庫(kù)應(yīng)該包含有各種類(lèi)型的高質(zhì)量樣本以及低信噪比樣本。為使得樣本庫(kù)足夠完善,同時(shí)為了剖析不同CSEM信號(hào)與噪聲的特征,我們對(duì)不同類(lèi)型的樣本進(jìn)行標(biāo)記、分類(lèi),制作成樣本庫(kù)。樣本庫(kù)中包含高質(zhì)量的CSEM信號(hào)以及受到方波噪聲、脈沖噪聲和基線(xiàn)漂移噪聲等最為典型噪聲污染的信號(hào)。每種類(lèi)型各含有50個(gè)樣本,共計(jì)200個(gè)。
分別計(jì)算每個(gè)樣本的最大值、樣本熵、相關(guān)度以及分形盒維數(shù),并用這些參數(shù)來(lái)替換樣本本身,用SVM對(duì)其進(jìn)行分類(lèi)。如圖2所示,SVM將200個(gè)樣本準(zhǔn)確地分為2類(lèi),即高質(zhì)量信號(hào)樣本(類(lèi)別標(biāo)簽1.0)和含噪聲樣本(類(lèi)別標(biāo)簽2.0)。值得注意的是,如圖2a和c所示,所有高質(zhì)量信號(hào)樣本的最大值都小于含噪聲樣本且都具有很高的相關(guān)度值,說(shuō)明高質(zhì)量樣本的相關(guān)度都很高。但高的相關(guān)度值并不總意味著高質(zhì)量,因?yàn)榇蠖鄶?shù)有尖峰的樣本和少量被方波噪聲和基線(xiàn)漂移干擾污染的樣本也具有非常高的相關(guān)度,這說(shuō)明依靠相關(guān)度一個(gè)參數(shù)并不能準(zhǔn)確識(shí)別所有的高質(zhì)量信號(hào)樣本,結(jié)合最大值這一特征則能夠顯著改善識(shí)別效果。如圖2b和d所示,受方波噪聲和基線(xiàn)漂移干擾污染的大多數(shù)樣本的樣本熵與分形盒維數(shù)顯著大于高質(zhì)量信號(hào)樣本。因此,分形盒維數(shù)、樣本熵可以識(shí)別被方波噪聲或基線(xiàn)漂移噪聲污染的樣本,消除相關(guān)度可能無(wú)法準(zhǔn)確識(shí)別這些樣本所造成的誤差。
如圖3所示:藍(lán)色信號(hào)為一組高質(zhì)量信號(hào),為防止與其他信號(hào)重疊,便于直觀(guān)顯示,該信號(hào)整體向下平移了40 mV;黑色信號(hào)是添加有多種類(lèi)型強(qiáng)噪聲的合成信號(hào);綠色信號(hào)為CEEMD提取的基線(xiàn)漂移噪聲;紅色信號(hào)是去除基線(xiàn)漂移后獲得的信號(hào)。顯然經(jīng)過(guò)CEEMD處理后基線(xiàn)漂移現(xiàn)象得到明顯改善,但正弦波、方波和三角波等噪聲仍然嚴(yán)重影響數(shù)據(jù)質(zhì)量,因此須進(jìn)行下一步處理。
對(duì)于去除基線(xiàn)漂移后的信號(hào),首先根據(jù)信號(hào)的周期進(jìn)行分段,并分別計(jì)算每一個(gè)片段的最大值、樣本熵、相關(guān)度以及分形盒維數(shù)4個(gè)特征參數(shù);然后將特征參數(shù)輸入到SVM中進(jìn)行信號(hào)的識(shí)別篩選。如圖4所示,藍(lán)色的點(diǎn)代表含噪片段,紅色的點(diǎn)代表高質(zhì)量片段。圖4a中,高質(zhì)量信號(hào)幅值分布相對(duì)穩(wěn)定,代表信號(hào)不含強(qiáng)噪聲,而含噪片段明顯分布離散;圖4b對(duì)應(yīng)每個(gè)片段的樣本熵,高質(zhì)量片段所得樣本熵幾乎處在同一水平線(xiàn)上,而含噪片段則相對(duì)更加離散;圖4c為相關(guān)度,可見(jiàn)高質(zhì)量片段樣本趨近于1,含噪片段樣本偏離1,表示高質(zhì)量信號(hào)相關(guān)度接近1;圖4d為分形盒維數(shù),可見(jiàn)高質(zhì)量片段分形盒維數(shù)值趨于同一水平,且高于含噪片段。
如圖5所示,SVM識(shí)別出來(lái)的強(qiáng)干擾段每一個(gè)周期均受到了方波、脈沖等強(qiáng)噪聲的污染(圖5a),經(jīng)過(guò)篩選,添加的噪聲被消除(圖5b),未受到噪聲污染的數(shù)據(jù)被篩選出來(lái),留下的高質(zhì)量段則不存在強(qiáng)噪聲(圖5c)。經(jīng)過(guò)人工復(fù)核,SVM信噪識(shí)別的準(zhǔn)確率為100%。需要提及的是,本例中的噪聲幅度均大于其余有效信號(hào),利用常規(guī)的閾值篩選法設(shè)定精確的閾值,也能準(zhǔn)確地挑選出高質(zhì)量信號(hào)。然而,實(shí)際情況中,不同的觀(guān)測(cè)信號(hào),其閾值并非固定不變,常規(guī)的閾值法需要操作人員通過(guò)多次試探才能找到最佳的閾值,因此,常規(guī)的閾值法無(wú)法實(shí)現(xiàn)自動(dòng)化的批量處理。此外,通過(guò)多次試探獲得最佳閾值的過(guò)程不僅耗時(shí)較長(zhǎng),還會(huì)因不同的操作人員設(shè)定不同的閾值得到不同的處理結(jié)果,造成主觀(guān)偏差。

a. 最大值分類(lèi)效果;b. 樣本熵分類(lèi)效果;c. 相關(guān)度分類(lèi)效果;d. 分形盒維數(shù)分類(lèi)效果。類(lèi)別標(biāo)簽1.0表示高質(zhì)量信號(hào)樣本,2.0表示含噪聲樣本。

圖3 CEEMD校正基線(xiàn)漂移效果
為定量評(píng)估本方法的去噪效果,對(duì)7個(gè)主頻進(jìn)行了誤差分析,表1為圖6中信號(hào)去噪前后的誤差統(tǒng)計(jì)。由表1的統(tǒng)計(jì)數(shù)據(jù)可知:加入噪聲后信號(hào)的幅值與真實(shí)值的誤差最高達(dá)到35.98%,其他頻點(diǎn)誤差大小也在1.12%~11.94%之間;經(jīng)過(guò)CEEMD去噪處理之后最大誤差絕對(duì)值達(dá)到7.51%,其他頻點(diǎn)誤差絕對(duì)值在0.12%~4.83%之間;再經(jīng)過(guò)SVM識(shí)別篩選后,除0.75 Hz一個(gè)頻點(diǎn)外,其余頻點(diǎn)誤差均小于1.00 %。合成數(shù)據(jù)處理結(jié)果充分說(shuō)明了本文所提方法的可靠性與有效性。
分別對(duì)原始信號(hào)、加噪信號(hào)和處理后的信號(hào)進(jìn)行快速傅里葉變換,得到的頻譜見(jiàn)圖6。由圖6分析可知,加入噪聲后大部分的頻點(diǎn)受到了污染,低頻部分受污染情況尤為突出。經(jīng)過(guò)所提方法處理后,頻譜曲線(xiàn)被校正,其形態(tài)與原始信號(hào)的頻譜差異較小。

圖4 最大值(a)、樣本熵(b)、相關(guān)度(c), 以及分形盒維數(shù)(d)區(qū)分效果

圖5 合成信號(hào)SVM處理前后的時(shí)域圖對(duì)比

表1 去噪前后有效頻點(diǎn)幅度誤差統(tǒng)計(jì)

a. 原始信號(hào); b. 加噪后; c. 處理后。
在四川省會(huì)東縣城郊進(jìn)行廣域電磁法勘探時(shí),由于觀(guān)測(cè)點(diǎn)距離縣城較近,采集到的數(shù)據(jù)受到了強(qiáng)烈的人文噪聲污染。為提高數(shù)據(jù)質(zhì)量,應(yīng)用本文提出的CEEMD-SVM方法對(duì)觀(guān)測(cè)數(shù)據(jù)進(jìn)行處理。
如圖7所示:該測(cè)點(diǎn)采集的信號(hào)在前30 s受到了嚴(yán)重的人文噪聲污染,75 s和85 s前后的信號(hào)也受到了嚴(yán)重的干擾,60 s和95 s附近還有零星的強(qiáng)干擾(圖7a);SVM準(zhǔn)確識(shí)別出了所有的強(qiáng)噪聲片段,僅有55 s處個(gè)別噪聲較弱的片段沒(méi)有被識(shí)別出來(lái)(圖7b、c);相關(guān)度法的識(shí)別效果明顯不如SVM,60 s和95 s附近的強(qiáng)干擾片段(圖7b中已識(shí)別)以及55 s處的弱干擾片段均沒(méi)有被識(shí)別出來(lái)(圖7d)。
如圖8所示,與人工標(biāo)記的實(shí)際分類(lèi)結(jié)果相比可知,SVM的識(shí)別準(zhǔn)確率達(dá)到94.79%。盡管有少數(shù)噪聲幅度較弱的樣本沒(méi)有被識(shí)別出來(lái),但由于噪聲幅度弱,且高質(zhì)量樣本數(shù)據(jù)占比很高,這些含有弱噪聲的樣本對(duì)最終的結(jié)果影響不大。經(jīng)過(guò)對(duì)四川會(huì)

a. 初始信號(hào); b. SVM識(shí)別出的強(qiáng)干擾段; c. SVM識(shí)別出的高質(zhì)量段;d. 相關(guān)度法識(shí)別出的高質(zhì)量段。

類(lèi)別標(biāo)簽1.0表示分類(lèi)結(jié)果為高質(zhì)量信號(hào)樣本,2.0表示分類(lèi)結(jié)果為含噪樣本;藍(lán)色圈為人工標(biāo)記的實(shí)際分類(lèi)結(jié)果,紅色星號(hào)為SVM預(yù)測(cè)的分類(lèi)結(jié)果。
圖8 實(shí)測(cè)點(diǎn)L1-3時(shí)間序列SVM分類(lèi)與人工標(biāo)記結(jié)果對(duì)比
Fig.8 Comparison of SVM classification and manual labeling results for real site L1-3
東縣工區(qū)多個(gè)數(shù)據(jù)進(jìn)行處理,我們發(fā)現(xiàn)SVM的平均識(shí)別準(zhǔn)確率在92.00%以上。如圖7d所示,將相關(guān)度的閾值設(shè)定為0.91時(shí),使用常規(guī)的數(shù)據(jù)篩選法也得到了良好的結(jié)果,篩選精度為92.71%。然而,得到0.91這一精確的閾值,需要經(jīng)過(guò)多次嘗試,且不論設(shè)定閾值多少,其精度均無(wú)法超過(guò)本文提出的CEEMD-SVM方法,從而說(shuō)明了CEEMD-SVM方法的優(yōu)越性。
為進(jìn)一步評(píng)價(jià)信號(hào)處理結(jié)果的可靠性,對(duì)處理前后的CSEM數(shù)據(jù)進(jìn)行了廣域電磁視電阻率計(jì)算[28],并與基于相關(guān)度的挑選法[9,29]進(jìn)行對(duì)比,結(jié)果如圖9所示。其中:圖9a和f所示測(cè)點(diǎn)的視電阻率曲線(xiàn)出現(xiàn)嚴(yán)重畸變,視電阻率隨頻率的變化而劇烈波動(dòng);圖9b和e所示測(cè)點(diǎn)視電阻率也有較明顯的畸變,應(yīng)用本文提出的CEEMD-SVM方法處理后,視電阻率曲線(xiàn)均得到顯著改善,連續(xù)性大為提高;圖9c和d所示測(cè)點(diǎn)的信號(hào)未受強(qiáng)噪音污染,處理前后的視電阻率曲線(xiàn)無(wú)明顯變化,也就是說(shuō),CEEMD-SVM法既適用于有噪聲的數(shù)據(jù),也適用于無(wú)噪聲的數(shù)據(jù),因?yàn)樗鼧O大地提高了含噪信號(hào)的質(zhì)量,并且不降低無(wú)噪信號(hào)的質(zhì)量。基于相關(guān)度的挑選法也能夠顯著的提高數(shù)據(jù)質(zhì)量,且多數(shù)情況下其結(jié)果與本文所提方法的結(jié)果一致性較好,從而說(shuō)明CEEMD-SVM法處理結(jié)果可信度高。但由圖9b和f所示測(cè)點(diǎn)處理結(jié)果可知,在視電阻率曲線(xiàn)的低頻段部分,CEEMD-SVM法優(yōu)于相關(guān)度挑選法;這是因?yàn)榛谌斯ぴO(shè)定閾值的相關(guān)度挑選法僅考慮了發(fā)送信號(hào)與觀(guān)測(cè)信號(hào)之間的相關(guān)度,依靠單一的參數(shù)得到的結(jié)果其可靠性顯然具有較大的提升空間。此外,相關(guān)度挑選法需要操作人員有一定的經(jīng)驗(yàn),否則可能造成一定的主觀(guān)偏差。

圖9 四川會(huì)東縣L1測(cè)線(xiàn)6個(gè)觀(guān)測(cè)點(diǎn)處理前后的視電阻率曲線(xiàn)
1)本文基于可控源電磁信號(hào)周期性的特征,結(jié)合CEEMD與SVM,提出了壓制可控源強(qiáng)噪聲的CEEMD-SVM方法。其能夠從受到強(qiáng)人文噪聲污染的數(shù)據(jù)中準(zhǔn)確地挑選出高質(zhì)量的信號(hào),有利于實(shí)測(cè)數(shù)據(jù)的批量化、自動(dòng)化處理,減少了傳統(tǒng)的基于人工設(shè)定閾值所帶來(lái)的主觀(guān)誤差,降低了數(shù)據(jù)處理操作的復(fù)雜性與工作量。
2) CEEMD-SVM方法考慮了最大值、樣本熵、相關(guān)度以及分形盒維數(shù)等4個(gè)參數(shù),與傳統(tǒng)的基于單一的相關(guān)度挑選方法相比,結(jié)果的可靠性更高。
3) CEEMD-SVM方法不會(huì)對(duì)高質(zhì)量數(shù)據(jù)造成影響,其既適用于含噪數(shù)據(jù),也適用于無(wú)噪數(shù)據(jù),適用性較好。
4)可控源電磁法面對(duì)的人文噪聲紛繁復(fù)雜,通常單一的信號(hào)處理方法都存在一定的局限性。當(dāng)樣本受到持續(xù)性的強(qiáng)沖擊噪聲污染時(shí),數(shù)據(jù)篩選類(lèi)的方法可能難以獲得滿(mǎn)意的結(jié)果。此外,在處理實(shí)測(cè)數(shù)據(jù)時(shí),少數(shù)噪聲較弱的樣本沒(méi)有識(shí)別出來(lái),本文所提的CEEMD-SVM方法其識(shí)別精度并不能達(dá)到100%,識(shí)別精度仍有一定的提升空間。此外CEEMD-SVM方法僅識(shí)別出了受到強(qiáng)噪聲污染的時(shí)間序列片段,沒(méi)有識(shí)別出噪聲的類(lèi)型。根據(jù)噪聲的特點(diǎn),采取合適的信噪分離措施,如字典學(xué)習(xí)或者深度學(xué)習(xí)去噪等,可以保留更多周期的時(shí)間序列,并進(jìn)一步提升數(shù)據(jù)質(zhì)量,這是值得進(jìn)一步研究的重要方向。