宋 輝 高 洋 陳 偉 張 翔
(①油氣資源與勘探技術教育部重點實驗室(長江大學),湖北武漢 430100; ②長江大學地球物理與石油資源學院,湖北武漢 430100;③中國石油大學(北京)CNPC物探重點實驗室,北京 102249; ④非常規油氣湖北省協同創新中心,湖北武漢 430100)
隨著油氣勘探環境變得愈加復雜,地震數據在采集過程中受到的噪聲干擾也愈加嚴重[1]。地震數據中的噪聲可分為兩類:相干噪聲和隨機噪聲。相干噪聲具有一定的波形特征,而隨機噪聲沒有固定的波形特征,與有效信號隨機混合在一起,影響高分辨率處理、屬性分析、反演等。
噪聲壓制在地球物理學中是一個經典的問題,已提出了很多方法。傳統的噪聲壓制方法是基于地震數據的特性,如可預測性、稀疏性等。基于預測性的去噪方法利用有效信號線性或擬線性生成預測濾波器提高信噪比[2-3],但不能處理非線性地震信號。基于稀疏變換的去噪方法利用信號在變換域內具有較好的稀疏性壓制噪聲,例如小波變換[4-5]、曲波變換[6-7]、Shearlet變換[8-9]等。由于它們建立在固定的變換基函數上,因此不能自適應地處理結構復雜的地震數據。字典學習是一種基于數據驅動的算法,使用可學習的字典代替傳統的變換基函數,因此可以自適應地表示數據[10-11]。中值濾波在圖像處理中是一種經典的平滑去噪方法,利用信號與噪聲之間的統計差異抑制噪聲,常用于地震數據去噪[12]。以上方法噪聲壓制效果受限于模型假設和參數設置等因素。
近年來,深度學習在圖像處理、語音處理等領域取得了顯著成果[13-15]。通過構建多個處理層逐步實現抽象的特征表示,可以完成復雜的分類或預測等任務[16-19]。目前,基于標簽數據的深度學習方法已經成功應用于地震隨機噪聲壓制[20],根據生成標簽數據的策略,主要可以分為兩類: ①將傳統去噪方法的結果作為標簽數據訓練神經網絡,然后將訓練好的網絡模型用于實際地震數據噪聲壓制[21-22]; ②將創建的合成地震數據作為標簽數據訓練神經網絡[23],然后將訓練好的網絡模型用于實際地震數據噪聲壓制[24-25]。第一類方法制作的標簽數據并不太準確,因此會影響網絡模型的去噪性能。第二類方法制作的標簽數據雖然準確,但是合成數據與實際地震數據差異大,影響網絡模型的泛化能力。基于標簽數據的深度學習方法取得了良好的去噪效果,但是在制作復雜而龐大的訓練集上也會浪費大量的資源。因此,開發不依賴于標簽數據的無監督學習方法對于地震數據噪聲壓制具有重要意義。
為了改善地震數據的噪聲壓制效果,本文提出了一種基于卷積降噪自編碼器的地震噪聲壓制算法。該算法基于無監督學習,能夠直接從含噪的地震數據中恢復無噪的地震數據,省去了標注數據所需的大量工作。
自編碼器屬于無監督學習,它利用反向傳播算法對無標簽的輸入數據進行重構。典型的自編碼器如圖1所示,可以看出它包括兩部分:編碼框架和解碼框架。編碼框架負責將輸入數據映射為潛在空間的特征表達,解碼框架則負責將特征表達解碼為與原始輸入數據相近的輸出數據。自編碼器的目標是使輸出數據盡可能等于其輸入數據,但是它不能有效提取地震數據特征。對于無標簽的輸入數據,自編碼器按以下方式重建輸入數據
H=ξθ1(P)=σ(W1P+b1)
(1)
Q=ξθ2(H)=σ(W2H+b2)
(2)
式中:P、H與Q分別為輸入數據、特征表達、輸出數據;σ為sigmoid激活函數;W1與b1分別為輸入層與隱藏層之間的權重矩陣與偏置;W2與b2分別為隱藏層與輸出層之間的權重矩陣與偏置;θ1=[W1,b1]和θ2=[W2,b2]分別為編碼參數和解碼參數;ξθ1(P)和ξθ2(H)分別為編碼函數和解碼函數。
模型訓練的目的是為了優化模型參數[θ1,θ2],使重建數據Q與輸入數據P盡可能地接近,即

圖1 自編碼器模型示意圖
(3)
式中L(·)表示L2范數,用于衡量Q與P之間的重構誤差。
降噪自編碼器是自編碼器的一個變體。與自編碼器不同的是,降噪自編碼器通過訓練損壞的輸入數據進行特征學習,其核心思想是提取數據的魯棒性特征。典型的降噪自編碼器如圖2所示,可以看出,降噪自編碼器與自編碼器對輸入層的處理不同,降噪自編碼器按照一定的概率將輸入節點置0,如果這種損壞的概率為0,降噪自編碼器就退化為自編碼器。

圖2 降噪自編碼器模型示意圖
為了定性地比較這兩種自編碼器的學習效果,分別設計了對應的兩種自編碼器網絡,網絡層數設置為3,其中隱藏層單元數為64,并將這兩種自編碼器輸入層與隱層之間的權重矩陣進行可視化,結果如圖3所示。從圖3可以看出,自編碼器訓練后得到的權重是雜亂的,含有大量噪聲,而降噪自編碼器訓練后得到的權重含有明顯的結構特征,噪聲較弱(這兩種自編碼器的輸入數據均來源于本文實驗部分的合成數據,權重尺寸為48×48,降噪自編碼器的損壞程度為60%)。可以看出,降噪自編碼器能夠提取、編碼出具有魯棒性的特征,具有很強的網絡表達能力。


圖3 自編碼器(a)和降噪自編碼器(b)的權重矩陣可視化結果
全連接形式的降噪自編碼器的輸入是一維形式,因此對圖像處理存在局限性。在圖像中,局部的像素聯系較為緊密,相距較遠的像素關聯性不大,而全連接神經網絡的結構里下層神經元與所有上層神經元都能夠形成連接,促使網絡學習圖像全局結構,忽略了圖像的局部相關性,同時造成了參數糅雜。近年來,卷積神經網絡在圖像處理方面應用廣泛,這歸因于它能夠通過卷積核捕獲原始圖像中的局部特征,并且卷積核權重共享,大大減少了參數量。卷積形式的降噪自編碼器在圖像處理方面已經取得了不錯的效果,但還未被用于地震數據去噪。
本文設計的卷積降噪自編碼器如圖4所示。使用3層卷積層和池化層作為編碼框架,3層上采樣層和卷積層作為解碼框架。在編碼框架中,卷積層作為特征提取層,用于捕捉地震數據波形特征,而池化層作為特征壓縮層,一方面能夠減小特征圖的尺寸,降低網絡計算量; 另一方面能夠提取重要的地震數據特征,有效降低噪聲成分。本文將每層卷積層設置24個卷積核,卷積核的移動步長設置為1。因此,48×48×1的地震數據經過編碼框架以后就被壓縮為6×6×24的壓縮特征表達。壓縮特征表達保留了地震數據最重要的信息,但是丟失了大量細節信息。因此,解碼框架承擔著擴大特征圖與恢復地震數據細節信息的任務。

圖4 卷積降噪自編碼器模型
地震數據的特征復雜,具有多尺度特征,而單一尺寸的卷積核只能學習到特定尺度的特征。因此,本文設計了多尺度卷積模塊,一個多尺度模塊相當于三個卷積核,如圖5所示。多尺度卷積模塊就是將不同大小的卷積核構成的網絡并聯起來,既有效解決了卷積核大小的選擇問題,又能夠有效捕捉地震數據的復雜特征。

圖5 多尺度卷積模塊
本文使用數據分塊的訓練方式去噪。即采用一個固定尺寸的窗口對地震數據進行滑移,窗口按固定的滑移步長每滑移一次,產生一個樣本數據。窗口尺寸代表了樣本數據的尺寸,窗口尺寸一旦確定,滑移步長就決定了樣本數據的數量。首先,分塊訓練的方式較好地適應了地震數據的關鍵信息只與局部數據有關,避免了在訓練過程中計算資源的浪費; 其次,該訓練策略會產生大量的樣本數據,有利于訓練出良好的模型參數。在本文實驗中,將窗口尺寸設置為48×48,滑移步長設置為4。由于無監督學習的性質,本文實驗不需要單獨的訓練集訓練模型參數,模型參數的更新是通過對原始含噪數據的自我學習完成,利用早停止原則控制模型訓練的結束。
使用合成地震數據與實際地震數據測試本文方法的去噪性能,并與多道奇異值分析(MSSA)[26]、小波變換[27]、f-x反褶積[3]等方法進行對比。其中小波變換采用bior2.4小波基,f-x反褶積預測濾波器的長度設置為6,MSSA要保留的奇異值數量設置為5。
合成地震數據(圖6a)共88道,每道468個樣點,采樣間隔為1ms。該合成數據包含線性同相軸、曲線同相軸、間斷同相軸以及斷層;當加入噪聲后(圖6b),同相軸的連續性變差。使用信噪比(SNR)定量地評價不同方法的去噪性能
(4)
式中dclean和ddenoise分別表示無噪地震數據與去噪后的地震數據。加噪合成地震數據的SNR為2.04dB。
由于網絡結構的復雜性,首先測試卷積層數、卷積核數量、卷積核尺寸以及輸入數據的損壞程度對去噪結果的影響。
(1)卷積層數。將卷積層數從2增加到8,合成數據去噪后的SNR測試結果如圖7a所示。可見隨著層數的增加,信噪比先增加后降低; 當卷積層數為6時,網絡去噪性能最佳,因此將卷積層數設置為6。

圖6 合成地震數據(a)及其加噪結果(b)
(2)卷積核數量。將卷積核數量從6增加到72,合成數據去噪后的SNR測試結果如圖7b所示。可見,當卷積核數量為24時網絡去噪性能最佳,因此將卷積核數量設置為24。
(3)卷積核尺寸。將卷積核尺寸設置為3×3、5×5、7×7或三者的組合,合成數據去噪后的SNR測試結果如圖7c所示。可見,多尺度的卷積核能夠獲得更優的去噪結果,因此本文采用多尺度卷積核。
(4)輸入數據的損壞程度。本文測試了輸入數據的損壞程度對去噪結果的影響,其結果如圖7d所示。由圖7d可知,對輸入數據進行一定程度地損壞可以實現更好的去噪性能。根據測試結果,本文將輸入數據的損壞程度設置為60%。

圖7 網絡參數對去噪性能的影響
上述四種網絡參數確定之后,運行該網絡可獲得最終的去噪結果,并與MSSA、小波變換和f-x反褶積等去噪方法進行比較(圖8)。由圖8可見: MSSA、f-x反褶積法去噪不足,去噪剖面上含有明顯的殘余噪聲,且MSSA法去噪剖面的間斷點不清晰; 小波變換法去噪剖面上無明顯殘留噪聲,但同相軸能量不穩定; 本文方法的去噪剖面上基本無噪聲殘留、同相軸能量更穩定、間斷點更清晰。

圖8 合成數據不同方法的去噪結果對比
為了比較四種去噪方法的保幅性,計算了四種去噪方法的殘差剖面(圖9)。小波變換與f-x反褶積法的殘差剖面上有明顯的有效信號痕跡,表明有效信號損失嚴重,而本文去噪方法的殘差剖面上有效信號的痕跡不明顯,有效信號損失最小,說明本文方法有良好的保幅效果。從平均振幅譜(圖10)上可以看出,本文方法去噪結果的平均振幅譜最接近于原始信號的平均振幅譜,所以本文方法在去除噪聲的同時能夠最大程度地保護有效信號不受損失。

圖9 合成數據不同方法去噪的殘差剖面

圖10 合成數據不同方法去噪結果的平均振幅譜
為了定量比較四種方法的去噪性能,分別計算了不同方法去噪結果的信噪比。MSSA、小波變換、f-x反褶積和本文方法的去噪結果的信噪比分別為11.46、12.26、12.41、16.32dB。圖11為在不同噪聲水平下的四種方法去噪結果的信噪比,可見四種方法去噪之后信噪比都會得到一定的提升,但本文方法始終保持最高的信噪比,說明本文方法有更強的魯棒性。

圖11 不同噪聲水平下四種方法去噪結果的信噪比
選取一段明顯被隨機噪聲污染的實際地震剖面(圖12)測試各種方法的去噪能力。該地震數據共120道地震道,單道含548個采樣數,采樣間隔為1ms。由圖12可以看出,該地震數據含有曲線同相軸以及斷層構造,但受噪聲干擾嚴重,同相軸連續性較差,弱信號識別困難。使用與合成數據去噪相同的網絡模型,并重新訓練用于實際地震數據去噪。MSSA、小波變換、f-x反褶積和本文方法去噪所耗時間分別為0.22s、0.07s、0.08s、515.86s。圖13為四種方法實際地震數據的去噪結果。小波變換法去噪后的地震剖面分辨率低,同相軸不清晰。與其他方法相比,f-x反褶積法去噪后的地震剖面中殘留的噪聲更多。MSSA法的去噪結果中無明顯噪聲殘留,但損失了某些局部細節。本文方法去噪結果含有更豐富的局部細節,無明顯噪聲殘留,同相軸清晰連續。圖14為四種方法對應的殘差剖面,MSSA、小波變換和f-x反褶積方法的殘差剖面上含有明顯的有效信號的痕跡,因此這三種傳統去噪方法在壓制隨機噪聲的同時損失了部分有效信號。而本文方法的殘差剖面上無明顯有效信號的痕跡,說明本文方法在處理實際資料時具有良好的保幅特性。

圖12 實際地震剖面

圖13 實際地震剖面四種方法的去噪結果

圖14 實際地震數據四種去噪方法的殘差剖面
為了有效地壓制地震隨機噪聲,本文提出了基于卷積降噪自編碼器的地震數據去噪方法。該方法利用卷積降噪自編碼器的特性從含噪的地震數據中自適應地學習地震信號的特征,從而濾除較強的隨機噪聲。由于使用無監督學習,本文的去噪方法不需要標注無噪的地震數據,可以更加靈活應用。合成數據和實際數據的應用結果表明,與MSSA、小波變換、f-x反褶積方法相比,本文方法去噪效果最好。
然而,本文方法雖保證了去噪效果,但效率較低,如何提高計算效率需進一步研究。