劉佳楠,武 杰
(1.中國科學技術大學 近代物理系,安徽 合肥 230026;2.中國科學技術大學 核探測技術與核電子學國家重點實驗室,安徽 合肥 230026)
在地震勘探過程中,檢波器最先接收到的有效地震波稱為“初至波”。初至波的拾取,是地震數據處理的一個基礎而又重要的工作,在折射波靜校正、垂直地震剖面解釋和地震層析成像等過程中起著重要的作用。
隨著地震勘探采集技術的不斷提高,單位地震勘探工程得到的數據量隨之劇增。同時,勘探的地形日漸復雜,初至波波形變化較大,各種波相互干擾,常常難以獲得準確的初至時間,一直是初至拾取方法的難題[1]。因此,需要耗費大量的人力資源來進行初至波的拾取工作,這極大限制著數據處理的效率。
在地震記錄中,初至波作為純噪聲與有效信號之間有明顯的分界,具有能量強、起跳明顯的特點,與圖形的邊界特征類似。
李輝峰等人[2]和牛沛琛等人[3]使用圖像處理技術來檢測初至波,把地震記錄數據轉化成灰度圖,再對灰度圖進行二值化處理。基于圖像處理技術對于二值化閾值的確定要求很高,在初至波與背景噪聲的邊界模糊的時候,無法得到很好的拾取效果。盡管牛沛琛等人采用自適應閾值算法來確定二值化閾值對于信噪比高的地震數據能取得不錯的效果,但是當信噪比降低,出現異常道時,需要通過人工多次交互確定二值化的閾值。
深度學習是機器學習中一種基于對海量數據進行表征學習的方法,當前已經成為機器學習領域富有生命力的研究方向[4],在圖像處理、文本處理和語音識別等方面取得了成功的應用。
2014年的ImageNet大規模視覺識別競賽(ImageNet Large Scale Visual Recognition Challenge, ILSVRC),SZEGEDY C等人[5]提出的GoogleNet獲得圖像分類組第1名,將錯誤率從15.3%降到了6.67%。語音方面,2017年8月,微軟亞洲研究院將語音識別錯誤率從5.9%下降到5.1%,超過了專業的速記員[6]。
2015年LONG J等人[7]首次利用全卷積神經網絡(Fully Convolutional Networks, FCN)來進行圖像語義分割。該結構實現了像素級別的預測,分割的效果遠遠高于傳統的分割算法。
本文結合初至波的特點,參考FCN在圖像語義分割和邊緣檢測的成功應用,把初至波拾取看成二分類問題,利用全卷積神經網絡來進行拾取。
接下來對FCN進行介紹,然后說明數據的處理流程,最后對三種不同深度的網絡進行測試,將性能最優的結構與TomoPlus拾取的結果進行對比。
如圖1所示,FCN是在卷積神經網絡的基礎上進行延伸,將全連接層全部換為卷積層。在最后一層池化層之后開始連接反卷積層,池化層實現下采樣,而反卷積層實現上采樣,逐漸地將數據恢復到原來大小。

圖1 FCN結構圖
這里以具有三層卷積層網絡3layer為例來對FCN進行介紹,如圖2所示。在此說明一下,參考SIMONYAN K等人[8]提出的VGG網絡結構的設計思想,每一層卷積層由連續多個卷積核構成。本文搭建的網絡結構中,池化核大小均為2×2,除了最后一個池化層采用最大值池化,其他池化層均采用平均池化。卷積核大小均為3×3,反卷積核大小均為2×2。
如圖2所示,每經過一層池化層,數據的長和寬均變為之前的1/2。對最后一層池化層的輸出進行上采樣,此時反卷積之后得到的數據的長和寬為反卷積前數據的長和寬的2倍,與第二個池化層(Pool2)輸出的數據尺寸一樣,將這兩層數據相加,得到融合層Fuse1,目的在于融合更多前層的信息,增強模型的預測效果。同理,一步一步地進行反卷積,直到恢復到輸入數據的大小。可以看出,FCN對輸入數據的大小并沒有要求。
對多個地震勘探數據文件進行解析,得到多個真實地震勘探共炮集數據,地震道數在300~400道不等。然后手動分類標注數據,初至波為一類,背景為一類。在標注過程中,本文標注初至時刻之后第一個半波,而不是初至時刻,因為多個點攜帶的信息更多。然后將樣本裁剪成統一大小的樣本。
對于不同的炮、不同的勘探地形所測得的地震數據的差別很大,甚至差幾個數量級。對數據進行訓練時應該保證數據有相近的尺度,能夠有效地幫助梯度下降算法更快地收斂。因此,需要對數據進行歸一化。本文采取先對每個數據取絕對值,然后再采用“簡單縮放法”,即對每一道地震數據進行統計,選取最大值和最小值,兩者相減,得到數據的長度。然后每個樣本依次減去最小值,之后再除以數據的長度。歸一化公式如式(1)所示:
(1)
式中,x*為每一道樣本點歸一化后的數據值,xi為每一道樣本點的絕對值,xmax和xmin分別為每一道樣本點絕對值的最大值和最小值。
本文中搭建了三種不同深度的FCN,圖2為3layer結構,依次增加卷積層和池化層,對應地增加反卷積層和融合層,得到4layer和5layer結構。測試樣本為20炮地震數據,每一炮的道數各異。
評價這三個網絡性能的指標為IoU(Intersection over Union)和拾取率(Picking Rate, PR)。

圖2 3layer結構圖
在此強調一下,每一地震道的初至信息標注的是一個半波,模型預測的也是多個數值。IoU表示兩個集合的交集的元素個數與并集的元素個數之比,IoU值越大,表示測量與預測之間的相關度越高。
在本文的實驗中,對于每一個測試樣本,先計算每一道地震道的IoU值,然后求平均值作為該樣本的IoU值。計算公式如式(2)所示:
(2)
式中,n表示每一個樣本中地震道的道數,Apred i和Atrue i分別表示每一道地震道模型預測和手工標注的情況。
拾取率PR的計算如式(3)所示:
(3)
其中,npred表示模型拾取的道數,ntrue表示手工拾取的道數。
不同模型測試20炮數據的IoU值如圖3所示。

圖3 不同深度的網絡的IoU值
拾取率的平均值和方差情況如表1所示。

表1 三種不同深度的網絡拾取率平均值和方差比較
從表1可看出,4layer以94.5%的拾取率居這三種網絡結構之首,其方差值也最小,說明4layer對于各道的拾取率的離散程度最小。
綜上,從IoU和拾取率這兩個指標對三種不同深度的網絡結構的性能進行比較,4layer的性能最好。
TomoPlus是GeoTomo公司的一款地震數據處理軟件,主要用于解決二維及三維靜校正與動校正問題。實驗中利用TomoPlus的時間拾取模塊來自動拾取,拾取的是初至波波峰所在的位置。
3.1小節提到,4layer模型拾取的是多個數值,從4layer模型拾取的位置所對應的地震數據中挑選出幅度值最大的數值,該值對應的位置作為初至時刻。
評價4layer與TomoPlus的性能的指標為擬合度和拾取率。拾取率與3.1小節中拾取率的計算方法一致。
擬合度的計算,以手工標注的初至信息的波峰為基準,分別計算每一炮中TomoPlus和4layer模型拾取的結果與手工標注的距離,計算公式如式(4)所示:
(4)
式中,Ptrue表示手動拾取的位置,Ppred表示TomoPlus或4layer拾取的結果,n表示每一炮中地震道數目。
TomoPlus和4layer拾取率和擬合度如表2所示。

表2 4layer與TomoPlus性能比較
從表2可看出,在拾取率方面,兩者相差不大,在擬合度方面,TomoPlus拾取結果的擬合度的離散程度比較大。因此,4layer性能更優,具有更好的穩定性。接下來以兩份炮集數據的拾取情況來進行說明。
圖4為某一背景噪聲較低的共炮集數據圖,圖5和圖6分別為TomoPlus和4layer的拾取情況。可以看出,在背景噪聲較低時,兩者都能很好地對初至波進行拾取。
圖7為某一背景噪聲較高的共炮集數據圖,圖8和圖9分別為TomoPlus和4layer的拾取情況。可以看出,背景噪聲較高時,TomoPlus拾取的情況不如4layer,如圖8中橢圓標識所示,TomoPlus沒能很好地對地震道進行拾取,出現拾取錯誤和拾取遺漏的問題。而4layer的表現相對高效穩定。
在地球物理領域,利用深度學習技術在地震油氣儲層預測、地震去噪、地震斷層識別、地震速度拾取等方面已有相關的研究,然而,并不像圖像識別和語音識別領域一樣取得成功的應用,目前仍處于起步階段。
本文提出了利用全卷積神經網絡來拾取初至波,這是初至波拾取的一種新的方法,也是在地球物理領域使用深度學習技術的一個嘗試。在對原始的地震數據進行剪裁、歸一化和標注處理后,使用三個不同深度的神經網絡分別對數據進行訓練,然后對這三個網絡的性能進行測試,將性能最優的網絡與商業地震軟件TomoPlus自動拾取的結果進行對比,結果表明,利用全卷積神經網絡拾取初至波具有一定的可行性。當前得到的模型,其性能還有很大的提高空間,接下來還需要使用更多類型的地震數據來對模型進行訓練,提高模型的泛化能力。

圖4 某一背景噪聲較低的共炮集數據圖

圖5 背景噪聲較低時TomoPlus的拾取情況

圖6 背景噪聲較低時4layer的拾取情況

圖7 某一背景噪聲較高的共炮集數據圖

圖8 背景噪聲較高時,TomoPlus的拾取情況

圖9 背景噪聲較高時,4layer的拾取情況