徐雷良 徐維秀
(中石化石油工程地球物理有限公司勝利分公司,山東東營 257000)
地震勘探技術的發展對地震資料質量監控技術的要求越來越高。早期,僅憑肉眼和經驗查看監視記錄每天即可完成二維地震數十道、上百道的單炮質量監控。地震勘探技術與地震采集設備以及計算機技術的發展催生了現場地震資料處理技術[1],并以此作為現場延時質控的重要手段。隨著高精度、高密度三維地震勘探技術的出現以及地震采集設備的不斷升級,陸續出現了地震資料現場實時質控技術[2-3],并研發了大量軟件成果[4-7],完全改變了依靠監視記錄和部分資料抽檢進行人工定性監控模式,現場實時質控技術具有比較全面、定量化及相對科學的特性[7]。以小面元、大道數為典型特征的“兩寬一高”與高效地震采集技術的發展應用在持續推動技術進步的同時,也引起了數據量的急劇攀升,亦即俗稱的“海量地震數據”。近年來,三維區塊部署的單炮數據量動輒數百兆字節,而相鄰兩炮激發的時差已在半分鐘內(井炮),甚至僅有數秒(可控震源),因此傳統定性質控模式很難有效監控海量地震資料,現有的定量化監控技術與評價軟件面臨巨大挑戰[7-8]。地震資料評價技術是質量監控技術的重要組成部分,二者同步發展。從最初人工定性分析發展到基于標準進行多因素評價[4-5,7],再發展為基于單個屬性的資料評價[2-3],直到如今多元地震屬性綜合統計分析評價[6-7],逐步形成了由激發、接收、環境噪聲及地震屬性等全方位要素參與的評價體系,特別是基于地震屬性的資料評價模式已由單炮記錄面貌轉向內部特征,為目前油氣勘探開發所急需的高精度、高分辨率地震資料提供了更為可靠的質量保障。地震記錄一般是在連續地表與地質條件及相同激發與接收環境下獲得的,因此各炮之間存在天然的、隱性的聯系,需要一種自學習算法尋找其潛在的關系,以快速完成單炮記錄品質評價。目前,人工智能[9-10]已在許多領域取得成功,顯著地改變了人們的生產、生活方式。它在地震資料評價方面也有一定應用成果,但其著眼點主要是針對地震成果數據[11-13],在現場資料評價方面的應用才剛剛起步[14]。本文首先討論了目前常用的單炮記錄評價理論方法,接著探討了基于隨機森林(Random Forest,RF)[15-16]的海量地震資料智能評價流程及其關鍵技術。
國家標準[17]和一些行業標準、企業標準中對地震資料分級制定了明確的技術規范,這些規范是對地震儀器、設備、激發與接收等各種因素性能指標的限定,是多年地震勘探實踐所形成的確定性指標。例如,TB時差、不正常道數量或占比、斷排列數、震源畸變超限等。根據標準,把這些參數硬性指標的考核稱為確定性評價模型。目前,通用或商用監控軟件[7,18-20]全部采用了該模型。這類確定性評價模型專注于施工因素監控,但并不能充分反映地表與地質、環境以及偶然因素對地震資料的影響,該評價模式并不對單炮記錄品質進行評判。
這種模型是通過新老資料對比確定地震屬性閾值,利用單一屬性的閾值是否超限進行資料分級[3],該模型的優勢在于針對性強,對于特定油氣勘探目標資料品質分析具有指導意義。但不同地震屬性體現資料的不同特征,且每種地震屬性對資料品質的反映具有片面性和模糊性,依賴單一地震屬性判定原始單炮記錄合格與否顯然是不科學的。
多元屬性單炮記錄評價的實質是多元判別分析問題,以下先討論兩級分類。

(1)
(2)
式中Σ1、Σ2分別為G1和G2屬性的協方差矩陣。
生產炮合格判定的準則可描述為
(3)

(4)
式(4)為單炮記錄兩級分類判別準則。如果做三級分類,可增加一個閾值。
實際生產中,也可采用品質好的生產炮替代試驗炮。為了確保協方差矩陣的秩存在,炮數應大于地震屬性個數,一般選擇最近采集的20~30炮為宜。考慮到多線束施工模式,這些炮應兼顧到每束線、每個排列,空間分布應相對均勻,從而使其更具代表性。如果選取一條優質生產炮記錄S(稱為標準記錄)作為G1的重心,判別準則變為
(5)
式中:μi、si分別表示生產炮X和S炮的第i個屬性;θi為設定的第i個屬性的閾值,且有θi≥0。
所有與S炮具有相似地表和地下地質條件、相同激發與接收及環境因素的生產炮以式(5)為判別準則。但是,一旦與以上條件不符,如不同激發藥量,就需要建立新的炮集重心。因此,同一個工區可建立多個區域,每個區域形成一個炮集G1,每個炮集只有一條標準記錄(重心)。圖1為據此開發的監控軟件M[8]所設計的多區域海量地震資料評價流程。
多元屬性評價模型理念易于接受、方便計算機實現,適于現場實時監控與評價。工程技術人員利用經驗并結合老資料可檢驗分類效果,通過標準差、方差對監控結果進行統計分析,并將結果疊合在遙感影像上,便于全區資料分析,指導地震采集施工。圖2為M軟件在某工區的合格炮能量分布圖(背景為衛星照片),可見單炮能量與沙丘高程呈正相關。

圖2 某工區合格單炮能量分布(背景為衛星照片)
多元屬性評價單炮的分類模式隱含著“異類即錯”的思想,目的在于嚴格實時監控廢炮,以便及時補炮。該模型的主要局限在于閾值θi的定義,主觀性太強,難以適應多變的地震地質條件,生產中不易把握且極易引起爭議。
人工智能是利用數字計算機或者數字計算機控制的機器開發用于模擬、延伸和擴展人類智能的理論、方法、技術及其應用的一門新興技術科學[9,21]。實現單炮記錄智能評價有多種途徑,但需要結合應用領域知識才能獲得正確的解決思路。
地震屬性研究已產生了豐富的研究成果,定義的地震屬性多達幾百種[22],其中振幅、能量屬性就有30種之多。海量地震資料采集單炮數據量大、炮數多,但提取的地震屬性,特別是反映單炮記錄品質的基本屬性相對較少。表征野外單炮記錄特征的屬性可分為單炮、單道、初至前、初至區及目的層等的能量、頻率、信噪比等。多個工區的實驗分析表明,同一工區的單炮記錄屬性大多呈高斯分布或偏態分布(圖3a),這一特征為地震屬性的數據預處理和統計學分析提供了數學基礎。
地震屬性體現單炮品質的程度不同,其間相關性差異較大。圖3b是該工區炮集能量與目的層能量對比圖,圖中藍色折線為炮集能量分布,黃色折線為目的層能量分布,顯然,這兩類能量間具有較強的相關性。一般地,機器學習應避免相關性強的屬性參與。通過對這些屬性所反映的單炮品質深入挖掘,發現其潛在聯系,進而形成分類模型。

圖3 某工區地震屬性分布特征(a)目的層能量分布;(b)炮集能量與目的層能量曲線對比
圖4為基于RF的單炮記錄智能評價流程。使用前期勘探成果及試驗炮建立初始樣本集,提取樣本屬性并構建協方差矩陣,求解該矩陣的特征值和特征向量,利用主成分分析法(該步可選),在剔除強相關屬性后,將對地震資料品質更具敏感的屬性挑選出來,基于這些優化屬性并結合廢品庫,擴增樣本以滿足機器學習樣本數量;對訓練集樣本進行RF訓練,如果沒有通過驗證,則調整參數后重新訓練;輸入生產炮,按RF分類,在模型評估后,如果沒有達到精準度要求,則調整參數處理后重新進行分類;如果達到精準度要求,在輸出分類結果后檢測樣本集是否完備,若需要則把生產炮作為學習樣本補充到樣本集中,重新組成模型訓練,否則,關閉訓練模型,陸續對生產炮進行自動分類。

圖4 單炮記錄智能評價流程圖
樣本集是人工智能學習的基礎,必須具有大量代表性及多樣性的樣本所建立的分類模型才能防止過擬合[15,23],且各類別樣本數目盡量平衡,否則,樣本數特別少的類別分類精準度低。
利用以往勘探中地理位置鄰近或地表、地質條件及激發與接收因素相似的地震采集工區成果,抽取具有代表性的單炮記錄,如一、二級品記錄、低頻炮、低信噪比炮;廢炮庫是由不同激發條件和接收因素以及在各種地表地質條件下所采集的不合格單炮組成,如斷排列炮、串感炮、噪聲炮等;試驗資料具有當前工區地震激發與接收的廣泛代表性,可將其作為一、二級品樣本以減少對前期成果樣本的過度依賴。以上這些單炮組成初始樣本集。
在智能評價建模應用初期,初始樣本集普遍存在樣本不足的情況,需要擴增樣本,在增加樣本數量時應盡量避免由此造成的過擬合問題,擴增渠道包括對部分樣本做樣本增強技術[23-24]及納入后期正確分類的生產炮,擴增方法一般通過數學變換或增加噪聲方式實現。
由于高斯白噪的功率譜密度服從均勻分布,幅度分布服從高斯分布,利用高斯白噪聲對原始樣本集進行重構,形成新樣本集。假設地震波有效信號為W(t),時間為t,環境噪聲為H(t),高斯白噪聲為nG(t),則重構信號Y(t)為
Y(t)=W(t)+H(t)+nG(t)
(6)
在樣本擴增時,對nG(t)做如下限定
-E(Y)≤λE(nG)≤E(Y)
(7)
式中:E(Y)為重構信號能量;E(nG)為高斯噪聲能量;λ為約束因子,|λ|≤1。
為了更好地反映特定工區中的一些特殊勘探目標要求,在試驗炮屬性提取后,按照高斯白噪聲分布規律,在限定范圍內由試驗炮重構新屬性。設試驗炮數為M1,新增樣本數為M2,于是,新增樣本i(i=1,2,…,M2)的屬性值w′i為
(8)
式中:wj為第j個試驗炮的屬性值;nGi為高斯白噪聲因子。式(8)中的λ確定了新樣本類別,由勘探目標及工區地表地質條件等因素確定。
圖5為LJ工區樣本擴增10倍前后單炮能量與最小優勢頻率對比,定義|λ|≤0.20為一級品,0.25<|λ|≤0.50為二級品,0.55<|λ|<1.00為廢炮。圖中橫軸為單炮能量的自然對數值,縱軸為最小優勢頻率(Hz)。需要說明的是,此處出現了0.20~0.25、0.50~0.55的數據間隙,這是因為統計分析認為該范圍內生成的新樣本存在二義性(即可能為上一級,也可能為下一級)。

圖5 LJ工區樣本擴增前后單炮能量與最小頻率交會圖

w′p=xi+rand(0,1)×(yk-xi)
(9)

將原始廢炮與二級品樣本結合(式(9)),比單獨增加新廢炮樣本方式(式(8))更能改善樣本集性能,提高分類效率。
3.4.1 分類建模算法
基于RF單炮記錄分類建模過程如下:
(1)從原始樣本集G1中以樣本放回方式隨機抽取M個樣本組成訓練集G,按如下過程遞歸生成決策樹:
1)從N個地震屬性中采用放回方式隨機抽取K(K 2)在具有K個連續屬性的M個樣本中求最優屬性,以最優屬性建立分支節點; 3)分別判斷分支節點的左右支樣本集中各樣本的類別標簽(一級品、二級品和廢炮)是否屬同一類,或是葉節點,如果不是,K=K-1,返回2); (2)重復步驟(1)P次,生成P棵決策樹,形成RF; (3)對于生產炮,遍歷RF的每顆決策樹,統計每棵樹的分類結果,取最多的類別為該炮類別。 3.4.2 連續性屬性的分支節點構建 基于RF的單炮記錄分類最基礎也是最重要的工作是分支節點的建立。 通常,決策樹采用離散值作為節點,而地震屬性是連續數據。為此,對于由M個樣本組成的訓練集G,若每個樣本只取K個屬性,則G可表示為G={(xi,1,xi,2,…,xi,K,li)|i=1,2,…,M},其中,xi,j為樣本i的第j個屬性,li為樣本炮i的類別標簽。 為了從K個地震屬性中最優構建決策樹的分支節點,定義信息增益作為決策樹最優屬性的衡量指標。地震屬性j的信息增益定義如下 (10) (11) 式中pk為第k(k=1,2,3)類(分別對應一級品、二級品和廢炮)樣本在樣本集G中的占比。 3.4.3 RF單炮分類建模參數 決策樹數目P決定了RF規模,也體現RF分類性能。理論上,P越大,分類效果越好[25],但計算量會隨之提高。通常,參考樣本擴增后的樣本數及其屬性數確定P值,如果這些數目較多,決策樹的數目可相對少一些,一般以一百到數百棵為宜。 僅從決策樹角度看,為減少異常噪聲影響,防止過擬合,需要對決策樹剪枝處理[23,25],利用以下參數進行預剪枝:最大深度、內部節點劃分所需最小樣本數和葉節點最小樣本數,這些參數的選取和調整參數的順序與具體數據分布有關,可根據局部尋優方法依次確定[26]。文獻[16,23,25]說明:RF中兩個隨機性(隨機樣本和隨機屬性抽取)的引入使分類算法完全可避免過擬合現象,況且樣本集擴增已采取了多樣性增強措施。但考慮現場計算能力,也可對決策樹通過預剪枝以減少計算量。目前,一些開源實用開發庫[27]已提供成熟的算法較好地優化這些參數,本文不再探討。 3.4.4 單炮記錄RF分類結果評估 在上述算法中,構建所有決策樹使用了P×M個樣本,但其中包含大量相同的樣本。因此,從概率上分析,樣本集中仍有36.8%的樣本未參與訓練[28],可用作驗證樣本。 利用單炮分類正確率(C)和廢炮識別率(R)作為驗證分類標準,其中,后者必須達到對廢炮的完全識別(100%),它們分別定義為 (12) (13) 式中:M5為驗證樣本總數;Uk為驗證樣本經RF分類后k類樣本的正確分類數;M6是驗證樣本中的實際廢炮總數;U3是驗證樣本經RF分類后正確分類的廢炮數。 人工智能技術如今發展迅速,已建立了多種開源的機器學習平臺、系統、框架、工具包和類庫等。利用Scikit-learn 0.21.2開源庫[25],實現了單炮記錄分類算法,并根據現場計算機配置自動調整線程并行數以提高性能,該算法已集成到M軟件中。 利用中國西部沙漠ZH6J工區資料進行應用測試,共提取了18種地震屬性,但沒有使用圖4流程中所提的主成分分析法做參數優化。通過樣本增強與吸收生產炮,建立了4500炮的樣本集。在RF模型訓練時,以分類正確率C作為分類泛化能力的檢測依據。參數按如下順序調優:首先確定決策樹的數目P使算法穩定;再確定決策樹的最大深度和內部節點劃分所需最小樣本數以控制算法復雜度;然后,聯合調試內部節點劃分所需最小樣本數和葉節點最小樣本數以增強決策樹的泛化能力;最后,獲得最大隨機屬性數K。在完成訓練后對生產炮自動分類,并與人工分類結果對比,表1是兩次統計結果。對某天采集的600炮數據自動分類,與人工分類結果相比,正確率達到97.33%,且準確識別出當天全部廢炮。在參數調優后,對工區所有56797炮自動分類(已無廢炮),正確率達98.70%。需要指出的是,人工評價與實際分類存在一定誤差。 表1 ZH6J工區單炮記錄分類結果統計表 多因素確定性評價模型是地震采集工程現場質控的重點內容之一,是其他評價模型不可替代的;多元屬性判別分析評價模型設計思路簡明,便于發現廢炮,適于實時單炮監控。以上兩種模型相結合一般能夠及時發現異常道、異常排列和廢炮。智能評價模型從眾多已有標簽的樣本及其各類地震屬性中學習,分類方式客觀,可用于實時監控單炮質量,也可用于單炮的延時分析評估,在標準記錄選擇與閾值設置困難的勘探程度相對較低地區,該模型優勢尤其明顯。 以上三種評價模型適用于不同地震采集方式。海上或過渡帶、多波多分量地震資料等有其獨特性,主要體現在地震數據記錄方式,可根據各自的特點首先進行資料預處理,然后采用上述模型分類處理。例如,雙檢單炮記錄包含了陸檢和水檢分量,需把單炮記錄解編為陸檢和水檢單炮數據結構后[28],再分別建模分類。 影響海量地震數據采集實時質控的因素主要包括網絡傳輸速率、單炮數據解編與屬性提取、分類評價等。實驗表明,目前決定實時質控效率的關鍵是傳輸。例如,10萬道接收的單炮若采用7s長度和1ms采樣,以SEGD格式存儲單炮數據量約為2.6GB,若采用野外較通用的千兆網傳輸,該單炮數據傳輸與存儲約耗時31.32s;若采用先進的光纜傳輸與高效的固態硬盤存儲大約需要5.9s。因此,應專門研究這種瞬時大數據流和持續大數據量的數據傳輸與存儲模式,以適應實時質控需求。 不同于數據傳輸受限于網絡和硬盤讀寫等物理因素,單炮數據解編與屬性提取采用內存映射、多線程并行等綜合優化技術后實際數據處理能力顯著提升[29],耗時主要在時間域到頻率域變換過程。就單純的單炮記錄分類模型而言,多因素確定性評價模型耗時主要在一些定量化分析上[30];多元屬性判別分析模型主要耗時在區域劃分和標準記錄的選取,生產炮分類時僅僅是指定屬性門檻值的比對。上述兩類模型耗時幾乎都在毫秒數量級。而智能評價模型耗時主要在分類建模階段,由于需要反復建模與驗證,一般可在采集試驗后完成,但評價模型一旦建立,實際生產炮的分類可在秒內完成。 總之,在時效性方面,單炮傳輸時間在數秒到十數秒,甚至數十秒,解編和屬性提取一般2s內可完成,而分類過程不到1s。 多因素確定性評價模型與各種變形的基于多元屬性判別分析的單炮評價模型,已在地震采集工程現場質量監控中發揮了重要作用。不過,多元屬性判別分析模型所基于的標準記錄與閾值定義主觀性太強,三級判別更加困難。人工智能單炮評價方法匯集以往的勘探成果,利用試驗炮和廢炮擴充樣本,既保持了各炮的獨立性,又增加了樣本的多樣性,提高了樣本集的整體性能,彌補了不平衡樣本集可能帶來的較大分類誤差;基于RF的單炮記錄分類建模利用兩個隨機性引入,避免了人工智能最易出現的過擬合問題,增強了算法的穩定性,且該模型計算過程易于高度并行化處理,評價結果客觀,適用于海量地震采集現場質量監控。 地震采集是復雜的系統工程,利用人工智能對地震資料品質評價需要綜合考慮各方面的因素,原始樣本庫建設、模型分類效果評價[31]及其物理解釋等是下一步研究方向。 特別感謝中石化石油工程地球物理有限公司勝利分公司石翠翠女士,為本文研究提供了RF單炮分類實驗結果。



3.5 模型在ZH6J工區應用及效果

4 模型關系及其適應性與時效性
5 結論及認識