







關鍵詞 生成對抗神經網絡;代理模型;深度學習;地層沉積過程正演模擬
0 引言
地層沉積過程正演模擬比傳統的基于統計學的建模能更真實地刻畫地下地質體的分布規律,但條件化方面仍需改善。地層沉積過程正演模擬以質量守恒為基礎,考慮了沉積物的供給、產生、搬運、剝蝕和再沉積等地質作用,模擬結果符合地質規律[1]。正演模擬的輸入參數有初始地形、海平面曲線、沉積物搬運系數、沉積物供給曲線、基底沉降曲線、碳酸鹽巖生產的相關系數,以及這些系數隨時間和空間的變化等[2]。由于這些輸入參數很難通過現有的觀測手段獲得,使得模型存在較大不確定性,與井數據和地震解釋數據吻合難度大,導致該建模技術在實際油藏地質建模中應用推廣緩慢。
地層沉積反演模擬技術提高了地層沉積過程模擬的實用性。Lessenger et al.[3],Cross et al.[4]提出了地層沉積反演模擬的基本框架,認為地層沉積反演模擬包括地層沉積正演、模擬結果和觀測數據之間的比較,以及自動調整正演參數的最優化算法。基本思路是:以有限的、能反映地層分布特征的觀測數據,比如井上鉆遇的沉積微相、地震層位解釋等,反推地層沉積正演模擬的輸入參數,實現模擬結果與觀測數據吻合,然后進行地層空間展布的預測。地層沉積模擬的基本過程是從一組初始的過程參數開始執行正演模擬,將模擬結果與觀測數據比較,優化算法按照一定的策略調整過程參數,再次執行正演模擬,直到模擬結果與觀測數據的吻合度達到門檻值。前人在這些方面做了很多研究,涵蓋正演模擬技術、比較技術和優化算法等[5?11]。
在反演系統中,通常正演模擬的計算量很大,是最耗時的計算部分。代理模型是工程問題中常用的一個優化方法。當實際問題計算量很大、不容易求解時,可以使用計算量較小、求解速度快的代理模型替代原模型,加速優化過程,比如多項式法、二次響應曲面和克里金方法等。盡管代理模型是復雜系統反演的常見處理方式[12?13],但針對沉積模擬代理模型的相關研究未見報道。
與油氣藏滲流、地下水流動、數值天氣預報等模型類似,地層沉積反演模擬也是一個復雜的非線性系統,本質上求解這些復雜系統都是大規模高度非線性問題的優化問題,需要借助高效的優化算法反復進行迭代求解,其中單次正演模擬求解耗時長、非線性強是影響問題快速求解的主要瓶頸。對于這類問題,代理模型是用另外一種更快的數學方法產生與原模型誤差最小的結果,以達到快速迭代。目前,已經有一些替代正演模擬的方法,這些模型替代非線性較弱的模型時效果較好,對復雜性強的模型仍無法替代[14],深度神經網絡具有很強的模式表達能力,為代理模型構建提供了新的途徑,也為快速的地層沉積反演模擬提供了可能。
最近幾年發展迅速的生成對抗人工神經網絡方法具有很強的模型生成能力,已經用于模擬復雜地質模型的生成和油氣藏數值模擬中替代模型的建立。神經網絡主要分為判別網絡和生成網絡,判別網絡建立高維參數向低維參數的映射,常用于分類、聚類和判別問題等;生成網絡建立低維參數向高維參數的映射,常用于回歸和模型生成問題。復雜三維地質建模可以通過生成網絡實現。常見的生成網絡有貝葉斯網絡、變分自編碼器、玻爾茲曼機、生成對抗網絡等,其中生成對抗網絡的應用最廣泛。
相比于其他方法,生成對抗網絡具有更強的模式生成能力,可以生成更逼真的模型,但存在樣本需求量的問題,不適合樣本少的情況。對于地下地質類問題,難以獲取真實的三維模型作為樣本,通過正演模擬方法合成樣本是深度學習技術在該領域落地應用的主要方式。在沉積反演模擬系統中,樣本通過正演模擬器生成,不存在樣本不足的問題。使用生成對抗網絡,有望提高反演的收斂速度,解決目前的效率問題。
本文在地層沉積反演模擬基本框架、生成對抗網絡基本原理介紹的基礎上,提出了基于生成對抗網絡的地層沉積代理模型構建方法,并通過實例研究說明該方法的可行性,最后討論了該方法存在的局限性和未來發展的方向。
1 生成對抗網絡代理模型構建方法
1.1 地層沉積反演模擬基本框架
地層沉積反演模擬包括生成三維模型的正演模擬器、模擬結果與觀測數據比較的誤差計算器,調整正演模擬輸入參數的全局優化器。優化器是整個系統的核心驅動力,它根據誤差計算器的響應不斷調整正演模擬輸入的參數,使模擬結果與觀測數據吻合度最高。
地層正演模型的輸入參數考慮了邊界條件和初始條件,它們描述了可容空間、沉積物剝蝕、供給、生產、搬運、堆積以及壓實作用等。輸出結果是模擬的地層和一系列的古環境條件,比如整個演化歷程的古地貌、沉積間斷等。區別于碎屑巖地層,碳酸鹽巖沉積體系的形成、演化和消亡,除了受構造活動、海平面變化、氣候條件、海洋環境和水動力條件等多種作用于碎屑巖沉積體系的共同因素的直接或間接的控制外,還受體系中生物與生態因素的重要控制[15?17]。此次采用了自主研發的碳酸鹽巖地層沉積正演模擬方法,它考慮了最新的碳酸鹽巖工廠、生態可容空間和層序地層學等基本原理,建立了基于環境能量和生物碳酸鹽產能的地層沉積正演模擬方法和軟件系統,可以模擬臺緣帶、緩坡、孤立臺地以及復雜地形下的碳酸鹽巖沉積體系等[18],限于篇幅問題,具體的正演模擬方法不再展開。
模擬結果與觀測數據的比較方法依賴于觀測數據的多少及類型,往往是較少的觀測資料,比如少量的幾口鉆井資料、分辨率較低的地震解釋資料等。為了降低地震資料引起的不確定性,本文選擇井上的解釋的沉積相與實際模擬的過井處沉積相的均方根誤差作為反演的目標函數。對于復雜非線性且不可求導的非線性系統,需要采用啟發式優化算法,比如模擬退火、差異演化、粒子群算法等,通過多參數下的優化算法收斂性能對比,基于數值梯度的復合多重形優化算法(SCE-UA)在多參數反演方面具備更多優勢[19]。
由于整個地層沉積反演模擬系統非線性極強,收斂難度大,需要的迭代次數很多,導致效率較低。提出了基于生成對抗網絡沉積模擬代理模型構建方法,替代其中的正演模擬過程,充分利用神經網絡全程可微分的性質,提高整個反演系統的收斂性能。
1.2 生成對抗神經網絡方法
生成對抗神經網絡為地質建模提供了新方法。隨著深度學習等人工智能技術的發展,地質建模技術也朝著智能化方向快速發展。由于生成神經網絡與地質建模之間的高度相似性,這項技術在地質建模領域快速落地應用。在多層神經網絡框架下,地質建模是一個生成問題,油氣藏地質建模通常是輸入稀疏的、高精度的井點數據,在稠密的、相對低精度的地震數據約束條件下建立高精度三維網格模型,可以視為生成神經網絡問題,其中由Goodfellow et al.[20]提出的生成對抗神經網絡(Generative Adversarial Networks,GAN)是解決這類問題的主要方式。
生成對抗網絡是一種適用于任意形式復雜分布的無監督對抗式深度學習方法。它一般由兩個模塊構成:生成模型(Generative Model,簡寫為G)和判別模型(Discriminative Model,簡寫為D)組成,生成模型也稱為生成器,判別模型也稱為判別器。生成模型G根據一系列特征,可以是數值或者字符串等,來生成一組數據,生成的數據可以是圖片、影像、聲音等,也可以是地質模型。生成的數據和真實數據相比要盡可能相似。判別模型D判斷生成模型輸出的結果是否和真實數據相似,其目標是將生成數據和真實數據盡可能分開。G和D兩個模型在對抗性訓練中共同進步,G生成的數據越來越逼真,D的辨別能力越來越強。GAN訓練終止的條件和一般的網絡有所區別,并非以損失函數達到某一閾值作為終止條件,而是人工判斷生成模型的結果逼真程度是否還在持續改善。如果持續多輪迭代不再改善則終止訓練。
生成對抗網絡是目前深度學習地質建模中主要采用的神經網絡[21],為替代模型建立提供了新途徑。對于標準的生成對抗網絡,需要輸入一個低維的隨機數序列得到高維的網絡層,與非條件地質建模過程較為相似,即通過變差函數、訓練圖像或目標體長寬高等輸入參數得到一系列三維模型實現,這些實現不考慮與井點數據或地震約束數據的吻合情況,但能夠體現較為合理的地質模式。生成對抗網絡深度學習體現了類似過程,通過學習地質模式,利用訓練后的生成器可以得到滿足地質認識的模擬結果。由于神經網絡固有的線性化性質,按照這種方式建立的代理模型,具備更好的反向求導和快速收斂特征。
1.3 基于生成對抗網絡的代理模型構建方法
深度學習模型的訓練需要大量的樣本,不斷擾動沉積正演模擬器的輸入參數,可以獲得大規模沉積模擬模型作為深度學習的樣本。沉積模擬的輸入包括初始地形、碳酸鹽巖產率、沉積物搬運、海平面曲線、構造沉降等相關參數,改變任意的輸入參數都可能產生不同的結果。采用生成對抗神經網絡框架進行訓練,其中生成器接收與沉積模擬一樣的輸入參數,產生二維或三維模擬結果,判別器輸入二維或三維模型,輸出真或假,其中訓練后的生成器即為最終需要的沉積模擬代理模型(圖1)。具體構建步驟如下。
步驟一:分析具體的地質問題,搭建反演模擬基本框架。根據鉆井和地震解釋的地層特征,結合區域地質特征,確定目標地區可能的地層特征和沉積相展布規律。通過反復的正演模擬測試,確定初始地形和構造沉降的基本特征,以及沉積物搬運、碳酸鹽巖產率、水體能量相關參數的數值區間,為樣本生成提供基礎。
步驟二:基于沉積正演模擬器生產大規模樣本。選擇對模擬結果敏感的參數,且盡量涵蓋更大的解空間,通過超立方采樣的方式,產生不同的參數組合,開展正演模擬,建立樣本庫。一個樣本包括輸入的參數和正演模擬的結果,其中模擬結果是二維或三維的相模型,通過離散數值(比如a1、b1、b2、c1、c2、c3,c4共7種相類型)的矩陣表達。隨機選擇其中的80%作為訓練集,20%作為測試集。
步驟三:基于生成對抗網絡的代理模型構建。根據樣本數據特征及生成對抗網絡的要求設計生成網絡和判別網絡的結構,為了更好地捕捉地質模式并增加效率,采用全卷積式網絡,即網絡的核心處理單元均采用卷積和轉置卷積層,每個卷積層和轉置卷積層配套標準化層和非線性層,不采用全連接層。在訓練集上對網絡進行訓練,在測試集上對訓練后的生成器和判別器進行測試,如果生成器或判別器的效果不再改進,則停止訓練。如果訓練后網絡無法生成合理的地質模型則調整網絡結構,甚至回到步驟二生成更多的樣本,直到生成器滿足要求。
步驟四:基于深度學習代理模型的地層沉積反演模擬。將步驟三訓練得到的代理模型(即對抗神經網絡中的生成器)帶入地層沉積反演模擬系統,以計算結果與觀測數據的誤差最小為目標,采用全局優化器不斷調整代理模型的輸入參數,直到得到最優結果。將反演得到的最優參數帶入代理模型,得到最終的地質模型。
地層沉積正演模擬器有很強的靈活性。理論上,可以構建代表任意參數個數和參數區間的代理模型,但它需要樣本太多、網絡的深度也太大,訓練難度大,甚至不可能。但是,針對一定的情況,參數空間會大大減小,需要的樣本也會減少。針對常見的幾種碳酸鹽巖沉積環境類型,比如斜坡、鑲邊臺地、孤立臺地等類型,可以訓練出有針對性、同時又不失一般性的神經網絡代理模型。下面將以巴哈馬灘碳酸鹽巖沉積為例,介紹地層沉積模擬代理模型構建方法及其在反演模擬系統中的應用。
2 實例應用
2.1 巴哈馬灘反演模型基本框架搭建
巴哈馬灘是國內外研究碳酸鹽巖地層沉積的熱點地區,在其西緣斜坡有幾口科學鉆探井和實測的地震剖面,前人在該地區開展了大量研究[22?24]。臺地整體形態、初始地形、構造沉降速度、沉積演化過程等都有比較清楚的認識,也有沉積過程定量模擬的相關研究,但都側重于沉積過程的控制因素分析,缺少精細的沉積過程建模研究。結合地質分析和前人研究成果[25?26],用地層沉積正演的方法檢測地區地震解釋剖面,初步獲取該地區碳酸鹽巖海平面變化、構造沉降、碳酸鹽巖產率等參數,搭建了該地區的地層沉積過程模擬基本框架。沉積模擬范圍為32 km×32 km,時間跨度為5.3 Ma,平面網格數為129×129,總時間步數為100。
通過正演模擬的參數嘗試,獲取了主要參數的分布區間,為生成大量樣本和代理模型構建奠定了基礎。地層沉積正演模擬要輸入的參數有初始地形、構造沉降、海平面變化曲線、碳酸鹽巖產率相關參數、沉積物搬運參數等34個。根據對該地區前期的資料分析認為初始地形和構造沉降的不確定性較低,而海平面曲線、碳酸鹽巖產率和沉積物搬運的相關參數不確定性較大,建立反演模擬系統時確定性較強的參數給了較小的變化區間,不確定性較大的參數給了較大的變化區間(表1)。這34個參數中,第1~4個參數與初始地形有關(沿著斜坡方向均勻分布的個4點,用來插值生成初始地形),第5~11個參數與海平面曲線有關(分別是表示三級和四級海平面旋回的正弦函數的振幅、周期和相位,以及海平面基準值),第12~16個參數與構造沉降有關(沿著斜坡方向均勻分布的4個點,用來插值生成構造沉降面),第17~20個參數與沉積物搬運有關(分別是勢能和動能在X和Y方向的搬運系數),第21~26個參數與產率有關(分別是勢能產率最大幅度、勢能產率遞減系數、透光帶厚度,動能產率系數,動能產率基準值,勢能產率權重),第27~32個參數與水體動能有關(動能幅度、波浪能下降系數、地形消浪能系數、浪基面、風能系數),第33個參數為地層撓曲系數,第34個參數為生物群落系數,各個參數更詳細的介紹可以參考文獻[18]。
2.2 基于沉積正演模擬的大規模樣本庫建立
納入全部34個可調整的物理參數,并通過隨機抽樣生成了大量的樣本,構建了深度學習所需的數據庫。樣本為沉積相剖面相模型及相對應的34個輸入參數,沉積相取值0~7,其中0表示背景值,數字1~7對應圖2中圖例中的a1、b1、b2、c1、c2、c3、c4,表示不同的相類型,該相類型的劃分方案同時考慮了沉積物的水體深度和水體能量。模型以二維矩陣形式表示,矩陣尺寸為100×129,建立了地層沉積過程正演模型樣本庫。通過人工和自動篩選,去除模擬結果明顯不真實不合理的樣本后,該數據庫共計納入訓練樣本416 079個,約占總樣本的83%;測試樣本83 167個,約占總樣本的17%。訓練樣本和測試樣本相互獨立,保證深度學習模型不會陷入過擬合。從訓練樣本中隨機抽取幾個樣本(圖2),可以看出它們具備不同的沉積相結構樣式,體現了樣本包含的沉積模式的多樣性,這9個樣本采用的正演模擬參數具體見附表1。
2.3 基于生成對抗網絡的代理模型構建
通過測試,選擇了改進后的卷積對抗神經網絡GLS-GAN[27]。原始GAN要最小化生成分布與真實分布的KL散度,同時要最大化兩者的JS散度,在數值上會導致梯度不穩定(通常存在梯度消失和梯度爆炸的可能),并且KL散度具有不對稱性,降低了生成器的多樣性,會造成模式坍縮問題。GLS-GAN具備損失敏感的自適應損失函數,在訓練過程中自動調整損失函數,如果某些區域的真實樣本和生成樣本已經很接近,則生成器的優化重點就轉移到真實樣本和生成樣本依然差異很大的區域,給GAN提供“按需分配”的建模能力,解決了原版GAN及其衍生算法的梯度消失和模式坍縮問題。
為了保持物理參數和正演結果的一一對應關系,我們在訓練生成器時還需要考慮逐個像素的均方誤差(Mean Square Error, MSE)。整個網絡均由卷積Conv2D單元和轉置卷積ConvTranspose2d單元組成,不包含全連接層,每個單元配套一個批量標準化層BatchNorm2d和非線性化層ReLU,通過大量測試推薦采用5~8個卷積層,生成網絡和判別網絡的具體結構如圖3。
利用上述416 079個訓練樣本,進行56輪次的迭代訓練,取得了比較理想的效果。將不同訓練階段的網絡應用在測試集的同一套參數上,可以看出不斷優化的模擬效果,相序關系變得更加合理(圖4)。把最終訓練后的網絡應用在測試集,隨機抽取幾個模型,都具備合理的沉積相分布模式(圖5),這6個樣本的輸入參數見附表2。可見相同輸入參數下LS-GAN模型的輸出與地層沉積過程模型的輸出一致性很強,雖然沒有達到完全相同,但是基本實現了合理的相帶組合特征。通過34個參數生成符合條件的相模型本身是個難度很大問題,GLS-GAN很大程度上改善了模式坍縮問題,但訓練難度大、收斂過程不穩定是GAN類方法自身的屬性,無法完全避免。另外,網絡結構、樣本數量,樣本質量等也會影響最終的效果。目前認為形成的替代模型可以用于下一步的反演模擬。
2.4 基于代理模型的反演模擬
在開始真實觀測數據反演模擬之前,先從測試集中隨機選擇樣本進行參數反演。該樣本的參數及其沉積過程模型模擬結果都是已知的,可以用于驗證參數反演是否有效。在水平方向等間距設置了6個虛擬測井,作為反演系統的觀測數據。用觀測數據與模擬結果的均方根誤差作為目標函數,優化器采用上述提到的SCE-UA算法[19]。
用SCU-UA進行了500 000次迭代優化,得到了預期的效果(圖6)。圖6a展示了參數的真實值(灰色虛線)和SCE-UA 算法得到的最優參數值(藍色實線),圖6b展示了SCE-UA優化過程中目標函數的變化,圖6c展示了替代模型LS-GAN給出的地層沉積相,其中虛擬測井位置上的沉積相用真實值(即沉積過程模型模擬值)代替。模擬結果表明,隨著優化過程的進行,目標函數穩定下降并不再降低,表明SCEUA算法已經收斂。然而反演所得到的參數值與參數的真實值有較大差異,且互不相同。這一結果表明地層沉積過程的參數反演是一個高度復雜的問題,存在多個局部極小值。
采用類似的方法進行真實觀測數據的反演。將代理模型加入地層沉積反演模擬系統,替換傳統的地層正演模擬器,實現參數反演。選擇4口科考鉆井的人工解釋的沉積數據為觀測數據,將鉆井穿過網格的像素均方根誤差為目標函數,SCE-UA為反演優化算法,進行參數反演。對于真實數據,我們并不知道測井以外區域的沉積相,也不知道真實的物理參數的值,因此只能靠專家經驗判斷結果是否合理。從反演結果可以看出,使用替代模型反演得到的地層沉積相的層序結構明顯,分布較為合理(圖7)。與基于正演模擬器的反演方法相比,結果一致性較強,效率有大幅提升(圖8)。
3 適應性分析
相比傳統的SCE-UA算法驅動下調直接采用正演模擬器反演,基于深度學習代理模型的反演在效率方面有大幅提升。選取全部34個參數參與優化,為了使SCE-UA算法充分收斂,使用SCE-UA直接優化地層沉積過程模型往往需要不間斷執行一個月。相比之下,基于神經網絡代理模型的優化過程在普通計算機上僅需數分鐘即可完成。基于深度學習代理模型的地層沉積反演模擬在效率方面有了大大提高,但也存在一定的局限性。
代理模型依賴于正演模擬器,而且需要一定的限制條件。代理模型缺乏正演模擬器所擁有的模擬能力完備性,盡管生成樣本時已經考慮了模型的泛化性能,但是由于沉積模擬的參數根本無法窮盡,特別是初始地形和構造沉降參數,因此只能構建限定條件下的模型代理。這也是代理模型方法遜于傳統反演系統的地方。
基于深度學習代理模型構建可以進一步推廣應用。本文實例研究展示的是斜坡和鑲邊類型的碳酸鹽巖沉積在二維剖面上的代理模型,其實也可以進行孤立臺地、潟湖等更復雜地形條件的下的代理模型構建。也有望推廣到三維沉積模擬,不過神經網絡的結構、需要的樣本數量等具體參數也需要進一步探索。本文展示的是針對碳酸鹽巖地層沉積正演模擬的深度學習代理模型構建方法,理論上該方法可以用于其他領域的正演模擬替代模型構建,比如油氣藏滲流模型、地下水流動模型等。
4 結論
(1) 地層沉積過程反演模擬系統是在優化器的驅動下,不斷調整正演模擬輸入參數,提高模擬結果與觀測數據的吻合程度,大大增加了沉積過程模擬建模方法的實用性,但是存在反演系統非線性強、耗時長、效率較低的問題。
(2) 生成對抗網絡具有較強的模式生成能力,在一定條件下,利用該方法建立的碳酸鹽巖地層沉積過程模擬系統的代理模型,具有較強的泛化能力。
(3) 將代理模型帶入沉積模擬反演系統,替換正演模擬器,可以大大提高反演的效率。通過巴哈馬灘西緣斜坡現代沉積的反演模型實例,驗證了該方法的可行性。