李艷輝, 王衍萌
(1.東北石油大學環渤海能源研究院, 秦皇島 066004; 2.東北石油大學電氣信息工程學院, 大慶 163318)
在油田開采過程中,注水是一項被廣泛采用的重要技術,一般通過向油層注水,有效補充地層能量,維持油層壓力,從而提高采收率[1-2]。特別是在油田開發中后期,面臨含水率上升、產量下降等問題,需要快速增加注水,以實現油田的穩定生產[3]。通過在不同產層分別注入適量的水,可以有效維持地層注水壓力,提高油田可持續開發速度,保證原油產量,有效控制生產成本。精細化注水在石油工程中具有重要的應用價值,受到了中外工業界和學術界的廣泛關注,因此如何確定精確的注水量成為了油田注水研究中亟待解決的難題[4]。為此,提出一種基于深度學習的注水流量預測方法。
在深度學習算法中,卷積神經網絡(convolutional neural network,CNN)已被廣泛應用于各種預測或分類問題[5]。循環神經網絡(recurrent neural network, RNN)及長短期記憶網絡(long short-term memory,LSTM)處理具有序列特征的數據非常有效,它們可以從數據中挖掘時序信息和語義信息,從而很好地處理非線性關系[6]。雙向長短期記憶網絡(bidirection long short-term memory,BiLSTM)由正向LSTM和反向LSTM組合而成,可以從序列的正、反兩個方向擬合數據,以達到更高的預測精度[7]。同時,其擴展模型CNN-BiLSTM也廣泛應用于各個領域,如視頻壓縮[8]、交通運輸[9]和COVID-19診斷等[10]。
目前,許多基于CNN和LSTM融合的方法沒有明確地關注每個特征的重要性,從而無法很好地捕捉到特征之間的關聯性和影響程度。而注意力機制(attention mechanism,AM)可以動態地對不同特征賦予不同權重,使模型將重點放在那些在特定情境下更具信息價值的特征上,從而提高預測精度。因此,引入注意力機制可以彌補現有方法未考慮特征影響的不足,從而更有效地優化模型在處理時間序列數據時的性能[11]。
隨著數據量的增長和計算性能的提高,深度學習被用在越來越多的領域。其在各種預測或分類問題上都取得了良好的效果,但需要大量的數據進行訓練,如果訓練的數據量不足,得到的結果就自然不準確。然而,在油田注水系統的實際運行中,往往難以獲取足夠的數據。因此,還應該考慮數據量較小的情況,這個問題可以通過人為增加數據量來解決[12]。
數據增強技術可以解決數據短缺的問題。林志鵬等[13]提出一種基于生成對抗網絡(generative adversarial network,GAN)的數據增強技術,實現了宮頸細胞圖像數據集的擴充,并取得了不錯的效果。Mikojaajczyk等[14]提出了一種使用風格轉移增強圖像數據的方法,并將其與現有的增強技術(如旋轉、裁剪和縮放)進行了比較。然而,數據增強技術較常見于二維視覺領域,在油田注水研究等一維時間序列數據上的應用較少[15]。現通過對現有數據應用抖動和縮放的技術來增加數據[16],提出一種引入數據增強的結合卷積神經網絡、雙向長短期記憶網絡與注意力機制的油田注水流量預測方法。
首先,結合卷積神經網絡加強長短期記憶網絡對時空特征的學習,并結合注意力機制解決部分時刻數據的重要特征信息被忽略的問題;其次,采用雙向長短期記憶網絡,考慮了時間維度上歷史數據的正、負方向,使其可以從前向和后向兩個方向上擬合數據;最后,提出一種數據增強技術,通過抖動和縮放來增加一維時間序列的數據量,進而為解決實際工業場景中數據短缺問題提供參考依據。
分層注水采油模型如圖1所示,H1-H3表示不同地層,通過注水到不同地層中進行驅油,當巖石含水量達到一定程度時,在“水”“水油混合區”“油”內形成儲層,隨著注水量的增加,原油和注入的水被抽油機抽到地面。油田地層中含有多個具有不同滲透性的油藏,實際地層情況則更為復雜,因此精確的注水量是油田維持地層壓力、保證水驅開發效果最基本的參數[17]。

H1、H2、H3表示不同地層,通過注水到不同地層中進行驅油,當巖石含水量達到一定程度時,在水、水油混合區、油內形成儲層,隨著注水量的增加,原油和注入的水被抽油機抽到地面
結合CNN,BiLSTM和Attention提出了一種新型組合油田注水流量預測模型框架CNN-BiLSTM-Attention,該模型主要由輸入層、CNN層、BiLSTM層、Attention層、輸出層構成,具體模型結構如圖2所示。

圖2 CNN-BiLSTM-Attention模型框架圖Fig.2 CNN-BiLSTM-Attention model frame diagram
使用CNN-BiLSTM-Attention模型進行油田注水預測時,輸入層負責將歷史注水數據進行輸入。油田注水流量在實際中會受到各種壓力、溫度與介質的密度等因素的疊加影響,但由于本次采集數據來源于同一油井,其溫度等其他因素與注水流量之間的相關性較小,因此忽略不計。而油壓與套壓作為體現油井生產狀況的重要指標,能夠反映油井的井筒狀況,進而反映地層能力保持狀況和注采平衡關系。因此樣本數據采集了影響注水流量的兩種主要因素,即油壓與套壓。這里選取油壓、套壓兩個變量作為模型的輸入;CNN層用來提取歷史油井特征;BiLSTM層分別通過前向和后向鏈式連接的多個LSTM單元進行訓練和預測;Attention層將各油井特征賦予不同的權重,得到時間序列各項數據與預測值的相關性,使用softmax函數對注意力得分進行數值轉換;dense層作為全連接神經網絡層,用于維度變換,輸出層對Attention層輸出的數據進行輸出計算,得到未來油田注水流量的預測值Y。
模型中每層工作原理描述如下。
(1)輸入層。對長度為T的歷史油田注水數據進行歸一化,處理后的數據作為模型輸入,表示為X=[x1,x2,…,xT]。
(2)CNN層。卷積神經網絡主要由卷積層、池化層與全連接層組成。卷積層被視作CNN的核心,通過卷積窗口的滑動,依次進行內積操作,進而提取出輸入數據的高層次特征。池化層對卷積層輸出的向量進行降維處理,矩陣經過池化,網絡中的參數隨之減少,由此可降低計算復雜度,避免過擬合。全連接層通常在網絡的最后,用于將提取到的特征進行整合,并將向量進行輸出。CNN層計算過程如下。
C1=Relu(X?W1+b1)
(1)
P1=max(C1)+b2
(2)
Hc=Sigmoid(P1W2+b3)
(3)
式中:C1為卷積層輸出;P1為池化層輸出,卷積層的激活函數選擇Relu,池化層選擇最大池化方法,全連接層使用Sigmoid激活函數;Hc為經過全連接層后的最終輸出結果;W1、W2為權重;b1、b2和b3為偏差;?為卷積運算。
(3)BiLSTM層。LSTM比RNN多了一個長期狀態與3個門控單元,引入了遺忘門、輸入門和輸出門三道閘門,這3個門函數可以有效地解決RNN存在的梯度爆炸等問題,其中一個LSTM的結構如圖3所示。

ht為當前時刻隱藏層輸出信息;ht-1為上一時刻隱藏層輸出信息;Xt為LSTM模型在t時刻的輸入向量
遺忘門表示在上一時刻中有某些信息被選擇性遺忘,輸入門決定了某些新的信息可以交付至下一個狀態中,輸出門即確定從當前狀態到下一個狀態的輸出。LSTM中不同細胞的方程為
it=σ(Wxixt+Whiht-1+bi)
(4)
ft=σ(Wxfxt+Whfht-1+bf)
(5)
ot=σ(Wxoxt+Whoht-1+bo)
(6)
(7)
(8)
ht=ot⊙tanh(ct)
(9)



圖4 BiLSTM模型結構Fig.4 The structure of BiLSTM model
經過BiLSTM層后的輸出ht可表示為
ht=BiLSTM(Hc,t-1,Hc,t),t∈[1,i]
(10)
式(10)中:Hc,t為CNN層在t時刻的輸出。
(4)Attention層。注意力機制能夠選擇性地關注更為重要的信息,并分配不同時刻信息的重要性。因此,引入注意力機制后,LSTM可以在更長的時間序列中表現更好,避免無關信息對最終結果造成影響,從而對傳統模型進行優化。Attention的計算過程如下。
et=tanh(Whht+bh)
(11)
(12)
(13)
式中:et為概率分布;Wh為Attention的權重;bh為Attention的偏差;v為注意力值;at為權重系數;st為Attention層在t時刻的輸出。
(5)輸出層。將Attention層t時刻的輸出st作為輸入,得到輸出層在t時刻的輸出yt,其表達式為
yt=sigmoid(wost+bo)
(14)
式(14)中:wo為權重。
所提出的預測模型結合CNN高效的特征提取能力與LSTM處理長時間序列的能力,同時引入的注意力機制通過賦予隱含層不同概率的權重,突出了重要信息對油田注水流量的影響。與傳統模型相比,可以有效地解決之前存在的預測精度不佳、偏差較大等問題。
為驗證所提出的CNN-BiLSTM-Attention油田注水預測模型的可行性與優越性,選取中國某油田注水井2015年的歷史注水數據(井深1 036.3 m,數據采集間隔為5 s)進行注水流量預測,樣本數據共776組,選取其中80%的數據作為訓練集,共計617條數據;另20%的數據作為測試集,共計154條數據。
為了消除不同量綱對預測結果產生的影響,防止梯度爆炸同時提高模型的計算精度,本文將使用的每個輸入進行歸一化處理,將數據歸一化到0~1,計算公式為
(15)
式(15)中:x為變量的值;Max、Min分別為該類變量中的最大值與最小值;xnormal為歸一化后的值。
采用抖動與縮放兩種數據增強技術進行對比實驗,抖動是將一種添加隨機值的技術,通過在原始數據的5%范圍內添加噪聲來創建新數據。縮放是一種將數據乘以隨機標量值的技術,通過將其調整到原數據的10%范圍內來創建新數據。目的是通過引入加性與乘性噪聲,并且增加訓練的數據量,進而有效提升模型的魯棒性和泛化能力。將采集到的樣本進行歸一化操作后的數據如圖5(a)所示,將歸一化后的數據再通過抖動和縮放新創建的數據分別如圖5(b)、圖5(c)所示。

圖5 原數據與通過數據增強創建的新數據Fig.5 Raw data and new data created through data augmentation
以平均絕對誤差(mean absolute error,MAE)、均方根誤差(root mean square error, RMSE)、平均絕對百分誤差(mean absolute percentage error,MAPE)和決定系數(coefficient of determination,R2)4個衡量尺度來評價本研究提出的預測模型的性能,運算過程如下。
(16)
(17)
(18)
(19)

MAE與RMSE用于衡量真實值與預測值的偏離的絕對大小,MAPE用于衡量偏離的相對大小,以上3個指標主要用于評估預測值的準確程度,R2主要用于衡量模型的擬合程度,值越接近1則認為模型質量越好。
通過預實驗獲得模型參數,滑動窗口大小設為3,lstm_units參數即LSTM神經網絡中包含的隱藏神經元個數設為64;卷積層中卷積核個數設為64個,卷積核大小為3*3,采用sigmoid函數激活;BiLSTM層中分別將兩層輸出維度設為32與64,激活函數為tanh,return_sequences設為True,用于返回整個序列;Attention維度設為128,激活函數采用sigmoid;以Adam算法作為優化器,batch_size代表模型訓練中進行梯度下降的每個batch使用的樣本數,這里設為10;epochs代表訓練的總輪數;patience參數設為5,即訓練中如果出現5次沒有進步的輪數,在這之后就會停止訓練;以RMSE作為損失函數。
確定了上述參數后,將卷積步長參數n′在[1,5]區間內分別取值進行調參實驗,根據n′的不同取值,預測實驗結果如表1所示。根據調參結果,卷積步長n′在取值為3時MAE與RMSE結果最優,分別為0.027與0.043。

表1 不同卷積步長調參結果Table 1 Different convolution steps tuning results
為驗證所提出的CNN-BiLSTM-Attention油田注水流量預測模型的精度,分別訓練了LSTM、CNN-LSTM、CNN-BiLSTM與CNN-BiLSTM-Attention 4種模型來進行仿真實驗,得到的模型損失函數變化曲線如圖6所示。

損失函數(Loss)用于定義單個訓練樣本與真實值之間的誤差;Train Loss表示訓練集的損失值;Test Loss表示測試集的損失值
所提出的預測模型的損失函數快速下降并趨于穩定,模型均得到較好的收斂效果,表明可較好地應用于油田注水流量的預測中。
采用四種方法對測試集進行預測并與真實值進行對比,結果如圖7所示。通過實際值和預測值的比較,所提CNN-BiLSTM-Attention方法能夠很好地實現預測結果與實際值的擬合,可以更準確地計算和預測注水量。

圖7 4個模型的預測值和實際值的比較Fig.7 Prediction values of four models and actual values
4種模型的性能評價指標值如表2所示,結果表明,LSTM模型預測精度最低,其MAE、RMSE和MAPE值在4種模型中均為最高,分別為0.077、0.049和31.28,R2僅為0.797。相較于基礎的LSTM模型,通過CNN對歷史油井數據進行特征提取后的組合模型CNN-LSTM預測性能有所提高,其MAE、RMSE和MAPE分別下降了50.64%、16.32%和21.22%,R2提高了16.72%,表明經過特征提取過程可以有效地提高預測的精度。

表2 不同模型預測結果對比Table 2 Comparison of prediction results of different models
而相較于CNN-LSTM模型,CNN-BiLSTM模型預測效果也具有顯著提升。這是由于雙向運算的BiLSTM網絡提取的時序特征包含時序數據的前后信息,提取的時序特征更加豐富、完整,模型性能更優。
所提出的CNN-BiLSTM-Attention預測方法,其MAE、RMSE和MAPE值分別為0.027、0.043和9.936,R2高達0.968,預測效果是4種模型中最好的。利用Attention對BiLSTM隱藏層產生的特征分配不同權重,使網絡可以更有效地進行訓練,解決了部分時刻數據的重要特征信息被忽略的問題,從而有效提高模型預測精度,表明其在油田注水預測中有較好的適用性,驗證了所述方法的在油田注水預測應用方面的優越性,對于實際油田注水工程的實施具有重要意義。
CNN-BiLSTM-Attention模型在原數據與經過數據增強創造的新數據上運行10次的平均結果如圖8所示,經對比可知,模型在經過縮放技術之后創造的新數據集上表現最好。由此可證明,通過數據增強技術引入加性與乘性噪聲,并且增加訓練的數據量,可以有效提升模型的魯棒性和泛化能力。

圖8 模型在原數據與新數據上的結果對比Fig.8 Comparison of model results on raw data and new data
針對中國油田普遍存在的“注采失衡”的現象,為達到精細化分層注水的要求,將深度學習方法應用于油田精細化注水開發的實際工程中,提出一種基于數據增強技術與CNN-BiLSTM-Attention的油田注水流量預測方法,得出如下主要結論。
(1)對幾種預測方法進行了對比實驗,相比現有的單一預測模型如LSTM等,所提出的CNN-BiLSTM-Attention模型具有較高的預測精度,從而為油田精細化分層注水開發提供理論依據。
(2)將視覺領域常用的數據增強技術在一維時間序列數據上進行了應用。研究證實,采用數據增強技術可以有效提高模型的預測精度,進而為解決工業場景中數據短缺問題提供理論依據。
隨著油田開采難度的增加,挖掘影響油田注采的主要因素,構建高精度的注水流量預測模型將作為未來重點研究方向。在未來的研究中,將對油田精細化分層注水技術的工業實際應用進行更細致的研究,并有望將數據增強技術應用于實際工業場景中的其他領域。