999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的頁巖氣總有機碳含量預測模型

2023-11-23 07:20:04魏明強周金鑫段永剛董全
科學技術與工程 2023年30期
關鍵詞:特征模型

魏明強,周金鑫,段永剛,董全

(1.西南石油大學石油與天然氣工程學院,成都 610500; 2.中國石油西南油氣田分公司勘探事業部,成都 610000)

頁巖氣是游離和吸附在頁巖孔隙中,需要人工改造后才能得到工業氣流的天然氣[1]。總有機碳含量(total organic carbon,TOC)是評價頁巖氣藏生烴能力的重要參數,其值越高越有利于頁巖氣的富集,一般認為TOC含量大于2%時,頁巖氣藏才具有商業開采的價值[2-3]。相對于復雜、昂貴的鉆井取心和實驗室巖心分析而言,將測井技術應用在頁巖氣儲層評價上具有更快速、更高效的優勢[4]。20世紀80年代,人們發現測井曲線和總有機碳含量之間的相關關系,測井數據就被廣泛運用到總有機碳含量的計算中。總有機碳含量主要測定方法有巖心實驗室測定方法、ΔlgR法、自然伽馬能譜法、巖性掃描測井法、多元線性回歸擬合法等[5-7]。Passey等[8]用聲波曲線和電阻率曲線計算得到總有機碳含量,即ΔlgR法;Schmoker[9]用密度測井、自然伽馬測井資料回歸分析計算得到總有機碳含量;Lewis等[10]提出了用元素俘獲能譜測井等參數計算干酪根和總有機碳含量。

頁巖氣藏與常規油氣藏存在很大差異,這使得頁巖氣的測井評價方法與常規測井評價方法不同[11],而且TOC含量與多個參數之間有著較為復雜的非線性關系,常規測井解釋方法存在著精度不高、泛化能力不強等缺點,不能滿足頁巖氣勘探開發的需求。

隨著人工智能的發展,大量學者將一些機器學習的方法運用到頁巖氣藏總有機碳含量的預測中。Khoshnoodkia等[12]用神經網絡方法有效預測了TOC含量;Tan等[13]將支持向量回歸技術運用在總有機碳含量的預測上,體現了支持向量回歸技術在總有機碳含量預測上的適用性;陳娟等[14]采用遺傳算法優化的BP神經網絡方法預測頁巖氣水平井壓后產能,得到TOC含量等地質參數是影響累產氣量的主控因素。畢臣臣[15]建立深度前饋神經網絡模型,利用共軛梯度法對網絡參數進行優化,預測得到TOC含量。王惠君等[16]以上古生界泥質烴源巖為研究對象,提出一種基于卷積神經網絡的TOC預測模型,通過對比試驗驗證了該方法的有效性。楊占偉等[17]利用主成分分析法對測井資料進行預處理,建立BP神經網絡和梯度提升決策樹TOC預測模型,提高區塊TOC曲線的預測精度。調研發現目前基于機器學習的預測模型對模型影響因素的探究還不夠深入。

川南海相頁巖氣藏成功商業化開發為中國頁巖氣開采提供寶貴經驗,基于大數據分析的機器學習能夠快速、有效地處理大量數據信息,將其引用到頁巖氣藏的評價處理中,有明顯的優勢。現對威遠-長寧區塊多口測井數據進行分析、整理,針對巖心樣本少,取芯層段較為集中,以往基于測井數據和巖心數據建立的機器學習儲層參數預測模型僅能對特定層段進行預測和面對較長井段時,預測精度不夠高等缺點,以得到的測井數據作為輸入值,測井解釋結果作為輸出值,建立多個不同參數的總有機碳含量預測模型,對預測模型的特征組合、網絡結構、優化器、訓練批次等參數的設置進行探討,以確定最優的預測模型,與實驗室得到的巖心數據和其他特殊測井方法得到的結果進行預測效果對比,驗證模型的可行性。

1 區塊總有機碳含量測井敏感性分析

總有機碳含量與測井數據之間有較為明顯的規律,根據X13井巖心得到的分析數據,建立了研究區塊的總有機碳含量的測井敏感性分析。氣層中烴源巖越成熟,有機質越多,總有機碳含越量高,聲波時差出現“周波跳躍”現象,補償聲波增大,因為有機質密度低,補償密度值隨之減小,有機質還會吸附鈾這一放射元素,自然伽馬值也會越高[18],同時鈾富集在還原環境而釷富集在氧化環境,因此總有機碳含量越高,呈現出高鈾、低釷的特征[19]。補償中子值會因含氫指數顯高值,但束縛水和有機質都含氫,造成補償中子特征不太明顯[20]。圖1得到,總有機碳含量與補償聲波、自然伽馬、鈾曲線呈現正相關,與無鈾伽馬、補償密度、補償中子和釷曲線呈現負相關,基本符合頁巖氣常規測井曲線特征。

圖1 總有機碳含量與各種測井數據交會圖

在實際測井過程中,由于人為因素或者儀器故障等因素,數據集中可能出現大段缺失、重復、偏離正常趨勢及不符合生產實際的異常點,在構建模型前,需對測井數據進行處理以符合生產實際。數據預處理主要包含異常點檢測、缺失值處理和歸一化三部分。本文研究分別選取有自然伽馬能譜測井資料的5口井和不包含自然伽馬能譜測井資料的17口井資料,對測井數據預處理后,開展巖心實驗分析得到TOC,使用皮爾遜(Pearson)相關性系數算法對其相關性進行檢驗,得到測井數據相關性(表1和表2)。

表1 含能譜測井數據相關性

表2 不含能譜測井數據相關性

從表1可以得到在自然伽馬能譜測井資料中,總有機碳含量與補償聲波、自然伽馬和鈾的相關性較好,與鉀和無鈾伽馬的相關性很差,甚至還低于補償中子的相關性,與前文單因素分析的結果相矛盾。出現這種現象是因為總有機碳含量值是實驗室巖心分析得到,不同解釋方法直接影響了總有機碳含量與測井資料的相關性。另外實驗室獲得巖心數據時,選用的儲層約80 m,巖心只有75塊,相對于由五口測井資料所得到5 000 m儲層段、50 000個數據點,出現相關性不一致的現象并非不符常理。

對比表1和表2,基于常規測井項目解釋和自然伽馬能譜測井解釋得到的總有機碳含量與各種測井資料的相關性不一致。常規測井項目解釋的總有機碳含量與密度出現極強相關,自然伽馬能譜測井解釋得到的總有機碳含量與鈾出現極強相關,總有機碳含量的計算就可以有多種不同方法,在這里基于常規測井項目總有機碳含量的計算可以采用密度法,含有自然伽馬能譜測井項目總有機碳含量的計算可以用鈾曲線來回歸。

2 BP神經網絡總有機碳含量預測模型

2.1 BP神經網絡預測模型

BP算法利用前向傳播輸出的最后結果來計算誤差的偏導數,再用這個偏導數與前面的隱藏層進行加權求和,如此一層一層地向后傳下去,直到輸入層,最后利用每個節點求出的偏導數來更新權重,通過不斷調節網絡權重值,使網絡的最終輸出與期望輸出盡可能接近,以達到訓練的目的。

假定有m個訓練樣本{(x1,y1),(x2,y2),…,(xm,ym)},其中d(i)為對應輸入x(i)的期望,定義誤差函數E為

(1)

式(1)中:E(i)為單個樣本的訓練誤差。

(2)

式(2)中:dk(i)為期望輸出值;yk(i)為實際輸出值。

將式(2)代入式(1),可以得到新的誤差函數E為

(3)

BP算法每次迭代按以下方式對權重和偏置進行更新,即

(4)

(5)

通過Python中的tensorflow深度學習庫編程建立基于BP算法的神經網絡模型,模型建立和訓練的步驟如圖2所示。

圖2 神經網絡模型建立框圖

對所有網絡模型采用隨機初始化,選取含能譜伽馬測井和不含能譜伽馬測井的數據,基于表1和表2測井數據相關性表,隨機組合與總有機碳含量有極強相關性的特征和其他特征,建立了不同特征組合、不同結構和不同訓練參數的神經網絡模型如表3所示,使用平均絕對誤差(mean absolute error,MAE)作為訓練過程中的評估指標(metrics),模型訓練時每進行一輪迭代輸出一次loss和MAE作為模型精度是否符合要求的參考,并對比每個模型之間的差異并對各影響因素進行了分析研究,最后確定了最優的預測模型。

表3 不同條件下的神經網絡訓練結果對比

2.2 BP神經網絡預測模型影響因素分析

2.2.1 特征組合

相同神經網絡模型下的測試集決定系數R2隨特征數量的增多而增大。這一規律并非是絕對的,因為以上模型都建立在總有機碳含量與各特征值存在相關性的情況下,相關性只是特征選取的參考之一,即便加入相關性偏低的特征,也有可能提高模型訓練的準確率。對比表3中的模型1和5,在不考慮與總有機碳含量相關性極低的鉀和無鈾伽馬之后,測試集R2降低,說明在模型5中鉀和無鈾伽馬對訓練模型的準確度是有貢獻的。

同時因為訓練數據的維度不高,在多層神經網絡中模型能將訓練數據的關系表達得很好,造成了一些弱相關的特征也會提升模型的準確率。對于幾十、幾百個特征的高維數據,在數據處理時需要對數據進行降維處理,因為過高的維度會對模型結果造成不良影響。對比表3中模型11、12、13,MAE隨特征增加而降低,測試集R2隨特征增多而升高,但在用未參與訓練的井作為模型驗證井評價模型的泛化能力時,模型11、12、13驗證井R2分別是0.936、0.941、0.923,對比得到模型12的泛化能力最強,模型13訓練時,將訓練集中的噪音和不具代表性的特征擬合了,存在過擬合。

特征之間存在多重共線性可能影響模型的泛化能力。在回歸問題中,特征之間的多重共線性會使得相關性不會隨著模型的調整或數據的改變而規律的變化。因為線性回歸模型與神經網絡模型有相似的地方,這就可能使得特征間的共線性會使得模型的泛化性變差。因此,為提高模型的預測精度,模型在訓練時選取的參數應該優選與目標值相關性較好的特征,而且特征間的相關性應該盡量低才好。

2.2.2 網絡結構

對比表3中的模型3、4、5,相同特征組合下,隨神經網絡層數的加深,MAE降低,R2升高,說明增加網絡層數可以提高訓練準確度。對比表3中的模型2和模型3,減少其中一層隱層上的神經元個數,模型MAE升高,R2降低,可以得出:適當增大隱層中的神經元個數也可以提高訓練模型的精度。不論是增加神經網絡層數還是增加某一層神經元的個數都增加了模型整體的復雜度,在不出現過擬合的前提上,合適的模型復雜度可以提升模型的精度。本文對每個神經網絡模型采用兩種方法防止過擬合。

(1)交叉驗證。數據導入模型前,將數據集劃分為訓練集、驗證集和測試集,表3中模型7訓練過程如圖3(a)和圖3(b)所示。模型將每輪對32 256個樣本訓練后的模型在8 064個點上進行驗證,得到驗證集的損失Val loss和平均誤差 Val MAE。當訓練損失下降,驗證集損失也下降時,說明模型還未達到最優,仍在訓練過程中;當訓練損失下降,驗證集損失趨于不變時,說明模型開始過擬合。圖3(a)可以看出模型在大約第60輪左右,驗證集損失Val loss不再下降而是趨于附近波動,說明模型7在第60輪左右處泛化能力最強,之后已出現過擬合。

Train Loss為訓練集損失;Val loss為驗證集損失

(2)早停法。在模型7訓練時,用早停法監控驗證集損失值Val loss,設定EarlyStopping的忍受值(Patience)為30,即容忍檢測到的驗證集損失在30輪內都沒有改進(變小)時提前終止訓練。圖3(b)就是使用EarlyStopping后的模型訓練圖,可以看出模型7在第60輪左右達到最佳,繼續訓練30輪后沒有改進,停止了訓練。訓練停止后得到的模型是第90輪左右的模型,與最佳狀態模型可能有略微差異,所以對Patience值的選取也應該適中。Patience過大,導致訓練停止時模型過擬合程度加大,過小又可能會因為前期訓練中較大、較多的波動在還未達到最佳效果時提前停止。

2.2.3 優化器

神經網絡訓練就是使損失函數值盡可能小的過程,實現這一目的就需要優化器。不同優化器的原理不同,最優化的過程也不同,最終對模型訓練結果也會產生差異。根據表3的模型7、8、9、10可以得到,Adadelta對所建模型的結果影響最佳,SGD(stochastic gradient descent)最差。

如圖3所示,模型7、9訓練損失下降,驗證集損失在迭代60輪左右后,驗證集損失基本趨于不變,模型8、10訓練損失下降,驗證集損失也一直在下降,可以得到Adadelta和Adam使模型收斂更快,大約迭代60輪即可得出最佳模型;SGD訓練時誤差波動較大,導致收斂也最慢;Adagrad訓練時誤差波動最小,但收斂速度一般。

2.2.4 訓練批次(batch_size)

由表4可以得到,模型8-2的batch_size減小后其訓練時長明顯變長,且單次輪回時間約5 s,而模型1的單次迭代時間約2 s。模型8-2的MAE相對于模型1而言升高了0.01,但無法判斷是否因為batch_size的不同而造成的,因為模型都是隨機初始化,起始條件不同,完全一致的神經網絡也會有細小差異。合理的batch_size能夠提高內存的利用率,并且在訓練中每次更新的并非全部數據,只是用一個批量的數據,這會給訓練帶來人為誤差,但這些誤差被證明能使算法走出“鞍點”(局部最小值),不使用batch_size的機器學習易陷入“鞍點”。隨著計算機計算能力的提升,batch_size推薦設置在32以內,在處理測井數據這一類特征少、數據量夠龐大的數據集時,不用像圖像識別等深度學習領域那樣去犧牲部分準確率來換取較短的訓練時間。

3 支持向量機總有機碳含量預測模型

3.1 支持向量機預測模型

支持向量機(support vector machine,SVM)是對數據進行二分類的監督學習,通過尋找超平面以間隔最大化的學習策略對樣本進行分割,最終轉化為求解凸二次規劃問題。本文研究主要使用支持向量回歸機對數據進行回歸分析。基于相關性檢測,通過Python編程建立支持向量機模型,支持向量機模型建立和訓練的步驟如圖4所示。

圖4 支持向量機模型建立框圖

支持向量機模型采用含自然伽馬能譜測井的數據進行訓練,對不同特征組合和不同核函數選擇對模型的影響進行分析。訓練結果如表5所示。

表5 不同輸入變量的支持向量機訓練結果對比

3.2 支持向量機預測模型影響因素分析

3.2.1 特征組合

根據建立的15個模型得到與BP神經網絡相似的結論:總有機碳含量與各特征都有相關性時,相同神經網絡模型下的測試集R2隨特征數量的增多而增大。同樣的為提高模型的預測精度,模型在訓練時選取的參數應該優選與目標值相關性較好的特征,而且特征間的相關性應該盡量低才好。

3.2.2 核函數

對5種特征組合建立了支持向量機模型,并使用不同的核函數對每種組合進行訓練。從訓練結果可以看出多項式核函數對模型的訓練效果最差,幾乎不擬合,徑向基核函數的效果在相同特征組合上均好于線性核函數。可能的原因是多項式核函數的參數使用的是默認參數,不適合當前數據集的訓練。在實際使用中,對于特征較多,訓練集不大的情況使用線性核效果較好,較多的在特征較少,訓練集數量十分可觀的情況下使用非線性核,使大量的訓練集能在訓練中提供更多的變化幅度,這也是上述支持向量機模型使用rbf核函數能取得較好效果的原因;當特征較少,而訓練集非常龐大的情況,可以選用線性核來降低運算時間,因為非線性核所需的計算量相當大,在能保證模型精度差異不大時,使用線性核更優。

4 實例驗證

W區塊位于四川盆地,區塊內主要有五峰組-龍馬溪組、筇竹寺組處于有利相帶,富含有機質頁巖。為進一步驗證模型的實用性,選擇區塊中未參與訓練的H24井作為含能譜測井資料模型的案例井,使用表3中模型6對其總有機碳含量進行預測;選擇區塊中未參與訓練的X23、X24井作為不含能譜測井資料的案例井,使用表3中泛化能力最強的模型12對總有機碳含量進行預測,并將預測結果與實驗室得到的巖心數據進行對比,得到預測結果如表6所示,和測井得到的真實值TOC_TRUE、模型預測得到的預測值TOC_PRE、巖心實驗室測定值TOC_OB隨儲層深度DEPTH變化圖,如圖5和圖6所示。

TOC_TRUE為測井總有機碳含量值; TOC_PRE為模型預測總有機碳含量值;TOC_OB為實驗測定總有機碳含量值;DEPTH為儲層深度

TOC_TRUE為測井總有機碳含量值; TOC_PRE為模型預測總有機碳含量值;TOC_OB為實驗測定總有機碳含量值;DEPTH為儲層深度

表6 預測結果

根據結果可以得到模型6預測結果能反映實驗室測井解釋的大致趨勢,但誤差相對較大;模型12能夠有很好的預測效果,對比兩個模型,分析其誤差可能原因如下。

(1)相對于17口井的數據而言,含能譜測井的5口井數據較少,而且主要使用的是評價井數據,使用能譜測井的儲層段較短。這使得模型6比模型12的預測效果要差。

(2)數據過于集中,5口井的總有機碳含量的值主要集中在1.3左右,低值在訓練中對模型權重有較大的影響,導致模型6對高值的預測誤差較大。

(3)對于模型12,由于模型使用的是水平井的測井數據,總體數據分布比較均勻,但低值較少,這使得其總體預測結果比原始的測井解釋稍大,其誤差主要集中在低值和0點出,在主力產層龍馬溪組下部的預測結果與原始的測井解釋結果幾乎一致。

5 結論

以川南海相頁巖氣為研究對象,開展了總有機碳含量的BP神經網絡和支持向量機預測模型的研究,得到以下結論。

(1)根據實驗室巖心獲得的數據建立了研究區塊總有機碳含量的測井響應特征,得到該區塊富氣頁巖層段的測井響應具有高自然伽馬、高補償聲波、高鈾、低無鈾伽馬、低密度、低釷的特征。

(2)通過實例證明,基于不含自然伽馬能譜測井資料的BP神經網絡模型12能夠相當好地反映出地層的實際情況,MAE為0.13,R2為0.989,相對誤差為4.26%。

(3)采用RBF核函數的支持向量機模型預測效果明顯好于采用線性核函數和多項式核函數的模型,使用多項式核函數的支持向量機模型預測效果最差。與多層神經網絡模型相比,支持向量機模型訓練時間極短,但預測精度不高。

(4)多層神經網絡可以對測井數據進行較深入的訓練,但只采用實驗室巖心獲得的數據進行訓練并不能很好地反映出整個產層物性的變化趨勢,基于處理后的測井資料所訓練出的模型能夠很好地預測整個產層總有機碳含量的變化趨勢。如果測井資料的數量足夠大,其訓練出的模型的預測結果和真實值幾乎一致。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 青青久久91| 99精品在线视频观看| 狠狠色综合久久狠狠色综合| 久久这里只有精品66| 国产福利一区视频| 中文字幕资源站| 日韩性网站| 日韩精品久久无码中文字幕色欲| 久久91精品牛牛| 色噜噜在线观看| 国产精品亚洲片在线va| 亚洲水蜜桃久久综合网站| 不卡视频国产| 露脸国产精品自产在线播| 国产毛片一区| 92午夜福利影院一区二区三区| 在线观看国产精品第一区免费| 亚洲男人天堂久久| 亚洲日本韩在线观看| 福利一区三区| 国产成人精品免费视频大全五级| 91精品国产一区自在线拍| 国产精品久久久久无码网站| 沈阳少妇高潮在线| 无码日韩视频| 无码内射中文字幕岛国片| 久久精品视频一| 欧美一区二区三区欧美日韩亚洲| 亚洲欧美国产视频| 色精品视频| 久久99精品国产麻豆宅宅| 91精品最新国内在线播放| 国产va在线观看免费| 2022国产无码在线| 青青久久91| 国产成人综合久久精品下载| 亚洲人成网站色7799在线播放| 国产成人综合在线观看| 成人欧美在线观看| 久久精品国产999大香线焦| 亚洲精品福利视频| 成人噜噜噜视频在线观看| 国产欧美日韩在线一区| 毛片久久久| 国产欧美日韩在线在线不卡视频| 999国内精品久久免费视频| 99在线观看免费视频| 亚洲欧美成aⅴ人在线观看| 亚洲 成人国产| 国产爽爽视频| 亚洲美女一区| 国产精品欧美日本韩免费一区二区三区不卡 | 国产精品自在自线免费观看| 人禽伦免费交视频网页播放| 爱爱影院18禁免费| 国产一区二区人大臿蕉香蕉| 国产伦精品一区二区三区视频优播| 欧美福利在线播放| 国产成人综合日韩精品无码不卡| 国产黄色免费看| 亚洲久悠悠色悠在线播放| 全色黄大色大片免费久久老太| 日本少妇又色又爽又高潮| 美女一级毛片无遮挡内谢| 欧美精品v日韩精品v国产精品| 欧美亚洲一区二区三区在线| 青草精品视频| 国产精品美人久久久久久AV| 亚洲第一香蕉视频| 久草网视频在线| 亚洲浓毛av| 国产高颜值露脸在线观看| 国产在线小视频| 久久久久久午夜精品| 国产一二视频| 国产精品自在在线午夜区app| 午夜国产不卡在线观看视频| 国产原创演绎剧情有字幕的| 99热国产这里只有精品9九 | 中文字幕在线永久在线视频2020| 国产情侣一区二区三区| 色婷婷丁香|