李 博,王魯朝
(山東省第三地質(zhì)礦產(chǎn)勘查院,山東煙臺(tái) 264000)
隨著我國(guó)經(jīng)濟(jì)的快速發(fā)展,資源、環(huán)境等問(wèn)題變得越來(lái)越突出,科學(xué)鉆探及礦產(chǎn)勘查等工作,都在持續(xù)不斷地向深部延伸以解決上述矛盾[1-2]。然而,在鉆探過(guò)程中,機(jī)械鉆探速度對(duì)施工工期和經(jīng)濟(jì)效率有巨大關(guān)系,因此有較多學(xué)者針對(duì)機(jī)械鉆探速度進(jìn)行研究,取得了一些重要成果。早在1974 年,Bourgoyne 和Young(B&Y)建立了一個(gè)數(shù)值模型,將機(jī)械鉆速分析為八個(gè)因素的函數(shù),包括(F1)地層強(qiáng)度的影響,(F2)地層正常壓實(shí)的影響,(F3)地層欠壓實(shí)的影響,(F4)壓差的影響,(F5)鉆頭直徑和鉆頭重量的影響,(F6)轉(zhuǎn)速的影響,(F7)齒磨損的影響和(F8)鉆頭水力學(xué)的影響。B&Y模型已被用作提高鉆井效率的標(biāo)準(zhǔn)和可靠的方法[3-4]。然而,一些研究表明,由于缺乏多元回歸技術(shù),如回歸點(diǎn)數(shù)量的敏感性和多重共線性的存在,B&Y模型無(wú)法準(zhǔn)確預(yù)測(cè)和模擬具有有意義常系數(shù)值的鉆井行為。國(guó)內(nèi)外傳統(tǒng)統(tǒng)計(jì)分析建立地層可鉆性模型的方法主要有dc指數(shù)模型法[5]、分形理論法[6-7]、測(cè)井參數(shù)計(jì)算法[8-12]和基于機(jī)械鉆速的地層可鉆性分級(jí)法[13-15]。然而,傳統(tǒng)統(tǒng)計(jì)建模分析方法雖然考慮了較多因素的影響,但是在復(fù)雜地質(zhì)鉆進(jìn)過(guò)程中由于各因素之間經(jīng)常存在強(qiáng)耦合現(xiàn)象,導(dǎo)致其模型預(yù)測(cè)具有較大誤差。針對(duì)復(fù)雜地質(zhì)鉆進(jìn)過(guò)程中存在的不確定性、時(shí)變時(shí)滯和各變量之間強(qiáng)耦合等特性,運(yùn)用機(jī)器學(xué)習(xí)方法是解決復(fù)雜地質(zhì)鉆進(jìn)過(guò)程中進(jìn)行機(jī)械鉆速預(yù)測(cè)的有效途徑。然而,針對(duì)碳酸鹽巖地質(zhì)基于機(jī)器學(xué)習(xí)方法預(yù)測(cè)機(jī)械鉆速方面仍鮮有研究和報(bào)道。
本文建立了碳酸鹽巖鉆井機(jī)械鉆速的支持向量回歸(SVR)、BP人工神經(jīng)網(wǎng)絡(luò)(BPANN)和遺傳算法優(yōu)化BP 人工神經(jīng)網(wǎng)絡(luò)(GA-BPANN)三種機(jī)器學(xué)習(xí)預(yù)測(cè)模型,以期得到一種快速便捷的機(jī)械鉆速預(yù)測(cè)方法,為碳酸鹽巖地質(zhì)鉆井作業(yè)決策提供依據(jù)。
支持向量回歸在高維空間中構(gòu)造超平面或超平面集合,將有限維空間映射到維數(shù)更高的空間中,從而可以同時(shí)最小化經(jīng)驗(yàn)誤差和最大化幾何邊緣區(qū),直觀的來(lái)說(shuō),分類邊界離最近的訓(xùn)練數(shù)據(jù)點(diǎn)越遠(yuǎn)越好,因?yàn)檫@樣可以縮小泛化誤差[16]。值得注意的是在間隔邊界之內(nèi)的數(shù)據(jù)并不進(jìn)行誤差計(jì)算,即認(rèn)為只有在間隔邊界之外的數(shù)據(jù)才進(jìn)行誤差計(jì)算,在找到一個(gè)最優(yōu)超平面的基礎(chǔ)上,進(jìn)一步確定一個(gè)在最優(yōu)超平面上下范圍內(nèi)的空間,這個(gè)空間即為支持向量回歸的結(jié)果[16]。
傳統(tǒng)BPANN神經(jīng)網(wǎng)絡(luò)在進(jìn)行模型訓(xùn)練時(shí),其初始權(quán)重和偏置通常隨機(jī)產(chǎn)生,但是如果初始權(quán)重和偏置選取不合理,極易導(dǎo)致神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)速率過(guò)慢而難以達(dá)到收斂,甚至?xí)萑刖植孔顑?yōu)的情況。
在確定BPANN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)后,通過(guò)遺傳算法對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,首先對(duì)BPANN神經(jīng)網(wǎng)絡(luò)各層間的初始權(quán)重和偏置進(jìn)行實(shí)數(shù)編碼,再經(jīng)過(guò)選擇、交叉、變異等遺傳操作獲取較優(yōu)值,并將其作為BPANN神經(jīng)網(wǎng)絡(luò)的初始權(quán)重和偏置。遺傳算法個(gè)體基因位數(shù)等于BPANN神經(jīng)網(wǎng)絡(luò)權(quán)重和閾值的個(gè)數(shù),每位個(gè)體的適應(yīng)度函數(shù)根據(jù)訓(xùn)練誤差進(jìn)行設(shè)計(jì)[17],計(jì)算公式如下:
式中:f(i)——第i個(gè)染色體的適應(yīng)度值;
p——神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本數(shù);
yij——第i個(gè)染色體對(duì)第j個(gè)樣本的預(yù)測(cè)輸出值;
tij——樣本實(shí)際輸出值。
本文實(shí)例數(shù)據(jù)來(lái)自汶川地震斷裂帶科學(xué)鉆探工程的主孔之一,位于四川省都江堰市虹口鄉(xiāng)八角廟六組境內(nèi),鉆井井位位于小溝山溝谷底的簡(jiǎn)易公路與河流之間的河床上,鉆井位置海拔高度約1150m,工作區(qū)處于龍門山中央斷裂帶,井口距斷裂帶地表露頭約650m。鉆孔設(shè)計(jì)和實(shí)際鉆孔結(jié)構(gòu)和套管程序分別如圖1(a)、(b)所示。

圖1 鉆孔結(jié)構(gòu)和套管程序
收集的數(shù)據(jù)包括鉆時(shí)、鉤載、鉆壓、泵壓、流量、轉(zhuǎn)速、扭矩和總池體積,部分?jǐn)?shù)據(jù)資料如表1所示。完整數(shù)據(jù)可在地質(zhì)云網(wǎng)站中獲?。╤ttps://geocloud.cgs.gov.cn/)。

表1 部分鉆井?dāng)?shù)據(jù)
為了降低數(shù)值大小對(duì)模型精準(zhǔn)度的影響,在進(jìn)行訓(xùn)練模型時(shí)將表1中的數(shù)據(jù),需要對(duì)各列數(shù)據(jù)進(jìn)行歸一化處理,如式(2)所示:
式中:x′i——?dú)w一化的數(shù)值;
xi——原始數(shù)值;
xmin——數(shù)值最小值;
xmax——數(shù)值最大值。
MIC 的想法是針對(duì)兩個(gè)變量之間的關(guān)系,將其離散在二維空間中,并且使用散點(diǎn)圖來(lái)表示,將當(dāng)前二維空間在x、y方向分別劃分為一定的區(qū)間數(shù),然后統(tǒng)計(jì)當(dāng)前的散點(diǎn)在各個(gè)方格中落入的情況,即聯(lián)合概率的計(jì)算,從而解決了在互信息中的聯(lián)合概率難求的問(wèn)題。MIC的計(jì)算公式如下式所示。
其中,X、Y是x、y方向上的網(wǎng)格劃分個(gè)數(shù),B是常數(shù),通常取約m0.6。p(X,Y)為變量x和y之間的聯(lián)合概率。
從圖2可以看出,機(jī)械鉆速與各因素的相關(guān)性均大于1/m(其中,m為模型輸入變量的個(gè)數(shù),此處m=9),說(shuō)明各因素對(duì)機(jī)械鉆速存在一定的影響。機(jī)械鉆速與井深、鉤載、鉆壓、流量、轉(zhuǎn)速和扭矩的MIC值較大,說(shuō)明這些因素對(duì)機(jī)械鉆速的影響較高。然而,機(jī)械鉆速與泵壓和總池體積的MIC值較低,說(shuō)明這兩個(gè)因素雖然也會(huì)對(duì)機(jī)械鉆速產(chǎn)生影響,但是影響程度較低。因此,本文選取MIC值較大的6 個(gè)影響因素作為輸入變量,分別為井深、鉤載、鉆壓、流量、轉(zhuǎn)速和扭矩。

圖2 鉆井因素MIC值熱力圖
本文利用Python 工具箱進(jìn)行BPANN 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)計(jì),其關(guān)鍵是確定BPANN 神經(jīng)網(wǎng)絡(luò)層數(shù)、隱藏層神經(jīng)元個(gè)數(shù)和激活函數(shù)等方面[17]。
(1)BPANN 神經(jīng)網(wǎng)絡(luò)層數(shù)。研究表明,當(dāng)單隱藏層無(wú)法達(dá)到預(yù)期效果時(shí),可以通過(guò)適當(dāng)增加隱藏層數(shù)來(lái)提高精準(zhǔn)度,然而隱藏層數(shù)目過(guò)多會(huì)導(dǎo)致網(wǎng)絡(luò)的復(fù)雜度增加,因此隱藏層一般不超過(guò)兩層[17],即隱藏層數(shù)目設(shè)為imin=1,imax=2。為了提高模型的預(yù)測(cè)精度本文隱藏層數(shù)目設(shè)置為2層。
(2)隱藏層神經(jīng)元個(gè)數(shù)。通常采用試錯(cuò)法確定隱藏層神經(jīng)元個(gè)數(shù),神經(jīng)元個(gè)數(shù)可由經(jīng)驗(yàn)公式獲得參數(shù)設(shè)置范圍:,其中δ=1,2,…,10。
采用上述原則及試錯(cuò)法確定的預(yù)測(cè)模型參數(shù)如表2所示。

表2 模型參數(shù)
采用2.2 小節(jié)中的參數(shù),建立碳酸鹽鉆井的鉆速GA-BPANN智能預(yù)測(cè)模型,其實(shí)現(xiàn)流程圖如圖3所示,同時(shí)建立相應(yīng)的支持向量回歸(SVM)和BP 人工神經(jīng)網(wǎng)絡(luò)(BPANN)預(yù)測(cè)模型,用以進(jìn)行性能預(yù)測(cè)比較,其中BPANN采用的模型參數(shù)和GA-BPANN一致。

圖3 GA優(yōu)化BPANN流程圖
本文采用四個(gè)性能指標(biāo)對(duì)所提模型的性能進(jìn)行了評(píng)估。這些度量是產(chǎn)生的模型和實(shí)驗(yàn)結(jié)果之間的確定系數(shù)(R2)、平均絕對(duì)誤差(MAE)、均方值誤差(RMSE)和平均絕對(duì)百分誤差(MAPE),分別如式(5)至式(8)所示:
式中:——預(yù)測(cè)值;
Yi——實(shí)測(cè)值;
——實(shí)測(cè)值均值。
通過(guò)上節(jié)的模型建立流程,首先進(jìn)行數(shù)據(jù)預(yù)處理,然后對(duì)數(shù)據(jù)進(jìn)行歸一化處理,建立3個(gè)預(yù)測(cè)模型,最后對(duì)3個(gè)模型進(jìn)行模型評(píng)價(jià)。三種模型模型的評(píng)價(jià)指標(biāo)如表3所示。

表3 模型的評(píng)價(jià)指標(biāo)
為了挑選出更為精確的智能預(yù)測(cè)模型,除計(jì)算了全集R2評(píng)價(jià)指標(biāo)外,還計(jì)算了RMSE、MAE和MAPE評(píng)價(jià)指標(biāo)。一般認(rèn)為MAPE<10%表明預(yù)測(cè)精度較高。由表3 可知,上述預(yù)測(cè)方法的MAPE值均小于10%,說(shuō)明所建立的三種智能預(yù)測(cè)模型具有較高的預(yù)測(cè)精度,其中GA-BPANN 模型的MAPE僅為4.2538%,均低于SVR 和BPANN 模型的7.4024%和6.5416%。在RMSE和MAE方面,也可以看出GA-BPANN模型的RMSE和MAE值均低于SVR 和BPANN 模型,說(shuō)明采用遺傳算法優(yōu)化BPANN可以進(jìn)一步提升模型精測(cè)精度。
為了更直觀地反映本文建立的GA-ANN模型的計(jì)算誤差,將全集的預(yù)測(cè)結(jié)果與實(shí)測(cè)數(shù)據(jù)進(jìn)行對(duì)比,如圖4所示。由圖4對(duì)比可見(jiàn),GA-BPANN模型的預(yù)測(cè)值與實(shí)測(cè)值分布具有較好的一致性,說(shuō)明本文所建立的碳酸鹽巖鉆井的GA-BPANN 鉆速預(yù)測(cè)模型的預(yù)測(cè)值和實(shí)測(cè)值吻合較好,可以達(dá)到準(zhǔn)確預(yù)測(cè)的效果。

圖4 模型預(yù)測(cè)結(jié)果
從圖5(a)展示了ROP 隨H 的變化規(guī)律,當(dāng)深度變化時(shí)ROP 處于一個(gè)相對(duì)穩(wěn)定的狀態(tài),說(shuō)明鉆進(jìn)過(guò)程處于一種良好的狀態(tài)。但是,當(dāng)井深在100m 處時(shí),ROP出現(xiàn)了一些較大值,可能是因?yàn)樵撎幊霈F(xiàn)了部分軟弱層造成的。從圖5(b)展示了ROP隨HL的變化規(guī)律,可以看出隨著HL的增大,ROP具有增大的趨勢(shì),當(dāng)HL在75~100kN 時(shí)得到了較高的ROP。從圖5(c)展示了ROP隨WOB的變化規(guī)律,當(dāng)WOB小于40kN時(shí)ROP隨WOB的增加具有增大的趨勢(shì),之后呈現(xiàn)下降趨勢(shì)。從圖5(d)可以看出,Q 為20 時(shí)具有較好的ROP。從圖5(e)可以看出,隨著RPM 的增大,ROP 具有增大的趨勢(shì)。從圖5(f)可以看出,隨著T的增大,ROP具有減小的趨勢(shì),因?yàn)門越大需要克服的阻力越大。

圖5 不同因素對(duì)機(jī)械鉆速的影響規(guī)律
鉆井鉆進(jìn)過(guò)程中存在的眾多不確定性、時(shí)變時(shí)滯及變量間強(qiáng)耦合等特性,在傳統(tǒng)理論分析中,建立多影響因素的統(tǒng)一數(shù)學(xué)預(yù)測(cè)模型具有很大難度,并且預(yù)測(cè)精準(zhǔn)度較低。本文開發(fā)了基于遺傳算法優(yōu)化BP 人工神經(jīng)網(wǎng)絡(luò)的機(jī)械鉆速預(yù)測(cè)模型。通過(guò)最大信息系數(shù)方法篩選出井深、鉤載、鉆壓、流量、轉(zhuǎn)速和扭矩作為輸入變量,建立機(jī)械鉆速預(yù)測(cè)模型。該GA-BPANN 預(yù)測(cè)模型具有較高的預(yù)測(cè)精度,可為后續(xù)工程應(yīng)用提供技術(shù)指導(dǎo)。在后續(xù)研究中,收集更多的數(shù)據(jù),建立魯棒性更強(qiáng)、適用范圍更廣、精準(zhǔn)度更高的機(jī)械鉆速預(yù)測(cè)模型是值的研究的問(wèn)題。