魯柳利, 趙蒙川, 何亞彬
(1成都工業(yè)學(xué)院信息與計(jì)算科學(xué)系 2四川理工學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院 3西南油氣田分公司川中油氣礦)
根據(jù)我國頁巖氣田近幾年在四川地區(qū)的開發(fā)實(shí)踐,發(fā)現(xiàn)頁巖氣井的返排率普遍偏低,部分井返排率不到10%。在頁巖氣井投產(chǎn)后,計(jì)算壓裂液的返排率將會(huì)變得更艱難。甚至不能得到這一關(guān)鍵數(shù)據(jù),造成返排率連續(xù)監(jiān)測(cè)的數(shù)據(jù)缺失,影響對(duì)頁巖氣井產(chǎn)量及相關(guān)施工的決策。為了建立科學(xué)完整的壓裂液返排率監(jiān)測(cè)數(shù)據(jù)集,目前對(duì)缺失數(shù)據(jù)的處理可以采用刪除和插補(bǔ)兩種方法,如果簡(jiǎn)單地將包含缺失值的樣本單元?jiǎng)h除,雖然能夠產(chǎn)生完全數(shù)據(jù)集,但會(huì)造成數(shù)據(jù)信息的浪費(fèi)或者預(yù)測(cè)不準(zhǔn)確[1-2]。本文研究如何利用插補(bǔ)的方法來填補(bǔ)缺失的數(shù)據(jù)。
頁巖氣單井返排率的監(jiān)測(cè)數(shù)據(jù)實(shí)際上是一系列時(shí)間序列,通常的缺失數(shù)據(jù)插補(bǔ)方法并不適用于時(shí)間序列。拉格朗日插值和三次樣條插值是解決時(shí)間序列缺失值的方法。使用插值基函數(shù)得到拉格朗日多項(xiàng)式很便捷,并且式子簡(jiǎn)單,計(jì)算速度較快,精度高,在對(duì)頁巖氣返排率的理論分析計(jì)算尤其方便,但這個(gè)方法也存在一些缺陷,當(dāng)插值節(jié)點(diǎn)增減時(shí),所有的插值基函數(shù)都會(huì)發(fā)生改變,整個(gè)式子也會(huì)產(chǎn)生改變,導(dǎo)致計(jì)算復(fù)雜,不利于工程應(yīng)用。三次樣條插值是利用三次多項(xiàng)式生成一條連接所有主干點(diǎn)的平滑曲線,光滑性較好,該方法在工程中用得較多,且計(jì)算精度和計(jì)算速度都能滿足工程實(shí)際需要。
由于壓裂液返排率監(jiān)測(cè)數(shù)據(jù)不可能覆蓋到每一口單井、每一個(gè)層位,單井監(jiān)測(cè)數(shù)據(jù)不連續(xù)、缺失的現(xiàn)象普遍存在。本文通過對(duì)多種插補(bǔ)方法進(jìn)行對(duì)比,利用基于SPSS提供的缺失數(shù)據(jù)處理方法及三次樣條插值方法的組合算法,對(duì)單井返排率數(shù)據(jù)缺失值進(jìn)行填補(bǔ),為構(gòu)建頁巖氣區(qū)塊監(jiān)測(cè)指標(biāo)體系提供計(jì)算方法及依據(jù)[3]。
本文將利用SPSS統(tǒng)計(jì)分析軟件的基本模塊來實(shí)現(xiàn)對(duì)頁巖氣井返排率數(shù)據(jù)的缺失值插補(bǔ)[4-5]:
目前SPSS提供了以下5種缺失值插補(bǔ)方法供工程計(jì)算中使用。①序列均值。該方法是使用整列數(shù)據(jù)的均值來插補(bǔ)缺失值,這種插補(bǔ)方法會(huì)導(dǎo)致插補(bǔ)值過于集中,不能完整體現(xiàn)真實(shí)的數(shù)據(jù)分布、總體的方差,以及協(xié)方差;②臨近點(diǎn)均值。該方法是用缺失值附近的點(diǎn)的均值來插補(bǔ)缺失值,需要點(diǎn)的數(shù)量,可以通過插補(bǔ)缺失值附近點(diǎn)的間隔來設(shè)定;③臨近點(diǎn)的中位數(shù)。這種方法的思路是使用缺失值附近點(diǎn)的中位數(shù)來完成插補(bǔ)缺失值,需要多少插值點(diǎn),還是由相鄰點(diǎn)的間隔情況來設(shè)定;④線性插值法。這種方法的插補(bǔ)原理是利用缺失值前一個(gè)和后一個(gè)數(shù)據(jù),通過建立線性插值函數(shù)和函數(shù)計(jì)算缺失值的近似值實(shí)現(xiàn)插補(bǔ)計(jì)算;⑤點(diǎn)處的線性趨勢(shì)。該方法的基本原理是通過建立整個(gè)序列的線性回歸方程,利用該線性方程計(jì)算缺失值的近似值來實(shí)現(xiàn)數(shù)據(jù)的插補(bǔ)。以上5種方法各有利弊,可以結(jié)合工程實(shí)際需要采用較為合理的計(jì)算方法。
根據(jù)頁巖氣井返排率數(shù)據(jù)實(shí)際和計(jì)算要求,三次樣條插值方法對(duì)計(jì)算頁巖氣井返排率有一定優(yōu)勢(shì),如何用三次樣條插值方法來實(shí)現(xiàn)對(duì)頁巖氣井返排率的科學(xué)合理計(jì)算,首先需要了解三次樣條插值方法的算法原理及特點(diǎn)。
三次樣條插值:對(duì)給定的區(qū)間[a,b] 做一個(gè)劃分a=x0 如果函數(shù)y=f(x)在[a,b]上連續(xù),并給定節(jié)點(diǎn)函數(shù)值為f(xi)(i=0,1,…,n),并且函數(shù)S(x) 還同時(shí)滿足以下條件: S(xi)=yi(i=0,1,…,n) S(x)∈C2[a,b] 該函數(shù)在整體上就是二階導(dǎo)數(shù)連續(xù);那么S(x) 在所有區(qū)間[xi,xi+1](i=0,1,…,n-1) 為三次多項(xiàng)式。 這種情況下就可以稱S(x) 作三次樣條插值函數(shù)。由于S(x)在每一個(gè)[xi,xi+1]區(qū)間上都不同,所以必須分段構(gòu)造Si(x) ,其中x∈[xi,xi+1](i=0,1,…,n-1)。在所有區(qū)間上,利用4個(gè)參數(shù)來確定三次多項(xiàng)式,以上三次樣條插值函數(shù)含有n個(gè)區(qū)間。 基于求解代數(shù)方程組相關(guān)條件可知,要有4n個(gè)方程才能實(shí)現(xiàn)對(duì)三次樣條插值函數(shù)的求解,具體求解方法及相關(guān)計(jì)算過程見文獻(xiàn)[6]。 以上過程可以看出,實(shí)際工程中構(gòu)造三次插值樣條函數(shù)時(shí),如何得到三次多項(xiàng)式函數(shù),如何科學(xué)合理得到樣條函數(shù)形式最為關(guān)鍵。根據(jù)三次樣條插值函數(shù)概念及算法可以看出,采用三次樣條曲線模擬頁巖氣井返排率時(shí),得到的結(jié)果要比線性插值更加接近頁巖氣井的真實(shí)情形[7]。 在頁巖氣井返排率計(jì)算中,只采用單一插補(bǔ)算法可能會(huì)扭曲數(shù)據(jù)分布,導(dǎo)致低估數(shù)據(jù)的方差,不能滿足頁巖氣井等工程實(shí)際需要。因此,本文利用一種基于SPSS提供的缺失數(shù)據(jù)處理和三次樣條插值方法的“組合算法”來實(shí)現(xiàn)對(duì)頁巖氣單井返排率缺失值的插補(bǔ)。“組合算法”實(shí)際上就是綜合了多種插補(bǔ)法的優(yōu)勢(shì),這樣既增加了估計(jì)的有效性,解決單一插補(bǔ)算法的局限性。 針對(duì)頁巖氣單井返排率的組合算法過程由以下步驟完成[4]: 首先假設(shè)x(ti)(i=1,2,…,n):表示頁巖氣單井監(jiān)測(cè)指標(biāo)x在ti時(shí)刻的監(jiān)測(cè)值,并假設(shè)該監(jiān)測(cè)指標(biāo)在時(shí)刻tj(j=1,2,…,m)處的數(shù)據(jù)x(tj)缺失,需要插補(bǔ)計(jì)算,計(jì)算過程如下。 (1)根據(jù)頁巖氣單井實(shí)際情況,按一定比例在x已有的監(jiān)測(cè)數(shù)據(jù)基礎(chǔ)上,采用隨機(jī)的方式,劃分出頁巖氣單井監(jiān)測(cè)數(shù)據(jù)的訓(xùn)練集x(tp)和相應(yīng)的測(cè)試集x(tq)(q=1,2,…,h)。 (2)利用SPSS軟件具有的5種缺失值插補(bǔ)功能模塊,根據(jù)頁巖氣單井?dāng)?shù)據(jù)劃分出的訓(xùn)練集數(shù)據(jù)x(tp)(p=1,2,…,k),對(duì)頁巖氣單井的監(jiān)測(cè)返排率部分缺失數(shù)據(jù)x(tj)(j=1,2,…,m)和測(cè)試集數(shù)據(jù)x(tq)(q=1,2,…,h)進(jìn)行插補(bǔ),其插補(bǔ)值表示為: x1(tj),x2(tj),x3(tj),x4(tj),x5(tj),(j=1,2,…,m) x1(tq),x2(tq),x3(tq),x4(tq),x5(tq),(q=1,2,…,h) (3)根據(jù)頁巖氣單井返排率監(jiān)測(cè)數(shù)據(jù)劃分出的訓(xùn)練集數(shù)據(jù)x(tp)(p=1,2,…,k),建立三次樣條的插值函數(shù)S(x),利用其在頁巖氣井監(jiān)測(cè)缺失數(shù)據(jù)和測(cè)試集數(shù)據(jù)時(shí)間點(diǎn)的函數(shù)值,對(duì)缺失數(shù)據(jù)x(tj)(j=1,2,…,m)和測(cè)試集數(shù)據(jù)x(tq)(q=1,2,…,h)的插補(bǔ)計(jì)算,插補(bǔ)值為: x6(tj)=S(tj)(j=1,2,…,m),x6(tq)=S(tq)(q=1,2,…,h) (4)利用頁巖氣單井返排率監(jiān)測(cè)數(shù)據(jù)的測(cè)試集真實(shí)值和測(cè)試集插補(bǔ)值之間的平均相對(duì)誤差絕對(duì)值(MAPE)來評(píng)估各插補(bǔ)方法計(jì)算誤差如下: (i=1,2,…,6) (1) 通過計(jì)算誤差可以評(píng)價(jià)該計(jì)算方法的合理性和工程實(shí)用價(jià)值。 (5)本文根據(jù)每種方法的特點(diǎn),結(jié)合頁巖氣井監(jiān)測(cè)數(shù)據(jù)的實(shí)際情況,采用平均相對(duì)誤差絕對(duì)值的辦法來確定其在組合插補(bǔ)算法中權(quán)重系數(shù)值,具體算法是平均相對(duì)誤差絕對(duì)值越大,其所占的權(quán)重就越小,具體算法如式(2): (2) (6)采用以上提出的6種方法所得到的缺失數(shù)據(jù)插補(bǔ)值進(jìn)行加權(quán)平均后作為該頁巖氣井返排率缺失值的最終插補(bǔ)值: (3) 通過以上計(jì)算過程可以實(shí)現(xiàn)對(duì)頁巖氣單井監(jiān)測(cè)數(shù)據(jù)缺失值的插補(bǔ),其中訓(xùn)練集和測(cè)試集比例的值是可以根據(jù)頁巖氣井的實(shí)際情況進(jìn)行調(diào)整。需要設(shè)計(jì)頁巖氣單井返排率監(jiān)測(cè)數(shù)據(jù)測(cè)試集的目的是希望通過誤差來調(diào)節(jié)各算法的權(quán)重,實(shí)現(xiàn)真正意義的“組合插值”。 以202H2-2頁巖氣井為例,本文計(jì)算的該頁巖氣井2014年10月到2017年3月的30個(gè)返排率點(diǎn),并使用其中的25個(gè)監(jiān)測(cè)數(shù)據(jù)當(dāng)作訓(xùn)練集,余下的5個(gè)監(jiān)測(cè)數(shù)據(jù)當(dāng)作測(cè)試集,即假設(shè)測(cè)試集的5個(gè)點(diǎn)的數(shù)據(jù)缺失,如圖1所示。 圖1 202H2-2井返排率監(jiān)測(cè)數(shù)據(jù) 采用SPSS提供的五種缺失值數(shù)據(jù)處理功能和三次樣條插值函數(shù),并利用訓(xùn)練集的25個(gè)數(shù)據(jù)(已知數(shù)據(jù)),對(duì)圖1中涉及的紅色方心標(biāo)注的5個(gè)測(cè)試數(shù)據(jù)(缺失數(shù)據(jù))來插補(bǔ)計(jì)算,如圖2所示。其中,202H2-2_1代表序列均值插補(bǔ)方法,202H2-2_2代表臨近點(diǎn)均值插補(bǔ)方法,202H2-2_3代表臨近點(diǎn)中位數(shù)插補(bǔ)方法,202H2-2_4代表線性插補(bǔ)方法,202H2-2_5代表點(diǎn)處的線性趨勢(shì)插補(bǔ)方法,202H2-2_6代表三次樣條插補(bǔ)方法。 由圖2可知,基于三次樣條和SPSS的組合插值算法的平均相對(duì)誤差絕對(duì)值為0.56%,且比前述6種插補(bǔ)法的都小。因此,在頁巖氣單井返排率的預(yù)測(cè)上精度高,滿足其返排率監(jiān)測(cè)需要,為頁巖氣井的預(yù)測(cè)和施工提供參考,具備較好的推廣應(yīng)用價(jià)值。 圖2 6種插值方法下202H2-2的返排率 頁巖氣監(jiān)測(cè)數(shù)據(jù)的不完整是由于多種因素造成,科研工作者應(yīng)該利用現(xiàn)有的監(jiān)測(cè)數(shù)據(jù),找到最科學(xué)的方法實(shí)現(xiàn)對(duì)缺失數(shù)據(jù)進(jìn)行插補(bǔ),將有利于頁巖氣田開發(fā)作業(yè)的下一步開展。本文利用了基于SPSS和三次樣條組合插補(bǔ)的算法,克服了單一插補(bǔ)方法缺陷,同時(shí)充分利用不同插補(bǔ)法的優(yōu)點(diǎn)從而提高插補(bǔ)值的精度。針對(duì)202H2-2井返排率缺失數(shù)據(jù)進(jìn)行了插補(bǔ),驗(yàn)證了“組合算法”在進(jìn)行時(shí)間序列數(shù)據(jù)插補(bǔ)時(shí)的可行性和應(yīng)用價(jià)值,對(duì)后期頁巖氣區(qū)塊開發(fā)指標(biāo)的預(yù)測(cè)具有巨大參考價(jià)值。3. 頁巖氣監(jiān)測(cè)數(shù)據(jù)處理的組合插補(bǔ)算法
二、組合插值算法在202H2-2頁巖氣井中的應(yīng)用


三、結(jié)論