999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

水力壓裂缺失數(shù)據(jù)填補方法研究比較

2020-12-23 03:13:00樊毅龍馬先林連建文
石油化工應(yīng)用 2020年11期
關(guān)鍵詞:效果方法施工

樊毅龍,馬先林,2,連建文

(1.西安石油大學(xué)石油工程學(xué)院,陜西西安 710065;2.陜西省油氣田特種增產(chǎn)技術(shù)重點實驗室,陜西西安 710065;3.成都理工大學(xué),四川成都 610059)

隨著非常規(guī)油氣的勘探與開發(fā)[1],水力壓裂技術(shù)也取得了很大進步,同時也遇到了一些困難和挑戰(zhàn)。在壓裂研究過程中影響壓裂效果的因素較多,其中包括地質(zhì)狀況、壓裂施工參數(shù)等因素。眾多參數(shù)與壓裂效果之間的關(guān)系復(fù)雜,傳統(tǒng)的數(shù)學(xué)方法和油藏數(shù)值模擬方法[2-6],存在計算復(fù)雜、滲流機理單一、數(shù)據(jù)模擬運行時間長、地質(zhì)模型的局限性大等問題。在壓裂施工和生產(chǎn)過程中產(chǎn)生了海量、多變、復(fù)雜的數(shù)據(jù),給研究者帶來諸多挑戰(zhàn)。

利用機器學(xué)習(xí)[7](Machine Learning)的方法直接對排量、支撐劑用量、平均砂比等現(xiàn)場施工參數(shù)進行優(yōu)化設(shè)計,并且在短時間內(nèi)完成優(yōu)化,使得壓裂效果達到最優(yōu)化,從而提高單井產(chǎn)能。但機器學(xué)習(xí)方法解決問題時對于數(shù)據(jù)質(zhì)量和數(shù)量要求較高。數(shù)據(jù)缺失問題難以避免,造成水力壓裂施工和生產(chǎn)數(shù)據(jù)缺失原因較多。為了改善數(shù)據(jù)質(zhì)量,必須采用合理的方法對缺失值填補[8-11],使得機器學(xué)習(xí)算法建立可靠的預(yù)測模型。本文利用R 語言環(huán)境對缺失值進行了可視化分析,并比較了多種填補方法。

1 蘇東壓裂直井影響因素描述

通過對收集到的原始數(shù)據(jù)進行整理,從中篩選出與水力壓裂施工的相關(guān)數(shù)據(jù)。對這些數(shù)據(jù)進行初步統(tǒng)計發(fā)現(xiàn)蘇里格氣田東區(qū)壓裂直井產(chǎn)能影響因素可以分為地質(zhì)因素、壓裂施工因素和生產(chǎn)因素三大方面。

(1)地質(zhì)因素:主要包括頂深、孔隙度、視氣飽和度、基質(zhì)滲透率、泥質(zhì)含量、儲層有效厚度、破裂壓力、微裂縫、黏土礦物類型和含量、聲波時差、電阻率等儲層特征;儲層壓力、儲層溫度、地質(zhì)構(gòu)造、地應(yīng)力狀態(tài)等儲集狀態(tài)。

(2)壓裂施工因素:對儲層進行壓裂施工可以改變儲層滲流特征和儲層原始物性,進而影響單井產(chǎn)能和開采效果。壓裂施工因素包括射孔厚度、前置液、頂替液、混砂液、入地液量、陶粒用量、攜砂液、砂比、施工排量、施工壓力、累計排液量、返排率等。

(3)生產(chǎn)因素:生產(chǎn)因素包括穩(wěn)定油壓、穩(wěn)定套壓、靜壓、流壓。

用無阻流量來衡量壓裂井的產(chǎn)能。本文中篩選統(tǒng)計的影響壓裂直井產(chǎn)能的因素共有24 個,并自定義了影響因素相應(yīng)的名稱(見表1,表2)。

表1 影響因素的篩選Tab.1 Screening of influencing factors

表2 數(shù)據(jù)的變量名稱Tab.2 Variable names of data

2 缺失值可視化

利用R 語言對800 口井24 個影響因素原始數(shù)據(jù)集的缺失值進行可視化分析,得知數(shù)據(jù)集共有19 200個數(shù)據(jù)點。其中有667 口井擁有完整數(shù)據(jù)集,133 口井有缺失數(shù)據(jù)點,共計250 個數(shù)據(jù)點缺失,缺失值在總數(shù)據(jù)集約占1.3 %,缺失占比在可控范圍,即可以通過一些處理方法進行缺失值填補(見圖1)。圖1 的第一行表示有667 口井的24 個因素沒有任何缺失,即667 口井擁有完整的數(shù)據(jù)集;第二行表示只缺失泥質(zhì)含量(SH)的井有48 口;第四行表示泥質(zhì)含量(SH)和破裂壓力(DL)同時缺失的井有7 口;最后一列表示整個數(shù)據(jù)集中缺失最多的因素泥質(zhì)含量(SH)共缺失57 個數(shù)據(jù)點;其余行、列以此類推。

如果缺失數(shù)據(jù)的數(shù)量相對于整個數(shù)據(jù)集占比非常小,則認為缺失值在可控范圍內(nèi),即可對其缺失填補。但這只是對于整個數(shù)據(jù)集而言,若數(shù)據(jù)集樣本的某一特性或示例數(shù)據(jù)丟失過多,則應(yīng)該考慮是否刪除該特性或示例,而不是盲目填補。通常,對于大型數(shù)據(jù)集缺失值數(shù)量的安全最大閾值是總閾值的5 %,本文使用數(shù)據(jù)缺失約為1.3 %。此外,如果某個特性或示例的數(shù)據(jù)丟失超過5 %,可能將該特性或示例刪除。因此,填補缺失值前用R 語言的一個簡單函數(shù)來檢查丟失超過5 %數(shù)據(jù)的特性或示例。可知約84 %的井沒有缺失任何數(shù)據(jù)信息。單個因素數(shù)據(jù)缺失最多的是泥質(zhì)含量(SH)約占該因素數(shù)據(jù)量的7 %,缺失值占比超過5 %選擇刪除泥質(zhì)含量(SH)。其余的8 個缺失值占比都低于5 %,即可以填補缺失值(見圖2)。

圖1 缺失值分布圖Fig.1 Distribution of missing values

3 線性相關(guān)分析

相關(guān)性分析是使用多元回歸方法時最為重要的數(shù)據(jù)分析。此處相關(guān)性分析的目的是明確與無阻流量較為顯著的影響因素,對缺失值填補后的數(shù)據(jù)集建立多元線性回歸模型,并比較三種填補方法的各個參數(shù)及其標(biāo)準(zhǔn)誤差。使用R 語言中pscyh 軟件包繪制相關(guān)散點矩陣圖(見圖3~圖5)。圖中相關(guān)系數(shù)位于對角線上方,處于對角線位置上的則是各因素的分布直方圖。處于對角線下方的每個散點圖中都有著一個近似橢圓形的對象,稱為相關(guān)橢圓,相關(guān)橢圓從另一個角度給出了一種可視化信息即兩個變量之間是怎樣密切相關(guān)的。x、y 軸所代表的變量的均值則確定了橢圓的中心點。相關(guān)橢圓的形狀表現(xiàn)出了兩變量之間的相關(guān)性,橢圓的形狀越接近圓代表著弱相關(guān),相反橢圓被拉伸的越橢,相關(guān)性越強。另外可以清楚地看到散點圖之間還有一條曲線,這條曲線被稱為局部回歸平滑,被用來表示x、y 軸對應(yīng)變量之間的關(guān)系。

圖2 缺失值占比分布圖Fig.2 Distribution of missing values

從圖3 中可以看出,與無阻流量線性相關(guān)性最強的地質(zhì)因素是儲層有效厚度(HH),頂深(DVT)次之,其余因素線性相關(guān)性較弱。

從圖4 可以看出,與無阻流量線性相關(guān)性較強的壓裂施工因素較多,在這里只選取兩個較強的因素分析,即選取射孔厚度(PFTH)和入地總液量(TO)。

圖3 地質(zhì)因素相關(guān)系數(shù)矩陣Fig.3 Correlation coefficient matrix of geological factors

圖4 壓裂施工因素相關(guān)系數(shù)矩陣Fig.4 Correlation coefficient matrix of fracturing construction factors

圖5 生產(chǎn)因素相關(guān)系數(shù)矩陣Fig.5 Correlation coefficient matrix of production factors

從圖5 可以看出,與無阻流量線性相關(guān)性較強的生產(chǎn)因素是流壓(FF)和穩(wěn)定套壓(PC),其余生產(chǎn)因素對無阻流量的影響主要是非線性。

從圖3、圖4、圖5 可以總結(jié)得出:對壓裂直井無阻流量呈線性影響較強因素有儲層有效厚度(HH)、頂深(DVT)、射孔厚度(PFTH)、入地總液量(TO)以及相關(guān)生產(chǎn)因素流壓(FF)和穩(wěn)定套壓(PC)。其余因素的線性相關(guān)性較弱。因此,在下文缺失值填補數(shù)據(jù)集對比時,選擇以上六大因素與無阻流量建立多元線性回歸模型,比較各自對應(yīng)的參數(shù)和標(biāo)準(zhǔn)誤差。

4 缺失值填補方法比較

首先,構(gòu)造一個完整的數(shù)據(jù)集,即利用667 口井完整的數(shù)據(jù)集。根據(jù)線性相關(guān)分析得到對無阻流量影響的六大因素,建立完整數(shù)據(jù)集相應(yīng)的多元回歸模型,得到模型的各參數(shù)及其標(biāo)準(zhǔn)誤差作為比較的標(biāo)準(zhǔn),分別與均值填補、K 最近鄰填補和多重填補后的數(shù)據(jù)集回歸模型參數(shù)和標(biāo)準(zhǔn)誤差比較[12,13]。運行R 語言后得到結(jié)果(見表3)。

造成壓裂生產(chǎn)數(shù)據(jù)缺失的原因有很多,不完整的數(shù)據(jù)給數(shù)據(jù)分析帶來了很多不便。在缺失問題方面經(jīng)過多年的研究,發(fā)現(xiàn)了很多的缺失處理方法包括刪除法、均值填補法、期望最大化法、回歸填補法、K 最近鄰填補法和多重填補法等[14-16]。為了提高數(shù)據(jù)挖掘的質(zhì)量和分析結(jié)果的穩(wěn)健性,根據(jù)缺失的機制和模式采用適當(dāng)?shù)姆椒ㄌ钛a缺失問題。換句話說,如何才能選擇最優(yōu)的填補方法是非常關(guān)鍵的一步。本文采用以下三種填補方法對比:

(1)均值填補法(Mean Imputation)。該方法是用數(shù)據(jù)集中觀測值的平均值填補缺失。均值填補一般分為條件均值和非條件均值。條件均值填補是依靠輔助信息,對整個數(shù)據(jù)集進行分層,使數(shù)據(jù)集各層的特性接近相似,然后利用每層對應(yīng)的響應(yīng)填補缺失值。非條件均值填補是指對所有的缺失值,利用整個數(shù)據(jù)集觀測值的均值進行填補,即填補的缺失信息都是相同的。前者的填補效果好于后者。但是均值填補通常會使響應(yīng)值的方差和標(biāo)準(zhǔn)差變小。均值填補法簡單快捷,適合于簡單缺失的描述性研究。

表3 完整數(shù)據(jù)集各變量參數(shù)及其標(biāo)準(zhǔn)誤差Tab.3 Variable parameters and standard errors of the complete data set

(2)K 最近鄰填補法(K-Nearest Neighbor,KNN)。KNN 填補算法基本原理是基于歐氏距離計算K 個和它最近的觀測,在K 最近鄰案例中對距離進行逆加權(quán)算出填補值,用該值來代替缺失值。只需要調(diào)用一次函數(shù)就可以對所有缺失值進行插補是這種方法的優(yōu)勢所在。此外,該方法考慮到了缺失數(shù)據(jù)彼此之間的相關(guān)性,預(yù)測結(jié)果比較準(zhǔn)確;對數(shù)據(jù)的依賴度特別大,容錯性太差。如果一兩個數(shù)據(jù)是錯誤的,且在需要分類的數(shù)值旁邊,這樣就會直接導(dǎo)致預(yù)測數(shù)據(jù)的不準(zhǔn)確。

(3)多重填補法(Multiple Imputation,MI)。MI 的基本思想是源于貝葉斯估計。認為缺失數(shù)據(jù)是隨機的,它的值是根據(jù)已觀測到的數(shù)據(jù),通過估計出需要填補的值。再使用不同的噪聲,形成多組可選填補值。通過某種選擇機制,選取最優(yōu)的填補方法。該方法不僅插補效果較好,且均方誤差和波動性都是最小;但與其他填補方法相比MI 對數(shù)據(jù)集的分析過程相對更復(fù)雜,需要盡可能多的變量,且變量要有一定的重要性,以免喪失數(shù)據(jù)精度。

在R 語言分別對三種填補方法的數(shù)據(jù)集作多元線性回歸結(jié)果(見表4)。均值填補法填補完成的數(shù)據(jù)集經(jīng)過R 語言分析之后所得到常數(shù)項、變量系數(shù)的取值及標(biāo)準(zhǔn)誤差與完整數(shù)據(jù)集的常數(shù)項、變量系數(shù)的取值及標(biāo)準(zhǔn)誤差相比較是偏小的,但偏差不是很大。KNN填補效果與簡單的均值填補效果基本一樣。對于本文收集到的數(shù)據(jù)集類型和缺失占比,使用多重填補法填補的次數(shù)不同,得出的效果還是有一定差別的。通過表格數(shù)據(jù)對比,顯然多重填補效果最接近完整數(shù)據(jù)集,可以發(fā)現(xiàn)多重填補法填補3 次的效果最為理想,而使用多重填補法填5 次以上的常數(shù)項、變量系數(shù)的取值及標(biāo)準(zhǔn)誤差基本保持不變。

5 結(jié)論與建議

通過多元線性回歸分析比較得出結(jié)論:

(1)對于此數(shù)據(jù)集缺失類型和缺失率,三種填補方法都表現(xiàn)出較好的效果。相比之下多重填補得到的常數(shù)項、變量系數(shù)的取值及標(biāo)準(zhǔn)誤差與完整數(shù)據(jù)集的常數(shù)項、變量系數(shù)的取值及標(biāo)準(zhǔn)誤差最接近,所以最終選擇多重填補法。

(2)多重填補法作為較為流行的填補手段不一定適合每個缺失問題。相反,也不能直接淘汰最為簡單的均值填補法。對于不同數(shù)據(jù)集的缺失機制和缺失率,只有通過填補對比分析才能得知哪種方法填補效果最好。

表4 填補后各變量參數(shù)及其標(biāo)準(zhǔn)誤差Tab.4 Variable parameters and their standard errors after filling

猜你喜歡
效果方法施工
按摩效果確有理論依據(jù)
土木工程施工技術(shù)創(chuàng)新探討
迅速制造慢門虛化效果
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
土木工程施工實習(xí)的探討與實踐
扶貧村里施工忙
河南電力(2016年5期)2016-02-06 02:11:34
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲精品国产成人7777| 成人无码一区二区三区视频在线观看| 青青青视频蜜桃一区二区| 91精品伊人久久大香线蕉| 亚洲中文字幕av无码区| 9啪在线视频| 亚洲永久精品ww47国产| 在线国产91| 国产激情在线视频| 国产黑丝视频在线观看| 亚洲欧美天堂网| 亚洲一区二区三区在线视频| 一级毛片视频免费| 国产粉嫩粉嫩的18在线播放91| AV不卡在线永久免费观看| 九九九久久国产精品| 婷婷99视频精品全部在线观看| 在线看片免费人成视久网下载| 中文字幕色站| 亚洲高清无在码在线无弹窗| 国产精品欧美亚洲韩国日本不卡| 亚洲欧美日韩中文字幕在线| 久草中文网| 亚洲三级电影在线播放| 99久久国产综合精品2020| 成年网址网站在线观看| 成年人久久黄色网站| 久久无码av三级| 无码啪啪精品天堂浪潮av| 国产精彩视频在线观看| 91九色国产在线| 国产精品美女自慰喷水| 中文字幕在线欧美| 精品久久久久无码| 免费啪啪网址| 日本免费新一区视频| 久久不卡国产精品无码| www.99在线观看| 无码人妻免费| 午夜丁香婷婷| 欧美精品1区| 欧美国产三级| 国产在线91在线电影| 天天综合网在线| 永久免费无码成人网站| 国产精品不卡片视频免费观看| 国模在线视频一区二区三区| 91小视频在线| 四虎影视无码永久免费观看| 亚洲av无码久久无遮挡| 国产人成在线视频| 中文字幕 91| 国产手机在线小视频免费观看| 欧美在线综合视频| 园内精品自拍视频在线播放| 四虎影视国产精品| 欧美精品啪啪一区二区三区| 东京热一区二区三区无码视频| 欧美日本在线| 欧美午夜小视频| 在线观看视频99| 日韩精品无码免费一区二区三区| 色欲综合久久中文字幕网| 夜夜高潮夜夜爽国产伦精品| 69国产精品视频免费| A级毛片高清免费视频就| 国产精品第页| 22sihu国产精品视频影视资讯| 国产福利在线观看精品| 伊人无码视屏| www中文字幕在线观看| 国产熟睡乱子伦视频网站| 国产精品亚洲天堂| 亚洲熟女中文字幕男人总站| 无遮挡国产高潮视频免费观看| 国产精品99r8在线观看| 国产尤物jk自慰制服喷水| 找国产毛片看| 国产美女视频黄a视频全免费网站| 国产一区二区三区日韩精品| 高潮毛片无遮挡高清视频播放 | 多人乱p欧美在线观看|