999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于AERF模型的油井結蠟預測①

2021-10-11 06:46:36常益浩李慶云李克文
計算機系統應用 2021年9期
關鍵詞:分類模型

常益浩,李慶云,李克文

(中國石油大學(華東)計算機科學與技術學院,青島 266580)

油井在開發和采油過程中會出現某些對油井的常規生產造成干預的現象,這種現象被稱作油井結蠟,嚴重時其會造成油流道堵塞,導致油井開采過程中出油量降低.更為嚴重時,會造成井筒路徑被卡死等生產性問題,甚至會造成油井的停產.隨著油田信息化的提高,數據采集傳感器被廣泛應用于油井中,因此對于每個油井都會產出和記錄海量的實時相關數據,而目前這些數據沒有真正利用起來.影響井筒結蠟的因素很多,例如原油含蠟系數、載荷、位移、油溫、壓力等數據,目前的方法主要依靠示功圖等方法對結蠟進行監測分析,而生成示功圖的數據會有大量間接誤差導致圖形畸變、不正確,同時人工對示功圖的判斷和解讀會不夠全面和精準,造成對結蠟情況產生較大誤判.所以建立一個以石油專業知識為背景的科學與智能化的油井結蠟預測模型,提前準確地識別結蠟現象,降低油田的風險和損失擁有顯而易見的價值.

1 相關工作

目前大量學者通過現場的操作以及應用,在對于井筒中結蠟情況的預測模型的構建方面取得了不錯的成績,并將其順利應用于油田的生產中.王利中[1]將數學與石油知識結合,實現了對于油井結蠟快慢和結蠟形成周期長短的計算;另外對于實際工作的油井還需要考慮其他現實因素如管內側本身就沉淀過的結蠟和抽油桿上經過長期工作挺溜的蠟.孫百超等[2]在石蠟沉積機理的基礎上,結合實際生產中石油油溫高、粘度小、熱流強度大等特點,將熱、動力學結合,模擬出了管線長度與結蠟厚度的分布關系模型.但此模型采用的許多常數僅對個別油管有效,而對與不同的油流和油井,參數需要重新進行計算,不具有普適性.Gawas等提出了單相湍流條件下的沉積預測模型,對動態循環沉積數據進行了分析之后提出了新的剪切效應關系[3].最近幾年,人工智能技術如火箭般突破,使其迅速成各行業各領域應用的焦點,在油田領域,段友祥等[4]利用人工智能的分類算法,建立了異常工況診斷模型,對油井工況中的結蠟行為進行判別和診斷;Manshad等[5]利用人工智能預測算法,建立了儲層流體結蠟量預測模型.然而,石油行業的數據集一般是不平衡數據.針對油井結蠟的問題,在這種不平衡數據集中,各類基礎以及傳統的機器學習算法大多仍局限于均衡的樣本訓練,會導致算法將更多的精力用于多數類分類,從而使得少數類分類錯誤率較高,此時即使模型整體的分類結果較好,但是實際上的結蠟分析效果不理想.

針對類似上述問題,在機器學習相關的領域出現了許多針對不平衡數據處理的研究方法.解決不平衡數據的分類問題,大抵可以歸類于兩種辦法,一種方法是基于數據集的數據本身,另一種方法是脫離數據集,嘗試對算法進行創新.對于數據本身的方法,大多是采取對不平衡數據中的少數類或多數類樣本分別實現過采樣或欠采樣,去提升數據集的均衡水平,使分類器可以在相對平衡的數據集上進行學習.Chawla 等[6]突破性得提出了一種SMOTE的方法,計算所有的少數類樣本情況,據此再構造一定數量的相似的少數類樣本,完成過采樣擴充數據集.而SMOTE 算法所暗藏的問題是沒有對少數類樣本之間鄰近樣本的不同進行思索,對它們以同樣的權重進行合成,可能會造成較大重復.Kermanidis 等[7]對于數據不平衡問題采取了一種單邊抽樣的方法,并利用抽樣技術使得樣本分類變得更加準確.Gong 等[8]使用一種新的循環神經網絡來對少數類樣本進行過采樣,使得最后的分類成果十分出色.Giraldo-Forero 等提出了基于距離度量的SMOTE 類算法[9].de Souto 等[10]提出了一種新的多數類樣本欠采樣方法,通過對兩種算法Tomek links和CNN 進行結合,最終對分類結果產生了不錯的提升.Laurikkala[11]提出了范圍清算NCL (Neighborhood CLeaning rule)的欠采樣算法.算法層面主要通過將自己所提出的創新或結合融會于一些基礎和傳統的機器學習的方法及分類模型,從而對不均衡數據的分類從另一層面產生提高和進步.Thanathamathee 等[12]將自己提出的處理邊界數據的方法與傳統的AdaBoost 算法融會,此措施同樣屬于樣本的過采樣方法的一種.Liang 等[13]通過在不平衡數據中使用bagging 算法,對多個底層的分類器進行屢次采樣,提高了二分類模型的預測效果,也相當有效地提高了模型的分類效果.徐麗麗等提出了一種基于集成學習的不平衡數據處理方法,通過將各類別以不同比例進行加權并且將模糊聚類和加權支持向量機模型WSVM 結合.但此方法的缺點是降低不平衡數據集誤分類的損失相對較大[14].

基于上述問題,本文引入ADASYN 來代替SMOTE算法的過采樣作用,并改善了SMOTE 算法生成新樣本中的“傻瓜”操作;引入ENN 進行欠采樣來刪除大部分鄰居中的樣本都和自己本身不屬于一類的多數類樣本,刪除了少部分非常相似的多數類樣本,并將新的采樣算法與隨機森林算法相結合,提出ADASYN-ENNRF (AERF)算法模型來預測油井的結蠟情況.多組實驗結果表明,本文采樣后的樣本更能代表數據集,本文提出的采樣算法與所選分類算法的結合對現有的算法進行了提升,具有更好的分類效果,證明了此算法的可行和提升.

2 ADASYN-ENN-RF 算法

2.1 ADASYN 算法

ADASYN 算法又叫自適應合成采樣算法[15].ADASYN專門針對了SMOTE的缺點并加以改進,它對少數類樣本不再同權重對待,并利用少數類樣本的密度分布來計算少數類樣本生成的數量,使學習困難的少數類樣本生成更多的合成樣本;它能根據樣本的分布來進行采樣,從而提高了少數類樣本在邊緣區域的比例,可以緩解邊緣區域類分布不平衡的問題,來增強分類模型的學習能力.既能有效地克服SMOTE在生成少數類樣本中的盲目性,又能較好地改善 SMOTE在處理邊緣區域對象上的局限性,從而合理的使樣本比例達到相對均衡的效果,緩解數據不平衡的問題.因而在提升不平衡樣本學習能力上具有非常顯著的優勢.ADASYN的重點是取得一個概率分布ri,然后根據ri計算需要構造的樣本個數.

對于訓練集T包含p個樣本{xi,yi},i=1,2,3,…,p,其中xi是n維特征空間X的一個樣本,yi∈Y={0,1}代表不同類別,其中y=1 代表多數類樣本,y=0 代表少數類樣本.它們的數量分別用pl和ps表示.所以有ps≤pl且pl+ps=p.

算法流程如算法1.

算法1.ADASYN 算法1) 計算不平衡度d=ps/ pl,d∈(0,1];A=(pl-ps)×β 2) 計算應該構造的樣本個數,β∈[0,1],當β=1 時,即A 等于兩大類樣本個數的差值,經過新的構造,它們的樣本個數正好相等;3)使用歐式距離計算所有少數類樣本的鄰近樣本數量,設鄰近樣本為m 個,△i為m 個鄰近樣本中多數類樣本的個數,設比值ri為ri=△i/ m,ri∈[0,1];ri=ri/∑ps i=1 ri 4)在3)中獲得所有少數類樣本的概率分布ri,用運算獲得所有少數類樣本的鄰近樣本的構成情況;ai=ri×A 5)通過公式獲得所有少數類樣本需要構造的樣本個數:;6)在任何一個需要構造的少數類樣本周圍都有m 個鄰居,選取其中一個,新樣本構造計算如下:;7)持續步驟6)構造樣本,當達到步驟5)所要求構造的樣本數量即可停止.si=xi+(xzi-xi)×λ

2.2 ENN 算法

ENN 算法即最近鄰規則欠采樣算法[16],該算法根據多數類樣本的鄰近樣本是否大部分和其本身一致來對其判斷是否進行欠采樣,當它周圍的樣本中和它類別不同的樣本占據主導地位時,就可以判定此樣本點是存在問題的樣本,處理方法為刪除.以鄰近樣本數量K=5為例子,具體的ENN 步驟如下:

設少數類為S,多數類為L,多數類樣本點記為p.

算法2.ENN 算法1)從p的鄰近樣本中,計算找出5 個最近的樣本;2)對于每個點p,如果5 個最近樣本中有3 個或3 個以上的樣本點不是多數類樣本L,就刪除該樣本點,反之即無操作;3)遍歷計算,直到沒有此種多數類樣本即可停止.

2.3 ADASYN-ENN-RF 算法

ADASYN是基于SMOTE 算法的一種改進的算法,改進了SMOTE在生成少數類樣本中的盲目性,又能較好的改善 SMOTE在處理邊緣區域對象上的局限性.但只基于ADASYN的RF 算法,利用的是已經存在的少數類樣本信息來增加樣本數量,沒有產生任何新的不同的知識,在訓練樣本嚴重不平衡時,可能會因為少數類樣本欠缺空間代表性導致分類器學習的決策域變小,從而出現過學習.ENN 算法改善了隨機欠采樣不考慮每個多數類樣本不同且獨立的近鄰分布,造成可能會誤刪某些重要的多數類樣本信息的問題.但只基于ENN的RF 算法因為多數類樣本本身遠多于其他,它們之間往往也互相緊鄰,所以僅能刪除非常有限的多數類樣本,并且可能會忽略掉許多多數類樣本中的有用信息,對不平衡數據集提升有限.所以,本文將上述兩種采樣方法相結合實現數據均衡,并提出一種基于ADASYN-ENN和Random Forest 相結合的算法(AERF).

算法的主要思想是:

1)將不平衡數據集通過ADASYN 算法增加少數類樣本,調整ADASYN 算法中的β值來確定合成后的新數據集的樣本平衡度,β=1 時,代表多數類樣本和少數類樣本數量一樣,本文中取β=0.5.

2)將1)步中生成的新的數據集,通過ENN 算法減少多數類樣本,最終生成一個多數類樣本和少數類樣本數量一樣的新數據集.

3)將處理完的數據集利用隨機森林算法來進行分類,調整參數使其分類性能達到最佳.

基于AERF的算法如圖1所示.

圖1 基于AERF的算法流程

算法描述:

對于訓練集T包含p個樣本{xi,yi},i=1,2,3,···,p,其中xi是n維特征空間X的一個樣本,yi∈Y={0,1}代表不同類別,其中y=0為少數類樣本即結蠟數據,y=1為多數類樣本即非結蠟數據.它們的數量分別用ps和pl表示.所以有ps≤pl且pl+ps=p.

算法步驟如算法3.

算法3.AERF 算法1)計算不平衡度d=ps/ pl,d∈(0,1];A=(pl-ps)×β 2)計算應該構造的結蠟樣本個數,β∈[0,1],當β=1 時,即A 等于非結蠟樣本減去結蠟樣本的樣本數量,經過新的構造,結蠟樣本個數等于非結蠟樣本個數;3)使用歐式距離計算所有結蠟樣本的鄰近樣本數量,設鄰近樣本為m 個,△i為m 個鄰近樣本中屬于非結蠟樣本的個數,記比例為ri為ri=△i/ m,ri∈[0,1];ri=ri/∑ps i=1 riri∑4)對ri 進行標準化:,應滿足式:;ai=ri×A i 1ri=1 5)計算出所有結蠟樣本需要合成的數據樣本:;si=xi+(xzi-xi)×λ λ 6)對結蠟樣本生成的數據樣本 其中xzi是xi的一個近鄰樣本,xzi-xi為全部屬性差值,∈[0,1],直到滿足數量G為止;7)使用ENN 算法對處理過的樣本集進行處理.找出新樣本集中的每個非結蠟樣本的距它最近的5 個樣本點.當在5 個最近樣本中有3 個及其以上為結蠟樣本,則可判斷此樣本與周圍大部分近鄰樣本不同,視該非結蠟樣本為噪聲樣本,從數據集中刪除;8)調用RF 算法對平衡數據集進行分類.

3 實驗結果及分析

3.1 數據來源

本文使用的數據集來源于勝利油田某采油廠的一百多萬條抽油井生產數據.原始的數據包括單井基礎信息、示功圖采集數據、示功圖分析數據、油井實時數據、結蠟數據信息、油水分析數據,數據時間范圍是2018年至2019年,其中單井基礎數據主要存儲井名、所屬區域等信息,示功圖采集數據、示功圖分析數據、油井實時數據主要記錄各井每個時間點的示功圖、油井實時參數,結蠟數據信息主要對油井出現結蠟異常的情況進行了標記.

盡管以上數據時間跨度大、涵蓋油井數量多、數據資源豐富,但現實情況下提取和記錄的數據依然存在以下缺陷:(1)數據存在空缺值;(2)數據存在無效值;(3)數據收集的時間有中斷,存在沒有采集到數據的時間;(4)不同數據庫字段命名不一致;(5)數據表中存在屬性冗余等現象.

因此,為提高抽油井結蠟預測的準確度,在建立油井結蠟預測模型之前需要進行數據預處理.

3.2 數據預處理

3.2.1 數據清洗

當示功圖或油井數據中某一屬性即某一列全部為空時,對整列進行刪除.當示功圖或油井數據中某時間一條數據全部為空時,對該時間段記錄進行刪除.對空缺值使用整個屬性的平均值進行填補.

3.2.2 數據歸一化

在模型訓練與分類時,其中的連續變量如果維度不同有可能影響到整個模型的精度.所以在此之前,需要對這些變量進行規范化的歸一化處理,將他們全部映射到0~1 中.對于分類變量,同樣需要對其做規范化的離散化處理,將它們全部映射到0,1的向量空間中.

設xi為來自于總體X的一個樣本,通過式(1)解決歸一化,生成新樣本.

3.3 特征選擇

對數據進行預處理過后,數據集依然有178 個特征.許多冗余特征對模型的分類不能提供幫助甚至產生了干擾.因此,我們使用mutual_info_classif 方法來對數據集進行特征選擇,選取15 個對模型分類影響最大的特征.最終我們將提供的結蠟數據信息中所標記為結蠟的時間,在油井及示功圖數據中將對應時間段的數據標記為1,其他數據標記為0.如表1所示,繁雜的數據通過預處理過程,構成了樣本數據集,我們從中挑選了5 口井來進行實驗.

表1 數據集基本信息

3.4 實驗設計

本文對樣本數據集采取分區實驗,所用數據集如上表所示.實驗在4 核CPU、1.60 GHz 主頻、16 GB內存的PC 機上進行,使用Python 完成了所有算法.本文選擇使用RF,SMOTE-RF,ADASYN+RF,ADASYNENN-KNN,ADASYN-ENN-AdaBoost,ADASYN-ENNRF 六種算法對相同的數據集進行測試,采用十折交叉運算進行預測.SMOTE、ADASYN算法中領域值K值取5,ADASYN 算法中β取0.5.在不平衡數據集中,采用Accuracy 作為評價指標不能客觀的展示出模型的分類效果,會傾向于多數類樣本.所以針對不平衡數據集,我們采用評價指標F-value、G-mean和recall來對分類模型做出評價.

3.5 評價指標

在分類問題中,使用Accuracy 作為分類的評價指標的多是一般的平衡數據集,但當碰到不平衡數據集[17]時,它的多數類少數類樣本數量之差比較夸張,所以使用Accuracy 判斷此類分類器的性能是不精準的.因此,本文采用不平衡分類中常用的評價指標F-value、G-mean和recall進行評估(本文中定義少數類為正類,多數類為負類).而這3 種指標均由混淆矩陣計算得出.混淆矩陣如表2所示.

表2 二分類的混淆矩陣

表2中,TP是指樣本預測和實際特征均為正;TN是指樣本預測和實際特征均為負;FN是指樣本實際是正預測是負;FP則與FN相反.

Recall、F-value、G-mean計算公式如下:

(1)召回率(recall)的計算公式為:

(2)精確率(precision)的計算公式為:

(3)F-value值為precision和recall的調和平均值,計算公式為:

參數β設置為1,如果precision和recall都高時,很明顯F-value值也會隨之提升.

(4)G-mean表示算法在正確正類和正確負類的平均性能:

其值越大分類性能越好,只有當正、負類樣本的分類效果都比較好時,G-mean值才會高.

3.6 實驗結果

使用RF,SMOTE-RF,ADASYN+RF,ADASYNENN-KNN,ADASYN-ENN-RF,ADASYN-ENNAdaBoost 六種算法進行分類,得到分類后的F1、recall和G-mean值,從而對不平衡數據采樣方法的處理效果以及分類模型的分類效果進行比較.結果如表3~表5所數據集進行處理的RF 算法,ADASYN-ENN-RF 算法在5 個數據集上的3 個指標均擁有5%以上的提升.對比僅使用了單一過采樣算法處理數據集的SMOTERF、ADASYN-RF 算法,ADASYN-ENN-RF 算法同樣在5 個數據集上的3 個指標均產生至少0.1%以上的提升.對比ADASYN-ENN-KNN,ADASYN-ENNAdaBoost,ADASYN-ENN-RF 三種算法,ADASYNENN-RF 算法在5 個數據集上最終跑出的F1 值,均至少高出了0.05%;在5 個數據集上最終跑出的recall值,均至少高出了0.01%;在5 個數據集上最終跑出的G-mean值,均持平或高出.結果如圖2至圖4所示.

圖2 各個模型在5 個數據集上的F1 值對比

圖3 各個模型在5 個數據集上的recall 值對比

圖4 各個模型在5 個數據集上的G-mean 值對比

表3 各個模型在5 個數據集上的F1 值

表4 各個模型在5 個數據集上的recall 值

表5 各個模型在5 個數據集上的G-mean 值

所以綜合對比F1、recall、G-mean值這3 個指標發現,AERF 算法能夠有效地處理不平衡數據集并且在分類性能上有顯著的提高.

4 結束語

油井的運行過程中,它的各項數據往往是極度不均衡的.在絕大多數時間產生的都是運行正常時的樣本,而它出現問題造成結蠟的樣本甚至幾個月才有一次.這很大程度增加了現在主流分類預測算法對其應用的難度.主流算法以總體的準確性作為提升目標,總會偏向于占比較大的類,反而導致重要樣本被忽視.從而致使結蠟情況的出現難以被預測.

本文針對油井結蠟數據類別不平衡、判斷結蠟情況不準確等問題,提出一種AERF 算法,即使用ADASYN算法和ENN 算法相結合的方法處理不平衡數據集,再配合隨機森林算法在平衡樣本集中進行訓練和學習,從而得到效果優異的模型.實驗結果表明,該算法在構造平衡數據集時更加合理,特別是明顯地提升了本來處于絕對弱勢的少數類樣本的影響力.本文沒有對ADASYN算法中β參數對于算法性能的影響并且沒有對更加多元化的采樣方式的組合來進行研究和實驗,這是下一步的研究方向.

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲天堂在线视频| 国产91透明丝袜美腿在线| 国产农村1级毛片| 亚洲一区二区三区在线视频| 91一级片| 日韩色图在线观看| 无码中文AⅤ在线观看| 老司国产精品视频91| 亚洲欧洲一区二区三区| 久久精品国产免费观看频道| 免费人成视网站在线不卡| 亚洲福利视频网址| 亚洲天堂免费在线视频| 国产精品美女自慰喷水| 亚洲第一成年网| 国产香蕉在线视频| 日韩成人免费网站| 欧美不卡视频在线观看| 巨熟乳波霸若妻中文观看免费| 超碰91免费人妻| 亚洲a级毛片| 国产黑丝一区| 久久国产V一级毛多内射| 欧美日韩v| 999国内精品久久免费视频| 成年人午夜免费视频| a欧美在线| a色毛片免费视频| 久久久久亚洲Av片无码观看| 91视频精品| 播五月综合| 国产精品福利导航| 99久久精彩视频| 在线观看欧美精品二区| 中文字幕首页系列人妻| 国产美女叼嘿视频免费看| 亚洲人成电影在线播放| 久久天天躁狠狠躁夜夜躁| 精品国产一二三区| 无码高潮喷水专区久久| 内射人妻无套中出无码| 久久五月视频| 热re99久久精品国99热| 国产欧美成人不卡视频| 国产亚洲日韩av在线| 亚洲日产2021三区在线| 久久综合丝袜长腿丝袜| 国产av一码二码三码无码 | 精品欧美视频| 国产乱子伦无码精品小说| 久久永久精品免费视频| 亚洲精品视频免费| 亚洲国产成人综合精品2020| 乱人伦视频中文字幕在线| 国产经典在线观看一区| 亚洲精品成人福利在线电影| 国产色爱av资源综合区| 亚洲水蜜桃久久综合网站| 久久国产精品夜色| 国产精品第一区在线观看| 一级毛片在线直接观看| 欧美成人综合在线| 久久国产高清视频| 91久久性奴调教国产免费| 亚洲福利一区二区三区| 伊人福利视频| 久久一级电影| a毛片在线播放| 日韩在线成年视频人网站观看| 久久精品人人做人人爽| 日韩最新中文字幕| 精品小视频在线观看| www.91中文字幕| 91综合色区亚洲熟妇p| 久久这里只精品热免费99| 国产欧美日韩视频一区二区三区| 国产精品视频公开费视频| 白丝美女办公室高潮喷水视频 | 国产尹人香蕉综合在线电影| 99re在线免费视频| 试看120秒男女啪啪免费| 欧美视频在线播放观看免费福利资源|