999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

考慮數據不平衡影響的鉆井復雜智能診斷方法

2022-01-04 03:17:06譚天一張輝馬丹妮路宗羽吳怡焦金剛
石油鉆采工藝 2021年4期
關鍵詞:分類特征成本

譚天一 張輝 馬丹妮 路宗羽 吳怡 焦金剛

1. 中國石油大學(北京)石油工程學院;2. 中國石油新疆油田分公司;3. 中海石油(中國)有限公司北京研究中心

隨著油氣資源的不斷開發,鉆井工程的重要性日益突出,而鉆井復雜問題嚴重制約著鉆井作業的順利開展。據統計,近年來用于處理鉆井過程中復雜情況及事故的非生產時間(NPT),占總施工時間的6%~8%[1],造成了巨大的經濟損失。

為了有效解決鉆井復雜問題,需要鉆井工作者及時診斷異常情況。目前,鉆井現場工作人員對鉆井復雜的診斷,主要依賴鉆井領域專家的經驗,歸納各種鉆井復雜的地面表征(如大鉤載荷、立管壓力、出口排量等參數的變化),總結形成相應的判斷流程[1-2]。但由于人力的局限性,無法全面分析海量的鉆井數據,不能深入挖掘鉆井參數與鉆井工況之間的內在聯系,因此其診斷鉆井復雜的能力有限。近年來,隨著人工智能和數據分析領域的興起,運用機器學習算法來分析鉆井數據、建立鉆井復雜智能診斷方法逐漸成為可能。季雯宇[3]、汪洋[4]等運用神經網絡等算法建立了卡鉆事故的識別方法;徐寶昌等[5]運用自適應觀測器和獨立主元分析來監測鉆井氣侵的發生;連志龍等[6]運用BP神經網絡算法診斷井漏情況;Liang等[7]基于粒子群算法優化支持向量機(PSO-SVM)建立了井漏風險的動態評估方法;王茜等[8]將物理模型與人工智能、數據挖掘相結合,實現對機械卡鉆的實時預測和對井涌情況的實時監測;史肖燕等[9]基于隨機森林算法建立了溢流、漏失情況的實時判斷方法;王江萍等[10]運用神經網絡對井漏、井塌、井涌和井噴等多種復雜情況進行識別;馬鵬鵬等[11]研發的鉆井風險控制系統,已實現基于模糊綜合評價和BP神經網絡對鉆井復雜進行實時診斷與預測;沈建文等[12]基于神經網絡算法,建立了針對川西深井的鉆井風險識別系統。

前人的研究多致力于選用合適的機器學習算法來診斷、監測或預測各類鉆井復雜或事故。而運用效果的優劣,除了受算法本身的影響,還很大程度上依賴于數據的質量。對于鉆井復雜這一問題,其數據具有天然的缺點:數據不平衡。即絕大多數數據是對正常鉆井作業的記錄,只有少量數據記載了鉆井復雜情況。數據不平衡會使機器學習算法傾向于將結果劃分到多數樣本的類別,導致鉆井復雜情況被誤判為正常鉆井情況。

決策樹作為分類算法中重要的一支,被廣泛運用于各個工程領域。其具有構造時間短、可解釋及易可視化等優點[13],可作為基分類器構造隨機森林等集成學習算法。筆者引入錯誤分類成本以修正數據不平衡的影響,基于決策樹模型建立了以最小錯誤分類成本期望值為分類目標的鉆井復雜智能診斷方法,并通過現場實例說明其較之傳統模型的優勢。

1 基于決策樹的鉆井復雜診斷方法

1.1 鉆井數據收集與預處理

在鉆井作業時,地面測得的各項鉆井參數可以反映井下狀況,鉆井復雜的診斷也依賴于對地面數據的分析。所需參數主要包括大鉤載荷、轉盤/頂驅扭矩、排量、鉆壓、轉速、立管壓力、套管壓力、泥漿池總體積等。上述參數通常記錄在井史、完井總結報告、綜合錄井記錄、工程異常記錄等鉆井資料中。將鉆井參數從資料中提取后,生成按時序排列[9]或按井深排列[14]的原始參數表。

原始鉆井參數并不適用于診斷模型的訓練,需要將其處理為能反映鉆井狀態的樣本。當鉆井復雜發生時,通常會導致地面參數出現異常波動,不同的鉆井復雜所表現的波動形式不同。故使用參數波動幅度作為特征值。

式中,Vi為 鉆井參數反映的特征值;Pi+1、Pi為相鄰的鉆井參數值。

其次,鉆井資料中的鉆井參數通常以散點值的形式記錄,通過式(1)計算得到的波幅也為散點值。如果將所有的散點值直接作為輸入用于模型訓練,會導致特征過多。將反映相同鉆井情況的散點值分級,作為新的特征值用于訓練,既可以降低運算成本,又可以提高模型的泛化能力。各個鉆井參數的分級標準需依據該參數的分布特點而定。

1.2 決策樹分類原理

決策樹分類算法可以視作一系列if-then條件語句的集合[15],每次對某特征的判定會決定其下一次判斷的支路方向。傳統的鉆井復雜專家診斷方法也可以歸納為決策樹的形式,如圖1中的決策樹基于5個特征(鉆井工況、大鉤載荷、立管壓力、轉盤扭矩及轉盤轉速)診斷是否會有砂橋卡鉆發生[4]。

圖1 劃眼工況砂橋卡鉆診斷決策樹Fig. 1 Decision tree of diagnosing sand bridge sticking accident under the working condition of reaming

1.3 決策樹的訓練

圖1 的決策樹是基于專家經驗總結的診斷邏輯表繪制而成,而鉆井復雜智能診斷需要基于鉆井數據訓練得到決策樹。決策樹的訓練以遞歸方式進行,流程為[15-16]:(1)選擇目前最優的分類特征;(2)以該特征中每一個值生成一個分支,將符合該特征值的樣本劃分到該分支下;(3)對每一個分支,將該分支路徑下已選過的特征排除后,執行步驟1和步驟2;(4)當步驟1已無可選特征時,該分支節點為葉節點,類別為其中多數樣本的類別。

1.4 最優特征的選擇

由上文可知,訓練決策樹的重要步驟之一為選出當前最優的分類特征。分類特征的優劣可以用信息增益來衡量[16]。信息增益反映了樣本集依據該特征分類后純度的提高,其表達式為

式中,G為 信息增益;Ep為父節點樣本集的信息熵;n為按該特征分類得到的子節點個數(即分支節點數);Np為 父節點樣本集中的樣本總數;Nci為第i個子節點樣本集的樣本數量;Eci為 第i個子節點樣本集的信息熵。

其中,信息熵為一個樣本集純度的衡量指標。信息熵越低,表明該樣本集的混亂程度越低,純度越高。信息熵的計算公式為

式中,E為信息熵;m為 樣本集中樣本的類別數;Nj為第j類樣本的數量;N為樣本集中的樣本總數。

2 鉆井數據不平衡的處理方法

數據不平衡是指訓練集中各個類別的樣本數量明顯不均。傳統的分類方法通常以追求更高的分類準確率為訓練目標,致使其分類標準往多數類傾斜?,F通過一個簡單的例子來說明。假設某鉆井數據樣本集如表1所示,該樣本集共有6個樣本。為簡化問題,假設樣本僅有特征X,該特征有A和a兩種值。每個樣本標簽指示有無發生鉆井復雜。

表1 數據不平衡樣本Table 1 Sample of data imbalance

由表1可看出,若以該樣本集作為訓練集來生成決策樹,特征X=A的樣本1、2和3都沒有鉆井復雜,故生成的決策樹必然會將X=A的樣本分類為 “無鉆井復雜”。而同為X=a的后三個樣本中,出現了“無”和“有”兩種標簽,且比例為2∶1。若決策樹將特征為X=a的樣本分類為“無”,僅會對樣本6分類出錯,訓練準確率為83.3%;若將特征為X=a的樣本分類為“有”,會對樣本4和5都分類出錯,訓練準確率為66.7%。因此,在以高準確率為訓練目的時,生成的決策樹會以前者為分類策略,導致類似樣本6的鉆井復雜被忽略。

為解決數據不平衡的問題,目前機器學習領域的研究人員主要從數據預處理、特征和算法三方面入手[17]。各種方法都有其優點和局限性,鉆井行業的工作者為解決本領域的問題,應從自身工程目的出發,選擇適合的解決方案。鉆井工程的目的是以最低的成本建成一口井,而傳統的分類算法通常以實現最高的準確率為訓練目標,低成本和高準確率并不一定同步。

在上例中,鉆井工程師之所以無法接受將X=a判斷為非鉆井復雜類,是因為從工程常識可知,無法識別出鉆井復雜往往會導致更嚴重的損失,即使該分類策略的準確率更高。因此,以降低成本為目標來訓練診斷模型,更符合鉆井工程的需求。此處的成本應為模型診斷錯誤所產生的額外工程成本,即錯誤分類成本。以卡鉆復雜為例,若模型將非卡鉆點誤判為卡鉆點,工程師則會花費不必要的人力物力去執行劃眼、循環洗井等作業,來消除并不存在的卡鉆復雜;若模型將卡鉆點識別為非卡鉆點,后續產生的鉆具被埋、井眼廢棄等事故即為錯誤分類成本。

因此,應將傳統的機器學習方法優化為代價敏感的學習方法,將學習的目標函數定為最低的錯誤分類成本期望值[18-19]

式中,L(x,i)為 將樣本x劃 分為i類的錯誤分類成本期望;P(j|x)為 樣本x屬 于j類的概率;C(i,j)為 將i類樣本劃分為j類的分類成本。

在實際的模型訓練過程中,可以通過修改類別權重來實現將最低錯誤分類成本設為目標函數。傳統的訓練模型默認各類權重相同,故在前文1.3節流程第(4)步中,選擇數量最多的類為該葉節點的類。考慮錯誤分類成本后,將各類的權重設置為其錯誤分類成本,選擇總權重最低的類為葉節點的類。

由前文基于額外工程成本的設定可知,分類正確的成本C(i,i)=C(j,j)=0。以表1情況為例,作出其錯誤分類成本矩陣,如表2所示。

表2 錯誤分類成本矩陣Table 2 Matrix of mis-classification cost

值得注意的是,模型求得的最小錯誤分類成本期望L(x,i)min仍可能較大。因此需要根據工程實際,設定許用成本上限La。當滿足此時模型才是可靠有效的。否則,還需通過其他途徑進一步改進診斷方法,如尋找更多有效特征,區分鉆井復雜樣本和非鉆井復雜樣本。

3 實例分析

以川渝地區某頁巖氣水平井為例,基于決策樹建立考慮數據不平衡影響的智能識別模型,以卡鉆復雜為識別目標。原始數據從錄井資料、井史資料、完井總結報告和工程異常記錄等文件收集整理而得,具有代表性的部分數據如表3所示。選用大鉤載荷、扭矩、轉速、鉆壓、大鉤位置、立管壓力、排量和套管壓力等8種鉆井參數來生成樣本特征。

表3 部分原始數據Table 3 Partial initial data

按前文所述,對原始數據進行預處理和分級,生成訓練模型所需的樣本。類別標簽用0表示“否”,1表示“是”。部分樣本數據見表4。

表4 部分樣本集Table 4 Partial sample set

若按傳統的決策樹分類模型進行訓練,該樣本集訓練準確度為99.95%,但會將8號樣本判定為未卡鉆。因此,當該模型運用于測試或實際作業中時,將無法識別類似8號樣本的卡鉆情況。究其原因,是因為8號樣本與1、3、5號樣本特征一致,而這3個樣本的標簽為“否”。為了實現更高準確率,傳統模型將該特征的樣本都分類為未卡鉆。

新模型將錯誤分類成本引入模型中。假設通過洗井、劃眼等方法處理一次卡鉆風險的成本為5萬元,而發生卡鉆事故后造成的經濟損失為100萬元,許用成本上限La為10萬元。計算可得,將該特征的樣本劃分為卡鉆的錯誤分類成本期望為

劃分為非卡鉆的成本期望為

將該特征樣本劃分為非卡鉆的分類方式與傳統模型的分類方式相同,故傳統模型的成本期望也為25萬元。比較可知,將該特征的樣本劃分為卡鉆的錯誤分類成本期望,既小于將其劃分為非卡鉆的成本期望,又小于許用成本上限。因此,改進后的決策樹會將8號卡鉆樣本識別出來,且成本期望比傳統方法降低85%。

4 結論

(1)現場資料中的鉆井資料常有數據不平衡的特點,表現為記錄鉆井復雜的數據量遠少于記錄正常作業的數據量。數據不平衡會導致傳統分類算法向多數類傾斜,導致少數類的鉆井復雜情況無法被有效識別。

(2)基于決策樹方法,引入錯誤分類成本來處理數據不平衡問題,將傳統分類模型的訓練目標從實現準確率最高改進為實現成本期望值最低,建立考慮數據不平衡影響的鉆井復雜智能診斷新模型。新模型能有效診斷出樣本較少的鉆井復雜情況。

(3)通過實例分析,將新模型運用于川渝地區某頁巖氣水平井的卡鉆復雜診斷,能有效識別被傳統方法忽略的卡鉆樣本,且成本期望降低85%。

(4)本文的鉆井復雜診斷方法雖然以決策樹模型為基礎,但以降低錯誤分類成本為訓練目標解決鉆井數據不平衡問題的思路,可推廣到其他分類模型的訓練中,為解決類似的問題提供參考。

猜你喜歡
分類特征成本
分類算一算
2021年最新酒駕成本清單
河南電力(2021年5期)2021-05-29 02:10:00
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
溫子仁,你還是適合拍小成本
電影(2018年12期)2018-12-23 02:18:48
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 欧美人与牲动交a欧美精品| 99久久这里只精品麻豆| 欧美一级高清片欧美国产欧美| 国产一级一级毛片永久| 亚洲成人77777| 国产9191精品免费观看| 国产靠逼视频| 99视频国产精品| 精品黑人一区二区三区| 色综合中文综合网| h视频在线观看网站| 国产成人AV综合久久| 亚洲成人精品在线| 亚洲最大福利网站| 日韩色图在线观看| 国产一在线观看| 亚洲嫩模喷白浆| 国产成人无码AV在线播放动漫| 伊人色综合久久天天| 国产传媒一区二区三区四区五区| 国产成人高精品免费视频| 丰满少妇αⅴ无码区| 婷婷色丁香综合激情| 亚洲全网成人资源在线观看| 欧美国产在线看| 亚洲免费福利视频| 国产丝袜91| 91精品最新国内在线播放| 玩两个丰满老熟女久久网| 1769国产精品视频免费观看| 操国产美女| 国产人人乐人人爱| 国产一区二区三区在线观看视频 | 色成人综合| 无遮挡国产高潮视频免费观看| 免费无码AV片在线观看国产| 毛片最新网址| av一区二区人妻无码| 人妻无码一区二区视频| 国产一区二区三区视频| 日本精品一在线观看视频| 91丨九色丨首页在线播放| 欧美天堂在线| 欧美人与动牲交a欧美精品| 国产91久久久久久| 欧美日韩在线国产| 成人久久精品一区二区三区| 欧美福利在线播放| 国产毛片片精品天天看视频| 秋霞一区二区三区| 国产成人精彩在线视频50| 亚洲精选无码久久久| 欧美色图第一页| 亚洲人成电影在线播放| 高清无码不卡视频| 日韩少妇激情一区二区| 国产真实乱了在线播放| www.av男人.com| 国产精品美人久久久久久AV| 亚洲色图欧美一区| 最新国产精品第1页| 亚洲国产精品无码AV| 欧美日韩午夜视频在线观看| 国产91线观看| 91视频青青草| 国产又爽又黄无遮挡免费观看| 欧美一级特黄aaaaaa在线看片| 高清视频一区| 亚洲一道AV无码午夜福利| 美女内射视频WWW网站午夜 | 国产精品福利在线观看无码卡| 国产一级视频在线观看网站| 国产91成人| 日韩精品成人在线| 一本大道AV人久久综合| 久久男人视频| 欧美亚洲国产日韩电影在线| 全部免费毛片免费播放| 成人蜜桃网| 国产激情在线视频| 91麻豆精品国产高清在线| 99精品欧美一区|