





關鍵詞/主題詞:安全;鉆井;大數據;人工智能;能源安全;數字化轉型;工程技術;算法
0引言
在石油開采過程中,由于受到地層壓力等因素影響,導致地層中流體從井口噴出形成井噴事故,井噴事故發生后極易引發災難性后果,所以井噴的預防和處置是石油開采過程中保障生產安全的重要環節[1]。而溢流是導致井噴事故發生的直接原因,也是石油鉆采作業中的主要風險類型之一。溢流發生后如果處置不當,極易造成井噴事故,嚴重威脅工業生產安全和生態環境[2]。井口出現溢流到最終發生井噴,這兩者之間存在一個時間窗口,需要在時間窗口內完成及時的關井操作以控制溢流蔓延,防止井噴發生[3]。所以,溢流早期識別預警的時間提前和準確性,決定了是否有充足的時間進行相應井控操作,以控制溢流進一步發展的態勢,達到預防井噴的目的[4]。
隨著錄井設備的發展,大量錄井數據為溢流早期預警提供了支持。在此基礎上,得益于機器學習的蓬勃發展[5],通過錄井數據建立的溢流早期預警系統也成為了有效的預警手段。如何提前預警時間并降低誤報率需進一步研究[6]。
在鉆井生產早期,溢流預警的人工坐崗采用人為觀測。通過人工很難在井口出現溢流現象后及時進行溢流識別與處置,留給井控的響應時間極短。多數情況下,難以及時處置并且有效控制溢流發展,導致在早期鉆井生產過程中井噴事故發生率較高[7]。隨著錄井設備的發展,愈來愈多的錄井參數能夠被用于溢流預警,為溢流預警提供了新思路[8]。為了更早的識別出溢流,為井控處置爭取更多的響應時間,近幾年的應用實踐運用井下和井口的數據特征變化來識別和判斷溢流,開發了許多利用錄井大數據進行溢流預警的新方法,取得了一定的成效[9]。但是,溢流發生時的油井狀態極為繁雜,多種因素交織,各種錄井參數的數值異常波動復雜多樣,現有方法在建立溢流預警識別模型的過程中常常將復雜的溢流狀態過度簡化,這就導致各種溢流預警方法的預警提前時間和準確性亟待提升[10]。隨著反映溢流特征的錄井參數增加,以及實際鉆井過程的復雜特性影響,科研工作者認識到單一的參數指標和簡單的閾值判定識別,難以滿足溢流早期識別的需要[11]。
在近幾年的研究中,隨著人工智能的飛速發展,大數據采用機器學習算法進行識別預警成為了現階段研究的重要方向,也是鉆井安全技術研究的重要課題[12]。越來越多的學者,開始通過對大量錄井數據的科學分析,探尋溢流發生時的數據規律,引入多種算法建立早期溢流預警識別模型[13]。早期溢流預警的主要研究方向,從一開始直接針對單目標參數或多參數變化進行監測預警,向深度結合人工智能方法對多參數、大數據進行早期溢流預警發展[14],并通過算法的改進、參數的調整來實現溢流識別的提前時間和準確率提升[15]。Muojeke等建立了結合人工神經網絡(ANN)、二元分類器和井下監測的溢流識別模型,解決了針對錄井參數進行溢流檢測的預警系統可靠性不高的問題,發現重要參數異常壓力和流量變化在提供更早預警,實現了更為可靠的預警系統,但是存在監測參數有限導致模型更敏感誤報率更高的問題[16]。Osarogiagbon等采用長短周期神經網絡對時序性的錄井數據進行早期溢流預警,運用數據斜率及峰值變化趨勢訓練神經網絡,實現了誤報率較低的溢流早期識別預警,但是模型訓練集的數據量有限,預警模型準確性丞待提升[17]。Aljubran等對鉆井歷史數據進行了大規模分析,對數據進行充分預處理后采用一維卷積神經網絡進行預警模型建立,并采用焦點損失方法應對數據類別不平衡,實驗結果證明,該一維卷積神經網絡預警模型能夠進行預測,但是該模型預測的結果只應用于模擬,并且對于程度較小的漏失預警滯后[18]。殷啟帥等針對深水鉆井工況,提出了一種針對氣侵溢流的數據分級異常標注標準,根據地面、立管和井下檢測數據建立LSTM-RNN模型,在充分分析鉆井狀態的基礎上將溢流風險進行分級預警,應用于現場實踐取得了有效成果,但是該成果只針對深水工況特點[19]。李輝等運用無監督學習方法,提出了一種采用模糊C均值聚類算法對錄井數據進行溢流識別的溢流預警模型,并提出用相對熵理論進行改進。這種結合溢流特點與立壓、套壓斜率變化特征的預警模型取得了一定成效,但是所用聚類方法需人為指定一些參數,對模型分類結果存在一定的影響,且方法處理大量數據樣本的實時性欠佳[20]。葛亮等深入對溢流事件發生機理和溢流數據變化特征進行分析,結合井下環空參數和隨機森林方法建立智能溢流早期識別預警模型,對溢流嚴重程度進行了劃分預警,經實驗驗證,其效果優于BP神經網絡,但所使用方法應用于工程實際時解釋性不佳,且不適合實時預警[21]。郭振斌等開發了一種可以實時采集、監測錄井數據的智能溢流預警系統,實現了無線傳輸和自動計算,根據不同井口條件可對系統進行調整,現場應用取得了一定成效,但其進行智能預警的溢流判別方法比較傳統,預警精度還需要進一步提升[22]。李仙琳等提出了一種KPCA-SSELM的溢流預警方法,KKCP方法選出與鉆井原始數據關聯性高的五個成分,提升模型異常識別診斷率,運用半監督極限學習方法建立完整預警模型,提升了溢流識別的準確率,模型具有不錯的實驗效果,但是數據集井口數量有限,模型準確率仍有提升空間[23]。張禾等運用BSMOTE生成支持向量機方法分類邊界,建立溢流識別分類模型,提升了早期溢流預警的準確性,克服了向量機方法受樣本分布影響的缺點,取得了應用效果,但是分類模型計算樣本距離的算法對準確性影響較大,模型準確性仍有提升空間[24]。孫偉峰等考慮了井口工況對錄井參數數值波動的影響,運用深度學習構建了溢流識別Bi-GRU網絡模型進行早期溢流識別,與其他模型相比有更高的準確率,但是與井口溢流狀態變化關聯的因素繁雜,仍需進一步引入更多影響因素修正方法和檢測目標參數以提升模型準確率[25]。
貝葉斯方法能夠對風險中各主要因素的歷史數據進行統計分析,運用統計學原理根據概率進行有效分類。鉆井作業中,鉆井設備、井口錄井數據和事故記錄都具有豐富的歷史記錄信息[26],不論是運用貝葉斯方法進行故障診斷還是風險評價都非常適用[27]。對于鉆井過程中的智能預警,現階段貝葉斯方法多被用于鉆井設備的故障識別以及溢流事件風險分析,而在此方面,國內外針對錄井數據早期溢流識別預警,多采用樸素貝葉斯模型[28]。DinhMinhNhat等建立了井下監測數據驅動的樸素貝葉斯模型,對實驗室數據進行溢流識別應用,相較于傳統專家經驗的方法更具有優勢[29]。袁俊亮等引入貝葉斯方法,從統計角度綜合識別溢流特征,引入地層信息對錄井數據波動的影響,綜合考慮井口地層信息和關鍵錄井參數,建立了基于樸素貝葉斯模型的溢流實時預警方法。但是,所使用的歷史數據訓練集目前存在難以消除的誤差,需要進一步提煉,并且樸素貝葉斯方法是參數獨立的,對真實溢流事件的參數狀態過度簡化,預警模型的精度存在提升的空間[30]。楊向前等針對海上井噴事故特點,運用粒子群優化和支持向量機預測海上鉆井監測參數發展趨勢,深入分析鉆井溢流發生時的數據特點,基于此建立了貝葉斯方法測算單參數概率估計,運用融合算法形成多參數早期溢流分級預警模型,但是同樣存在樸素貝葉斯方法的局限性[31]。
現階段,大量對溢流早期識別預警系統的研究都建立在深入分析溢流發生機理、應用新方法、修正或創新已有方法上,將人工智能發展前沿的方法與傳統工業結合,創建安全智能的工業生產環境,保障人民財產安全和維持文明生態環境取得了一定成效[32]。但是由于油井所處的地層即使在同一區域特征也不相同,井下狀態就像“世界上沒有兩片完全相同的樹葉”,并且還會受到各種設備和作業環境的影響,所以各井之間差異性極大,預警方法的提前時間、適用性、準確性還需進一步研究[33]。
人工智能領域提供了多種優秀的分類方法,能夠很好的解決鉆井溢流中數據特征的識別分類。但是不論怎樣復雜的機器學習方法各有優點也有缺點,在適用性上仍有非常大的提升空間[34]。將各種方法應用于溢流預警系統的建設中進行研究,探討各種方法的優化,對比優缺點,對提升溢流早期識別預警的提前時間和準確性提升非常重要。貝葉斯方法作為一種數學方法,其原理穩固,分類穩定,對于鉆井過程中明確的類別屬性(溢流、非溢流)、有限的參數量和豐富的歷史數據非常適用[35]。樸素貝葉斯方法也在溢流識別中取得了一些成功,但其假設各錄井參數相互獨立的前提與實際情況往往存在較大差距。例如,鉆壓是鉆具作用在地層上的壓力,表現為懸重減去大鉤載荷,其與大鉤負荷數據不完全獨立,傳統樸素貝葉斯模型在應用于鉆井早期溢流識別時,仍需進一步探討和優化[36]。
為了克服樸素貝葉斯方法的局限性,研究采用樹增強型貝葉斯模型進行溢流早期識別預警,將歷史錄井數據進行深入處理和分析,形成訓練集和測試集[37]。基于歷史溢流數據分析溢流發生時各錄井參數間的關聯性,將錄井參數的關聯性引入貝葉斯模型中,運用貝葉斯原理構建樹增強型貝葉斯網絡,將訓練集帶入貝葉斯網絡進行訓練,形成樹增強型貝葉斯模型對測試集進行早期溢流識別[38]。根據溢流識別結果,結合誤報率修正方法建立早期溢流識別預警模型。
1方法過程
1.1成果研究過程
在溢流發生早期,鉆進過程的溢流狀態可以在錄井參數上找到明顯線索,溢流狀態直接反映在錄井參數的異常變化上。近年來基于錄井參數大數據的早期預警研究,都集中在識別錄井異常參數。更早的識別到與溢流有關的錄井參數變化,是準確實現早期溢流預警的關鍵。所以,考慮各個錄井參數在溢流發生早期的異常變化特征,在大量錄井參數歷史數據的基礎上,運用樹增強型貝葉斯方法,綜合考慮早期溢流狀態下各錄井參數間的關聯性,建立早期溢流識別模型。
早期溢流識別預警系統主要包括數據處理和模型識別兩個部分:首先對采集到的錄井數據進行處理和異常值識別,通過異常值識別將離散的錄井數據通過“二值化”轉化為特征值,形成歷史數據訓練集和實時數據集。接著,依據歷史數據訓練集運用樹增強型貝葉斯方法進行貝葉斯模型建模,并訓練樹增強型貝葉斯模型的先驗概率和條件概率表,構建基于樹增強型貝葉斯方法的早期溢流識別模型,將實時數據集帶入樹增強型貝葉斯模型中進行溢流判定,基于模型判定結果實現溢流早期的預警識別。
1.1.1數據處理方法
各錄井參數被記錄的數據是具有時序性的離散數據,由于鉆井狀態變化及鉆井工況的不穩定性,錄井數據易產生平穩變化和隨機波動。通過對錄井參數的歷史數據統計分析可以發現,錄井參數的數據整體服從正態分布,可以運用“3σ準則”進行錄井參數的異常值識別。典型錄井參數-溢流量隨時間變化曲線和數據正態分布柱狀圖,如圖1所示。
從圖1可以看出,溢流發生時,錄井參數的數值可能出現一定時間內的極速上漲或下降。但是,在數據統計分析過程中發現,有兩種錄井參數異常變化區別于溢流發生時相關錄井參數的異常變化:一種是錄井參數隨著鉆井過程的推進,數值會發生緩慢平穩的變化,這部分變化都是在較長的時間段內緩慢上升或下降,屬于鉆井過程中正常的數據起伏;另一種是,由于溢流、提降鉆具等異常工況,錄井數據還可能在短時間內發生陡峭的數值變化,表現為異常的數據極速波動。基于二者的數據狀態,通過時間窗口的方式消除緩慢平穩變化數據帶來的閾值漂移,提升溢流發生時錄井參數異常值識別的準確性。對時間窗口內的數據進行統計分析,錄井參數的概率密度表現為正態分布。根據其分布特征,將依據標準差異常值識別的3σ規則形成一個自適應的動態閾值,將超出數據三倍標準差(μ?3σ,μ+3σ)的數據識別為異常數據。通過3σ規則將數據進行二值化處理,去量綱轉化為表征正常和異常兩種狀態的特征值。
1.1.2樹增強型貝葉斯模型建立
依據現場經驗和數據分析,選取六個參數作為早期溢流識別的主要參數,其分別是大鉤負荷、鉆壓、入口流量、出口流量、溢流量和總烴。通過對錄井參數進行關聯規則挖掘可以發現,該六組參數并非獨立參數,在溢流狀態下部分參數相伴出現異常的置信度較高。設置置信度閾值為75%,關聯規則結果按置信度排序為:{出口流量}→{總烴}、{總烴}→{溢漏量}、{大鉤負荷}→{溢漏量}、{出口流量,入口流量}→{總烴}、{入口流量,總烴}→{溢漏量}。從關聯規則挖掘結果中可以看出來,在溢流發生時溢流量、出口流量、總烴、大鉤負荷這四個參數在溢流狀態下相伴出現異常的置信度較高,表示這四個參數在溢流時的異常變化是強相關的。例如,出口流量與溢流量在鉆井過程發生溢流時,二者相伴出現異常的置信度最高。由于鉆井溢流的異常狀態直接反應為出口流量和溢流量的異常,二者的異常強相關并且符合工程實際。例如,大鉤負荷和溢流量,井下液體體積變化也直觀反映在大鉤負荷的數據中。溢流情況下,溢流量和大鉤負荷的波動同時受影響的置信度較高也是符合工程實際的。在這種情況下,樸素貝葉斯模型的參數獨立性要求將會影響溢流預警結果的準確性,需要對貝葉斯網絡進行調整。
在貝葉斯原理的基礎上,運用樹增強型貝葉斯網絡調整樸素貝葉斯網絡,可以有效的調整非獨立參數的網絡結構,調整網絡條件概率表,一定程度消除參數非獨立性假設對模型預測結果的影響。樹增強型貝葉斯模型的建立過程,如圖2所示。
從圖2中可以看出,所展示的早期溢流識別樹增強型貝葉斯模型的算法結構,包括將導入的原始錄井數據通過前文的數據處理和異常值標記方法進行數據處理,將離散的原始時序性錄井數據通過二值化轉換為數據的特征值,即指代異常和正常兩種狀態,形成訓練集帶入到模型中進行訓練;計算各錄井參數間的互信息值,將互信息值進行排序建立樹增強型貝葉斯樹結構,在此基礎上建立樹增強型貝葉斯網,將樸素貝葉斯模型通過引入參數關聯性的方法轉換為樹增強型貝葉斯網,計算各節點對應的概率并建立樹增強型貝葉斯分類模型,其具體建立步驟如下[39]:
(1)將預處理后的錄井參數數據集作為模型建立的訓練集。訓練集內,各參數間關聯性由條件互信息值衡量。依據公式(1),計算屬于類屬性C(溢流)中任意屬性Xi和Xj之間的條件互信息值,作為衡量參數間關聯性強弱的權重,見式(1)。
(2)根據上一步計算出的條件互信息值對訓練集參數進行排序,將各參數作為樹的屬性節點,屬性節點間的互信息值用作貝葉斯樹的邊長,形成一個“無向有環圖”。通過剪枝操作,保留各屬性節點之間條件互信息值最大的邊,生成“最大帶權生成樹”(無向無環圖)。
(3)指定最大帶權生成樹中某一屬性節點作為根節點,并將所有邊設置為由根節點出發向外發散。將類屬性C引入樹結構,作為類事件節點;每個屬性節點均與類節點相連,且僅與一個非類節點相連,形成樹增強型貝葉斯網絡。
(4)計算樹增強型貝葉斯模型中類節點對應的先驗概率、根節點對應的條件概率和非根節點對應的聯合條件概率,計算非根節點的聯合條件概率時只計算其與上一個父節點的聯合概率值,即可得到樹增強貝葉斯模型的概率表,完成樹增強型貝葉斯模型的構建。
(5)基于樹增強型貝葉斯模型,代入需要判定的錄井參數。首先通過異常值識別方法將錄井參數的數值二值化為特征值,形成測試集;然后,計算測試集中各時間點對應的錄井參數狀態組合在不同類屬性值下(溢流狀態及正常鉆井狀態)的聯合分布后驗概率,比較正常鉆井狀態和溢流狀態的后驗概率大小即可識別判定該時刻是否為溢流。即計算屬于和不屬于類屬性C(溢流)的數據狀態概率值,比較類屬性C下的后驗概率,當時間點對應異常參數狀態組合屬于“溢流”的后驗概率大于不屬于“溢流”的后驗概率時,判定當前時間點的異常數據狀態組合代表了溢流發生,從而確定分類結果。
通過關聯規則的挖掘,證明在鉆井溢流發生的初期,各錄井參數的異常波動間存在關聯性,鉆井溢流狀態反映在多個參數的異常波動上,而不是單一參數的獨立波動,所以樸素貝葉斯的早期溢流預警尚有優化空間。樹增強型貝葉斯模型在傳統樸素貝葉斯模型的基礎上,適當考慮了參數間的關聯性,區別于樸素貝葉斯方法中各參數的獨立性假設,將參數間的關聯權重(互信息值)引入貝葉斯模型的建立,依據參數間關聯性建立樹增強型貝葉斯網進行預警識別。理論上相較于樸素貝葉斯溢流識別模型,樹增強型貝葉斯溢流識別模型在溢流初期可以捕捉到更多與鉆井溢流狀態相關的參數變化特征,能夠根據重點數據的關聯性波動更早地預測到鉆井溢流的發生時間。
1.2成果應用過程
根據某石油公司在役油井近4年來的實測錄井數據及溢流事件信息記錄,統計其區域范圍中91口鉆井的溢流事件及對應的歷史錄井數據。根據專家的現場經驗和關聯規則挖掘結果,提取了大鉤載荷、鉆壓、入口流量、出口流量、溢流量和總烴六個參數作為溢流識別的關鍵錄井參數進行分析,將六個參數依次標注為X1、X2、X3、X4、X5、X6。為建立樹增強型貝葉斯早期溢流識別模型共提取了歷史錄井數據中10000個記錄時間點的錄井數據作為訓練集,數據包括正常循環鉆進狀態和溢流狀態兩類數據,其中正常鉆進狀態下數據條目為8329條,溢流狀態下數據條目為1671條。利用異常數據識別方法對兩種狀態下的數據分別進行預處理,將各錄井參數的數據通過“二值化”轉化為正常和異常兩種狀態,形成樹增強型貝葉斯模型的訓練集。
根據1.1.2中的樹增強型貝葉斯模型構建步驟,利用訓練數據集結合公式(1),計算得到在溢流發生和不發生兩種狀態下發生異常的各錄井參數間互信息值。用互信息值來衡量在溢流發生時各異常錄井參數間的關聯性,基于此建立樹增強型貝葉斯早期溢流識別模型的貝葉斯網絡結構。參數兩兩之間的互信息值分別代表了溢流發生和不發生時兩異常參數同時發生的情況在歷史數據中出現的概率比重。將其作為模型樹結構中各參數間“樹枝”的邊權重,以此衡量參數間同時出現異常的這種關系,是否關聯到溢流發生,是下一步建立樹增強型貝葉斯模型樹結構的基礎。
在通過計算得到的各參數間互信息值計算結果基礎上,將其結果按從高到低進行排序,根據互信息值排序結果建立貝葉斯樹結構,設置根節點為“溢漏量”;通過剪枝操作保留互信息值最大的枝,即每一節點只保留互信息值最大的一條邊,設置所有邊都從根節點“溢漏量”出發指向各節點,構建一個“有向無環圖”,最頂層的類屬性節點為溢流,各節點為錄井參數,各邊為互信息值;將有向無環圖中的各節點都與類屬性節點“溢流”相連,最終形成樹增強型貝葉斯網絡。通過引入參數間關聯性,將各參數獨立的樸素貝葉斯網絡轉換為樹增強型貝葉斯網絡,如圖3所示。
從圖3中可以看出,在所建立的樹增強型貝葉斯模型的貝葉斯樹中,根節點設置為指定的錄井參數“溢漏量”;從根節點出發,與溢漏量(根節點)相關性較高的大鉤負荷、總烴與根節點“溢流量”直接相連,出口流量也在接近溢漏量的層級中,與前文1.1中關聯規則挖掘的結果相符;鉆壓與大鉤負荷相連成為大鉤負荷的子節點,出口流量和入口流量成為總烴的子節點(圖2(b)),在鉆井過程中鉆壓與大鉤負荷是受力的兩端,二者數值直接相關,所以圖中兩節點相連是合理的;在正常鉆井過程中,泵入鉆井液的入口流量是影響出口流量大小的直接因素之一,從鉆井工況及溢流發生機理考慮兩節點相連也較為符合實際情況。
根據樹增強型貝葉斯模型結構(圖2(b)),按照1.1.2中建立樹增強型貝葉斯模型的步驟建立模型,計算模型中各節點的先驗概率及條件概率。計算各節點的條件概率時,非根節點只考慮與其直接相連的上一父節點的影響,而不涉及其他更遠節點的關系。
具體計算時,通過統計父節點與溢流事件的聯合條件概率,即在父節點與溢流事件二者發生或不發生的條件下,計算非根節點對應的概率分布。模型建立過程中的這部分計算,不僅能夠有效降低模型的計算復雜度,還有效保留了模型對各錄井參數節點間關聯性的精準描述。
最終,基于訓練集數據,建立了完整的樹增強型貝葉斯模型,模型中每個節點的概率值均來源于訓練集的統計分布,清晰體現了父節點對子節點的條件約束關系。最終得到的完整樹增強型貝葉斯模型概率表及概率計算結果,見表1。
從表1中可以看出,內容包括先驗概率和條件概率,樹增強型貝葉斯條件概率區別于樸素貝葉斯條件概率的一點是:非根節點條件概率計算的是非根節點與前一節點的聯合條件概率,并且在計算時只能有一個父節點,這樣既考慮了參數間的關聯性,又使模型規模不至于太大,符合溢流預警識別模型參數類別有限并且快速識別反應的要求。表中根據樹增強型貝葉斯模型結構進行計算的結果,相較于樸素貝葉斯單個獨立參數的條件概率,可以看出部分參數節點的自身異常并不能直接導致溢流,而是由與其相關聯參數共同出現異常所導致。例如,表中X1和X2的聯合條件概率顯示出,二者同時發生時導致溢流的概率明顯高于二者其中一個發生導致溢流的概率,這一點也很好地體現了引入參數間關聯性對優化預警識別模型的重要作用。
選取訓練集外有溢流記錄的井作為測試集,將數據進行預處理及異常值標記后形成二值化的錄井參數狀態值,構造測試集。將處理好的測試集代入樹增強型貝葉斯模型進行溢流識別,得到早期預警識別結果。為將樹增強型貝葉斯模型的優化情況進行對比,引入樸素貝葉斯模型作為對照組。將與樹增強型貝葉斯模型相同的訓練集引入樸素貝葉斯模型中進行訓練,構建樸素貝葉斯方法的錄井數據早期溢流識別模型。同樣地,將相同的測試集帶入樸素貝葉斯模型中進行溢流識別,將其溢流識別結果作為樹增強型貝葉斯模型識別結果的對照。
對正常鉆進狀態下的數據運用樹增強型貝葉斯模型進行識別,其結果依然顯示出了溢流結果,但是這種溢流并不是持續發生的,呈現出分散且隨機的特點,與溢流狀態下的溢流識別結果有所區別;對照圖中各參數的數據折線可以發現,識別為溢流的時間點數據所對應的數據波動確實是異常的,但這種異常具有偶然性,在整個鉆井過程中只是偶然的數據異常,并未在該時間點左右發現更密集的數據異常波動。對溢流狀態下的數據運用樹增強型貝葉斯模型進行識別,其識別結果在數據折線圖上顯示為更大范圍、更加密集和連續的溢流結果。通過分析對比樹增強型貝葉斯模型對正常狀態數據和溢流狀態數據的識別結果,以及對現有各井的歷史溢流數據進行分析,溢流狀態時各參數的異常變化相較于正常鉆井狀態時各參數的異常變化更為密集和連續,二者有所區別。并且從圖中可以看出在兩種狀態下,樹增強型貝葉斯模型識別結果相較于樸素貝葉斯模型的結果,識別出更多的溢流結果,并且預警的時間更提前。通過分析發現這種情況的原因是,由于樹增強型貝葉斯模型引入了參數間的關聯性,與溢流狀態相關聯的參數異常狀態更多,導致模型捕捉到更多錄井參數引起溢流的線索,樹增強型貝葉斯模型比樸素貝葉斯模型更敏感。
2結果現象討論
2.1誤報率討論
在指定區域內有溢流記錄的井中選取3口井,分別編號一號井、二號井、三號井。截取溢流記錄時間點前1.5h的歷史數據,將3口井的溢流數據集運用1.1.1中數據處理方法的進行數據預處理建立測試數據集,測試數據集分為溢流狀態測試數據集和正常狀態測試數據集。將測試數據集分別帶入訓練好的樹增強型貝葉斯模型和樸素貝葉斯模型,得到二者的識別結果,對樹增強型貝葉斯模型的優勢現象進行分析和討論。
對于溢流預警誤報率這一溢流預警識別模型評價指標,將3口測試井在正常狀態下的測試數據集分別帶入樹增強型貝葉斯模型和樸素貝葉斯模型得到的溢流識別結果進行統計,計算正常鉆進狀態下兩模型將錄井數據識別為溢流發生的時間點數占所統計時間窗口中總時間點數的比例,將正常狀態下的溢流識別結果所占的比例作為衡量模型預測結果準確性的誤報率,由此可以得到3口測試井運用兩模型進行溢流識別預警的溢流誤報率。測試集3口井具體的誤報率統計結果,如圖4所示。
從圖4中可以看出,3口井的樸素貝葉斯模型的識別誤報率分別為3.20%、6.99%和5.00%,平均為5.06%,樹增強型貝葉斯模型的識別誤報率分別為6.40%、7.69%和7.50%,平均為7.19%,兩模型的誤報率差值分別為3.20%、0.70%和2.50%,平均相差2.13%;3口測試井的識別結果中,樹增強型貝葉斯模型的溢流識別誤報率普遍略高于樸素貝葉模型的識別誤報率,結果表明前者相較于后者的溢流識別更敏感;3口測試井中,一號井的樸素貝葉斯模型誤報率最低,與樹增強型貝葉斯模型的識別誤報率相差最大,樹增強型貝葉斯模型與樸素貝葉斯模型的誤報率都雖然并未體現出明顯的規律,但在3口測試井的測試結果中,溢流誤報率總體都在一個相對平穩的范圍內波動,模型的識別結果具有一定的穩定性。將兩種貝葉斯方法的溢流預警模型誤報率結果與前人LSTM方法的溢流預警模型的誤報率對比,后者的誤報率為15%,兩種貝葉斯模型的誤報率優于后者[40]。
樹增強型貝葉斯溢流早期識別預警模型的溢流識別誤報率,略高于樸素貝葉斯溢流早期識別預警模型的溢流識別誤報率,前者模型對溢流的識別預警也比后者更敏感。通過分析數據異常值標記結果(圖3(a)),可以發現,樹增強型貝葉斯溢流早期識別預警模型相較于其未改進前基于樸素貝葉斯方法的模型更敏感的原因主要在于:通過數據關聯規則挖掘,證明各錄井參數在溢流發生狀態下的參數異常間存在關聯性,樹增強型貝葉斯溢流早期識別預警方法將錄井關鍵參數間的關聯性引入了預警識別模型,根據錄井參數歷史數據中的數據分布特征調整了貝葉斯網絡,并根據調整后的樹增強型貝葉斯網絡進一步更新各參數節點的條件概率和聯合概率分布,所以模型中不再將參數假設為獨立而是考慮了更多參數異常波動的組合狀態,更復雜的概率聯系導致所建立的樹增強型貝葉斯早期溢流識別預警模型對異常參數的識別敏感性高于運用樸素貝葉斯方法建立的溢流早期識別預警模型,因此這種正常狀態下的隨機異常參數會導致樹增強型模型比樸素貝葉斯模型更易出現溢流誤報。
正常狀態下,樹增強貝葉斯早期溢流識別預警模型與樸素貝葉斯溢流早期識別預警模型總是存在誤報率,并且誤報率大小呈現一種隨機波動的狀態。通過分析正常狀態下數據異常值標記結果。
兩溢流識別預警模型在正常狀態下的誤報率始終存在并且誤報率大小隨機的原因主要在于:正常鉆進狀態下的錄井數據存在由于鉆井地層狀態的不穩定以及相關鉆井操作參數變動引起的數據波動,超出正常鉆進狀態下數據正常波動范圍的數據被標記為參數異常,從而被溢流早期識別預警模型識別為溢流發生。
發生這種溢流誤報的關鍵點,是在正常狀態下錄井參數數據異常。進一步分析正常狀態下各參數數據的折線圖,可以看出溢流早期識別預警結果離散分布在測試數據集的時間軸上,隨機時間點的“溢流發生”識別結果相鄰兩側的結果分布十分稀疏,在整個正常狀態數據的時間序列中溢流結果的總體分布十分分散;當在正常鉆進狀態下,與識別為溢流的結果所對應的異常參數狀態具有偶然性與隨機性的特點,在長時間序列的大量錄井參數中各參數異常波動隨機出現、隨機組合。隨機偶然出現的參數異常狀態組合與所訓練模型中導致溢流后驗概率大的異常參數組合相同時,模型將這些參數數據異常狀態對應的時間點識別為發生溢流,導致模型總會出現隨機的溢流誤報。
進一步分析正常狀態下溢流早期識別預警模型的識別結果和異常狀態下溢流早期識別預警模型的識別結果,并對比觀察正常狀態與異常狀態下的數據折線圖可以發現,正常狀態下的溢流誤報情況與溢流狀態下的溢流誤報情況有所區別。正常狀態下的溢流誤報在數據時間軸上的分布十分分散,誤報點周圍并無連續出現的溢流報警,并且各參數數據也迅速回歸正常,溢流誤報井呈現隨機性和偶然性;而溢流狀態下的溢流識別報警結果,總體分布是連續且高密度存在的,并且溢流狀態各參數對應的數據折線圖中顯示,各參數的異常狀態也是呈連續的起伏波動,與正常狀態下的溢流誤報分布存在明顯區別。由于正常鉆進狀態下這種參數異常是隨機發生的且在不同的參數下不會同時發生,通過提升訓練集準確性,優化訓練的模型可以排除多數隨機異常。但是,這種異常參數的異常波動隨機組合導致的誤報警總是隨機出現的,異常參數對應的異常波動與復雜的地層狀態和井口狀態有關,沒有統一的規律可循;在鉆井過程中總是隨機出現,這種復雜鉆井異常狀態的偶然性難以消除,只能通過特殊問題特別分析來建立修正補償方法,所以研究考慮采用外加修正的方法加以避免。
通過對溢流識別預警模型的識別結果和錄井參數的數據特征進一步分析可以發現,正常鉆進狀態下導致類屬性“溢流發生”后驗概率大的異常參數組合中多參數均出現異常波動的情況是隨機發生的,這種異常參數變化特征不同于溢流狀態下的異常參數變化特征,具有不可避免的隨機性和偶然性,并且不會在數據折線圖上表現出連續變化的異常波動,異常點分布較為分散。因此,可以采用連續異常判定標準作為溢流識別的補充標準,以消除這類隨機分散的溢流誤報。當錄井數據時間序列中一定時間內的數據均被識別為溢流狀態,識別算法才確認溢流識別。連續異常判斷標準為:在錄井數據序列中設置一固定長度的時間窗口(通常為30s),計算時間窗口中被識別為“溢流發生”的時間點數量與窗口長度的比值,即異常識別結果密度,設置一密度閾值為0.5,當時間窗口內異常識別結果密度小于閾值時判定為溢流誤報,當其大于閾值時判定為溢流。
該連續異常判定標準結合正常狀態誤報的出現原因及分布特征,設置一合理長度隨數據采集進程滾動的時間窗口,重合窗口長度為T-1。將樹增強型貝葉斯溢流早期識別預警模型的識別結果在數據時間軸上的分布密度作為溢流識別預警的補充判斷標準。當時間窗口內識別結果的分布密度小于閾值時,將時間窗口內的溢流識別結果判斷為正常狀態溢流預警誤報進行篩除,將鉆井狀態判別為正常鉆進狀態進行數據異常警示,不進行溢流狀態預警;隨著時間窗口滾動刷新,當前時間窗口內的溢流識別結果分布密度大于閾值后,將當前時間窗口的右側時間點識別為溢流發生,即與前一窗口不重合的窗口內更新時間點。在目前所擁有的各井歷史錄井數據集樣本中進行測試后證明,通過連續異常判定標準輔助判斷溢流識別預警后,兩種模型在正常鉆進狀態下的溢流誤報率均降低為接近于0%,符合溢流識別算法的實際應用要求。
2.2預警提前時間討論
對于預警提前時間這一評價指標,記錄的溢流發現時間為基準時間,把模型判別為溢流發生的異常參數狀態組合所對應的錄井系統數據采集時間,作為預警識別時間。將樹增強型貝葉斯溢流早期識別預警模型和樸素貝葉斯溢流早期識別預警模型對測試井進行溢流識別預警,得到溢流預警時間與各井對應的基準時間對比,可以得到兩種溢流識別預警模型的溢流預警提前時間。3口測試井的樹增強型貝葉斯溢流早期識別模型與樸素貝葉斯溢流早期識別模型的溢流預警時間統計,如圖5所示。
從圖5中可以看出,3口測試井的樸素貝葉斯溢流早期識別預警模型的溢流識別預警提前時間為,一號井8.10min,二號井9.37min,三號井10.12min,3口測試井的溢流識別預警提前時間平均為9.20min。3口測試井的樹增強型貝葉斯溢流早期識別預警模型的溢流識別預警提前時間分別為,一號井16.6min,二號井12.98min,三號井16.35min,3口井的預警提前時間平均為15.31min。對于兩種模型的3口測試井識別結果而言,預警提前時間總體穩定在12min以上,但各井的溢流預警提前時間不同,存在隨機性,各井的預測結果之間也并無明顯關聯,溢流預警提前時間沒有明顯的預測規律可循。例如,樸素貝葉斯模型結果中,二號井的溢流預警提前時間與一號井的結果相差1.27min,三號井的溢流預警提前時間與一號井的結果相差2.02min,后者是前者的近兩倍;樹增強型貝葉斯模型結果中,一號井與三號井的溢流預警提前時間穩定在16min左右,而二號井的溢流預警提前時間明顯小于前兩口井。
從圖5中還可以看出,樸素貝葉斯溢流識別模型的溢流識別預警提前時間明顯慢于樹增強型貝葉斯模型的溢流識別預警提前時間,對于3口測試井,兩模型的溢流識別預警時間差分別為一號井8.50min,二號井3.61min,三號井6.23min,差距較為明顯。雖然對于不同井而言,兩種模型的溢流識別預警提前時間略有差別,但上述結果總體明顯體現出溢流識別預警提前時間穩定,且樹增強型貝葉斯溢流早期識別預警模型的溢流識別預警時間明顯早于樸素貝葉斯溢流早期識別預警模型,前者相較于后者在溢流預警提前時間上的優勢較為明顯。
就溢流識別預警提前時間的穩定性而言,3口測試井的溢流識別預警提前時間相對維持在一個穩定的范圍內,樹增強型貝葉斯溢流早期識別預警模型的識別結果在12~16min,樸素貝葉斯溢流早期識別預警模型的識別結果在8~10min。明顯地,在排除不同測試井兩模型的溢流預警提前時間差值變化后,兩個模型在不同測試井的預警提前時間并不具有一致性,提前時間存在明顯的隨機差異,并不是絕對相同的結果,而且樹增強型貝葉斯溢流早期識別預警模型的溢流預警提前時間結果波動范圍是樸素貝葉斯溢流早期識別預警模型的一倍。
造成這種差異的原因,可能是由于:一方面對于鉆井過程中的固有因素進行探討,地理位置、地層狀態、巖性差異、井下壓力狀態、鉆井操作差異等多種因素決定了鉆井過程,溢流發生時3口測試井的影響因素過多,造成溢流預警模型對不同測試井的溢流預警提前時間結果存在一定隨機性差異;另一方面,樹增強型貝葉斯溢流早期識別預警模型相較于樸素貝葉斯溢流早期識別預警模型對溢流狀態下異常參數間的關聯性進行了探究,引入了更多引起溢流發生的異常參數組合狀態,前者更加敏感,也就導致前者的溢流識別預警時間存在更大的波動。
對于樹增強型貝葉斯溢流早期識別模型的預警時間結果的總體波動范圍,與模型溢流預警時間的提前量相比,其預警時間結果的波動并不是不能接受的。溢流識別預警模型的差異性總體表現為由多種因素造成了鉆井的復雜狀態,導致錄井數據波動存在顯著差異,并且溢流的數據狀態也存在明顯的特異性,這種固有差異是現階段研究難以避免的。只能在深入分析鉆井狀態和錄井參數的數據特征之后,提升數據異常狀態的識別精度、綜合考量更多井口的特殊信息以及準確劃分鉆井工況,在排除系統誤差的基礎上盡量降低隨機誤差,將溢流早期預警識別模型的溢流識別預警提前時間,固定在一個相對穩定的時間范圍內。
對于兩種模型的溢流識別預警提前時間的對比,樹增強型貝葉斯溢流早期識別預警模型的溢流預警時間均早于樸素貝葉斯溢流早期識別預警模型,溢流識別預警時間提前效果顯著。樹增強型貝葉斯溢流早期識別預警模型的溢流識別預警提前時間相較于樸素貝葉斯溢流早期識別預警模型提升明顯,平均溢流預警提前時間差約為6min。
通過對溢流早期識別預警模型的結構與溢流識別結果的分析可知,導致這種性能提升的主要原因在于:樹增強型貝葉斯溢流早期識別預警模型由于考慮溢流發生時異常參數間的關聯性,使得樹增強型貝葉斯方法相較于樸素貝葉斯方法的網絡結構發生變化以及權重分配變化,溢流識別預警模型的計算建立過程中引入了更多異常參數組合狀態變化,溢流識別預警模型能夠識別為溢流狀態的參數異常特征多于樸素貝葉斯溢流早期識別預警模型,前者對特征參數敏感性發生了變化,捕捉了更多溢流發生早期的異常參數狀態,使得樹增強型貝葉斯溢流識別預警模型識別到更早的溢流進行預警。例如,樹增強型貝葉斯溢流早期識別預警模型只依靠“大鉤負荷”和“鉆壓”參數的數據異常,就能夠在距離一號井歷史溢流記錄時間前16.60min完成溢流的識別判斷進行預警。而運用樸素貝葉斯溢流早期識別預警模型進行溢流識別預警,其模型中的樸素貝葉斯網結構在各參數完全獨立假設條件下的各參數權重都相同,僅僅依靠大鉤負荷和鉆壓參數數據異常的貢獻無法做出溢流的識別結果,所以在一號井歷史溢流記錄時間的前16.60min并沒有進行溢流預警。由此可見,樹增強型貝葉斯溢流早期識別預警模型在溢流早期的直接表征參數“溢漏量”和“總烴”未表現出明顯數據異常的情況下也可以得出溢流判定預警,其溢流識別敏感性強于樸素貝葉斯溢流早期識別預警模型,在鉆井溢流早期識別預警上比樸素貝葉斯溢流早期識別預警模型更為適用,可以得到更為提前的溢流識別預警時間。
值得注意的是,在樹增強型貝葉斯溢流早期識別模型識別出溢流狀態后,溢流狀態標記在密集的連續標記后出現了中斷的情況,溢流識別的結果雖然密集分布符合連續溢流判斷標準,但溢流識別的提前預警并不完整。比較參數異常標記結果可以發現,圖中虛線劃分的區域內,溢流識別預警模型識別為溢流的異常參數狀態組合中,各參數對應的數值在異常波動過程中短暫回歸正常數值范圍,導致數據預處理算法未能將該段數據標記為異常。其物理原因既可能是溢流穩定后對大鉤負荷的沖擊影響減弱,也可能是鉆井操作變化引起的參數回歸,難以僅從數據分析上發現其異常。因此在運用統計學模型進行溢流早期識別時,可以在溢流特征敏感參數以外引入更多的鉆井工況和地層參數信息,輔助判斷鉆井工作狀態,從而提升溢流識別的穩定性。
3結論建議
(1)通過對錄井參數的關聯規則挖掘,發現各錄井參數的異常波動在溢流發生時是相互關聯的,具有非獨立性特征,這一點與樸素貝葉斯模型的基礎假設存在矛盾。基于此提出樹增強型貝葉斯模型的構建方法,通過調整貝葉斯網絡結構,引入參數間關聯性以減小錄井參數非獨立的影響。利用某區塊內91口已鉆井的歷史數據,構建了正常鉆進狀態與溢流狀態的訓練數據集,結合樹增強型貝葉斯模型的生成步驟訓練得到該區塊溢流識別的樹增強型貝葉斯模型。基于樹增強型貝葉斯預警識別模型進行數據測試表明,樹增強型貝葉斯模型相較于樸素貝葉斯模型,具有更高的溢流識別敏感性,在正常鉆進狀態下的溢流識別誤報率較樸素貝葉斯模型平均高2.13%;在溢流狀態下的溢流識別結果較樸素貝葉斯模型提前510s。
(2)由于模型中各參數非獨立,模型識別為溢流的參數狀態更多樣,所以樹增強型貝葉斯模型更敏感,誤報率高于樸素貝葉斯模型,導致在正常鉆進狀態和溢流狀態下都有更多的溢流預警。這一點需要結合數據特點通過修正算法進行過濾,進一步提高預測模型的準確率。
(3)針對正常鉆進狀態下的溢流識別誤報,可以依據誤報數據的離散性特征,采用連續溢流判定標準作為補充,消除樹增強型模型敏感性帶來的溢流誤報率增加;而敏感性提升帶來的溢流狀態識別提前,體現出樹增強型貝葉斯模型在鉆井溢流早期識別上相較于樸素貝葉斯模型更具優越性。