王建華,溫欣,管震,王海濤,閆紹山
(1.昆侖數智科技有限責任公司,北京 100043;2.北京工業大學經濟與管理學院,北京 100124)
鉆井過程中經常會遇到各種各樣的復雜事故情況,如鉆具刺漏、鉆頭磨損、鉆具掉落、鉆具阻卡等,其中鉆具阻卡是最為常見的一種異?,F象。鉆具阻卡是指在起、下鉆過程中,由于井下可能存在壓差、沉砂或砂橋、井眼坍塌、鉆頭泥包、井眼縮徑、鍵槽等原因,經常會碰到的鉆具遇阻、遇卡的現象。在絕大多數井上,或多或少,或重或輕,都會出現鉆具阻卡現象,特別是隨著水平井、大位移斜井、定向井、分枝井等復雜井型的出現,鉆具阻卡現象變得更為普遍。在鉆井過程中如果不能及時監測阻卡的苗頭,對阻卡原因進行準確分析判斷,恰當處理鉆具阻卡,就會導致輕微阻卡惡化成嚴重阻卡乃至卡死,拖延鉆井時間,增加鉆井費用,處理過程還易引起斷鉆具、坍塌等其他井下復雜事故,再嚴重時甚至會導致井的報廢,造成巨額的經濟損失。因此,在鉆井過程中對有可能發生的鉆具阻卡進行準確預警,對于防止阻卡惡化,降低施工風險,節省鉆井費用及減少經濟損失具有重要意義。
傳統的阻卡分析和報警主要是通過設置單一參數門限值進行預警,且必須通過專業人員連續跟蹤實時監測曲線才能完成,參數門限值的設置依賴于專家的經驗,存在較大的主觀性。由于地層的多樣性和鉆井過程中的復雜性導致鉆具阻卡的種類多種多樣,人為分析難以對阻卡進行準確報警和預警,勞動強度也極大。另一方面,鉆井過程中從井場實時傳輸到后方的各項鉆井參數,如大鉤負荷、大鉤高度、懸重(計算后的參數)、扭矩、轉盤轉速等數據,能夠全面反映鉆井狀態,對于準確預警鉆具阻卡很有幫助。因此,必須充分利用鉆井過程中的各項鉆井參數數據并結合工況以及鄰井復雜事故才能對鉆井狀態做出全面、合理的評估,及時發現阻卡異常,預防鉆具卡死情況的發生,減少鉆周期,達到降本增效的目標,為安全鉆井保駕護航。
在故障診斷中,目前基于知識的專家系統和基于神經網絡、機器學習的智能預警系統等人工智能方法應用最為廣泛?;谥R的專家系統指利用專家的經驗和知識為故障診斷服務,主要由人機界面、知識庫、推理機、綜合數據庫以及解釋器五部分組成?;谏窠浘W絡、機器學習的智能預警系統指利用神經網絡、機器學習算法的自適應學習、自組織、容錯,能夠學習非線性關系等特點,對于歷史故障數據進行學習建模,并對有可能發生的故障進行及時預警。目前在化工設備、機械系統以及電子設備的故障診斷方面應用最為廣泛,專家系統、神經網絡和機器學習模型對于石油鉆井行業故障診斷效率和準確性的提高也有重要意義,但是在石油鉆井行業鮮少用之。因此,本文提出基于支持向量機(SVM)的鉆具阻卡智能預警模型(SVM-IAM),在鉆井過程中從井場實時傳輸到后方的數據基礎上,綜合利用大數據和人工智能技術讓計算機學習大量案例,建立阻卡復雜事故預警模型,實現阻卡的自動預警,及早防范和控制卡鉆等嚴重復雜事故。
為實現鉆具阻卡的自動預警和報警,及時發現阻卡異常,及早防范和控制卡鉆等復雜事故,本文提出了基于SVM的鉆具阻卡智能預警系統。首先,對鉆井過程中從井場實時傳輸到后方的原始數據進行缺失值補全,保證數據的完整和連續性;其次,對數據進行異常值處理和去噪處理,保證數據的質量和準確性;再次,對數據進行特征提取及歸一化處理,將原始數據構造成適合于模型訓練的形式;最后,經過上述操作的原始數據通過SVM模型,會自動給出是否會發生鉆具阻卡的預警。
在鉆井過程中從井場實時傳輸到后方的數據,因為傳感器和數據庫存儲等偶發故障、人為失誤等原因,不可避免地會造成少量的數據缺失。數據的缺失會極大地影響數據分析的結果,對模型的準確性造成不良影響,因此需要對數據缺失進行處理。目前,對數據缺失進行處理的常用方法主要有加權法、刪除法、均值插補法、線性插補法、最近鄰插補法等方法。由于鉆井數據為從井場實時傳輸到后方的時間序列數據,需要保持時間間隔內的連續性,因此采用線性插補法對缺失值進行補全操作。
線性插補法的主要思想是假設包含缺失值的變量和其他變量之間存在線性關系,然后利用變量之間的線性關系建立多項式回歸方程,利用該方程及已知的數據對缺失值進行補全處理。
在對數據進行缺失值補全之后,需要進一步對數據中的異常值及噪聲進行處理,提高數據的質量和準確性。
在實際生產中,由于井場物理設備等原因,會造成數據異常波動,如大鉤負荷忽然上升然后又恢復正常,就會造成均值變化量、標準差過大,這種數據就叫做異常數據,異常數據很容易造成模型對鉆具阻卡的誤判。為了減少阻卡的誤判,采用格拉布斯準則來剔除異常數據,判斷公式如下式(1)所示。具體的步驟為:(1)針對待剔除異常值的某一列特征,獲取8分鐘的實時數據構成數據集合,確定集合中數據的數量、均值、標準差;(2)集合中的每一條數據代入式(1),若該條數據滿足公式條件則標記為待剔除數據,剩余數據繼續迭代;(3)把待剔除數據轉換為8分鐘內數據的平均值,異常數據變成有效數據。

式中,xi為集合中每一條數據;mean為集合中數據的均值;std為集合中數據的標準差;n為集合中數據的數量;a為顯著性水平;g(n,a)的取值可以通過查格布拉斯準則表得到。
由于部分井場采集數據波動性較大,有明顯的噪波,會嚴重影響模型學習的效果。因此在提取趨勢特征之前,需要對數據進行去噪處理。采用小波變換對數據進行去噪處理,基本原理是對原始窗口數據進行先期處理,將曲線分解低頻和高頻頻譜,去掉高頻頻譜后進行小波重構,最終達到去噪的目的。小波變換去噪的基本步驟:(1)確定小波基函數為sym8基函數,小波變換級數為5級,對待去噪字段進行小波變換,得到不同尺度下的小波系數;(2)確定閾值函數為軟硬閾值折中的函數,對不同尺度下的小波系數進行閾值處理,得到估計小波系數;(3)對估計小波系數進行逆變換,即得到去除了噪聲的字段。
經過上述數據缺失補全、數據異常值剔除、數據去噪之后,需要選取對模型有用的字段,并進行數據滑窗操作,構造用于模型訓練的特征。最終選取的字段包括大鉤負荷、大鉤高度、扭矩、鉆頭位置、鉆壓等因子,在選取的因子之上進行數據滑窗操作。
在實際生產環境中采集的實時數據是基于時間變化的,這種數據在機器學習領域被稱作時間序列數據。在本文模型中需要利用數據滑窗的思想,將基于時間序列的數據轉化為瞬時數據。數據滑窗的基本思想是:(1)確定數據滑動的時間窗口大小(以分鐘為單位),并將時間窗口放在數據起始位置;(2)利用差分、均值、方法等一系列特征工程,將當前時間窗口內的數據處理成瞬時數據,將時間窗口沿著時間軸向后滑動1分鐘;(3)循環執行步驟(2),直至時間窗口無法向后滑動。例如,我們確定時間窗口大小為5分鐘,第一次我們將[0,5]分鐘的數據處理成瞬時數據;然后將時間窗口沿著時間軸向后滑動1分鐘,即將[1,6]分鐘的數據處理成瞬時數據;之后沿著時間軸依次往后進行實時跟蹤,直至數據窗口無法向后滑動。分別對時間窗口大小為3分鐘至7分鐘進行了測試,最終選定時間窗口大小為4分鐘。
為了去除數據量綱的影響,并保證模型訓練時加快收斂,需要進一步對經數據滑窗得到的特征進行歸一化。例如,不同井的大鉤高度,大鉤負荷兩個因子的值在鉆具阻卡發生時的數值差異很大,經過歸一化可以把有量綱的大鉤負荷、大鉤高度,轉化為無量綱數據,使得樣本的分布差異性更顯然、更強。歸一化即把特征列數據經過特定處理后限制在一定范圍內,目前常用的歸一化方法有最大最小值歸一化、對數歸一化、指數歸一化、三角函數歸一化等。本文模型采用最大最小值歸一化方法對特征列數據進行歸一化,將特征列數據范圍限定在[0,1]區間內。
經上述一系列數據操作之后,最終得到適合于模型訓練的數據?;赟VM,結合訓練數據進行模型構建,即得到本文基于SVM的鉆具阻卡智能預警模型SVM-IAM。
支持向量機(Support Vector Machine,SVM)是Vapnik等人(1995)根據統計學理論提出的一種機器學習方法,目前已經廣泛應用于模式識別、狀態評估、故障診斷等領域。SVM處理的問題大致可以分類兩類:線性可分問題,線性不可分問題。對于線性可分問題,SVM的任務就是找到一個最優超平面,使得任一樣本點到該超平面的距離最大化。對于線性不可分問題,則首先需要借助核函數將樣本空間映射至高維特征空間,然后在此高維特征空間內找到一個最優超平面,使得任一樣本點到該超平面的距離最大化。
本文研究的問題屬于線性不可分問題,因此需要借助核函數將樣本空間映射至高維特征空間,具體選擇的核函數為徑向基核函數。
本部分首先對模型訓練用到的數據集進行介紹,并對模型的參數進行說明;然后對本文SVM-IAM模型及3種基線方法的結果進行對比分析,驗證本文SVM-IAM模型的有效性。
本文采用的數據集為從不同井場傳回的井場綜合錄井數據,未經任何處理的原始數據總量為32662條。原始數據經過數據缺失處理、數據異常值及去噪處理、特征提取及歸一化處理之后,數據總量為617條,共有27個特征列,1個樣本標簽列。樣本標簽列中1表示阻卡樣本(正樣本),0表示正常樣本(負樣本)。其中阻卡樣本共11條,正負樣本比例極度不均衡。
正負樣本比例不均衡會嚴重影響模型學習的效果,因此需要對此進行處理。處理樣本不均衡問題主要有過采樣和欠采樣兩種方法,本文選擇過采樣方法。過采樣的基本思想是:按照特定規則合成部分少數類樣本,緩解少數類樣本與多數類樣本的比例不均衡問題。具體來說,本文使用SMOTE方法對少數類樣本進行過采樣,同時考慮到采樣會放大少數樣本中的噪聲對模型的影響這一問題,過采樣中最終設置的正負樣本比例為0.5。因此,最終用于模型訓練的數據總量為909條,其中正樣本303條,正負樣本比例為1:2。
為驗證本文所提SVM-IAM模型的有效性,在本文數據集上進行對比實驗。將本文模型與邏輯回歸模型(Logistic Regression,LR)、樸素貝葉斯模型(Naive Bayes, NB)和決策樹模型(Decision Tree, DT)在不同測試集比例下進行性能比較,性能評估指標選用查準率(Precision)、查全率(Recall),測試集比例分別為15%、20%、25%、30%、35%。圖1展示了對比實驗中各模型的查準率和召回率在不同測試集比例下的變化情況。

圖1 不同測試集比例下本文SVM-IAM模型與3個基準模型的性能對比
從圖1(a)可以看到,本文模型在查準率上表現最好,其次是決策樹模型、邏輯回歸模型和樸素貝葉斯模型。特別是在測試集比例為15%、20%、25%時,本文模型優勢更加明顯。在測試集比例為35%時,決策樹模型的查準率與本文模型的查準率相當。查準率衡量的是模型給出的阻卡預測中,真正發生阻卡的次數所占的比例,反映的是模型對于阻卡預測的效率。
從圖1(b)可以看到,本文模型在召回率上表現最好,其次是邏輯回歸模型、決策樹模型和樸素貝葉斯模型。特別是在測試集比例為15%、20%、25%時,本文模型優勢更加明顯。召回率衡量的是所有發生阻卡的情況中,模型正確給出阻卡預測的次數所占比例,反映的是模型對于真正阻卡的覆蓋率。
綜上,本文模型與邏輯回歸模型、樸素貝葉斯模型和決策樹模型相比,在阻卡預測的效率和對真正阻卡的覆蓋率方面都取得了較好的效果,驗證了本文模型的有效性。
針對鉆井過程中傳統鉆具阻卡分析預警準確率低的問題,本文提出了一種基于SVM的鉆具阻卡智能預警模型SVMIAM。首先使用線性插補法對原始數據進行數據缺失補全,其次使用格布拉斯準則去除數據異常值,使用小波變換去除數據噪聲,再次對處理過的數據進行數據滑窗操作提取特征并進行歸一化處理,最后基于SVM構建智能阻卡智能預警模型。實驗結果表明,與其他方法相比,本文SVM-IAM模型在查準率和召回率上都取得了較好的效果,能夠對鉆井過程中的鉆具阻卡進行準確預警。在以后的工作中,將進一步研究如何構造更為有效的特征和如何選擇更為合適的機器學習模型。