999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的凍土區融沉變形管段識別方法*

2022-03-22 01:45:34劉嘯奔陳朋超
石油機械 2022年3期
關鍵詞:變形特征檢測

劉 燊 劉嘯奔 李 睿 李 博 陳朋超 張 宏

(1.中國石油大學(北京)油氣管道輸送安全國家工程實驗室/石油工程教育部重點實驗室/城市油氣輸配技術北京市重點實驗室 2.國家管網集團北方管道有限責任公司 3.國家管網沈陽管道檢測中心)

0 引 言

管道地質條件變化引起的管道附加載荷波動是影響管道運行安全的重要因素[1-5]。在附加載荷作用下管道會產生一定的變形,對于凍土區管道,彎曲變形的主要成因是凍脹融沉等自然災害的影響產生的地表變形。

基于慣性檢測單元(IMU)的內檢測技術可以在檢測過程中記錄檢測器在三個軸向上的姿態數據和加速度信息,從而計算得到管段的彎曲應變及位移[6]。與現有的位移檢測技術相比,該技術可以在幾十公里長的管道全線逐點檢測,對管道彎曲應變的檢測更加全面和精確[7-8]。根據GB 32167—2015《油氣輸送管道完整性管理規范》附錄Ⅰ要求,IMU檢測結果應滿足單次檢測識別的彎曲變形曲率大于1/400D(應變值超過0.125%)的管道彎曲特征,從這些特征中篩選出彎曲變形危險段是保證管線安全運行的重要舉措之一。

通過分析IMU應變檢測數據,現已形成初步的彎曲變形危險段識別方法。趙曉明等[9]結合幾何/漏磁檢測數據定位管體缺陷,利用人工識別的方法,逐段識別找到IMU數據中構成潛在威脅的高風險點。人工識別方法在分析處理海量IMU應變檢測數據時需耗費大量時間,處理效率低,同時還存在處理標準不一致的問題,對于模棱兩可的管段類型,不同的人判斷得出的結果可能各異,所以需要借助機器進行識別,但現在缺乏高效智能的機器識別方法。

因此本文以漠大一線的IMU應變檢測數據為基礎,提出了基于機器學習的彎曲變形危險管段智能識別方法。該方法利用1階低通數字濾波降低應變檢測數據中的干擾噪聲,保證應變值的準確性[10];根據彎頭段、凹陷段和彎曲變形段的特征差異,結合幾何與漏磁檢測數據提取IMU應變檢測數據中不同管段類型的數據特征,利用PCA主成分分析法完成特征降維;基于CART決策樹及隨機森林原理建立分類模型,進而實現對彎曲變形管段的智能識別。

1 IMU應變檢測數據分析與預處理

1.1 IMU應變檢測數據的特性分析

IMU內檢測器在檢測管線過程中,其搭載的慣性檢測單元易受到管道內、外部環境和第三方破壞等因素的影響而產生噪聲干擾信號,主要包括管道螺旋焊縫對IMU檢測裝置的干擾,以及管道內部的油垢、雜質沉積形成的阻塞等,使內檢測器在運行過程中出現顛簸式的運動狀態[11],在IMU應變檢測數據中表現為上下波動的高頻鋸齒狀噪聲干擾信號,噪聲信號會使應變值偏大或偏小。

本文以選取的漠大管道線為例,從漠河至大慶一線中提取了3 431份訓練數據集,其中,彎頭段962份,凹陷段975份,彎曲變形段1 494份;提取了1 754份測試數據集,包括彎頭段337份,凹陷段442份,彎曲變形段975份。兩種數據集共5 185份樣本數據。在整條管線的應變檢測數據中,應變值為零值附近的正常管段占主要部分。管道變形特征值分布如圖1所示。由圖1可知,管道變形主要包括彎頭、凹陷和環焊縫等幾何特征,以及由管道外部載荷引起的彎曲變形。不同管段類型的特征差異為利用機器學習方法對IMU應變檢測數據識別分類創造了條件。

圖1 管線變形特征比例圖

管線中的幾何特征會妨礙對彎曲應變段的識別,凹陷段和彎頭段數量眾多且應變值較大,在識別彎曲變形段時應主要排除彎頭和凹陷的干擾。彎頭的IMU應變曲線如圖2a所示。彎頭按照固定規格制成,總長一般不會超過12 m,彎頭段的應變曲線特征為12 m范圍內發生應變或突變,呈紡錐形尖刺狀,通常在應變絕對值最大處大于0.5%[12],不同檢測年份的彎頭彎曲應變值不會出現較大的偏差。凹陷的IMU應變曲線如圖2b所示。凹陷段的情況較為復雜,通過漏磁檢測與幾何檢測可以發現,在整條管線上存在大小不一的凹陷,部分凹陷段在應變曲線上的數據特征不明顯,甚至與正常管道之間沒有明顯差異。凹陷段的應變曲線特征為在較短范圍內應變發生突變,呈半菱形狀,且凹陷的彎曲應變值相比彎頭較小。

圖2 兩種幾何特征IMU應變曲線

彎曲變形風險段的應變呈正弦曲線波動,管道彎曲長度一般超過12 m[13],彎曲變形最大處的應變絕對值大于0.125%,可以將彎曲變形段的應變曲線特征總結為“W”形和“V”形,以及多個“W”形變形段和“V”形段的串聯,如圖3所示。為了方便截取彎曲變形段的數據特征,簡化計算過程,“W”形的彎曲變形段包含或者可看作是“V”形彎曲變形段。

圖3 兩種彎曲應變的IMU應變曲線

1.2 IMU應變檢測數據平滑降噪處理

數據噪聲對識別彎曲變形段的影響主要有兩點:一是原本彎曲應變較小的管段,在鋸齒狀噪聲的干擾下會使得彎曲應變值超過識別閾值,從而可能會誤認為其是應變較大的異常管段;二是數據噪聲會影響管線彎頭、凹陷、彎曲變形段的數據特征,影響機器學習模型的識別準確率。因此利用科學合理的方法有針對性地降低IMU檢測中的數據噪聲干擾非常有必要。

本文選用1階數字低通濾波去除IMU應變干擾噪聲。其原理是低頻的彎曲應變信號能夠正常通過,而超過臨界值的噪聲信號會被阻攔或減弱,從而實現IMU應變檢測數據的平滑降噪。1階數字低通濾波公式如下:

Yn=qXn+(1-q)Yn-1

(1)

q=2πΔtfc

(2)

式中:q為濾波系數,其實際取值取決于濾波時間常數和采樣周期;Xn為第n次采樣時的濾波器輸入應變,即數據的原始應變值;Yn為第n次采樣時的濾波器輸出應變,即降噪后的應變值;Δt為采樣間隔時間;fc為截止頻率,即區分應變信號與噪聲信號的臨界值。

設置截止頻率為0.1 Hz,采樣頻率為1.0 Hz,對某段IMU應變檢測數據降噪后的應變曲線如圖4所示。由圖4可見,降噪后應變數據的鋸齒狀干擾噪聲有所減緩。

圖4 1階低通濾波降噪效果圖

1.3 IMU應變檢測數據特征值分類

基于IMU應變檢測數據的管段識別,實際上是對不同管段類型數據特征的識別。根據IMU應變檢測數據的物理意義,并結合數理統計規則,參考信號分析的相關方法,從每份樣本數據中提取11個特征值,分別為長度、幅值、峰峰值、最小值、均值、標準差、偏度、峭度、峰值因子、脈沖因子及裕度因子。

長度表示一份樣本數據中應變值的個數,長度的計算公式為:

nL=length(x1,……,xn)

(3)

幅值也叫做最大值,表示一份樣本數據中最大的數,幅值的計算公式為:

xmax=max{|x1|,|x2|,……,|xn|)

(4)

峰峰值表示一份樣本數據中最大值與最小值之差,峰峰值的計算公式為:

xmax-min=max{x1,……,xn)-min{x1,……,xn)

(5)

最小值表示一份樣本數據中最小的數,最小值的計算公式為:

xmin=min{|x1|,|x2|,……,|xn|)

(6)

均值又稱作平均數,表示一份樣本數據中所有值之和除以樣本中的個數,均值的計算公式為:

(7)

標準差表示樣本數據的離散程度,用以衡量樣本數據值偏離算數平均值的程度,計算公式如下:

(8)

偏度表示樣本數據的偏離程度,也就是樣本數據的對稱程度,偏度的計算公式為:

(9)

式中:μ為均值,σ為標準差,n為樣本個數。

峭度表示樣本數據中大幅值出現的概率,峭度的計算公式為:

(10)

式中:σ2為方差。

峰值因子表示峰值在樣本數據中的極端程度,其計算公式為:

min{x1,……,xn))

(11)

脈沖因子是樣本數據峰值與樣本數據絕對值的平均值的比值,計算公式如下:

min{x1,……,xn))

(12)

裕度因子表示樣本數據峰值與樣本數據方根幅值的比值,計算公式如下:

(13)

1.4 特征值主成分分析

特征提取在表征原始數據特征的前提下實現了對樣本數據的簡化[14],但只有部分特征值在區分不同管段類型時起關鍵作用,因此需對特征值主成分進行分析。對主成分分析(Principal Component Analysis,PCA)可以對已有的數據特征進行降維處理,從而提高機器學習模型的計算效率。PCA通過借助一個正交變換,將分量相關的原隨機變量轉換成分量不相關的新變量,在新平面中使不同類別的樣本點盡量得散開,從而達到用幾個綜合變量代替已有特征值的目的,降低特征數據的信息量,簡化特征數據處理的復雜程度[15]。對上述11個特征值進行主成分分析,結果如表1所示。由表1可知:第一主成分的貢獻率為63.099%;第二主成分的貢獻率為22.064%;計算得到前5個主成分T1~T5的累計貢獻率達到了98.539%,因此取前5個主成分作為樣本數據的主要特征分量,降維后形成3 431行5列的特征矩陣作為訓練數據集[16],之后對測試數據集也做同樣處理。

表1 前5種主成分的貢獻率 %

2 基于機器學習的異常管段智能識別

2.1 CART決策樹

決策樹由根節點、子節點和葉節點三個部分組成,如圖5所示。決策樹通過將樣本數據分配到某個葉節點從而確定樣本所屬的分類,它的一個分支就是一個決策過程,每個決策的節點涉及到數據樣本的一種特征。使用基尼指數(CART)作為特征選擇的準則,建立CART決策樹,從根節點出發計算基尼指數,自上而下進行決策,在每個子節點都會進行一個判斷,最后到達一個葉節點,遞歸產生決策樹。建立決策樹后,將測試樣本輸入,經過決策樹的分類,最后得到的葉節點就是測試子集的類別[17]。

圖5 決策樹示意圖

2.2 隨機森林

隨機森林(Random Forest,RF)是在決策樹的基礎上構建的一種更為高級的算法,根據集成學習的思想解決單一決策樹模型固有的缺陷,如圖6所示。隨機森林采用了基于Bagging方法的抽樣技術,即通過一種有放回重復抽樣的采樣方法,隨機抽取數據特征組成多個決策樹,建立一個森林[18],根據多個決策樹模型的分類結果,用投票表決多數的方式決定最后結果。隨機森林的顯著優勢是能夠處理高維度的數據即不需要對特征進行降維處理。篩選出的11個特征值可以直接用于訓練隨機森林模型,在RF模型訓練過程中隨機選取樣本和特征屬性,從而提高模型算法的不確定性和多樣性[19],因此隨機森林分類的過程近乎是一個黑箱操作。

圖6 隨機森林示意圖

2.3 訓練模型

在得到帶標簽的特征向量矩陣后,本研究基于Python中的sklearn機器學習庫對CART決策樹和隨機森林模型進行參數優選,建立理論條件下的最優模型。影響CART決策樹性能的超參數有最大深度與最大葉節點數,設置決策樹的最大深度為5~9之間,設置決策樹的最大葉節點分別為10、20、30、40和50個,在不同參數下進行10次10折交叉驗證后取平均值,則決策樹分類精度對比如圖7所示。隨著最大深度的增加,CART決策樹模型的識別準確率整體呈波浪式變化。將最大葉節點數設置為10時,即使增加最大深度也不會影響模型的性能,這是因為最大葉節點數過少,限制了決策樹模型的增長。當最大深度設置為7,最大葉節點數設置為30或40時,CART決策樹有著較好的性能,識別準確率在87.8%左右。

圖7 不同參數下的決策樹分類精度對比

結合隨機森林的原理,影響隨機森林模型分類性能的超參數有兩個:決策樹數量和隨機選取的特征數量[20]。設置決策樹數量為10~100個之間,每次間隔10個進行取值,隨機選取的特征數量分別取1、3、5、7、9個,交叉驗證后選擇最優參數,則隨機森林分類精度對比如圖8所示。決策樹的數量為10個時,隨機森林模型的識別準確率整體偏低,隨機選取的特征數從1個增加至3個時,隨機森林的識別準確率有所增長,平均增幅在1%左右,之后隨著隨機選取特征數量的增加,模型的性能趨于穩定。從圖8可以看出,當隨機選取的特征數超過3個,決策樹的數量超過20個時,隨機森林的識別準確率超過了91%。因此,為保證識別準確率,可以設置隨機森林的特征值數量為7個,決策樹數量為100個。

圖8 不同參數下的隨機森林分類精度對比

運用隨機森林模型可得出各特征值在分類時所占的權重[20],如圖9所示。

圖9 隨機森林要素指標權重

由圖9可以看出,對分類效果最重要的指標是長度(0.251 9),其后依次是標準差(0.186 6)、平均值(0.135 8)、幅值(0.129 6)及峰峰值(0.106 9)。研究結果表明,由于IMU應變檢測數據中各管段類型的邊界不明確,如何界定不同管段類型的長度影響范圍對模型的分類性能有重要的影響。在以后的研究中,需要優化處理IMU應變檢測數據中不同管段類型的截取長度,從而達到更好的分類效果。

3 結果分析

本研究將3 431份樣本數據設置為訓練數據集,在模型訓練中使用10次10折交叉驗證后取平均值,求得模型的識別準確率,如表2所示。對訓練數據集交叉驗證后可以發現,兩種模型對凹陷段的識別準確率都偏低,對彎頭段和彎曲變形段的識別準確率均高于90%。凹陷段的特征不明顯、凹陷段樣本數據中截取到其他管段特征是導致出現這種情況的潛在因素。

表2 10次10折交叉驗證 %

將1 754份測試數據集代入模型中訓練得出分類結果,求出混淆矩陣得到(見圖10)CART決策樹和隨機森林模型的分類性能,混淆矩陣的行表示預測值,列表示真實值。

混淆矩陣進一步分析得到兩種算法的分類精度[21]。圖10中,0代表凹陷段,1代表彎頭段,2代表彎曲應變段。決策樹模型中測試集337份凹陷樣本數據中有137份被識別為彎曲應變段,975份彎曲應變樣本數據中有612份樣本數據被識別為凹陷段。分析結果表明:決策樹模型沒有很好地區分凹陷段與彎曲變形段之間的特征差異,因為凹陷段與彎曲變形段存在相似,一般情況下很難辨別。可以看出隨機森林模型的性能較好,但是在區分凹陷段和彎曲變形段也存在少數誤識別的情況。

圖10 兩種模型的混淆矩陣

混淆矩陣中統計的是樣本的個數,根據混淆矩陣可以衍生出許多評價指標,在分類監督學習模型中,常用的分類模型評價指標有:①Accuracy準確率,即正確預測的正反例數除以總數;②Precision精確率,即正確預測的正例數除以預測正例總數;③Recall是召回率,即正確預測的正例數除以實際正例總數;④F1值是精確率和召回率的調和值,更接近于兩個數較小的那個,所以精確率和召回率接近時F1值最大,F1值較大時說明模型比較有效[22]。表3給出了兩種模型的指標對比情況。

表3 兩種分類模型在不同管段類型測試集的評價指標對比 %

由表3可知:在測試數據集中,CART決策樹模型的性能遠低于隨機森林模型,CART決策樹的識別準確率只有55.25%;隨機森林的識別準確率為93.39%,CART決策樹在訓練數據集上的平均識別準確率有87.94%,在測試數據集上準確率驟降到52.25%。這說明CART決策樹出現了過擬合,導致決策樹過擬合的主要原因可能是樣本數據量較少,以及不同管段之間的特征參數差異不明顯、IMU應變檢測數據中仍存在干擾噪聲、不同管段類型的樣本數量不一致等。

4 結論及建議

(1)相比人工逐段識別應變較大的異常管段,采用機器學習方法對彎曲應變數據進行深入挖掘有重要作用。基于海量的IMU應變檢測數據建立樣本特征數據庫,利用機器學習方法能夠高效地找到管線中的融沉段,是管道安全狀態定量識別的一個新方向。

(2)長度是區分不同管段類型的重要參數,然而截取的樣本數據長度易受主觀因素影響,在數據預處理時可以將樣本數據的長度作為變量,以模型識別準確率為優化目標,從而起到提高模型識別分類的效果。

(3)本文基于IMU彎曲應變數據,利用機器學習方法要實現對管線中異常管段的智能識別。通過對比,隨機森林的分類效果優于CART決策樹,隨機森林在訓練集和測試集的識別準確率都超過了90%,說明訓練得到的隨機森林模型與數據擬合較好,穩定性和準確率更高。

盡管已經初步構建完整的異常管段智能識別方法,但是IMU彎曲應變的數據挖掘工作目前仍處于起步階段。根據工業需求,建議從以下兩個方面進行完善:

(1)現有方法識別準確率能達到90%,在真正應用于工程實際時還要加以優化,可以嘗試更為新型的高效機器學習方法。

(2)IMU檢測器在經過管道環焊縫時,由于錯邊等會發生跳動,使得環焊縫處的彎曲應變檢測值超過閾值,因此在對不同管段的分類識別中可考慮加入對環焊縫異常段的識別。

猜你喜歡
變形特征檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
談詩的變形
中華詩詞(2020年1期)2020-09-21 09:24:52
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
“我”的變形計
抓住特征巧觀察
例談拼圖與整式變形
會變形的餅
主站蜘蛛池模板: 人妻无码中文字幕第一区| 欧美第二区| 四虎国产精品永久一区| 在线观看国产精品一区| 性激烈欧美三级在线播放| 亚洲性影院| 亚洲色图在线观看| 日韩久草视频| 黄色成年视频| 欧美视频在线第一页| 国产一级毛片网站| 国产特级毛片aaaaaa| 国产第一页免费浮力影院| 亚洲最黄视频| 国产国产人免费视频成18| 亚洲无码37.| 欧美成人精品高清在线下载| 影音先锋丝袜制服| 91精品久久久久久无码人妻| 久久久久人妻一区精品色奶水 | 国产白浆视频| 欧美日韩北条麻妃一区二区| 亚洲综合精品第一页| 亚洲天堂在线免费| 免费啪啪网址| 嫩草影院在线观看精品视频| 亚洲视频无码| 波多野结衣无码AV在线| 18禁影院亚洲专区| 久久91精品牛牛| 国产xxxxx免费视频| 国产精品成| 日韩在线播放欧美字幕| 亚洲精品va| 国产日韩欧美视频| 99re热精品视频中文字幕不卡| 欧美三级自拍| 日本精品影院| 一级爱做片免费观看久久| 18禁黄无遮挡网站| 国产内射在线观看| 国产在线精彩视频二区| 免费一级毛片在线播放傲雪网| 美女被操91视频| 国产精品.com| 国产区免费精品视频| 中国国产A一级毛片| 国产人成午夜免费看| 日韩国产一区二区三区无码| 在线五月婷婷| 亚洲日本一本dvd高清| 亚洲人成色77777在线观看| 美女毛片在线| 中文字幕永久在线观看| 天天色综网| 无码粉嫩虎白一线天在线观看| 国产在线视频福利资源站| 成人国产免费| 欧美一道本| 伊人狠狠丁香婷婷综合色| 免费看久久精品99| 国产亚洲精品无码专| 婷婷开心中文字幕| 免费国产高清精品一区在线| 美女国内精品自产拍在线播放| 国产一区成人| 在线观看精品自拍视频| 精品视频福利| 亚洲成综合人影院在院播放| 日韩黄色精品| 色婷婷亚洲十月十月色天| 国产69精品久久| 中文字幕亚洲第一| 一本大道无码日韩精品影视| 亚洲国产一区在线观看| 日韩AV无码免费一二三区| 日韩黄色在线| 日韩久草视频| 中文字幕欧美日韩高清| 国产18在线| 99久久精品国产综合婷婷| 欧美午夜小视频|