馬云路,鄭堅欽,梁永圖
(中國石油大學(xué)(北京),北京 102249)
我國目前油氣輸送方式主要有公路、鐵路、水路和管道運輸4種,其中,管道由于經(jīng)濟(jì)、平穩(wěn)、可連續(xù)輸送等優(yōu)勢,成為長距離油氣運輸?shù)氖走x方式[1]。但由于輸送介質(zhì)的易燃易爆屬性,一旦發(fā)生泄漏,不僅造成大量經(jīng)濟(jì)損失、污染環(huán)境[2],還有可能發(fā)生爆炸,造成人員傷亡等重大事故[3]。此外,管道老齡化比例逐年增大[4],帶來諸多安全隱患,1992年4月22日,墨西哥瓜達(dá)拉哈拉市汽油管道泄漏,引發(fā)連續(xù)爆炸,導(dǎo)致206人死亡[5];2000年1月27日,廣西貴港輸油管道泄漏,油品遇明火引發(fā)連鎖反應(yīng),致9人死亡[6];2013年11月22日,青島市東黃輸油管道與排水暗渠交匯處管道破裂,大量原油外泄,現(xiàn)場人員施工時產(chǎn)生火花,發(fā)生爆炸事故,造成62人死亡,直接經(jīng)濟(jì)損失高達(dá)7.5億元[7-9]。因此,開展管道泄漏檢測研究十分必要。
目前,針對管道泄漏檢測比較成熟的方法包括質(zhì)量平衡法、負(fù)壓波法、實時模型法、壓力梯度法、統(tǒng)計決策法等。質(zhì)量平衡法[10]成本低、響應(yīng)快速,但只能用來檢測泄漏時間,對于加熱輸送管道需要考慮溫降對流體密度影響,一般與其他方法結(jié)合使用;負(fù)壓波法[11]原理簡單、實施方便、泄漏定位能力較強(qiáng)、精度較高,但無法預(yù)測泄漏系數(shù),容易混淆泄漏與工況調(diào)節(jié),誤報警率較高;實時模型法[12]靈敏度和精度高,可適用于各種復(fù)雜工況,對泄漏系數(shù)預(yù)測效果較好,但計算量大、費用高、耗時較長;壓力梯度法[13]實施簡單、費用低,但精度低,一般作為輔助方法;統(tǒng)計決策法[14]成本低廉,誤報警率低,對不同管道和不同輸送介質(zhì)的適應(yīng)能力較強(qiáng),但對泄漏系數(shù)預(yù)測能力弱,更多用于檢測是否發(fā)生泄漏。
近年來,隨機(jī)器學(xué)習(xí)技術(shù)興起,部分學(xué)者采用基于機(jī)器學(xué)習(xí)的方法開展管道泄漏檢測研究:Wang等[15]提出基于過程與數(shù)據(jù)耦合的管道工況監(jiān)測模型,準(zhǔn)確率高達(dá)93.1%;Abdulla等[16]通過分析檢測方法缺陷,開發(fā)基于神經(jīng)網(wǎng)絡(luò)的概率決策支持系統(tǒng),將管道入口、出口壓力和流量與泄漏狀態(tài)相關(guān)聯(lián),用于檢測管道是否泄漏;Kayaalp等[17]將RAkELd方法用于管道泄漏檢測和定位,實驗效果良好;Zhang等[18]提出基于水熱力動態(tài)瞬態(tài)分析的液體管道泄漏檢測和定位模型,并使用改進(jìn)粒子群算法優(yōu)化模型參數(shù);文獻(xiàn)[19-20]提出基于生成對抗網(wǎng)絡(luò)和變分自編碼器的泄漏參數(shù)估計模型,優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法。但上述方法缺乏對流量、壓力等數(shù)據(jù)特征提取,模型可解釋性較差。
鑒于此,本文針對管道流量和壓力數(shù)據(jù)特點,提出2種特征提取方法,并將這2種方法與機(jī)器學(xué)習(xí)方法相結(jié)合,建立多個管道泄漏系數(shù)預(yù)測模型,其中使用均值提取法的多層感知機(jī)模型效果較好,該模型通過將均值提取法與多層感知機(jī)模型相結(jié)合,可有效降低管道時序數(shù)據(jù)特征維度,準(zhǔn)確擬合泄漏系數(shù)與流量壓力之間的非線性關(guān)系,具有較高精度和良好的抗噪性。
由于管道泄漏樣本少,數(shù)據(jù)保密性強(qiáng),導(dǎo)致模型訓(xùn)練樣本數(shù)據(jù)收集困難。本文參考華南成品油管道數(shù)據(jù),為增強(qiáng)通用性,管道內(nèi)流動介質(zhì)包括92號汽油、95號汽油和0號柴油,基于瞬變流模擬管道在100 s內(nèi)的流動情況,記錄上下游流量和壓力數(shù)據(jù),基于現(xiàn)場操作習(xí)慣,控制下游流量和上游壓力不變,不斷改變泄漏系數(shù)大小,重復(fù)多次模擬,共產(chǎn)生約20 000條數(shù)據(jù)。模型訓(xùn)練時,將管道泄漏系數(shù)作為標(biāo)簽進(jìn)行監(jiān)督學(xué)習(xí),管道基本參數(shù)見表1,流量和壓力如圖1所示。由于長輸管道沿途地形起伏,需要考慮高程差影響,一般使用壓力指代壓強(qiáng),以m作為單位,表示相同高度水柱產(chǎn)生的壓強(qiáng)。
為分析各模型抗噪性,分別對數(shù)據(jù)添加1%,2%,3%,4%,5%的噪聲,添加5%噪聲后流量和壓力如圖2所示。原始數(shù)據(jù)樣本為400維,存在“維數(shù)災(zāi)難”問題,需降維處理,提取相關(guān)性較強(qiáng)特征,提高模型預(yù)測精度。因此,提出序列提取法和均值提取2種數(shù)據(jù)預(yù)處理方法。具體包括以下6個流程:
圖2 加噪后的流量和壓力Fig.2 Operating flow rate and pressure after adding noise
1)數(shù)據(jù)篩選。發(fā)生泄漏后,壓力波傳導(dǎo)到管道兩端需要時間,原始數(shù)據(jù)包含100 s的數(shù)據(jù),為保證壓力波到達(dá)管道上下游,過濾80 s后的數(shù)據(jù),同時考慮管道經(jīng)濟(jì)流量范圍,刪除流量大于0.7 m3/s的數(shù)據(jù)。
2)判斷變化時間。受噪聲干擾,難以判斷流量和壓力變化屬于正常波動還是泄漏引起,通過設(shè)定閾值,當(dāng)變化大于閾值時視為發(fā)生突變,本文采用閾值為管道平穩(wěn)運行時流量和壓力的1/10。
3)特征提取。序列提取法考慮原始數(shù)據(jù)時序特性,在特征提取過程中保留原始數(shù)據(jù)時序性。均值提取法選取管道突變前后流量壓力表征整個序列,可顯著降低特征維度,同時降低噪聲干擾。圖3為序列提取法示意,在變化時間點前后各取長度為5 s的序列數(shù)據(jù),視為變化特征,得到4條10 s的序列數(shù)據(jù),保留數(shù)據(jù)時序性,特征數(shù)為40。圖4為均值提取法示意,使用變化時間前后各10 s的平均值作為提取特征,得到8個流量壓力數(shù)據(jù),最終特征數(shù)為8,相比原來的400維數(shù)據(jù),特征維度大大降低。
注:白色方塊代表上下游流量和壓力,豎線代表變化時間,深色方塊代表提取的特征。圖3 序列提取法Fig.3 Sequence extraction method
注:白色方塊代表上下游流量和壓力,豎線代表變化時間,橫線代表求平均值。圖4 均值提取法Fig.4 Mean extraction method
4)歸一化處理。由于不同特征具有不同數(shù)量級,需歸一化處理,加快模型收斂。處理流程如式(1)所示:
xi=(xi-xmin)/(xmax-xmin)
(1)
式中:xi表示第i個樣本;xmin為特征值最小的樣本;xmax為特征值最大的樣本。
5)模型評價指標(biāo)。選取2個評價指標(biāo)相關(guān)系數(shù)(R2)和平均絕對百分比誤差(MAPE),R2反映模型擬合程度高低,越接近1,說明模型擬合程度越高;MAPE反映預(yù)測數(shù)據(jù)誤差,越接近0說明誤差越低,如式(2)~(3)所示:
(2)
(3)
6)數(shù)據(jù)劃分。將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,劃分比例為8∶2,80%用于模型訓(xùn)練,其余20%用于模型性能評估。
多層感知機(jī)(MLP)模型是在生物大腦啟發(fā)下提出的,其結(jié)構(gòu)簡單、訓(xùn)練高效,理論上可擬合任意函數(shù)關(guān)系,適用范圍廣且效果出色。本文研究可通過學(xué)習(xí)上下游流量、壓力數(shù)據(jù)與泄漏系數(shù)之間的復(fù)雜映射關(guān)系,用于泄漏系數(shù)預(yù)測。
多層感知機(jī)的基本組成單元是神經(jīng)元,其模仿人類大腦中的神經(jīng)元細(xì)胞,接受1組輸入向量,與自身權(quán)重向量求內(nèi)積,加上偏置向量后經(jīng)激活函數(shù)得到最終輸出。對于管道流量和壓力x,輸出泄漏參數(shù)y=f(wx+b),其中w為權(quán)重向量,b為偏置向量,函數(shù)f(·)為激活函數(shù)。激活函數(shù)采用非線性ReLU函數(shù),如式(4)所示:
f(x)=max(0,x)
(4)
1個神經(jīng)元產(chǎn)生1個輸出,多個神經(jīng)元并聯(lián)構(gòu)成1層網(wǎng)絡(luò)。神經(jīng)元個數(shù)對應(yīng)網(wǎng)絡(luò)輸出個數(shù),中間層為隱藏層,將多層網(wǎng)絡(luò)串聯(lián)到一起,形成最終模型。網(wǎng)絡(luò)結(jié)構(gòu)示意如圖5所示。
圖5 多層感知機(jī)泄漏預(yù)測模型Fig.5 Leakage prediction model based on multi-layer perceptron
圖5展示含有3個隱藏層的多層感知機(jī),3個隱藏層的神經(jīng)元數(shù)量分別為4,5,4。在實際模型中,可通過試錯法和經(jīng)驗法確定最優(yōu)層數(shù)和神經(jīng)元數(shù),多層感知機(jī)模型接收預(yù)處理后的管道泄漏數(shù)據(jù),利用隱藏層做特征提取,最終通過輸出層預(yù)測管道泄漏系數(shù)。本文基于2種數(shù)據(jù)預(yù)處理方法,建立2個不同的多層感知機(jī)模型。模型1(1-MLP)使用序列提取法進(jìn)行數(shù)據(jù)預(yù)處理,輸入數(shù)據(jù)特征維度為40,隱藏層為4層,激活函數(shù)采用ReLU函數(shù),輸出為預(yù)測的泄漏系數(shù);采用小批量學(xué)習(xí)法,每批樣本數(shù)為256,使用自適應(yīng)梯度下降法優(yōu)化參數(shù),學(xué)習(xí)率設(shè)置為0.001,共訓(xùn)練100輪。模型2(2-MLP)使用均值提取法進(jìn)行數(shù)據(jù)預(yù)處理,輸入數(shù)據(jù)特征維度為8,其他設(shè)置與模型1一致。為對比模型效果,基于2種數(shù)據(jù)預(yù)處理方法,建立4個對比模型,分別為基于序列提取法的長短期記憶神經(jīng)網(wǎng)絡(luò)(1-LSTM)、基于均值提取法的隨機(jī)森林(2-RF)、基于均值提取法的K近鄰回歸(2-KNN)和基于均值提取法的支持向量機(jī)(2-SVM),模型前數(shù)字1表示基于序列提取法,2表示基于均值提取法,英文縮寫代表選用的機(jī)器學(xué)習(xí)算法。
不同模型的預(yù)測結(jié)果如表2所示。由表2可知,基于均值提取法建立的多層感知機(jī)模型(2-MLP)預(yù)測效果相對較好,R2為0.997 5,MAPE為1.599%。所有模型預(yù)測結(jié)果和真實值對比如圖6所示。由圖6可知,1-MLP、2-MLP和2-SVM模型的散點均集中在基準(zhǔn)線附近,說明模型擬合效果較好,其中2-MLP模型預(yù)測結(jié)果與真實值最為貼近,1-LSTM、2-RF和2-KNN模型較為分散,說明模型擬合效果較差。
表2 泄漏系數(shù)預(yù)測模型結(jié)果Table 2 Results of prediction models on leakage coefficient
注:散點表示真實值和預(yù)測值的組合,實線為基準(zhǔn)線,表示預(yù)測值與真實值相等。圖6 不同預(yù)測模型的預(yù)測結(jié)果Fig.6 Prediction results of different prediction models
為進(jìn)一步測試模型魯棒性,對模型進(jìn)行抗噪性分析。分別使用添加1%~5%噪聲數(shù)據(jù)訓(xùn)練模型,觀察模型的效果變化。添加1%~5%噪聲后,模型R2和MAPE表現(xiàn)結(jié)果如圖7所示。由圖7可知,RF和MLP的抗噪性相對較好,其次為SVM;對比1-MLP和2-MLP模型發(fā)現(xiàn),2-MLP模型的抗噪性明顯優(yōu)于1-MLP模型,說明均值提取法具有抗噪聲功能。
圖7 添加不同噪聲后不同模型的R2和MAPEFig.7 R2 and MAPE of different models after adding different noises
1)基于均值提取法建立的多層感知機(jī)模型(2-MLP)對泄漏系數(shù)的預(yù)測效果相對較好,R2為0.997 5,MAPE為1.599%,明顯優(yōu)于其他模型,這說明多層感知機(jī)模型可以比較準(zhǔn)確地擬合泄漏系數(shù)與流量和壓力之間的非線性關(guān)系。
2)使用均值提取法的多層感知機(jī)模型與使用序列提取法的多層感知機(jī)模型相比,前者抗噪性相對較好,說明均值提取法具有一定去噪能力,可以使模型擁有較強(qiáng)的抗噪性。針對管道泄漏系數(shù)預(yù)測而言,時序性數(shù)據(jù)使用均值提取法比序列提取法可以更好地降低特征維度,提取關(guān)鍵特征,提升模型抗噪性能。對于泄漏系數(shù)與流量和壓力之間的非線性關(guān)系,使用多層感知機(jī)模型擬合效果更佳。
中國安全生產(chǎn)科學(xué)技術(shù)2022年10期