李光
(大慶油田有限責任公司第七采油廠)
我國多為中質、重質含蠟原油,在管輸過程中,集輸壓降較大。平均壓降每增加1 MPa,每公里的電耗約增加300×104kWh/a,因此對輸油管道的運行電耗進行有效預測,可以隨時掌握能耗的變化情況,以便實時調整開泵方案及輸油計劃[1]。
對于輸油管道運行電耗的預測方法,傳統(tǒng)模型包括工藝計算法和數(shù)據統(tǒng)計法[2-3]。工藝計算法是在考慮輸量、高程、溫度、壓力的條件下,利用水力學公式計算所需電耗,但該方法易受外界噪聲的影響,且通常計算結果與現(xiàn)場實際差距較大,需要不斷的變更模型參數(shù),模型適用性不高;數(shù)據統(tǒng)計法是在收集現(xiàn)有數(shù)據的基礎上,通過最小二乘法或灰色模型對數(shù)據進行非線性逼近,屬于近似模型,其可解釋性較差,對于樣本數(shù)據的質量要求也存在一定要求。隨著計算機和人工智能的發(fā)展,越來越多的機器學習算法被應用于時序數(shù)據預測中[4-5]。李雨等[6]采用粒子群算法優(yōu)化神經網絡模型對原油管道的電耗進行了預測,并與其余幾種模型進行了對比;朱振宇等[7]利用分解-優(yōu)化-預測的思想,采用支持向量機實現(xiàn)了電耗的有效預測;Zeng 等[8]利用神經網絡模型實現(xiàn)了管道電耗的短期預測。以上研究未考慮訓練樣本的數(shù)量和質量,也未對輸入數(shù)據的特征參數(shù)進行有效識別,容易引起后續(xù)預測模型的過擬合或欠擬合。基于此,在收集影響運行電耗參數(shù)的基礎上,利用Spearman 相關系數(shù)篩選主控因素,隨后統(tǒng)計樣本的概率密度分布,利用超拉丁立方抽樣形成虛擬樣本,最后將樣本代入長短期記憶網絡(LSTM)模型中進行訓練及預測。
根據管道特性方程,輸油管道的運行電耗與沿程壓降呈正比,壓降由克服地形高差所需的位能、沿程摩阻和局部摩阻有關,其影響因素包括油品物性、環(huán)境特征、管道參數(shù)和運行參數(shù)等[9-11],其中原油物性包括介質黏度、密度、比熱容、凝點、蠟含量、膠質含量等,但這部分參數(shù)在管輸過程中很難獲取;環(huán)境參數(shù)包括地溫、土壤導熱性、埋深、天氣類型、環(huán)境溫度等,其中地溫影響沿程溫降,進而影響總傳熱系數(shù)和管輸壓降;管道參數(shù)包括管徑、長度、壁厚等參數(shù),這部分參數(shù)通常在投產時就已經確定;運行參數(shù)包括輸量、進泵壓力、出泵壓力、下站進壓、加熱爐出口溫度、下站進溫等,這些參數(shù)均為實時變化,且與運行電耗密不可分。綜上所述,選擇運行參數(shù)和地溫作為影響因素,通過Spearman 相關系數(shù)分析不同因素之間的相關性。
某原油管道全長125.4 km,共有5 座站場,2 個熱站和3 個熱泵合建站。管徑?406.4 mm×8 mm,管材為X60 管線鋼,交貨狀態(tài)為PSL 1,輸量30×104~50×104t/a,平均埋深1.5~2 m,外壁采用硬質聚氨脂泡沫塑料和高密度聚乙烯層進行防腐保溫。管輸介質為含水率小于0.5%的凈化原油,20 ℃ 密 度 860~870 kg/m3, 50 ℃ 黏 度 為37.5~672.3 mPa·s。選取其中一個熱泵站間管道,通過站場SCADA 系統(tǒng)采集數(shù)據進行Spearman 相關系數(shù)研究,不同影響因素的Spearman 相關系數(shù)熱圖見圖1。

圖1 不同影響因素的Spearman 相關系數(shù)熱圖Fig.1 Heat map of Spearman's correlation coefficient for different influencing factors
可見電耗與輸量、出泵壓力的相關性最強,系數(shù)分別為0.965、0.914;與下站進壓、進泵壓力的相關性較強,系數(shù)分別為0.679、-0.512;與加熱爐出口溫度、下站進溫及地溫的相關性最弱,系數(shù)分別為-0.072、-0.128、-0.193。隨著輸量增大,輸油泵機組的能耗增加;出泵壓力和下站進壓越大,說明泵可提供的有效揚程越大,供能越大,故這些因素與電耗呈正相關。進泵壓力越大,說明從上游泵站殘余的壓能越大,此站需提供的壓能越小,故進泵壓力與電耗呈負相關。對于溫度數(shù)據,鑒于運行中需保證下站進溫在介質凝點以上,故溫度變化較小,對壓力和電耗的也影響較小。溫度越高,介質黏度越小,流動性越好,壓降和電耗越小,溫度與電耗呈微弱負相關。
雖然智慧管網的推進極大增加了數(shù)據庫的建立和完善,但對于服役時間較長的管道,受自動化水平、特殊工況、管道泄露及設備故障的影響,可用的有效數(shù)據并不多,且這些數(shù)據均存在重復性高、多樣性差和分布不均衡的缺點。為提高小樣本信息的完善性,在現(xiàn)有數(shù)據基礎上,統(tǒng)計其概率密度分布,生成虛擬樣本,以擴充原有數(shù)據,增強預測模型泛化能力[12]。
步驟如下:(1) 根據現(xiàn)場數(shù)據, 采用Anderson-Darling 檢驗統(tǒng)計不同因素服從的概率密度類型,AD 統(tǒng)計量越小,說明在相應的顯著性水平下,樣本服從特定分布的可能性越大;(2)采用最大似然估計法求解概率密度的關鍵參數(shù),如正態(tài)分布的關鍵參數(shù)為均值和方差,均勻分布的關鍵參數(shù)為最小值和最大值;(3)根據關鍵參數(shù)構建對應的分布類型;(4)采用分層抽樣技術中的超拉丁立方抽樣法抽取該影響因素的隨機數(shù),將不同因素的數(shù)據隨機組合,形成虛擬樣本。
選取相關性較強的輸量、進泵壓力、出泵壓力、下站進壓作為統(tǒng)計對象,取2022 年2—6 月的SCADA 系統(tǒng)數(shù)據,對數(shù)據進行檢查分析和查漏補缺,去除明顯的異常和錯誤數(shù)據,共計得到100 組原始樣本,作為后續(xù)虛擬樣本建模和模型預測的基礎。不同因素AD 統(tǒng)計量結果見表1,其中輸量符合Gamma 分布,進泵壓力、出泵壓力符合正態(tài)分布,下站壓力符合極值分布,利用最大似然估計法得到對應的分布模型分別為G(700,10,1.5)、N(1.65,0.58)、N(6.17,1.21)、M(0.45,0.52)。G 表示Gamma 分布,三個參數(shù)分別為尺度、位置和形狀;N 表示正態(tài)分布,兩個參數(shù)分別為均值和方差;M 表示極值分布,兩個參數(shù)分別為眾數(shù)和位置。

表1 不同因素的AD 統(tǒng)計量結果Tab.1 AD statistics results of different factors
根據超拉丁立方抽樣法生成隨機數(shù)樣本,形成500 個虛擬樣本,將其代入Pipesim 軟件模型中,得到虛擬電耗,最終形成由數(shù)個因素和電耗組成的完整虛擬樣本數(shù)據庫,部分虛擬樣本數(shù)據庫見表2。

表2 部分虛擬樣本數(shù)據庫Tab.2 Database of partial virtual sample
虛擬樣本需滿足適應性和合理性,即生成的虛擬樣本是否可以反映原始樣本的特征及與工程實際是否一致。 在此, 利用t 分布隨機領域嵌入(t-SNE)算法,將原始樣本和虛擬樣本降維至二維平面上,觀察兩者包容性。 t-SNE 算法降維后虛擬樣本和真實樣本的分布狀態(tài)見圖2。
圖2中的每個坐標軸代表一個主成分,由于t-SNE算法在數(shù)據降維的過程中進行了中心化處理,故所有的樣本信息均在中心附近,原始樣本在一個較小的范圍內,虛擬樣本生成了大量與原始樣本不同的新樣本,原始樣本的信息間隔得到有效填充。
運行電耗數(shù)據與影響因素之間存在復雜的非線性關系,對于這類時間序列數(shù)據,可以采用LSTM模型預測。LSTM 模型通過引入一個記憶單元來記錄不同時間間隔內的數(shù)據,同時利用輸入門、遺忘門和輸出門調節(jié)、記錄記憶數(shù)據的進出過程,有效解決梯度消散或爆炸問題。
LSTM 模型中隱含層神經元、最大迭代次數(shù)和初始學習率直接影響訓練效果和泛化能力。先將原始樣本作為訓練集代入LSTM 模型中,通過試錯法確定LSTM 模型的隱含層神經元、最大迭代次數(shù)和初始學習率分別為35、0.015、2.225,由此確定模型網絡結構為4-35-1;隨后在原始樣本中加入不同數(shù)量的虛擬樣本,代入LSTM 模型繼續(xù)進行模型訓練;最后,將2022 年7 月的20 組數(shù)據作為測試集, 驗證預測效果, 并通過平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)和相關系數(shù)(R2)直觀體現(xiàn)模型效果。引入不同數(shù)量虛擬樣本的預測效果見圖3、引入不同數(shù)量虛擬樣本的評價指標結果見表3。

圖3 引入不同數(shù)量虛擬樣本的預測效果Fig.3 Prediction effect with different amounts of virtual samples
當只采用原始樣本時,2、9、10、14、15、16、19 號樣本預測值與實際值的差距較大,整體預測效果較差;加入虛擬樣本后,模型的預測效果有所提升,當虛擬樣本增加至400 個時,實際值與預測值的吻合性最好,MAE 為0.018 2×104kWh/d、MAPE 為2.79%、R2為0.921 5;當虛擬樣本增加至500 個時,預測精度下降,這可能與樣本空間中增加更多低輸量、越站、停輸再啟動等特殊工況的數(shù)據,部分數(shù)據處于離散和邊緣位置,造成對穩(wěn)態(tài)工況擬合能力的下降。
在上述模型的基礎上,對管道日運行電耗進行了預測,并結合預測結果對月開泵方案進行了調整,優(yōu)化前后的應用效果見表4。其中,11—1 月的耗電量逐漸增加,這與環(huán)境溫度降低,油品黏度增大,所需克服的沿程摩阻增加有關。經過優(yōu)化后,開泵臺數(shù)均有不同程度的降低,2023 年2 月雖然開泵臺數(shù)與優(yōu)化前一致,但泵的轉速和葉輪直徑均有所減小,泵效提升,在沿程溫降幾乎不變的情況下,沿程壓降均有不同程度的降低,說明在出站壓頭更小的工況下,即可完成站間油品輸送。按照電費0.6 元/ kWh 核算,單月節(jié)約費用1.68 萬元~2.04 萬元,管道全線共有3 個站,全年可節(jié)約運行電費72 萬元。
1)通過收集整理基礎數(shù)據,利用Spearman 相關系數(shù)確定了影響管道運行電耗的主控因素為輸量、進泵壓力、出泵壓力和下站進壓,其中輸量、出泵壓力、下站進壓與電耗呈正相關,進泵壓力與電耗呈負相關。
2)利用AD 統(tǒng)計量確定了影響因素服從的概率分布類型,通過超拉丁立方抽樣法形成虛擬樣本集,虛擬樣本生成了大量與原始樣本不同的新樣本,原始樣本的信息間隔得到有效填充。
3)通過LSTM 模型對管道運行電耗進行了訓練和預測,當虛擬樣本添加400 個時,模型的MAE 為0.018 2×104kWh/d、MAPE 為2.79%、R2為0.921 5,評價指標均為最優(yōu)。