混合LSTM與卷積神經網絡的氧氣提取率預測方法

2024-09-16 00:00:00王曙燕同艷麗李冠雄孫家澤

現代電子技術 2024年10期

摘" 要：針對空分裝置系統的運行參數量大、氧氣提取率預測研究欠缺的問題，提出一種基于卷積神經網絡（CNN）、長短期記憶網絡（LSTM）以及混合LSTM和CNN的氧氣提取率預測方法。將氧氣提取率作為預測目標，基于卷積神經網絡、LSTM、混合LSTM與卷積神經網絡模型對其進行建模，并應用于空分裝置系統運行采集的數據中。使用平均絕對百分比誤差、均方根誤差和平均絕對誤差等指標來評價預測模型的精度，并使用模型訓練時間以及模型收斂速度評估模型性能。實驗結果表明，采用混合LSTM和卷積神經網絡的氧氣提取率預測方法的效果明顯優于其他兩種模型。

關鍵詞： LSTM；卷積神經網絡；空分系統；氧氣提取率；收斂速度；預測精度

中圖分類號： TN919?34； TP399" " " " " " " " " "文獻標識碼： A" " " " " " " " " " " 文章編號： 1004?373X（2024）10?0123?06

A hybrid LSTM and convolutional neural network method for predicting

oxygen extraction rate

Abstract： A method for predicting oxygen extraction rate based on convolutional neural network （CNN）， long short term memory （LSTM）， and a mixture of LSTM and CNN is proposed to address the problem of large operating parameters and insufficient research on predicting oxygen extraction rate in air separation plant systems. The oxygen extraction rate is used as the prediction target， and it′s modelling is conducted based on convolutional neural networks， LSTM， hybrid LSTM， and convolutional neural network models. It is applied to the data collected during the operation of the air separation device system. The accuracy of the prediction model is evaluated by means of average absolute percentage error， root mean square error， and average absolute error indicators. The model performance is evaluated by means of the model training time and model convergence speed. The experimental results show that the oxygen extraction rate prediction method using a hybrid LSTM and convolutional neural network has significantly better performance than the other two models.

Keywords： LSTM; convolutional neural network; air separation system; oxygen extraction rate; convergence speed; prediction accuracy

0" 引" 言

隨著智能化時代的到來，傳統工業也追求數字智能化發展?？辗窒到y是一種用于將空氣中的氧氣、氮氣和其他氣體分離的技術，通常使用壓縮空氣作為原料，并通過一系列的物理和化學過程將其分離成高純度的氧氣、氮氣和其他稀有氣體。因此，氧氣提取率是空分系統重要的指標，準確預測氧氣提取率對后期空分系統優化至關重要。

目前，在工業中數據預測的研究主要有物理方法、統計方法和機器學習方法。空分系統中的氧氣提取率主要受原料總量、氧氣產量以及空分設備中加熱器電流、密封氣壓力、分子篩吸附器壓力等影響。

物理方法是根據空氣分離原理與空分系統設備之間的關系建立數學模型，然后直接計算氧氣提取率。物理預測模型不需要歷史數據，而是依賴于詳細的空氣分離物理知識以及準確的空分設備運行數據。然而由于復雜的工藝設備參數以及認知程度的關系，物理模型的建立比較困難，且模型需要依賴經驗參數（閾值），不同區域的經驗參數不同，會導致局部抗干擾能力差，魯棒性較弱[1]。

常用的統計預測方法有時間序列法[2]、回歸分析法[3]等。統計方法是通過對空分設備運行參數的歷史數據與氧氣提取率進行曲線擬合、參數估計和相關性分析，建立輸入、輸出數據之間的相關映射關系（即數據模型）[4]，從而實現對氧氣提取率的預測。與物理方法相比，統計方法不需要對空氣分離復雜的工業流程有一個清晰完整的認知，且具有建模簡單的優點。然而，統計方法實施的前提是需要有大量的歷史數據，并且需要對這些數據進行預處理，預處理數據時的操作（比如異常值、缺值的處理）會不同程度地影響擬合效果，從而對預測結果的精度造成很大影響。

機器學習具有有效提取高維復雜非線性特征并將其直接映射到輸出的能力。因此，基于機器學習的預測方法已經成為預測時間序列最常用的方法之一[5?6]。傳統的人工神經網絡存在梯度消失和爆炸問題[7]。深度神經網絡是一種基于人工神經元和層次化結構的機器學習模型，它通過多層次的非線性變換來學習數據的表示和抽象特征，具有比傳統人工神經網絡更高的特征提取能力，可以解決神經網絡的梯度消失問題[8]。

本文提出了三種氧氣提取率的直接預測模型，分別是一維卷積神經網絡模型（Convolutional Neural Network， CNN）、長短期記憶神經網絡模型（Long Short?Term Memory， LSTM）和CNN+LSTM混合模型，對每個模型的預測性能進行了對比，討論了不同輸入序列長度對模型的預測精度及性能的影響，并得出更適合三種預測模型的輸入時間序列長度。實驗結果表明，混合模型的氧氣提取率預測效果最好，模型的穩定性較高。本文綜合給出了模型的適用場景。

1" 相關工作

1.1" 長短期記憶神經網絡

傳統的RNN在處理長期依賴問題時，存在梯度消失或梯度爆炸的情況，導致難以有效地建模長期的時間依賴關系。

為了解決這個問題，一種更加強大的循環神經網絡被提出，即長短期記憶（LSTM）[9]神經網絡。LSTM通過門控機制，包括遺忘門、輸入門和輸出門，可以選擇性地記憶、更新和輸出信息，從而更好地捕捉長期的依賴關系[10]。LSTM通過在單元內部維護一個記憶單元來保存和傳遞信息，在處理序列數據時表現出更強的記憶能力和建模能力。LSTM網絡內部結構如圖1所示。

LSTM的第一步是決定從原始數據中丟棄哪些變量，該決定由“遺忘門層”的S形層做出，以Ht-1和Xt為輸入，輸出一個介于0～1之間的值。然后是決定要在原始數據中存儲哪些更新變量，包括兩個部分：稱為“輸入門層”的sigmoid層決定更新哪些值；一個tanh層創建一個新候選值的向量，可以將其添加到變量中。接著結合這兩者來創建對變量的更新，根據每個變量值的縮放程度進行縮放。最后運行一個sigmoid層，輸出預測變量。

1.2" 卷積神經網絡

CNN是一種帶有卷積結構的前饋神經網絡[11]，包括輸入層、卷積層、池化層和全連接層。CNN的權值共享和上下層級之間的神經元的局部連接不僅減少了網絡參數總量，還減少了模型在訓練過程中的過擬合效果。

卷積神經網絡自20世紀60年代被提出以來，其模型結構從經典的LetNet?5[12]發展到應用非線性激活函數ReLU和Dropout方法的AlexNet[13?14]；在AlexNet基礎上改變卷積核尺寸和步長的ZFNet[15]；將網絡深度擴展到19層的VGGNet[16]；同時，增加網絡深度和寬度，在不增加計算量的情況下提升網絡性能的GoogleNet。

2" 本文提出的方法

本文提出一種混合LSTM與CNN的氧氣提取率預測方法。該方法能捕捉時序特征，處理不同時間尺度的信息，同時也可以進行層次化特征學習。氧氣提取率預測模型框架及流程如圖2所示。首先，獲取空分設備的運行數據，圖2給出了主要的一些歷史數據，包括氧氣產量、原料總量、氧氣提取率、冷凍水進水冷塔流量、富氧流量；接著對獲取到的歷史數據進行預處理，包括異常值的處理（如設備故障）、數據歸一化，可以避免特征之間的偏差，從而提高模型的魯棒性；然后選擇模型進行訓練，包括CNN、LSTM以及混合CNN+LSTM；最后根據平均絕對誤差（MAE）、平均絕對百分比誤差（MAPE）、均方根誤差（RMSE）等指標來評估氧氣提取率預測模型的精度，并使用損失函數的收斂速度來評估模型的性能。

3" 實驗過程及結果分析

3.1" 實驗數據的介紹

數據集來源為空分設備運行數據，將2022?12?31 T 18：59：35—2023?01?31 T 18：59：35一個月的時間以間隔1 min共44 641條數據作為數據集，每條數據由137個變量組成。采用歸一化方法將數據劃分為同一維度，同時為了方便討論不同輸入序列長度對模型的預測精度及性能的影響，實驗中設置3組輸入序列的長度，分別為10天、20天、30天。

3.2" 實驗過程及結果

在本節中設計3個實驗來驗證所提出的CNN、LSTM以及混合CNN與LSTM（CL）模型的性能，以及輸入序列的長度對模型預測精度的影響。

3.2.1" 實驗參數設置

本文的3個模型訓練與驗證周期為50。其中，卷積神經網絡模型的輸入形狀為137，卷積層的卷積核大小為16，卷積層的激活函數使用ReLU（Rectified Linear Unit）函數進行非線性變換，池化層的池化大小為2，Dropout層的丟棄率為0.5，全連接層的單元數為1。LSTM神經網絡模型的輸入形狀為137，LSTM層的單元數為32和16，全連接層的單元數為1。混合CNN與LSTM模型的卷積核大小為3，池化核大小為2，步長為1，LSTM層的單元數設置為0，層數為2。

3.2.2" 實驗結果及分析

10天輸入序列下3個模型的訓練損失和驗證損失變化如圖3所示。其中，實線代表訓練損失值，虛線代表驗證損失值。

從圖3中可以看出：混合CNN與LSTM模型的訓練損失值與驗證損失值的重合度最高，說明混合CNN與LSTM模型的泛化能力更強；同時，混合CNN與LSTM模型的收斂速度與損失值均小于CNN模型和LSTM模型，而LSTM模型的收斂速度最慢。

圖4為20天輸入序列下3個模型的訓練損失和驗證損失變化，其中，實線代表訓練損失值，虛線代表驗證損失值。

從圖4中可以看出：混合CNN與LSTM模型的訓練損失值與驗證損失值的重合度最高，說明混合CNN與LSTM模型的泛化能力更強；同時，混合CNN與LSTM模型的收斂速度與損失值均小于CNN模型和LSTM模型，而LSTM模型的收斂速度最慢。

30天輸入序列下3個模型的訓練損失和驗證損失如圖5所示，其中，實線代表訓練損失值，虛線代表驗證損失值。

從圖5中可以看出：混合CNN與LSTM模型的訓練損失值與驗證損失值的重合度最高，說明混合CNN與LSTM模型的泛化能力更強；同時，混合CNN與LSTM模型的收斂速度與損失值均小于CNN模型和LSTM模型，而LSTM模型的收斂速度最慢。

圖6為不同輸入序列對應的3個模型訓練后預測值與真實值的誤差對比。

對于3種輸入序列，混合CNN與LSTM模型的MAPE值均最低，LSTM模型的MAPE值均最高；同時，30天輸入序列的混合CNN與LSTM模型比10天輸入序列的MAPE降低了29%。這表明了當輸入序列過少時，容易造成欠擬合現象。對于3種輸入序列，混合CNN與LSTM模型的RMSE值均最低，LSTM模型的RMSE值在10天的輸入序列最高，在20天與30天的輸入序列的RMSE值接近。同時，30天輸入序列的混合CNN與LSTM模型比10天輸入序列的RMSE降低了34.8%。對于3種輸入序列，混合CNN與LSTM模型的MAE值均最低，LSTM模型的MAE值在10天的輸入序列最高，在20天與30天的輸入序列的MAE值接近。同時，30天輸入序列的混合CNN與LSTM模型比10天輸入序列的MAE降低了13.3%。

圖6從整體上對比后可知，CNN模型訓練后預測值與真實值之間的MAPE、RMSE、MAE均在30天輸入序列下最低，因此，CNN模型更適合在30天的輸入序列下進行訓練。LSTM模型訓練后預測值與真實值之間的MAPE、RMSE、MAE均在20天輸入序列下最低，因此，LSTM模型更適合在20天的輸入序列下進行訓練?；旌螩NN與LSTM模型訓練后預測值與真實值之間的MAPE、RMSE、MAE均在30天輸入序列下最低，因此，混合CNN與LSTM模型更適合在30天的輸入序列下進行訓練。

圖7為不同輸入序列對于3個模型訓練時間的比較。由圖7可知，3種不同輸入序列的情況下，CNN模型的訓練時間最短，LSTM模型的訓練時間最長。而隨著輸入序列的增長，3個模型的訓練時間均有不同程度的增加。

4" 結" 語

本文設計并提出了3個基于深度學習的氧氣提取率預測模型，并針對每個模型的預測性能做了對比。對模型的預測值與真實值之間的MAPE、RMSE、MAE做誤差分析，并分析不同輸入序列在模型訓練的損失值，以評估各模型的預測精度；同時，綜合分析不同輸入序列的模型的訓練時間來評估模型的預測性能。實驗結果表明，混合模型雖然在訓練時間上稍高于CNN模型，但是在預測精度與模型的收斂速度方面均為最優。因此，混合模型的氧氣提取率預測性能最高。在以后的工作中，將繼續研究空分系統氧氣提取率的優化。

參考文獻

[1] DOLARA A， LEVA S， MANZOLINI G. Comparison of different physical models for PV power output prediction [J]. Solar energy， 2015， 119： 83?99.

[2] CAI M， PIPATTANASOMPORN M， RAHMAN S. Day?ahead building?level load forecasts using deep learning vs. traditional time?series techniques [J]. Applied energy， 2019， 236： 1078?1088.

[3] LI Y， HE Y， SU Y， et al. Forecasting the daily power output of a grid?connected photovoltaic system based on multivariate adaptive regression splines [J]. Applied energy， 2016， 180： 392?401.

[4] WANG K， QI X， LIU H. Photovoltaic power forecasting based LSTM?convolutional network [J]. Energy， 2019， 189： 116225.

[5] YAGLI G M， YANG D， SRINIVASAN D. Automatic hourly solar forecasting using machine learning models [J]. Renewable and sustainable energy reviews， 2019， 105： 487?498.

[6] VOYANT C， NOTTON G， KALOGIROU S， et al. Machine learning methods for solar radiation forecasting： a review [J]. Renewable energy， 2017， 105： 569?582.

[7] GONG T， FAN T， GUO J， et al. GPU?based parallel optimization of immune convolutional neural network and embedded system [J]. Engineering applications of artificial intelligence， 2016， 62： 384?395.

[8] PUN S C M. Superpixel?based 3D deep neural networks for hyperspectral image classification [J]. Pattern recognition： the journal of the pattern recognition society， 2018， 14（11）： 2142?2146.

[9] GRAVES A. Generating sequences with recurrent neural networks [EB/OL]. [2023?12?04]. https：//ui.adsabs.harvard.edu/abs/2013arXiv1308.0850G/abstract.

[10] 鄒紅波，柴延輝，楊欽賀，等.基于混合ISSA?LSTM的鋰離子電池剩余使用壽命預測[J].電力系統保護與控制，2023，51（19）：21?31.

[11] 陸文安，朱清曉，李兆偉，等.基于卷積神經網絡的新型電力系統頻率特性預測方法[J/OL].上海交通大學學報：1?16[2023?07?06].https：//doi.org/10.16183/j.cnki.jsjtu.2023.071.

[12] LONG X， GUO J， HAO R， et al. Optical neural networks of handwriting recognition using optical scattering unit system [C]// 2020 Asia Communications and Photonics Conference （ACP） and International Conference on Information Photonics and Optical Communications （IPOC）. Beijing： IEEE， 2020： 1?3.

[13] 馬世龍，烏尼日其其格，李小平.大數據與深度學習綜述[J].智能系統學報，2016，11（6）：728?742.

[14] 張澤超.深度學習網絡分布式訓練方案研究與性能優化[D].杭州：浙江大學，2021.

[15] ANTIOQUIA A M C， TAN D S， AZCARRAGA A， et al. ZipNet： ZFNet?level accuracy with 48× fewer parameters [C]// 2018 IEEE Visual Communications and Image Processing （VCIP）. [S.l.]： IEEE， 2018： 1?4.

[16] JILANI U， AKRAM N， ABBASI M， et al. Machine learning based leaves classifier using CNN and reduced VGG net model [C]// 2022 Global Conference on Wireless and Optical Technologies （GCWOT）. Malaga， Spain. IEEE， 2022： 1?7.

現代電子技術2024年10期

現代電子技術的其它文章: 電氣化鐵路牽引回流對鋼軌磁化的影響研究; 基于安全距離和時空網格的交叉路口車輛防碰撞安全預警; 基于數據擴展的鋰離子電池早期壽命在線預測; 計及多方利益的“車?路?網”三層充電優化方法; 基于BP神經網絡算法的超聲電源頻率追蹤技術; 基于SOAR的電力5G MEC安全解決方案