摘 要:針對固體氧化物燃料電池(SOFC)燃燒室燃燒狀態識別問題,提出一種基于注意力機制與圖像特征金字塔的SOFC燃燒室燃燒狀態識別方法。該方法使用加權分布的自適應伽馬矯正算法(AGCWD)進行數據前處理,對數據進行標準化;利用兩個附加1×1卷積的全連接改進了壓縮—激勵結構,并結合空間注意力,提出了一種混合注意力結構,提升了網絡特征提取能力;為增強特征的多尺度信息交流能力,使用雙向計算和多尺度融合,提出了多尺度雙向融合金字塔。實驗表明,所提方法在參數量為3.98 M、浮點運算數(FLOPs)為397 M的前提下,識別準確率達到99.22%,能夠有效識別SOFC燃燒室燃燒狀態。
關鍵詞:固體氧化物燃料電池;卷積神經網絡;混合注意力機制;輕量級網絡;圖像特征金字塔
中圖分類號:TP391.4文獻標志碼:A
文章編號:1001-3695(2023)08-046-2531-06
doi:10.19734/j.issn.1001-3695.2022.11.0778
Combustion state recognition of SOFC combustor
Wang Yang Fu Xiaowei Li Xi
(1.a.College of Computer Science amp; Technology,b.Hubei Province Key Laboratory of Intelligent Information Processing amp; Real-time Industrial System,Wuhan University of Science amp; Technology,Wuhan 430065,China;2.School of Artificial Intelligence amp; Automation,Huazhong University of Science amp; Technology,Wuhan 430074,China)
Abstract:To solve the problem of combustion state recognition in solid oxide fuel cell (SOFC) combustor,this paper proposed a combustion state recognition method based on attention mechanism and image feature pyramid.The method adopted the adaptive gamma correction with weighting distribution (AGCWD) to standardize the input images.It combined two single full connections with 1×1 convolution to replace the squeeze and excitation structure,and proposed a hybrid attention structure combined with spatial attention structure to enhance the ability of feature extraction.To provide multi-scale information communication capability,it constructed the multi-scale bidirectional fusion pyramid by means of bidirectional computation and multi-scale fusion.The experimental results show that the proposed method reaches 99.22% accuracy under the premise of 3.98 M parameters and 397 M floating point operations (FLOPs),and effectively identifies the combustion state in SOFC combustor.
Key words:solid oxide fuel cell(SOFC);convolutional neural network;mixed attention mechanism;lightweight network;image feature pyramid
0 引言
固體氧化物燃料電池(SOFC)是第三代燃料電池的一種,具有燃料適應性強、污染低、成本低等優點。SOFC可將燃料的化學能直接轉換為電能,在加入熱電聯產系統后,其發電效率能提升至90%[1]。由于以上優點,SOFC是目前能源和材料領域的研究熱點。燃燒室是SOFC系統的重要組件。在燃燒室中,不穩定的燃燒狀態可能造成燃燒設備故障、測溫部件受損、火焰熄滅等異常情況。及時對不穩定燃燒狀態進行識別與處理,可顯著減少異常狀態的出現。因此,SOFC燃燒室燃燒狀態的識別,對系統高效穩定運行具有重要意義。
目前,針對SOFC燃燒室燃燒狀態識別的研究較少。傳統燃燒室燃燒狀態識別方法多在大型平臺上運行,以燃燒充分程度進行狀態劃分[2],復雜度較高。而小型化、移動式是SOFC的重要發展方向[3],復雜度較高的方法難以在小型SOFC平臺上做到實時處理。此外,SOFC燃燒室以燃燒的穩定性劃分燃燒狀態[4],不能直接使用傳統方法進行識別。因此,需要一個輕量級、高準確性、以燃燒穩定性劃分燃燒狀態的SOFC燃燒室燃燒狀態識別方法。
隨著深度學習的發展,研究人員提出了許多輕型分類網絡。ResNet[5]提出了殘差結構,幫助網絡緩解了梯度消失與梯度爆炸的問題,顯著提升了網絡可訓練層的數量。但是,ResNet具有較高的復雜度,對于硬件受限平臺的實時任務效果不佳。SANet[6]提出一種高效的可分離注意力模塊,采用混合單元將空間注意機制和通道注意機制有效地結合在一起,在分類任務上取得了一定的效果。但此方法沒有充分利用不同尺度圖像特征之間的信息。MobileNetV3[7]使用結構搜索技術,對網絡結構進行調整,取得了網絡準確性提升且復雜度降低的效果。但是,此方法沒有考慮相似圖像的分類情況,對圖像細節信息利用不足。CoAtNet[8]結合深度卷積和自注意力,通過垂直堆疊的方式提升了卷積層和注意力層的泛化能力。ViT將圖像以類似文本的形式進行編碼學習。但基于ViT的網絡復雜度通常較高,在任務中難以做到快速處理[9]。MobileViT[10]則結合了CNN與ViT的優點,利用CNN的局部表示和ViT的全局表示,在保持準確度的同時,降低了網絡復雜度。以上網絡雖復雜度不高,但有限的參數與結構上的不足也限制了網絡本身的性能。
1 本文方法
基于小型SOFC系統硬件性能有限、需要精準識別燃燒室燃燒狀態的實際需求,本文提出了一種基于注意力機制和圖像特征金字塔的圖像分類網絡(attention mechanism and image pyramid network,AMIPNet),結構如圖1所示。網絡包含主干網絡與多尺度雙向融合金字塔(multiscale bidirectional fusion pyramid module,MBFPM)。首先,使用傳統卷積對圖像進行編碼;其次,將編碼結果輸入由15層基于混合注意力機制的深度可分離殘差模塊(deep separable residual module based on mixed attention mechanism,DSRMA)堆疊而成的主干網絡;隨后,使用7層MBFPM提取主干網絡中特定層的圖像特征,并通過雙向計算與多尺度圖像特征融合,將多層次的信息融合并傳導至網絡高層;最終,使用傳統卷積與全連接層進行解碼并分類,獲得識別結果。對于卷積神經網絡而言,低層部分更易學到圖像的細節信息,而高層部分則對圖像的全局特征學習能力更強。因此,許多網絡通過逐層減小特征的尺寸、增大特征維度數量的方式,聚合圖像的全局特征。受ResNet的啟發,AMIPNet采用“空間尺度降低一倍,輸出通道數量增加一倍”的方式,更改網絡不同層的特征尺度與通道數量。
1.1 AGCWD
1.2 DSRMA
1.2.1 深度可分離卷積
1.2.2 DSES
1.3 MBFPM
2 實驗及結果分析
本文實驗數據來源于華中科技大學鄂州工業研究院,通過工業耐高溫CCD鏡頭采集的額定功率為1 kW的SOFC系統燃燒室燃燒圖像,相機型號為FHN-230GQ。
2.1 數據集
2.2 實驗設置及評價指標
2.3 實驗結果及分析
2.3.1 準確性及復雜度對比實驗
表3為部分圖像的識別結果,加粗表示識別有誤。如第1、2列所示,當圖像之間全局特征相差較大時,實驗網絡均能準確識別。但是,如第3、4與5、6列所示,當圖像全局特征相似度高時,實驗網絡容易誤判圖像為相近類別。這需要網絡能夠提取并學習圖像的細節信息,并將信息較完整地傳導至網絡高層。ResNet50沒有采用注意力機制,對于圖像的細節信息學習能力較弱。EfficientNetV2、MobileVetV3、CoAtNet雖采用了注意力機制,但網絡的垂直堆疊結構對細節信息的傳遞造成了損失。以上網絡雖部分采用了殘差結構以減少學習損失,但不同層的不同尺寸的特征本身就會對信息進行取舍,丟失部分信息。AMIPNet通過DSRMA模塊的混合注意力結構提取圖像的細節信息,通過MBFPM將不同層次的細節信息融合,并直接傳導至網絡高層,減少了網絡學習的損失,提升了網絡的識別能力。
2.3.2 混合注意力結構實驗
為驗證DSES的有效性,選取了幾種混合注意力結構進行對比實驗。CBAM[19]結構利用通道注意力和空間注意力,通過單獨計算特征權重圖并與輸入特征相乘,從而獲得最終特征。ECA結構提供了一種局部跨通道的信息交互方法,在避免通道數量降低的情況下,獲得了顯著的增益。SA結構則將所有通道分組為子特征,并對其并行處理。使用Shuffle單元描述空間特征和通道特征的依賴關系,并聚合所有子特征。實驗中,所有結構應用于AMIPNet,并取代DSES。在SE對比實驗中,使用SE結構與空間注意力結構串聯以替換DSES[20],其余設置均與本文設置相同。
由表4可知,相對于SE結構,改進的DSES在準確率、精準率、召回率、F1分數上分別提升了0.77 %、1.34%、0.74%、0.64%,證明了DSES對于SE改進的有效性。此外,DSES對于采用CBAM、ECA、SA的混合注意力方案,網絡的準確性也有相應的提升。兩次分離的附加1×1卷積的全連接保留了計算的中間結果,減緩了全連接所造成的損失。同時1×1卷積增強了通道表達能力,提升了網絡最終的準確性。
2.3.3 圖像金字塔結構對比實驗
為了驗證MBFPM結構的有效性,選取密集連接結構(Dense)與圖像特征金字塔結構(FPN)進行對比實驗。實驗中,分別將所對比結構應用至AMIPNet。其中,第1~13層的DSRMA使用密集連接結構進行網絡構建;FPN增加了正向計算,使其能將融合信息傳導至網絡高層。
由表5可見,MBFPM在所有指標上均取得最優值。由于Dense多次使用下采樣與通道連接操作,增大了網絡隱藏層的參數量與計算量,導致參數量和FLOPs分別比MBFPM高50.25%與127.78%,驗證了MBFPM的采樣計算對于降低網絡參數量和FLOPs的效果。FPN在參數量、FLOPs上與MBFPM相似,但在網絡準確率等指標上低于MBFPM,證明了MBFPM的多尺度融合對于提升網絡準確性的有效性。
2.3.4 融合方式對比實驗
2.3.5 前處理分析
3 結束語
針對SOFC系統燃燒室燃燒狀態識別問題,本文提出了AMIPNet。通過使用AGCWD進行數據前處理,減小了圖像亮度方差,提升了網絡準確率。在網絡構建方面,使用深度可分離卷積搭建網絡模塊,降低了網絡的參數量與復雜度;以兩次附加1×1卷積的全連接改進了SE結構,并結合空間注意力,提出了一種混合注意力結構,提升了網絡特征提取能力;采用雙向計算與多尺度圖像特征融合,依據采樣的思想,提出了多尺度雙向融合金字塔,在僅增加少量參數和時間復雜度的前提下,顯著提升了網絡的準確率。AMIPNet在參數量為3.98 M、FLOPs為397 M的前提下,實現了準確率99.22%,表明了所提方法對SOFC燃燒室燃燒狀態識別問題的有效性。目前,由于考慮的影響燃燒室燃燒狀態的外部條件較少,燃燒狀態的分類也較少。在后續的工作中,將考慮以更多的分類條件進行燃燒狀態分類,以實現更精確的燃燒狀態識別。此外,結合燃燒圖像特點,對網絡結構進行優化也是后續工作的方向之一。
參考文獻:
[1]Zhang Wei,Hu Yunhang.Recent progress in design and fabrication of SOFC cathodes for efficient catalytic oxygen reduction[J].Catalysis Today,2022,409(1):71-86.
[2]Li Tao,Peng Tao,Chen Hua.Rotary kiln combustion state recognition based on convolutional neural network[C]//Proc of the 5th Annual International Conference on Information System and Artificial Intelligence.[S.l.] :IOP Publishing,2020:012030.
[3]Singh M,Zappa D,Comini E.Solid oxide fuel cell:decade of progress,future perspectives and challenges[J].International Journal of Hydrogen Energy,2021,46(54):27643-27674.
[4]李嘉瑞.1kW功率的固體氧化物燃料電池電堆尾氣燃燒穩定性研究[D].武漢:華中科技大學,2021.(Li Jiarui.Study on combustion stability of 1 kW solid oxide fuel cell stack exhaust gas[D].Wuhan:Huazhong University of Science and Technology,2021.)
[5]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of the 29th IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:770-778.
[6]Zhang Qinglong,Yang Yubin.SA-Net:shuffle attention for deep convolutional neural networks[C]//Proc of the 46th IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2021:2235-2239.
[7]Howard A,Sandler M,Chu G,et al.Searching for MobileNetV3[C]//Proc of the 17th IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:1314-1324.
[8]Zhang Dai,Liu Hanxiao,Le Q V,et al.CoAtNet:marrying convolution and attention for all data sizes[J].Advances in Neural Information Processing Systems,2021,34(1):3965-3977.
[9]Li Yanyu,Yuan Geng,Wen Yang,et al.EfficientFormer:vision transformers at MobileNet speed[EB/OL].(2022)[2022-10-01].https://doi.org/10.48550/arXiv.2206.01191.
[10]Mehta S,Rastegari M.MobileVit:light-weight,general-purpose,and mobile-friendly vision transformer[C]//Proc of the 9th International Conference on Learning Representations.2022.
[11]Huang S C,Cheng F C,Chiu Y S.Efficient contrast enhancement using adaptive gamma correction with weighting distribution[J].IEEE Trans on Image Processing,2012,22(3):1032-1041.
[12]Wang Qilong,Wu Banggu,Zhu Pengfei,et al.ECA-Net:efficient channel attention for deep convolutional neural networks[C]//Proc of the 33rd IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:11531-11539.
[13]Hu Jie,Shen Li,Sun Gang.Squeeze-and-excitation networks[C]//Proc of the 31st IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:7132-7141.
[14]Huang Gao,Liu Zhuang,Laurens V D M,et al.Densely connected convolutional networks[C]//Proc of the 30th IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:4700-4708.
[15]Tan Mingxing,Pang Ruoming,Le Q V.EfficientDet:scalable and efficient object detection[C]//Proc of the 33rd IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10781-10790.
[16]張家波,李杰,甘海洋.結合雙流網絡和金字塔映射的步態識別[J].計算機應用研究,2022,39(6):1911-1915.(Zhang Jiabo,Li Jie,Gan Haiyang.Gait recognition combined with two-stream network and pyramid mapping[J].Application Research of Computers,2022,39(6):1911-1915.)
[17]Misra D.Mish:a self regularized non-monotonic activation function[C]//Proc of the 31st British Machine Vision Conference.2020.
[18]Tang Mingxing,Le Q V.EfficientNetV2:smaller models and faster training[C]//Proc of the 38th International Conference on Machine Learning.2021:10096-10106.
[19]Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[C]//Proc of the 15th European Conference on Computer Vision.Berlin:Springer,2018:3-19.
[20]Qin Xu,Wang Zhilin,Bai Yuanchao,et al.FFA-Net:feature fusion attention network for single image dehazing[C]//Proc of the 34th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:11908-11915.
[21]Chen Dongdong,He Mingming,Fan Qingnan,et al.Gated context aggregation network for image dehazing and deraining[C]//Proc of the 19th IEEE Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2019:1375-1383.