










摘要:由于信息技術的快速發展,紅外檢測技術和視頻監控系統得到了廣泛應用,圖像型火災探測器在火災探測中的優勢逐漸凸顯。在飛機貨艙火災探測領域,盡管基于圖像識別的火災探測技術已展現出一定潛力,但在準確性與響應速度之間的平衡仍須進一步優化。為提升飛機貨艙早期火災的識別與判斷能力,增強紅外火焰圖像目標檢測的準確性,本文提出了一種結合改進損失函數的YOLO目標檢測算法。首先對比了多種典型目標檢測算法在紅外火焰圖像檢測任務中的性能表現,進而選擇了合適的算法框架進行損失函數的改進。通過在計算損失時綜合考慮目標中心點的距離、重疊面積及長寬比等因素,設計了一種改進的損失函數,并成功將基于動態非單調聚焦機制的邊界框損失(WIoU)函數引入YOLO目標檢測網絡中,以實現檢測準確率的提升。訓練紅外火焰圖像數據集的對比試驗表明,改進后的YOLOv5算法在性能上并未取得顯著提升,而YOLOv7算法在引入改進損失函數后,其檢測精度相較于原算法提高了2.1%,平均精度值(mAP)提升了6.5%,同時每秒傳輸幀數(FPS)也增加了2.68幀。在關鍵的性能指標(如目標邊框損失、置信度損失及總損失)上,采用WIoU損失函數的YOLOv7模型優于其他模型,達到了最低損失值。因此,本文提出的基于改進損失函數的YOLOv7算法在飛機模擬貨艙紅外火焰圖像檢測識別任務中展現出了更高的準確性和更快的處理速度,為飛機貨艙火災探測提供了一種有效的技術途徑。
關鍵詞:YOLO;飛機貨艙;目標檢測;WIoU;火焰紅外圖像
中圖分類號:X928.7文獻標識碼:ADOI:10.19452/j.issn1007-5453.2024.11.014
隨著我國民航運輸總量與規模的不斷增加,民航運輸蓬勃發展,但隨之而來的是難以避免的火災風險。飛機貨艙火災是一種常見的航空事故,其主要原因是其貨艙中裝載的貨物種類繁多,其中還包括易燃物質。一旦起火,可燃物將快速蔓延,威脅到飛機上的乘客以及整架飛機的安全。長期以來,在密閉狹小空間或具有高速氣流的場合,早期火災探測在世界范圍內都是一個難題。由于圖像型火災探測技術對于火災探測具有非接觸式探測的特點,不受空間高度、熱障、易爆、有毒等環境條件的限制,使得該項技術成為火災探測的有效手段。此外,可以通過分析火災圖像的早期特征達到火災早期報警早期防護的作用,即火災發生的早期圖像觸發火警。
隨著大數據時代的到來,深度學習、人工智能等技術展現出了迅猛發展的勢頭,以深度學習為基礎的目標檢測算法憑借其優良的檢測性能逐漸成為目標檢測領域中人們的首選算法[1]。目前主流的目標檢測算法可分為兩階段(twostage)和單階段(one-stage)兩大類。兩階段檢測時,首先生成可能包含物體的候選區域(regionproposal),然后對候選區域做進一步分類和回歸預測,得到最終的檢測結果。基于區域的卷積神經網絡(R-CNN)[2]、快速基于區域的卷積神經網絡(FastR-CNN)[3]、更快速的基于區域的卷積神經網絡(FasterR-CNN)[4]、空間金字塔池化網絡(SPPnet)[5]是目前較為常用的兩階段目標檢測算法。單階段檢測是在輸入圖像上直接預測目標的位置類別以及邊框調整[6],沒有顯示地生成候選區域的步驟。單點多框檢測器(SSD)[7]、視網膜結構網絡(RetinaNet)[8]、深度學習YOLO[9]模型是目前比較具有代表性的單階段目標檢測算法。
一般情況下,采用兩階段目標檢測方法可以獲得較高的探測精度,但其探測速度很難達到火災實時探測的要求。而單階段檢測僅須通過一次特征提取就可以實現對目標的識別分類,因而可以更好地適用于火災監測的場景。王思宇等[10]選擇SwinTransformer和YOLO檢測模型作為基礎模型,提取紅外圖像中多尺度的特征信息,有效提高了模型對局部和全局信息的捕捉能力。任嘉鋒等[11]采用改進的YOLOv3網絡對火災進行了檢測和識別,對YOLOv3中的K-means聚類算法進行了改進,從而提高了對小尺度煙火的識別準確度。董鳳禹等[12]針對YOLOv7模型進行了改進,通過優化模型的網絡結構、引入更有效的特征提取方法和增強對小目標的檢測能力,提升了模型檢測精度和速度。Sangwon等[13]通過結合YOLO骨干網絡與空間-時間注意力變換機制,提出的一種無領域依賴的火災檢測方法在不同火災場景下均展現出良好的檢測性能和泛化能力。Dalal等[14]提出一種結合局部二值模式和卷積神經網絡的混合模型,并基于YOLO-v5算法,開發了一種用于智能城市環境可持續性的火災和煙霧檢測模型,在不同環境條件下均展現出高效且準確的火災和煙霧檢測能力。YOLO目標檢測算法在經過不斷的改良之后,由于其具有較高的探測準確率和較高的探測速度,得到了廣泛的應用。
本文以YOLO算法為主體模型,對其進行改進和優化,使其可以在紅外圖像信息里快速精準地檢測出火災。
1目標檢測算法
YOLO系列算法屬于一類典型的單階段目標檢測算法,它通過錨框(anchorbox)將分類和目標定位的回歸問題相結合,因此具有高效、靈活和良好的推廣性能。在YOLO算法中把物體檢測問題處理成回歸問題,用一個卷積神經網絡結構就可以從輸入圖像直接預測邊界框(boundingbox)和類別概率。YOLO系列算法是一種集高效區域提取與準確目標分類于一體,并具有較快檢測速度和高準確率,成為目標檢測領域的重要算法。YOLO算法原理示意圖如圖1所示。YOLO算法原理包括4步:(1)將輸入圖像分成S×S個網格,每個網格負責檢測其中的一個目標;(2)預測每個網格的B個邊界框,進行置信度(confidence)評估,表示該邊界框內是否包含目標。這里的置信度不僅考慮了目標是否存在,還包括目標類別的準確度等信息,預測邊界框內包含的目標的類別和位置;(3)使用非極大值抑制篩選多個邊界框,去除冗余的邊界框,只保留最具置信度的一個;(4)根據置信度和類別信息,篩選最終的目標檢測結果。
比較常見的YOLO網絡有YOLOv3、YOLOv5和YOLOv7等。其中YOLOv7是基于YOLO系列的目標檢測算法,由Ultra-Light-Fast-Detection(ULFD)和Scaled-YOLOv4兩種算法結合而成。YOLOv7與之前的版本相比,速度有所提高,但仍然保持了準確性;繼承了Scaled-YOLOv4的特點,提高了對物體檢測的準確率;使用輕量化的網絡結構,減小模型大小并提升模型運行速度;支持多尺度檢測,能夠檢測出尺寸不同的目標;在復雜環境下還能夠保持較高的檢測精度,具有一定的魯棒性。所以YOLOv7在目標跟蹤、視頻監控等方面得到了廣泛應用。
FasterR-CNN算法是對R-CNN、FastR-CNN算法的一種改進算法。主要是解決FastR-CNN中候選區域提取速度慢、耗時較長及計算量大的問題。FasterR-CNN作為一種兩階段的算法,與一階段的算法相比,兩階段的算法更加復雜且速度較慢,但是檢測精度會更高。在FasterRCNN中提出了區域生成網絡(RPN),將候選區域的提取和FastR-CNN中的目標檢測網絡融合到一起,在同一個網絡中實現目標檢測。圖2為FasterR-CNN算法步驟。Faster-RCNN網絡架構主要是由特征提取模塊、區域建議網絡(RPN)、ROIPooling層和分類回歸層4部分組成,首先使用一系列卷積層,如ZFnet[15]、VGG16[16]、Resnet50[17]等特征提取網絡對輸入的圖像進行特征提取并生成特征圖,再將特征圖傳輸到區域生成網絡生成一系列預選框,同時將生成的預選框與特征圖一起傳輸到感興趣區域池化層,目的是從一系列預選框當中選出最適合特征圖的候選框,最后將選出的候選框傳送到分類和回歸層。
2基于YOLO的飛機貨艙紅外圖像火災檢測
由于飛機貨艙火災檢測對算法的實時性和速度要求較高,本文選擇一階段算法中的YOLO進行目標檢測與識別。確定好火災識別的卷積神經網絡架構之后,可以進行火災識別訓練。基于紅外圖像火災識別流程具體為:(1)收集大量的火災圖片數據,數據增強后通過工具LabelImg進行數據標注,利用YOLO算法訓練模型,學習目標檢測和識別的技能;(2)訓練完成得到火災識別的卷積神經網絡模型與相應的權重文件;(3)導入之前預訓練好的卷積神經網絡模型和預訓練模型相應的權重文件,并設置相關的參數;(4)讀取采集到的實時紅外圖像,對紅外圖像進行目標檢測識別,判斷是否發生火災。圖3為基于YOLO的飛機貨艙紅外圖像火災檢測。
2.1試驗環境及數據
本文試驗所需的圖像采集于飛機修理廠尺寸為3m×4.16m×2m的飛機貨艙模擬實驗艙,且處于常壓環境,通過相機拍攝采集圖像以及視頻。訓練的紅外圖像數據集主要來源于現場圖片采集以及現場視頻分幀,所采集的數據包括有火焰產生和沒有火焰兩種類型的圖片。為了獲取準確的數據參數,將篩選分類后的圖像通過標注軟件LabelImg對其數據集進行人工標注。選用1462張火焰圖像作為數據集。其中,70%(1024張)為訓練集、20%(292張)為驗證集、10%(146張)為測試集。
2.2試驗結果與分析對比
本文選取上文介紹的典型的神經網絡,主要采取經典的一階段和兩階段的深度神經網絡模型進行了大量的橫向對比和縱向對比試驗,將紅外圖像數據集放到各個模型運行,再通過評價指標精確率(P)、平均精度的均值(mAP)和幀率(FPS)進行結果評估,最終選擇本文的基礎模型進行下一步改進試驗。它的計算公式如下
P=TP/TP+FP(1)
式中,TP為正確檢測出火焰的樣本數量;FP為錯誤檢測火焰的樣本數量。P為每張圖像中對火焰預測正確的概率,最大為1,最小為0,越接近1越好。
mAP用于評價網絡模型的整體檢測精度的綜合指標,其含義為數據集中所有需要檢測類別的平均精度(AP)值的平均值。mAP值計算公式為
式中,AP為某一類別的平均精度,是準確率和召回率曲線下方的面積。N為數據集中類別的總數。
FPS表示每秒檢測圖片張數,即計算檢測一張圖片的時間的倒數。計算公式為FPS=1/T,T為每張圖片檢測的時間。
所有標注后的數據集分別在FasterR-CNN、YOLOv5、YOLOv7和YOLOv8進行模型訓練進行對比分析,各個模型精確度如圖4所示。通過分析圖4數據可以看出,經過訓練輪次的增加,YOLOv5精確率從0.774提高到0.828,YOLOv7精確率從0.881提高到0.921,這證明了該模型檢測飛機模擬貨艙火焰有較高的準確性,且YOLOv7模型效果更好。相比于YOLOv5,YOLOv7采用了更深的網絡結構,如BAM等,從而在精度方面有了進一步提升,并且使用了更快的卷積操作和更小的模型,在相同的計算資源下可以達到更高的檢測速度,所以YOLOv7模型檢測效果更好。但是在本次試驗中YOLOv8的精度隨著訓練迭代次數的增加而降低,說明此次使用的YOLOv8模型在本試驗模擬貨艙紅外火焰圖像數據的檢測效果不佳。從圖4中的結果來看,選取適合數據集訓練的YOLOv7模型為本次研究的主要對象。
3損失函數的改進
邊界框損失函數(BBR)作為目標檢測中模型優化的重要組成部分,其良好的定義將會極大提升目標檢測模型性能。該損失函數是通過計算預測框和真實框之間的距離偏差來衡量預測框與真實框的差距,并使用特定的函數計算出這種差距的損失值,再通過反向傳播來調整權重參數,使預測框慢慢接近真實框。損失函數(IoU)是目標檢測中最常用的指標之一,它不僅可以用來計算真實框與預測框之間的差距,還可以用于確定正負樣本。不斷優化的IoU損失函數有多種變形,如GIoU、DIoU、CIoU、EIoU和Wise-IoU等,這些變形在不同數據集上的檢測效果有不同程度的變化。為了提升紅外火焰圖像檢測數據集模型的精度,本文通過修改定位損失函數,經試驗對比找到適合的定位損失函數。在原YOLOv5和YOLOv7模型中,目標邊界框損失函數使用的是CIoU-Loss。
Wise-IoU[18]是一種基于IoU的邊界框損失函數,與之前的IoU不同,它采用了一個動態的聚焦機制,使用離群度替代IoU評估錨框的質量,并提供了合理的梯度增益分配策略。這樣WIoU使高質量和低質量的錨框都能得到合適的訓練,從而改善檢測器的總體性能。在多種目標檢測模型上取得顯著的性能提升,尤其是在小目標和密集目標上。
基于動態非單調聚焦機制的邊界框損失(WIoUloss)定義
LWIoUv1=RWIoULIoU(3)
式中,Wg、Hg表示最小包圍框的寬和高。為了防止RWIoU產生阻礙收斂的梯度,Wg和Hg從計算圖中分離出來。因為它有效地消除了阻礙收斂的因素,所以沒有引入新的度量,如縱橫比。(1)RWIoU∈[1,e),這將顯著放大普通質量anchorbox的LIoU;(2)LIoU∈[0,1],這將顯著降低高質量anchorbox的RWIoU,并在anchorbox與目標框重合時,重點關注中心點之間的距離。
本文先將WIoU應用于YOLOv5和YOLOv7進行目標檢測,實現改進提高檢測性能。為對比改進后的檢測網絡的檢測效果。分別對YOLOv5(CIoU)、YOLOv5(WIoU)、YOLOv7(CIoU)、YOLOv7(WIoU)的4種模型在紅外火焰圖像測試集上的平均準確率mAP和其他性能指標進行了測試。
從圖5可以看出,經過訓練,不同模型都有一定的訓練精度都達到了70%以上的精度。將WIoU添加進YOLOv5和YOLOv7算法時,YOLOv5精度下降。YOLOv7的精度相較于原始模型上升了5.4%,為最優值。
從圖6和圖7可以看出,將WIoU添加進YOLOv5和YOLOv7算法時,優化后的精度和預測框的位置比原始的更準確,且識別準確率更高。YOLOv5的mAP值無明顯變化,YOLOv7的mAP提高了6.5%。圖7表示YOLOv5和YOLOv7模型中的不同損失函數的精確率-召回率(P-R)曲線,從圖7中可以看出模型的訓練效果較好,各類缺陷的P-R曲線基本在圖中的右上方,mAP分別達到72.1%、75.8%、76.8%和76.0%。
通過文獻[19]的調研,YOLOv7中的邊界框損失函數是基于IoULoss。因此,本文還使用了其他不同的邊界框損失函數進行對比,其中包括GIoU、DIoU、EIoU和SIoU等損失函數。改進后各模型在達到最高精度時所對應的損失值見表1。在目標邊框損失(Box_loss)、置信度損失(Objectness_loss)及總損失(total)這三項重要衡量標準上,采用WIoU損失函數的YOLOv7模型相較于其他模型展現出了顯著的優勢,表現最佳,為最小值。損失函數僅是評估模型性能的一個方面,為了更全面地評估模型性能,接下來將深入分析模型的精確率、mAP以及FPS等關鍵指標,這些指標將提供模型在改進過程中的綜合表現。
GIoU、DIoU、EIoU和SIoU等模型的精準度、mAP和FPS見表2。根據表2中的試驗結果,SIoU損失相較于其他IoU損失,對精度的提升效果最好,WIoU在精度上也提升了2.1%。其中,WIoU損失與其他損失相比,mAP提高了6.5%,提升最高,表明模型的改進取得了良好的效果。與其他損失相比,SIoU損失在mAP上的結果最差,僅為68.7%。EIoU在模型中的檢測速度最快,WIoU比原模型的CIoU高2.68,WIoU可以滿足飛機貨艙紅外圖像火焰檢測中達到實時性的要求且其精度更高。因此,改進后的WIoU能有效提升模型的檢測。
4結論
為了能夠進一步提升飛機貨艙火災紅外圖像檢測的性能,本文對YOLOv5、YOLOv7算法進行了改進。在對一階段算法YOLO系列和二階段算法FasterR-CNN的深入對比研究中,發現YOLO系列算法在實時性方面表現更為出色,而FasterR-CNN在準確度上略有優勢但犧牲了實時性。因此,為了滿足飛機貨艙火災紅外圖像檢測的實時性和準確性需求,選擇了YOLO系列算法作為基礎。引入了WIoU作為損失函數,并成功將其應用于YOLOv5和YOLOv7算法中。WIoU不僅考慮了預測框與真實框之間的重疊面積,還綜合考慮了中心點距離和長寬比兩個關鍵因素,從而顯著提升了模型在邊界框預測上的準確性。
(1)精準度提升。通過采用WIoU損失函數對YOLOv7算法進行優化后,其在飛機貨艙火災紅外圖像檢測任務中的精準度相較于原始算法提升了2.1%。這一提升在火災檢測領域具有顯著的實際應用價值,能夠更準確地識別出火災發生的位置和范圍。
(2)mAP提高。試驗結果顯示,優化后的YOLOv7算法在mAP上提高了6.5%。這意味著模型在識別火災相關目標時具有更高的準確性和魯棒性。
(3)FPS提升。在實時性方面,與原YOLOv7算法相比,優化后的算法在FPS(每秒幀數)上提高了2.68。這一提升使得模型在處理連續火災紅外圖像時具有更快的處理速度和更低的延遲,從而滿足了實時檢測的需求。綜合以上試驗結果,可以得出結論:通過采用WIoU損失函數對YOLOv7算法進行優化后,模型在精準度、mAP和FPS等方面均取得了顯著提升。優化后的模型不僅滿足了火焰圖像檢測的準確度需求,還具備較高的實時性,使得其在實際應用中具有更廣泛的適用性和更高的可靠性。
參考文獻
[1]宋忠浩,谷雨,陳旭,等.基于加權策略的高分辨率遙感圖像目標檢測[J].計算機工程與應用,2021,57(13):199-206.
SongZhonghao,GuYu,ChenXu,etal.Highresolutionremotesensingimagetargetdetectionbasedonweightingstrategy[J].ComputerEngineeringandApplication,2021,57(13):199-206.(inChinese)
[2]GirshickR,DonahueJ,DarrellT,etal.Richfeaturehierarchiesforaccurateobjectdetectionandsemanticsegmentation[C].IEEEConferenceonComputerVisionandPatternRecognition,2014:580-587.
[3]GirshickR.FastR-CNN[C].IEEEInternationalConferenceonComputerVision,2015:1440-1448.
[4]RenShaoqing,HeKaiming,GirshickR,etal.FasterR-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2015,39(6):1137-1149.
[5]HeKaiming,ZhangXiangyu,RenShaoqing,etal.Spatialpyramidpoolingindeepconvolutionalnetworksforvisualrecognition[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2015,37(9):1904-1916.
[6]楊濤,戴軍,吳鐘建,等.基于深度學習的紅外艦船目標識別[J].紅外技術,2020,42(5):426-433.
YangTao,DaiJun,WuZhongjian,etal.Infraredshiptargetrecognitionbasedondeeplearning[J].InfraredTechnology,2020,42(5):426-433.(inChinese)
[7]LiuW,AnguelovD,ErhanD,etal.SSD:singleshotmultiboxdetector[C].EuropeanConferenceonComputerVision,2016:21-37.
[8]AleL,ZhangNing,LiLongzhuang.RoaddamagedetectionusingRetinaNet[C].2018IEEEInternationalConferenceonBigData(BigData).IEEE,2018:5197-5200.
[9]RedmonJ,DivvalaS,GirshickR,etal.Youonlylookonce:unified,real-timeobjectdetection[C].IEEEConferenceonComputerVisionamp;PatternRecognition,2016:779-788.
[10]王思宇,盧瑞濤,黃攀,等.基于SwinTransformer和注意力機制的紅外無人機檢測算法[J].航空科學技術,2024,35(2):39-46.
WangSiyu,LuRuitao,HuangPan,etal.InfraredUAVdetectionalgorithmbasedonswintransformerandattentionmechanism[J].AeronauticalScienceamp;Technology,2024,35(2):39-46.(inChinese)
[11]任嘉鋒,熊衛華,吳之昊,等.基于改進YOLOv3的火災檢測與識別[J].計算機系統應用,2019,28(12):171-176.
RenJiafeng,XiongWeihua,WuZhihao,etal.FiredetectionandrecognitionbasedonimprovedYOLOv3[J].ComputerSystemApplication,2019,28(12):171-176.(inChinese)
[12]董鳳禹,魏振忠.面向空中小目標檢測任務的YOLOv7改進模型[J].航空科學技術,2023,34(12):111-117.
DongFengyu,WeiZhenzhong.AnimprovedYOLOv7modelforaerialsmalltargetdetectiontask[J].AeronauticalScienceamp;Technology,2023,34(12):111-117.(inChinese)
[13]KimS,JangI,KoBC.Domain-freefiredetectionusingthespatialtemporalattentiontransformoftheYOLObackbone[J].PatternAnalysisandApplications,2024,27(2):45.
[14]DalalS,LilhoreUK,RadulescuM,etal.AhybridLBP-CNNwithYOLO-v5-basedfireandsmokedetectionmodelinvariousenvironmentalconditionsforenvironmentalsustainabilityinsmartcity[J].EnvironmentalScienceandPollutionResearch,2024(2):1-18.
[15]ZeilerMD,FergusR.Visualizingandunderstandingconvolutionalnetworks[C].ComputerVisionECCV2014,2014:818-833.
[16]SimonyanK,ZissermanA.Verydeepconvolutionalnetworksforlarge-scaleimagerecognition[J].ArxivPreprintArxiv:1409.1556,2014.117
[17]AkibaT,SuzukiS,FukudaK.Extremelylargeminibatchsgd:trainingresnet-50onimagenetin15minutes[J].ArxivPreprintArxiv:1711.04325,2017.
[18]TongZanjia,ChenYuhang,XuZewei,etal.Wise-IoU:boundingboxregressionlosswithdynamicfocusingmechanism[J].ArxivPreprintArxiv:2301.10051,2023.
[19]ZhengZhaohui,WangPing,RenDongwei,etal.Enhancinggeometricfactorsinmodellearningandinferenceforobjectdetectionandinstancesegmentation[J].IEEETransactionsonCybernetics,2021,52(8):8574-8586.
基金項目:國家自然科學基金(U2033206);航空科學基金(20200046117001);四川省重點實驗室項目(MZ2022JB01)