李 海,孫 鵬
(1.中國民用航空飛行學院民航安全工程學院,四川 德陽 618307;2.中國民用航空飛行學院民機火災科學與安全工程四川省重點實驗室,四川 德陽 618307;3.中國刑事警察學院公安信息技術與情報學院,遼寧 沈陽 110035)
火災事故作為常見的事故之一,對人們的生命安全和財產安全具有嚴重的威脅。據原應急管理部消防救援局發布的2020年全國火災情況顯示,2020年全年全國消防救援隊共接報25.2 萬起火災事件,死亡1 183人,受傷775 人,直接財產損失40.09 億元[1]。如何有效識別火災是火災事故預防關注的重要問題之一,由于視頻圖像具有高度真實性、易傳輸、易保存、抗干擾能力強等優勢,火災圖像識別逐漸成為火災預防領域的研究熱點之一。
截至目前,國內外學者在火災圖像識別方面已進行大量研究,并取得重要突破。文獻[2]針對復雜圖像中火災區域的檢測問題,提出1 種改進的密集連接的卷積網絡(DenseNet)深度神經網絡架構;文獻[3]針對火災圖像識別特征問題,提出1 種基于火焰尖角特征的火災圖像識別算法;文獻[4]針對火災圖像識別特征問題,提出1 種基于張量對象特征提取的多線性主成分分析(MPCA) 深度學習算法;文獻[5]基于大規模火災圖像數據集,以及地面實況復雜度圖像是根據人類檢測火災存在或不存在所需的時間來量化的圖片,提出4 種基于火災探測特性的圖像復雜度度量和1 個基于圖像復雜度評估圖像火災檢測算法性能的新方法;文獻[6]提出基于參數優化的隨機子空間-支持向量機(RS-SVM)分類器模型彌補過擬合和確定局部極值的不足,具有良好的可靠性和穩定性,提高火災預報的準確性;文獻[7]針對森林火災圖像識別中遇到的漏檢和誤檢等問題,提出1 種基于K-Means聚類下樣本熵值判別算法;文獻[8]針對人為選擇支持向量機(SVM)參數具有盲目性以及參數對其分類能力影響較大的特點,提出基于改進果蠅優化算法-支持向量機(FOA-SVM)的火災圖像識別模型;文獻[9]針對火災圖像識別特征問題,基于迭代算法-支持向量機(Adaboost-SVM)集成算法提出1種新的基于Gabor濾波和局部二值模式(LBP)的多尺度局部紋理特征提取方法;文獻[10]針對礦井下傳統火災識別方法準確率較低的問題,提出1 種基于改進FOASVM火災圖像識別融合算法;文獻[11]為以更少的參數提取更高級別的特征,提出1 種用于深度偽造檢測的輕量級三維卷積神經網絡(3D CNN)模型;文獻[12]提出1 個火控的耦合卷積神經網絡模型(FC-MSPCNN),并提供1 個在有效脈沖周期內控制放電和放電神經元的參數設置方法;文獻[13]提出1 種使用卷積神經網絡的語義火災圖像分割方法;文獻[14]基于機器視覺的火災/煙霧檢測方法進行完整的調查和分析;文獻[15-16]針對火災火焰識別算法復雜和對環境要求高的特點提出基于圖像特征的火災火焰識別方法,針對傳統火災探測中靈敏度不高、響應慢的問題,提出1 種基于特征融合的圖像型火災探測方法。
上述研究在各個方面均取得較好的效果,但也存在一些不足,具體表現如下:1)火災圖像識別過程中使用淺層深層特征、火焰形狀特征的尖角特征、張量對象特征、支持向量機等,而并未使用直接表征火災信息的顏色特征;2)模型訓練過程中圖像樣本量較少;3)基于紋理特征的分類與回歸樹(CART)進行火災圖像的識別樣本量少,同時紋理特征表征火災圖像的效果低于顏色特征;4)基于卷積神經網絡對火災圖像庫進行訓練的模型識別精度較高,但是隨著樣本數據量的增多,運算負荷急劇增加。
綜上所述,為研究適合火災圖像識別的最優顏色特征組合以及后續基于圖像多維特征融合提高火災圖像識別準確率,本文基于火災圖像顏色特征融合CART決策樹進行火災圖像方法的識別研究,研究結果對提高火災圖像識別準確率具有現實意義。
本文基于常見的3 種色彩模式(Lab、RGB、HSV),利用偏色因子[17]及偏色因子間方差var[18-21]來表征常規場景與火災場景下圖像顏色特征。偏色因子及其方差var計算過程(以RGB色彩模式為例)如式(1)~(8)所示:
式中:r,g,b為分別為RGB色彩模式的紅、綠、藍分量信息;dr,dg,db是RGB色彩模式下圖像各通道信息平均值;M,N為圖像的像素維數;mr,mg,mb為RGB圖像各個分量信息偏色平均值;kr,kg,kb為3 個分量偏色因子;var為偏色因子方差。
決策樹(decision tree)是1 類常見的有監督機器學習預測模型,是對象屬性與對象值之間的映射關系。常見的決策樹算法有ID3 算法、C4.5 算法、CART算法,其中C4.5 算法繼承ID3 算法的優點,其計算過程中基于信息增益率來選擇屬性,而CART算法主要使用基尼指數(Gini index)來選擇劃分屬性。CART決策樹具體算法流程如圖1所示。對于決策樹算法,最關鍵是如何選擇最優劃分屬性,而CART決策樹使用基尼指數,其克服ID3 算法與C4.5 算法分別用信息增益和信息增益率選擇屬性時偏向選擇取值多的屬性的不足。
圖1 CART決策樹算法流程Fig.1 Algorithm process of CART decision tree
1.2.1 信息增益
信息熵(information entropy)是決策樹算法計算過程中度量樣本集合純度的1 種指標。設對于任意的集合D,第k類樣本所占的比例為pk(k=1,2,…,),則集合D的信息熵Ent(D)計算過程如式(9)所示:
信息熵Ent(D)的值越小,表示集合D的純度越高。
考慮到樣本數越多的分支結點的影響越大,計算用屬性a 對樣本集D進行劃分所獲得的信息增益(information gain),其計算過程如式(10)所示。設a 有V個可能值{a1,a2,…,av},若使用a 對樣本進行劃分,則會產生V個分支點,其中第v個分支點包含集合中所有在屬性a 上取值為Dv的樣本,根據式(9)計算出Dv的信息熵,再考慮到不同的分支結點所包含的樣本數不同,給分支結點賦予權重
對于信息增益Gain(D,a)而言,其值越大,則表示屬性a 來對分類劃分的純度提升越大。
1.2.2 信息增益率
信息增益率是為了減少信息增益準則對可取值數目較大的屬性有所偏好的不利影響,從而來選擇最優的劃分屬性。增益率Gain_ratio(D,a)的定義如式(11)所示:
1.2.3 基尼指數
基尼指數的計算過程如式(12)所示:
式中:Gini(D)表示從數據集中隨機抽取2 個樣本,其類別標記不一致的概率,Gini(D)越小,則數據集的純度越高。
屬性a 的基尼指數計算過程如式(13)所示:
因此,選擇基尼指數最小的屬性作為最優劃分屬性,即a*=,A表示a 的集合。
一次優化特征是指在Lab、RGB、HSV3 種色彩模式下,分別進行特征的隨機組合,第1 次尋找最優組合特征。二次優化特征是指針對Lab、RGB、HSV 3 種色彩模式下優化的一次優化特征,基于混合疊加原理組成的新組合特征。本文方法的具體過程如圖2所示。
圖2 方法流程Fig.2 Flow chart of method
步驟1:收集火災圖像與非火災圖像樣本集。
步驟2:基于Lab、RGB、HSV3 種色彩模式提取火災與非火災樣本庫顏色特征數據,即Ka、Kb1、Var1;Kr、Kg、Kb2、Var2;Kh、Ks、Kv、Var3。
步驟3:首先在Lab、RGB、HSV色彩模式下分別基于粗略決策樹、中等決策樹、精細決策樹尋找一次優化特征,然后基于混合疊加原理組合為二次優化組合特征。
步驟4:基于步驟3 尋找的最優組合特征以及樣本圖像進行CART決策樹模型的訓練,并進行驗證準確度與測試準確度計算。
步驟5:依據步驟4 的測試準確度數據判斷其大小是否滿足火災圖像識別精度要求,如果不滿足要求,調整分裂數數量,優化CART參數或更換訓練樣本集,直至找到測試準確度最高的CART決策樹模型。
為了驗證本文方法的有效性,使用自建數據庫進行實驗,自建數據庫圖像源于Canon EOS80D相機拍攝的模擬真火場景以及網上森林火災圖像。圖像庫總計7 775張,其中火災圖像3 777 張,非火災圖像3 998 張,并按3 :1 的比例隨機分為訓練集和測試集。火災圖像包括基于紅色背景、綠色背景、藍色背景在晴天自然光、陰天自然光、暗箱無光3 種光照條件下所拍攝的火災場景,各400 張,共計1 600 張,以及400 張源于互聯網的森林火災圖像中隨機抽取的177 張圖像,總計3 777 張;非火災圖像包括基于紅色背景、綠色背景、藍色背景在晴天自然光、陰天自然光、暗箱無光3 種光照條件下所拍攝的常規場景,各400 張,共計1 600 張,以及隨機拍攝的日出、日落、校園外景、教學樓內室等398 張非火災場景圖像,總計3 998 張。
2.2.1 Lab 色彩模式下優化組合特征
為研究各種組合特征預測火災圖像的的優劣性,采用數理統計方法對3 個特征進行排列組合,總計7 組表1為Lab 色彩模式下顏色特征指標編碼及3 種決策樹精度大小分布,Lab 色彩模式下顏色特征組合預測火災圖像精度大小分布如圖3所示。結合表1和圖3可以看出,Lab 色彩模式下“Kb1 +Var1” (6號特征)特征組合預測精度最高。
圖3 Lab色彩模式下火災圖像識別精度大小Fig.3 Accuracy of fire image recognition in Lab color mode
表1 Lab色彩模式下特征編號及決策樹精度大小分布Table 1 Feature number and size distribution of decision tree accuracy in Lab color mode
2.2.2 RGB色彩模式下優化組合特征
為了研究各種組合特征預測火災圖像的優劣性,采用數理統計方法對4 個特征進行組合,總計15 組(M=。表2為RGB色彩模式下顏色特征指標編碼及3種決策樹精度大小分布,RGB色彩模式下顏色特征組合預測火災圖像精度大小分布如圖4所示。結合表2和圖4可以看出,RGB色彩模式下“Kg+Kb2 +Var2”特征(14 號特征)組合預測精度最好。
圖4 RGB色彩模式下火災圖像識別精度大小Fig.4 Accuracy of fire image recognition in RGB color mode
表2 RGB色彩模式下特征編號及決策樹精度大小分布Table 2 Feature number and size distribution of decision tree accuracy in RGB color mode
2.2.3 HSV色彩模式下優化組合特征
為了研究各種組合特征預測火災圖像的優劣性,采用數理統計方法對4 個特征進行組合,總計15 組(M=。表3為HSV色彩模式下顏色特征指標編碼及3種決策樹精度大小分布,HSV色彩模式下顏色特征組合預測火災圖像精度大小分布如圖5所示。結合表3和圖5可以看出,HSV色彩模式下“Kh +Ks+Kv” (11 號特征)特征組合預測精度最好。
圖5 HSV色彩模式下火災圖像識別精度大小Fig.5 Accuracy of fire image recognition in HSV color mode
表3 HSV色彩模式下特征編號及決策樹精度大小分布Table 3 Feature numbers and size distribution of decision tree accuracy in HSV color mode
綜上所述,本文選用Lab、RGB、HSV3 種色彩模式下的優化特征構建決策樹,特征組合為“Kb1 +Var1 +Kg+Kb2 +Var2 +Kh +Ks+Kv”。
針對上文數據集和最優特征組合,應用CART決策樹方法提取決策樹。表4為不同類型樹與CART決策樹準確度對比結果,由表4可知,對于驗證準確度而言,子空間KNN集成樹驗證準確度最高,可達90.92%,其次為CART決策樹,驗證準確度達90.54%,其他決策樹和集成樹驗證準確度均低于子空間KNN 集成樹與CART決策樹;對于測試準確度而言,CART決策樹準確度最高,可達84.50%,而其他決策樹和集成樹測試準確度均低于CART決策樹。表5為CART決策樹不同交叉折數下火災圖像識別準確度對比結果,由表6可以看出,9 折交叉驗證測試準確度最高,可達86.47%,交叉驗證折數越高,驗證準確度也呈現螺旋式增長態勢,但是測試準確度不會隨交叉驗證折數的增長而增長。
表4 不同類型樹與CART決策樹識別準確度對比Table 4 Comparison of recognition accuracy between different types of trees and CART decision tree
表5 CART決策樹在不同交叉折數下識別精度對比Table 5 Comparison of recognition accuracy of CART decision tree under different cross fold numbers
1)3 種色彩模式下的顏色特征對于火災圖像識別表征效果較好,在Lab 色彩模式下最優顏色特征組合為“Kb1 +Var1”,其驗證準確度為74.5%;在RGB色彩模式下最優顏色特征組合為“Kg+Kb2 +Var2”,其驗證準確度為78.8%;在HSV色彩模式下最優顏色特征組合為“Kh +Ks+Kv”,其驗證準確度為83.9%。
2)不同類型決策樹和集成樹對于火災圖像識別的驗證準確度與測試準確度差異較大,子空間KNN集成樹對火災圖像識別的驗證準確度最高,但其測試準確度較低;而CART決策樹對于火災圖像識別的驗證準確度次之,同時CART決策樹對于火災圖像的測試準確度最高,這反映出子空間KNN集成樹訓練模型存在過擬合現象,泛化能力較弱,其原因是驗證準確度與測試準確度相差較大。
3)除子空間KNN集成樹外,與其他決策樹模型相比,CART決策樹的驗證準確度與測試準確度均最高,同時驗證準確度與測試準確度之差也明顯最小,這也表明CART決策樹模型的泛化能力較好。
4)考慮顏色特征最優組合的CART決策樹火災圖像識別方法為火災圖像多維特征融合識別提供基礎,其重在考慮顏色特征對于火災圖像識別的貢獻度。火災圖像的特征還包括紋理特征、多邊形特征等,這些特征對于火災圖像識別均具有一定的貢獻度,在后續的研究中還要從紋理特征、多邊形特征、多特征融合等角度出發,基于機器學習等方法進行火災圖像識別方法的研究,從識別精度及效率等方面優化火災圖像識別效能,為火災事故預防提供方法基礎。