楊緒兵,葛彥齊,張福全,范習健,姚宏亮
基于矩陣模式的林火圖像半監督學習算法
楊緒兵1,葛彥齊1,張福全1,范習健1,姚宏亮2
(1. 南京林業大學信息科學技術學院,江蘇 南京 210037;2. 合肥工業大學計算機與信息學院,合肥 安徽 230601)
森林火災圖像識別是森林防火監測系統的核心。目前的主要研究多在圖像的向量模式表示上展開。由于向量模式的樣本數由圖像分辨率決定,易導致模型訓練的負擔過重。樣本類別標記的準確性,直接影響后續的模型訓練和目標識別。而目前的類別標定工作多采用手工或圖像預處理方法完成,任務繁瑣且容易出錯。此外,由于像素位置在圖像向量化過程中被調整,不可避免地會損失圖像原有的結構信息。鑒于此,提出了基于矩陣分塊的半監督學習算法Semi-MHKS,優勢在于:①矩陣分塊形式的樣本數遠低于向量模式,可有效縮短訓練和識別時間;②只需標記分塊類別,更有利于準確標定樣本類別;③采用雙線性判別函數,設計了針對林火問題的半監督學習算法;④證明了算法的收斂性。與支持向量機(SVM)、MHKS和半監督的LapMatLSSVM方法相比,在林火圖像和視頻上的實驗驗證了Semi-MHKS的具有較高的識別率和較低的訓練時間。
林火識別;向量模式;矩陣模式;雙線性函數;半監督學習
森林火災位列森林3大自然災害(火災、病害和蟲害)之首,其對森林資源、森林生態系統造成的破壞是毀滅性的。為保護人類生存環境和生命財產安全,世界各國均投入巨資、人力用于研制森林火災預警系統,其中視頻監控系統是其重要組成部分[1]。根據不同的視頻采集設備,目前的監測系統主要有衛星監測、紅外圖像監測、可見光視頻監測等,其中可見光系統具有圖像清晰、分辨率高、監測距離遠、成本低等特點,且與人眼視覺系統基本一致[1-2]等特點,因而可見光監控系統更為常見。
現階段的監控系統仍停留在“監”的階段,“控”尚處于起步階段,且多以人工方式完成。一個重要原因是缺乏針對性的識別算法。以林火識別問題為例,現有系統存在著識別時間長、識別能力差等問題,難以滿足林區防火的實時性要求。研究成果多集中在圖像的顏色空間展開,如Marbach等根據YUV圖像的亮度閃爍來劃分疑似火災區域[3-4];梁青[5]詳細研究了5種顏色空間(RGB、HSV、HLS、HIS和CMYK)對林火圖像分割的效果,得出CMKY顏色模型更有利于提取顏色特征的結論;亦也有學者建議直接根據視頻圖像的閾值范圍來判斷是否存在火焰[6-7]。傅天駒等[4, 8-9]則采用深度神經網絡識別林火,并建議將夜晚和白天的林火圖像分開訓練,采用不同的網絡參數,更有助于提高林火識別率。上述研究均是基于圖像的向量模式開展研究。由于圖像在向量化過程中,破壞并丟棄了圖像空間的結構信息,包括可能蘊含其中的判別信息。此外,這種基于圖像像素的向量模式產生的樣本集,其大小呈平方級數增長,給后續的模型訓練和求解增加負擔。如一幅1024×768的灰度圖像,其對應的向量表示的樣本容量為786 432。如此規模的學習任務,將會使諸多性能優越的機器學習算法失效(訓練時間過長或訓練不充分),實時性更是無法滿足。
以兩分類問題為例,林火圖像的類別標定通用做法有純手工標定和半手工標定。純手工標定是指直接觀察圖像,分別將圖像中火焰像素和無火像素對應的向量模式進行類別標記;半手工標定是指借助圖像預處理辦法,如圖像分割,先將圖像切分為“火焰區域”和“無火區域”,再按區域內的像素對向量模式進行標記類別。前者完全由人力決定,由于肉眼難以細微到像素水平,該方法費時費力且易出錯。后者雖有所改進,但針對森林火災圖像而言,受光照條件、覆蓋物遮擋、氣候條件等影響,分割出來的火焰區域甚至是不連通、不連續的,也很難準確標記[10-11]。針對以上問題,本文提出了一種半監督的矩陣模式分類方法(semi-supervised matrix-pattern Ho-Koshyap algorithm with squared approximation, Semi-MHKS),具備以下優點:①直接采用分塊矩陣設計分類器,有利于保留圖像的結構信息;②模型訓練僅需要少量的標記樣本,較之標記像素的工作更為輕松和準確,可顯著減少因像素標記不準確而造成的監督信息錯誤;③圖像分塊的樣本數可大幅度下降,有利于減輕分類器的訓練負擔;④采用雙線性判別函數進行分類,導出的問題是一個嚴格凸優化問題,算法的收斂性有理論保證。
采用矩陣形式表示樣本,早期版本是針對人臉識別問題的特征提取和識別任務[12-13]。現已應用在圖像紋理描述、分類器設計和并行計算等方面[14-18]。就矩陣模式的分類方法而言,其主要思想歸功于MHKS。后繼的針對矩陣模式的全監督型方法較多,且可與其他方法結合,提出了多視圖學習(multi-view learning)、全局學習和局部學習的矩陣模式分類器等[19-21]。但文獻中鮮見Semi-MHKS原因為:①矩陣模式學習方法較新,其基礎理論尚待進一步完善,且未能引起學界重視;②應用領域有待擴展,目前主要集中在容易標定類別的人臉識別問題上。開辟一個新的應用領域,需要大量的前期準備工作,如背景知識儲備、數據采集與清洗、樣本標簽等,如LapMatLSSVM (Laplacian matrix-based least square SVM)[22]。以下簡單回顧雙線性判別函數、全監督的MHKS和半監督LapMatLSSVM的矩陣模式學習方法。


其中,1=;2=;為合適大小的單位矩陣。式(2)中第一項用于度量模型的經驗風險,且通過引入松弛變量r(≥0)來解決少量矩陣模式錯分問題。式(2)中第二項采用類似于SVM的間隔思想,用以度量模型的復雜性。正則化因子,用于平衡經驗風險和模型復雜度。求解詳見文獻[18]。
結合矩陣學習和LSSVM,并通過拉普拉斯懲罰引入樣本的鄰域信息,PEI等[21]提出了半監督學習方法LapMatLSSVM,即

設訓練集包含有標和無標樣本,不妨設前個是有標樣本,記為={1,···,},R×,為對應的類標;后個為無標記的,記為,={+1,···,+q},+=。
對于半監督學習而言,由于獲得樣本的類別標記代價昂貴,故有<,應給予格外重視;同時盡可能利用大量的無標樣本信息以期提高分類器的分類性能。觀察式(3),若將LapMatLSSVM的約束矩陣分解為兩分塊:=[×,×(l–)],前一分塊對角元素為樣本標記,后者為零矩陣,按分塊矩陣乘法展開該約束,易知該約束中僅保留了有標樣本信息。故其無標記樣本信息只有通過拉普拉斯懲罰項完成,拉普拉斯圖中鄰接矩陣(圖中邊的權值)通過計算各分塊之間的相似度來定義的,相似度越高則權值越小。對林火圖像而言,事實并非如此。如圖1所示,直覺上同一類別的圖像分塊仍可能有較低的相似度,如天空區域和未著火的地表區域,樹和雜草的著火區域等。由前期圖像分割工作可知,天空背景與火焰極易被分割到相同區域。
為此,借鑒MHKS設計思想,重新考慮設計基于矩陣分塊的半監督算法,以適應林火圖像問題。

(a) 原圖 (b) 圖像分塊
如圖1(b)所示,圖像分塊之間彼此互不重合。考慮到標記樣本少和盡可能重視這些有監督信息,借鑒基于小樣本理論SVM的設計思想,采用軟間隔形式,定義如下優化問題

模型(4)的左右權和,可通過交替迭代方式完成求解。無論固定誰,式(4)對于另一個向量來說,都是一個嚴格的凸二次規劃問題,以定理1描述之。
定理1.模型(4)是一個嚴格凸二次規劃問題。
簡證:對優化變量或,目標函數均為二次函數,且其Hessian矩陣均為單位陣,故目標函數是嚴格凸的,線性約束構成的可行域為凸集,故模型(4)是一個嚴格凸二次規劃問題。





將偏導數所得方程代入式(6)整理,得




其中,為學習率;()為第次迭代的右權向量。
以上求解過程,用算法1總結如下,設置最大迭代次數MaxIter。
算法1. Semi-MHKS算法
輸出:左右權向量和。
步驟1.隨機初始化(0),計算,1。
步驟2.更新矩陣(),()。=[1,···,,+1,···,+q],=v;=T+1/2。
算法1中的收斂性問題,用定理2描述并給出證明。由于的更新是通過梯度下降法完成,根據優化理論可知,該方法是收斂的。
定理2. 優化問題(4)中的是收斂的,且存在唯一解。
證明:問題(4)中的采用梯度下降法進行更新,故收斂。由前文知,和相互依賴,且滿足=,迭代形式記為(t)=(t)。
對于待分類的圖像分塊,形如前文的= {+1,···,+q},為避免決策時間過慢,期望能夠實現如向量模式的批量決策,由文獻[18]可知,樣本的決策函數記為



按圖1(b)方式將RGB圖像分為“有火”和“無火”2個類別,分別標記為“1”和“–1”。實驗在對應的灰度圖像上完成,根據分類結果將各“火焰”分塊按原分塊的順序重新組裝成RGB圖像,以便于觀察可視化效果。因SVM只能訓練向量模式的樣本,實驗中將各分塊作了向量化處理,其他3種方法均直接采用矩陣模式訓練。如圖2所示,第一列是林火圖像的原圖(圖2(a)),對圖像分塊并標定類別后,按7∶3劃分訓練集和測試集。為避免訓練時SVM產生奇異性問題,分塊時盡可能保證訓練樣本數大于樣本維數,該問題可通過調整分塊大小實現。LapMatLSSVM和Semi-MHKS利用了剩下的無標記樣本進行訓練。模型訓練完成后,為使結果在可視化具有圖像的整體印象,用全部分塊進行測試,將判別為“有火”按分塊的原次序重新組裝成圖像并顯示,結果如圖2(b)~(e)所示。

圖2 4種方法的林火圖像識別效果圖
圖2的實驗結果表明:向量模式的SVM視覺效果最差,出現了2種類型(“有火”判為“無火”,和“無火”判為“有火”)的判別錯誤。基于矩陣模式的分類方法,由于無需向量化,各分塊的圖像結構信息能夠保留下來,且該信息顯然對判別十分有利,故后3種方法的可視化效果圖上,基本上能夠見到圖像的火焰區域全貌。同時,相對于Semi-MHKS,全監督的MHKS和半監督的LapMatLSSVM的誤報警率較高(“無火”分塊被判為“有火”)。由于LapMatLSSVM能夠適當利用無標樣本信息,第2和第3幅圖像上,取得了較MHKS更好的分類結果(圖2(e)和圖2(d))。第4幅圖像,“有火”分塊數量明顯少于“無火”分塊。實驗中暫未考慮樣本不平衡分類問題,取“有火”分塊數量相當的“無火”分塊作為負類樣本,以避免不平衡分類問題。此時訓練集與測試集比例未按7∶3比例劃分,而直接將全部“有火”樣本加入訓練集中。即便如此,在實驗效果上,SVM,MHKS和LapMatLSSVM均存在將較多背景或煙霧的“無火”分塊判為“有火”,誤報警率較高。而Semi-MHKS由于從模型設計之初,在利用無標樣本信息方面,避免了如LapMatLSSVM的拉普拉斯矩陣的近鄰方法,達到減小背景分塊的差異性對分類方法的影響。同時,由于矩陣模式分類方法目前無法使用類似于核函數的非線性化方法,為比較公平起見,實驗過程中,SVM的實驗結果也是在線性核作用下完成的,未考慮其他類型的核函數及核參選擇問題。此外,MHKS是基于回歸模型導出的,而LapMatLSSVM是基于SVM的近似版本LSSVM導出的,單純從優化的可行域上來看,不等式約束的可行域顯然是包含等式約束的,即此方法的可行域更加寬廣。圖2的實驗結果表明,Semi-MHKS較之其他3種方法具有更高的識別率和低報警率。
視頻數據來自意大利薩萊諾大學Mivia研究組,公開發布的未處理數據集共有31段視頻,包括多種場景下的火焰和煙霧視頻。實驗中選取與森林火災內容相關fire4.avi作為實驗對象。該視頻采集頻率為每秒15幀,計240幀圖像。每幀圖像的分辨率為256×400,采用24位的RGB模式。為突出幀與幀之間的差別,將從視頻中每隔1 s取1幀圖像,共取16張圖像用于訓練和識別,按時間序分別記錄為Frame1~16,圖像分塊大小取16×20,僅對Frame1的圖像分塊進行類別標記。全監督的SVM和MHKS由第一幀的圖像分塊訓練,而訓練半監督方法LapMatLSSVM和Semi-MHKS時,采用Frame1~3進行訓練,其中Frame2和Frame3作為無標樣本使用。由于訓練向量模式的SVM需要考慮奇異性問題,而避免奇異性問題就必須增加訓練樣本數,以至于需要選擇較小的矩陣分塊,增加了樣本標定工作量。由于圖像較多,樣本標定工作無法人工完成,需由文獻[3]的圖像分割方法完成。SVM的訓練樣本由RGB圖像的三通道像素組成。Frame1中共有102 400個樣本,隨機選擇10%進行訓練,剩余用于測試,重復5次取平均結果。Frame2~16均作為測試數據,統計該幀的圖像分塊,判別為“有火”或“無火”分塊與原圖對應分塊標簽的一致的百分比,實驗結果見表1和表2。實驗在Inter Core i7CPU 2.2 GHz,RAM 8 G機器上完成,運行環境windows7系統Matlab 2015b。訓練時間采用matlab的CPUtime函數計時。

表1 Frame1上的訓練時間和測試精度

表2 視頻Fire4.avi的余下15楨的測試精度(%)
(注:同一幀圖像上,識別率最高者標記為粗體)
由表1可知,即使在10%的樣本集上訓練SVM,其訓練速度比矩陣分塊方法慢近千倍。造成SVM的測試精度只有73.5%的可能原因有2個:①模型訓練不充分,但若再加大訓練集,則需要更長的訓練時間,而且對于高分辨率圖像來說,采用這種向量模式的分類方法,基本上是不可行的;②由于像素級的樣本的類別標記,采用半手工的圖像分割方法完成,存在樣本被錯誤標記風險,從而影響了模型訓練。而對于矩陣分塊方法,分塊樣本更容易獲得正確標記。從直覺理解上,采用分塊標記更符合人類直覺,且分塊后每楨只有320個樣本,訓練時間亦可大大減少。對半監督的LapMatLSSVM和Semi-MHKS而言,在訓練過程中雖說均需要交替迭代完成左右權向量求解,但由于前者多一個計算拉普拉斯正則項時間,故LapMatLSSVM的訓練時間較Semi-MHKS長。測試精度上,由于半監督方法將Frame2和Frame3的無標樣本用于輔助訓練,二者的測試精度應該高于MHKS,但由于LapMatLSSVM采用相似度刻畫拉普拉斯項,同類中差異性較大的分塊導致的較低相似度,反而會影響測試精度。盡管Semi_MHKS在迭代過程需要求解二次規劃,但由于樣本數少,計算二次規劃的時間與求解另2種方法的線性方程差異不大,且算法收斂速度很快。
由于視頻幀Frame1-Frame16中均有火焰,但火焰區域與無火區域面積相差較大,Frame1中標記為“有火”的分塊共34個,其他286個分塊均是“無火”,存在訓練樣本不平衡問題。3種方法雖然均可通過批量方式實現樣本分類,但由于SVM需對每幀近10萬樣本進行分類,內存無法存儲10萬階的核矩陣,本實驗中共分10次批量完成。半監督的LapMatLSSVM和Semi-MHKS較之MHKS方法,僅需多計算一個無標樣本矩陣,二者測試時間相當,但較之SVM存在明顯優勢,故表2中只報告4種方法測試精度。
本實驗驗證了半監督學習機制,較之全監督方法,模型的分類能力有所提高。且通過矩陣分塊的方法,能夠解決高分辨率的圖像識別問題。但SVM是通過引入核方法來提高模型的分類能力,而Semi-MHKS,乃至矩陣學習模式,如何采用類似機制來提高分類性能,仍有待進一步的研究。
就林火識別問題,本文提出了一種基于矩陣分塊的半監督學習方法。該方法與傳統的向量模式相比,具有標記樣本更為方便、分類器訓練速度更快等特點。所導出的問題可通過凸優化方法求解,算法收斂性有理論保證。矩陣分塊的大小、監督信息的多少均會影響分類器性能,本文的實驗結果多數是通過可視化方法評價實驗結果,下一步目標之一是如何構造更好的評價指標。其次,Semi-MHKS采用的分塊是不重疊的,如果采用類似字典學習的重疊分塊情況如何?此外,即使是對RGB圖像,文中的訓練和識別均是針對灰度圖像進行的,設若將各通道的顏色信息融入到分類器設計中,性能如何?這些工作都將留待進一步的研究。
[1] 舒立福. 權威解讀森林消防國家行業標準《森林防火視頻監控系統技術規范》[EB/OL]. [2019-03-09]. (2016-06-03). http://www.forestry.gov.cn/main/72/content- 877501.html.
[2] 劉凱, 魏艷秀, 許京港, 等. 基于計算機視覺的森林火災識別算法設計[J]. 森林工程, 2018, 34(4): 89-95.
[3] 楊緒兵, 覃欣怡, 張福全. 基于樣條的林火圖像多閾值分割算法[J]. 計算機應用, 2017, 37(11): 3157-3161, 3167.
[4] 傅天駒. 基于深度學習的林火圖像識別算法及實現[D]. 北京: 北京林業大學, 2016.
[5] 梁青. 基于圖像處理的森林火災監測技術研究[D]. 南昌: 華東交通大學, 2012.
[6] YU C, MEI Z, ZHANG X. A real-time video fire flame and smoke detection algorithm [J]. Procedia Engineering, 2013, 62: 891-898.
[7] MEMANE S E, KULKARNI V S. A review on flame and smoke detection techniques in videos [J]. International Journal of Advanced Research in Electrical Electronics and Instrumentation Engineering, 2015, 4(2): 855-859.
[8] 陳斌鋒. 林火自動識別報警系統研建[J]. 森林防火, 2015(2): 41-44.
[9] 周忠. 基于時空特征的林火視頻煙霧識別[D]. 南京: 南京林業大學, 2015.
[10] 胡江策, 盧朝陽, 李靜, 等. 采用超像素標注匹配的交通場景幾何分割方法[J]. 西安交通大學學報, 2018, 52(8): 74-79, 145.
[11] 於敏. 基于區域分割的圖像標注的研究[D]. 無錫: 江南大學, 2016.
[12] YANG J, ZHANG D, FRANGI A, et al. Two-dimensional PCA: A new approach to appearance- based face representation and recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), 2004, 26(1): 131-137.
[13] CHEN S, ZHU Y, ZHANG D, et al. Feature extraction approaches based on matrix pattern: MatPCA and MatFLDA [J]. Pattern Recognition Letters, 2005, 26(8): 1157-1167.
[14] LORIS N, SHERYL B, ALESSANDRA L. Texture descriptors for representing feature vectors [J]. Expert Systems with Applications, 2019, 122: 163-172.
[15] WANG Z, ZHU Z. Matrix-pattern-oriented classifier with boundary projection discrimination [J]. Knowledge- Based Systems, 2018, 149: 1-17.
[16] LI D, ZHU Y J, WANG Z, et al. Regularized matrix-pattern-oriented classification machine with universum [J]. Neural Processing Letters, 2017, 45(3): 1077-1098.
[17] SONG H, CHEN G, WEI H, et al. The improved (2D) 2 PCA algorithm and its parallel implementation based on image block [J]. Microprocessors and Microsystems, 2016, 47: 170-177.
[18] CHEN S C, WANG Z, TIAN Y J. Matrix-pattern- oriented Ho-Kashyap classifier with regularization learning [J]. Pattern Recognition, 2007, 40(5): 1533-1543.
[19] ZHU C, WANG Z, GAO D, et.al. Double-fold localized multiple matrixized learning machine [J]. Information Sciences, 2015, 295: 196-220.
[20] ZHU C. Double-fold localized multiple matrix learning machine with Universum [J]. Pattern Analysis and Applications, 2017, 20(4): 1091-1118.
[21] PEI H, WANG K, ZHONG P. Semi-supervised matrixized least squares support vector machine [J]. Applied Soft Computing, 2017, 61: 72-87.
[22] Mivia Research group. Fire detection dataset [EB/OL]. [2019-03-09]. University of Saleno, Italy, 2018-04-30, https://mivia.unisa.it/datasets/video-analysis-datasets/fire-detection-dataset/.
Semi-Supervised Algorithm for Forest Fire Recognition Based on Matrix Pattern
YANG Xu-bing1, GE Yan-qi1, ZHANG Fu-quan1, FAN Xi-jian1, YAO Hong-liang2
(1. College of Information Science and Technology, Nanjing Forestry University, Nanjing Jiangsu 210037, China; 2. School of Computer Science and Information Engineering, Hefei University of Technology, Hefei Anhui 230601, China)
Forest fire image recognition/detection plays a vital role in forest fire monitoring system. Due to its own characteristics and difficulties of forest fire image, the existing studies mainly focus on the vector-pattern-oriented fire image, where each vector-pattern sample corresponds to an image pixel one by one. Since the number of vector-pattern samples is strongly determined by the resolution of the given image, it is time-consuming for training classifier to deal with numerous vector-pattern samples, especially for higher-quality images. How to label samples is another big challenge in the task of image target recognition. However, at present, this labeling work is done manually or semi-manually (for instance, the method of image preprocessing). It is clear that the accuracy of labels directly affects subsequent steps including classifier training and object recognition. Furthermore, owing to the rearrangement of adjacency relationship between pixels, vector-pattern samples, which are generated from image pixel-by-pixel vectorization, unavoidably lost the original image structural information. In this paper, we proposed a matrix-pattern semi-supervised algorithm for forest fire image recognition, named Semi-MHKS (semi-supervised matrix-pattern Ho-Koshyap algorithm with squared approximation). Its advantages lie in 4 aspects: ①Instead of vector-pattern, it adopts sub-matrix-pattern samples to train classifier. In doing so, it is more likely to meet real-time requirements because of smaller size of training set. ②It is easier to label the training samples in the manner of sub-matrix-pattern than that of vector pattern. Moreover, it is also effective for decreasing the error rate in manual-labeling. ③Adopting so-called bi-linear discriminant function, we design a semi-supervised learning algorithm (Semi-MHKS) for forest fire images, which only needs several labeled samples. It is also suitable for classifying the a batch of unknown matrix-pattern samples. ④The algorithm leads to a strictly convex optimization problem, which can be solved by quadratic programming and gradient descend method. It is mathematically proved that Semi-MHKS is convergent in the stage of alternating iteration, with fixed left or right weight vectors of the bi-linear function. Compared to state-of-the-art methods, including vector-pattern support vector machine (SVM), matrix-pattern MHKS, and matrix-pattern semi-supervised LapMatLSSVM (Laplacian matrix-based least square SVM), the experiments on forest fire images verify that our proposed algorithm has higher fire image recognition rate and less training time.
forest fire recognition; vector-pattern; matrix-pattern; bilinear function; semi-supervised learning
TP 391
10.11996/JG.j.2095-302X.2019050835
A
2095-302X(2019)05-0835-08
2019-06-13;
2019-08-20
江蘇省自然科學基金項目(BK20161527,BK20171543);國家自然科學基金項目(31670554,61871444)
楊緒兵(1973-),男,安徽六安人,副教授,博士,碩士生導師。主要研究方向為模式識別、神經計算、圖像處理等。E-mail:xbyang@njfu.edu.cn
張福全(1977-),男,甘肅玉門人,副教授,博士,碩士生導師。主要研究方向為林業物聯網、圖像處理等。E-mail:zfq@njfu.edu.cn