胡全 王霓虹 邱兆文
摘要針對森林火場采用了新的顏色特征提取方法,融合圖像的顏色和紋理特征作為圖像的特征向量,并用支持向量機作為學習工具,充分利用已有森林火場的數據進行學習,提高森林火場的自動識別的準確率。結果表明,新的顏色特征提取方法適用于森林火場的識別,采用支持向量機融合多特征可成功用于森林火場的自動識別。
關鍵詞森林火場;特征提取;特征融合;支持向量機
中圖分類號S762;TP391文獻標識碼A文章編號0517-6611(2014)12-03688-02
基金項目“十二五”農村領域國家科技計劃項目(2012AA102003-2);國家公益性行業專項(201104037)。
作者簡介胡全(1979-),男,助理研究員,從事多媒體信息檢索和模式識別研究。*通訊作者,教授,博士生導師,從事模式識別和數字林業等研究。
森林火災是一種破壞性極大的自然災害,它對生態環境的影響極為惡劣,造成的損失巨大,因此,它越來越受到世界各國政府的重視。森林火災中,初期火是較為容易撲滅的,且造成的損失較小,因此對于火場的實時監控并快速地發現火情、識別火場就成為研究的重點之一[1]。為此,筆者采用新的顏色特征提取方法,融合圖像的顏色和紋理特征作為圖像的特征向量,以支持向量機對大小興安嶺已發生火災的圖像進行學習,從而實現對森林火場的識別。
1 森林火場圖像的多特征提取和融合
顏色是圖像的一個顯著的物理特征,顏色特征相對于幾何形狀特征而言,對平移、旋轉、縮放等變換具有不變性,易于計算且表現出相當強的魯棒性。顏色直方圖表征了圖像色彩頻率分布,但丟失了色彩的空間信息,而紋理特征可很好地描述色彩的空間信息。針對森林火場產生的顏色和煙霧,選取了森林火場的顏色特征和紋理特征進行融合[2]。
1.1顏色特征的提取在HSV空間中,H從0°到360°變化時,色調依次呈現為紅、橙、黃、綠、青、藍、紫,而且每一種色調對應的H分量的區域不均勻。根據森林火場火焰和煙霧的顏色分布和視覺對顏色的心理感覺,將H分量分為不等間隔的7份。當V足夠小(V<0.15)時,視覺感知的顏色基本上接近黑色,可以忽略H的影響,僅需一個量化值就可以表示。當S足夠小(S<0.1)時,視覺感知的顏色基本上接近灰度圖像,可以忽略H的影響,僅需4個量化值就可以表示。將H、S、V 3個分量進行非均勻量化,把色調H分成7份,飽和度S分成2份,亮度V分成1份,并根據色彩的不同范圍進行量化,量化后的色調、飽和度和亮度值分別為H、S、V,見式(1)。
1.2 紋理特征的提取在對森林火場煙霧進行紋理特征提取時,利用灰度共生矩陣法來提取紋理特征[3]。選取表示紋理特征的4個統計量:對比度(contrast)、 紋理的一致性(uniformity)、像素對灰度的相關性(correlation) 和熵2支持向量機的建立
2.1最優分類面及核函數的構建選擇SVM作為學習機器[5],SVM是統計學習理論中最年輕的部分,在解決小樣本、非線性及高維模式識別問題中表現出很多特有的優勢。SVM是從線性可分情況下的最優分類面發展而來的,其基本思想是通過在原始空間或投影后的高維空間中構造最優分類面,進行兩類分類[6]。
對于給定的兩類可分性訓練樣本集合(xi,yi)1≤i≤l,其中xi∈Rn,yi∈{-1,+1}。yi是向量xi的類別標簽。要找一個分類規則I(x),使它能對未知類別的新樣本作盡可能正確的劃分。
在訓練集線性可分情形時,SVM就是要構造一個最優超平面(w,x)+b=0,這個超平面既要滿足yi(w·xi+b)-1≥0,(i=1,K…,l),同時還要使函數φ(w)=12‖w‖2=12(w∶w)取得最小值。
通過求解最優化問題可得最優超平面∑svyia*i(x·xi)+b*=0,其中SV表示支持向量,ai*是拉格朗日乘子。
在訓練集線性不可分時,引進松弛因子ξi≥0及懲罰參數C。這時需要做的是在約束yi(w·xi+b)≥1-ξi(i=1,…,l)下最小化函數φ(ξ)=12‖w‖2+C∑li=1ξi。類似可得最優超平面, 最優分類函數只要取I(x)=sgn{∑svyia*i(x·xi)+b*}即可。
在低維空間中向量集往往難于劃分,通過映射將向量集映射到高維空間,使其可分,但隨之會帶來“維數災難”問題。SVM通過引入核函數巧妙地解決了這個問題。注意到上面的最優分類函數中只涉及樣本特征向量的點積,就可以用核函數K(x,y) 代替原來的點積(x,y)。若函數K(x,y)滿足Mercer條件,則K(x,y)=(x)·(y),其中表示某個映射(未必知其具體表達式)常用的核函數,有多項式核函數K(x,y)=[(x·y)+s]d、徑向基函數K(x,y)=exp(-σ‖x-y‖2)、Sigmoid函數K(x,y)=tanh[k(x·y)-μ]等等。適當選取一個核函數后,就可得到對應高維空間的最優分類函數f(x)=sgn{∑ni=1a*iyiK(xi,x)+b*}[6]。
2.2建立基于支持向量機的分類器為每一類圖像建立一個分類器,圖像的組合特征(36維)作為支持向量機的輸入向量,對圖像類進行學習,選取了地表火、樹冠火、地下火等50個圖像類,共計12 000幅圖像。試驗數據全部選自伊春林管局火災圖像庫。對每類圖像,每次從12 000幅圖像中先隨機抽取50個正例、450個反例,形成一個500幅圖像的小規模的樣本訓練集進行訓練得到一個初始的分類器,從12 000幅圖像中先隨機抽取150個正例、1 850個反例,形成一個2 000幅圖像的大規模的樣本訓練集。用初始的分類器對大規模訓練集進行修剪,修剪后得到一個規模很小的約減集,再用這個約減集進行訓練得到最終的分類器。
2.3火場圖像語義標注①對目標圖像I進行預處理,提取目標圖像的顏色、紋理和形狀共36維特征,構成圖像的特征向量V;②將特征向量V提交給分類器樹T;③按廣度優先策略遍歷分類器樹T中的每一個節點,若當前節點對應的分類器返回的值為1,則將當前節點對應的分類器的語義信息賦給待分類圖像I,并實現圖像語義的自動標注,停止對分類器樹T 的遍歷;若當前節點對應的分類器返回的值為0,繼續按廣度優先策略遍歷分類器樹T。④若分類器樹T中的所有節點對應的分類器返回的值全部為0,則圖像的語義自動標注失敗,將這樣的圖像統一歸類,等待人工處理。
3實例分析
3.1圖像選取試驗中的圖像均選自伊春林管局火災圖像庫。
試驗1選取地表火、樹冠火、地下火等50個圖像類。從每類圖像中抽取200幅正例,以8∶7的比例分配給訓練集和測試集。不同類別的圖像互相作為反例加入訓練集中。訓練集的反例還包括1 000幅除此50類圖像以外的其他類圖像。測試集一共5 000幅,其中除了50類待分類圖像外,還包括其他類圖像。試驗中,核函數選取高斯核,其中σ=2,懲罰參數C=500。將只采用顏色特征分類和融合多特征分類進行了對比試驗。
試驗2中,采用已建好的分類器,從初期火焰、地表小煙霧、地表大煙霧、樹冠火和中期火焰等5個圖像類中各隨機抽取50幅圖像進行測試,進行圖像語義自動標注試驗。
3.2試驗環境 在服務器HP ProLiant DL380p Gen8上,采用Visual C++.NET 語言,SQL Server 2008為數據庫,Windows 2008 Server為平臺完成了一個圖像檢索系統,來實現森林火場圖像語義的自動標注。
3.3結果與分析 試驗1中,采用顏色特征設計的分類器進行森林火場圖像語義自動標注的平均正確率為69.3%,融合顏色和紋理特征設計的分類器進行森林火場圖像語義自動標注的平均正確率為73.8%,融合多特征較采用單一特征設計的分類器分類的正確率提高了4.5%。
試驗2中,采用融合多特征和基于支持向量機構造的分類器進行森林火場圖像語義的自動標注,平均正確率為69.4%。
4 結論
基于HSV空間的18色非均勻量化算法,特征維數少,計算量小,檢索效果較好;融合多特征可彌補單一特征的不足,提高森林火場識別的準確率;采用支持向量機作為學習機器融合圖像多特征實現森林火場圖像語義的標注是可行的,采用此方法可以較為快速地實現對森林火場的識別。
參考文獻
[1] 吳雪瓊,覃先林.我國林火監測體系現狀分析[J].森林防火,2010(3):69-72.
[2] MA Y D,LIU L.Pulsecoupled neural networks and oneclass support vector machines[J].Image and Vision Computing,2010,28:1524-1529.