(1.西南科技大學 計算機科學與技術學院,四川綿陽 621010; 2.西南交通大學 CAD工程中心, 成都 610031)
摘 要:
提出一種基于多尺度語義分析的圖像識別方法,首先在多尺度空間中提取語義,然后使用支持向量機對語義進行分類,以達到識別的目的。實驗表明,該算法識別準確率高,并能適應存在方向變化、變形等復雜的識別環境。
關鍵詞:圖像識別; 語義分析; 多尺度; 支持向量機
中圖分類號:TP391 文獻標志碼:A
文章編號:1001-3695(2009)02-0799-02
Image recognition based on multi-scale semantic analysis
CHEN Li-wei 1,2, LI Chun-yan1
(1.College of Computer Science Technology, Southwest University of Science Technology, Mianyang Sichuan 621010, China; 2.CAD Engineering Center, Southwest Jiaotong University, Chengdu 610031, China)
Abstract:This paperproposoed a novel method of image recognition based on multi-scale semantic ananlysis, and extracted the new method the semantic features at first and dividing with SVM. Experimental results show that the algorithm has a high accuracy. The complicated conditions with rotations and slight distortions on also be adapted.
Key words:image recognition; semantic analysis; multi-scale; SVM
由于圖像變形、冗余信息和噪聲的影響,圖像識別很難通過數據匹配或相關性分析完成,目前絕大多數圖像識別技術均基于特征提取進行。圖像特征能體現事物的某些方面的特性,如紋理特征體現了圖像的顏色分布、輪廓特征體現圖像的外形特點,但圖像的許多語義如事物的種類、動物的姿勢等信息,卻很難用簡單的特征表示。因此,要達到更佳的圖像識別效果,必須進行圖像語義分析。
數字圖像的單一像素僅代表一個顏色值,要獲取圖像的語義必須分析像素間的關系。而由于噪聲的存在與數字化的不精確,像素間關系也是一種松散的關系,一般的數學方法無法表達這種關系,粗集和模糊集理論雖然能在一定程度上表達,卻沒有提供有效的分析方法。為方便語義分析,首先應尋求合適的圖像表達方法。圖像的語義主要由兩方面
表現,即邊緣輪廓的變化和區域內部像素值的分布。對區域內部像素值分布,Witkin[1]提出使用尺度空間濾波(scale-space filtering)進行描述,即使用高斯函數對圖像進行卷積:
I(x,y,t)=I0(x,y)*G(x,y,t)
通過取不同的尺度t,就可以得到圖像在不同范圍的分布趨勢。Perona等人[2]使用各向異性擴散方程(anisotropic diffusion equation)
It=div(c(x,y,t)T)(1)
的解替代空間濾波中的高斯函數,并通過c(x,y,t)=exp{-‖I‖}將圖像的平滑區域與邊緣輪廓相聯系,使多尺度分析方法得到進一步發展。多尺度分析可以將圖像分解到不同的尺度空間中,方便進行語義分析,但由于尺度范圍可以任意多,如何組織和利用不同層次的語義卻比較困難。
支持向量機(SVM)是Vapnik等人[3]提出的機器學習方法,由于其學習能力優越,并能有效解決維數災難的問題,在模式識別中得到廣泛應用。圖像在不同尺度空間獲得的語義特征可以提供不同層次的圖像識別依據,這些依據可能相互獨立甚至沖突,這正是SVM擅長解決的問題。圖像識別時可以首先應用多尺度分析獲得圖像的語義特征,然后再使用SVM進行分類決策。實驗表明,這種有效的圖像識別方法可以適應不同類別的語義識別,其識別率都比已知各種方法高。
1 基于多尺度的語義分析
語義是一個復雜的概念,但圖像語義的本質只能體現在顏色(I)、位置(p)和位置關系(r)三個方面,因此可以將語義(S)抽象地表示為
S=f(I,p,r)
而圖像(G)是多個語義的復合體,為將問題簡化,本文將語義限定為確定的,即f總是確定的函數(非模糊關系),再令各語義兩兩正交, fi∩fj=Φ,且有
G=∑Si=∑fi(I,p,r)(2)
另一方面,圖像又是由像素矩陣組成:
G={Ip}(3)
結合式(2)(3)可以得到:Si=fi{Ip(i)},于是有Ip=∑fi(p)-1。其中f-1i表示語義的反面,代入式(1)可知:
It(x,y,t)=∑f-1t(x,y,t)=div(c(x,y,t)I)(4)
式(4)說明在多尺度圖像中語義不會產生混淆,再由語義間的正交關系即可以提取出尺度圖像中的語義。由于在尺度較大時,圖像變化趨于平滑,在產生多尺度圖像時總是根據尺度進行萃取,這不僅加快了語義的提取速度,而且使語義在不同尺度下體現得更為充分。
2 基于SVM的圖像識別
SVM是一種基于機器學習的模式識別技術。由于圖像的模式識別問題是非線性可分的,采用解決非線性可分問題的SVM方法。非線性SVM首先采用一個非線性變換Φ將輸入映射到一個特征空間z,令非線性映射為Φ∶Rm→Rm1,設{(j)}m1j=1為輸入空間Rm到輸出空間Rm1的一組非線性交換,則該映射可由式Φ(X)=[1(X),2(X),…, m1(X)]T表示。根據Hilbert原理,只要一種運算滿足Mercer條件,則可找到一個核函數K(Xi,Xj)使得K(Xi,Xj)=ΦT(Xi)Φ(Xj)。應用高斯核函數K(x,y)=exp((x-y)2/2σ2),則決策函數為[4]
f(x)=sgn(∑mi=1αidiK(xi+x)+b)
其中αi可從求解下列問題得到
max∶Q(α)=∑mi=1αi-∑mi,j=1αiαjdidjK(xi,xj)
∑λi=1αidi=0,0≤αi≤C;i=1,2,…,λ,C為常數
可見,對非線性可分的情況,將數據映射到更高維的特征空間,由于使用了核函數,不僅無須知道非線性映射的形式,也沒有隨著特征空間維數的增加而產生維數災難,該最優超平面最大化了間距,并具有好的泛化性能。
3 圖像語義庫的建立
SVM是一種基于機器學習的分類算法,在應用它進行識別必須先提供充分的樣本對機器進行訓練。為提高識別的效率,通常事先建立樣本特征庫。圖像語義特征很多,并且在不同尺度下表現不同,令識別事物種類為m,語義數量為n,選擇尺度數量為S,則一個樣本需要保存的語義記錄為mns。可見,隨著樣本和尺度的增加,語義數量呈成數量級增長,對語義的選擇和尺度的精簡非常有必要。不同樣本、不同語義在不同尺度下的表現各不相同,為使分類結構化風險最小,采用三者均衡的策略建立樣本特征庫,具體策略如下
max∶λ(i,j,k)=[∑|S(i1,j1,k1)-S(i2,j2,k2)|]/∑ijk(5)
即使樣本庫的可分辨率達到最大,對同一樣本只選取其分辨力高的語義,對同一語義只選取其相對值較大的尺度表現。
4 實驗結果
為驗證上述算法的有效性,本文選擇在ATT劍橋實驗室(ATT Laboratories Cambridge)的ORL人臉庫(http://www.cl.cam.ac.uk/Research/DTG/att-archive/facedatabase.html)對算法進行測試。該標準人臉庫由40個人的400幅灰度圖像構成。圖像格式為PGM,分辨率是92×112。實驗中,為方便處理,首先將全部圖像轉換為BMP格式。實驗所采用的語義特征主要包括紋理、輪廓、PCA特征臉(eigface)、眼眉距離、口鼻距離、瞳孔距離、鼻長、臉形等,初始尺度集為{k|k=4N,1≤N≤10},具體比較的特征和尺度由根據式(5)設計的特征選擇器決定。在實驗中,首先對每組頭像通過多尺度圖像建立特征庫,然后對非樣本圖像進行識別。實驗所得多尺度圖像如圖1所示。
從圖1可以明顯地看出,在多尺度圖像中,尺度越大,主要輪廓越突出,而尺度越小,則圖像細節保留得越多。
對比算法包括姜文瀚等人[5]提出的小波變換(WT)+最近鄰凸包分類器(NNCH)的方法、PCA特征臉(eigface)+最小距離分類器、小波變換(WT)+最小距離分類器和小波變換(WT)+最近鄰分類器(NN)。實驗的部分結果如表1所示。
表1 人臉識別實驗結果
訓練樣本eigface+最小距離WT+最小距離eigface+最近鄰域WT+NNCH本文算法
1,2,3,4,584.0082.5094.0093.5096.50
2,3,4,5,688.0084.5095.5097.0098.00
3,4,5,6,791.0087.5096.0095.5097.00
4,5,6,7,889.5087.5094.5096.0097.50
5,6,7,8,988.0087.5094.5096.5098.50
6,7,8,9,1089.0087.0092.5094.0097.50
7,8,9,10,191.0089.0096.0098.5098.00
8,9,10,1,294.5092.0097.5098.5098.50
9,10,1,2,390.0086.0095.5098.0099.05
10,1,2,3,487.5089.5094.5096.0099.10
平均結果89.2587.3095.0596.3597.95
實驗分析:從表1的實驗結果可見,本文算法所提出的方法具有良好的識別能力。即使在更為復雜和苛刻的條件下,識別率仍明顯高于其他各方法。
5 結束語
本文多尺度圖像中提取圖像語義作為特征矢量,應用SVM方法圖像目標進行識別,識別結果表明該方法具有很好的識別效果,是一種有效的圖像目標識別方法。雖然文中只實驗了人臉識別,但本算法可以適用于任意已知事物的圖像識別問題。
參考文獻:
[1]WITKIN A P. Scale-space filtering[C]//Proc of JointConf ArtificialIntelligence, Karlaruhe. 1983:1019-1022.
[2]PERONA P, MALIK J. Scale-space and edge detection using anisotropic diffusion[J]. IEEE Trans Pattern Analysis and Machine Intelligence, 1990, 12(7): 629-639
[3]VAPNIK V. The nature of statistical learning theory[M]. New York: Springer-Verlag, 1995.
[4]CRISTIANINI N, SHAWE-TAYLOR J. An introduction to support vector machinesp[M].Cambriage: Cambridge University Press, 2000.
[5]姜文瀚,周曉飛,楊靜宇.基于小波和最近鄰凸包分類器的人臉識別[J].微計算機信息, 2008, 24(21):212-214.
[6]羅三定,胡櫻. 基于樣本分析的圖像識別分類模型[J]. 計算機應用研究,2007,24(11):309-311.
[7]周一凡,周堅華. 基于矢量圖形特征提取的遙感圖像分類器[J]. 計算機應用研究,2003,20(4):58-61.