創新者:王子豪 關 瑜 唐婉冰 李 琛
基于支持向量機的人耳識別研究
創新者:王子豪 關 瑜 唐婉冰 李 琛
本文著重研究了基于支持向量機方法對人耳特征識別正確率的影響。通過局部二值模式(LBP)和主成分分析法(PCA)兩種不同的特征提取算法分別結合SVM分類器進行識別,研究更優的特征提取和分類方法的結合方式。為了進行充分的比較并說明算法的有效性,同樣以LBP和PCA分別結合歐氏距離分類器進行識別作為比較,進一步驗證了基于支持向量機(SVM)進行識別的有效性。實驗結果表明,在同等條件下訓練集占比越大,所得識別率越高。對于訓練集個數較多的圖像庫來說,通過PCA和SVM結合的方法可以得到更高識別率。
隨著科學技術的發展,信息安全和公共安全等社會安全問題在當今社會的重要性日益加強,生物特征識別技術已逐步深入人們的工作和生活中。近年來,人們在尋找更方便、準確、魯棒的身份識別方式,發現人耳識別在遠距離、非打擾式的環境下具有許多優點:人耳特征相對穩定,不受表情、年齡、化妝等因素的影響;人耳數據可以從視頻或照片中獲取,易實現遠距離、非打擾式的識別;人耳與指紋、人臉、手背血管、虹膜等生物特征類似,不僅具有唯一性和相對穩定性等特點,并且圖像的獲取具有非接觸性,易獲取性,無傷害性,操作簡單等特點。人耳識別的研究和發展對完善社會安全識別系統,增加識別的高效性與準確性具有重要意義。
在模式識別中,特征提取是分類的前提,具有決定性作用,人耳識別中常用的人耳特征提取方法有主成分分析(PCA)、局部二值模式(LBP)、獨立成分分析(ICA)等。當前主要的分類識別方法有支持向量機(SVM)分類識別,歐式距離(ED)分類識別,神經網絡分類器(ANN)識別等。考慮到SVM分類器在處理小樣本問題和泛化能力強等方面的優勢,本文研究了基于SVM分類器的人耳識別,經過充分的實驗證明,該方法可以得到更高的人耳識別率。
基于主成分分析(PCA)的特征提取方法思想來源于Kahunen-Loeve變換,即把人耳圖像作為一個整體處理,通過線性變換提取主元,獲得其正交的n維KL基底,以對應前m(m<n)個最大的特征值的基底構成的子空間為特征向量,識別時將測試的人耳圖像投影到此空間,得到一組投影系數,用于表達人耳。在提取全局特征方面有很好的效果。步驟如下:
(2)計算圖像的協方差矩陣:
其中A為差值耳矩陣:
(4)將訓練樣本投影到特征向量構成的子空間上,可得M個投影向量,這M個投影向量即構成實驗樣本的PCA特征。
局部二值模式(LBP)是通過比較圖像中每個像素與其領域內的像素灰度值的大小,然后利用二進制模式來描述圖像的紋理。LBP理論對目標灰度變化不敏感且計算迅速簡單、分類能力強,在提取局部紋理細節方面有顯著優勢。
LBP算子的基本思想是將中心像素點的灰度值設為閾值,其圓形鄰域內的像素點與之作比較得到二進制碼用來表述局部紋理特點。LBP算子通常由參數(P,R)來表示,其中P表示鄰域內包含的像素個數,R表示鄰域半徑。對于不同的(P,R)值對LBP算子也不相同。
歐氏距離(Euclidian Distance):也稱為泛數,是一個常用的距離定義,可表示為在K維空間中兩個點之間的真實距離。也常被用于度量向量間的距離:
圖1 三種不同的LBP算子
圖2 最優分類面
歐氏距離分類器是一種簡單的基于向量空間模型的分類算法,其基本思想是利用試驗訓練集生成一個可表示該類別的中心向量Uf(f=1,2,...,n;n是類別數),對于每個待分類的元素組X ,計算其與的距離根據計算的距離,把X歸入到與之距離最近的類。
采用歐氏距離分類器由于不用計算屬性的方差和協方差,使得其分類速度較快,分類時間較短。
支持向量機(SVM)是近年來Vapnik等人基于統計學習理論基礎提出的一種結構風險最小化的統計學習方法。具有良好的泛化能力和直觀的幾何解釋,通常用來進行模式識別、分類以及回歸分析。
如圖2所示,矩形點和圓形點代表兩類樣本。H為分類線,Y1,Y2分別為過各類中離分界線最近的樣本點且平行于分類線的直線,它們的間距稱作分類間隔。其上距離分類線最近的訓練樣本點也就是所謂的支持向量。支持向量機的目標是要找的一個最優的分割超平面,此超平面能最大程度地把兩類訓練樣本正確分開,同時使分類間隔盡可能地大。
可設最優分割超平面為
利用拉格朗日乘子法可轉化其為對偶問題并得到上述的最優分類函數:
對線性可分問題來說,核函數就是點積運算。而對于非線性問題來說,只要一種核函數滿足Mercer條件,它就對應某一變換空間的內積。與線性可分問題相比,求解時只需用代替向量內積即可。此時,最優分類函數也變為:
上述即為支持向量機算法。
支持向量機為了解決多類問題,通常有兩種策略:一種是一對多的分類方法,另一種是一對一的分類方法。對于一對多的分類方法來說,把某類樣本與其他所有類看成不同的兩類來劃分,這樣對N類問題需要訓練N個支持向量機,對于一對一的分類,則把N類樣本分別兩兩組合作為兩類問題進行分類,即需訓練(N-1)*N/2個支持向量機。
第一次訓練階段,選擇每個個體(共79人)的第一張圖片作為訓練集,余下三張為測試集,經特征提取后送入SVM網絡進行訓練得到79個兩分類支持向量機;測試時使用每個個體剩余的三個樣本作為測試樣本進行選取識別,分別用79個支持向量機進行判斷。
第二次訓練階段選擇每個個體的前兩張圖片作為訓練集,余下兩張為測試集,重復上述操作并記錄所得結果。
第三次訓練階段選擇每個個體的三張圖片作為訓練集,剩余一張為測試集進行測試,并重復上述操作,記錄結果。
實驗流程圖如圖3。
本文采用北京科技大學USTB人耳圖像庫(3)作為實驗對象,包含有79個人的395張人耳側面圖像,圖像采集顯示分辨率為768*576,正側面光照恒定。為了進行充分的比較并說明算法的有效性,本文在實驗設計時,分別以三種不同的比例構造了對應的三組測試集和訓練集。在特征提取部分,采用了LBP和PCA兩種算法,分別結合SVM分類器進行識別。為了說明SVM方法的有效性,同樣以LBP和PCA分別結合歐氏距離分類器進行識別作為比較。
下面分別給出對于三組測試集和訓練集,四種識別思路的識別效果,如圖4所示。
圖4為訓練集與測試集之比為1:3時,四種不同結合方法所得識別率柱形圖,本次實驗的人耳庫為USTB79人人耳庫,在識別過程中使用每個人的第一張人耳圖像作為訓練集,第二、三、四張作為測試集。
圖5為訓練集與測試集之比為2:2時,四種不同結合方法所得識別率柱形圖,本次實驗的人耳庫為USTB79人人耳庫,在識別過程中使用每個人的第一、二張人耳圖像作為訓練集,第三、四張作為測試集。
圖6為訓練集與測試集之比為3:1時,四種不同結合方法所得識別率柱形圖,本次實驗的人耳庫為USTB79人人耳庫,在識別過程中使用每個人的第一、二、三張人耳圖像作為訓練集,第四張作為測試集。
圖3 實驗流程
圖4 訓練集:測試集=1:3
圖5 訓練集:測試集=2:2
圖6 訓練集:測試集=3:1
圖7 不同識別算法相應識別率
由圖4、圖5、圖6可得出各種算法識別結果的差別。無論以何種比例構造測試集和訓練集,本文研究的支持向量機(SVM)識別算法結合主成分分析(PCA)法得到的識別率始終高于基于局部二值模式(LBP)算法所得,而兩種特征提取算法分別結合歐氏距離(ED)識別方法得到的識別率均低于采用SVM算法所得,進一步驗證了基于支持向量機識別的有效性。同時我們發現,訓練集所占比例越大,得到的識別率越高,最高可達到95.5%。可見在實際運用中,對于圖像測試集較少的人耳庫來說,通過PCA和SVM結合的方法可以得到更高識別率。
本文著重研究了基于支持向量機的人耳識別。在特征提取部分,采用了LBP和PCA兩種算法,分別結合SVM分類器進行識別,研究更優的特征提取和分類方法的結合方式。為了進行充分的比較并說明算法的有效性,同樣以LBP和PCA分別結合歐氏距離分類器進行識別作為比較;此外,本文還以三種不同的比例構造了對應的三組測試集和訓練集,用以驗證對于不同的特征提取和識別方法,測試集和訓練集圖像個數對算法的具體影響。
實驗結果表明,不同測試集和訓練集之比會對同一算法所得出的識別結果產生較大影響,訓練集的比例越大,所得識別率越高。在同等條件下,采用PCA與SVM 相結合的方法得到的識別率要高于LBP與SVM結合方法所得。而通過采用歐氏距離算法對實驗進一步比較驗證可以得出,當訓練集在特征空間沒有良好聚類時,支持向量機算法分類性能較好,穩定性較高。尤其是對于訓練集個數較多的圖像庫來說,通過PCA和SVM結合的方法可以得到更高識別率。
10.3969/j.issn.1001-8972.2015.24.039