摘要:針對傳統AdaBoost算法的不足,分析了訓練過程中出現的退化問題及樣本權重扭曲的現象,并提出了解決這一問題的有效方法。該方法對樣本權重的更新規則進行了適當的調整,即為每一輪循環設定一個權重更新閾值,根據樣本是否被錯誤分類以及當前權重是否大于該閾值來更新樣本權重,從而限制了困難樣本權重的過分增大。使用該方法訓練級聯人臉檢測器,試驗結果表明,該方法較好地解決了傳統AdaBoost算法所出現的退化問題,在保證檢測率的同時降低了誤檢率。
關鍵詞:AdaBoost;人臉檢測;權重調整;退化;級聯分類器
中圖分類號:TP391.41文獻標志碼:A
文章編號:1001-3695(2007)11-0298-03
引言
隨著人工智能技術的迅速發展,對人臉的檢測識別成為最有潛力的生物識別技術和生物驗證手段,有著巨大的應用前景[1]。近年來出現了大量的人臉檢測方法,在眾多的檢測方法中,Freund和Schapire于1995年提出的AdaBoost算法是第一個實時的人臉檢測算法,從根本上解決了檢測的速度問題,同時具有較好的識別效果。該算法是一種自適應的boosting算法[2],利用該算法可以將一組弱學習算法提升為一個強學習算法,其基本思想是當分類器對某些樣本正確分類時,則減少這些樣本的權值;當錯誤分類時,則增加這些樣本的權值,讓學習算法在后續的學習中集中對比較難的訓練樣本進行學習,最終得到一個識別準確率理想的分類器。
AdaBoost算法權重更新規則可以保證學習算法專注于處理比較困難的訓練樣本,但這同時也是一個缺點。當訓練樣本集包含噪音樣本和一些罕見的困難樣本,AdaBoost算法的重心將轉移到難分類的樣本上,即難分類的樣本(困難樣本)權重會呈指數增長。如果困難樣本具有過大的權重,弱分類算法每一次循環都對其進行重視,以試圖正確分類,將會給這些樣本分配較高的權值,最終可能導致權重分布嚴重扭曲的現象,即退化現象(overfit)[3]。隨著迭代次數的增加,曾經生成過的較準確的分類規則將會逐漸被破壞或丟失,從而降低算法性能。
如何降低分類器對困難樣本的過度重視以及被正確分類樣本上發生的忽視性偏見,是解決退化問題的關鍵。本文提出了一種改進的AdaBoost算法,根據訓練中樣本權重的分布變化,調整權重更新規則以避免困難樣本的權重過分增大。
1傳統AdaBoost算法
AdaBoost 算法[4]是一種分類器算法,是由Yoav Freund和Robert E. Schapire[4]在1995 年提出的。 其基本思想是利用大量分類能力一般的簡單分類器(weaker classifier) 通過一定方法疊加(boost)起來,構成一個分類能力很強的強分類器。 理論證明,只要每個簡單分類器分類能力比隨機猜測要好,當簡單分類器個數趨向于無窮時,強分類器的錯誤率將趨于零。
4結束語
本文提出了一種改進的Adaboost算法,該方法改進了傳統AdaBoost方法的一些不足,提出了一種新的樣本權重更新規則,有效解決了訓練過程中困難樣本權重過分增大時發生的退化現象,從而導致分類結果不準確。試驗表明,該方法在人臉檢測中提高了正確率,并有效降低了錯誤率。
參考文獻:
[1]WECHSLER H,PGUKKUOS P J,BRUCE V,et al.Face recognition from theory to applications[M].New York:Springer-Verlag,1998:124-156.
[2]SCHAPIRE R E.A brief introduction to boosting[C]//Proc of the 16th International Joint Conference of Artificial Intelligence.San Francisco: Publishers Inc,1999:1401-1406.
[3]KUTIN S,NIYOGI P.The interaction of stability and weakness in AdaBoost,TR-2001-30[R].Chicago:University of Chicago,2001.
[4]FREUND Y,SCHAPIRE R E.Experiments with a new boosting algorithm[C]//Proc of the 13th International Conference on Machine Learning.San Francisco: Morgan Kaufmann Publishers,1996:148-156.
[5]VIOLA P,JONES M. Rapid object detection using a boosted cascade of simple features[C]//Proc of IEEE Conference Computer Vision and Pattern Recognition.Cambridge:IEEE Computer Society,2001:905-910.
[6]LIENHART R,MAYDT J.An extended set of Haar-like features for rapid object detection[C]//Proc of International Conference on Image Processing.2002:900-903.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”