李思潼 馮彥婕 杜帥 朱從亮 東北林業大學
近幾年,人機交互技術的應用越來越廣泛,唇語識別作為人機交互中的關鍵技術,也越發受到關注。谷歌DeepMind實驗室提出了一種新的唇語識別技術LipNet。目前唇語識別技術主要是針對語音識別在噪聲較大環境下的識別率問題,作為對語音識別的補充和糾正。
關于唇語識別研究的熱點主要在嘴唇特征提取以及唇動特征跟蹤上,但如何從靜態圖片或動態視頻流中檢測出人臉和嘴唇區域并將嘴唇提取出來,對之后的嘴唇特征提取有著至關重要的影響。文獻提出了使用RGB色彩空間對嘴唇區域進行提取,利用唇色與膚色在G、B分量上的差異對嘴唇進行提取。本文使用開源的計算機視覺庫(OpenCv)中預先訓練好的Harr Cascada分類器對人臉區域和嘴唇區域進行檢測,之后對分割出來的嘴唇區域利用色彩空間進行嘴唇提取。
Paul Viola提出了一種快速的人臉檢測算法,該算法是一種基于Haar-like特征和AdaBoost自適應增強算法的人臉檢測算法,OpenCv中給出了該算法的實現。
Haar特征首先由Papageorgiou提出,用于對物體和人臉的快速檢測,之后Rainer Lienhart在文獻對其進行了補充,形成了Haar-like矩形特征庫。本文所使用的OpenCv中的Harr Cascad分類器便是基于此特征庫編寫的。
由于使用Haar特征進行檢測的特征數目過大,往往使用積分圖的方式對矩形特征值進行計算。積分圖的計算方法如下:在圖像中取矩形D,其四個角的位置按順時針方向分別標記為1、2、3、4,則其像素和可以根據如下公式計算:
AdaBoost算法是一個迭代過程,其思想是將分類效果較差的弱分類器組合起來,形成效果較好的強分類器。在過程中,AdaBoost算法不斷提高被錯誤分類的樣本的權值,使之在后面的訓練中所占的比重更大,更新權值公式為
其中,Zm是規范化因子,am是基本分類器的系數
每一個Haar-like特征值便可視作一個弱分類器,通過AdaBoost算法后便可形成檢測能力較強的強分類器,多個強分類器通過級聯的方式組合起來,就形成了本文所使用的Harr Cascad分類器,如圖1所示。
圖1 級聯分類器
根據Haar-like特征和AdaBoost算法可以對人臉和嘴唇區域進行檢測,并將檢測到的嘴唇區域分割出來,這樣可以去除膚色和周圍環境對嘴唇提取的干擾,從而可以使用基于色彩空間的方式將嘴唇提取出來。
OpenCv中已經提供了訓練好的Harr Cascad分類器,在haarcascades文件目錄下。本文使用haarcascade_frontalface_default.xml和haarcascade_mcs_mouth.xml分別檢測靜態圖片中的人臉和嘴唇區域,之后對檢測出的嘴唇區域進行嘴唇提取。
對于輸入的人臉圖像,處理后的效果如圖2所示。
圖2 嘴唇提取的效果圖
可知,該方法可以較為準確且完整地檢測出人臉和嘴唇區域,并有效地提取出嘴唇。
本文提出了一種利用Haar-like特征和AdaBoost算法對人臉和嘴唇區域進行檢測及分割,并使用 色彩空間對分割出的嘴唇區域進行嘴唇提取的方法。經證明,該方法具有快速、準確的特性,提取出的嘴唇輪廓較為完整。