基于膚色分割與改進VGG網絡的手語識別①

2020-06-20 07:31:32包嘉欣田秋紅楊慧敏陳影柔

計算機系統應用 2020年6期

包嘉欣,田秋紅,楊慧敏,陳影柔

(浙江理工大學信息學院,杭州 310018)

手語的構成主要是借助手和手臂完成的手勢語,是包含信息量最多的一種人體語言,它與口語及書面語等自然語言的表達能力相當.手語識別技術提供一種更為簡單自然的人機交互方式,它逐漸改變著人們的生活方式,并已廣泛應用于體感游戲、機器人控制、智能家電和車載系統等領域,其研究發展影響著人機交互的自然性和靈活性,具有重要的社會經濟價值和研究意義.手語識別不僅是聽力障礙者的主要交流手段,而且有效的手語識別將減輕聽力障礙者因交流不便帶來的困擾,因此手語識別具有重要的社會意義.

根據手語識別提取特征的方法不同,手語識別主要分為以下幾類:1)基于穿戴式輸入設備的識別方法[1-4],該方法利用穿戴式的設備采集手的位置、形狀和運動軌跡和運動方向等信息,獲得的手勢時序可直接用于分類器識別.但是該方法要求穿戴的設備比較昂貴,且易損壞,不容易維護,難以推廣和普及.2)基于人工設計特征的識別方法[5-8],該方法利用通過提取合適的手語特征作為識別特征,但是該方法的學習能力不強,在樣本量不斷增大的情況下,識別率不會顯著提高,且提取的特征容易受到光照、背景的影響.3)基于神經網絡的識別方法[9-12],該方法基于統計的方法能夠實現復雜的非線性映射,且具有分類特性和抗干擾性,但是該方法在手語圖像不足的情況下,容易陷入過擬合.

基于深度學習的卷積神經網絡具有結構層次化、權值共享、區域局部感知、特征提取和識別分類相結合的全局分類特點,能夠逐層自動地學習到合適的特征并進行分類,在圖像識別領域獲得了廣泛的應用.Liu 等[13]提出了基于深度神經網絡的轉移學習算法來解決帶標記的彩色圖像樣本不足的問題,與原始的VGG 方法和淺層機器學習方法相比,提出的方法具有更高的精度.Gu 等[14]提出將復雜算法(卷積和批量歸一化)應用于VGG 網絡,并對模型進行了擴展,通過訓練具有相同網絡結構的實值VGG 網絡和復值VGG網絡,得到了訓練和測試的精度.Ha 等[15]提出了一種基于圖像的建筑信息模型(BIM)和VGG 的室內定位新方法.該方法通過渲染BIM 圖像構建數據集,并在數據集中搜索與室內照片最相似的圖像,從而估算出照片的室內位置和方向,結果證明了VGG 網絡中的池化層適合于特征選擇.但是VGG 網絡模型對手語圖像數據集的數量要求過高,且在訓練模型時需要大量的存儲容量,對硬件的要求較高.

針對以上不足,本文提出了一種基于膚色分割與改進VGG 網絡的手語識別方法.在保證識別準確率的同時解決了復雜背景下手勢圖像的特征提取問題.通過優化網絡結構,減少了模型所需的存儲容量和參數量.

1 綜合多要素的手語膚色分割方法

目前,基于視覺的手勢分割算法主要有基于膚色的手勢分割算法、基于輪廓的手勢分割算法和基于運動的手勢分割算法.基于膚色分割的方法,通過在原始圖像中選取與手部皮膚顏色相近的像素點,然后把這些像素點所在的區域分割出來.基于膚色分割的方法簡單高效,不受尺度和角度等因素的影響,得到了廣泛的應用.但是基于膚色分割的方法容易受到背景中類膚色區域的干擾,本文提出了一種綜合多要素的手語膚色分割方法.該方法首先采用橢圓模型對手語圖像進行初步分割,然后利用基于最大連通域和質心定位的方法來排除背景中的類膚色區域及除手部區域以外的膚色區域,進而分割出手部區域.

1.1 基于橢圓模型的膚色分割

由于膚色對人的表情、動作等變化具有強烈的抗干擾能力,因此常常將它作為手語識別與人臉識別的首選特征,不同光照變化會導致膚色的亮度發生變化,需要選擇一個可靠的膚色模型來檢測膚色區域[16].YCbCr 顏色空間的是一種能將亮度信號和色度信號單獨分離開的顏色空間,其中Y、Cb、Cr分別指亮度、藍色色度、紅色色度.從RGB 顏色空間到YCbCr 顏色空間的轉換公式如下[17]:

其中,R、G、B值分別為圖像紅、綠、藍顏色值歸一化后的值.

采集手語圖像數據集中膚色的樣本點,并將膚色轉化到YCbCr 顏色空間,然后在CbCr 平面進行投影,得到一個CbCr 的橢圓,判斷坐標(Cb,Cr)是否在橢圓內(包括邊界),即可判斷是否為膚色像素點,進而形成的統計橢圓模型如下:

其中,Cx=109.38,Cy= 152.02,a=25.39,b=14.03,θ=2.53,eCx= 1.60,eCy=2.41.

1.2 圖像去噪

經過膚色分割后,手語圖像中可能會存在孤立的噪聲點和小的干擾塊(類膚色背景),且膚色區域會存在大小不一的孔洞,這些因素會嚴重干擾手部區域的提取,因此必須去除.

中值濾波法是一種非線性平滑技術,它將每一像素點的灰度值設置為該點某鄰域內的所有像素點灰度值的中值,對毛刺和孔洞的填充具有重要作用[18].在圖像濾波中最常用 3×3的窗口對圖像進行中值濾波,即選取指定點周圍的8 鄰域的像素值進行排序,將排序后的中值作為指定點的像素值.中值濾波的公式如下:

其中,f(i,j)為原圖像的像素值,g(i,j)為中值濾波后像素值,med為中值運算符.

漫水填充算法是一種用顏色來填充連通區域的算法,首先從連通域里選出一點,將該點作為種子點,然后從該點開始尋找當前的連通域內其他的點,并將這些點填充成指定的顏色.

本文先采用中值濾波對膚色分割后的手語圖像進行平滑濾波,去除孤立的噪聲點及邊緣的毛刺,然后采用漫水填充算法填充膚色區域的孔洞,確保手語區域的完整性.

1.3 基于最大連通域和質心定位的手部區域獲取

經過膚色分割和圖像去噪后,圖像中仍存在3 處皮膚區域及其他稍微大一點的類膚色背景區域.本文提出了一種基于面積算子和質心位置的手部區域定位方法,實現了手部區域的獲取.

計算圖像中每個連通區域內的像素數目,找出最大的3 個連通區域,即脖子區域、手臂區域、和手部區域,舍棄其他連通區域.

根據式(5)～式(7)計算3 個區域的零階矩和一階矩,根據式(8)～式(9)利用所得的零階矩和一階矩計算3 個區域質心的坐標,選擇在X 方向上質心坐標最小的區域,即為手部區域(本文研究圖像中,手部區域均在脖子區域的左側),保留質心坐標最小的區域,去除其他區域.

其中,m00為零階矩,m10和m01為一階矩;V(i,j)是圖像在點(i,j)處的灰度值,I和J分別是圖像的寬度和高度.

手語膚色分割提取的流程圖如圖1所示.

圖1 手語膚色分割提取流程圖

手語膚色分割提取的過程結果如圖2所示.

圖2 手語膚色分割提取過程結果

2 基于改進的VGG 網絡進行手語識別

通過分析VGG 網絡模型的優缺點,從模型的參數量和計算量方面對VGG 網絡模型進行分析.

2.1 VGG 網絡模型介紹

VGG 網絡模型在圖像特征提取方面具有很明顯的優勢,近年來被廣泛的用于圖像的特征提取[19-21].該模型主要是通過增加網絡結構的深度來提高網絡提取特征的能力,同時用小的卷積核和小池化核來代替之前的卷積神經網絡中的大卷積核和大池化核,這樣既減少了網絡結構中的參數量,又增加了網絡中的非線性單元,提升了神經網絡對特征的學習能力.VGG 網絡結構如圖3所示.

圖3 VGG 網絡結構示意圖

VGG 網絡結構說明如下:

1)網絡的輸入是224×224 的RGB 圖片,所有圖片都經過均值處理.

2)網絡模型中有5 個block.每個block 內有2 個或者3 個卷積層,共有13 層卷積;每個block 尾部連接一個最大池化層,用于縮小圖片的尺寸,即壓縮輸入的特征信息.

3)網絡中總共有3 個全連接層和一個Softmax 分類器,分類器用于對輸入的圖像進行分類.在第一個和第二個全連接層后添加了dropout (隨機失活),這樣既可以減少全連接層的計算量,又避免了網絡的過擬合和梯度消散問題.

2.2 改進的VGG 網絡模型

VGG 網絡模型在手語識別領域已經取得了不錯的成績[22],但是VGG 模型仍存在以下不足之處:

(1)網絡模型的卷積層數太多,訓練模型時計算量大,損失值的收斂較慢,且需要大量的數據集;

(2)通過對VGG 網絡每一層的權重參數量分析可得,VGG 網絡訓練模型時的參數主要產生于全連接層,約占整個網絡權重參數的87%,這就導致了訓練網絡所需的內存較多.

為了使VGG 網絡模型能夠更好地達到手語識別的應用要求,需要對VGG 網絡結構進行改進,降低模型所需的存儲容量和權重參數量.對原始的VGG 網絡結構進行如下改進:

(1)將原來的13 個卷積層減少到6 個卷積層,減少網絡對手語圖像數據集的需求;

(2)用兩個全連接層代替原來的3 個全連接層,并將第一個全連接層的輸出節點設為1024,第二個全連接層的輸出節點設為26;

(3)在卷積層和激活函數之間,我們增加了一個批量歸一化(BN)層[23],以提高網絡性能和穩定性,并實現手語圖像的準確分類.

BN 是一種有效的逐層歸一化的方法,可以對神經網絡中的中間層進行歸一化操作,對于神經網絡來說,令第l層的凈輸入為Z(l),經過激活函數后的輸出層是a(l),如式(10)所示.

其中,f(·)是激活函數,W和b是權重和偏置參數.

為了減少內部協變量偏移問題,就要使得凈輸入Z(l)的分布一致,利用數據預處理方法對Z(l)進行歸一化,相當于每一層都進行一次數據預處理,從而加速損失值的收斂速度.為了提高歸一化效率,一般使用標準歸一化,將凈輸入Z(l)的每一維都歸一到標準正態分布,歸一化的公式如式(11)所示.

給定一個包含K個樣本的小批量樣本集合,第l層神經元的凈輸入Z(1,l),···,Z(K,l)的均值、方差的計算公式分別如式(12)、式(13)所示.

為了使歸一化操作不對網絡的表示能力造成負面影響,可以通過一個附加的縮放和平移變換改變取值區間,最后的輸出如式(14)所示.

其中,γ、β分別表示縮放和平移的參數向量.

改進的VGG 網絡具體模型結構如圖4所示,對比改進前后的網絡模型可以看到,改進后的網絡模型卷積層數大大減少,這就縮短了訓練時間.同時,改進后的網絡中卷積層和池化層依舊是交替出現的,所以仍保留了圖像對縮放、扭曲和位移的不變性和良好魯棒性的優點.

圖4 改進的VGG 網絡結構圖

2.3 基于改進的VGG 的手語識別模型

基于改進的VGG 網絡,結合手語圖像的種類和特點,構建了識別26 個英文字母手語的模型,手語識別流程圖如圖5所示.

(1)隨機從26 個英文字母手語圖像數據集中抽取一定等比例的26 個英文字母手語圖像作為訓練樣本數據集.

(2)綜合多要素的手語膚色提取分割.對采集到的手語圖像先利用橢圓模型將膚色區域分割出來,然后再利用最大連通區域和質心定位實現手部區域的分割,將分割后手語灰度圖片的尺寸統一設置為1 28×128,并將其作為神經網絡的輸入.

(3)模型訓練.利用改進的VGG 網絡提取輸入手語圖像的特征,從而構建26 個英文字母手語圖像識別模型.

(4)模型測試.手語圖像數據集中剩余的手語圖像作為測試樣本集進行模型測試,驗證模型的準確率.

圖5 基于改進的VGG 的手語識別方法流程圖

3 實驗與結果

本節主要介紹了手語識別所采用的數據集,分割算法的有效性驗證,涉及的實驗參數設置及網絡的對比實驗,實驗參數包括批量歸一化層(BN)的添加、批處理尺寸及學習率的設置.

3.1 數據集介紹

為了驗證改進模型的有效性,本文構建了一個自建手語圖像數據集.自建手勢數據集是通過計算機攝像頭采集了真人的26 種不同手語,共有10 400 張圖像,手語者穿著類似膚色的衣服,兩側手臂裸露,所有手語者均使用右手打手勢.部分手語圖像如圖6所示.

圖6 手語圖像數據集

3.2 分割算法有效性驗證

為了驗證本文提出的手語膚色分割算法的有效性,我們將本文提出的分割算法和以下3 種方法進行對比:(1)基于橢圓模型的膚色分割;(2)橢圓模型與最大3 個連通域提取相結合的方法;(3)橢圓模型與質心定位相結合的方法.相應的結果圖如圖7～圖9所示,本文方法的結果圖如圖10所示.

由圖7、圖8可以看出,方法(1)和方法(2)均不能獲取單獨的手部區域.由圖9可以看出,方法(3)只能提取手勢圖像中最左邊一塊類膚色區域,該方法不能實現手部區域的獲取.由圖10可以看出,本文的方法對手部區域的獲取具有顯著效果,該方法能夠從復雜背景中獲取單獨的手部區域.

圖7 橢圓模型

圖8 橢圓模型與最大3 個連通域提取相結合的方法

圖9 橢圓模型與質心定位相結合的方法

圖10 本文方法

3.3 批量歸一化

本實驗比較了添加BN 層和不添加BN 層的網絡訓練效果,對應的損失、準確率隨迭代次數的變化如圖11、圖12所示.由圖11可以看出,添加BN 層的網絡損失值隨迭代次數的增加下降較快,最終趨于穩定;而未添加BN 層的網絡損失值隨迭代次數的增加一直在震蕩,說明添加BN 層對損失值的下降及穩定具有重要作用.從圖12可以看出添加BN 層的網絡準確率明顯高于未添加BN 層的網絡準確率高,說明添加BN 層有助于獲得更高的準確率.

3.4 批處理尺寸及學習率設置

在本實驗中,我們將batch size 分別設置為32,64和128,比較這3 種條件來選擇最適合該模型的batch size,不同batch size 訓練的實驗結果如圖13、圖14所示.由圖13可以看出,當batch size = 32 時,損失值波動幅度遠大于其他兩種情況,且梯度下降速率最慢.當batch size = 128 時,損失值波動范圍最小.但是經過一定次數的迭代,batch size 為64 和128 的訓練情況基本相同.由圖14看出,當batch size = 32 時,準確率遠大于其他兩種情況.當batch size = 128 時,準確率提高較快.但是經過一定次數的迭代,batch size 為64 和128的訓練情況基本相同.綜合考慮,本實驗中選擇64 作為訓練的batch size,在保證訓練速度的同時,也保證訓練模型的泛化能力.

圖11 損失值隨迭代次數的變化曲線

圖12 準確率隨迭代次數的變化曲線

圖13 損失值隨迭代次數的變化曲線

圖14 準確率隨迭代次數的變化曲線

本實驗將網絡的初始學習率lr設為0.001,并且通過指數衰減對學習率進行更新,衰減系數設為0.9,衰減速度設為1000,學習率計算公式如式(15)所示,其中lr為初始學習率,decay_rate為衰減系數,global_steps為當前的迭代次數,decay_steps為衰減速度(每隔decay_steps次更新一下學習率).

3.5 網絡的對比試驗

通過調整網絡中的block 內的層數來優化網絡,本實驗中構建了4 種網絡模型,如表1所示.由表1可以看出,VGG1 網絡模型中有4 個block,共有4 層卷積,兩個全連接層;VGG2 網絡模型中有5 個block,共有5 層卷積,2 個全連接層;VGG3 網絡模型中有5 個block,共有5 層卷積,2 個全連接層;VGG4 網絡模型(改進的網絡模型)中有5 個block,共有6 層卷積,2 個全連接層.其中,Conv3 代表卷積層采用3 ×3的卷積核;Conv3-64 代表該層卷積核的通道數為64;Max Pooling代表最大池化層;FC 代表全連接層;FC-1024 代表全連接層的輸出節點為1024.

在實驗參數設置相同的基礎上,實驗中將討論4 種模型訓練網絡的實驗結果.

4種模型訓練網絡的實驗結果如圖15、圖16所示.由圖15可以看出,通過比較VGG1 和VGG44,可以發現增加塊數來提取更深層次的手語特征,可以幫助模型較快地實現穩定的收斂.由VGG2 和VGG3 可以發現,塊和卷積層的數量相同時,增加卷積核的通道數可以提高模型的每個迭代的優化效果最后,比較VGG3 和VGG4 可以發現,特征深度(塊數)相同時,通過增加塊內卷積數可以獲得更好的特征提取效果.由圖16可以看出,VGG4 訓練模型的準確率相比其他兩種網絡模型能夠獲得較高的識別率,識別率達到了97%以上.

表1 卷積網絡層配置

圖15 損失值隨迭代次數的變化曲線

圖16 準確率隨迭代次數的變化曲線

4 結論

本文主要研究內容是基于改進的VGG 網絡的手語識別.在提出實驗方案之前,我們分析了常用的手語特征提取方法的優缺點.在此基礎上,提出了一種基于綜合多要素的手語膚色分割與改進的VGG 網絡結合的手語識別方法.在該方法中,根據人體膚色在YCbCr空間聚類緊湊的特征構建橢圓模型,從而對手語圖像進行初步分割;利用中值濾波進行對初步分割后的圖形進行平滑處理,去除膚色區域周圍的毛刺或者白點,然后采用漫水填充算法填充手語區域的空洞,最后采用基于最大連通域和質心定位的方法手部區域的提取.本文減少了VGG 網絡模型中的卷積和全連接的層數,并將批量歸一化層添加到網絡中.利用改進后的網絡構建識別模型,識別模型以手部區域的灰度信息為輸入,減少訓練網絡模型時所需的參數量.本文提出的方法在保證復雜背景下的手語圖像特征提取有效性的同時,解決了VGG 網絡模型所需數據集大和權重參數量過多等問題,且保證了手語圖像識別的準確性.