馮翔,吳瀚,司冰靈,季超
(濰坊醫學院 生物科學與技術學院,濰坊 261000)
手勢較其它語言、文字更形象,在聾啞人交流、肢體信號表達、智能人機交互等場合得到廣泛應用[1-2]。其中,基于手勢圖像的人機交互成為國內外人工智能領域研究的熱點,在遠程手術操作、復雜環境無人化作業、智能家居等場合蘊藏著巨大商業前景[3-4]。但手勢變化的多樣性、復雜性對識別精確性、可靠性均產生不利影響,成為限制該技術推廣的焦點、難點[5-7]。
特征提取是影響手勢識別準確率、穩健性的關鍵因素。楊全等[7]重點分析手勢主軸方向角及質心位置關系,利用深度積分圖像提取其特征并結合支持向量機算法識別。該思路計算量大且對于模糊失焦圖像失效。Ren等[8]采用閾值分解及近似凸分解思路分割手指區域,利用指尖相對距離進行匹配識別,但閾值及匹配參數的設定往往需先驗知識,導致可靠性較差。Lai等[9]提出基于指尖輪廓分段匹配的識別框架,但僅依靠指尖特征忽視了手掌對于特定手勢的表達性。另外,王景中等[10]通過圖像差分、連通域檢測等獲取完整手型輪廓并采用局部二進制變換、主成分分析提取特征。上述思路多采用人工設定特征,忽視了特征的多樣性、內在聯系性。卷積神經網絡方法擺脫人工特征設定的局限性,采用非監督式特征選定與挖掘思路獲取信息,成為當前深度學習領域的重要手段。梁智杰等[11]采用卷積神經網絡及長短時記憶模型來處理特征信息;Barbu等[12]結合卷積神經網絡及支持向量機算法來構造特征提取與識別框架;Kim等[13]基于雷達手勢成像的微多普勒特征,利用卷積神經網絡進行識別。上述卷積網絡架構多采用傳統模型,對標準數據集測試效果較好,但對自建數據集存在泛化能力差、挖掘能力弱、識別準確率低等問題。
本研究基于LeNet-5網絡架構及信息融合思想提出新的嵌網融合-卷積識別網絡結構,以多層感知器替換傳統線性卷積核來構造特征提取框架,并級聯Inception模型,同時將金字塔采樣機制引入池化層以替換常規采樣機制,利用金字塔多尺度融合策略來拼接不同維度的特征,將融合特征傳輸給全連接層,最后在全連接層中引入Hinge loss函數的支持向量機思路[12]進行識別。實驗仿真中,將所提網絡在MNIST集及自建手勢集進行驗證,準確率最高可達98.2%,優于幾種常規網絡。
卷積神經網絡是深度學習領域最常用的網絡架構,被廣泛應用于人臉識別、視覺目標提取、語音識別等。其架構主要由輸入層(Input Layer)、卷積層(Convolutional Layer)、池化層(Pooling Layer)、全連接層(Fully Connected Layer)及輸出層(Output Layer)構成。其中,LeNet-5是LeCun等用于手寫數字識別的卷積神經網絡,也是當前最具代表性的架構之一[14],見圖1。

圖1LeNet-5架構簡化示意圖
Fig.1The simplified diagram of LeNet-5
卷積層用于提取輸入圖像特征,該過程可由式(1)中卷積運算表示:

(1)
卷積核按窗掃描方式從左到右、從上到下移動運算。該過程實現了局部特征感知和參數共享,相比傳統人工神經網絡大大降低了計算量和參數復雜度。
池化層按特征不變性原則對圖像特征進行統計抽樣、聚合來降低數據規模,在一定程度上避免了過擬合。常用池化方法有平均池化(Average Pooling)、最大池化(Max Pooling)等,見圖2。值得注意的是,池化層和卷積層的區別在于,其池化操作只是簡單地取平均值或最大值運算,而非各元素的加權和。
全連接層及輸出層主要用于圖像特征分類,可根據實際需求設定為單層或多層,表示如下:
hw,b(x)=relu(wTx+b)
(2)
其中,hw,b(x)表示輸出,x為輸入特征向量,w為權值向量,b為偏置,relu(·)為激活函數。

圖2 池化方式示意圖
常規卷積神經網絡層間缺乏跨層式-互通信息流動,歷經多次池化采樣后目標特征信息急劇減少,影響識別[6-7]。本研究基于LeNet-5模型引入嵌網結構、Inception模塊及金字塔多尺度采樣融合模型來構造特征挖掘架構。首先,利用多層感知機替換傳統卷積層中線性卷積核,以提取局部感受野內的顯著特征,其過程為:
(3)


圖3 嵌網卷積層示意圖
同時,本研究參照GoogleNet模型引入Inception模塊實現對卷積層的特征融合,該Inception模塊由前攝入層(Previous Layer)、并行處理層(Parallel Processing Layer)及拼接層(Filter Concat Layer)組成。其中,并行處理層含多個通道,各通道均設置不同池化、卷積操作,使其感受野不同(即包含多尺度信息)。第一個通道為1×1的卷積層,第二個通道為1×1和3×3的卷積層,第三個通道為1×1和5×5的卷積層,第四個通道為3×3的池化層和1×1的卷積層,見圖4。設置1×1卷積核目的在于對Inception模塊進行降維。因此,本研究引入Inception模塊使得嵌網結構在深度、寬度均得到擴展,挖掘特征能力進一步增強。

圖4 Inception模塊示意圖
由于池化采樣中較小的池化窗口可能導致局部細節信息丟失,網絡泛化能力變差。本研究對LeNet-5模型加以改進,將傳統單一池化方式替換為金字塔池化模型(spatial pyramid pooling,SPP),即在下采樣過程中,將池化窗口按照從大到小順序依次進行下采樣,然后將若干維度的特征拼接融合之后傳輸給全連接層。本研究在LeNet-5模型的第3池化層中采用SPP結構,見圖5。第1級池化窗口大小為2×2,滑動步長為2,取最大池化方式;第2級窗口大小為3×3,滑動步長為3,取最大池化方式;第3級窗口大小為5×5,滑動步長為4,取均值池化方式。相較傳統單一池化方式,SPP池化模型可實現任意大小的圖像特征處理,提取的特征信息更豐富,使得網絡魯棒性、靈活性更強。

圖5 金字塔池化示意圖
考慮到卷積網絡在樣本量較小情況下易出現過擬合、泛化能力較差,而支持向量機算法可使用正則化方式來優化模型的結構風險,在樣本量較少的情況下獲得較好的分類準確率。因此,在卷積神經網絡全連接層嵌入支持向量機思路,即結合支持向量機的結構風險最小化原則來彌補卷積網絡的不足,同時卷積網絡也可改善支持向量機特征表達不足的缺陷,使得二者優勢互補。本研究借鑒文獻[12,15]思路在全連接層中嵌入Hinge loss函數,替換傳統全連接層中的Logistic loss函數,該損失函數即以構造待分類樣本的最大邊距超平面來實現分類思路。所提嵌網融合網絡參數見表1,結構見圖6。

表1 嵌網融合-卷積識別網絡結構參數

圖6嵌網融合-卷積識別網絡結構示意圖
Fig.6Embedded fusion convolution network diagram
本研究在Windows-Caffe環境下實驗,CPU i7-7700HQ,2.8 GHz,8 G內存。實驗數據集為MNIST手寫數字集和自制手勢集,見圖7。自制數據集分為訓練集和測試集,其中訓練集各手勢有100張圖片,測試集各手勢有20張圖片,圖片大小為96×96像素。MNIST手寫數字集包含“0-9”十種手寫數字,共60 000個訓練樣本和10 000個測試樣本,圖片大小為28×28像素。

圖7 自制手勢圖像示意圖
為評價不同網絡的性能,分別引入標準LeNet-5結構、嵌入金字塔池化的LeNet-5+SPP結構、嵌入多層感知機及Inception模塊的LeNet-5+NIN結構,以及嵌入金字塔池化和多層感知器及Inception的LeNet-5+SPP+NIN結構。各識別網絡在訓練過程中均迭代2 000次,網絡學習率為指數衰減,初始學習率為0.001,衰減率為0.95。為分析各網絡的魯棒性,特進行100次蒙特卡洛試驗,見表2、表3。不同網絡架構的識別準確率隨迭代次數比較見圖8(以自制手勢集為例)。

表2 不同網絡準確率比較
由表2和圖8可知,LeNet-5+SPP+NIN結構取得最好的準確率,且損失函數最小。這是由于嵌入的多層感知器層和Inception結構以及金字塔池化方式使得特征挖掘網絡具備多尺度深層次特征提取融合能力,擺脫了傳統LeNet-5模型特征信息逐層減少的弊端,并且Inception結構及金字塔池化方式的引入可避免網絡因層次加深而出現過擬合現象。由圖8可知,隨著迭代次數的增加,各網絡的識別能力逐漸增強,但LeNet-5+SPP+NIN網絡結構一直處于領先位置。傳統LeNet-5的分類準確率在迭代2 000次情況下平均僅為82.7%,而嵌網融合識別網絡準確率提升11.5%,達到94.2%。考慮到自制手勢數據集中,手勢圖像的“正反面”和“旋轉角度”增大了網絡識別的難度。本研究對“0~5”六種手勢的識別準確率分析見表3,由表3可知手勢0取得最高的準確率,手勢2和手勢3因存在“正反面”而識別準確率略差。

圖8 不同網絡的識別準確率比較

表3 LeNet-5+SPP+NIN網絡模型對每類手勢識別準確率
為進一步評估所提嵌網-融合網絡的特征學習挖掘能力,特設置不同超參數學習率來研究在2 000次迭代中的識別準確率變化規律,見圖9。學習率為lr=0.001、0.0008、0.0005以及0.0003。
由圖9可知,學習率較高時導致識別網絡在訓練一定次數后難以達到全局最優解,而可能陷入局部最優解,無法繼續提升其準確率;當學習率較低時(lr=0.0003),模型準確率上升較慢,增加了識別網絡訓練的時間;只有當學習率適中時(如lr=0.0005),所提模型才能在相對較短時間內達到最高的準確率。

圖9 不同學習率下網絡識別準確率比較
Fig.9Comparison of accuracy for different learning rates
本研究基于LeNet-5網絡和信息融合思想提出新的嵌網融合-卷積識別網絡來解決手勢識別問題。首先,以多層感知器來構造特征提取框架,并在卷積層輸出端級聯Inception結構,同時用金字塔采樣機制替換常規采樣,利用金字塔多尺度融合策略來拼接不同維度的特征,進而將融合特征傳輸給全連接層,最后引入支持向量機思路識別。實驗中將所提網絡在MNIST數字集及自建手勢集進行驗證,識別準確率最高達到98.2%,均優于常規網絡。如何在網絡深度一定的前提下,提高多尺度特征融合能力及識別準確率將是下一步研究重點。