999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進Xception網絡的手勢識別

2022-06-28 02:55:54周梓豪田秋紅
軟件導刊 2022年6期
關鍵詞:深度特征模型

周梓豪,田秋紅

(浙江理工大學信息學院,浙江杭州 310018)

0 引言

人類通過手掌和手指的不同姿勢組合形成的具有特定含義的表達方式稱為手勢。手勢識別是人機交互領域的研究熱點,相關技術廣泛應用于智能家居、自動駕駛、醫療保健和虛擬現實等領域,給人們的生活帶來極大便利,應用價值不言而喻。手勢作為人與人之間日常交流的重要方式,更是聾啞人交流的最主要方式,蘊含著豐富的信息。如果手勢識別技術更加完善,現實生活中應用更加廣泛,聾啞人便能更加輕松舒適地融入社會。因此,手勢識別技術研究具有重要的現實意義。

1 相關研究

傳統手勢識別方法主要分為兩類:一類是基于硬件設備的方法,例如Kim 等[1]使用由3 軸加速度計、磁力計和陀螺儀組成的手套采集到的數據進行三維建模并輸出到顯示器,對1~9 之間的數字識別準確率可達99%以上,但數據手套操作復雜、價格昂貴,普及性較差;另一類是基于機器視覺的方法,例如Tian 等[2]設計了一種基于圖像處理的靜態單反系統分割方法,并將其與形態重建相結合,可從復雜背景中分割手勢圖像;李文生等[3]提出一種高效的基于HSV 顏色空間的多目標檢測跟蹤方法,可準確進行動態多點手勢識別。然而機器視覺方法普遍存在的問題是提取到的特征容易受到背景因素干擾,且處理速度較慢。

以上兩類方法需要人工設計手勢提取算法,可能會產生主觀性和局部性等問題。卷積神經網絡(Convolutional Neural Networks,CNN)能夠自動提取手勢的輪廓、膚色、紋理等深度特征,并且具有檢測速度快、抗干擾能力強和識別準確率高等優點,因此在手勢識別領域逐漸成為主流。許多學者通過重新設計主干網絡,融合多尺度特征和殘差連接等方法對經典CNN 進行改進,在提高識別準確率方面取得較多進展。例如,余圣新等[4]使用深度可分離卷積改進Inception 網絡,并結合殘差網絡以防止梯度彌散,在MNIST 手寫數字數據集上達到99.45%的識別準確率;周鵬等[5]基于語譜圖對DenseNet 卷積網絡進行改進,識別準確率明顯提高;王龍等[6]結合膚色模型和CNN 對不同背景下的手勢圖像進行識別,取得了較高的識別準確率和較好的實時性;熊才華等[7]基于ResNet50 殘差網絡對Fast R-CNN 網絡進行改進,并融合實例批處理標準化方法以適應不同的識別環境,對手勢的識別效果和魯棒性均有所改善;陳影柔等[8]提出一種基于多特征加權融合的靜態手勢識別方法,對手勢圖像數據集的識別準確率達到99%以上;包嘉欣等[9]通過橢圓分割、最大連通域和質心定位的方式提取出類膚色背景中的手勢,并通過改進VGG 網絡減少模型參數量,有效提高了手勢圖像的識別率;官巍等[10]將Fast R-CNN 替換為ResNet50,利用區域建議網絡生成的候選框和特征圖進行興趣區操作,修改激活函數并進行參數調節,對手勢的識別率高達97.57%;馮家文等[11]提出雙通道CNN 模型,對兩個相互獨立通道輸入的手勢圖像進行特征提取,融合不同尺度的特征,增強了模型的泛化性。以上改進CNN 網絡取得了較高的識別準確率,但仍存在參數量巨大的問題。事實上,大部分CNN 難以兼顧識別準確率與參數量之間的平衡,龐大的網絡結構和巨大的參數量滿足不了其在資源受限的嵌入式和移動端環境中進行實時檢測的要求。

針對CNN 存在的問題,參考林景棟等[12]提出的CNN結構優化技術,從平衡識別準確率和模型大小的角度出發,提出一種基于改進Xception 網絡的手勢識別方法。改進部分如下:使用密集連接代替殘差連接,對深度可分離卷積模塊進行密集連接,壓縮網絡深度,從而更加有效地利用模型參數,有效提高識別準確率;融合SE 模塊,增強模型對重要特征的敏感度,同時抑制次要特征的作用;融合特征金字塔結構,通過對特征張量中不同感受野的使用對手勢圖像進行分類,進一步提高識別準確率。

2 網絡結構

2.1 Xception網絡結構

Xception 網絡[13]是在InceptionV3 網絡的基礎上結合MobileNet 和ResNet 提出的CNN,該網絡使用深度可分離卷積將特征張量中的空間相關性與跨通道相關性完全解耦,相較于Inception 能更充分地發揮網絡參數的作用。Xception 網絡結構如圖1 所示,其具有36 個卷積層,分別為1 個降采樣卷積層、1 個常規卷積層和34 個深度可分離卷積層;共分成14 個模塊,最大通道數達到2 048 個,使得Xception 網絡結構較深,參數計算量大,模型占用內存較大,不適合部署在移動端和嵌入式設備中進行實時檢測。同時,Xception 網絡缺少多尺度特征的融合,在特征提取過程中可能會由于感受野單一而造成特征損失。

2.2 密集深度可分離卷積模塊

現有經典網絡一般通過增加網絡層數提升識別準確率。Xception 網絡包含36 個卷積層,雖然深度可分離卷積模塊的計算量相較于常規卷積模塊已經縮小,但模型大小和計算參數量仍然較大,無法滿足在移動端上進行實時檢測的要求。因此,本文利用DenseNet 密集連接網絡[14]的思想,對深度可分離卷積模塊進行密集連接,通過將當前模塊的輸出特征張量作為其所有后續模塊的輸入,使各層之間直接相連,最大程度確保最大化層際的信息流動,從而形成密集深度可分離卷積模塊。該模塊是改進Xception網絡的基本模塊,結構示意見圖2。密集深度可分離卷積模塊的輸出可表示為:

Fig.1 Xception network structure圖1 Xception網絡結構

式(1)和圖2 中的X0均代表輸入密集深度可分離卷積模塊的特征張量,XL代表第L個深度可分離卷積模塊的輸出,DSCM(*)代表深度可分離卷積模塊,⊕代表通道疊加操作。如圖2 所示,第L個深度可分離卷積模塊的輸出由模塊內位于其前繼的所有特征張量通道疊加后再經深度可分離卷積模塊解耦得到。

改進Xception 網絡使用的密集深度可分離卷積模塊有2 種,一種由3 個深度可分離卷積模塊密集連接組成,另一種由2 個深度可分離卷積模塊密集連接組成。密集連接結構可使特征得到再利用,同時通過適當增加層內通道數可更加充分地發揮網絡參數的作用,在保證網絡提取到更多手勢信息的同時有效減小模型深度,以抑制過擬合現象。

2.3 基本卷積模塊

2.3.1 降采樣卷積模塊和常規卷積模塊

原始手勢圖像需歸一化為224 × 224 × 3 大小的RGB圖像,再進行標準化。將原始手勢圖像從0~255 之間的整數映射為0~1 之間的浮點數作為神經網絡的輸入,首先將其輸入至降采樣卷積模塊,然后輸入常規卷積模塊中進行特征圖像處理。這兩種卷積模塊結構相同,均由卷積層、批量歸一化層和RELU 激活層依次連接組成,可表示為:

式中,z代表輸入模塊的特征張量,代表卷積核個數為n、步長為i×i的常規卷積函數,BN(*)代表批量歸一化操作,RELU(*)代表RELU 激活函數。

Fig.2 Dense depthwise separable convolution module structure圖2 密集深度可分離卷積模塊結構

在改進網絡中,兩種卷積模塊的卷積核尺寸均為3 ×3,但卷積操作步長以及卷積核個數不同。步長為2 × 2 的卷積操作能夠代替池化層進行降采樣處理,增加模型的感受野。輸出通道數為32 的縮小尺寸的特征張量,然后使用步長為1 × 1 的常規卷積整合空間特征和跨通道特征,并使用64個卷積核擴大通道數量,初步提取淺層特征。

2.3.2 深度可分離卷積模塊

淺層特征張量通過一系列由深度可分離卷積模塊組成的模塊進行空間相關性與跨通道相關性之間映射的完全解耦。深度可分離卷積模塊由RELU 激活層、深度可分離卷積層和批量歸一化層組成。本文網絡使用如圖3 所示的2 種深度可分離卷積模塊,二者的差異在于RELU 激活層的位置,密集深度可分離卷積模塊由(a)類深度可分離卷積模塊組成,靠近網絡輸出的為(b)類深度可分離卷積模塊,RELU 激活層放在最后有助于圖像分類。

Fig.3 Depthwise separable convolution module structure圖3 深度可分離卷積模塊結構

本文網絡使用的均為步長為1 × 1,卷積核尺寸為3 ×3 的深度可分離卷積層。與常規卷積相比,逐一對通道進行卷積操作能降低計算冗余度。例如使用K個尺寸為3 ×3 的卷積核對1 個尺寸為W×H×C的特征張量進行卷積操作,然后輸出尺寸為W×H×K的特征張量。如果使用常規卷積進行操作,則參數量為C×K× 3 × 3;而使用深度可分離卷積進行操作,點卷積的參數量為C×K,深度卷積的參數量為K× 3 × 3,總計算量為K×(C+9),當K和C較大時,計算參數量能大大減少。

2.4 SE模塊

注意力機制的合理使用對于提高CNN 的性能具有重要作用。SE 模塊是注意力機制的一種,其思路簡單、易于實現,同時很容易被嵌入到當前主流網絡模型中[15]。SE模塊可分為3 個部分,分別為壓縮模塊fsq、激勵模塊fex和重標定模塊fscale,3個模塊可分別由以下公式表示:

式中,GAP(*)代表全局平均池化函數,x代表壓縮模塊獲得的全局描述,W(*)代表全連接函數,δ(*)代表RELU激活函數,σ(*)代表Sigmoid 激活函數,d代表激勵模塊獲得的各通道權重。

改進網絡中SE 模塊的融合位置與結構如圖4 所示。融合位置位于模塊間的局部最大池化層之前,輸入尺寸為H×W×C的特征張量,經過全局平均池化層得到每個通道的全局描述,尺寸為1 × 1 ×C。通過兩個全連接層建模通道間的相關性,首先對通道進行降維,數量減少至輸入的1/16,通過RELU 函數進行非線性激活;然后通過全連接層升維,恢復到原來的通道數量,使用Sigmoid 激活函數返回對應于每個通道0~1 之間的權重值;最后通過逐像素相乘操作將權重值加權至每個通道上。

Fig.4 SE module fusion position and structure圖4 SE模塊融合位置與結構

2.5 改進Xception網絡結構

Fig.5 Improved Xception network structure圖5 改進Xception網絡結構

Xception 網絡結構較深,多次進行深度可分離卷積以及殘差連接導致其計算參數量巨大,難以應用到移動端上進行實時監測;且Xception 網絡缺乏融合多尺度特征,可能受限于單一感受野而損失提取特征,導致準確率無法繼續提高。本文針對這些問題,對圖1 所示的Xception 網絡結構進行改進,改進后的網絡結構如圖5 所示。改進的地方如下:①將圖1 所有的殘差連接替換為密集連接,實現像殘差連接一樣的跳躍連接,能在密集壓縮網絡深度的同時提高識別準確率,可以減少深度可分離卷積模塊數量與通道數,因此改進網絡適當調節了卷積通道數量并消除了圖1 結構中的中間部分;②將Xception 網絡結構中部分由2個深度可分離卷積模塊組成的模塊替換為由3 個深度可分離卷積模塊組成的模塊,這是由于在密集連接中增加深度可分離卷積模塊數量有助于產生更多直接信息流動,有利于提高識別準確率;③如圖5 所示,將SE 模塊融入網絡結構中,在局部最大池化操作之前對特征張量進行特征重標定,提高網絡對重要特征的敏感程度;④如圖5 所示,在接近網絡的輸出部分對特征金字塔結構進行融合,通過逐點卷積層將第2 個SE 模塊和局部最大池化層的輸出通道數提升至728,作為第一融合特征張量;通過上采樣層將第4 個密集深度可分離卷積模塊的輸出特征張量尺寸修改為28 × 28 × 728,作為第二融合特征張量。兩個融合特征張量經過逐像素相加操作,獲取到融合淺層、深層空間信息以及特征語義信息的特征張量用于圖像分類。改進Xcep?tion 網絡的配置見表1。

Table 1 Improved Xception network configuration表1 改進Xception網絡配置

3 實驗方法與結果分析

3.1 數據集與實驗環境

本實驗采用NUS-Ⅱ(National University of Singapore)開源手勢數據集[16-17],共有2 750 張RGB 圖像,包含10 類手勢,分別代表字母A~J,每個類別有275 幅圖像,由40 名不同種族22~56 歲的男性和女性在多種復雜背景下拍攝完成,且背景存在類膚色因素的干擾,數據集示例如圖6所示。將該數據集按照7∶2∶1 的比例隨機劃分為訓練集、測試集和驗證集,并使用隨機旋轉、平移等實時數據增強方式避免過擬合。

模型訓練環境為13GB 內存,NVIDIA Tesla P100 PCIE 16GB 顯卡,初始學習率設置為0.001,最大迭代周期(Ep?och)設置為40,批處理大?。˙atch Size)設置為16,并通過回調函數在訓練過程中對學習率進行優化,以便更加快速地獲得最優模型?;卣{函數監測的值為驗證集準確率,當3 個迭代周期結束而驗證集準確率沒有提升時,則將學習率縮小為原來的一半。

Fig.6 NUS-Ⅱdataset example圖6 NUS-Ⅱ數據集示例

3.2 實驗結果分析

3.2.1 不同模塊性能比較

為了驗證改進Xception 網絡各個模塊的性能,在改進網絡的基礎上,對密集深度可分離卷積模塊、SE 模塊和特征金字塔結構進行消融比較實驗,結果見表2??梢钥闯觯斎诤纤心K時,相較于Xception 網絡,計算參數量大幅度減少,識別準確率提升了1.09%,參數量減少了4/5。同時,對于每一個單獨模塊的改進均使準確率有0.54%~0.72%的提升,且參數量大幅度減少。

Table 2 Ablation comparison experiment result表2 消融比較實驗結果

3.2.2 網絡訓練優化器比較

神經網絡中的優化器可通過適當方法修改權重和學習率以達到最小化損失的目的,優化器的選擇需要考慮準確率與訓練時間之間的平衡。本實驗分別在Adam、RM?Sprop 和Nadam 優化器下訓練改進Xception 網絡,比較這3種優化器下網絡的驗證集準確率曲線變化情況,結果如圖7 所示??梢钥闯觯褂肗adam 優化器進行網絡訓練的收斂速度最快,且波動程度最??;RMSprop 優化器訓練前期波動比Nadam 大,訓練后期逐漸趨于穩定,準確率甚至超過Nadam;Adam 優化器訓練前期收斂速度較慢,訓練后期仍然存在少許波動。使用Adam、RMSprop 和Nadam 優化器訓練的網絡在驗證集上的準確率分別為99.45%、99.7%和99.64%,為兼顧訓練時間與準確率的平衡,最終選擇Nadam 作為改進Xception 網絡的訓練優化器。

Fig.7 Comparison of validation set accuracy curves of different opti?mizers圖7 不同優化器驗證集準確率曲線比較

3.2.3 改進網絡與其他網絡比較

為了驗證本文網絡的可行性,在NUS-Ⅱ手勢數據集上將其與原始Xception、ResNet50[18]、InceptionV3[19]和In?ceptionResNetV2[20]等經典CNN,以及MobileNet[21]和DenseNet121[22]等輕量級CNN 進行比較,綜合考慮網絡的訓練時間、模型大小、模型參數量和測試集準確率評價其性能,結果見表3。

Table 3 Performance comparison results of different networks表3 不同網絡性能比較

可以看出,ResNet50 的訓練時間比本文網絡減少了224s,但在模型大小、模型參數量和識別準確率方面,本文網絡均遠優于ResNet50。由于ResNet50 存在許多卷積層和殘差連接,其模型大小和參數量均較大,而本文網絡使用密集深度可分離卷積模塊作為基本模塊,模型大小僅為54.19MB,約為ResNet50 的1/5,參數量亦約為ResNet50 的1/5,但識別準確率比ResNet50 提高了2.73%。InceptionV3使用多尺度卷積、非對稱卷積等代替常規卷積,能夠在減少計算量的同時提升識別準確率,但InceptionV3 屬于非常深的卷積網絡,其訓練時間在所有網絡中最長,本文網絡在各方面都表現出比InceptionV3 更好的性能。Inception?ResNetV2 綜合了Inception 的多尺度卷積模塊以及ResNet的殘差連接兩部分優點,獲得了很高的識別準確率,與本文網絡一樣達到99.64%,但訓練時間較長,網絡深度十分大,模型大小達到673.27MB,參數量較多。DenseNet121 使用多個密集塊稠密連接,比傳統的級聯連接效率更高,同時在瓶頸層和過渡層中壓縮通道數,使得網絡參數規模減小,但其在使用常規卷積的同時提取了空間和跨通道相關特征,比使用深度可分離卷積增加了計算參數冗余,且網絡中缺乏不同尺度特征張量的融合,使識別準確率受到限制。因此,DenseNet121 的訓練時間雖略短于本文網絡,但綜合模型大小、模型參數量和識別準確率來看,其性能遜于本文網絡。MobileNet 同樣使用了深度可分離卷積,結構簡單,具有良好的實時性,其訓練時間、模型大小和模型參數量在所有模型中均達到最優水平,但該網絡的識別準確率僅為90.36%,在一些高精度分類任務中可能達不到要求。

部分網絡在訓練過程中的驗證集準確率曲線如圖8所示。可以看出,本文網絡雖然存在密集連接,導致訓練時間略微增加,但收斂速度較快,可以利用提前停止的方法在網絡已經收斂時獲得模型,抵消一部分影響。本文網絡約在12 個Epochs 后驗證集準確率曲線趨于穩定;Incep?tionResNetV2 收斂速度也較快,約在14 個Epochs 后準確率曲線達到收斂狀態;其他網絡則在15~30 個Epochs 后曲線才趨于穩定。

Fig.8 Comparison of accuracy curves of validation sets of some net?works圖8 部分網絡驗證集準確率曲線比較

本文網絡在識別準確率和收斂速度上與Inception?ResNetV2 網絡相當,為了更加充分地比較兩個網絡的優缺點,以在NUS-Ⅱ手勢數據集上的訓練和測試結果為依據,單獨列出訓練時間、模型大小、每秒傳輸幀數(Frames Per Second,FPS)和收斂速度等進行比較分析,結果見表4。綜合多方面因素可知,本文網絡性能優于Inception?ResNetV2網絡。

Table 4 Detailed comparison between InceptionResNetV2 network and the proposed network表4 本文網絡與InceptionResNetV2網絡詳細比較

為了充分驗證本文網絡的泛化能力和魯棒性,選擇Xception、InceptionV3、MobileNet、ZFNet[23]作為對照網絡,使用開源的Sign Language for Numbers 手勢數據集[20]進行驗證實驗。該數據集共有11 種不同分類,其中包括10 種手勢類別,代表數字0 到9;1 種非手勢類別,代表非數字手勢圖像。每種類別各有1 500 張灰色圖像,共有16 500 張灰色圖像,按照7∶2∶1 的比例隨機分為訓練集、測試集和驗證集。數據集示例見圖9,比較實驗結果見表5。由于Sign Language for Numbers 手勢數據集中的背景比NUS-Ⅱ數據集簡單,類膚色背景因素干擾也較少,本文網絡識別準確率最高。

4 結語

Fig.9 Sign Language for Numbers dataset example圖9 Sign Language for Numbers 數據集示例

Table 5 Results of the recognition accuracy of different networks on Sign Language for Numbers dataset表5 不同網絡對Sign Language for Numbers 數據集識別準確率比較

本文提出一種基于改進Xception 網絡的手勢識別方法,通過深度可分離卷積模塊的密集連接,在減少計算參數量的同時更加充分利用模型參數;通過SE 模塊建模通道之間的相關性,重標定各個通道的重要性;融合特征金字塔結構,輸出同時包含淺層和深層語義的特征張量用于分類;使用數據實時增強、動態學習率更新等方法優化網絡訓練。實驗結果表明,本文網絡能夠適應多種復雜背景因素干擾下的手勢識別任務,在參數量較少的同時達到良好的識別準確率,兼顧了訓練時間、模型大小、模型參數量和識別準確率之間的平衡。由于本文網絡是對Xception網絡進行改進的小型網絡,后續將在保證準確率的同時通過模型剪枝等方法對其進行壓縮,以提高訓練和檢測速度,并嘗試將其應用于移動端進行手勢識別。

猜你喜歡
深度特征模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
主站蜘蛛池模板: 亚洲精品视频网| 免费高清毛片| 国产SUV精品一区二区6| 亚洲第一成年网| 欧美日在线观看| 精品久久高清| 综合色婷婷| 国产精品午夜电影| 欧美黄色网站在线看| 婷婷伊人久久| www.国产福利| 精品久久人人爽人人玩人人妻| 伊人国产无码高清视频| 美女被狂躁www在线观看| 精品视频第一页| 99热国产在线精品99| 在线色综合| 福利在线不卡一区| 99热这里只有成人精品国产| 国产亚洲欧美日韩在线观看一区二区| 538精品在线观看| 国产麻豆另类AV| 亚洲天堂自拍| 一本久道热中字伊人| 日韩色图区| 精品亚洲国产成人AV| 中文字幕永久在线看| 伊人久久久久久久久久| 欧洲亚洲欧美国产日本高清| 日韩毛片在线视频| 中文天堂在线视频| 国产91高清视频| 日本国产精品| 三区在线视频| 日本不卡在线| 亚洲欧美国产高清va在线播放| 制服无码网站| 日韩精品毛片| 日韩精品成人网页视频在线| 日本国产精品一区久久久| 亚洲天堂网2014| 国产欧美日韩综合一区在线播放| 午夜精品一区二区蜜桃| 国产成人无码AV在线播放动漫| 欧美精品综合视频一区二区| 综合社区亚洲熟妇p| 国产在线视频自拍| 中文字幕 91| 毛片一级在线| 国产欧美日韩资源在线观看| 亚洲国产成人自拍| 精品久久777| 无码人妻热线精品视频| 99视频精品全国免费品| 亚洲一级毛片在线播放| 高清不卡一区二区三区香蕉| 久草网视频在线| 久久 午夜福利 张柏芝| 中文字幕永久在线看| 国产成人综合亚洲欧洲色就色| 99久久性生片| 欧美色综合网站| 在线精品视频成人网| 强奷白丝美女在线观看| 国产三级a| 免费观看亚洲人成网站| 精品三级网站| 三级国产在线观看| 久久久久无码精品| 国产精品区视频中文字幕| 免费一极毛片| 国产一级毛片yw| 又大又硬又爽免费视频| AV老司机AV天堂| 国产毛片片精品天天看视频| 亚洲午夜福利在线| 欧美在线视频不卡| 久久国产精品国产自线拍| 国产00高中生在线播放| 日韩毛片免费观看| 97se亚洲| 亚洲美女一区二区三区|