999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CNN 和BLSTM 的連續手語識別

2022-05-18 06:27:30張淑軍
關鍵詞:模型

張淑軍,王 帥,李 輝

(青島科技大學 信息科學技術學院,山東 青島 266061)

0 引言

手語作為一種特殊的語言,是聽力殘疾人士、語言殘疾人士與健聽人之間溝通的重要橋梁。在進行交流時,表達者會通過各種肢體動作和表情來表達自己的想法,然而正常人群中少有人具備手語的理解能力,對手語識別的研究正是為了提升計算機對人類手語的理解能力,從而促進聾人和聽人之間的無障礙交流。同時,在手語識別領域仍有很多具有挑戰性的難題,如長句子的識別、復雜背景下的識別、詞匯可擴展的手語識別以及不同語法環境下的手語識別等。對手語識別的研究成果可以廣泛應用于人機交互等各種領域中,更好地改善人類的生活環境,如公共安全、軍事指揮、交警手勢、醫學診療領域等。不同于靜態單張圖片的識別,連續手語視頻是由多幀連續動作表達一個完整的語義,需要同時兼顧空間和時間信息。近年來隨著深度學習技術在計算機視覺領域的成功應用,針對孤立詞的手語識別取得了較好的發展,目前已獲得良好性能,而針對連續手語的識別任務在精度、抗干擾性和抗過擬合能力等方面仍存在不足。

提出了一種基于CNN 和BLSTM 的連續手語識別方法,以最簡潔有效的CNN 特征提取為基礎,充分發揮BLSTM 能夠學習雙向長期依賴信息的能力,同時利用CTC 算法的序列對齊能力,避免了復雜的時序分割,無需詞匯級標注,即可獲得對手語視頻的識別翻譯結果。

1 相關工作

在過去的30 年里,計算機視覺界對手語識別的研究從未停止[1-2]。手語識別任務的最終目標是通過時空建模實現對手語動作的識別[3],能夠將手語視頻翻譯成口語句子。到目前為止,大多研究主要集中在孤立詞的手語識別[4-6],致力于特定的應用數據集[7-12],從而限制了這些技術的適用性。近幾年,連續手語識別任務的研究逐漸增多[13]。

亞琛工業大學的Koller 等[14]是第1 個將深度學習技術用于SLR 的小組。他們在這方面的第1項工作是通過訓練100 萬張弱標記手圖像上的CNN 模型,并使用EM 算法將CNN 與HMM 集成以進行連續的手勢識別[15],他們的系統已成功地應用到整個數據集而無需重新訓練。該方法與其過去選用的統計建模方法相比[16],在公共數據集RWTH-PHOENIX-Weather 上的誤字率相對降低了17%以上,SIGNUM 數據集上的誤字率降低了24%,開創了用深度學習方法解決手語識別任務的先河。之后Koller 等[17]擴展了這項工作,以基于手部姿勢的方式,使用HamNoSys 注釋對跨語言子單元進行建模,并將這些子單元與注釋對齊以訓練CNN 模型,在手形的識別系統上將誤字率降低了2%。Camgoz 等[8]公開發布了包含視頻分幀、詞匯級標注以及口語翻譯的連續手語翻譯數據集RWTH-PHOENIX-Weather 2014T,并在該數據集基礎上提出了一種端到端的神經機器翻譯框架,通過幀級標注的思想對手語進行時序分割后再進行識別。Guo 等[18]提出了一種具有可視化與文字嵌入的分層LSTM 模型,通過傳輸幀、剪輯和視素單元之間的時空轉換來實現不同粒度的手語識別,首先利用三維卷積網絡挖掘視頻片段的時空特征,然后利用自適應可變長在線關鍵片段挖掘方法選取關鍵幀序列,并提出了一種時間注意加權機制來平衡視頻時序位置之間的內在關系,同樣利用了時序分割的思想。Wei 等[19]將連續手語識別任務定義為一個基于語法規則的分類問題,結合了三維卷積殘差網絡和雙向算法。他們單獨使用了獨立于單詞的模塊,將一個句子拆分成一系列連續的單詞,這些模塊提供的置信度得分用于連接句子中單詞的特征,在CSL SPLIT I 數據集上提高了2%的精度。Zhou 等[20]和Pu 等[21]提出將手語視頻進行切分,使用刻畫時空信息的三維殘差網絡對切分的每個視頻片段抽取時空特征,用于后續的識別任務。Camgoz 等[22]采用編解碼網絡模型將手語識別任務分為詞級識別和句子級翻譯2 個階段,沿用了時序分割方法。然而,對句子進行幀級標注成本巨大,導致網絡時間復雜度加大,適用性降低。

隨著對手語識別任務研究的不斷深入,一種“序列到序列”的學習方法引起了廣泛關注,它避免了框架對齊的需求,無需將幀對齊分割就可以完成識別任務。薩里大學的Camgoz 等[13]提出了一種名為SubUNets 的端到端手語識別網絡,直接對手語句子進行識別,獲得了與之前的研究相當的識別率。黃杰等[9]提出了一種帶有潛在空間的分層注意力網絡(LS-HAN)用于手語識別,使用雙流三維卷積神經網絡提取時空特征,一個潛在空間用于語義映射,一個層次注意力模型用于基于潛在空間的識別,并設計分析了不同聯合損失函數對識別的影響。Cui 等[23]使用分階段的優化策略對基于CTC 的端到端手語識別網絡進行優化,在RWTH-PHOENIX-Weather 德國手語數據集上得到了最高的識別準確率,但是由于數據集規模較小,訓練時易出現過擬合現象。Pu 等[24]借助“序列到序列”思想提出了一種帶有CTC 損失函數的3D-CNN 和深度卷積神經網絡結構。Elboushaki等[25]提出了一種名為MultiD-CNN 的多維特征學習模型,使用基于2D-ResNets 的雙流體系結構,將模型輸入的時間信息編碼為運動表示,通過研究不同級別的融合策略,從運動表示中提取了深層特征。

為進一步優化手語高層特征的提取,并對連續手語視頻進行雙向依賴關系的挖掘,提出了一種基于CNN 和BLSTM 的手語識別方法,用BLSTM 模型的雙向語義依賴機制代替LSTM 模型,使網絡更好的捕捉手語動作上下文信息,進一步提高識別準確率;同時對輸入視頻數據進行自適應采樣預處理,有效去除冗余背景的干擾,減少不必要的計算代價;最終通過CTC 損失函數獲得序列對齊后的文本翻譯結果。

2 算法描述

本文算法整體架構如圖1 所示。為更有效地獲取視頻中手語者的信息,并充分挖掘手語動作的上下文語義關系,首先通過自適應視頻采樣,對輸入數據進行預處理,去除無關背景的干擾;然后通過CNN 進行空間特征提取,通過前向和后向LSTM 對特征的前后關聯進行時序建模;再利用CTC 損失函數進行標簽對齊,得到手語視頻所表達的自然語言句子。為避免模型過擬合,分別在CNN 和BLSTM 的不同層插入DropOut 層,提高算法的魯棒性。

圖1 本文算法整體架構

2.1 自適應視頻采樣

對實際應用場景進行統計分析表明,通常情況下,手語視頻所包含的目標比較確定,手語識別的關鍵在于如何能提取到目標人物更高層的時空特征信息,去除數據集中的冗余干擾,從而對手語者本身進行聚焦和分析。提出一種自適應視頻采樣方法:①通過FFmpeg 工具對數據集進行抽幀操作,設定一個參數將視頻抽幀為圖片,設置好對應的標簽;②將數據集按9∶1 的比例劃分為訓練集與測試集(允許交叉驗證和重劃分);③對采樣后的視頻幀進行等比例縮放、隨機分割或中心分割等預處理操作,獲得更加聚焦、特征更加明顯的幀圖像數據,送入CNN 提取高層特征。

視頻采樣完成后,一個視頻轉化為一個包含了視頻部分幀的文件夾。在對數據集進行劃分后,采用消融實驗對比不同處理方法對結果的影響,最終得到算法的平均識別結果。對輸入視頻進行預處理的核心思想是要去除手語數據中的無關背景,使網絡提取到的手語特征更加準確,能更好地表達相鄰幀之間的特征差異。

2.2 特征提取與時序建模

時序分割是連續手語識別的難點,目前常見的連續手語識別方案是將其分解為孤立詞片段的分割和識別問題,這無疑需要極大的工作量且容易出現分割錯誤以致引發識別錯誤的累積。循環神經網絡(RNN)具備獲取輸入序列的信息并輸出序列的能力,但當相關信息和當前預測位置之間的間隔變得很大時,RNN 就會喪失學習到連接如此遠的信息的能力。LSTM(long-short term memory)是一種特殊類型的RNN,可以用來學習長期依賴信息,并且通過使用反向傳播訓練,克服梯度消失問題。由于手語的本質是一種人類肢體表達的語言,其語義具有豐富的上下文信息,預測一句話中某個詞的意思不僅需要根據前文來判斷,還需要考慮到它后面的內容,例如“眼睛黑的發亮”中“亮”是對“黑”程度的一種表示,而LSTM 無法捕捉到這一語義信息。因此,采用BLSTM 網絡來挖掘手語視頻前后動作之間的語義關聯,在避免復雜時序分割的同時記住長期的信息,提高識別和翻譯的準確度。BLSTM 模型原理如圖2 所示。

從圖2 可見,BLSTM 由前向LSTM 和后向LSTM 組合而成,使得網絡在每個時間步都有關于序列的后向和前向信息,以2 種方式運行網絡的輸入,一種從過去到將來,一種從將來到過去。向后運行的LSTM 中保留了將來的信息,并且使用了2 個隱藏狀態相結合,使網絡能夠在任何時間點保存過去和將來的信息,從而更好地挖掘手語上下文之間的語義關系,提高了識別準確率。

圖2 BLSTM 模型圖

2.3 CTC 對齊與DropOut 層

CTC(connectionist temporal classification)[26]主要是解決神經網絡label 和output 不對齊的問題,避免了復雜輸入輸出的手動對齊問題,適合OCR 工程或手語識別等序列應用,其中一個path的計算方式如下:

式中:序列x 表示輸入數據,序列y 表示輸出數據,L 代表序列標簽的label,當給定一個輸入時,CTC函數會將t 從1 到T 的每個時間點的概率相乘,最后得到對應路徑的概率。

此外,考慮到在連續手語識別任務中,經常存在模型參數過多而訓練數據集不足的情況,訓練出來的模型很容易產生過擬合的現象。具體表現為盡管模型在訓練數據集上準確率較高,但是在測試集上損失函數比較大,預測準確率較低。而Dropout 層的加入可以提高模型的泛化能力,有效避免訓練后手語模型過分依賴某些局部特征。因此,在CNN 網絡的卷積層、全連接層以及BLSTM網絡內部的4 個不同子網絡中分別加入Dropout層,并從0 開始不斷增加概率P 值進行對比實驗,觀察不同處理情況下的DropOut 層對識別結果的影響。經過實驗證明,在CNN 網絡的全連接層和正向LSTM 的4 個子網絡層分別加入DropOut 層,并將概率P 設置為0.8 時該模型識別效果最佳。

3 實驗結果與分析

在2 個公共數據集上對本文方法進行實驗驗證和分析,分別為中國手語數據集CSL(chinese sign language dataset)和ChaLearn Lap 大規模連續手語數據集ConGD。

1)CSL 數據集由中國科學技術大學提出,為解決中國手語識別和翻譯問題建立的大規模手語數據集,其中連續手語包含100 個語句即100 類,每類包含250 個視頻,由50 個不同的操作者,每人錄制5 遍組成。視頻單幀圖像分辨率為1 280*720,幀率為30 fps,視頻長度3~15 s 不等。每個視頻實例均由專業的CSL 教師用完整的句子進行注釋。部分CSL 數據如圖3 所示。

圖3 CSL 數據集樣例

2)在常被用于手語識別算法研究的ConGD數據集進行了實驗,數據集共47 933 個視頻,包含RGB 和深度圖像,每個視頻代表一個連續手語動作或一個孤立詞手勢(連續語句和孤立詞視頻混合在一起),由21 個操作者執行,部分ConGD 數據集如圖4 所示。

圖4 ConGD 數據集樣例

3.1 數據加載預處理

將數據集通過Python 腳本以9∶1 的比例劃分為訓練集和測試集,切幀后的圖片大小為1 280×960。觀察以上2 個數據集可見,視頻幀包含大量無效冗余的背景數據,增加了網絡運算的數據量和負擔,影響識別結果。下面對數據集采用不同的自適應采樣方法進行預處理。

1)隨機分割預處理

將圖像隨機分割為320×320 的區域,再送入網絡進行訓練,如圖5 所示。

圖5 隨機分割處理圖片

2)等比例縮放預處理

先將數據集的訓練集等比例縮小至高為360后,再采用隨機分割方式,分割320×320 區域,將分割后的圖片幀送入網絡,如圖6 所示。

圖6 等比例縮放+隨機分割處理圖片

實驗中測試集均采用等比例縮放至高為360,再中心分割為320×320 區域的方法,分割后的圖片幀如圖7 所示。

圖7 等比例縮放+中心分割處理圖片

以上為對CSL 的預處理同樣用于對ConGD數據集的預處理。

3.2 實驗環境及網絡參數

主要設計實現了2 種深度學習網絡,一種是采用含有7 層卷積層,并在第3 層使用Relu 激活函數,結合4 層池化層組合成的CNN 網絡,連接BLSTM 網絡,組合成一個CRNN 網絡;另一種是前面的CNN+BLSTM 網絡不變,加入Dropout 層,設置遺忘率為0.8,組合成一個帶DropOut 功能的CRNN 網絡。網絡的輸出結果送入CTC 算法后,得到最終的分類結果。實驗環境配置及相關參數如表1 所示。程序運行時CPU、GPU 與RAM 的占用率如表2 所示。本文網絡的主要參數如表3所示。

表1 實驗環境配置信息

表2 運行時設備占用率

表3 網絡的主要參數

3.3 實驗結果對比

本節給出了本文算法的結果,并與目前已經公布文獻中的不同識別方法得到的結果進行比較,包括S2VT、LSTM-E 等基于LSTM 的平行算法,以及一些傳統的連續手語識別算法。在CSL 和ConGD 2 個數據集上的實驗結果如表4、表5所示。

表4 在CSL 上的各類算法識別結果

表5 在ConGD 上的各類算法識別結果

表4 和表5 中的Accurary 即常見的Jaccard 索引指標,對于序列s 的第i 個類的準確率定義為:

式中:Gs,i和Ps,i分別表示序列s 中的第i 個手勢的正確標簽和預測標簽,通過以上公式來衡量預測結果對Ground Truth 的接近程度,該指標越高,識別結果越準確。

從表4—5 可以看出,本文方法在CSL 上取得了目前為止最高的精度,其中含DropOut 層方法的準確率比不含DropOut 層的方法高1.2%;在ConGD上,含有DropOut 層的方法也獲得了2.3%的精度提升,2 種方法都取得了60%以上的高識別率。通過對比分析發現,本文方法1 的準確率(60.2%)略低于文獻[36]的方法(61.03%),而方法2 的準確率(62.5%)高于文獻[36],驗證了增加DropOut 層能夠有效增強網絡的抗過擬合能力及泛化性能。而文獻[37]中提到的方法是采用了典型的時序分割+識別的思想,通過分割網絡和識別網絡2 個大模塊實現,且在分割階段用到了RGB 和深度兩路的圖像輸入,在識別階段用到了RGB、深度和光流三路的輸入,使用Res3D 網絡作為基本的特征提取網絡,雖然最終取得了71.63%的準確率,但是從輸入流來看比較復雜,對源數據的要求比較高;同時,整個網絡的參數量也很大,訓練所需的GPU 內存和運行時間代價都比較大。相對來說,本文提出的方法僅僅使用RGB 圖像作為輸入,無需進行時序分割,直接實現端到端的連續手語識別,算法更簡潔,具有更好的普適性。

3.4 實驗過程具體分析

為了分析數據預處理和DropOut 層對網絡性能的影響,進一步對實驗過程進行分析。在CSL數據集上,識別100 類連續手語視頻,不含Drop-Out 層和含DropOut 層的網絡損失率曲線與準確率曲線如圖8 所示。

從圖8 可以看出,隨著訓練的開始,不含Dropout 層模型的Loss 很快收斂,同時Accuracy 也很快突破80%。平均調用8 核GPU 情況下,6 h訓練17 輪左右,訓練至80 輪以后,Loss 和Accuracy 都逐漸穩定。Loss 第1 次降到1.0 以下是在迭代17 次以后,對應的Accuracy 的數值為0.878,Accuracy 第1 次達到0.9 是在迭代22 次以后,對應的Loss 的數值為0.756 828。含有Dropout 層模型的Accuracy 更早到達了0.9,Loss 收斂速度也更快,訓練至70 輪后Loss 和Accuracy 已逐漸穩定,且最終Accuracy 值高于不含Dropout 層的情況。

圖8 不含DropOut 層和含DropOut 層的網絡損失率曲線與準確率曲線

對于數據預處理以及DropOut 層的使用情況,具體實驗方案和對應的結果如表6 所示。

表6 實驗方案結果

從表6 可以看出,等比例縮放與隨機分割相結合的預處理方案比隨機分割處理方案具有更快的訓練速度,但由于數據量太少,很快出現了過擬合的現象,在實驗1 的數據中,Loss 和Accuracy 的上下浮動較大。對于包含DropOut 層的網絡模型,比較實驗2 和實驗4,隨機分割預處理方案出現了Accuracy 二分化的現象,由此推理出隨機分割預處理對模型訓練有較大的錯誤導向,而采用等比例縮放與隨機分割相結合的預處理方案后,網絡的Loss 值可以保持收斂,且隨著迭代次數上升,準確率也有所上升。綜合對比4 種方案,采用等比例縮放與隨機分割相結合的預處理方案結果更優,且含有DropOut 層的網絡模型具有較強的抗過擬合能力和泛化性能。

4 結論

針對連續手語識別問題,通過自適應視頻采樣方法對視頻進行預處理,有效去除了無關背景的干擾;使用CNN 對視頻幀進行特征提取后,利用BLSTM 模型學習序列的雙向依賴信息并進行時空序列建模,最后通過CTC 算法得到識別結果。通過實驗證明了在特定位置加入指定數值的DropOut 層可以有效解決模型過擬合問題,提高網絡的泛化能力和識別準確率。本文模型在當前公知的CSL 和ConGD 數據集上獲得了接近最高的識別結果。下一步將繼續優化視頻采樣方法及網絡模型,轉化為實際手語識別應用。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲精品第一页不卡| 美女内射视频WWW网站午夜 | 国产精品福利社| 国产第一色| 三区在线视频| 国产网站免费看| 在线观看国产精品日本不卡网| 亚洲国产天堂久久综合226114| 亚洲毛片在线看| 爱色欧美亚洲综合图区| 国产乱子伦手机在线| 国产成人亚洲精品蜜芽影院| 国产白丝av| 99久久国产综合精品2020| 色综合五月婷婷| 久久精品人人做人人爽电影蜜月| 亚洲三级网站| 欧美另类精品一区二区三区| 久久天天躁狠狠躁夜夜躁| 亚洲精品第一页不卡| 无码区日韩专区免费系列| 精品91视频| 国产成人精品18| 夜夜操狠狠操| 免费在线成人网| 国内精品自在自线视频香蕉| 国产99热| 91美女在线| 欧美亚洲国产日韩电影在线| 国产青榴视频在线观看网站| 国产高清又黄又嫩的免费视频网站| 国产成人夜色91| 精品视频福利| 久久亚洲欧美综合| 午夜a视频| 秋霞一区二区三区| 国产91导航| 无码国产偷倩在线播放老年人| 国产呦视频免费视频在线观看| 国产欧美日韩视频一区二区三区| 亚洲三级网站| 国产第一页免费浮力影院| 69国产精品视频免费| 亚洲日韩Av中文字幕无码| 美女扒开下面流白浆在线试听| 免费一级无码在线网站| 国产亚洲精品97AA片在线播放| 国产超碰一区二区三区| 999精品视频在线| 日日碰狠狠添天天爽| 伊在人亞洲香蕉精品區| 欧美精品xx| 老色鬼欧美精品| 亚洲人成在线精品| 曰韩人妻一区二区三区| 亚洲美女高潮久久久久久久| 中文字幕免费视频| 精品剧情v国产在线观看| 免费看黄片一区二区三区| 四虎国产精品永久一区| 日本成人不卡视频| 天堂久久久久久中文字幕| 天天摸天天操免费播放小视频| 欧美日韩亚洲国产| 谁有在线观看日韩亚洲最新视频 | 成人免费午夜视频| 久996视频精品免费观看| 精品福利国产| 国产精品久久精品| 国产精品免费福利久久播放| 国产chinese男男gay视频网| 最新无码专区超级碰碰碰| 亚洲一区网站| 久久精品嫩草研究院| 免费a级毛片18以上观看精品| 中文字幕无码制服中字| 亚洲人成网站日本片| 亚洲欧美一区二区三区麻豆| 日韩a级毛片| 中文字幕波多野不卡一区| 二级特黄绝大片免费视频大片| 日本不卡视频在线|