999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于視頻的中文連續手語識別算法

2023-07-19 13:07:52劉詩瑤張忠民
應用科技 2023年3期
關鍵詞:特征提取特征模型

劉詩瑤,張忠民

哈爾濱工程大學 信息與通信工程學院,黑龍江 哈爾濱 150001

手語識別(sign language recognition, SLR)將手語視頻翻譯成自然語言,從而擬合聾啞人與正常人之間的溝通鴻溝[1]。在手語識別任務中,主要分為2 類:孤立手語識別(isolated sign language recognition, ISLR)和連續手語識別(continuous sign language recognition, CSLR)。ISLR 是一種細粒度的動作識別,每一個視頻中只包含一個手語動作,孤立手語識別其實就相當于是動作識別。然而CSLR 是將視頻序列轉換為句子序列的任務,在連續手語識別任務中,對于每個視頻,只提供有序的符號注釋,沒有時間邊界注釋[2]。連續手語識別任務比較困難,也是本文的研究重點。

目前大多數的連續手語識別架構包含3 個組件:特征提取模型、上下文模型以及對齊模型。特征提取模型首先從輸入的視頻幀中提取視覺特征,上下文模型關注的則是句子中詞與詞之間的相關性。對齊模型主要解決標簽沒有時間邊界的問題。在特征提取方面,早期的工作設計了細粒度的手工特征提取[3],例如梯度直方圖(gradient histogram, HOG) 、 尺度不變特征變換(scale invariant feature transformation , SIFT)、在幀級手動跟蹤面部特征等。最近的研究中展示了在連續手語識別中深層特征相對于手工特征的優越性。在深度方法中,二維卷積神經網絡(convolutional neural network, CNN)[4]是幀級提取特征最常用的方法。然而二維CNN 不考慮時間依賴性,這通常由循環神經網絡(recurrent neural network, RNN)來解決這個問題。此外,文獻[5]用三維 CNN 來提取時空特征,雖然三維CNN提取的時空特征更為自然,但它的計算成本很高,并需要調整大量參數。除此之外還可以利用二維和一維CNN[6]的組合來提取片段的特征,與三維CNN 相比,該方法在可調整參數少的情況下也獲得了非常不錯的結果。在連續手語識別任務中,由于只提供句子級的標簽,沒有明確的時間邊界,所以需要一個對齊模型來找到視頻幀和注釋標簽之間的映射關系,以便模型可以進行訓練。與傳統的應用隱式馬爾可夫模型 (hidden markov model, HMM)[7]方法不同的是Graves 等[8]采用了連接時態分類(connectionist temporal classification, CTC)[9]的方法進行對齊。CTC 不依賴于輸入和輸出序列之間的事先對齊,而是在模型訓練期間集成所有可能對齊。CTC 損失將所有可能的對齊路徑的概率最大化。

在本文中將選用CTC 作為對齊模型,但是基于CTC 對齊方法的模型在訓練過程中通常都需要對特征提取部分進行微調,已經有研究[10]表明特征提取網絡在端到端的學習中無法進行充分的學習從而得到有效的特征。為了解決這個問題,本文提出增加輔助對齊模塊,來強制特征提取器僅基于視覺特征來進行預測,使用聚合交叉熵散度[11]和CTC 損失函數進行聯合訓練。為了更好地提取特征,在特征提取模塊采用2D 和1D CNN提取幀級特征,與3D CNN 相比,需要調整的參數更少,并加入通道-空間注意力機制模塊(convolutional block attention module, CBAM)。同時為了提高模型魯棒性以及緩解過擬合的問題,在訓練過程中進行隨機掉幀機制。本文的具體工作如下:1)對連續手語識別中的基礎模塊設計進行簡單介紹;2)對基礎模塊進行改進,并對隨機掉幀機制、引入的注意力機制以及聯合訓練策略進行詳細介紹;3)通過消融以及對比實驗證明方法的可行性。

1 連續手語識別基本模型

1.1 框架總體概述

現有的基于端到端進行連續手語識別的框架主要包括特征提取、序列學習以及對齊模塊這3 個基礎部分。本文網絡的整體設計也遵循這一思路。在本節對基礎模塊的設計進行簡單介紹?;A框架如圖1 所示,在特征提取階段首先使用2D-CNN 提取幀級特征,再用1D-CNN 提取時間感受野為 Δt的局部視覺信息。在序列學習階段,將1D-CNN 輸出作為視覺特征送入到雙向長短時記憶網(Bi-directional long short-term memory,BiLSTM),并選用CTC 作為對齊模型。

圖1 連續手語識別基本框架

1.2 特征提取器

基于視頻的手語翻譯的主要目的是將輸入的長度為T幀的視頻序列x=(x1,x2,···,xT)預測成相應的標簽序列l=(l1,l2,···,lN)。特征提取器在整個網絡架構中非常的重要。如圖1 所示,選擇ResNet-18[12]來提取幀特征,選擇1D-CNN 從相鄰的幀中提取運動信息。用來表示輸入的長度為T的視頻流,使用fCNN來代表二維CNN將輸入視頻序列轉換成某種空間表示序列,其中C代表特征維度。將得到的特征序列送入到1D-CNN 模塊,通過時間卷積以及池化操作之后得到Rt×C→RD,本文用?代表感受野,用δ代表時間步長,用D代表輸出維度,可以得到:

1.3 序列學習模型

在序列學習階段循環神經網絡(RNN)是最常用到的網絡結構,單向的RNN 有一個缺點是它的隱藏層狀態僅以以前的時間步計算。然而手語識別中每個手勢的表現和意義與其前后的語境都密切相關。因此本文使用BiLSTM[13]將時空表示序列映射到有序的標簽序列,BiLSTM 將前向的長短期記憶網絡(long short-term memory, LSTM)和后向的LSTM 結合起來,分別計算前向和后向的隱藏序列:

式中:、為前向LSTM 模塊在第t個時間步隱藏層的狀態,、為后向LSTM 的隱藏狀態,ffro和bck分別為前向和后向傳播系數。此種計算方式有助于遞歸神經網絡同時利用前向信息和后向信息[14]。最后,通過softmax 分類器計算M個標簽的分類概率:

式中:W和b為softmax 分類器所需要學習的權重矩陣和偏差向量,[;]為串聯操作。

1.4 對齊模型

上下文模型生成具有T個時間步長的時空特征序列,為了將特征序列與目標標簽序列對齊,本文使用CTC 方法[9]。CTC 是不需要輸入輸出對齊的,但是對于給定的輸入,為了計算對應輸出標簽的概率,仍需要對所有可能的對齊概率求和。CTC 引入了一系列的隱藏變量π={π1,π2,···,πT},πt∈V∪{blank},其中blank代表的是空白標簽,是用于表示靜默時間步和分隔連續重復光澤符號的特殊標記。隱藏狀態 πt表示輸入時間步長t與目標句子中相應的符號之間的對齊。給定完整序列的CTC 校準路徑的后驗概率定義為

后驗概率公式是為了將路徑 π轉換為相應的符號序列,CTC 定義了一種多對一的映射操作B,它刪除對齊路徑中的所有空白標簽和重復單詞,例如:B(aa-a-b)=B(-aa-abb)=B(a-aaa-b)=aab,用這種方法,可以根據給定的輸入序列x={x1,x2,···,xT}和標簽序列y={y1,y2,···,yL}得到條件概率:

p(π|x)可以近似地計算成CTC 損失可以被定義為

2 改進連續手語識別模型

2.1 改進框架基本概述

以CTC 損失函數對模型進行端到端的訓練會導致對齊模塊過度擬合,特征提取器無法得到充分訓練。本節在圖1 的基礎上提出了一種增加輔助對齊模塊和注意力機制的完整框架,此外,為了緩解過擬合問題,在數據讀取階段還引入隨機掉幀機制。改進的完整網絡框架如圖2 所示。

圖2 改進連續手語識別框架

2.2 隨機掉幀機制

由于手語數據集中的手語數據有限,過擬合仍然是訓練中存在的一個主要問題。為了避免網絡過度學習一些具有代表性的幀而忽略不太具有代表性的幀,本文使用隨機掉幀機制,在網絡的訓練過程中隨機丟掉一些幀。由于數據集中每個視頻的時間有長有短,定義一個取樣間隔F,每個視頻的取樣間隔取決于總幀數,將讀取到的數據幀保存到列表中,并以一定的比例隨機丟棄一些幀。定義一個參數pdrop,根據此參數刪除一個列表中隨機索引對應的元素,并保證最后送入網絡中的每個視頻的幀數相同。隨機掉幀不僅提高了時間效率,還減少了內存占用,因為在訓練和測試過程中處理的幀更少。

2.3 特征提取器改進

為了提升特征提取器的性能本文在殘差結構后加入通道-空間注意力機制[15]。CBAM 注意力網絡的結構如圖3 所示。

圖3 CBAM 注意力機制

采用通道注意力模塊與空間注意力模塊順序連接的方式,輸入的特征F與通道注意力模塊作用點乘,得到特征,同理得到改進之后的特征。其中通道注意力機制是將特征圖在空間維度上進行壓縮,得到一個一維矢量后再進行操作。在空間維度上進行壓縮時,不僅考慮到了平均值池化(average pooling)還考慮了最大值池化(max pooling),其作用原理如圖4 所示。

圖4 通道注意力機制

空間注意力機制是對通道進行壓縮,在通道維度分別進行了平均值池化和最大值池化,其原理如圖5 所示。

圖5 空間注意力機制

通道注意力和空間注意力模塊一個關注位置,另一個關注內容,二者相輔相成。因為本文使用的2D-CNN 網絡是在ImagNet 上預訓練好的,因此不能破壞ResNet 的網絡結構。本文將CBAM 模塊加在最后一層卷積后,同時本次實驗選擇將原始二維殘差網絡的最后一層線性層去掉。注意力機制所加位置如圖6 所示,圖6 中上下2 部分分別代表對特征的通道和空間注意力。

圖6 CBAM-ResNet

2.4 對齊模塊改進

由于CTC 函數使得對齊模塊在樣本有限的CSLR 數據集上比特征提取器收斂得快得多,并且無法向特征提取器提供足夠的反饋。對齊模塊的過度擬合導致特征抽取器的訓練不足,并降低訓練模型的泛化能力。為了增強特征提取器,本結構利用輔助分類器將特征提取器提取到的特征序列進行片段級特征學習。輔助分類器能夠在片段級別對符號詞進行分類,有助于全局序列特征提取。輔助分類器添加在特征提取器后面為

增加的輔助分類器使片段級特征學習更加直接,而不是靠序列學習的反向傳播。為了實現這一點,本文選擇使用在場景文本識別領域中使用的聚合交叉熵(ACE)損失函數[11]。不同于CTC損失函數,聚合交叉熵不考慮路徑對齊的問題,而是計算預測序列中出現的目標單詞數為

式中:詞匯表中第k個符號詞的標準化數量為=Nk/T,Nk為在真實的標簽序列中出現符號k的數量;為在時刻t第k個單元的輸出。聚合交叉熵損失函數強制特征提取器為對齊模塊提供更加強大的視覺特征,在此損失的幫助下,特征提取模塊獲得了與對齊模塊一致的監督,最終損失函數由全局CTC 損失和輔助的ACE 損失構成為

3 實驗結果與分析

3.1 實驗數據集及評價指標

本文使用目前比較流行的手語數據集,即中文手語數據集(Chinese sign language dataset, CSL)[16]來驗證所提出方法的有效性。中文手語數據集是在實驗室條件下收集的,共有100 個手語句子,詞匯量為178。一共有50 名手語演示者將每句話重復表演5 次,數據集中總共包含25 000 個視頻,總時長超過100 h。本文按照8∶2 的比例將數據集拆分為訓練集與測試集。使用標準度量—單詞錯誤率(word error rate, WER)來衡量2 個句子之間的相似性,測量替換、刪除(del)和插入(ins)的最小操作,將預測序列轉換為標簽序列。256×256數據集中部分視頻幀如圖7 所示。

圖7 數據集中部分視頻幀

3.2 實驗設置

本文選用ResNet18[12]作為進行逐幀特征提取的網絡,并在ImageNet 上進行預訓練獲得預權重。所有的幀大小調整為256×256。本文使用Adam 優化器訓練,batch size 設置為8,初始學習率設置為10-4,權重衰減設置為10-5,dropout 設置為0.5,使用Step-LR 來動態調整學習率,BiLSTM的隱藏狀態設置為512。

3.3 對比實驗

在本節中使用WER 評價指標將本文的方法與CSL 數據集上一些現有方法進行比較。為了進行公平的對比,所有的比較方法都使用預訓練的ResNet 模型提取的相同特征。本文旨在以端到端的方式改進連續手語識別。如表1 所示,將本文的模型與現有的一些廣泛用于解決連續手語識別的模型進行了對比。LSTM&CTC是解決序列問題的最基本模型,為了驗證本文所提出方法的有效性,在CSL 數據集上與傳統方法對比,WER 達到16.1%;同時,還將本文的模型與現有的編碼-解碼結構模型進行了對比,在S2VT[17]模型上WER 達到26.5%,在HAN[18]模型上WER 達到 20.5%,在LS-HAN[19]上達到 17.5%。在LSTMglobal-Attention[20]使用全局注意力機制來學習輸入序列和輸出序列之間的對齊,錯誤率達到了12.5%,而本文的方法是在特征提取階段使用注意力機制。在LSTM-LSTM 方法[21]中,編碼器與解碼器均使用LSTM 結構,WER 達到了10.9%。3DCNN+TEM+CTC[22]提出了動態偽標簽解碼,以在迭代過程中生成更好的偽標簽,WER 達到了8.9%,相反,本文的方法是端到端學習,沒有任何迭代。本文的競爭結果得益于更好的特征提取??梢钥闯霰疚牡姆椒ǘ純炗谄渌椒?,并實現了6.9%的WER。

表1 對比實驗結果

3.4 消融實驗

在本節研究各個模塊的有效性,在表2中“baseline”代表不加入注意力機制也不使用輔助分類的基礎架構,“Attention”代表在baseline基礎上加入注意力機制,“ACE”代表增加輔助對齊模。表2 中的“T-WER”代表在訓練集上的錯誤率,“D-WER”代表在驗證集上的錯誤率。

4 結束語

本文提出了一種新的連續手語識別方法。過擬合是在連續手語識別中存在的主要問題之一,這也導致了特征提取器訓練不足。對此,在研究中本文提出了增加輔助對齊模塊,通過強制特征提取器直接進行預測來解決訓練不足的問題。在訓練過程中利用CTC 和ACE 損失函數進行聯合訓練,并通過引入注意力機制和隨機掉幀機制來進一步改善模型的性能。在中文手語數據集CSL 上驗證了本文方法的有效性。

猜你喜歡
特征提取特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
3D打印中的模型分割與打包
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 老司机久久99久久精品播放| 日本不卡在线| 欧美高清国产| 免费大黄网站在线观看| 国产一二三区在线| 久久96热在精品国产高清| 国产国拍精品视频免费看 | 欧美一区二区丝袜高跟鞋| 热99re99首页精品亚洲五月天| 伊在人亚洲香蕉精品播放| 99性视频| 国产综合色在线视频播放线视| 久久精品午夜视频| 国产精品免费福利久久播放| 99在线视频精品| 波多野结衣一区二区三区88| 国产情精品嫩草影院88av| 久久国产精品电影| 色综合中文| 一级毛片免费播放视频| 美女毛片在线| 亚洲欧美激情小说另类| 日韩高清一区 | 麻豆精品视频在线原创| 香蕉蕉亚亚洲aav综合| 91在线视频福利| 91视频区| 人妻丰满熟妇av五码区| 亚洲欧洲日产国码无码av喷潮| 国产丝袜一区二区三区视频免下载| 手机精品福利在线观看| 国产系列在线| 欧美有码在线观看| 亚洲性一区| 亚洲乱强伦| 亚洲欧美在线综合一区二区三区| 一级做a爰片久久毛片毛片| 国产精品成人一区二区不卡| 国产国产人在线成免费视频狼人色| 40岁成熟女人牲交片免费| 久久精品国产国语对白| 麻豆国产精品一二三在线观看| 国产精品丝袜在线| 在线视频亚洲色图| 呦女精品网站| 精品伊人久久久久7777人| 香蕉在线视频网站| 国产91麻豆视频| 欧美视频二区| 日本不卡在线视频| 欧美成人精品在线| 精品福利国产| 欧美午夜小视频| 久久久久久久久18禁秘| 成人一区在线| 国内精品91| 国产精品无码一区二区桃花视频| 国产第一页免费浮力影院| 成人免费视频一区二区三区| 性喷潮久久久久久久久| 亚洲系列中文字幕一区二区| 亚洲第一区在线| 国产精品久线在线观看| 国产精品无码久久久久久| 国产99精品久久| 色婷婷电影网| 国产日韩欧美中文| 东京热高清无码精品| 国产一二三区在线| 91精品国产91久久久久久三级| 美美女高清毛片视频免费观看| 国产精品乱偷免费视频| 麻豆国产精品视频| 五月综合色婷婷| 看av免费毛片手机播放| 欧美 亚洲 日韩 国产| 1769国产精品免费视频| 免费人成在线观看视频色| 欧美高清视频一区二区三区| 亚洲精品天堂在线观看| 99精品在线看| 小13箩利洗澡无码视频免费网站|