融合自適應圖卷積與Transformer序列模型的中文手語翻譯方法

2023-01-01 00:00:00應捷徐文成楊海馬劉瑾鄭樂芊

計算機應用研究 2023年5期

摘要：針對手語翻譯方法所存在的動作特征提取以及時序翻譯方面存在的問題，提出一種融合自適應圖卷積AGCN與Transformer時序模型的AGCN-T手語翻譯網絡。自適應圖卷積網絡用于學習手語動作中骨骼節點的交互空間依賴信息；Transformer時序模塊捕捉手語動作序列的時間關系特征信息并將其翻譯成可理解的手語內容。此外，在預處理部分，提出了一種移動窗口的關鍵幀提取算法，并用MediaPipe姿態估計算法對關鍵幀圖像序列進行骨架提取。實驗表明，該方法在大型中文連續手語數據集CCSL的詞錯率達到了3.75%，精度為97.87%，優于其他先進的手語翻譯方法。

關鍵詞：手語翻譯；自適應圖卷積；Transformer時序模型；關鍵幀提取；姿態估計

中圖分類號：TP391.4文獻標志碼：A

文章編號：1001-3695（2023）05-048-1589-06

0引言

手語在聾啞人群的日常生活中起著不可或缺的作用，它與其他語言類似，也有著特定的表達方式。手語語義解釋任務的目的是將手語視頻轉換為可理解的文本信息，一般可分為手語識別和手語翻譯任務。手語識別任務是要解決視頻幀與手勢詞匯的映射問題，因此手語識別也被視做一個視頻分類任務。而手語翻譯是將動作序列轉換成連續的詞匯序列，更符合現實表達。因此，本文對手語翻譯任務進行研究，將視頻中連續手語動作的姿態信息翻譯成語義豐富長句子序列。

早期關于手語識別工作中，研究人員較多使用手工特征來獲取手語姿態特征。如Zhang等人［1］提出一種自適應的隱馬爾可夫算法識別中文手語，利用帶主成分分析的方向梯度直方圖（histogramoforientedgradient，HOG）［2］的方法來捕捉外觀特征信息。得益于深度學習技術在圖像領域的發展，Guo等人［3］構建了一種基于分層深度遞歸融合的手語翻譯方法，利用三維卷積神經網絡（3DCNN）對手語的動作序列進行特征提取并利用LSTM（longshorttermmemory）進行全局時間線索的表征學習。盡管利用手工或者卷積網絡獲取手語圖像的方法可以獲取到較高的準確率，但它們在對手語視頻捕捉特征的同時也會關注圖像中其他無關的背景，導致冗余信息過多而致使識別效率降低。

隨著人體姿態估計技術的快速發展，可以利用姿態估計算法從輸入的RGB手語視頻提取出手語動作的骨架數據信息。與圖像數據模態的手語識別方法［4］相比，骨架數據不需要考慮手語視頻的復雜背景以及冗余信息。Ko等人［5］利用OpenPose［6］姿態算法獲得連續手語姿態節點，并通過時序編—解碼模型進行手語句子序列預測。Xiao等人［7］提出了基于骨骼數據的雙向生成的中文孤立手語識別模型。盡管這些方法通過姿態估計的方法實現對手語動作的識別，但它們并沒有關注手語姿態的骨架關節點之間的空間相關性。

進一步，Yan等人［8］提出時空圖卷積模型（spatialtemporalgraphconvolutionalnetwork，ST-GCN）來捕捉動態骨骼運動特征的時空依賴關系，他們認為骨骼動作信息最能夠表現人的運動意識，而且骨架信息對尺度變化、背景干擾等因素具有很強的魯棒性。Amorim等人［9］將這種基于骨架序列的時空圖卷積動作識別方法應用到手語識別任務上。然而，這種方法只依賴人體固有的關節連接圖信息，忽略了那些不相鄰的關節聯系。比如“鼓掌”時，雙手之間進行接觸從而產生潛在的依賴關系，但是雙手在人體物理結構上不相連接。

因此，本文提出一種融合自適應圖卷積（adaptivegraphconvolutionnetwork，AGCN）與Transformer時序模型的AGCN-T手語翻譯網絡。其中，AGCN用于捕捉手語動作骨架節點的長距離依賴關系，相比原有的ST-GCN［8］，它具有更好的動作結構適應能力。最后利用Transformer［10，11］序列模型來捕捉空間特征序列的上下文依賴關系并輸出預測詞匯序列。總之，本文方法的貢獻可歸納為：

a）提出了一種自適應圖卷積網絡應用于手語翻譯任務的動作空間特征捕捉，這種自適應結構使圖卷積網絡能夠更好地適應動作結構。

b）采用具有多注意力機制的Transformer時序模塊，用于捕捉自適應圖卷積網絡獲取的空間特征序列的時間上下文依賴關系并將其翻譯成可理解的手語內容。

c）提出利用姿態估計算法從手語視頻關鍵幀圖像序列中捕捉手部、面部以及身體的骨架數據。相比于圖像數據，骨架數據具有噪聲少、魯棒性高、計算開銷少等優點。

d）提出的AGCN-T手語翻譯框架在CCSL（Chineseconti-nuoussignlanguage）中文連續手語數據集中進行了大量的實驗，表明本文提出的手語翻譯方法的有效性。

1基于自適應圖卷積與時序注意力模型的手語翻譯方法

1.1總體概述

如圖1所示，提出的AGCN-T手語翻譯框架結構包含三個部分：

a）關鍵幀提取和姿態估計模塊。由于手語視頻圖像數據量大，本文采用基于移動窗口的關鍵幀處理方法實現手語動作關鍵幀提取，以提高手語識別及翻譯的效率和準確率。然后從手語視頻關鍵幀圖像序列中捕捉手部、面部以及身體的骨架數據。相比于傳統采用圖像數據進行手語識別的方法，骨架數據具有噪聲少、魯棒性高、計算開銷少的優點。

b）自適應圖卷積模塊。由于手語動作的骨架分布是一種非歐氏結構數據，本文設計了一種可變長的卷積核來提取骨骼圖的空間特征并在原始人體姿態的圖結構上引入可學習固有骨架的鄰接信息的參數矩陣LP和用于捕捉任意長距離不相鄰節點依賴關系的參數矩陣BP。這使得融合后的特征既包含原有的人體特征，又包含不相鄰手語動作節點之間的依賴聯系。最后對多個自適應圖卷積模塊進行堆疊排列，并在各個模塊之間添加殘差連接，使模型提高了信息流通，避免了梯度消失和退化的問題。

c）時序翻譯模塊。采用具有多注意力機制的Transformer時序模塊，用于捕捉自適應圖卷積網絡生成的空間特征序列的時間上下文依賴關系，并將其翻譯成可理解的手語內容。

1.2基于移動窗口的關鍵幀處理

連續手語視頻包含過渡性的幀圖像和關鍵動作的幀圖像，關鍵幀所對應的手語動作往往包含著更多信息。首先，本文方法利用幀間差分法［12］獲取圖像差分值。如圖2所示，假定當前樣本視頻的相鄰兩幀圖像分別為Fn-1和Fn，在灰度處理后計算其絕對差分值并得到差分圖像De，最后進行二值處理得到圖像差分值并將其標準化處理。

其次，考慮到對圖像差分值進行排序并取前k個最大的作為關鍵幀的方法會使峰值點附近的幀被選取，而這些圖像多為相似場景。因此，本文方法采用算法1獲取關鍵幀圖像。圖3為移動窗口法關鍵幀輸出。圖4為相應的關鍵幀圖像以及對應的標準差分值，圖下標識為索引值、標準差分值。

算法1移動窗口關鍵幀提取算法

輸入：手語樣本視頻和關鍵幀的數量K。

輸出：關鍵幀圖像。

a）遍歷樣本視頻獲取圖像幀數量N并按照幀間差分法輸出標準圖像差分值D，然后根據輸入的關鍵幀數K計算移動窗口的尺寸w=N/K。

b）初始化移動窗的起點和終點分別為m0=0、m1=N-1。判定當前幀索引t是否滿足t-w/2gt;m0或t+w/2lt;m1。

c）如果滿足，則當前窗口的起點和終點重置為m0=t-w/2，m1=t+w/2，否則保持初始化的值。

d）比較當前移動窗口［m0，m1］內圖像幀對應的差分值并將最大的差分值d對應的圖像索引值t存入數組M。執行完轉步驟b），直至所有幀都執行完。

e）根據得到的關鍵幀索引的數組M=［t1，t2，…，tk］輸出關鍵幀圖像。

首先利用MediaPipe［13］框架的姿態估計算法對輸入的關鍵幀序列進行骨架數據獲取。如圖5所示，每幀圖像估計的67個骨骼關節點包括25個上半身節點以及兩只手的各21個關節點。手語動作的骨架分布是一種非歐氏結構數據，不能直接用常見的卷積神經網絡CNN或者遞歸神經網絡RNN進行處理。圖卷積的本質就是尋找一個可學習的卷積核，可以類比于CNN在二維圖像上的卷積特征提取，設計一種可變長的卷積核來提取骨骼圖的空間特征。

1.4自適應圖卷積網絡

1.3節所構建的手語動作的骨架圖數據的拓撲結構為人身體的物理結構，它產生的圖數據僅僅表示了人肢體關節的相互鄰接的節點依賴聯系，無法傳達出非相鄰肢體節點之間的交互信息。如圖6所示，“人”對應的動作，雙手之間的聯系更為密切，但雙手并沒有直接連接；“洗臉”對應的動作，手與臉之間的聯系更為密切，但手與臉在骨架上并不是直接連接。因此，構建不相鄰骨架節點之間的交互聯系是有必要的。

如圖8所示，本文在空間特征提取模塊將多個自適應圖卷積單元進行堆疊排列，并在各個模塊之間添加殘差連接，使模型提高了信息流通，避免了梯度消失和退化的問題。上述過程為單幀手語骨架的空間特征提取過程，對于手語視頻的所有幀重復相同的過程并按照時間維度進行拼接。具體地，單個視頻（B=1）每幀的數據維度為B×D×V，通過核k=（1，V）平均池化操作后得到數據維度為B×D×1，最后將T幀的空間特征序列拼接后得到數據XB×D×T。

1.5Transformer序列翻譯模塊

Transformer［10，11］序列翻譯網絡最早是用于解決機器翻譯問題而提出來。與以往基于RNN或CNN的編解碼器網絡不同，它完全基于注意力機制的編解碼器網絡，主要由多頭注意力模塊（multi-headattention，MHA）、位置前饋網絡（positionfeedforwardnetwork，PFFN）以及位置編碼層（positionencoding，PE）等模塊構成。

如圖1（b）所示，首先需要對Transformer網絡編碼器以及解碼器的輸入端分別進行手語特征向量嵌入和語料詞句序列向量嵌入。a）對于編碼器，首先將自適應圖卷積網絡產生的骨架空間特征序列XB×D×T線性投影為模型所需要的數據XB×DTrans×T，由于Transformer擯棄了RNN形式的編解碼器結構，導致其自注意力結構不會處理序列的位置信息，所以，需要在編碼器的embedding層后加入位置編碼層得到X′t；b）在解碼器輸入端，首先本文將語料庫中手語句子所包含的詞語以及特殊符號構成詞匯庫，然后將對應詞向量Y={Ym}Mm=1進行詞向量嵌入和位置編碼處理得到Y′t，M表示詞匯庫中詞語的數量。

在解碼器端，多頭注意力函數還包括掩碼注意力模塊與交叉注意力模塊。其中，掩碼注意力模塊是解碼器特有的結構，由于模型進行解碼時是通過計算之前的輸出與當前的解碼器輸入信息來決定當前時刻的輸出內容。所以為了保證將來的向量信息不被提前解碼，需要對當前時刻之后的信息進行掩碼處理。交叉注意力模塊主要用于捕捉手語空間特征與手語詞句信息的交互聯系，其中K、V來自于編碼器的輸出，Q來自于解碼器上一時刻的輸出。

此外，編碼器或解碼器都是由N個相同的編碼層或解碼層堆疊而成的。每個編/解碼層包含多頭注意力層（MHA）和位置前饋層（PFFN）兩個子模塊，它們之間通過殘差歸一化模塊（addamp;LN）進行連接。其中add表示殘差連接，用于解決梯度消失以及權重矩陣退化問題；LN（layernormalization）表示層歸一化，對層特征歸一化可以保證數據分布的穩定性，加速模型的收斂能力。由于多頭注意力層通過矩陣乘法計算變量的相似關系，但是這種線性變換的方式會抑制模型的表達能力。位置前饋層通過引入非線性ReLU激活函數來強化序列之間的表達能力。為了獲取最終預測句子序列，還需要對解碼器輸出out進行全連接線性映射并通過softmax函數歸一化預測值，最后通過字典映射輸出最大概率的單詞。

2實驗與分析

2.1數據預處理

本文實驗模型部署的顯卡設備為NVIDIATeslaP40，框架環境為PyTorch1.10。實驗數據集是由USTC提供的中文連續手語數據集CCSL［16，17］，表1顯示了數據集的具體信息。

為了驗證模型的有效性，如表2所示，按手語工作者劃分樣本視頻。將前80%數據共計20000個樣本用于訓練（前40個手語工作者，40×5×100），剩余數據共計5000個樣本用于測試（后10個手語工作者，10×5×100）。

其次，實驗對語料庫進行兩種策略的分詞處理：a）利用Python的分詞庫對原始語料庫進行分詞處理，生成的字典包含178個中文詞匯，此外，實驗分別為字典添加起始符、停止符、填充符〈SOS〉〈EOS〉〈PADING〉；b）考慮中文詞語可拆分成單獨的字，實驗對語料庫進行拆字處理，最終生成的字典包含253個字符。如圖10所示，在手語姿態骨架提取部分，考慮人體下半身并不參與手語動作的執行，本實驗只選取身體部分上半身25個關節節點和手部的42個關節點。其次，由于MediaPipe姿態估計算法生成的身體節點與手部節點的維度不一，所以取其公共部分的二維坐標x、y作為模型的數據輸入。此外，為減少數據發散以及提高模型的推理能力，實驗對所獲取的骨架坐標數據進行了歸一化處理。

2.2實驗參數

原始視頻數據經過姿態歸一化處理后得到的骨骼數據形狀為B×T×C×V（16×32×2×67），隨后將骨骼數據進行空間特征提取。其中自適應圖卷積模塊由三個AGCN單元構成且每個單元的輸出通道均為64，并在最后一個AGCN輸出后加入池化層（池化核大小為（1，67））得到數據形狀為B×D×T（16×64×32）。在Transformer序列翻譯部分，輸入或輸出特征維度DTrans=512，多頭注意力機制的頭數h=4，編/解碼器對應的子編/解碼層數N=4。在訓練階段，設定樣本輸入批量大小為16，手語關鍵幀數量設置為32，初始學習率為1E-4，模型訓練輪次為200次。采用Adam優化器來優化網絡。此外為了防止模型過擬合，采用dropout正則化對參數進行隨機丟棄，dropout設定為0.5，權重衰減weight-decay設定為1E-5。

2.3模型評價

實驗使用WER、Ins、Del、precision、BLEU指標對手語翻譯模型進行評估。其中WER（worderrorrate）為詞錯率，表示目標句子與預測句子之間最小的編輯次數。允許的編輯操作包括替換、插入以及刪除等操作。

WER=S+D+IN（13）

其中：S表示替換次數；D表示刪除次數；I表示插入次數；N表示目標詞匯的單詞數；Del和Ins表示刪除和插入單詞的比例。如式（14）所示，precision表示嚴格正確的句子比例。BLEU［18］采用一種n-gram的匹配規則比較預測長句和目標長句n組詞的相似占比。

precision=正確翻譯的句子中詞語的數量句子中詞語的總數量（14）

2.4實驗分析

2.4.1模型消融分析

提出的AGCN-T手語翻譯網絡由用于空間特征提取的自適應圖卷積網絡和用于將特征序列翻譯成詞匯序列的Transformer序列翻譯網絡兩個部分構成。為了驗證所設計模塊對實驗結果的影響，需要對實驗進行消融分析。

a）為驗證骨架數據對模型性能的影響，對手語圖像數據進行對比實驗測試。具體為：利用兩種經典的卷積網絡ResNet101［19，20］和Inception-ResNet［21］的預訓練模型對手語圖像進行卷積特征提取。考慮輸入的RGB視頻的尺寸（1280×720）過大，實驗將輸入的圖像尺寸等比例調整為128×72。隨后為了獲取預訓練卷積網絡捕捉的手語特征信息，需要將卷積網絡的最后一層全連接層進行刪除并將特征信息輸出至Transfor-mer編碼器輸入端。

b）為驗證本文提出的自適應圖卷積模型的有效性，實驗利用原始圖卷積模型對骨架數據進行空間特征提取。為了保證實驗的公平性，骨架數據輸入格式以及模型的輸出通道數均保持不變。然后將原始圖卷積生成的特征信息輸出至Transformer編碼器輸入端。

c）為驗證本文AGCN-T手語翻譯網絡的Transformer序列翻譯模型的有效性，對門控循環單元［5，22］（gaterecurrentunit，GRU）時序編—解碼網絡進行對比實驗。通過將自適應圖卷積網絡生成的手語特征信息輸出至GRU時序編解碼網絡的編碼器的輸入端并對其進行編—解碼處理。

實驗結果如表3所示，自適應圖卷積AGCN特征提取方法的Del、Ins、WER、precision、BLEU的評價指標分別為0.34%、0.21%、3.75%、97.87%、96.14%。它的各項性能均遠遠優于基于圖像卷積ResNet-101［19，20］和Inception-ResNet圖像特征提取方法。

如圖11（b）（c）所示，兩種卷積網絡都不同程度地捕捉到與手語動作特征的無關背景信息。相比之下，骨架數據量更少，對場景以及光照環境具有更強的魯棒性。其次，本文方法與圖卷積方法相比，詞錯率降低了1.68%，精度提升了3.73%。這表明本文自適應圖卷積方法可以學習到更多非相鄰骨架節點間的依賴聯系，更適合手語動作特征提取。

此外，實驗將傳統的基于門控循環單元（gaterecurrentunit，GRU）的編—解碼模型與本文采用Transformers時序翻譯網絡進行對比，詞錯率上升了4.52%，精度下降了1.63%。這是由于GRU在進行長距離序列計算時會丟失時間信息，而Transformer是完全基于注意力機制的編解碼器的網絡結構，使其能夠對長序列進行上下文依賴特征進行建模。如圖12所示，實驗隨機選取四組樣本對兩種不同的時序模型進行測試，圖中基于Transformer的翻譯模型的結果對應預測句子1，GRU編解碼器模型的結果對應預測句子2。分析可知“他”“你”“是”等詞以及“幸福”“我”對應的手勢很相近，導致模型翻譯有誤。

2.4.2字符形式的影響分析

實驗考慮中文手語數據的句詞特性，如表4所示，將預測輸出端輸出形式劃分為詞語級和字符級進行比較。可以看出詞語級別的主要指標WER要低于字符級1.37%，precision要高于字符級2.53%。

圖13（a）為詞語以及字符級的訓練和測試集損失值曲線比較，可以看出詞語級的loss損失值要略低于字符級。如圖13（b）可以看出，在整個迭代過程中詞語級的詞錯率要略低于字符級，而精度值precision要高于字符級。實驗分析可得詞語級的劃分策略表現得更好，這是因為詞語往往為多個字符的固定搭配，而翻譯就是將相關的字符或詞語進行排列組合得到對應句子。相比而言，同一個句子中詞語數要小于字符數，這導致詞語級發生翻譯錯誤的概率要低于字符級。

2.4.3不同手語翻譯方法分析

實驗將其他在連續手語識別中廣泛應用的方法與本文模型進行比較，其實驗結果如表5所示。比較方法包括LSTM+CTC［23，24］、SLT［24，25］、RNN-Transducer［24］、KA［24，26］、SkeletonCSLR［5］等。LSTM+CTC模型利用連接主義時間分類CTC［27］模塊對目標函數進行標簽的約束對齊。RNN-Transducer［20］通過聯合網絡Joint-Net將卷積網絡學習到的視頻特征和句子表征結合起來。KA［26］通過聯合使用CTC和注意力機制來訓練模型的分層搜索關鍵動作并實現手語翻譯。SkeletonCSLR［5］通過姿態識別算法獲取手語動作的姿態信息，并直接送入時序編—解碼網絡進行連續手語序列解碼。從表5可以看出，AGCN-T手語翻譯框架與僅基于骨架數據的SkeletonCSLR手語翻譯方法相比，詞錯率降低了2.78%。

3結束語

本文提出了一種新的基于手語動作骨架序列的AGCN-T手語翻譯方法，該方法的網絡結構主要包含自適應圖卷積模塊和Transformer時序模塊兩部分。其中自適應圖卷積模塊用于捕捉動作固有節點與長距離骨架節點的空間依賴關系；Transformer序列網絡用于捕捉不同動作幀的時間依賴關系并融合手語詞匯序列的語義信息實現連續手語翻譯。實驗在大型連續手語數據集CCSL上對不同的特征提取器、文本序列輸出形式以及不同手語翻譯模型對本文算法進行比對，結果表明本文方法的有效性。

盡管提出的手語翻譯框架通過分別捕捉手語序列的空間和時間特征信息的方法在CCSL數據集上表現出較好的翻譯效果，但是由于手語動作運動過快，部分肢體的骨架信息丟失。后續的研究希望增加其他模態的數據來提高模型的性能。

參考文獻：

［1］ZhangJihai，ZhouWengang，XieChao，etal.Chinesesignlanguagere-cognitionwithadaptiveHMM［C］//ProcofIEEEInternationalConfe-renceonMultimediaandExpo.Piscataway，NJ：IEEEPress，2016：1-6.

［2］MahmudI，TabassumT，UddinMP，etal.EfficientnoisereductionandHOGfeatureextractionforsignlanguagerecognition［C］//ProcofInternationalConferenceonAdvancementinElectricalandElectronicEngineering.Piscataway，NJ：IEEEPress，2018：1-4.

［3］GuoDan，ZhouWengang，LiAnyang，etal.Hierarchicalrecurrentdeepfusionusingadaptiveclipsummarizationforsignlanguagetranslation［J］.IEEETransonImageProcessing，2019，29：1575-1590.

［4］郝子煜，阿里甫庫爾班，李曉紅，等.基于CapsNet的中國手指語識別［J］.計算機應用研究，2019，36（10）：3157-3159.（HaoZiyu，AliFukulban，LiXiaohong，etal.ChinesefingerlanguagerecognitionbasedonCapsNet［J］.ApplicationResearchofComputers，2019，36（10）：3157-3159.）

［5］KoSK，KimCJ，JungH，etal.Neuralsignlanguagetranslationbasedonhumankeypointestimation［J］.AppliedSciences，2019，9（13）：2683.

［6］CaoZhe，SimonT，WeiSE，etal.Realtimemulti-person2Dposeestimationusingpartaffinityfields［C］//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway，NJ：IEEEPress，2017：1302-1310.

［7］XiaoQinkun，QinMinying，YinYuting.Skeleton-basedChinesesignlanguagerecognitionandgenerationforbidirectionalcommunicationbetweendeafandhearingpeople［J］.NeuralNetworks，2020，125：41-55.

［8］YanSijie，XiongYuanjun，LinDahua.Spatialtemporalgraphconvolutionalnetworksforskeleton-basedactionrecognition［C］//Procofthe32ndAAAIConferenceonArtificialIntelligence.PaloAlto，CA：AAAIPress，2018：7444-7452.

［9］AmorimCC，MacêdoD，ZanchettinC.Spatial-temporalgraphconvolutionalnetworksforsignlanguagerecognition［C］//ProcofInternationalConferenceonArtificialNeuralNetworks.Cham：Springer，2019：646-657.

［10］VaswaniA，ShazeerN，ParmarN，etal.Attentionisallyouneed［EB/OL］.（2017-12-06）.http：//doi.org/10.48550/arxiv.1706.03762.

［11］DuYao，XiePan，WangMingye，etal.Fulltransformernetworkwithmaskingfutureforword-levelsignlanguagerecognition［J］.Neurocomputing，2022，500：115-123.

［12］戴鑫，黃愐，張進.幀間差法在視頻目標檢測的仿真應用［J］.電子技術與軟件工程，2021（21）：110-111.（DaiXin，HuangMian，ZhangJin.Simulationapplicationofframedifferencemethodinvideotargetdetection［J］.ElectronicTechnologyandSoftwareEngineering，2021（21）：110-111.）

［13］BazarevskyV，GrishchenkoI，RaveendranK，etal.BlazePose：on-devicereal-timebodyposetracking［EB/OL］.（2020-06-17）.http：//doi.org/10.48550/arxiv.2006.10204.

［14］ShiLei，ZhangYifan，ChengJian，etal.Two-streamadaptivegraphconvolutionalnetworksforskeleton-basedactionrecognition［C］//ProcofIEEE/CVFConferenceonComputerVisionandPatternRe-cognition.Piscataway，NJ：IEEEPress，2019：12018-12027.

［15］HuangYuan，HouXingsong，DunYujie，etal.Anon-localenhancednetworkforimagerestoration［J］.IEEEAccess，2022，10：29528-29542.

［16］PuJunfu，ZhouWengang，LiHouqiang.Iterativealignmentnetworkforcontinuoussignlanguagerecognition［C］//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway，NJ：IEEEPress，2019：4160-4169.

［17］ZhouHao，ZhouWengang，LiHouqiang.Dynamicpseudolabeldecodingforcontinuoussignlanguagerecognition［C］//ProcofIEEEInternationalConferenceonMultimediaandExpo.Piscataway，NJ：IEEEPress，2019：1282-1287.

［18］PapineniK，RoukosS，WardT，etal.BLEU：amethodforautomaticevaluationofmachinetranslation［C］//Procofthe40thAnnualMee-tingoftheAssociationforComputationalLinguistics.Stroudsburg，PA：AssociationforComputationalLinguistics，2002：311-318.

［19］HeKaiming，ZhangXiangyu，RenShaoqing，etal.Deepresiduallearningforimagerecognition［C］//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway，NJ：IEEEPress，2016：770-778.

［20］楊觀賜，韓海峰，劉賽賽，等.基于全局注意力機制和LSTM的連續手語識別算法［J］.包裝工程藝術版，2022，43（8）：28-34.（YangGuanci，HanHaifeng，LiuSaisai，etal.ContinuoussignlanguagerecognitionalgorithmbasedonglobalattentionmechanismandLSTM［J］.PackagingEngineeringArtEdition，2022，43（8）：28-34.）

［21］SzegedyC，IoffeS，VanhouckeV，etal.Inception-v4，inception-ResNetandtheimpactofresidualconnectionsonlearning［C］//Procofthe31stAAAIConferenceonArtificialIntelligence.Stroudsburg，PA：AAAIPress，2017：4278-4284.

［22］ChoK，VanMerrienboerB，GulcehreC，etal.LearningphraserepresentationsusingRNNencoder-decoderforstatisticalmachinetranslation［EB/OL］.（2014-09-03）.http：//doi.org/10.48550/arxiv.1406.1078.

［23］張淑軍，王帥，李輝.基于CNN和BLSTM的連續手語識別［J］.重慶理工大學學報：自然科學版，2022，36（4）：177-186.（ZhangShujun，WangShuai，LiHui.ContinuoussignlanguagerecognitionbasedonCNNandBLSTM［J］.JournalofChongqingUniversityofScienceandTechnology：NaturalScience，2022，36（4）：177-186.）

［24］GaoLiqing，LiHaibo，LiuZhijian，etal.RNN-transducerbasedChinesesignlanguagerecognition［J］.Neurocomputing，2021，434：45-54.

［25］CamgozNC，KollerO，HadfieldS，etal.Signlanguagetransformers：jointend-to-endsignlanguagerecognitionandtranslation［C］//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway，NJ：IEEEPress，2020：10020-10030.

［26］LiHaibo，GaoLiqing，HanRuize，etal.KeyactionandjointCTC-attentionbasedsignlanguagerecognition［C］//ProcofIEEEInternationalConferenceonAcoustics，SpeechandSignalProcessing.Pisca-taway，NJ：IEEEPress，2020：2348-2352.

［27］GravesA，FernándezS，GomezF，etal.Connectionisttemporalclassification：labellingunsegmentedsequencedatawithrecurrentneuralnetworks［C］//Procofthe23rdInternationalConferenceonMachineLearning.NewYork：ACMPress，2006：369-376.

計算機應用研究2023年5期

計算機應用研究的其它文章: 基于自適應聚合與深度優化的三維重建算法; 語義線特征輔助的動態SLAM; 基于SAU-NetDCGAN的天氣云圖生成方法; 面向部件分割的PointNet注意力加權特征聚合網絡; 基于雙分支通道空間依賴和非對稱權重共享卷積的目標檢測優化結構; 基于視覺和文本的多模態文檔圖像目標檢測