999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的手語翻譯:過去、現(xiàn)狀與未來

2025-09-02 00:00:00張磊王振宇連帥帥蒲冰倩劉毓?jié)?/span>秦銘哲
計算機(jī)應(yīng)用研究 2025年8期

中圖分類號:TP183 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2025)08-001-2241-14

doi:10.19734/j.issn.1001-3695.2025.01.0001

Deep learning-based sign language translation: past, present, and future

Zhang Lei 1a,1b,1c ,Wang Zhenyula,1b,1c,Lian Shuaishuaile2,Pu Bingqian 1a,1b,1c , Liu Yutao 1a,1b,1c , Qin Mingzhe 1c,2? (1.a.SchoolffoocoreKboofoosteliceamp;for cesing,c.ibellotsiUsi longjiang ,China;2.HandanPolytechnic Collge,Handan Hebei O56046,China)

Abstract:SLTbasedondeplearning aims totranslatesign language gestures into natural language using depleaming techniques to improve translation’saccuracySLTreducescommunication barrers between normal hearing individualsandthose withhearing impaiments.However,SLTfaces numerouschallngesdue tothelackofstandardizationacross diferentsiglanguages andthe mismatch between sign language gestures and spoken language sentence structures.With thedevelopmentof deeplearning technologies,SLThas gained widespreadatentionfromresearchers.This paper summarized recent approaches on SLTbasedondeeplearning and classifiedtheminto four categories accrding tomodel structureanddevelopment history: linearstructure-basedSLT,encoder-decoderarchitecture-basedSLT,largemodelfine-tuning-basedSLT,andcontrastive learning-based SLT.Byanalyzingthecharacteristicsandperformanceofthese methods,thisstudyprovidedacomprehensive evaluationof theprogressinSLTmethods.Finaly,thepaperoutlined futureresearchdirections,focusingonthepotentialand developmenttrendsofkeytechnologies,cludingrea-timetranslation,onrastivelearing-basedST,andlargemodelfintuning-based SLT.

Key words:deep learning;sign language translation(SLT);machine translation;contrastive learning;large language models;encoder-decoder

0 引言

根據(jù)世界衛(wèi)生組織統(tǒng)計,全球約有4.3億人患有聽力障礙[1]。在日常生活中聽力障礙與普通人之間的溝通存在障礙,阻礙了聽障人士正常的語言表達(dá)。人工智能的發(fā)展進(jìn)步為聽障人士與普通人士的正常交流提供了便利。早期的人工智能語言翻譯基于規(guī)則或者統(tǒng)計的模型進(jìn)行手語翻譯,但其魯棒性和準(zhǔn)確率稍顯不足[2]。隨著深度學(xué)習(xí)技術(shù)的迅猛發(fā)展,以深度學(xué)習(xí)為主的模型可以更好地理解手語提高翻譯效果[3]。相對于傳統(tǒng)模型,深度學(xué)習(xí)模型能夠更有效地捕捉手語的視覺特征和上下文信息,從而提高手語翻譯的準(zhǔn)確性和魯棒性[4,5]

手語翻譯(SLT)旨在利用先進(jìn)技術(shù)理解手語含義,通過模型識別特征并將其翻譯為日常口語[3]。手語翻譯分為傳統(tǒng)手語翻譯和自然手語翻譯[6]。其中,傳統(tǒng)手語翻譯方法分為基于規(guī)則的和基于統(tǒng)計的手語翻譯方法。基于規(guī)則的手語翻譯方法是通過手工制定語法、詞匯和句法規(guī)則,將源語言逐步翻譯為目標(biāo)語言[7,8];基于統(tǒng)計的手語翻譯方法是通過學(xué)習(xí)數(shù)據(jù)集中源語言與目標(biāo)語言之間的對齊關(guān)系,以統(tǒng)計模型來實現(xiàn)翻譯[9,10]。自然手語翻譯方法大多采用基于深度學(xué)習(xí)的手語翻譯方法[3],能夠自動提取和理解手語中的復(fù)雜語言特征,主要基于RNN[11,12]和 Transformer[13]編碼器-解碼器結(jié)構(gòu)的手語翻譯模型實現(xiàn)。

基于深度學(xué)習(xí)的手語翻譯中存在諸多成果,Camgoz等人[3]使用RNN編碼器-解碼器結(jié)構(gòu),通過CNN提取每一幀視頻特征作為模型的輸入,實現(xiàn)手語翻譯。隨著Transformer[13]在視覺[14,15]和自然語言處理[16,17]中優(yōu)異的表現(xiàn),Camgoz 等人[18]使用Transformer編碼器實現(xiàn)連續(xù)手語識別,解碼器通過上下文以及編碼信息實現(xiàn)手語翻譯。上述二階段訓(xùn)練方法,使編碼器專注于連續(xù)手語識別的信息學(xué)習(xí),同時讓解碼器更好地去捕捉上下文信息,因此后期很多手語翻譯研究都專注于使用二階段訓(xùn)練方法[19,20]。然而,這種方法應(yīng)用在實時手語翻譯中會有較高的翻譯延遲,所以 Yin 等人[2]提出了SimulSLT。Simulslt通過注釋(gloss)[22]邊界預(yù)測器和wait-k策略[23]實現(xiàn)了低延遲且高準(zhǔn)確率的實時手語翻譯。為了系統(tǒng)地分析這些方法的優(yōu)劣與適用場景,學(xué)者們對其進(jìn)行了多角度的歸納與分類,以分析不同方法在手語翻譯研究中的意義[6,24]

然而,現(xiàn)有的手語翻譯研究在整理和分類上仍有欠缺。例如,文獻(xiàn)[6]僅將手語翻譯任務(wù)分為傳統(tǒng)手語翻譯和自然手語翻譯,并沒有對自然手語翻譯進(jìn)一步詳細(xì)的分類;Shahin等人[24]對基于RNN和Transformer編碼器-解碼器結(jié)構(gòu)的手語翻譯和手語生成模型進(jìn)行整理,但是其所整理的方法皆為自回歸模型[25],并沒有對非自回歸模型[26]進(jìn)行整理并分析;閆思伊等人[27]將手語翻譯分為手語視頻到文本和手語視頻到注釋到文本的手語翻譯,同樣沒有對非自回歸模型進(jìn)行歸納總結(jié)。此外,隨著大語言模型(LLM)[28~30]和機(jī)器翻譯(machine transla-tion,MT)[31,32]的發(fā)展,越來越多的研究嘗試將LLM和MT方法遷移到手語翻譯任務(wù)中[33.34],但其任務(wù)遷移的手語翻譯算法尚未進(jìn)行系統(tǒng)的歸納。針對手語翻譯缺乏系統(tǒng)性歸納分析的不足,本文從手語翻譯的模型結(jié)構(gòu)(線性結(jié)構(gòu)和編碼器-解碼器結(jié)構(gòu))、模態(tài)差異(單模態(tài)與多模態(tài))以及訓(xùn)練模式(單階段與多階段訓(xùn)練)等方面對已有的手語翻譯算法進(jìn)行分析、整理并通過相互比較加以總結(jié)討論,以進(jìn)一步確認(rèn)已有算法的應(yīng)用領(lǐng)域。

1數(shù)據(jù)集與評估方法

1.1手語翻譯數(shù)據(jù)集

本節(jié)對手語翻譯數(shù)據(jù)集進(jìn)行概述,并在表1展示其細(xì)節(jié)。

表1手語翻譯數(shù)據(jù)集

Tab.1Sign language translation datasets

RWTHPHOENIX-Weather-2014T(Phoenix-2014T)[3]是德國手語數(shù)據(jù)集,主要用于將德國手語翻譯為德語口語的任務(wù)。該數(shù)據(jù)集源自德國天氣預(yù)報,由專門的手語專家進(jìn)行手語注釋標(biāo)注,德語口語翻譯來自新聞發(fā)言人,是當(dāng)前最受歡迎的手語翻譯數(shù)據(jù)集。CSL-Daily[35]是中國手語數(shù)據(jù)集,主要圍繞聽障人士日常生活所展開,視頻分辨率下相比Phoenix-2014T有著更高的清晰度,數(shù)據(jù)規(guī)模相比之下更加龐大。

1.2 評估方法

手語翻譯可以認(rèn)為屬于機(jī)器翻譯中的一種,將手語視頻序列翻譯為口語句子序列。本文主要關(guān)注模型手語翻譯的準(zhǔn)確性,選擇雙語評估替補(bǔ)(bilingual evaluation understudy,BLEU)[45]召回導(dǎo)向的摘要評估(recall-orientedunderstudy for gisting eva-luation,ROUGE)[46]和詞錯誤率(word error,WER)作評估。

1)BLEUBLEU是用于評估生成的口語句子與源句子之間的差異,主要關(guān)注 n -gram的準(zhǔn)確度。BLEU分?jǐn)?shù)為 0~1,1 代表翻譯完全匹配。BLEU[45]分為BLEU1、BLEU2、BLEU3和BLEU4,這些版本主要評估口語句子與源句子之間各級別 n gram的一致性。

2)ROUGEROUGE是用來比較生成的口語句子與源句子之間的相似度。該指標(biāo)通過計算生成文本與參考文本之間的最長公共子序列(LCS)的覆蓋程度來衡量它們的相似性。如果生成文本中的單詞順序與參考文本盡可能一致,則表明翻譯質(zhì)量更高。

3)WERWER通過逐詞比較機(jī)器翻譯與人工翻譯來測量翻譯質(zhì)量。它計算將機(jī)器翻譯文本轉(zhuǎn)換為人工翻譯文本所需的替換 s 刪除 D 和插人 I 的數(shù)量,并用人工翻譯的總詞數(shù) N 歸一化。

2基于線性模型的手語翻譯

基于線性結(jié)構(gòu)的手語翻譯本質(zhì)上是一種非自回歸的手語翻譯模型,主要由視覺編碼器和文本解碼器組成。此類模型無須依賴上文詞匯即可完成翻譯,而是通過從整段手語視頻中提取和學(xué)習(xí)所有關(guān)鍵信息實現(xiàn)手語翻譯。

2.1基于線性模型的手語翻譯介紹

根據(jù)輸入模態(tài)不同,基于線性結(jié)構(gòu)的手語翻譯方法可分為單模態(tài)輸入和多模態(tài)輸入的線性結(jié)構(gòu)手語翻譯。

如圖1(a)所示,單模態(tài)輸入的方法通常僅以手語視頻作為模型的輸入,模型通過視覺編碼模塊提取視頻中的視覺特征,并由文本解碼模塊生成對應(yīng)的口語句子。

標(biāo)題

如圖1(b)所示,多模態(tài)輸入的方法則以RGB視頻和骨骼點數(shù)據(jù)等其他模態(tài)視頻作為模型輸入,通過視覺編碼器分別提取各模態(tài)特征并進(jìn)行特征融合,最終將整合好的特征輸入文本解碼器,生成對應(yīng)的口語句子。

2.2基于單模態(tài)輸入線性模型的手語翻譯

Guo等人[26]提出了一種密集時間卷積網(wǎng)絡(luò)用于手語翻譯任務(wù),采用純時間卷積捕捉幀間相關(guān)性,以及短期和長期的序列特征,并通過密集連接機(jī)制高效處理視頻中的時間序列特征。最終,利用連接時序分類(CTC)損失函數(shù)優(yōu)化網(wǎng)絡(luò),實現(xiàn)手語視頻與口語句子序列的對齊。然而,該方法僅以完整視頻作為模型輸人,并以純卷積作為模型架構(gòu),存在對上下文信息建模能力不足的問題。Li等人[47提出一種基于時態(tài)語義金字塔的層次特征學(xué)習(xí)應(yīng)用于手語翻譯,該方法通過滑動窗口對視頻裁剪成多尺度片段作為輸入,以捕獲不同時間粒度的信息;此外,引入尺度間注意力機(jī)制增強(qiáng)手語片段的局部語義一致性,同時利用尺度內(nèi)注意力結(jié)合非局部上下文信息解決語義歧義問題。以往的基于線性結(jié)構(gòu)的手語翻譯模型是以視覺-文本模塊組成,該種結(jié)構(gòu)無法同時兼顧視覺信息與文本信息。李安陽等人[48]針對該問題提出基于雙路并行時序?qū)W習(xí)模型的手語翻譯。該方法使用CNN和RNN同時捕捉手語視頻中時序特征和視覺特征,再使用得分融合模塊和CTC函數(shù)輸出對應(yīng)的口語句子。遷移學(xué)習(xí)和知識蒸餾在線性模型中的應(yīng)用也受到了廣泛關(guān)注。文獻(xiàn)[49]指出,從神經(jīng)機(jī)器翻譯的角度來看,Phoenix-2014T數(shù)據(jù)集仍然較小,限制了模型性能的提升。為應(yīng)對小規(guī)模數(shù)據(jù)集問題,該研究采用BERT-base和mBART-50[16] 預(yù)訓(xùn)練模型,通過凍結(jié)預(yù)訓(xùn)練模型并微調(diào)模型,顯著提高了手語翻譯的表現(xiàn)。Hu等人[50]提出一種基于語義的多模態(tài)融合方法,通過向量量化器和融合模塊分別對齊和融合手語特征與手語注釋特征;此外,利用多任務(wù)互學(xué)習(xí)框架對不同模態(tài)的輸出預(yù)測進(jìn)行正則化,使手語編碼和多模態(tài)編碼能夠共同學(xué)習(xí)手語注釋編碼的知識,從而進(jìn)一步提高手語翻譯模型在推理時的準(zhǔn)確性。

實時翻譯是基于線性結(jié)構(gòu)的手語翻譯的核心優(yōu)勢之一,與自回歸模型相比,非自回歸模型因無須等待上下文信息而具有快速響應(yīng)和較低延遲的特點。Yu等人[5將非自回歸解碼機(jī)制引入線性結(jié)構(gòu)的手語翻譯,提出了一種結(jié)合課程學(xué)習(xí)的非自回歸解碼器。該解碼器的低層模塊負(fù)責(zé)預(yù)測簡單詞元,高層模塊則可以根據(jù)低層的預(yù)測結(jié)果生成更復(fù)雜的詞元。此外,該方法采用聯(lián)合訓(xùn)練策略,同時訓(xùn)練自回歸解碼器和基于課程的非自回歸解碼器,以使后者學(xué)習(xí)前者的順序預(yù)測知識,從而提高翻譯性能。Yin等人2針對實時手語翻譯中的高延遲問題提出了一種同聲手語翻譯模型。該模型通過訓(xùn)練邊界預(yù)測器學(xué)習(xí)手語視頻與手語注釋之間的對齊關(guān)系,并設(shè)計了一種新的掩碼編碼方法,以增強(qiáng)模型對上下文信息的捕獲能力;針對同聲翻譯任務(wù),該方法引入wait-k策略[23]實現(xiàn)低延遲手語翻譯。

2.3基于多模態(tài)輸入線性模型的手語翻譯

Tang等人[52]提出了一種基于圖的多模態(tài)序列嵌入網(wǎng)絡(luò),利用多模態(tài)數(shù)據(jù)作為模型輸入,其中圖模態(tài)被用于建模模態(tài)內(nèi)和模態(tài)間的相關(guān)性。具體而言,該方法設(shè)計了一種分布式圖嵌人單元堆疊器,用于學(xué)習(xí)每個模態(tài)序列和跨模態(tài)互補(bǔ)性中的時間線索以及跨模態(tài)互補(bǔ)性,最終實現(xiàn)高性能的手語翻譯。Chen等人[53]針對RGB視頻中存在的冗余信息問題,提出一種結(jié)合RGB和骨骼點的雙流手語翻譯模型。該模型使用兩個獨立通道分別對骨骼點和RGB的信息進(jìn)行建模并共享通道權(quán)重,通過輔助監(jiān)督的金字塔網(wǎng)絡(luò)和自蒸餾機(jī)制,增強(qiáng)了幀級監(jiān)督能力,最終通過線性層實現(xiàn)高效的手語翻譯。

盡管多模態(tài)輸入可以有效地提升手語翻譯性能,但通過獨立提取骨骼點或深度圖輸人模型的方式,可能會引入額外的時間成本。對此,端到端學(xué)習(xí)方法被視為一種理想的解決方案,能夠使模型自主學(xué)習(xí)并提取多模態(tài)信息。Gan等人[54]針對手語翻譯在邊緣設(shè)備的應(yīng)用,提出了一種淺圖卷積網(wǎng)絡(luò)。該模型首先從輸入中提取骨骼點特征,并裁剪關(guān)鍵區(qū)域以設(shè)計時間圖表示,隨后通過淺GCN對不同區(qū)域的特征進(jìn)行聚合。最終,該方法使用CTC損失函數(shù)對手語視頻與口語句子序列進(jìn)行對齊。Zhou等人[55]針對端到端的多模態(tài)手語翻譯任務(wù),提出了時空多線索網(wǎng)絡(luò),通過分解不同線索的視覺特征,對人體姿態(tài)進(jìn)行評估和建模。時間多線索網(wǎng)絡(luò)通過兩條平行路徑,分別在線索內(nèi)和線索間建立時間相關(guān)性。最終,該方法通過聯(lián)合優(yōu)化策略,實現(xiàn)了端到端序列學(xué)習(xí)。Gan等人[56]同樣提出了一種多模態(tài)手語翻譯方法,在模型內(nèi)部使用特征模塊提取骨骼點特征,并將骨骼點通道和RGB通道連接。該方法使用基于骨架的圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征縮放,并根據(jù)每個片段的熵值賦予重要性權(quán)重,最終將特征傳輸給解碼器生成口語句子。邵舒羽等人[57]針對自回歸手語翻譯模型翻譯速度慢的問題,提出基于自注意力機(jī)制模型Transformer的非自回歸手語翻譯模型。該方法對模型的解碼器進(jìn)行了改進(jìn)以及通過預(yù)測輸出文本長度,使模型只需單次運(yùn)行即可并行地生成完整語句。

2.4基于線性模型的手語翻譯方法分析與總結(jié)

表2展示了各算法在Phoenix-2014T數(shù)據(jù)集上的表現(xiàn),表3則總結(jié)了它們在CSL-Daily數(shù)據(jù)集上的表現(xiàn)。通過對表中數(shù)據(jù)的分析可以發(fā)現(xiàn),多模態(tài)輸入顯著優(yōu)于單模態(tài)輸入。這是因為多模態(tài)輸入為模型提供了更豐富的信息維度,從而全面地理解手語視頻。相較而言,傳統(tǒng)的RGB視頻輸人由于手語動作過快或背景過于復(fù)雜,可能導(dǎo)致模型難以準(zhǔn)確捕捉手語動作,甚至無法有效區(qū)分非手語動作。而引入骨骼點或深度圖等輔助模態(tài),則顯著提升了模型捕捉手部動作能力,同時增強(qiáng)了對非手語動作的辨別能力。

表2基于線性模型的手語翻譯在Phoenix-2014T上的表現(xiàn)

Tab.2Performance of linear model-based sign language translation on Phoenix-2014T

表3基于線性模型的手語翻譯在CSL-Daily上的表現(xiàn)

Tab.3Performanceoflinearmodel-based signlanguage translationon CSL-Dail

然而,過多的模態(tài)輸入也可能導(dǎo)致小參數(shù)模型面臨欠擬合的問題。多模態(tài)輸入模型通常需要更大的參數(shù)量和更高的訓(xùn)練成本,這在實時翻譯應(yīng)用中可能存在一定限制。因此,算法的選擇應(yīng)根據(jù)具體的硬件性能和目標(biāo)任務(wù)的需求進(jìn)行權(quán)衡,以平衡模型性能與計算成本。

3基于編碼器-解碼器的手語翻譯

基于編碼器-解碼器的手語翻譯是當(dāng)前手語翻譯研究的主要方法之一。該方法能夠有效結(jié)合視覺信息和上下文信息,從而實現(xiàn)更高質(zhì)量的手語翻譯。

3.1基于編碼器-解碼器的手語翻譯介紹

基于編碼器-解碼器架構(gòu)的SLT是通過編碼器-解碼器模型學(xué)習(xí)手語視頻與口語句子之間的對齊關(guān)系。根據(jù)訓(xùn)練模式不同,該方法可以分為二階段訓(xùn)練模式和一階段訓(xùn)練模式兩種。

如圖2(a)所示,二階段訓(xùn)練模式將手語翻譯任務(wù)分解為CSLR和文本生成兩個子任務(wù)。首先,模型對手語視頻進(jìn)行識別,生成手語注釋 ;隨后,將手語注釋作為文本輸人,通過文本到文本的翻譯生成目標(biāo)句子。相比之下,一階段訓(xùn)練模式(圖2(b))是將手語翻譯作為一個端到端任務(wù)。該方法將手語視頻幀輸入編碼器以實現(xiàn)特征提取,并結(jié)合上下文信息將編碼特征傳遞至解碼器,直接生成對應(yīng)的文本輸出。

二階段訓(xùn)練模式通過人為指導(dǎo)學(xué)習(xí)的模型明確地學(xué)習(xí)手語序列與口語句子之間的對齊關(guān)系,但可能忽略了一些細(xì)節(jié);而一階段訓(xùn)練模式則具備更強(qiáng)的整體學(xué)習(xí)能力,可以捕捉復(fù)雜的上下文信息和細(xì)節(jié)差異。因此,本章首先介紹基于二階段訓(xùn)練的編碼器-解碼器手語翻譯方法;其次探討基于一階段訓(xùn)練的編碼器-解碼器手語翻譯方法;最后對兩種方法的優(yōu)勢和不足進(jìn)行總結(jié)與對比分析。

Fig.2Encoder-decoder-based sign language translation

3.2基于二階段訓(xùn)練的編碼器-解碼器手語翻譯

針對基于二階段訓(xùn)練的編碼器-解碼器手語翻譯,本節(jié)主要從Transformer編碼器-解碼器結(jié)構(gòu)、改進(jìn)的Transformer編碼器-解碼器結(jié)構(gòu)和遷移學(xué)習(xí)與知識蒸餾三個方面展開探索。

3.2.1基于二階段訓(xùn)練Transformer編碼器-解碼器手語翻譯

Cangoz等人[18]提出了第一個經(jīng)典的基于二階段訓(xùn)練的編碼器-解碼器手語翻譯模型。如圖3(a)所示,該模型采用CNN與Transformer相結(jié)合的結(jié)構(gòu)來實現(xiàn)手語翻譯。具體而言,模型通過CNN抽取視頻特征并對這些特征進(jìn)行位置編碼,再將處理后的信息輸人Transformer編碼器以完成CSLR。該階段使用CTC作為訓(xùn)練損失函數(shù),對齊視頻序列與手語注釋句子。隨后,將編碼信息與上文信息傳遞至Transformer解碼器中,實現(xiàn)手語翻譯。解碼器階段通過交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練。

模型整體采用聯(lián)合訓(xùn)練方法,通過調(diào)整不同的權(quán)重參數(shù) λ 來控制編碼器和解碼器的訓(xùn)練過程。此外,為降低計算復(fù)雜度和模型參數(shù),該模型將Transformer中的部分多頭注意力替換為自注意力,從而應(yīng)對因視頻幀輸入導(dǎo)致的參數(shù)過大的問題。然而,二階段訓(xùn)練雖然能夠有針對性地指導(dǎo)模型捕捉特征,但在部分?jǐn)?shù)據(jù)集中可能因缺少手語注釋而受到限制。

對此,Hamidullah等人[58]提出了一種句子嵌入向量(sen-tenceembeddingvector,SEM)的替代方案,該模型主要由手語視頻轉(zhuǎn)換SEM模塊和SEM轉(zhuǎn)換口語句子模塊組成。前者使用預(yù)訓(xùn)練的視覺模型對手語視頻的每一幀進(jìn)行特征提取,并通過預(yù)訓(xùn)練的sBERT[59]模型生成相應(yīng)的SEM,將視覺信息轉(zhuǎn)換為語義嵌入表示,從而解決數(shù)據(jù)集中手語注釋缺失的問題;后者采用mBERT解碼器,將SEM作為輸人,通過解碼生成流暢的口語句子。這種方法無須依賴手語注釋,可以直接從視頻生成口語翻譯。此外,使用CSLR生成手語注釋并利用Trans-former進(jìn)行序列對齊也是一個有效的解決方案。Yin等人[20]提出了基于 STMC[55]的CSLR手語翻譯方法,利用 Transformer將手語注釋對齊為口語句子。STMC由空間多線索模塊和時間多線索模塊組成,其中,空間多線索模塊用于提取手部、面部及身體姿態(tài)等多模態(tài)特征,而時間多線索模塊用于捕捉多時間步間線索的相關(guān)性。通過STMC實現(xiàn)高精度的手語識別后,利用Transformer對手語注釋和口語句子進(jìn)行高質(zhì)量的對齊生成。

3.2.2基于二階段訓(xùn)練改進(jìn)的Transformer編碼器-解碼器手 語翻譯

傳統(tǒng)的Transformer模型以逐幀RGB圖片作為輸入,但存在捕捉時序關(guān)系能力不足、參數(shù)量大以及無法有效捕捉面部表情等非手動特征問題。因此,研究人員針對這些問題對Trans-former進(jìn)行了改進(jìn),如圖3(b)所示。由于自注意力機(jī)制在逐幀方法中會忽略手語中的時間語義結(jié)構(gòu),以及絕對位置編碼的注意力機(jī)制不知道方向和距離,限制了模型的性能,Xie等人[60]提出了基于位置感知的內(nèi)容感知卷積手語Transformer(PiSLTRc)模型。具體來說,該方法將傳統(tǒng)的相對位置編碼[61]改進(jìn)為解糾纏相對位置編碼(disentangled relative position enco-ding,DRPE),使模型在計算注意力權(quán)重時同時考慮序列中元素的內(nèi)容相似性和相對位置關(guān)系。此外,該方法引入了基于內(nèi)容感知和位置信息的時間卷積網(wǎng)絡(luò)(content-aware andposition-informedtemporalconvolutionnetwork,CPTcn)作為自注意力機(jī)制,CPTcn由鄰域聚合、DRPE和多個1DCNN模塊組成,嵌人到編碼器中的自注意力機(jī)制中,將手語特征處理后作為鍵(query,Q)和值(key,K)的嵌入矩陣進(jìn)行計算。這些改進(jìn)有效解決了時間語義結(jié)構(gòu)和方向感知不足的問題。為了解決視頻序列長度不齊以及順序差異問題,PiSLTRc在編碼器-解碼器注意力模塊中的交叉注意力模塊的絕對位置編碼也換為DRPE,在消融實驗中,這一改進(jìn)被證明對模型性能有顯著提升。

盡管逐幀RGB輸入的Transformer在手語翻譯中得到了廣泛應(yīng)用,其在輸入模態(tài)、特征維度以及模型參數(shù)上仍顯不足。例如,RGB圖像作為唯一的輸入模態(tài),限制了模型捕捉面部表情等非手動特征的能力;逐幀輸入的方式無法直接與手語注釋精確對齊,進(jìn)一步增加了解碼復(fù)雜性。此外,Transformer模型的龐大參數(shù)量對局部圖像特征提取造成了限制。為解決這些問題, Kim 等人[62]提出結(jié)合動作分詞器與關(guān)鍵點強(qiáng)化的卷積嵌人式Transformer手語翻譯模型。針對視頻幀無法直接對應(yīng)手語注釋的問題,該方法引入動作分詞器對視頻進(jìn)行分割,將整個視頻視為輸人,通過姿態(tài)估計與差分計算檢測動作之間的分隔點,從而將視頻劃分為語義單元。此外,該方法在模型輸入特征中拼接人體姿態(tài)關(guān)鍵點信息,提升了模型捕捉非手動特征的能力。最后,受Gulati等人[63]的啟發(fā),將傳統(tǒng)的Trans-former編碼器替換成加人CNN結(jié)構(gòu)的Transformer編碼器(convolution-augmentedTransformer,Conformer)。由于引入了CNN模塊,該方法在增強(qiáng)局部特征提取能力的同時減少了參數(shù)量。針對逐幀輸入的方式對時間關(guān)系建模不足的問題,Guo等人[64]提出一種多步長位置編碼方案。該方案將視頻序列分為不同步長的組,每組內(nèi)的視頻幀分配相同的位置索引,通過絕對正弦位置編碼生成分組位置矩陣,并在通道維度上拼接多個分組矩陣,從而捕捉不同粒度的時間依賴信息。此外,該模型還包含手語計數(shù)任務(wù)和自適應(yīng)時間交互模塊。手語計數(shù)任務(wù)可以增強(qiáng)全局語境的建模能力來提高模型性能;自適應(yīng)時間交互模塊結(jié)合多頭注意力機(jī)制和自適應(yīng)偏移操作,分別實現(xiàn)全局建模和局部建模,兩者由參數(shù) β 進(jìn)行自適應(yīng)調(diào)整,增強(qiáng)了序列對齊能力。另一個改進(jìn)方向是多任務(wù)手語翻譯。Bandyo-padhyay等人[65]提出了一種多任務(wù)學(xué)習(xí)方法,該方法的編碼器使用Transformer編碼器,在解碼器部分使用了三個共享權(quán)重的Transformer解碼器,分別用來進(jìn)行CSLR、SLT和目標(biāo)語言文本的生成。通過多任務(wù)學(xué)習(xí),該模型顯著增強(qiáng)了對數(shù)據(jù)的泛化能力,并展現(xiàn)出卓越的序列對齊性能。

3.2.3基于遷移學(xué)習(xí)和知識蒸餾的二階段訓(xùn)練Transformer 編碼器-解碼器手語翻譯

隨著遷移訓(xùn)練和知識蒸餾在各類下游任務(wù)中的成功應(yīng)用,這些方法也為手語翻譯這一結(jié)合計算機(jī)視覺與自然語言處理的跨模態(tài)任務(wù)提供了全新的解決思路。

Chen等人[19]提出了一種基于遷移學(xué)習(xí)的手語翻譯方法,使用mBERT[16]預(yù)訓(xùn)練模型和 S3D[66] 視覺預(yù)訓(xùn)練網(wǎng)絡(luò),并通過微調(diào)進(jìn)一步優(yōu)化其性能。具體而言,該方法首先將S3D在Kinetics400[67] 和WLASL[8]進(jìn)行預(yù)訓(xùn)練,其中Kinetics-40O是包含400種人類動作的動作識別視頻數(shù)據(jù)集,WLASL是一個涵蓋了2000個手語詞匯的獨立手語數(shù)據(jù)集。在模型設(shè)計上,將S3D和mBERT連接,mBERT用于對注釋輸出進(jìn)行序列對齊。然而,直接將手語注釋作為輸入會忽略手語視頻中的時空信息。為解決這一問題,該方法通過兩層線性層將視覺特征映射至翻譯模塊,從而擺脫對手語注釋的依賴,更充分地保留了手語視頻中的時空特征。如圖3(c)所示,基于知識蒸餾的手語翻譯是通過教師模型的交叉熵分布對手語翻譯模型中解碼器進(jìn)行訓(xùn)練來實現(xiàn)知識遷移。為了解決手語翻譯中的模態(tài)差異與數(shù)據(jù)稀缺問題,Ye等人[69]提出跨模態(tài)數(shù)據(jù)增強(qiáng)(cross-modalitydataaugmentation,XmDA)的方法, XmDA 包含跨模態(tài)融合和跨模態(tài)知識蒸餾兩部分。跨模態(tài)融合通過混合手語視瀕和注釋嵌人生成跨模態(tài)表示,增強(qiáng)手語視頻序列和文本序列之間的對齊性;跨模態(tài)知識餾是通過手語注釋到手語翻譯模型生成的高質(zhì)量文本翻譯,以指導(dǎo)手語翻譯模型的生成過程。這一方法顯著提升了序列間對齊性能,并有效提高了手語翻譯的準(zhǔn)確率。此外, Yao 等人[70]提出了一種基于迭代蒸餾的手語翻譯方法,通過逐步優(yōu)化編碼器和解碼器來提高模型性能。具體而言,該方法利用多個編碼器和解碼器對初始的編碼器、解碼器進(jìn)行迭代優(yōu)化,以生成穩(wěn)定且高質(zhì)量的口語句子序列。

表4、5是基于二階段訓(xùn)練的編碼器-解碼器手語翻譯在Phoenix-2014T和CSL-Daily上的表現(xiàn)。表中的“傳統(tǒng)”方法是指基于二階段訓(xùn)練Transformer編碼器-解碼器手語翻譯方法;“改進(jìn)”方法則指改進(jìn)二階段訓(xùn)練Transformer編碼器-解碼器手語翻譯方法;“遷移學(xué)習(xí)”和“知識蒸餾”為基于遷移學(xué)習(xí)和知識蒸餾的二階段訓(xùn)練Transformer編碼器-解碼器手語翻譯方法。其中“圖片”是以視頻幀作為輸人,“視頻”是以視頻進(jìn)行輸入。

根據(jù)表4、5可以得知,傳統(tǒng)Transformer方法性能稍顯不足,但是為后續(xù)研究提供了新思路,促使研究者對Transformer模型進(jìn)行改進(jìn)。以RGB + 骨骼點作為輸入模態(tài)相比僅使用RGB作為輸入,性能有著一定提升,因為骨骼點能夠更準(zhǔn)確地捕捉手語者的姿態(tài)和面部表情。盡管對傳統(tǒng)Transformer模塊的優(yōu)化能夠提升模型性能,但由于未涉及模型結(jié)構(gòu)的本質(zhì)性變化,其提升效果并不顯著。

表4基于二階段訓(xùn)練的編碼器-解碼器手語翻譯在Phoenix-2014T上的表現(xiàn)

b.4Performance of two-stage trained encoder-decoder sign language translation on Phoenix-201.

表5基于二階段訓(xùn)練的編碼器-解碼器手語翻譯在CSL-Daily上的表現(xiàn)

Tab.5Performance of two-stage trained encoder-decoder sign language translation on CSL-Daily

相比之下,基于遷移學(xué)習(xí)和知識蒸餾的手語翻譯方法在小規(guī)模數(shù)據(jù)集上表現(xiàn)尤為出色。遷移學(xué)習(xí)通過對預(yù)訓(xùn)練模型(如mBERT或S3D)的微調(diào),充分利用了大規(guī)模數(shù)據(jù)集的知識。而知識蒸餾通過教師模型指導(dǎo)學(xué)生模型學(xué)習(xí),實現(xiàn)了性能的顯著提升,為手語翻譯任務(wù)提供了更優(yōu)的解決方案。

3.3基于一階段訓(xùn)練的編碼器-解碼器手語翻譯

本節(jié)將從三個方面介紹基于一階段訓(xùn)練的編碼器-解碼器手語翻譯方法。如圖4所示,基于一階段訓(xùn)練的編碼器-解碼器手語整體結(jié)構(gòu)并沒有變化,根據(jù)編碼器-解碼器的不同可以分為基于一階段訓(xùn)練RNN編碼器-解碼器的手語翻譯和基于一階段訓(xùn)練Transformer編碼器-解碼器的手語翻譯,根據(jù)輸入的線索不同,又可以提出基于一階段訓(xùn)練多線索輸人的編碼器-解碼器手語翻譯。

圖4基于一階段訓(xùn)練的編碼奮-解碼奮于譜翻譯 Fig.4Single-stage trained encoder-decoder sign language translation 3.3.1基于一階段訓(xùn)練RNN編碼器-解碼器手語翻譯

手語翻譯任務(wù)最早由Camgoz等人[3]提出并解決,其方法基于注意力機(jī)制的RNN編碼器-解碼器實現(xiàn)手語翻譯。該模型是以視頻幀作為輸人,首先通過CNN抽取視覺特征,并將提取的特征傳遞給傳統(tǒng)的RNN編碼器-解碼器進(jìn)行序列對齊。然而,傳統(tǒng)的RNN編碼器-解碼器模型存在顯著缺陷:它使用固定大小的向量表示整個手語序列,容易造成信息瓶頸;由于模型輸入包含大量幀,RNN容易受到長時間依賴和梯度消失問題的影響。因此,該方法在解碼階段引入注意力機(jī)制[71,72]使模型能夠動態(tài)關(guān)注生成單詞時所需的重要信息,從而提升手語視頻與口語句子之間的對齊效果。盡管RNN能夠?qū)π蛄羞M(jìn)行對齊,但是其在梯度穩(wěn)定性和長時間依賴關(guān)系建模能力上的不足限制了其在手語翻譯中的表現(xiàn)。為此,Guo等人[73]提出了一種基于LSTM的編碼器-解碼器方法,進(jìn)一步優(yōu)化了手語翻譯性能。該方法首先通過3DCNN提取手語視頻中的視覺特征,然后利用殘差平方和計算每一幀的線性相關(guān)性以挖掘關(guān)鍵片段;隨后,使用一層LSTM提取手語視頻中的時序關(guān)系,并對關(guān)鍵片段和LSTM提取的特征進(jìn)行池化操作,具體而言,保留關(guān)鍵片段的最后一步,同時對LSTM提取的特征進(jìn)行平均池化和最大池化。盡管池化操作能夠有效去除冗余并降低計算復(fù)雜度,但某些片段在上下文中仍具有決定性作用。因此,該方法結(jié)合注意力機(jī)制優(yōu)化了池化后的時間步特征權(quán)重分配,最終將這些信息傳遞至LSTM解碼器以生成口語句子,從而實現(xiàn)高質(zhì)量翻譯。但是使用傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)加LSTM的模型依然難以捕捉手語視頻中的關(guān)鍵幀,朱連淼等人[74]在LSTM中加入全局注意力機(jī)制,通過計算當(dāng)前隱藏狀態(tài)和源隱藏狀態(tài)之間的相似度并得出對齊向量,讓模型學(xué)習(xí)對齊權(quán)重,使模型關(guān)注到長手語視頻序列中的關(guān)鍵幀,從而提升手語翻譯性能。

相比LSTM,GRU[75]在參數(shù)量較少的情況下展現(xiàn)了良好的準(zhǔn)確性,并在多個任務(wù)中表現(xiàn)優(yōu)異[76.,7]。Zheng等人[78]提出了一種通過突出面部表情信息來增強(qiáng)神經(jīng)手語翻譯的方法。該方法捕捉了全局特征與面部表情特征,將其作為視覺輸入特征,隨后使用基于GRU的編碼器-解碼器結(jié)構(gòu)生成翻譯文本。通過整合面部表情信息,該方法能夠更全面地學(xué)習(xí)非手語動作特征,從而更好地對齊手語視頻與目標(biāo)句子間的語義關(guān)系。類似地,Orbay等人[79]研究了不同詞元化方法對手語翻譯性能的影響,探索了使用不同尺度的卷積操作或多種輸入模態(tài)來將手語視頻轉(zhuǎn)換為詞元,并在基于GRU的編碼器-解碼器架構(gòu)中測試了這些詞元與口語句子對齊的效果。研究結(jié)果進(jìn)一步驗證了詞元化和多模態(tài)特征在提升手語翻譯質(zhì)量中的重要性。Amin等人[80]針對手語注釋轉(zhuǎn)換為口語句子問題展開了研究,使用GRU與Bahdanau注意力機(jī)制結(jié)合的方法實現(xiàn)了手語注釋與口語句子的雙向翻譯。

3.3.2基于一階段訓(xùn)練Transformer編碼器-解碼器手語翻譯

盡管RNN編碼器-解碼器在捕捉手語視頻之間的時序關(guān)系上具有一定優(yōu)勢,并能學(xué)習(xí)手語視頻序列與口語句子序列之間的對齊關(guān)系,但其局限性也十分明顯,例如無法并行訓(xùn)練、全局建模能力不足以及在處理長序列任務(wù)時表現(xiàn)欠佳。為解決這些問題,研究人員逐漸將目光轉(zhuǎn)向使用Transformer編碼器解碼器結(jié)構(gòu),以更高效地學(xué)習(xí)序列之間的對齊關(guān)系。

Zhang等人[81]針對如何設(shè)計出輕量高效的基于Transformer手語翻譯模型提出了改進(jìn)方法,首先提出由稀疏注意力機(jī)制[82]和動態(tài)卷積[83]組成的雙流稀疏注意力模塊,用于解決手語視頻中冗余幀問題;此外,該方法還設(shè)計了多通道注意力增強(qiáng)模塊,用于進(jìn)一步挖掘視頻的時空特征和跨模態(tài)信息。通過將上述模塊對Transformer中的部分模塊進(jìn)行替換,實現(xiàn)了輕量且高效的手語翻譯模型。普通的Transformer結(jié)構(gòu)雖然在手語翻譯任務(wù)中已表現(xiàn)出較好的性能,但其在學(xué)習(xí)手語視頻中句法結(jié)構(gòu)以及手語者個體表演風(fēng)格上的能力有限。為解決這一問題,Jin等人[84]提出了基于先驗知識和記憶增強(qiáng)的Trans-former模型。該模型在編碼器部分引入表演風(fēng)格嵌人和門控多頭注意力,通過結(jié)合視覺表征、手語風(fēng)格與自適應(yīng)門控機(jī)制,有效緩解了因表演風(fēng)格差異導(dǎo)致的翻譯質(zhì)量下降問題;在解碼器部分由句法感知模塊和多流記憶模塊組成。句法感知模塊結(jié)合句法特征和視覺特征生成目標(biāo)句子的單詞;多流記憶模塊增強(qiáng)了對上兩個模塊的協(xié)同工作,顯著提高了手語翻譯性能。此外,該方法在面對從未見過的手語者的翻譯任務(wù)時,依然能夠保持較好的泛化能力,展現(xiàn)了較強(qiáng)的適應(yīng)性和穩(wěn)健性。針對不同手語者的手語表現(xiàn)習(xí)慣的差異,傳統(tǒng)方法難以泛化到未見過的手語者。為此,Jin等人[4]提出對比解耦元學(xué)習(xí),通過特征解耦模塊將編碼器輸出特征分為任務(wù)相關(guān)特征和手語者特定特征,手語者特定特征用于預(yù)測手語者ID,以捕捉其個體特性;任務(wù)相關(guān)特征則作為解碼器的輸入。此外,解碼器還加入對比約束,以增強(qiáng)視覺特征與語言特征之間的對齊。在訓(xùn)練階段,該模型使用細(xì)粒度元學(xué)習(xí)方法,通過模擬多個手語者域轉(zhuǎn)換場景,顯著增強(qiáng)了模型在未見手語者上的泛化能力。

在緩解手語視頻與口語句子之間對齊問題方面,Zhao等人[85]提出了一種基于條件變分自編碼器[86]的手語翻譯方法。該方法包含雙路徑結(jié)構(gòu)和兩種KL散度,以實現(xiàn)跨模態(tài)的有效對齊。此外,該方法還提出了一種共享注意力殘差高斯分布(ARGD)機(jī)制,將后驗分布與先驗分布的變化建模為殘差,并通過自注意力機(jī)制提取視覺模態(tài)的單模態(tài)特征;同時在后驗路徑中,通過交叉注意力機(jī)制結(jié)合視覺和文本模態(tài)捕捉其聯(lián)合特征并共享權(quán)重,從而進(jìn)一步縮小模態(tài)差距,提高手語翻譯性能。Hu等人[87]同樣根據(jù)先驗信息提出了一種名為SignBERT + 的框架,該框架結(jié)合模型感知的手部先驗信息,為手語任務(wù)提供一種自監(jiān)督訓(xùn)練方法。該自監(jiān)督預(yù)訓(xùn)練模型旨在學(xué)習(xí)如何重建丟失的手部姿勢數(shù)據(jù),捕捉手語數(shù)據(jù)中潛在的時空上下文。訓(xùn)練過程中,該方法使用多種掩碼方法(關(guān)節(jié)級掩碼、幀級掩碼、剪輯級掩碼)學(xué)習(xí)如何恢復(fù)缺失的空間和時間信息,并使用MANO模型[88]將自監(jiān)督預(yù)訓(xùn)練模型所學(xué)到的潛在特征轉(zhuǎn)為手部的3D姿態(tài)。當(dāng)完成自監(jiān)督模型訓(xùn)練后,將該模型應(yīng)用于下游任務(wù)進(jìn)行微調(diào),在多種下游任務(wù)(如手語識別和手語翻譯)中達(dá)到最先進(jìn)的性能。

Yin等人[89]針對手語注釋缺失問題,提出了一種新的注意力機(jī)制和知識遷移方法。該方法引入歸納偏置替代手語注釋的作用,使模型能夠動態(tài)地關(guān)注語義邊界附近的局部特征,同時降低訓(xùn)練和推理的復(fù)雜度;此外,該方法利用BERT模型提供手語視頻的全局理解能力。類似地,Zhang等人[90]提出了一種統(tǒng)一的手語翻譯模型,通過多任務(wù)學(xué)習(xí)整合手語到詞匯、詞匯到文本和手語到文本等任務(wù),實現(xiàn)了跨模態(tài)的知識共享,從而顯著提升了手語翻譯性能及其泛化能力。

為了滿足實際應(yīng)用中對高響應(yīng)實時手語翻譯的需求,Sun等人[提出了一種自適應(yīng)同步手語翻譯方法。該方法引入自信翻譯長度概念,用于實時決定是否等待更多輸人或繼續(xù)翻譯以在翻譯質(zhì)量與延遲之間實現(xiàn)平衡。該方法首先使用最長公共前綴算法生成訓(xùn)練數(shù)據(jù),用于訓(xùn)練自信翻譯長度估計器;自信翻譯長度估計器由Transformer的編碼器、分類標(biāo)記以及全連接層組成并視為回歸問題進(jìn)行訓(xùn)練。在推理階段,如果預(yù)測長度大于當(dāng)前已經(jīng)生成的目標(biāo)翻譯序列長度,模型繼續(xù)翻譯,否則,模型等待更多幀輸入。通過動態(tài)調(diào)整翻譯與等待行為,該方法在實時手語翻譯場景中有效平衡了翻譯質(zhì)量和延遲。

3.3.3基于一階段訓(xùn)練多線索輸入編碼器-解碼器手語翻譯

盡管基于Transformer的編碼器-解碼器手語翻譯在捕捉局部細(xì)節(jié)和解決模態(tài)對齊方面表現(xiàn)出色,但是如果僅以RGB作為模型輸人,模型往往只會關(guān)注手部動作,而忽略非手部動作的信息(口型、面部表情等)。為解決這一問題,研究人員提出了一系列基于多線索輸入的手語翻譯方法。Camgoz等人[9]提出一種多通道Transformer架構(gòu),用于整合多模態(tài)特征。首先,該方法使用預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)[93,94]分別提取手部特征、臉部特征和骨架特征,并通過線性層將這些特征統(tǒng)一映射到統(tǒng)一的隱藏空間;隨后,在編碼器中引入通道內(nèi)注意力機(jī)制和通道間注意力機(jī)制來捕獲通道內(nèi)部的信息和通道之間的信息。此外,該方法還提出通道錨定損失,與交叉熵共同用于模型訓(xùn)練。通道錨定損失可以減輕過擬合,保留每個通道的特征信息。通過對多通道數(shù)據(jù)進(jìn)行建模,該方法顯著提升了視頻與口語句子之間的對齊能力。該方法以骨骼點作為模型輸入的一種模態(tài),有著良好的表現(xiàn),因為其皆是關(guān)節(jié)線與骨骼點,所以具有優(yōu)異的魯棒性。

骨骼點信息在輔助模型捕捉姿態(tài)和動作時的表示有著巨大的優(yōu)勢,而光流信息可以捕捉視頻中的動態(tài)行為信息。Chaudhary等人[95]提出了一種基于Transformer的雙向手語翻譯模型,以RGB圖像、光流和骨骼點信息作為輸入模態(tài)。盡管模型未對Transformer模塊進(jìn)行結(jié)構(gòu)上的修改,但通過雙向?qū)W習(xí)框架同時優(yōu)化手語翻譯和手語生成任務(wù),正向翻譯從手語到口語,逆向翻譯從生成的口語回推至手語。通過交替訓(xùn)練兩個任務(wù),模型充分利用其互補(bǔ)特性,進(jìn)一步提升了手語翻譯和手語生成的整體性能。以光流作為模型輸人可以很好地捕捉視頻中的動態(tài)行為,但是其提取方法與存儲成本相對昂貴。而Ananthanarayana等人[9]提出了一種以多尺度視頻片段作為模型輸入進(jìn)行捕捉視頻中的動態(tài)行為并探究了多尺度輸入對手語翻譯的影響。該方法選擇不同幀數(shù)以及骨骼點視頻共同作為模型輸入,使用Transformer編碼器提取學(xué)習(xí)視頻的視覺特征及其動態(tài)行為進(jìn)行模態(tài)融合,再使用Transformer解碼器生成口語句子,探究了多尺度多模態(tài)輸入對手語翻譯的影響。通常對手語翻譯研究更多地注重于對編碼器-解碼器部分的研究,而忽略了提取視覺特征的重要性,尤其是多模態(tài)輸人的情況,如何讓模型根據(jù)這些豐富的視覺信息去學(xué)習(xí)對齊尤為重要。Li等人[97]提出了一種多視圖時空嵌人網(wǎng)絡(luò),同時使用RGB圖像和骨骼點圖像作為模型輸入。其中,RGB通道使用ViT-V[14] 提取視覺特征,而骨骼點通道則采用A3D-GCN 對骨架數(shù)據(jù)進(jìn)行三維建模和圖卷積計算,建模關(guān)節(jié)點之間的動態(tài)關(guān)系。A3D-GCN直接將時間幀納入圖結(jié)構(gòu),以學(xué)習(xí)動作的動態(tài)信息,并通過圖卷積直接處理時空特征。該模塊不僅減少了計算復(fù)雜度,同時保留了關(guān)鍵動態(tài)信息,為編碼器提供了高質(zhì)量的視覺特征,從而生成高質(zhì)量的手語翻譯。

事件流[98]同樣是一個很好的模態(tài)未幫助模型理解手語。Zhang等人[9提出了一種基于事件流的手語識別方法。事件相機(jī)通過捕捉每個像素的亮度變化生成稀疏的、異步的事件流,具有極高的時間分辨率。該方法使用稀疏主干網(wǎng)絡(luò)提取特征,保持?jǐn)?shù)據(jù)的稀疏性,并利用詞匯聚合的時間感知模塊來增強(qiáng)全局動作建模能力,從而獲得性能更好的手語翻譯。Yin等人[100]指出,現(xiàn)有研究多集中于雙向手語翻譯,而忽略了多種手語與多種口語之間的翻譯需求,因此,提出了一種基于Transformer架構(gòu)的動態(tài)路由機(jī)制,通過靈活建模多種手語與口語之間的映射關(guān)系實現(xiàn)了高效翻譯,并在性能上顯著優(yōu)于傳統(tǒng)手語翻譯模型。

表6、7是基于一階段訓(xùn)練的編碼器-解碼器手語翻譯在Phoenix-2014T和CSL-Daily上的表現(xiàn)。其中基于條件變分自編碼器的手語翻譯方法有著最佳的表現(xiàn),主要得益于其雙路徑結(jié)構(gòu)和KL散度的設(shè)計,能夠有效對齊不同模態(tài)的特征。先驗路徑僅依賴視覺模態(tài)預(yù)測目標(biāo)文本,而后驗路徑結(jié)合了視覺模態(tài)與文本模態(tài),進(jìn)一步優(yōu)化了視頻和口語句子之間的對齊性能。此外,從數(shù)據(jù)中可以得出基于RNN的編碼器-解碼器手語翻譯可以實現(xiàn)手語翻譯功能,但是效果不如Transformer方法。原因在于基于RNN的編碼器-解碼器全局建模能力較弱,而基于Transformer的編碼器-解碼器具有優(yōu)秀的全局建模和并行訓(xùn)練能力,在實驗數(shù)據(jù)中表現(xiàn)出色。盡管多模態(tài)輸入能夠為模型提供更多的視覺信息,但如何充分利用這些信息仍然是研究的重點。例如,多視圖時空嵌入網(wǎng)絡(luò)能夠更好地融合RGB視頻和骨骼點數(shù)據(jù),使手語視頻序列與口語句子序列的對齊更加準(zhǔn)確。因此,基于一階段訓(xùn)練的多模態(tài)輸入編碼器-解碼器手語翻譯在模型性能和對齊能力方面展現(xiàn)出巨大的潛力,值得進(jìn)一步研究和探索。

3.4基于編碼器-解碼器的手語翻譯方法分析與總結(jié)

根據(jù)表4~7可以看出,基于二階段訓(xùn)練的編碼器-解碼器手語翻譯的性能,平均水平高于基于一階段訓(xùn)練的編碼器-解碼器手語翻譯的性能,原因是二階段訓(xùn)練可以讓模型有方向地去學(xué)習(xí)手語視頻與口語句子的對齊關(guān)系。然而,基于一階段訓(xùn)練的編碼器-解碼器手語翻譯有著更好的上限,這是由于一階段訓(xùn)練的模型通常包含更多參數(shù),并能夠通過端到端的方式自發(fā)地學(xué)習(xí)手語視頻與序列之間的對齊關(guān)系。相比之下,二階段訓(xùn)練雖然具備指導(dǎo)性,但可能限制模型探索其他潛在特征,從而在某些情況下影響其泛化能力。因此,在硬件條件充足的情況下,基于一階段訓(xùn)練的編碼器-解碼器手語翻譯可能是更優(yōu)的選擇,尤其是在注重性能上限和模型自適應(yīng)能力的場景中。而在實驗資源有限或需要快速收斂的情況下,基于二階段訓(xùn)練的編碼器-解碼器手語翻譯通過明確的指導(dǎo)學(xué)習(xí),能夠更好地平衡性能與穩(wěn)定性,是一種更為可靠的選擇。

表6基于一階段訓(xùn)練的編碼器-解碼器手語翻譯在Phoenix-2014T上的表現(xiàn)

表7基于一階段訓(xùn)練的編碼器-解碼器手語翻譯在CSL-Daily上的表現(xiàn)

4基于大模型微調(diào)的手語翻譯

語言大模型[101]和視覺大模型[102]不僅在其自身的任務(wù)上取得了優(yōu)異的成績,在其下游任務(wù)[103~105]同樣看到了巨大的潛力。本章將探討基于大模型微調(diào)的手語翻譯方法。

4.1基于大模型微調(diào)的手語翻譯介紹

基于大模型微調(diào)的手語翻譯方法如圖5所示,其核心思想是將預(yù)訓(xùn)練的大模型作為手語翻譯模型中的模塊,通過訓(xùn)練模型的部分參數(shù)或全部參數(shù),學(xué)習(xí)手語視頻與口語句子之間的對齊關(guān)系。這種方法充分利用了大模型在特征表示和知識遷移方面的優(yōu)勢,顯著提升了手語翻譯的效果。

圖5基于大模型微調(diào)的手語翻譯

Fig.5Signlanguage translationbased on largemodel fine-tuning

4.2基于大模型微調(diào)的手語翻譯方法

得益于語言大模型(LLM)的迅猛發(fā)展,其在手語翻譯任務(wù)中也展現(xiàn)出優(yōu)異的性能,例如Gong等人[1o]提出使用現(xiàn)有的LLM進(jìn)行語言翻譯。然而,如何將手語視頻轉(zhuǎn)換為適合LLM處理的語言表示是這一任務(wù)的關(guān)鍵問題。

為此,使用矢量量化視覺手語模塊將手語視頻轉(zhuǎn)換為離散字符級手語詞元序列,并使用手語-文本對齊模塊彌補(bǔ)了手語和口語句子之間的差距。 Kim 等人[107]針對如何抽取視覺特征使LLM更好地理解手語視頻提出了解決方案。該方法對手語視頻進(jìn)行了塊狀化和線性化兩種變換,塊狀化將時間對齊的手語注釋數(shù)據(jù)轉(zhuǎn)換為共同手語塊的無單元序列,并將該序列線性化為簡化的文本序列,將該序列投人LLM中進(jìn)行訓(xùn)練以生成高質(zhì)量的口語句子。Rust等人[108]針對人臉隱私保護(hù)的手語翻譯展開了研究,首先使用 MAE[109] 對 Signhiera視覺編碼器進(jìn)行自監(jiān)督預(yù)訓(xùn)練;在推理階段,凍結(jié)Signhiera編碼器以提取視覺特征,再使用T5[110]預(yù)訓(xùn)練語言模型生成口語句子。實驗表明,在常規(guī)數(shù)據(jù)集以及人臉遮蓋數(shù)據(jù)集都有良好的生成口語句子表現(xiàn)。Chen等人[33]注意到,將視覺模型和LLM聯(lián)合訓(xùn)練時,LLM的梯度范數(shù)和參數(shù)范數(shù)明顯高于視覺模型,導(dǎo)致視覺模型所抽取到的表征不足。為解決這一問題,先將視覺模型和低參數(shù)文本模型進(jìn)行訓(xùn)練,使視覺模型得到充分優(yōu)化;隨后,凍結(jié)訓(xùn)練好的視覺模型,將低參數(shù)文本模型替換為LLM再進(jìn)行聯(lián)合訓(xùn)練,以學(xué)習(xí)手語視頻與口語句子之間的對齊關(guān)系。隨著視覺大模型的飛速發(fā)展[102,I11,2],Wong 等人[34]提出基于DINOV2[113]和LLM微調(diào)的手語翻譯模型。該方法使用低秩微調(diào)[114]的方法,對視覺大模型和LLM進(jìn)行微調(diào)并使用輕量級適配器實現(xiàn)手語翻譯。

4.3基于大模型微調(diào)的手語翻譯方法分析與總結(jié)

表8展示了各算法在Phoenix-2014T數(shù)據(jù)集上的表現(xiàn),表9則總結(jié)了它們在CSL-Daily數(shù)據(jù)集上的表現(xiàn)。通過表89可以得出, Fla-LLM[33] 在Phoenix-2014T數(shù)據(jù)集上有著最好的表現(xiàn),原因是分階段訓(xùn)練更有利于視覺模塊的優(yōu)化。SIGN2GPT[34]是由多個大模型組成的手語翻譯模型,其本身參數(shù)過大導(dǎo)致其在Phoenix-2014T數(shù)據(jù)集中沒有展現(xiàn)出強(qiáng)大的統(tǒng)治力,而在CSL-Daily上則有著優(yōu)異的表現(xiàn)且在性能上遠(yuǎn)超其他模型。因此基于大模型微調(diào)的手語翻譯方法會與數(shù)據(jù)集的規(guī)模有著一定關(guān)系。

表8基于大模型微調(diào)的手語翻譯在Phoenix-2014T上的表現(xiàn)

Tab.8Performance of sign language translation based on large model fine-tuning on Phoenix-2014T

Tab.9Performance of sign language translation based on large model fine-tuning on CSL-Daily

5基于對比學(xué)習(xí)的手語翻譯

5.1基于對比學(xué)習(xí)的手語翻譯介紹

基于對比學(xué)習(xí)的手語翻譯方法如圖6所示。針對數(shù)據(jù)稀疏性問題,采用對比學(xué)習(xí)的訓(xùn)練策略,增強(qiáng)模型對視覺和文本的理解能力。這種方法通過對比不同模態(tài)的特征表征,解決了偏差歸納等問題,從而顯著提高了手語翻譯的性能。

圖6基于對比學(xué)習(xí)的手語翻譯 Fig.6Contrastive learning-based sign language translation

5.2基于對比學(xué)習(xí)的手語翻譯

Zhou等人[115]受 CLIP[112] 啟發(fā),提出一種新的基于視覺語言預(yù)訓(xùn)練的平滑語言模型。該模型首先結(jié)合CLIP和掩碼自監(jiān)督學(xué)習(xí),訓(xùn)練視覺編碼器以及文本編碼器-解碼器,從而彌補(bǔ)模態(tài)之間的差距;隨后,將視覺編碼器與文本解碼器相結(jié)合實現(xiàn)手語翻譯的功能。Gan等人[116]同樣使用對比學(xué)習(xí)緩解了CTC中尖峰現(xiàn)象和暴露偏差問題,對于CTC尖峰問題,該方法通過計算視覺特征的對比損失來增強(qiáng)視覺表征能力;對于暴露偏差問題,提出語義對比損失,通過對比訓(xùn)練集中正確語句的預(yù)測結(jié)果和模型自生成語句的預(yù)測結(jié)果,使模型學(xué)習(xí)到偏差并理解錯誤產(chǎn)生的原因。Zhao等人[117]針對數(shù)據(jù)集小導(dǎo)致無法充分學(xué)習(xí)到語義信息的問題,采用對比學(xué)習(xí)以增強(qiáng)模型理解能力。具體來說,該方法首先進(jìn)行詞匯驗證,確保詞匯屬于數(shù)據(jù)集中的已知詞匯;然后將通過驗證的詞匯輸入到BERT模型中,生成50條句子;最后,通過計算詞匯驗證模塊輸出的特征與BERT生成文本的余弦相似度,選取相似度最高的文本作為最終的手語翻譯結(jié)果。Fu等人[18]進(jìn)一步分析了小規(guī)模數(shù)據(jù)集可能導(dǎo)致模型詞元表示崩潰及生成詞元不準(zhǔn)確的問題,提出了一種詞元級別的對比學(xué)習(xí)方法。該方法使用不同的dropout機(jī)制生成兩組手語注釋序列,并將這一組序列進(jìn)行正向?qū)Ρ葘W(xué)習(xí);同時,從數(shù)據(jù)集中選擇當(dāng)前句子中不存在的詞元進(jìn)行負(fù)向?qū)Ρ葘W(xué)習(xí),從而緩解數(shù)據(jù)集規(guī)模過小帶來的問題。盡管自回歸模型在手語翻譯生成質(zhì)量較高,但是其推理速度遠(yuǎn)低于非自回歸模型。為此, Yu 等人[51]提出了一種新型訓(xùn)練策略,通過對比學(xué)習(xí)讓非自回歸模型學(xué)習(xí)自回歸模型生成手語的策略,從而實現(xiàn)高性能高推理速度的實時手語翻譯模型。

5.3基于對比學(xué)習(xí)的手語翻譯方法分析與總結(jié)

表10展示了各算法在Phoenix-2014T數(shù)據(jù)集上的表現(xiàn),而表11則總結(jié)了它們在CSL-Daily數(shù)據(jù)集上的表現(xiàn)。文獻(xiàn)[116]體現(xiàn)了最高的性能,因為該算法通過對比學(xué)習(xí)方法同時增強(qiáng)了模型的視覺能力和語言能力,有效緩解了暴露偏差問題,從而提高手語翻譯性能。此外,其他的對比學(xué)習(xí)方法同樣在手語翻譯任務(wù)中展現(xiàn)出巨大的潛力,因為對比學(xué)習(xí)方法可以針對手語數(shù)據(jù)集不足引發(fā)的模型過擬合問題,通過多種對比學(xué)習(xí)技術(shù)有效增強(qiáng)了模型的泛化能力,降低了數(shù)據(jù)稀缺對模型性能的影響。

.10Performance of sign language translation based on contrastive learning on Phoenix-2014

表11基于對比學(xué)習(xí)的手語翻譯在CSL-Daily上的表現(xiàn)

Tab.11Performance of sign language translation based on contrastive learning on CSL-Dail

表12手語翻譯方法性能評估

6 方法對比與分析

表12對基于深度學(xué)習(xí)的手語翻譯法的性能進(jìn)行了綜合評估。從表中可以看出,基于大模型微調(diào)和對比學(xué)習(xí)的手語翻譯模型表現(xiàn)最佳,且具有較高的創(chuàng)新性。然而,這類方法需要對大語言模型進(jìn)行微調(diào)或利用對比學(xué)習(xí)策略對模型進(jìn)行訓(xùn)練,顯著增加了訓(xùn)練的復(fù)雜性和資源需求,同時降低了手語翻譯的時效性。因此,這類方法在實時手語翻譯任務(wù)中并不占優(yōu)勢。

表10基于對比學(xué)習(xí)的手語翻譯在Phoenix-2014T上的表現(xiàn)

Tab.12 Performance evaluation of sign language translation methods

相較之下,基于線性結(jié)構(gòu)的手語翻譯方法雖然在翻譯精度上略顯不足,但其推理速度較快。這得益于采用非自回歸模型進(jìn)行推理,這使得它不依賴上下文信息進(jìn)行逐步生成,從而避免了長時間依賴關(guān)系的處理。然而,這種方法僅依賴手語視頻的內(nèi)容進(jìn)行翻譯,缺乏對上下文語義的深入理解,因此在復(fù)雜句子和長文本場景中的翻譯質(zhì)量存在一定局限性。基于編碼器-解碼器架構(gòu)的手語翻譯方法雖然在各項評估指標(biāo)中并未達(dá)到最優(yōu),但憑借其較低的訓(xùn)練難度和相對較高的翻譯性能,成為了學(xué)術(shù)界的熱門研究方向。該類方法能夠通過上下文信息實現(xiàn)較為準(zhǔn)確的翻譯生成,性能上優(yōu)于基于線性結(jié)構(gòu)的方法。更重要的是,由于其訓(xùn)練過程中不需要大量的人工干預(yù),且在硬件資源要求上相對較低,所以被廣泛應(yīng)用于手語翻譯的各類研究中。

本文對2018—2024年間手語翻譯領(lǐng)域的發(fā)展歷程進(jìn)行了梳理。如圖7所示,該時序圖展示了自2018年基于深度學(xué)習(xí)的手語翻譯任務(wù)正式定義以來的研究進(jìn)展。從時序圖中可以看出,基于編碼器-解碼器架構(gòu)的手語翻譯方法始終是該領(lǐng)域的主流研究方向。早期,得益于RNN的優(yōu)異表現(xiàn),基于編碼器-解碼器的手語翻譯實現(xiàn)了較高的翻譯性能。隨后,隨著Transformer模型在多個領(lǐng)域取得突破性進(jìn)展,研究人員開始嘗試將Transformer應(yīng)用于手語翻譯任務(wù),并取得了顯著效果。

與此相比,基于線性結(jié)構(gòu)的手語翻譯方法在近幾年獲得了較高關(guān)注。這類方法通過結(jié)合行為識別模型或圖神經(jīng)網(wǎng)絡(luò)來理解視覺信息,并使用連接時序分類(CTC)方法生成口語句子,能夠在保持較高翻譯性能的同時實現(xiàn)快速推理。非自回歸模型的特點使得此類方法在實時手語翻譯系統(tǒng)中表現(xiàn)突出。

近年來,基于大模型微調(diào)和對比學(xué)習(xí)的手語翻譯方法逐漸嶄露頭角。一方面,得益于大模型和對比學(xué)習(xí)方法在其他領(lǐng)域的成功應(yīng)用,這些技術(shù)在手語翻譯任務(wù)中展現(xiàn)出巨大的潛力;另一方面,這些方法針對手語翻譯中數(shù)據(jù)集規(guī)模較小的問題,通過對大規(guī)模預(yù)訓(xùn)練模型進(jìn)行微調(diào)并結(jié)合對比學(xué)習(xí)策略,有效緩解了模型泛化能力不足的問題,從而顯著提高了手語翻譯的準(zhǔn)確性。

本文對基于深度學(xué)習(xí)的手語翻譯任務(wù)在不同數(shù)據(jù)集上的表現(xiàn)進(jìn)行了整理。如表13所示,USTC-ConSents[4]早期致力于基于規(guī)則的手語翻譯研究,目前部分學(xué)者使用該數(shù)據(jù)集用于評估基于深度學(xué)習(xí)的手語翻譯模型,由于該數(shù)據(jù)集過小,目前性能已經(jīng)接近飽和。 How2Sign[36] 是大型美語手語翻譯數(shù)據(jù)集,雖然現(xiàn)在使用它作為模型評估的數(shù)據(jù)集較少,但是隨著計算機(jī)性能的提升與模型結(jié)構(gòu)的優(yōu)化會越來越受歡迎。最后是Ev-Sign[99] 數(shù)據(jù)集,大部分學(xué)者都致力于對多模態(tài)輸入模型的研究,而事件流同樣是一個很有競爭力的輸入模態(tài),但是該數(shù)據(jù)集提出過晚,因此暫時很少有人使用該數(shù)據(jù)集對模型進(jìn)行評估。

表13手語翻譯在其他數(shù)據(jù)集上的表現(xiàn)

Tab.13Performance of sign language translation on other datasets

翻譯的性能產(chǎn)生了顯著影響。

7結(jié)束語

7.1 總結(jié)

本文對基于深度學(xué)習(xí)的手語翻譯方法進(jìn)行了歸納、對比分析和總結(jié),詳細(xì)討論了手語翻譯的多個關(guān)鍵方面,包括模型結(jié)構(gòu)、訓(xùn)練模式、訓(xùn)練方法以及輸人模態(tài)等。這些因素均對手語

7.2挑戰(zhàn)

目前,基于深度學(xué)習(xí)的手語翻譯任務(wù)面臨以下問題與挑戰(zhàn):a)模態(tài)之間難以對齊的挑戰(zhàn)。手語翻譯可以認(rèn)為是機(jī)器翻譯任務(wù)中的一種,同樣是序列轉(zhuǎn)為序列的任務(wù),但是傳統(tǒng)的機(jī)器翻譯任務(wù)沒有跨模態(tài)的翻譯任務(wù),只是相同模態(tài)序列之間的對齊。而手語翻譯是要求模型從手語視頻序列轉(zhuǎn)換為文本序列,需要模型同時學(xué)習(xí)到手語視頻中的視覺動作以及時序信息并將其輸出為文本序列。因此,跨模態(tài)對齊是手語翻譯任務(wù)中的一項重大挑戰(zhàn)。b)數(shù)據(jù)集規(guī)模不足或質(zhì)量不高所導(dǎo)致的模型過擬合或無法收斂的挑戰(zhàn)。現(xiàn)在學(xué)者主要使用Phoenix-2014T[3] 和CSL-Daily[35]作為手語翻譯任務(wù)的基準(zhǔn)數(shù)據(jù)集,但是前者的數(shù)據(jù)量相對于傳統(tǒng)機(jī)器翻譯任務(wù)數(shù)據(jù)集過小,即使后者加大了數(shù)據(jù)集規(guī)模,但是對于該任務(wù)來說依舊遠(yuǎn)遠(yuǎn)不足。所以會使部分參數(shù)過大的模型無法得到充分的訓(xùn)練,使其無法發(fā)揮出應(yīng)該擁有的性能。同時,研究人員也嘗試構(gòu)建大型的手語翻譯數(shù)據(jù)集[42,43],這類數(shù)據(jù)集有著龐大的視頻數(shù)量讓模型得到充分的訓(xùn)練。但是這種數(shù)據(jù)集質(zhì)量通常遠(yuǎn)遠(yuǎn)低于當(dāng)前的基準(zhǔn)數(shù)據(jù)集,因為其背景相比后者過于喧雜,使模型難以收斂。此外,龐大的數(shù)據(jù)集會導(dǎo)致巨大的算力消耗[108],也使學(xué)者們被迫放棄這類數(shù)據(jù)集。c)基于深度學(xué)習(xí)的手語翻譯的主要目的是實時手語翻譯,以降低人們與聽障人士之間的溝通門檻。如何在保證高準(zhǔn)確率的手語翻譯情況下,具有良好的翻譯速度同樣是該重視的問題。

7.3 展望

面對跨模態(tài)對齊的難點,研究人員早期熱衷于使用視覺模塊與Transformer的結(jié)構(gòu)[18]來促使兩者對齊,但是隨著時間發(fā)展可以發(fā)現(xiàn)這種方法并不是最優(yōu)范式。后來將目光聚集到微調(diào)大語言模型來促進(jìn)模態(tài)之間的對齊[34],讓大語言去理解抽取好的視覺信息,并輸出對應(yīng)的手語含義,可以極大程度地緩解模態(tài)之間難以對齊的問題。而針對數(shù)據(jù)集規(guī)模過小的問題,早期的遷移學(xué)習(xí)方法[19]一直是一個良好的解決方案,通過將其他訓(xùn)練好的任務(wù)模型應(yīng)用在手語翻譯中,能有效緩解過擬合問題或從零訓(xùn)練模型成本過大的問題。現(xiàn)在致力于使用對比學(xué)習(xí)[115]或知識蒸餾[69]的方法,使模型增強(qiáng)對數(shù)據(jù)的辨別能力或讓模型去學(xué)習(xí)教師模型以增強(qiáng)模型的泛化性。在現(xiàn)實應(yīng)用場景更需要的是實時手語翻譯,像傳統(tǒng)的編碼器-解碼器結(jié)構(gòu)或大模型微調(diào)方法,對于實時手語翻譯來說響應(yīng)速度過于緩慢,無法達(dá)到實際應(yīng)用的目的。而設(shè)計出高準(zhǔn)確率的非自回歸手語翻譯模型或者提出新型同聲傳譯的神經(jīng)網(wǎng)絡(luò)架構(gòu)才是人們所需重視的。

總體而言,通過大模型微調(diào)的手語翻譯方法可以很好地應(yīng)對跨模態(tài)對齊的問題,面對當(dāng)前數(shù)據(jù)集過小的難點,知識蒸餾或?qū)Ρ葘W(xué)習(xí)可以有效緩解。而實際應(yīng)用中同聲傳譯的手語翻譯是更值得關(guān)注的,所以設(shè)計出新穎的同聲傳譯手語翻譯模型值得人們思考。

參考文獻(xiàn):

[1]World Health Organization.Deafness and hearing loss [EB/OL]. (2025-02-26).https://www.who.int/news-room/fact-sheets/detail/deafness-and-hearing-loss.

[2]Grieve-Smith A B. English to American sign language machine translationofweatherreports[C]//Procof the2nd AnnualHighDesert Student ConferenceinLinguistics.1999:23-30.

[3]Camg?z NC,Hadfield S,KollerO,etal.Neural sign language translation[C]//ProcofIEEE/CVFConferenceonComputerVisionand Pattern Recognition.Piscataway,NJ: IEEE Press,2O18:7784-7793.

[4]Jin Tao,Zhao Zhou. Contrastive disentangled meta-learning for signerindependentsignlanguagetranslation[C]//Proc ofthe29th ACM International Conference on Multimedia. New York:ACM Press, 2021:5065-5073.

[5]Jin Tao,Zhao Zhou,Zhang Meng,et al.MC-SLT:towards lowresource signer-adaptive sign language translation[C]//Procof the 30thACMInternationalConferenceonMultimedia.NewYork:ACM Press,2022:4939-4947.

[6]Nufez-Marcos A, Perez-de-Vinaspre O, Labaka G. A survey on sign language machine translation[J].Expert Systems with Applications,2023,213:118993.

[7]PezzuoliF,Corona D, Corradini ML,et al.Development of a wearable device for sign language translation [M]// Ficuciello F,Ruggiero F, Finzi A.Human Friendly Robotics.Cham:Springer,2018:115-126.

[8]Roelofsen F,Esselink L,Mende-Gillings,et al. Sign language translationinahealthcare seting[C]//Procof Translationand Interpreting Technology Online Conference. Stroudsburg,PA: Association for Computational Linguistics,2021:110-124.

[9]Othman A,Jemni M.Designing high accuracy statistical machine translation for sign language using parallel corpus:case study English and American sign language[J]. Journal of Information Technology Research,2019,12(2): 134-158.

[10]Wazalwar S S, Shrawankar U. Interpretation of sign language into English using NLP techniques[J].Journal of Information and Optimization Sciences,2017,38(6): 895-910.

[11]Elman J. Finding structure in time [J]. Cognitive Science,1990, 14(2) : 179-211.

[12]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8): 1735-1780.

[13]Vaswani A,ShazeerN,ParmarN,etal.Attention isall you need [C]//Proc of the 31st International Conferenceon Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc., 2017: 6000-6010.

[14]Dosovitskiy A. An image is worth 16×16 words : Transformers for imagerecognition at scale[EB/OL].(2020-10-22).https://arxiv. org/abs/2010.11929.

[15]Liu Ze,Lin Yutong,Cao Yue,etal.Swin Transformer:hierarchical vision Transformer using shifted windows [C]// Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:9992-10002.

[16]Devlin J.BERT:pre-training of deep bidirectional Transformers for language understanding[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. Stroudsburg,PA:Association for Computational Linguistics,2019:4171-4186.

[17]Yang Zhilin,Dai Zihang,Yang Yiming,etal. XLNet:generalized autoregressive pretraining for language understanding [C]// Proc of the 33rd InternationalConferenceonNeural InformationProcesing Systems.Red Hook,NY:Curran Asciates Inc.,2019: 5753-5763.

[18]Camg?z NC,Koler O,HadfieldS,et al.Sign language Transformers: joint end-to-end sign language recognition and translation [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10020-10030.

[19]Chen Yutong,Wei Fangyun,Sun Xiao,et al.A simple multi-modality transfer learning baseline for sign language translation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:5110-5120.

[20]Yin K,Read J.Betersign language translation with STMCTransformer[C]// Proc of the 28th International Conference on Computational Linguistics.[S.1.]: International Committe on Computational Linguistics,2020:5975-5989.

[21]Yin A,Zhao Z,Liu J,et al.SimulSLT:end-to-end simultaneous sign language translation [C]// Proc of the 29th ACM International Conference on Multimedia. New York:ACMPress,2021: 4118-4127.

[22] 0ngSCW , Ranganath S. Automatic sign language analysis : a survey and the future beyond lexical meaning[J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2005,27(6) : 873-891.

[23]Ma Mingbo,Huang Liang,Xiong Hao,et al. STACL:simultaneous translation with implicit anticipation and controllable latency using prefix-to-prefix framework[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA:Association for Computational Linguistics,2019:3025-3036.

[24]Shahin N,Ismail L.From rule-based models to deep learning transformers architectures for natural language processing and sign language translation systems:survey,taxonomyand performance evaluation [J].Artificial Intelligence Review,2024,57(10): 271.

[25]Angelova G,Avramidis E,Moller S.Using neural machine translation methods for sign language translation [C]// Procof the 60th Annual Meeting of the Association for Computational Linguistics:Student Research Workshop. Stroudsburg,PA:Association for Computational Linguistics,2022:273-284.

[26]Guo Dan,Wang Shuo,Tian Qi,et al.Dense temporal convolution network for sign language translation[C]//Procof the 28th International Joint Conference on Artificial Intelligence.[S.l.]:International Joint Conferenceson Artificial Intelligence Organization,2021: 744-750.

[27]閆思伊,薛萬利,袁甜甜.手語識別與翻譯綜述[J].計算機(jī)科 學(xué)與探索,2022,16(11):2415-2429.(Yan Siyi,Xue Wanli, YuanTiantian.Survey of sign language recognition and translation [J].Journal of Frontiers of Computer Science and Technology,2022,16(11):2415-2429.)

[28]Radford A, Wu J, Child R,et al. Language models are unsupervised multitask learners [EB/OL].(2019).https://cdn.openai.com/ better-language-models/language_models_are_unsupervised_multitask_ learners. pdf.

[29]Radford A,Narasimhan K.Improvinglanguageunderstanding bygenerative pre-training[EB/OL].(2020-09-25).tps://api.semanticscholar. org/CorpusID:49313245.

[30] Brown T M,Mann B,Ryder N,et al.Language models are few-shot learners[C]//Proc of the 34th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc.,2020:1877-1901.

[31]Dabre R,Chu Chenhui,Kunchukuttan A,et al.A brief survey of multilingual neural machine translation [EB/OL].(2O19-05-14). https://arxiv.org/abs/1905.05395.

[32]ReiR,Stewart C,F(xiàn)arinha AC,et al.COMET:a neural framework forMTevaluation[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA:Association for Computational Linguistics,2020: 2685-272.

[33] Chen Zhigang,Zhou Benjia,Li Jun,et al.Factorized learning assisted with large language model for gloss-free sign language translation [C]//Procof Joint International Conference on Computational Linguistics,Language Resources and Evaluation.[S.1.]:ELRA and ICCL,2024:7071-7081.

[34] Wong R, Camgoz NC, Bowden R. Sign2GPT: leveraging large languagemodels for gloss-free sign language translation [EB/OL]. (2024-05-07). https://arxiv. org/abs/2405.04164.

[35] Zhou Hao, Zhou Wengang,Qi Weizhen,et al. Improving sign language translation with monolingual data by sign back-translation [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2021:1316-1325.

[36]Duarte A C.Cros-modal neural signlanguage translation[C]// Proc of the 27th ACM International Conference on Multimedia.New York:ACM Press,2019:1650-1654.

[37]Shi Bowen,Brentari D,Shakhnarovich G,et al. Open-domain sign language translation learned from online video [C]// Proc of Conference on Empirical Methods in Natural LanguageProcessing. Stroudsburg,PA: Association for Computational Linguistics,2022:6365-6379.

[38]Ko SK,Kim CJ, Jung H,et al.Neural sign language translation based on human keypoint estimation [J]. Applied Sciences,2019, 9(13): 2683.

[39]Camg?z NC,SaundersB,Rochette G,et al.Content4All open research sign language translation datasets[C]// Proc of the 16th IEEE International ConferenceonAutomatic Faceand Gesture Recognition.Piscataway,,NJ: IEEE Press,2021:1-5.

[40]Albanie S,Varol G,Momeni L,et al.BOBSL:BBC-Oxford British sign language dataset [EB/OL]. (2021-11-05). https://arxiv. org/abs/2111.03635.

[41] Zeeon IE M,Mohammad M M,Adnan M A.BTVSL:a novel sentence-level annotated dataset for Bangla sign language translation [C]//Proc of the 18th International Conference on Automatic Face and Gesture Recognition.Piscataway,NJ: IEEE Press,2O24:1-10.

[42]Shen Xin,Yuan Shaozu,Sheng Hongwei,et al. Auslan-Aaily:Australian sign language translation for daily communication and news [EB/OL]. (2023-09-26). https://openreview. net/forum? id = g5v3Ig6 WVq.

[43]DreuwP,NeidleC,AthitsosV,etal.Benchmark databases for videobased automatic sign language recognition[C]//Proc of the 6th International Conference on Language Resources and Evaluation.[S.1.]: LREC,2008:1115-1120.

[44]Huang Jie,Zhou Wengang,Zhang Qilin,et al.Video-based sign language recognition without temporal segmentation[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2018:11903.

[45]Papineni K,Roukos S,Ward T,et al. BLEU:a method for automatic evaluation of machine translation[C]//Procof the 4Oth Annual Meeting of the Association for ComputationalLinguistics.Stroudsburg,PA:Association for Computational Linguistics,2OO2:311-318.

[46]Lin C Y.ROUGE:a package for automatic evaluation of summaries [M]//Text Summarization Branches Out. Stroudsburg,PA: Association for Computational Linguistics,20o4:74-81.

[47]Li Dongxu,Xu Chenchen,Yu Xin,et al.TSPNet:hierarchical feature learning via temporal semantic pyramid for sign language translation[C]//Procof the 34th Conference on Neural Information Processing Systems. Red Hook,NY:Curran Associates Inc.,2020: 12034- 12045.

[48]李安陽,郭丹.基于雙路并行時序?qū)W習(xí)模型的手語視頻翻譯 [J].合肥工業(yè)大學(xué)學(xué)報:自然科學(xué)版,2021,44(1):54-60. (Li Anyang,Guo Dan.Two-stream neural network based on connectionist temporal clasification for sign language translation[J].Journal of Hefei University of Technology:Natural Science,2021, 44(1):54-60.)

[49]De Coster M,D'Oosterlinck K,Pizurica M,et al.Frozen pretrained transformers for neural signlanguage translation[C]//Proc of the 1st International Workshop on Automatic Translation for Signed and SpokenLanguages.[S.1.]:Association for Machine Translation in the Americas,2021:88-97.

[50]Hu Cong,F(xiàn)u Biao,Yu Pei,et al.An explicit multi-modal fusion method for sign language translation [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2024:3860-3864.

[51]YuPei,Zhang Liang,F(xiàn)u Biao,et al.Efcient sign language translation with a curriculum-based non-autoregressive decoder[C]//Proc of the 32nd International Joint Conference on Artificial Intelligence. [S.1.]:International Joint Conferences on Artificial Intelligence Organization,2023:5260-5268.

[52]Tang Shengeng,Guo Dan,Hong Richang,et al. Graph-based multimodal sequential embedding for sign language translation [J]. IEEE Trans onMultimedia,2021,24:4433-4445.

[53]Chen Yutong,Zuo Ronglai,Wei Fangyun,et al.Two-stream network forsignlanguagerecognitionand translation[C]//Proc of the36th International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Assciates Inc.,2022:17043-17056.

[54]Gan Shiwei,Yin Yafeng,Jiang Zhiwei,et al.Towards real-time sign language recognition and translation on edge devices [C]// Proc of the31st ACM International Conference on Multimedia.New York: ACMPress,2023:4502-4512.

[55] Zhou Hao, Zhou Wengang,Zhou Yun,et al. Spatial-temporal multicue network for continuous sign language recognition [C]// Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:13009-13016.

[56]Gan Shiwei,YinYafeng,Jiang Zhiwei,et al.Skeleton-aware neural sign language translation [C]// Proc of the 29th ACM International Conferenceon Multimedia.New York:ACMPress,2021:4353-4361.

[57]邵舒羽,杜垚,范曉麗.基于Transformer和多模態(tài)對齊的非自回 歸手語翻譯技術(shù)研究[J].電子與信息學(xué)報,2024,46(7): 2932-2941.(Shao Shuyu,DuYao,F(xiàn)an Xiaoli.Non-autoregreive sign language translation technology based on Transformer and multimodal alignment[J].Journal of Electronicsamp; Information Technology,2024,46(7):2932-2941.)

[58]Hamidullah Y,van Genabith J,Espania-Bonet C. Sign language translation with sentence embedding supervision [C]// Proc of the 62nd Annual Meetingof the Association for Computational Linguistics.Stroudsburg,PA:Assciation for Computational Linguistics, 2024: 425-434.

[59]Reimers N, Gurevych I. Sentence-BERT: sentence embeddings using Siamese BERT-networks[C]//Proc of Conference on Empirical Methods in Natural Language Processingand the 9th International Joint Conference on Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2019: 3982-3992.

[60]Xie Pan, Zhao Mengyi,Hu Xiaohui.PiSLTRc:position-informed sign language Transformer with content-aware convolution[J]. IEEE TransonMultimedia,2021,24:3908-3919.

[61] Shaw P,Uszkoreit J,Vaswani A. Self-attention with relative position representations [C]/′ Procof Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. Stroudsburg,PA:Assciation for Computational Linguistics,2018: 464-468.

[62]Kim J, Kim H Y. CSLT-AK: convolutional-embedded Transformer with an action tokenizer and keypoint emphasizer for sign language translation[J].Pattern Recognition Letters,2023,173:115-122.

[63]Gulati A, Qin J,Chiu C C,et al. Conformer:convolution-augmented Transformer for speech recognition [EB/OL]. (2020-05-16).https:// arxiv.org/abs/2005.08100.

[64]Guo Zihui,Hou Yonghong,Hou Chunping,etal.Locality-aware transformer for video-based sign language translation[J].IEEE Signal Processing Letters,2023,30: 364-368.

[65]Bandyopadhyay D, Zafar A,Ekbal A,et al.End to end sign language translation via multitask learning[C]//Proc of International Joint Conference on Neural Networks. Piscataway,NJ: IEEE Press, 2023:1-8.

[66] Xie Saining, Sun Chen, Huang J,et al. Rethinking spatiotemporal feature learning:speed-accuracy trade-offsinvideo clasification [C]//FerrariV,Hebert M,Sminchisescu C,etal.Computer Vision-ECCV 2018. Cham:Springer,2018:318-335.

[67]Carreira J,Zisserman A.Quo vadis,action recognition?A new model and thekinetics dataset[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,,2017: 4724-4733.

[68] Li Dongxu,Opazo C R,Yu Xin,et al. Word-level deep sign language recognition from video: a new large-scale dataset and methods comparison[C]// Proc of IEEE Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,202O: 1448-1458.

[69]Ye Jinhui,Jiao Wenxiang, Wang Xing,et al.Cross-modalitydata augmentation for end-to-end sign language translation [C]// Proc of Findings of the Association for Computational Linguistics:EMNLP. Stroudsburg,PA: Association for Computational Linguistics,2023: 13558-13571.

[70]Yao Huijie,Zhou Wengang,F(xiàn)eng Hao,et al. Sign language translation with iterative prototype[C]//Procof IEEE/CVF International Conference on Computer Vision.Los Alamitos,CA:IEEE Computer Society,2023:15592-15601.

[71]Bahdanau D.Neural machine translation by jointly learning to align and translate [EB/OL]. (2014-09-01). https://arxiv.org/abs/ 1409. 0473.

[72]Luong T,Pham H,Manning C D. Effective approaches to attentionbased neural machine translation [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2015:1412-1421.

[73]Guo Dan,Zhou Wengang,Li Houqiang,et al. Hierarchical LSTM for sign language translation[C]// Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:12235.

[74]朱連淼,楊波,郭佳君,等.基于全局注意力機(jī)制的漢語手語詞 翻譯[J].中南民族大學(xué)學(xué)報:自然科學(xué)版,2022,41(4):499- 505.(Zhu Lianmiao,Yang Bo,Guo jiajun,et al.Chinese sign language word translation based on global attention mechanism[J]. Journal of South-Central Minzu University:Natural Science Edition,2022,41(4): 499-505.)

[75]Chung J,Gulcehre C,Cho K,et al.Empirical evaluation of gatedrecurrent neural networks on sequence modeling[EB/OL]. (2014-12- 11).https://arxiv.org/abs/1412.355.

[76]Dey R, Salem F M. Gate-variants of gated recurrent unit (GRU) neural networks[C]// Proc of the 6Oth International Midwest Sympo sium on Circuits and Systems.Piscataway,NJ: IEEE Press,2017: 1597-1600.

[77]Fu Rui, Zhang Zuo,Li Li.Using LSTM and GRU neural network methods for trafic flow prediction[C]//Proc of the31st Youth Academic Annual Conference of Chinese Association of Automation.Piscataway,NJ: IEEE Press,2016: 324-328.

[78]Zheng Jiangbin,Chen Yidong,Wu Chong,et al. Enhancing neural sign language translation by highlighting the facial expression information[J].Neurocomputing,2021,464:462-472.

[79]Orbay A,Akarun L.Neural sign language translation by learning tokenization[C]//Proc of the 15th IEEE International Conference on Automatic Face and Gesture Recognition. Piscataway,NJ: IEEE Press,2020:222-228.

[80]Amin M,Hefny H,Mohammed A.Sign language gloss translation using deep learning models[J]. International Journal of Advanced Computer Science and Applications,2021,12(11): 686-692.

[81] Zhang Hao,Sun Yixiang,Liu Zenghui,et al.Heterogeneous attention based transformer for sign language translation [J].Applied Soft Computing,2023,144:110526.

[82]Child R, Gray S,Radford A,et al.Generating long sequences with sparse Transformers [EB/OL]. (2019-04-23). https://arxiv.org/ abs/1904.10509.

[83]Chen Yinpeng,Dai Xiyang,Liu Mengchen,et al.Dynamic convolution:attention over convolution kernels[C]//Proc of IEEE/CVF Conference on Computer Vision and Patern Recognition.Piscataway, NJ:IEEE Press,2020: 11027-11036.

[84] Jin Tao,Zhao Zhou, Zhang Meng,et al. Prior knowledge and memory enriched transformer for sign language translation[C]// Proc of Findings of the Association for Computational Linguistics:ACL. Stroudsburg,PA:Association for Computational Linguistics,2022: 3766-3775.

[85] Zhao Rui, Zhang Liang,F(xiàn)u Biao,et al. Conditional variational autoencoder for sign language translation with cross-modal alignment [C]//Proc of AAAI Conferenceon Artificial Intellgence.Palo Alto, CA:AAA1 Press,2024:19643-19651.

[86]SohnK,Yan Xinchen,Lee H. Learning structured output representation using deep conditional generative models[C]//Proc of the 29th International Conference on Neural Information Processng Systems. Cambridge,MA: MIT Press,2015: 3483-3491.

[87]Hu Hezhen, Zhao Weichao,Zhou Wengang,et al. SignBERT + : hand-model-aware self-supervised pre-training for sign language understanding [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2023,45(9): 11221-11239.

[88]Romero J,Tzionas D,Black MJ.Embodied hands:modeling and capturing hands and bodies together[J].ACM Trans on Graphics, 2017,36(6): 245.

[89]Yin Aoxiong,Zhong Tianyun,Tang Li,et al.Gloss attention for gloss-free sign language translation [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2023: 2551-2562.

[90] Zhang Biao,Muller M, Sennrich R. SLTUNET:a simple unified model forsign language translation[EB/OL].(2023-05-O2).https:// arxiv.org/abs/2305.01778.

[91] Sun Tong,F(xiàn)u Biao,Hu Cong,et al. Adaptive simultaneous sign language translation with confident translation length estimation [C]// Proc of Joint International Conference on Computational Linguistics. [S.1.]:ELRA and ICCL,2024:372-384.

[92]Camg?z N C,Koler O,Hadfield S,et al.Multi-channel Transformers for multi-articulatory sign language translation[C]//Bartoli A, Fusiello A.Computer Vision-ECCV2020 Workshops.Cham:Springer, 2020: 301-319.

[93]Cao Zhe, Simon T,Wei Shihen,et al. Realtime multi-person 2D pose estimation using part affinity fields [C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2017:1302-1310.

[94] KolerO, Camgoz N C,Ney H, et al. Weakly supervised learning with multi-stream CNN-LSTM-HMMstodiscoversequentialparalelism in sign language videos[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2020,42(9): 2306-2320.

[95]Chaudhary L,Ananthanarayana T,Hoq E,et al. SignNet II:a Transformer-based two-way sign language translation model [J]. IEEETrans on Pattern Analysis and Machine Intelligence, 2023,45(11): 12896-12907.

[96]Ananthanarayana T,Chaudhary L,Nwogu I.Effects of feature scaling and fusion on sign language translation[C]//Proc of Interspeech.[S.1.]:ISCA,2021:2292-2296.

[97]Li Ronghui,Meng Lu. Sign language recognition and translation network based on multi-view data[J].Applied Intelligence,2022,52 (13):14624-14638.

[98]Gallego G,Delbruck T,Orchard G,et al.Event-based vision:a survey[J]. IEEE Trans on Pattern Analysis and Machine Inteligence,2020,44(1):154-180.

[99]Zhang Pengyu,Yin Hao,Wang Zeren,et al.EvSign:sign language recognition and Translation with Streaming events[C]//Leonardis A,RicciE,Roth S,et al.Computer Vision-ECCV 2024.Cham: Springer,2025:335-351.

[100]Yin Aoxiong,Zhao Zhou,Jin Weike,et al.MLSLT:towards multilingual sign language translation [C]// Proc of IEEE/CVF Conference on Computer Vision and Patern Recognition.Piscataway,NJ: IEEE Press,,2022:5099-5109.

[101]Yang J,Jin H,Tang R,et al.Harnessing the power of LLMs in practice:a survey on ChatGPT and beyond[J].ACM Trans on Knowledge Discovery from Data,2024,18(6):article No.160.

[102]Kirillov A,Mintun E,RaviN,et al.Segment anything[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscatawav.NI: IEEE Press.2023:3992-4003. guide to parameter-efficient fine-tuning[EB/OL].(2O23-04-28). https://arxiv.org/abs/2303.15647.

[104]Dai Wenliang,Li Junnan,Li Dongxu,et al.InstructBLIP;towards general-purpose vision-language models with instruction tuning [EB/ OL].(2023-05-11). https://arxiv.org/abs/2305.06500.

[105]Li Yanghao,F(xiàn)an Haoqi,Hu Ronghang,et al.Scaling language-image pre-training via masking [C]//Proc of IEEE/CVF Conferenceon Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2023:23390-23400.

[106]Gong Jia,F(xiàn)ooLG,He Yixuan,et al.LLMs are good sign language translators [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2024: 18362-18372.

[107]Kim JH,Huerta-Enochian M,Ko C,et al.SignBLEU:automatic evaluation of multi-channel sign language translation [C]// Proc of Joint International Conference on Computational Linguistics,Language Resources and Evaluation.[S.1.]:ELRA and ICCL,2024: 14796-14811.

[108]Rust P, Shi Bowen,Wang S,et al. Towards privacy-aware sign language translation at scale [C]// Proc of the 62nd Annual Meting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2024:8624-8641.

[109]He Kaiming,Chen Xinlei, Xie Saining,et al.Masked autoencoders are scalable vision learners[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:16000-16009.

[110]Colin R,Noam S,Adam R,etal.Exploring the limits of transfer learning with a unified text-to-text Transformer[J].The Journal of Machine Learning Research,2020,21(1): 5485-5551.

[111]Rombach R,Blattmann A, Lorenz D,et al.High-resolution image synthesis with latent diffsion models[C]//Proc of IEEE/CVF Conference on Computer Visionand Patern Recognition.Piscataway, NJ: IEEE Press, 2022:10684-10695.

[112]Radford A,Kim JW,Hallacy C,et al. Learning transferable visual models from natural language supervision [C]// Proc of International Conference on Machine Learning:[S.1.]: PMLR,2021: 8748-8763.

[113]Oquab M,Darcet T,Moutakanni T,et al.DINOv2:learning robust visual features withoutsupervisionEB/OL].(223-04-14)htps:// arxiv.org/abs/2304.07193.

[114]HuJE,Shen Yelong,WallisP,et al.LoRA:low-rank adaptation of large language models[EB/OL]. (2021-07-17). https://arxiv. org/abs/2106.09685.

[15]Zhou Benjia,Chen Zhigang,Clapes A,et al.Gloss-freesign language translation: improving from visual-language pretraining[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2023: 20814-20824.

[16]Gan Shiwei,Yin Yafeng,Jiang Zhiwei,et al.Contrastivelearning for sign language recognition and translation[C]//Proc of the 32nd International Joint Conference on Artificial Intelligence.2O13:763-772.

[17]Zhao Jian,Qi Weizhen, Zhou Wengang,et al.Conditional sentence generation and cross-modal reranking for sign language translation [J].IEEE Trans on Multimedia,2021,24:2662-2672.

[118]Fu Biao,Ye Peigen, Zhang Liang,et al.A token-level contrastive framework for sign language translation[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ: IEEE Press,2023:1-5.

[19]SnoverM,DorrB,SchwartzR,et al.Astudyoftranslationditate with targeted human annotation[C]//Proc of the 7th Conference of the Association for Machine Translation in the Americas:Technical Papers.[S.1.]:Association for Machine Translation in theAmericas2006:223-231

收稿日期:2025-01-06;修回日期:2025-02-12基金項目:省自然科學(xué)基金聯(lián)合基金培育項目(PL2024F002);省省屬高等學(xué)校基本科研業(yè)務(wù)費優(yōu)秀創(chuàng)新團(tuán)隊建設(shè)項目(2022-KYYWF-0654);國家基金培育項目(JMSUGPZR2022-014);省自主智能與信息處理重點實驗室開放課題(ZZXC202302);“東極”學(xué)術(shù)團(tuán)隊資助項目(DJXSTD202417);省省屬本科高校優(yōu)秀青年教師基礎(chǔ)研究支持計劃資助項目(YQJH2024239);省外國專家項目(G2024020);博士專項科研啟動項目(JMSUBZ2024-07);大學(xué)生創(chuàng)新創(chuàng)業(yè)計劃資助項目(S202310222013)

作者簡介:張磊(1982—),男,綏化人,教授,碩導(dǎo),博士,CCF會員,主要研究方向為信息安全、隱私保護(hù);王振宇( 2002-) ,男,綏化人,碩士研究生,主要研究方向為機(jī)器翻譯、手語翻譯;連帥帥(1996—),,男,人,碩士研究生,主要研究方向為隱私保護(hù);蒲冰倩(2001—),女,山西河津人,碩士研究生,主要研究方向為圖像隱私、隱私保護(hù);劉毓?jié)?99—),男,山西忻州人,碩士研究生,主要研究方向為圖像加密、壓縮感知;秦銘哲(1994—),男(通信作者),人,講師,主要研究方向為機(jī)器學(xué)習(xí)、隱私保護(hù)(jmswang0204@163.com).

主站蜘蛛池模板: 国产激情影院| 日本精品视频| 伊人91在线| 亚洲品质国产精品无码| 夜夜操国产| 人妻丰满熟妇αv无码| 91亚洲视频下载| 国产激爽大片在线播放| 成人年鲁鲁在线观看视频| 凹凸国产分类在线观看| 欧美a网站| 欧美α片免费观看| 欧美国产综合视频| 婷婷亚洲天堂| 第一页亚洲| 国产欧美高清| 国产国产人成免费视频77777| 精品国产香蕉伊思人在线| 国产在线视频二区| 免费一级α片在线观看| 精品亚洲国产成人AV| 日韩av无码精品专区| 野花国产精品入口| 国产欧美日韩综合在线第一| 理论片一区| 国产亚洲精品va在线| 国产女人在线视频| 国产亚洲精品91| 亚洲国产午夜精华无码福利| 最新午夜男女福利片视频| 熟女日韩精品2区| 欧美 亚洲 日韩 国产| 伊大人香蕉久久网欧美| 国产丝袜第一页| 欧美日韩国产成人在线观看| 亚洲精品国产首次亮相| 一级香蕉人体视频| 日韩精品成人网页视频在线 | 四虎影院国产| 国产成年女人特黄特色毛片免 | 久久久久人妻一区精品| 国产欧美视频综合二区| 免费人成视网站在线不卡| 久久国产亚洲偷自| 米奇精品一区二区三区| 日本道综合一本久久久88| 97se亚洲综合不卡 | 国产成人综合久久精品尤物| 亚洲 欧美 日韩综合一区| 国产亚洲高清视频| 国产在线观看第二页| 亚洲人成网线在线播放va| 在线欧美日韩国产| 日韩欧美中文字幕一本| 国产制服丝袜无码视频| 女人毛片a级大学毛片免费| 一本无码在线观看| 99视频在线免费| 美女视频黄频a免费高清不卡| 国产麻豆精品久久一二三| 91精品网站| 一级一级特黄女人精品毛片| 九色91在线视频| 国产99免费视频| 欧美午夜在线视频| 99久久精品免费视频| 国产xxxxx免费视频| 日韩第九页| 亚洲一区二区无码视频| 国产毛片一区| 国产一区成人| 国产99视频精品免费视频7| 亚洲AⅤ无码国产精品| 久久精品国产91久久综合麻豆自制| 久久综合九九亚洲一区| 一区二区三区毛片无码| 国产精品自在线拍国产电影| 四虎亚洲国产成人久久精品| 免费看a级毛片| Aⅴ无码专区在线观看| 亚洲综合天堂网| jizz在线免费播放|