999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進YOLOv5算法的智能手語翻譯方法研究

2025-09-15 00:00:00馬旭冉陳圣賢李熙范子昊孫娜
電腦知識與技術 2025年24期

摘要:為解決聽力和語言障礙者的社會交際問題,并針對當前智能手語翻譯技術中可穿戴設備因受生理特征差異影響而導致的識別準確性受限,以及嵌入式設備成本高、普及性不足等難題,文章提出了一種基于改進YOLOv5算法的智能手語翻譯方法。該方法在DDP模式下引入同步注冊機制,優(yōu)化了多GPU訓練中的批量歸一化參數(shù)同步;采用K-means算法優(yōu)化錨框參數(shù),并結合遺傳算法自動優(yōu)化超參數(shù);利用LambdaLR調度器動態(tài)調整學習率,并運用指數(shù)移動平均法平滑模型參數(shù)的更新過程。此外,文章改進了損失函數(shù),采用交叉熵損失、均方誤差和廣義交并比損失的組合以替代原始的CIOU損失函數(shù)。文章將所提出的翻譯方法在公開的HaGRID手勢識別數(shù)據集中進行試驗評估,并與其他算法進行了對比實驗。結果表明,該方法在準確率和F1分數(shù)等指標上均優(yōu)于其他手語翻譯算法,為智能手語翻譯提供了一種高效且低成本的技術解決方案。

關鍵詞:卷積神經網絡;YOLOv5算法;智能手語翻譯;算法改進

中圖分類號:TP391" " " 文獻標識碼:A

文章編號:1009-3044(2025)24-0036-04

開放科學(資源服務) 標識碼(OSID)

0 引言

預計到2050年,全球殘疾性聽力損失患者人數(shù)將增長至7億以上[1]。隨著全球聽力和語言障礙者人口的增長,其在日常生活中的交流需求日益凸顯。智能手語翻譯有助于解決該群體的社會交際問題,促進溝通交流,維護社會公平,并推動和諧社會的構建[2]。

目前,可穿戴設備的動態(tài)識別準確性受個體生理特征差異影響,而嵌入式設備的高成本則制約了其購買力與市場普及度[3-4]。相比之下,基于計算機視覺的手語翻譯器在便捷性、準確性和成本上更具優(yōu)勢,可根據不同場景調整算法和參數(shù)以提高準確性,且在軟件層面易于進行功能擴展,是更具潛力的技術選擇。近年來,該領域的手語翻譯研究取得了顯著進展。例如,邵俊倩和王鐵濱[5]利用圖神經網絡對連續(xù)手語視頻進行特征提取,通過調整網絡結構與參數(shù)實現(xiàn)模塊間的無縫融合,顯著提升了識別精度。趙金龍[6]設計了輕量化卷積神經網絡用于手語分類識別,并開發(fā)了高效的靜態(tài)手語數(shù)據采集系統(tǒng),同時改進了R-C3D網絡,通過替換深層特征提取網絡和優(yōu)化時間建議子網與分類識別子網的參數(shù),提升了動態(tài)手語識別性能。余得水[7]提出了基于RGB視頻和骨骼點數(shù)據的雙流分支輸入模型,并結合TA-BLSTM網絡進行時序學習,有效解決了動態(tài)孤立手語識別中的視覺冗余問題,提高了識別準確率。劉之諫[8]提出了基于廣域時序特征建模與上下文感知的手語翻譯模型,通過2D卷積神經網絡提取視頻幀特征,結合特征融合與翻譯模塊,并利用歷史注意力信息優(yōu)化翻譯結果。趙杰[9]提出了基于CLDNN的孤立詞語音—手語翻譯系統(tǒng)加速器設計方法,通過參數(shù)化實現(xiàn)算子級和模塊級加速,解決了大型網絡在嵌入式系統(tǒng)中的資源平衡問題,提升了系統(tǒng)的通用性。

通過分析智能手語翻譯的研究現(xiàn)狀,可將當前存在的主要問題歸納如下:1) 研發(fā)與產品成本高,限制了聽力和語言障礙者群體(尤其是經濟條件欠佳者) 的購買力;2) 研究對象范圍相對狹窄,用戶反饋不足,不利于技術的迭代與優(yōu)化;3) 手部殘疾或受傷者的非標準手勢動作可能導致識別錯誤。

為解決上述智能手語翻譯所面臨的問題,本文提出一種基于改進YOLOv5算法的智能手語翻譯方法,并通過與其他算法的對比實驗來驗證其有效性。

1 智能手語翻譯算法設計

本文采用HaGRID手勢識別數(shù)據集①,該數(shù)據集包含one、two、ok等18種常見手勢,種類豐富,共含有552 992張FullHD RGB圖像,并標注了手勢框和類別標簽,支持圖像分類和檢測任務。其標簽采用與YOLO兼容的格式,且數(shù)據涵蓋了多樣化的拍攝條件,增強了模型在各種真實場景中的適應能力。龐大的數(shù)據集也為模型訓練提供了充分的樣本支持。

1.1 數(shù)據預處理

首先,通過馬賽克數(shù)據增強,將四張不同的圖像混合成一張新圖像。該方法不僅有效提升了訓練樣本的多樣性,還強化了模型對復雜背景的適應能力。由于圖像融合過程會改變像素值的分布特征,因此需進行歸一化處理。在算法訓練中,歸一化有助于使數(shù)據分布更貼合模型的理論假設,從而優(yōu)化訓練效果。

1.2 改進YOLOv5算法

在DDP模式下,本文引入同步注冊機制以同步不同GPU的批量歸一化參數(shù);采用了K-means算法優(yōu)化錨框參數(shù);利用了遺傳算法自動搜索超參數(shù);借助了LambdaLR調度器動態(tài)調整學習率;并運用了指數(shù)移動平均法平滑訓練過程中的模型參數(shù)更新。此外,將原始的CIOU損失函數(shù)替換為交叉熵損失、均方誤差與廣義交并比損失的組合。如前文1.1節(jié)所述,數(shù)據集的預處理方法已詳細說明,下文將具體闡述算法的改進優(yōu)化策略。

1.2.1 聚類算法改進

本文采用K-means聚類算法重新計算Anchor。該算法可根據目標數(shù)據集的實際尺寸分布,找出最適合的Anchor尺寸組合,使得每個Anchor能夠更好地匹配數(shù)據集中不同大小的目標。基本步驟如下:

① 初始化聚類中心。從數(shù)據集中隨機選擇k個目標的寬高作為初始聚類中心,其中k為預先設定的Anchor數(shù)量。

② 分配數(shù)據點到聚類。對于數(shù)據集中的每個目標 (wi,hi),計算其到k個聚類中心(wcj,hcj)(j=1,2,...,k)的距離。在YOLOv5算法中,通常使用的距離度量是d=1-IOU(wi,hi,wcj,hcj),其中IOU是交并比(Intersection over Union) ,即預測框與真實標注框的交集與并集之比。然后,根據該距離度量,將每個目標分配到距離最近的聚類中心所在的聚類中。

③ 更新聚類中心。對于每個聚類j,重新計算其聚類中心。新的聚類中心([w'cj, h'cj])的寬度和高度分別為該聚類中所有目標寬度和高度的平均值。

重復步驟②和③,直至聚類中心穩(wěn)定。最終得到的k個聚類中心的寬高即為重新計算得到的Anchor尺寸,具體值如表1所示。HaGRID數(shù)據集包含552 992張圖像,經馬賽克數(shù)據增強后可拼接成138 248張。為保證各批次處理的圖像數(shù)量一致且盡可能多,本研究設置批處理大小為8張圖像。經計算后得到的適用于本數(shù)據集的Anchor如圖1所示。

1.2.2 遺傳算法優(yōu)化超參數(shù)

為解決訓練過程中易陷入局部最優(yōu)解的問題,本文提出GA-YOLOv5算法,旨在自動調整網絡結構和參數(shù),利用遺傳算法的全局尋優(yōu)能力在YOLOv5算法的網絡結構空間中搜索最優(yōu)網絡結構。基本流程如下:

1) 種群初始化。初代種群由人工初始化,設初代種群集合M={X1,X2,X3,...,Xn},其中Xn∈M是種群的單個個體,每個個體的基因串由一組網絡參數(shù)和訓練參數(shù)組成[10]。

2) 個體適應度評估。對每個個體,首先利用訓練樣本對網絡參數(shù)進行訓練,再用測試樣本進行測試,以SVM層分類結果對應的平均識別準確率作為該個體的適應度值。

3) 選擇。選擇過程基于適應度函數(shù)來評估每個個體的性能,本文選用二元錦標賽選擇[11]。首先從種群中隨機選擇兩個個體作為參賽者,然后比較這兩個個體的適應度值,選擇適應度值較高的個體作為優(yōu)勝者。重復此過程,直至選擇出足夠數(shù)量的優(yōu)勝者以構成新一代種群。

4) 交叉。本文選用單點交叉法。該方法首先隨機選擇一個交叉點,然后交換兩個父代在該點之后的基因串。

5) 變異。本文通過添加一個小的隨機值來實現(xiàn)變異。如果原始基因值為g,則變異后的基因值g'可表示為:

[g=g+α?N(0,1)] (1)

式中:[α]是變異強度,N(0,1)是服從標準正態(tài)分布的隨機變量。

1.2.3 LambdaLR調度器調整學習率

LambdaLR調度器用于動態(tài)調整學習率以優(yōu)化模型訓練過程。除常規(guī)的學習率調整策略外,本文在損失值接近全局最小時改用周期余弦退火學習率。由于檢測目標可能存在多個,因此優(yōu)化問題除全局最優(yōu)解外還存在多個局部最優(yōu)解。在使用梯度下降法訓練時模型可能陷入局部最小值[12],此時可通過周期循環(huán)性地突然提高學習率,來跳出局部最小值并尋找通向全局最優(yōu)解的路徑,隨后在訓練過程中逐漸降低學習率以提高模型的穩(wěn)定性和準確性。

1.2.4 指數(shù)移動平均法來平滑參數(shù)更新

為降低參數(shù)更新過程中的噪聲干擾,本文采用指數(shù)移動平均(Exponential Moving Average, EMA) 法來平滑模型參數(shù)的更新過程,以增強模型的穩(wěn)健性和泛化能力。EMA的具體實現(xiàn)步驟如下:

首先,將EMA的初始值設為零,并引入偏差修正機制以規(guī)避初始階段的顯著計算偏差。

每次參數(shù)更新時,須基于最新參數(shù)重新計算EMA值,該步驟在優(yōu)化器更新之后執(zhí)行,以確保使用的是當前迭代的最新參數(shù)。

在測試或驗證階段,采用EMA參數(shù)替代原始模型參數(shù),以提升推理過程的穩(wěn)定性與預測精度。

2 實驗結果分析

2.1 各類評估指標

PR曲線是以召回率(Recall) 為橫軸、精確率(Precision) 為縱軸的曲線,該曲線反映了在不同閾值條件下模型的性能表現(xiàn)。本文模型的PR曲線如圖2所示。

由圖2可知,各類別的平均精度(AP) 值均接近1,mAP@0.5達到0.994。各類別PR曲線高度重疊,表明模型對各手勢類別的識別性能均衡,精確率和召回率表現(xiàn)相近。曲線集中在高精確率和高召回率區(qū)域,無明顯下降,說明模型的誤報和漏報率極低。

2.1.2 F1-Score分數(shù)

F1分數(shù)(F1-Score) 是用于評估目標檢測模型性能的重要指標,它綜合了精確率和召回率,能夠有效衡量模型對正例的識別能力。

由圖3可知,F(xiàn)1分數(shù)曲線的值非常接近1且保持穩(wěn)定,其中平均F1分數(shù)為0.99,表明該模型在保證高查全率的同時也能維持高查準率,整體性能優(yōu)越。

為直觀展示本模型的檢測效果,本研究將HaGRID手勢識別數(shù)據集按7∶3的比例劃分為訓練集和測試集。圖4展示了12張在不同場景下隨機抽取的、具有不同手勢含義的圖片。結果顯示,所有圖片的預測結果均正確,表明模型在手勢識別任務上表現(xiàn)優(yōu)異。

為進一步驗證所提方法的有效性,本文邀請了4名手語使用者(均已獲得參與者知情同意) ,在不同環(huán)境下使用高分辨率攝像頭(分辨率:720 P,最大幀率:30 FPS) 錄制了包含4類手語動作的視頻樣本,以確保數(shù)據的多樣性和代表性。如圖5所示,實時檢測結果全部正確,識別效果良好。

2.2" 與其他算法相比

本文選取了五種算法進行比較。由圖6可知,在所對比的模型中,本文采用的改進YOLOv5算法在平均準確率上均表現(xiàn)最優(yōu)。該模型在手勢識別任務上展現(xiàn)出極高的精確率和召回率,適用于大多數(shù)實際應用場景。

3 結束語

針對聽力和語言障礙者的交流障礙問題,本文提出了一種基于改進YOLOv5算法的智能手語翻譯方法,并通過實驗與其他算法進行了對比分析。實驗結果表明,該方法在手語翻譯任務中達到了預期效果,其識別精度超越了傳統(tǒng)的對比算法,為手語翻譯技術的實際應用提供了可靠的技術支持。通過對YOLOv5算法進行針對性改進,本文有效提升了模型對手語識別任務的適應性,為相關領域的研究提供了有價值的方法參考。未來研究可圍繞模型輕量化、多模態(tài)數(shù)據融合以及與虛擬現(xiàn)實技術結合等方向展開,有望進一步提升手語翻譯系統(tǒng)的實用性與用戶體驗,為構建無障礙社會環(huán)境奠定重要的技術基礎。

注釋:

① 數(shù)據來源:https://github.com/hukenovs/hagrid.

參考文獻:

[1] 何析珈,劉佳,吳俊.互聯(lián)網+背景下聾啞人無障礙溝通系統(tǒng)的構建[J].自動化應用,2024(1):26-28.

[2] 朱艷.《手譯教育的新思考(節(jié)選)》的漢譯及翻譯報告[D].貴陽:貴州師范大學,2018.

[3] 彭智邦.嵌入式有為與適應性有效:結對關系中的消費幫扶機制研究[D].廣州:廣州大學,2023.

[4] 趙艷嬌,寧浩宇,孫玥,等.智能可穿戴產品現(xiàn)狀及評價方法研究[J].紡織科學研究,2024,35(9):19-24.

[5] 邵俊倩,王鐵濱.基于圖神經網絡和潛在空間的連續(xù)手語識別方法[J].綏化學院學報,2024,44(6):146-150.

[6] 趙金龍.基于卷積神經網絡的手語識別算法研究及部署[D].哈爾濱:哈爾濱工程大學,2021.

[7] 余得水.基于BLSTM的手語識別方法研究[D].重慶:重慶理工大學,2024.

[8] 劉之諫.基于廣域時序特征融合的無障礙手語翻譯方法與系統(tǒng)研究[D].天津:天津大學,2021.

[9] 趙杰.基于卷積長短時網絡的語音-手語翻譯系統(tǒng)加速器設計[D].南京:南京航空航天大學,2022.

[10] 趙路, 宋永紅, 張元林, 等. 基于遺傳算法的卷積神經網絡參數(shù)優(yōu)化方法[C]//中國自動化學會, 濟南市人民政府. 2017中國自動化大會(CAC2017)暨國際智能制造創(chuàng)新大會(CIMIC2017)論文集. 西安: 西安交通大學, 2017: 5.

[11] 畢珺.考慮多種不確定因素的餐飲外賣配送路徑問題研究[D].長春:吉林大學,2024.

[12] 趙晴,張海剛,湯圣濤,等.基于ScoreCAM的X光安檢違禁品檢測[J].計算機工程與設計,2022,43(12):3483-3492.

【通聯(lián)編輯:唐一東】

主站蜘蛛池模板: 日韩在线2020专区| 亚洲精品国产成人7777| 在线精品视频成人网| 国产精品片在线观看手机版| 一级香蕉人体视频| 国产成人精品亚洲77美色| 亚洲成人网在线观看| 2020国产在线视精品在| 国产欧美精品一区二区| 欧美日韩在线成人| 国产成人精品综合| 国产无码制服丝袜| 欧洲熟妇精品视频| 久久99久久无码毛片一区二区 | 伊人久久大香线蕉成人综合网| 亚洲三级网站| 91丝袜乱伦| 亚亚洲乱码一二三四区| 99视频在线精品免费观看6| 99精品伊人久久久大香线蕉| 精品久久蜜桃| 亚洲国产日韩在线成人蜜芽| 熟妇人妻无乱码中文字幕真矢织江| 国产国拍精品视频免费看| 宅男噜噜噜66国产在线观看| 伊人精品成人久久综合| 亚洲欧美在线精品一区二区| 国产精品熟女亚洲AV麻豆| 国产在线91在线电影| 超碰精品无码一区二区| 福利国产微拍广场一区视频在线| 国产视频自拍一区| 久久久久亚洲av成人网人人软件| 婷婷丁香在线观看| 99热这里只有精品2| 亚洲综合久久成人AV| 亚洲视频黄| 天堂在线亚洲| 黄色网在线| 免费无码AV片在线观看中文| 亚洲狠狠婷婷综合久久久久| 女人av社区男人的天堂| 91欧美亚洲国产五月天| 国产精品 欧美激情 在线播放| 亚洲综合香蕉| 国产精品久线在线观看| 欧美日韩中文国产va另类| 亚洲天堂视频在线观看免费| 欧美精品另类| 日韩二区三区| 欧美第九页| 一本大道香蕉久中文在线播放| 99久久国产综合精品2023| 国内视频精品| 亚洲日韩精品无码专区97| 综合色在线| 97色伦色在线综合视频| 免费jjzz在在线播放国产| 色有码无码视频| 久久a级片| 欧美国产中文| 91国内在线视频| 玩两个丰满老熟女久久网| av在线手机播放| 国产精品hd在线播放| 青青草a国产免费观看| 欧美精品亚洲精品日韩专区va| 国产幂在线无码精品| 天天综合天天综合| 国产精品任我爽爆在线播放6080| 久久亚洲美女精品国产精品| 亚洲天堂免费| 98精品全国免费观看视频| 九色在线视频导航91| 国产精品福利在线观看无码卡| 成人毛片免费在线观看| 国产激情无码一区二区免费| 五月婷婷综合网| 国产无人区一区二区三区| 97久久超碰极品视觉盛宴| 成人福利在线免费观看| 亚洲综合欧美在线一区在线播放|