中國手語識別方法及技術綜述

2024-05-18 22:25:20蔣賢維孫計領張艷瓊王立平蔣小艷韓雪

現代特殊教育 2024年6期

蔣賢維孫計領張艷瓊王立平蔣小艷韓雪

【摘要】中國手語具有自己獨特的文化內涵和復雜表達，是近3000萬聽障人士融入社會的重要手段。手語識別技術能幫助聽障人士走出信息孤島，和健聽人建立有效溝通。中國手語識別方法大致經歷了傳統技術識別和現代智能識別兩個時期。前者主要包含數據收集、預處理、特征提取和分類識別四個主要階段，主流技術有HMMs、SVM和DTW等，基于手語手形數據完成識別，不依賴海量樣本數據；后者主要利用深度神經網絡和人工智能技術，強調深度學習，遷移學習和技術融合，模型對樣本數據量的依賴程度較高。我國已經開始廣泛建設各類手語語料庫，但需要進一步規范和推廣。

【關鍵詞】手語識別技術；語料庫；深度神經網絡；遷移學習

【中圖分類號】 G760

【作者簡介】蔣賢維，副教授，南京特殊教育師范學院數學與信息科學學院（南京，210038），jxw@njts.edu.cn；孫計領、張艷瓊、蔣小艷，副教授，南京特殊教育師范學院數學與信息科學學院（南京，210038）；王立平，教授，南京特殊教育師范學院數學與信息科學學院（南京，210038）；韓雪，講師，南京特殊教育師范學院數學與信息科學學院（南京，210038）。

一、引言

調查數據表明，作為我國殘疾人群體中占比最大的聽障人士，其數量約近3000萬，聽障人士能進行有效溝通，才能打破信息孤島，融入社會［1］。手語是聽障人士用于交流的重要手段。作為一種結構化的手勢形式，它通過手形、運動、位置、運動方向和非手控特征等組合來傳遞信息。中國手語更是一種特殊的表達方式，具有自己獨特的文化意義和審美意義，既結合了漢語的音、義來傳遞和表達語義，又以手勢張揚漢語的特色，體現文化審美。手語識別指利用計算機技術將手語轉換成其他可理解的信息，如自然語言、文本、音頻、圖像、視頻等。目標是自動將手語表達翻譯成相應的手語注釋。由于手語詞匯量大，語義豐富，表達方式多樣，語法結構復雜，因此手語識別困難較多，是復合的跨學科挑戰。但手語識別可廣泛應用于日常交流、工作學習、翻譯研究等，尤其是有益于各類特殊教育學校、有殘疾學生就讀的普通學校、殘疾人康復機構的從業人員，特殊教育行政管理、科研人員和師生，以及熱心特殊教育的社會各界人士，甚至還可以擴展到臨近及相似的其他領域。因此，手語識別方法及技術研究具有深遠的意義，它有助于特殊教育事業發展，有助于特殊兒童少年群體成長和特殊教育教師業務提升。本文基于近20年的中國手語識別方法及技術相關論文及數據，分別從傳統手語識別方法和現代手語識別方法兩條主線，探討了手語識別的數據集及語料庫建設、數據采集、預處理、特征提取、分類識別以及不同類型的深度神經網絡和遷移學習等內容，分析了中國手語識別方法及技術的特點，并與國外主流手語識別方法和技術作對比。

二、數據集及語料庫

語料庫被認為是自然語言處理任務的數據集，手語識別技術的研究首先要有合適的手語語料庫。世界各國都開展了本國手語語料庫的建設。澳大利亞手語語料庫AuslanSignbank是目前較為成熟型的手語語料庫，主要用于手語的傳承保護和詞典編纂［2］。德國孤立詞語料庫有SIGNUM和DGS Kinect 40［3-4］，連續語句語料庫則以天氣預報手語平行語料庫PHOENIX Weather 2014為代表［5］。美國手語語料庫有ASLLVD、ASLSKELETON3D、ASLLRP SignBank、WLASL2000和How2Sign［5-10］等。此外，典型代表還有英國手語語料庫、希臘手語語料庫、荷蘭手語語料庫等［11-14］。

我國《國家手語和盲文規范化行動計劃（2015—2020年）》和《第二期國家手語和盲文規范化行動計劃（2021—2025年）》提出，要加強國家手語語料庫規劃布局，加快手語語料庫技術規范建設，為建成能貼近聾人手語語言生活、聾人教育，具有服務生活交流、服務教學、服務研究功能，權威的國家手語語料庫提供有力支撐。目前我國的手語語料庫處于建設和提升階段，具代表性的有復旦大學龔群虎的通用手語語料庫項目“基于漢語和部分少數民族語言的手語語料庫建設研究”［15］；南京特殊教育師范學院丁勇等人主持的國家語委重大項目“國家手語詞匯語料庫建設”［16］。此外，一些研究者和團隊也自建了專用的手語語料庫，如中國科學院計算研究所與微軟亞洲研究院合作的基于Kinect的手語識別和翻譯項目拍攝的DEVISIGN數據集［17］；東北大學王斐等人創建的NCSL數據集［18］；黃杰團隊建立的連續手語數據集CSL-100［19］；陳曉燕研究中國電視手語傳譯的非手部策略時建立的樣本語料庫［20］；吳蕊珠等人提出的構建手語漢語平行語料庫的方案［21］；劉學達基于上海手語高頻詞建立的上海手語語料庫［22］；國家手語和盲文研究中心顧定倩教授團隊主持修訂了《國家通用手語詞典》，收錄了聽力殘疾人語言生活和教育中使用頻率較高、比較穩定的手語常用詞8214個［23］；倪蘭篩選出2500個左右的中國手語常用手勢，編撰了《中國手語教程》［24］。這些語料庫各有特色，肩負各自的創建使命，即目前的手語語料庫資源建設大多出于某項研究需求，自定義規范較多。因此，它們沒有相對統一的標準，無法較好地泛化和推廣，只能局限在某個局部領域應用。由于缺乏合適的語料庫和數據集，阻礙了手語研究的進一步深度挖掘。

三、傳統手語識別方法及技術

傳統手語識別方法主要通過捕獲手部參數然后轉換為相應的釋義，機器學習相關技術是主流，一般不涉及大模型，對樣本數據量的要求相對不高。它最常見的兩種方式是基于傳感器和基于視覺的手語識別。這兩種識別也可以稱為接觸式和非接觸式手語識別。從功能性、精度、舒適度和價格等方面來看，接觸式手語識別通常精度高、功能強大，但價格較高；非接觸式手語識別一般更舒適、方便，價格較低，但精度相對較低，所獲得的圖像很容易受到背景的影響，但可以包含面部表情，幫助增強意義識別。

由于手語識別方法及技術研究中涉及較多專業術語和英文縮寫，為了更準確地理解這些關鍵詞，聯通上下文，表1列出了主要識別方法及技術的中英文全名及其縮寫詞（按字母排序）。

接觸式裝備較早應用于手勢識別，典型代表有數據手套、肌電信號臂環、慣性測量單元（IMU）、WiFi、雷達、智能手機、Leap Motion控制器和Kinect等。裝備可以直接檢測人手和各個關節的空間信息，并處理成輸入數據。此外，在基于視覺的識別模型中，相機是獲取輸入數據的主要工具，用于獲取手語圖像和視頻。基于視覺的方法采集成本低、設備依賴性弱，采集方便，但從視頻流和關鍵幀中提取特征可能會帶來額外的計算開銷；同時，由于膚色、角度、光線等因素，基于視覺的識別準確率會降低。一般可以通過引入高性能計算機來解決這些問題。

如圖1所示，傳統的手語識別方法大致可以分為數據收集、預處理、特征提取和分類識別四個主要階段。每個階段都引入了不同的技術，構成了不同的手語識別模型和系統。

（一）數據收集

數據手套等設備是早期手語數據收集常用手段，采集的手語特征參數有手形、運動軌跡和位置信息，后來一些研究人員開始簡化或減除設備上復雜的傳感器以降低成本。基于視覺的手語識別中，輸入數據大多是預處理后的表征手語圖像或視頻。此外，體感相機等可以同時獲得視覺圖像信息、深度信息和骨骼信息，考慮了多模態手語信息的獲取。

（二）預處理

為了減少無用信息并捕獲最具代表性的信息，在提取特征或訓練模型之前需要執行預處理。常用的預處理操作包括圖像調整、形態變換、灰度轉換、過濾、降噪、增強和歸一化等。在手語識別研究中，膚色檢測和過濾、RGB- HSV轉換、灰度轉換、手部分割和檢測等方法常常被用來減少計算量、提高計算效率和獲得ROI。

（三）特征提取

特征提取是指獲取輸入數據中需要的部分并轉化為特征集。常用的特征提取方法有：灰度共生矩陣（GLCM），定向梯度直方圖（HOG），小波熵（WE），主成分分析（PCA），Hu矩不變量（HMI），尺度不變特征變換（SIFT），傅立葉描述符（FD），加速魯棒特征（SURF），潛在狄利克雷分配（LDA）等。

其中，灰度共生矩陣（GLCM）是一種基于灰度空間相關特性來表示紋理的方法。如圖2所示，由于紋理是由空間位置上灰度反復變化形成，因此，圖像空間中任意兩個像素之間必然有灰度關系，這種關系稱為圖像中灰度的空間相關特性。1973年，Haralick等人首次提出使用灰度共生矩陣來描述紋理特征［25］。國內高亞嵐等人使用灰度共生矩陣和模糊支持向量機進行中國手語手指語識別，準確率達到86.7%［26］。

方向梯度直方圖特征是一種能夠快速描述物體局部梯度特征的描述符［27］。定向梯度直方圖（HOG）是密集網格中局部方向梯度的歸一化直方圖，它是一種廣泛應用于計算機視覺和圖像處理中的特征描述方法。包括物體方向在內，HOG對于幾何變換和光度轉換來說具有不變性［28］。此外，HOG還可以將樣本數據轉換到稀疏空間。因此，它特別適合圖像中的目標檢測。如圖3所示，給出了HOG算法實現的主要流程。Mou等人提出了一種基于HOG特征的稀疏編碼手語識別方法［29］。其中，手語識別通過監督、區分和基于學習加權局部特征的面向事件的字典被表述為稀疏表示問題。提取出每類手語樣本的HOG特征，然后使用LC-KSVD算法學習面向事件和面向判別的詞典。

小波熵（WE）是離散小波變換（DWT）和熵計算的組合方法，常用于處理復雜信號的時間特征。由于使用離散小波變換會增加計算量和存儲量，因此引入熵來提高性能，熵表示圖像紋理和信息不確定性的隨機度量。小波熵可以定量地衡量信息分布的有序性和無序性，定性地反映一些有用的信息。圖4描述了一個二階二維離散小波變換的過程。朱兆松等人提出了一種結合小波熵和支持向量機（WE-SVM）的中國手語識別方法，總體精度達到85.69±0.59%［30］。

圖像匹配是計算機視覺領域的重要研究內容，在圖像處理中普遍采用尺度不變特征變換（SIFT），它可以對圖像中的關鍵點進行檢測，具有尺度不變性。SIFT的不變性主要體現在圖像旋轉和縮放上，對光照和拍攝角度僅保持部分不變。尺度不變特征變換算法生成圖像特征集主要有四個階段：尺度空間極值檢測；關鍵點定位；方向分配；關鍵點描述。該算法的本質是關鍵點檢測和描述符生成。Tharwat等人提出了基于尺度不變特征變換的方法構建阿拉伯手語識別系統［31］。

此外，主成分分析（PCA）作為一種使用正交變換將相關變量觀測值更改為不相關變量值的數學運算，其變換本質是一種利用低維子空間來近似某個向量或圖像。其優點是能夠在充分保留有用信息的基礎上有效降低原始特征向量維數，降低內存，減少計算量。Lowe提出了一種集成主成分分析、線性判別分析和支持向量機的新型層次分類方案，取得了更高的準確率［32］。Hu矩不變（HMI）可以用于不復雜的紋理特征，能較好描述目標形狀。傅里葉描述符（FD）被定義為描述物體邊界曲線信號的頻域分析。這些曲線與原始運動和旋轉無關。FD通常需要進行歸一化，通過低頻分量來計算手勢圖像的相似度差異。加速魯棒特征（SURF）的穩健性在圖像變換中表現較好，特征提取速度也比尺度不變特征變換（SIFT）更快，但需要高品質的圖像，受環境影響較大，因此并不實用。

（四）分類識別

分類本質是找到一個函數來確定輸入數據所屬的類別。分類的準確率與構建方法、待分類數據特征以及訓練樣本數量等因素密切相關。機器學習模型中常見分類器有隱式馬爾可夫模型（HMMs），支持向量機（SVM），動態時間規整（DTW），長短期記憶（LSTM），隨機森林（RF），k近鄰（k-NN），貝葉斯分類器（NBC），相關向量機（RVM），AdaBoost多標簽多類分類器等。

其中，隱式馬爾可夫模型（HMMs）是用概率表示變量的傳統馬爾可夫模型改進版本，通常被引入統計模式分析中［33］。當HMMs應用于手勢識別系統構建分類器時，主要涉及學習和評估兩個過程。學習應用于手勢建模過程，可以理解為隱馬爾可夫模型的訓練問題；評估應用于手勢識別過程，分類器建立后，采用前向算法計算先驗概率，并對輸入的觀察序列進行判別。HMMs在一定程度上對時間軸上的局部變形（壓縮和擴展）具有不變性，因此被廣泛應用于自然語言建模、在線手寫識別和生物序列分析等領域。陳梯等人基于快速魯棒性特征和隱馬爾可夫模型對手語視頻中的8種手勢進行識別，平均識別率達到93%，能有效克服光照、角度和復雜背景的影響［34］。

支持向量機（SVM）是一種監督學習方法，擁有優越的泛化能力、更高的精度和精細的數學易處理性等優點，但不能處理序列關系，不適用動態手語識別［35］。劉小建等人選擇非線性徑向基函數（RBF），利用網格搜索方法調整確定SVM參數，實現了高效、準確的手勢識別［36］。

動態時間規整（DTW）可以將一個復雜的全局優化問題逐步轉化為多個局部優化問題，因此被廣泛應用于語音識別、動作識別、數據挖掘和信息檢索等領域。由于手語基于時間序列表達，只需要計算兩條手語表達數據之間的距離即可計算相似度。識別時，將待識別與參考手語特征序列依次進行匹配，選擇輸出的結果必須是最小總失真且不大于識別閾值的。該算法識別精度高、系統復雜度低，但匹配計算開銷較大。張露提出了基于DTW單個手語識別算法，對數字0—9進行檢測并取得良好識別效果［37］。魏秋月等人采用一種改進的DTW算法對特征數據進行模板訓練，實現了基于軌跡匹配的動態手勢識別，在14種手勢上獲得了98.7%的平均識別率［38］。

長短期記憶（LSTM）網絡本質上是一種循環神經網絡（RNN），通過增加一個處理器解決了傳統RNN中存在的梯度消失問題［39］。其對間隙長度相對不敏感，通過為RNN提供可以持續數千個時間步的短期記憶，從而實現“長短期記憶”。LSTM不僅可以檢測手語的時間變化，還可以學習手勢變化之間的對應關系，從而增強手語的分類識別能力。毛晨思提出了基于卷積網絡和長短時記憶網絡的中國手語詞識別，識別率達到了98.2%［40］。

隨機森林（RF）由LeoBreiman于2001年提出，該算法在許多實際任務中表現出很強的性能。隨機森林分類是由多種決策樹分類模型組成復合分類模型。其基本思想是首先通過自舉采樣從原始訓練集中提取m個樣本集，每個樣本集的樣本量保持不變；其次，對這m個樣本集建構對應m個決策樹模型，并得到m個分類結果；然后基于m個分類結果對每條記錄進行投票并確定其最終分類。隨機森林可以為一些先驗知識模糊、規則不明確、約束不完全、數據不完整的應用問題提供更好的解決方案。其缺點是會因決策樹增加帶來泛化誤差。如Su等人提出了基于ACC和sEMG的非視覺手語識別方法，運用隨機森林進行分析，識別率為98.25%，效果良好［41］。

四、現代手語識別方法及模型

傳統手語識別方法提供了實用的解決方案，隨著人工智能的崛起和大模型的推廣，新技術和新方法成為研究者新的追求目標。尤其是近年來，深度學習、遷移學習以及基于深度神經網絡的混合網絡模型等，為手語識別提供了更好的解決方案。

（一）卷積神經網絡

卷積神經網絡（CNN）是一種具有卷積計算功能和深層結構的前饋神經網絡。它利用多層疊加的方式從低層特征提取到高層特征，模擬了人腦的層次結構功能。由于其強大的特征提取能力和對圖像信息有效、準確的分類能力，被認為是識別和分類領域最具代表性的深度神經網絡。典型的卷積神經網絡（如圖5所示）由多個層組成，包括輸入層、卷積層、池化層、全連接層和輸出層。其中，卷積層通過卷積運算進行特征提取；池化層可以不斷減小數據的空間大小，從而減少參數和計算的數量；全連接層扮演了“分類器”的角色。

大數據驅動的深度學習模型性能隨著樣本數量增加而提高，同樣對樣本量和網絡訓練提出了更高的要求。簡單的CNN并不能獲得更好的性能，因此，各種優化算法被融入卷積神經網絡模型中。例如，批量歸一化（BN）技術可以使層的輸入保持更均勻分布。Dropout技術可以細化網絡，有效減少過擬合，并實現一定程度的正則化。ReLU函數可以加速隨機梯度下降的收斂速度［42］。數據增強（DA）技術可以有效擴展數據集并有助于緩解過度擬合［43］。趙一丹提出將CNN和LSTM相結合識別特定手語視頻，實驗識別準確率為99.256%［44］。

盡管CNN具有強大的特征提取能力，但其僅適用于處理單幀圖像數據。手語運動過程表達涉及幀間的相關信息，3D卷積神經網絡（3D-CNN）提供了解決方案。3D-CNN主要解決圖片之間的相關性，增加了新的維度信息。3D-CNN可以捕獲空間和時間維度的判別特征。楊光義等人提出一種基于注意力機制的復雜背景連續手語識別算法，并在大規模連續手語數據集CSL100上取得優異表現［45］。

（二）YOLO

YOLO（You Only Look Once）是計算機視覺領域著名的模型之一。該方法將任務合并為回歸問題，無需將檢測結果分為分類和回歸，適用于實時物體檢測任務。YOLO的發展經歷了YOLO V1到YOLO V8。其中，YOLO V1算法將目標檢測定義為單一回歸問題，速度比傳統算法要快得多。YOLO V1的優點是可以高速實時檢測物體，理解廣義物體表示，并且模型不會過于復雜，其缺點是當小物體出現在簇或組中時，模型的效果較差；YOLO V2在速度、精度和檢測大量物體等方面都做出了較大改進；YOLO V3添加了邏輯回歸來預測每個邊界框的得分，還引入了Faster R-CNN方法；YOLO V4通過添加和組合一些新功能（加權殘差連接、跨階段部分連接、跨小批量歸一化、自對抗訓練等），實現了更優越和更高效性能；YOLO V5是一種單階段目標檢測算法，框架結構人性化，集成了大量計算機視覺技術，提高了訓練速度和物體識別速度［46］。張曉晨等人提出了一種基于YOLO V5的中國傳統手語拼音數據庫模型［47］；張強提出了一種基于改進的YOLO V3的靜態手勢實時識別方法，該方法對流視頻靜態手勢的平均識別準確率為99.1%，對4個自定義連續動態手勢的識別率為94%［48］。

（三）膠囊網絡

膠囊網絡（CapsNet）是一種新的深度神經網絡模型，目前主要應用于圖像識別領域。與傳統神經元不同，膠囊的輸入和輸出都是向量。向量長度可以理解為傳統神經元中的概率，而向量的方向代表其他信息。膠囊網絡利用基于協議的動態路由來替代傳統CNN中的最大池化（Max-Pooling）。膠囊將特征檢測的概率定義為其輸出向量長度，特征狀態描述為向量方向。

膠囊網絡（如圖6所示）由六個神經網絡層組成，包括卷積層、PrimaryCaps層、DigitCaps層、第一全連接層、第二全連接層和第三全連接層。前三層是編碼器，后三層是解碼器。

CapsNet對噪聲數據更具彈性，并且還可以適應輸入數據的仿射變換。同時，膠囊網絡也被證明可以減少訓練時間并最大限度地減少參數數量。它可以用來承擔機器翻譯、自動駕駛、手寫字符和文本識別、目標檢測、情感檢測等任務。郝子煜等人設計了基于CapsNet的中國手指語識別算法，并獲得了較好的識別效果［49］。

（四）遷移學習及融合網絡

遷移學習（transfer learning）主要有兩種策略，一是使用特定任務的標注語料，用監督學習的方式對預訓練模型參數進行微調（fine-tune），取得更好性能。因為從頭訓練一個預訓練語言模型，尤其是大模型，需要海量的數據，時間和計算成本非常高。因此，共享語言模型非常重要，只要在預訓練好的模型權重上構建模型，就可以大幅地降低計算成本。二是凍結并重新訓練，這涉及凍結除最后一層之外的所有層（權重不更新）并僅訓練最后一層。如圖7所示，遷移學習的好處是預訓練模型很可能已有類似的數據集，通過激發在預訓練過程中獲得的知識，從海量數據中獲得統計理解能力。由于模型已經在大量數據上進行過預訓練，后續只需要很少的數據量就可以達到不錯性能。此外，隨著人工智能和神經網絡技術的不斷發展，各種先進的網絡模型和技術不斷涌現。集成了多種機器學習技術的融合網絡，可以更有效地實現中國手語的識別和翻譯。大多數情況下，往往也會結合多種主流技術和先進方法來實現更高效的網絡模型建構。

五、國內外發展對比

中國手語泛指中國聾人使用的手語，理論上匯集了少數民族、港澳臺地區和各類地方手語。但由于目前中國通用手語的標準化僅針對中國大陸，因此“中國手語”一詞又僅指大陸聽障人使用的手語。手語識別可以分為靜態手語識別和動態手語識別兩大類，對應的還可以細分為手指語識別、孤立詞識別和連續手語識別，因此，研究者們提出了各種不同的識別方法和技術，并取得了不同的成效。如手指語識別由于內容組成有限，屬于靜態圖像識別，背景環境相對可控，識別準確率幾乎都在90%以上；孤立詞識別介于手指語和連續手語識別之間，傳統方法和現代智能方法都有提及，識別性能也相對較高；連續手語識別由于涉及時間動態和上下文信息，因此更具挑戰。卷積神經網絡、3DCNN、循環神經網絡及其變體（LSTM、GRU等）、Transformer模型等帶來了解決之道，但同時也面臨海量數據量級和強大算法負載的考驗。

基于2003至2023年的中國手語識別方法及技術相關論文及數據調研發現（如圖8所示），中國手語識別的研究論文數量呈穩步增長趨勢。其中，2012年前處于緩慢增長階段，從2013年開始，手語識別的研究論文呈現高增長趨勢。尤其從2014年開始，文獻發表數明顯增長，這主要得益于計算機視覺和人工智能技術的迅猛發展。同期，中國手語識別也從傳統的研究方法轉向基于視覺，尤其是深度神經網絡等新方法、新技術。2019年以來這一趨勢得到了更明確的印證。

傳統技術的手語識別階段（時間大約為2000年至2011年），HMMs、SVM和DTW等是主流技術。特別是將HMMs技術引入到手語識別領域，對手語的時序建模取得了較好效果。這一階段，手語識別的研究主要集中在手指語和孤立靜態手語（手勢）識別，利用數據手套獲取數據集。現代人工智能技術階段（時間大約從2012至今），CNN、3D-CNN、YOLO和各類深度神經網絡及其變型（如ResNet、VGG-Nets、Faster R-CNN、CapsNet等）出現。這一階段，手語識別的研究主要集中在大規模手語和實時、連續手語識別，利用數據傳感器（如Kinect、Leap Motin等）和高清攝影攝像獲取更高質量的數據集。同時，面部表情識別、復雜背景處理和3D手語識別等也引起了學者的研究興趣。另外，前期運用廣泛的HMMs、SVM等技術也被嫁接應用到一些混合模型。總體而言，手語識別從傳統技術向基于計算機視覺和人工智能轉變，從單一模型向混合模型轉變。

在橫向對比上，中國手語識別與其他手語識別技術研究典型代表（如美國手語、印度手語和阿拉伯手語等）相比，處于伯仲之間。如表2所示，其他國家的手語識別也采用了豐富的識別方法和技術，機器學習中的支持向量機和隱式馬爾科夫模型在前期也應用頻繁，近年來各國也更偏向于各類深度神經網絡和多模型融合。英美手語有典型的主題和注解型結構，英國手語里普遍采用“賓語—主語—動詞”語序句式，美國手語的簡單句多采用“主語—動詞—賓語”語序。美國手語更多的是一種視覺性語言，不是口頭語言，它用一只或兩只手來打手勢，依靠手部形狀、手勢的空間擺放、打手勢時手部的方向以及手部運動等視覺成分來表達意義，使用美國手勢語不用說話，也不用擴聲。相比而言，中國手語表達蘊含了中文的復雜內涵，涉及句型、語法和語義等多個方面，不像英語系的表達簡潔明了，僅這點而言，中國手語識別的難度明顯較大，對識別方法和技術提出了更高的要求。此外，從時間線上看，國內在一些熱點技術研究上略微滯后。一方面說明我們的創新性還有待提升，同時也說明中國手語識別的轉化和本土化需要過程。因此，我們需要挖掘一些更好更合適的中國手語識別方法和技術，反向來引領和指導普遍的手語識別。

六、總結及展望

本文對近20年來的中國手語識別方法和技術進行了回顧和總結，探討了手語識別的各個方面，包括手語數據集、數據采集技術、特征提取、分類和識別方法以及不同類型的深度神經網絡、遷移學習模型等。研究發現，前期中國手語識別方法遵循傳統理念，劃分若干主要階段，以捕獲手部參數為主進行分類識別，不需要海量的研究樣本，主流技術包括HMMs、SVM、DTW等。后期隨著現代人工智能技術的快速發展，基于深度神經網絡的各種識別方法發揮著越來越重要的作用。以2012年為分水嶺，中國手語識別已從傳統研究方法轉向基于視覺并融入深度學習和遷移學習，強調技術交叉和模型融合。

雖然目前中國手語識別整體上取得了良好的綜合評價指標，但由于手語本身和手語數據集的獨特性和復雜性，仍然存在以下值得研究的問題。

第一，優質的數據集。多數中國手語數據集規模過小、樣本過少、不規范、無法泛化和橫向比較，實驗性質的研究占比高，無法應用推廣。因此，需要擴充樣本，建設標準化的合適數據集。

第二，高效識別、精準識別。即需要解決手語識別中實時性、魯棒性、高精度和用戶獨立性問題。同時，為了更準確地轉換釋義，一些手語識別需要補充連續手語特征的融合信息以及嘴唇和面部表情的協調信息，還需要妥善解決手語行為受背景干擾，光線、角度和操作標準化的影響問題。

第三，新模型、新算法的使用。算法和模型的迭代更新非常迅速，因此要與時俱進，嘗試更好的識別方法和模型，同時要注意協調模型精度和計算負荷的矛盾問題。

未來，新技術的不斷發展和科學領域的交叉融合必將催化中國手語識別的進步和提升。混合網絡模型、深度學習及人工智能技術等將進一步推動手語識別相關的理論研究和算法創新，中國手語識別必將取得更大更高質量的發展。

【參考文獻】

［1］閆思伊，薛萬利，袁甜甜.手語識別與翻譯綜述［J］.計算機科學與探索，2022（16）：2415-2429.

［2］Johnston T，Schembri A.Australian sign language（Auslan）：An introduction to sign language linguistics［M］.New York：Cambridge University Press，2007：1-10.

［3］Von Aaris U，Kraiss K F.Towards a video corpus for signer-independent continuous sign language recognition［C］. Lisbon：Springer，2007：2-10.

［4］Cooper H，Ong E J，Pugeault N，et al.Sign language recognition using sub-units［J］.The Journal of Machine Learning Research，2012（13）：2205-2231.

［5］Camgoz N C，Hadfield S，Koller O，et al.Neural sign language translation［C］. Salt Lake City：IEEE，2018：7784-7793.

［6］Neidle C，Thangali A，Sclaroff S.Challenges indevelopment of the American sign language lexicon video dataset（ASLLVD） corpus［C］. Paris：ELRA，2012：1-8.

［7］De Amorim C C，Zanchettin C.ASLS-keleton 3D and ASL-phono：two novel datasets for the American sign language［J］. ArXiv，2022（3）：2-65.

［8］Neidle C，Oooku A，Metaxas D.ASL video corpora & sign bank：resources available through the American sign language linguistic research project（ASLLRP）［J］. ArXiv，2022（8）：78-99.

［9］Li D，Opazo C R，Yu X，et al.Word-level deep sign language recognition from video：a new large-scale dataset and methods comparison［C］. Snowmass，2020：1459-1469.

［10］Duarte A，Palaskar S，Ventura L，et al.How 2sign：a large-scale multimodal dataset for continuous Ame-rican sign language［C］. Nashville：IEEE，2021：2735-2744.

［11］Fenlon J，Cormier K，Rentelis R，et al.BSL sign bank：a lexical database of British sign language［DB/OL］.（2022-11-26）［2023-12-15］.http：//bslsig-nbank.ucl.ac.uk.

［12］Schembri A，Fenlon J，Rentelis R，et al.British sign language corpus project：a corpus of digital video data and annotations of British sign language［DB/OL］.（2022-11-26）［2023-12-15］.http：//www.bslco-rpusproject.org.

［13］Adaloglou N，Chatzis T，Papastratic I，et al.A comprehensive study on deep learning-based methods for sign language recognition［J］.IEEE Transactions on Multimedia，2022（24）：1750-1762.

［14］Radboud Universiteit. NGT corpus［DB/OL］.（2022-11-26）［2023-12-15］.http：//www.ru.nl/cor-pusngt/.

［15］全國哲學社會科學工作辦公室.基于漢語和部分少數民族語言的手語語料庫建設研究［R/OL］.（2022-11-26）［2023-12-15］.http：//www.nopss.gov.cn/GB/352519/355466/.

［16］趙曉馳，任媛媛，丁勇.國家手語詞匯語料庫的建設與使用［J］.中國特殊教育，2017（1）：43-47.

［17］Chai X，Wang H，Chen X.The DEVISIGN Large vocabulary of Chinese sign language database and baseline evaluations［R］. Beijing：Technical Report VIPL-TR-14-SLR-001，2014.

［18］Wang F，Du Y X，Wang G R，et al.（2+1）DSLR：an efficient network for video sign language recognition［J］.Neural Computing and Applications，2022（34）：2413-2423.

［19］Huang J，Zhou W H，Zhang Q L，et al.Video based sign language recognition without temporal segmenta-tion［C］. Louisiana：AAAI，2018：275.

［20］陳曉燕.中國電視手語傳譯中的非手部策略［D］.廈門：廈門大學，2014.

［21］吳蕊珠，李晗靜，呂會華，等.面向ELAN軟件的手語漢語平行語料庫構建［J］.中文信息學報，2019（33）：43-50.

［22］劉學達.中國手語語料庫高頻詞初步分析及標注探討［D］.上海：上海外國語大學，2022.

［23］北京師范大學國家手語和盲文研究中心.國家手語和盲文研究中心主持制定的《國家通用手語常用詞表》發布［J］.教育學報，2018（3）：54-54.

［24］倪蘭，和子晴.上海手語翻譯服務需求與現狀調查［J］.中國翻譯，2022（43）：113-119.

［25］Haralick R M，Shanmugam K，Dinstein I H.Textural features for image classification［J］.IEEE Transactions on Systems，Man，and Cybernetics，1973（6）：610-621.

［26］Gao Y，Xue C，Wang R，et al.Chinese fingerspelling recognition via gray-level co-occurrence matrix and fuzzy support vector machine［J］. ICST Transactions on e-Education and e-Learning，2020（20）：166554.

［27］Silanon K. Thai finger-spelling recognition using a cascaded classifier based on histogram of orientation gradient features［J］.Computational Intelligence and Neuroscience，2017（8）：1-11.

［28］Ming H.A new facial expression recognition method for deep autoencoder［J］.Journal of Southwest Normal University：Natural Science Edition，2019（7）：81-86.

［29］Mou Y，Guo Y.Research on sparse coding sign language recognition method based on HOG features［J］.Microprocessor，2020（5）：50-57.

［30］Jiang X，Zhu Z.Chinese sign language identifica-tion via wavelet entropy and support vector machine［C］. Dalian：Spinger，2019：726-736.

［31］Tharwat A，Gaber T，Hassanien A E，et al. Sift-based Arabic sign language recognition system［C］.Cham：Springer，2015：359-370.

［32］Lowe D.Distinctiveimage features from scale-invariant keypoints［J］. International Journal of Com-puter Vision，2004（2）：91-110.

［33］Alexandre L，Salvador S J，Rodrigues J. Pattern vecognition and image analysis［C］. Cham：Springer，2017：419-426.

［34］陳梯，孫杳如.基于快速魯棒性特征和隱馬爾可夫模型的手語識別［J］.現代計算機（專業版），2018（3）：15-18+25.

［35］Zhang Y，Wang S，Dong Z.Classi-cation of alzh-eimer disease based on structural magnetic resonance imaging by kernel support vector machine decision tree［J］. Progress in Electromagnetics Research，2014（144）：171-184.

［36］劉小建，張元.基于多特征提取和SVM分類的手勢識別［J］.計算機工程與設計，2017（4）：953-958.

［37］張露.基于DTW的單個手語識別算法［J］.現代計算機（專業版），2016（8）：77-80.

［38］魏秋月，劉雨帆.基于Kinect和改進DTW算法的動態手勢識別［J］.傳感器與微系統，2021（11）：127-130.

［39］Sepp H，Jürgen S.Long shortterm memory［J］.Neural Computation，1997（8）：1735-1780.

［40］毛晨思.基于卷積網絡和長短時記憶網絡的中國手語詞識別方法研究［D］.合肥：中國科學技術大學，2018.

［41］Su R，Chen X，Cao S，et al.Random forest-based recognition of isolated sign language subwords using data from accelerometers and surface electromyographic sensors［J］.Sensors，2016（1）：100-105.

［42］Jiang X，Zhang Y D. Chinese sign language fing-erspelling via six-layer convolutional neural network with leaky rectified linear units for therapy and rehabilitation［J］. Journal of Medical Imaging and Health Informatics，2019（9）：2031-2090.

［43］Jiang X，Lu M，Wang S H. An eight-layer convolutional neural network with stochastic pooling，batch normalization and dropout for fingerspelling recognition of Chinese sign language［J］. Multimedia Tools and Applications，2019（79）：5697-15715.

［44］趙一丹.基于深度學習的手語識別算法研究［D］.西安：西安工業大學，2019.

［45］楊光義，丁星宇，高毅，等.基于注意力機制的復雜背景連續手語識別［J］.武漢大學學報（理學版），2023（1）：97-105.

［46］Daniels，Steve，Nanik S，et al.Indonesian sign language recognition using YOLO method［C］. London：IOP Publishing，2021：12-29.

［47］Zhang X，Lei A，Su X.A Chinese traditional sign language pinyin database model based on YOLOv5［J］.Television Technology，2023（4）：38-42.

［48］張強.基于改進YOLOv3的手勢識別方法研究［D］.合肥：合肥工業大學，2019.

［49］郝子煜，阿里甫·庫爾班，李曉紅，等.基于CapsNet的中國手指語識別［J］.計算機應用研究，2019（10）：3157-3159.

［50］Fatmi R，Rashad S，Integlia R.Comparing ANN，SVM，and HMM based machine learning methods for American sign language recognition using wearable motion sensors［C］. Las Vegas：IEEE，2019：290-297.

［51］Xie M，Ma X.End-to-end residual neural network with data augmentation for sign language recognition［C］.Chengdu：IEEE，2019：1629-1633.

［52］Plouffe G，Cretu A M. Static and dynamic hand gesture recognition in depth data using dynamic time warping［J］.IEEE Trans Instrum Meas，2015（2）：305-316.

［53］Abhishek K S，Qubeley L C K，Ho D.Glove-based hand gesture recognition sign language translator using capacitive touch sensor［C］. Hong Kong：IEEE，2016：334-337.

［54］Pan T Y，Lo L Y，Yeh C W，et al.Realtime sign language recognition in complex background scene based on a hierarchical clustering classification method［C］.Chengdu：IEEE，2016：64-67.

［55］Susa J A B，Macalisang J R，Sevilla R V，et al. Implementation of security access control using American sign language recognition via deep learning approach［C］. Jamshoro：ICETELL，2022：1-5.

［56］Amin M S，Rizvi S T H，Mazzei A，et al.Assistive data glove for isolated static postures recognition in American sign language using neural network［J］.Electronics，2023（8）：1904.

［57］Wadhawan A，Kumar P.Deeplearning-based sign language recognition system for static signs［J］.Neural Computing and Applications，2020（5）：7957-7968.

［58］Raheja J，Mishra A，Chaudhary A.Indian sign language recognition using SVM［J］.Pattern Recog-nition and Image Analysis，2016（2）：434-441.

［59］Sajanraj T D，Beena M.Indian sign language numeral recognition using region of interest convoluti-onal neural network［C］. Coimbatore：ICICCT，2018：636-640.

［60］Suri K，Gupta R.Convolutional neural network array for sign language recognition using wearable IMUs［C］. Noida：SPIN，2019：483-488.

［61］Vkishore P V，Prasad M V D，Prasad C R，et al.4-camera model for sign language recognition using elliptical fourier descriptors and ANN［C］. Guntur：IEEE，2015：34-38.

［62］ De Castro G Z，Guerra R R，Guimar?es F G.Automatic translation of sign language with multi-stream 3D CNN and generation of artificial depth maps［J］.Expert Systems with Applications，2023（2）：119394.

［63］Sidig A A I，Luqman H，Mahmoud S A.Arabic sign language recognition using vision and hand tracking features with HMM［J］.International Journal of Intelligent Systems Technologies and Applications，2019（5）：430-447.

［64］Tubaiz N，Shanableh T，Assaleh K.Glove-based continuous Arabic sign language recognition in user-dependent mode［J］.IEEE Transactions on Human-Machine Systems，2015（4）：526-533.

［65］Mohandes M，Aliyu S，Deriche M.Arabic sign language recognition using the leap motion controller［C］.Cham：Springer，2014：960-965.

［66］Saleh Y，Issa G.Arabic sign language recognition through deep neural networks fine-tuning［J］.iJOE，2020（5）：71-83.

［67］Deriche M，Aliyu S O，Mohandes M. An intelligent Arabic sign language recognition system using a pair of LMCS with GMM based classification［J］.IEEE Sensors Journal，2019（18）：8067-8078.

［68］Alawwad R A，Bchir O，Ismail M M B.Arabic sign language recognition using faster R-CNN［J］.International Journal of Advanced Computer Science and Applications，2021（3）：1-10.

［69］Latif G，Mohammad N，Khalaf R A l，et al.An automatic Arabic sign language recognition system based on Deep CNN：an assistive system for the deaf and hard of hearing［J］.International Journal of Computing and Digital Systems，2020（4）：715-724.

Review of Chinese Sign Language Recognition Methods and Technologies

JIANG Xianwei ? SUN Jiling ? ZHANG Yanqiong ? WANG Liping ? JIANG Xiaoyan ? HAN Xue

Abstract：Chinese Sign Language has its own unique cultural connotations and complex expressions，and it is an important means for more than 30 million hearing-impaired people to integrate into society.Sign language recognition technology can assist individuals with hearing impairments in bridging communication gaps and establishing effective communication with those who can hear.Chinese sign language recognition methods have gone through roughly two stages of traditional technology recognition and modern intelligent recognition.The former mainly includes four stages of data collection，preprocessing，feature extraction，and classification recognition.Hidden Markov Models（HMMs），Support Vector Machines（SVM），and Dynamic Time Warping（DTW）are mainstream technologies.It achieves recognition based on hand data without relying on extensive sample data.The latter mainly combines deep neural network and artificial intelligence technology，emphasizing deep learning，transfer learning，and technology integration.The model is highly dependent on the amount of sample data.China has started to extensively develop various sign language corpora，but it requires further standardization and promotion.

Key words：sign language recognition technologies；corpus，deep neural network，transfer learning

Authors：JIANG Xianwei，associate professor，School of Mathematics and Information Science，Nanjing Normal University of Special Education（Nanjing，210038），jxw@njts.edu.cn；SUN Jiling，ZHANG Yanqiong，JIANG Xiaoyan，associate professor，School of Mathematics and Information Science，Nanjing Normal University of Special Education（Nanjing，210038）；WANG Liping，professor，School of Mathematics and Information Science，Nanjing Normal University of Special Education（Nanjing，210038）；HAN Xue，lecturer，School of Mathematics and Information Science，Nanjing Normal University of Special Education（Nanjing，210038）.

（特約編校：張居曉）

現代特殊教育2024年6期

現代特殊教育的其它文章: 全國大中小學校特殊教育聯盟第一屆理事會第二次理事長會暨推進特殊教育學校優質融合發展研討會綜述; 和諧與沖突：孤獨癥兒童與其兄弟姐妹的互動特點分析; 時間延遲應用于孤獨癥兒童干預的研究進展; 國際手語翻譯研究熱點可視化分析及對我國的啟示; 基于“產教融合+線上線下”康復類課程的思政實踐探索; 融合教育背景下師范生“社會－情感教育能力”培養的價值內涵與實施路徑