基于深度學(xué)習(xí)的手語識別算法研究

2021-11-30 09:35:08戴興雨王衛(wèi)民梅家俊

現(xiàn)代計算機 2021年29期

戴興雨，王衛(wèi)民，梅家俊

（江蘇科技大學(xué)計算機學(xué)院，鎮(zhèn)江212003）

0 引言

據(jù)北京聽力協(xié)會2017年預(yù)估數(shù)據(jù)，我國聽力障礙人士已達7200萬，其中有2700萬聽障者需通過手語等方式進行溝通交流。手語是聽力障礙人士與其他人交流最為重要的方式，但是會手語的人很少，即便使用手語，也因為看不懂手語而無法正常交流。這對聽力障礙人士與他人交流造成了極大的障礙。2018年7月1日國家出臺了通用手語標準［1］,這讓聽力障礙人士使用手語與他人交流變得有章可循。因此手語識別研究有著廣泛的應(yīng)用價值，對手語識別算法的研究有助于提升我國聾健融合的程度和加速國家通用標準手語的推廣進程。

本文采用Seq2Seq模型［2］［3］，實現(xiàn)視頻幀序列到字序列的轉(zhuǎn)換。對于手語視頻，采用Incep?tionV3對視頻中的每幀圖片進行特征提取，輸入到Seq2Seq模型的Encoder部分得到視頻的融合特征。一個詞的手勢包含起始動作、關(guān)鍵動作、過渡動作、結(jié)束動作，在編碼器進行特征融合過程中每個動作的權(quán)重是一樣的，針對這個問題，本文采用K-means方法提取以及利用人工標注的方式從語言學(xué)角度和聽障人群使用的角度標注視頻幀的關(guān)鍵幀，將關(guān)鍵幀的融合特征與手語視頻所有幀的融合特征組合起來輸入到Seq2Seq模型的Decoder部分進行解碼，使得關(guān)鍵幀占據(jù)更大的權(quán)重，提高手語識別的準確率。

1 相關(guān)工作

從20世紀60年代以來，研究者就對手語識別技術(shù)展開研究［4］。目前手語識別方法研究大致分為3個方向：①基于體感設(shè)備的手語識別。②基于穿戴式設(shè)備的手語識別。③基于深度學(xué)習(xí)的手語識別。

1.1 基于體感設(shè)備的手語識別

隨著計算機視覺的發(fā)展，一些研究人員利用體感設(shè)備對手語的手勢動作進行捕捉，并精準分析進而識別手語。2019年，千承輝、邵晶雅、夏濤、劉懷賓等人［5］利用Kinect設(shè)備獲取人體深度圖像和骨骼特征信息以及利用有限狀態(tài)機及動態(tài)時間規(guī)整（DTW）實現(xiàn)手語識別。2017年，沈娟、王碩、郭丹等人［6］利用Kinect并計算出手語者的骨架特征表達，并構(gòu)建高斯混合的隱馬爾科夫模型（GMM-HMM）進行手語識別。這種利用體感設(shè)備進行手語識別，需要利用輔助設(shè)備進行捕捉手語動作，這些設(shè)備價格不低，而且攜帶不方便，不利于推廣與發(fā)展。在捕捉手語動作時易受光線等環(huán)境因素的影響，對識別精度照成較大影響。

1.2 基于穿戴式設(shè)備的手語識別

基于穿戴式設(shè)備的手語識別，都是利用硬件設(shè)備通過傳感器技術(shù)獲取手語的手勢動作信息輸入到系統(tǒng)，系統(tǒng)根據(jù)輸入的信息識別手語含義。2015年，呂蕾、張金玲、朱英杰、劉弘等人［7］利用一種可穿戴式的設(shè)備——數(shù)據(jù)手套獲取手語的手勢特征再與構(gòu)建好的數(shù)據(jù)庫進行點集模版匹配進行手勢識別，實現(xiàn)在25類手勢中準確率達98.9%。2020年，白旭、郭豆豆、楊學(xué)康、蔣麗珍等人［8］利用智能手語翻譯手套進行手語識別，該智能手語翻譯手套采用基于數(shù)據(jù)手套的手語識別技術(shù)，運用低緯度SVM結(jié)合決策樹算法來進行手勢識別，在SVM的兩類分類器的基礎(chǔ)上加上決策樹算法能夠?qū)崿F(xiàn)多類分類器功能，在不影響識別率的情況下極大地提高識別速率。與利用體感設(shè)備一樣，需要借助輔助設(shè)備，利用穿戴式設(shè)備進行手語識別還處于研究階段，這種設(shè)備無法大規(guī)模生產(chǎn)，一套設(shè)備非常昂貴，無法在市場普及，而且設(shè)備攜帶不方便，難以推廣。

1.3 基于深度學(xué)習(xí)的手語識別

隨著計算機硬件和軟件的不斷更新?lián)Q代，基于深度學(xué)習(xí)的手語識別得到了極大的發(fā)展。在2017年，Cui等人［9］采用基于連接時間分類（con?nectionist temporal classification，CTC）的CNNLSTM網(wǎng)絡(luò)模型進行連續(xù)手語的識別。此方法利用CTC對未分段的時間序列片段進行標記，再進入CNN-LSTM模型進行分類識別，在一個大規(guī)模數(shù)據(jù)集上，得到了較好的性能。2020年，羅元、李丹、張毅［10］提出基于基于殘差3D卷積網(wǎng)絡(luò)（Res3DCNN）和卷積長短時記憶網(wǎng)絡(luò)，關(guān)注手語手勢中顯著區(qū)域并在時間上自動選擇關(guān)鍵幀，在手語識別上取得了較好的效果。

2 方法

2.1 特征提取方法

為利用深度卷積神經(jīng)網(wǎng)絡(luò)提取單幀圖片的有效特征，我們采用了GoogleNet［11］系列的Incep?tionV3網(wǎng) 絡(luò) 模型。InceptionV3是由InceptionV1、InceptionV2演變而來。

Inception系列網(wǎng)絡(luò)采用模塊化結(jié)構(gòu)，設(shè)計的核心主要在Inception模塊，網(wǎng)絡(luò)設(shè)計中采用了全局值池化代替全連接層，極大降低了參數(shù)的數(shù)量。在使用時，我們?nèi)コ司W(wǎng)絡(luò)的最后一層。具體InceptionV3的網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。

表1 Inception V3模型結(jié)構(gòu)

圖1 Inception模塊結(jié)構(gòu)

給定的手語視頻V，進行按幀切分，分成Im?ages=［Image1,Image2,…,Imagen］，其中n是切分的總幀數(shù)，Imagej代表第j幀圖片。用InceptionV3對切分好的所有圖片進行特征提取得到f=［feature1，feature2，…，featuren］，其中n表示總特征數(shù)，fea?turej表示第j幀圖片提取出的特征，得到的f即為該手語視頻的特征。其具體流程如圖2所示。

圖2 手語視頻特征提取過程

2.2 手語視頻預(yù)處理

對單個手語視頻V，首先進行按幀切分，對于每幀圖片按照上述特征提取的方法進行特征提取，最終得到手語視頻的特征。具體過程如下：

2.3 運用K-means聚類算法均值提取關(guān)鍵幀

K-means聚類算法廣泛應(yīng)用在視頻或圖片處理，也是圖片關(guān)鍵幀提取的主要方法之一。其算法思想是將給定的樣本大小，按照樣本之間的距離大小，將樣本集劃分為k個簇，使得同一個簇內(nèi)的樣本更緊密連在一起，簇之間距離盡量大一點。假如簇劃分為（C1，C2，…，Ck），那么我們最終的目標最小化平方差誤差E:

其中μi是簇Ci的均值向量，也稱為質(zhì)心，其表達式為：

傳統(tǒng)的K-means提取視頻關(guān)鍵幀的方法是計算視頻的每幀圖片在像素空間的歐式距離來衡量圖片之前的差異，從而完成圖像聚類［12］，而本文對手語視頻關(guān)鍵幀的提取在手語視頻每幀圖片的特征空間中進行聚類，這樣解決了單像素?zé)o法攜帶足夠信息和圖片尺寸大，造成計算量過大的問題。通過對大量手語、手勢的研究發(fā)現(xiàn)，絕大多數(shù)手語的關(guān)鍵幀數(shù)不會超過6幀［12］，數(shù)據(jù)集（在4.1節(jié)介紹）中的手語視頻大多包含4～6個詞，所以將關(guān)鍵幀數(shù)設(shè)定為32，對于一個手語視頻V，其特征序列f=｛feature1，feature2，…，featuren｝，其中n為視頻序列總幀數(shù)，featurei為視頻第i幀圖片提取的特征向量，對于f采用K-means進行提取關(guān)鍵幀。具體算法如下：

（1）從特征序列f中隨機選擇32個樣本作為初始的質(zhì)心向量記為μ1，μ2，…，μ32，其中μj（1≤j≤32）為第j類聚類質(zhì)心。

（2）對于樣本f=｛feature1，feature2，…，fea?turen｝和各個聚類質(zhì)心μj的歐氏距離：

dij=‖featurei-μi‖，那么featurei到μj（j=1.2…32）的距離記為Di=｛di1，di2，…，di32｝,選取Di中的最小值dij，將featurei歸入第j類。

（3）再對第j聚類質(zhì)心的所有樣本去均值，重新計算該類的質(zhì)心。

（4）重復(fù)步驟（2）和（3），直到每次重新計算的質(zhì)心與原質(zhì)心沒有變化。

最終的μ1，μ2，…，μ32即為提取出的手語視頻關(guān)鍵幀特征。

2.4 手語識別模型

使用Keras搭建Seq2Seq模型，Seq2Seq模型是RNN最重要的一個變種：NvsM（輸入與輸出序列長度不同），這種結(jié)構(gòu)又叫Encoder-Decoder模型。Encoder與Decoder均采用長短時記憶卷積神經(jīng)網(wǎng)絡(luò)（long short-term memory networks，LSTM）。將手語視頻關(guān)鍵幀特征序列與手語視頻特征序列分別輸入到Encoder部分進行特征融合，將兩部分得到的融合特征組合起來輸入到Decoder部分進行解碼，M1，M2，M3為LSTM層。具體手語識別算法模型如圖3所示。

圖3 Seq2Seq手語識別算法模型

3 實驗

3.1 數(shù)據(jù)集

對于手語數(shù)據(jù)集，我們采用了中國科學(xué)技術(shù)大學(xué)自制的中國手語數(shù)據(jù)集——CSL。CSL數(shù)據(jù)集是中國科學(xué)技術(shù)大學(xué)從2015年開始自制的中國手語數(shù)據(jù)集，并在2017年公開，里面包含RGB、深度以及骨架關(guān)節(jié)點數(shù)據(jù)。我們選取其中100句中文句子，每句中文對應(yīng)250個手語視頻，總計25000個樣本的連續(xù)手語數(shù)據(jù)集，如圖4所示。

圖4 手語數(shù)據(jù)集

100句中文句子，每句對應(yīng)250個視頻，由50名操作者拍攝，每位操作者重復(fù)5次，手語動作由專業(yè)老師指導(dǎo)，每個視頻在5～8秒。視頻內(nèi)容具體情況如圖5所示。

圖5 手語視頻

3.2 加入關(guān)鍵幀前后精度對比

模型訓(xùn)練好后（迭代訓(xùn)練800輪），與視頻融合特征部分不加入關(guān)鍵幀的融合特征直接進行解碼相比，加入關(guān)鍵幀后在精度上有了一定的提升，在測試集上測試1000次的情況見表3。

表3 測試1000次識別精度

可以看出，在加入了K-means聚類算法提取的關(guān)鍵幀后，識別精度有了一定的提高。

3.3 迭代次數(shù)對比

本文還對比了訓(xùn)練的迭代次數(shù)，實驗結(jié)果如圖，隨著迭代次數(shù)的提高，加入關(guān)鍵幀的模型與不加關(guān)鍵幀的模型在精度上都有很大提高，加入手語視頻關(guān)鍵幀的模型總體要高于不加入手語視頻關(guān)鍵幀的模型。如圖6所示。

圖6 精確度對比

4 實驗優(yōu)化

由實驗結(jié)果看出，使用K-means提取關(guān)鍵幀加入到編碼器的融合特征中，精度上雖有一定的提升，但還是未達到預(yù)期效果。而且手語識別時間增大，原因是K-means提取關(guān)鍵幀存在問題：①K-means涉及大量數(shù)據(jù)的運算，收斂較慢，數(shù)據(jù)量過大時，計算時間過長。②經(jīng)過專家打分系統(tǒng)發(fā)現(xiàn)最終得到的聚類質(zhì)心，有一部分質(zhì)心不是關(guān)鍵幀。③同一個關(guān)鍵手勢可能會出現(xiàn)在多個地方，但是會被歸為同一個聚類，丟失了關(guān)鍵幀的時間序列。

為此，我們更換了關(guān)鍵幀的提取方式，我們使用人工進行標注每個手語視頻中每幀關(guān)鍵幀，并用三層深度神經(jīng)網(wǎng)絡(luò)進行二分類訓(xùn)練。

4.1 人工標注關(guān)鍵幀

對于手語視頻的關(guān)鍵幀，我們從兩方面進行考慮：語言學(xué)角度的關(guān)鍵幀和聽障人群使用的角度的關(guān)鍵幀。

4.1.1 語言學(xué)角度的關(guān)鍵幀

一句中文句子可以分解成多個詞和字，對于這句話的語義一般由幾個關(guān)鍵詞構(gòu)成，我們基于這個角度采用詞頻-逆文件頻率（term frequencyinverse document frency，TF-IDF）提取每句中文句子中的關(guān)鍵詞。

TF（詞頻）指某個詞語在當(dāng)前文檔中出現(xiàn)的次數(shù)，由于同一詞語在不同文檔中出現(xiàn)的次數(shù)不一樣，且文檔越大，出現(xiàn)的頻率可能就越高，故需要對詞語進行歸一化，計算公式如下：

IDF（逆文檔頻率）是在詞頻的基礎(chǔ)上，對每個詞賦予權(quán)重。如果某個詞在其他文檔中出現(xiàn)次數(shù)很多，但是在當(dāng)前文檔出現(xiàn)多次，那么應(yīng)該賦予該詞較大的權(quán)重，如果該詞在很多文檔都有出現(xiàn)，無法代表當(dāng)前文章的內(nèi)容，那么將賦予該詞較小的權(quán)重，其計算公式如下：

那么每個詞最終的權(quán)重（TF-IDF值）即為：

我們將數(shù)據(jù)集中包含的每個中文句子作為一個文檔，總計100個文檔作為數(shù)據(jù)集，對每句話使用jieba工具進行分詞，然后對每個詞對與對應(yīng)文檔進行TF-IDF值的計算，提取出每句話中的關(guān)鍵詞。

對于每句話提取出的關(guān)鍵詞，例如“他的同學(xué)是警察”，最終提取出“同學(xué)”和“警察”兩個關(guān)鍵詞，我們在手語網(wǎng)查詢了這兩個詞的手勢動作得知“他”包含一個關(guān)鍵手勢（圖7），“同學(xué)”包含兩個關(guān)鍵手勢（圖8），然后對手語視頻中的每幀圖片按這些關(guān)鍵手勢進行標注為關(guān)鍵幀。

圖7 手語“他”的關(guān)鍵手勢

圖8 手語“同學(xué)” 的關(guān)鍵手勢

我們邀請了學(xué)校的幾位老師以及學(xué)生共10個人，將我們收集到手語數(shù)據(jù)集中的每一個視頻進行按幀切分，按照中文句子中的關(guān)鍵詞，查詢其對應(yīng)的關(guān)鍵手勢，對切分的每張圖片進行標注是否為關(guān)鍵幀。耗時半個月，將收集到的25000手語視頻全部標注完成。

4.1.2 聽障人群使用的角度的關(guān)鍵幀

手語是一種視覺語言，表達時重于視覺效果。通過對鎮(zhèn)江市聾啞學(xué)校的學(xué)生進行手語交流的觀察發(fā)現(xiàn)，當(dāng)他們進行交流時，對于某個手勢會著重表達甚至反復(fù)做這個動作，主要原因是這些手勢動作存在一些關(guān)鍵動作（關(guān)鍵幀），它的正確展示是對方理解自己手語表達含義的關(guān)鍵。基于這一理論，我們邀請了5名手語專家（聽障人士）幫助我們對于現(xiàn)有的手語數(shù)據(jù)集中手語視頻動畫按幀標準標出了核心關(guān)鍵關(guān)鍵幀。

4.2 優(yōu)化結(jié)果

模型訓(xùn)練好后（迭代訓(xùn)練800輪），對三種提取關(guān)鍵幀的方式分別進行比較，分別在測試集上測試1000次的情況見表4。

表4 測試1000次識別精度

迭代次數(shù)的對比如圖9所示。

圖9 精確度對比

由此可以看出，在本實驗中三種方式在初始200輪迭代中差距不是很大，但是從整體上看，最終的精確度人工標注的方式比K-means方式提取的關(guān)鍵幀在效果上更好，而且在訓(xùn)練過程中整體都是由于K-means的。將語言學(xué)角度的關(guān)鍵幀和使用者角度的關(guān)鍵幀對比，從使用者角度效果更好，可以看出使用者角度提取的關(guān)鍵幀更符合聽障人士在交流時的關(guān)鍵手勢。

5 結(jié)語

本文提出基于深度學(xué)習(xí)的手語識別算法，搭建了Seq2Seq網(wǎng)絡(luò)模型。對于訓(xùn)練成熟的Seq2Seq模型，將錄制的手語視頻，輸入模型可直接得到手語的中文意思，而且識別準確率高，相較于傳統(tǒng)使用數(shù)據(jù)手套或者使用Kinect作為輔助器，成本低。運用算法開發(fā)出一款應(yīng)用，可以在各種設(shè)備進行識別操作，方便快捷。

深度學(xué)習(xí)技術(shù)相對傳統(tǒng)方法而言，與網(wǎng)絡(luò)速度、GPU等硬件性能的關(guān)系更為緊密，計算機硬件設(shè)備的更新?lián)Q代及網(wǎng)絡(luò)升級，會大大縮短從錄制完手語視頻到得出結(jié)果的時間。深度學(xué)習(xí)技術(shù)還依賴于大量數(shù)據(jù)集，現(xiàn)階段，良好的手語數(shù)據(jù)庫非常匱乏，未來還需要致力于建立良好的手語手語數(shù)據(jù)集，提高手語識別模型的準確率與普適性。