王偉喆,郭威彤,楊鴻武,
(1.西北師范大學物理與電子工程學院,甘肅 蘭州 730070;2.西北師范大學教育技術學院,甘肅 蘭州 730070;3.互聯(lián)網教育數(shù)據(jù)學習分析技術國家地方聯(lián)合工程實驗室,甘肅 蘭州 730070)
語音在人類的正常生活中起著至關重要的作用,具有方便、快捷和直接的特點。由于種種原因,我國存在著數(shù)量眾多的語言障礙者。語言障礙者與其他人主要通過手語進行交流,而大部分的正常人不懂手語,這影響了語言障礙者的正常生活,也給社會帶來了一定的壓力。因此,將手語轉換為語音的研究受到越來越多的關注。
起初,手語到語音的轉換主要以數(shù)據(jù)手套為主。文獻[1]利用帶有模擬數(shù)字板和3D追蹤器的數(shù)據(jù)手套將手指的自由度轉換為二進制數(shù),再通過模式匹配轉換為對應的字符,最后利用聲卡將字符轉換為語音。文獻[2]利用裝載在手套上的14組三軸加速器實時采集手勢的動作數(shù)據(jù),通過串口和藍牙將數(shù)據(jù)傳輸?shù)角度胧较到y(tǒng)進行手勢特征提取和匹配,最終使用語音引擎輸出語音。文獻[3]使用內嵌柔性傳感器和慣性測量裝置的手套進行手勢識別,并通過語音引擎生成音頻輸出。近年來,隨著機器學習技術的發(fā)展,基于機器視覺的手語到語音轉換以其設備便宜和使用方便的優(yōu)勢得到了一定的發(fā)展。其中,基于神經網絡的方法依靠其極強的分類能力和抗干擾能力,在手勢和人臉的表情特征提取和識別方面取得了重大突破[4,5],是目前手勢識別和人臉表情識別的主流方法。同時,基于深度學習的統(tǒng)計參數(shù)語音合成方法被廣泛應用到情感語音合成中,能夠在模型參數(shù)數(shù)目相近的情況下顯著提高合成的情感語音的自然度[6]。Oyedotun等[7]提出了一種3D卷積神經網絡CNN(Convolutional Neural Network)對手勢的時空特征進行建模。Zhu等[8]將手勢的短期時空特征和長期時空特征結合起來進行建模,實現(xiàn)多模態(tài)手勢識別。Zhang等[9]提出身份啟發(fā)卷積神經網絡I2CNN(Identity-Inspired CNN),以整個或者局部面部的微小區(qū)域作為I2CNN輸入,使用支持向量機SVM(Support Vector Machine)進行分類。文獻[10]利用CNN搭建人臉表情圖像的多幀融合網絡結構,對輸出結果進行融合。文獻[11]對中性、快樂、憤怒和悲傷4種情感分別建立基于長短時記憶LSTM(Long Short-Term Memory)-循環(huán)神經網絡RNN(Recurrent Neural Network)的情感聲學模型,并利用多說話人語音數(shù)據(jù)訓練說話人無關聲學模型來初始化情感相關的LSTM-RNNs模型,合成的情感語音與基于隱馬爾科夫模型HMM(Hidden Markov Model)的方法相比具有較好的自然度。文獻[12]提出了一種采用全局風格標記進行半監(jiān)督訓練的端到端情感語音合成方法,合成的情感語音客觀評測優(yōu)于Tacotron模型。文獻[13]使用基于傳感器的手勢識別模塊識別英文字母和少量單詞,并利用基于HMM的語音合成器轉換為語音。文獻[14]利用CNN對阿拉伯手語字母進行識別,并通過深度學習模型將識別結果轉換成語音。
現(xiàn)有的手語到語音轉換的方法中,基于數(shù)據(jù)手套的方法識別率較高,但使用者需要穿戴復雜且昂貴的數(shù)據(jù)手套和嵌入式設備。基于機器視覺的方法只對簡單的字符手語到語音的轉換進行了研究,且忽略了感情色彩在信息交流中的重要作用。文獻[15]結合SVM與受限玻爾茲曼機對深度模型進行調節(jié),并利用說話人自適應訓練技術訓練基于HMM的語音合成系統(tǒng),實現(xiàn)了30種靜態(tài)手語到漢藏雙語語音的轉換。文獻[16]分別將深度置信網絡DBN(Deep Belief Network)和深度神經網絡DNN(Deep Neural Network)與SVM結合,得到手勢文本和人臉表情情感標簽,并利用說話人自適應訓練技術實現(xiàn)了基于HMM的語音合成系統(tǒng),實現(xiàn)了手語到語音轉換。文獻[17]利用DNN實現(xiàn)手語到情感語音的轉換。本文進一步利用在圖像識別領域取得較好成就的卷積神經網絡實現(xiàn)手勢識別和人臉表情識別;同時,以普通話聲韻母為合成基元,訓練混合LSTM的情感語音合成模型,實現(xiàn)手語到情感語音的轉換。
手語到情感語音轉換的系統(tǒng)框架圖如圖1所示,主要包括模型訓練和測試2個階段。訓練階段,首先對輸入的手勢圖像和人臉表情圖像進行預處理,然后通過卷積神經網絡提取手勢特征和人臉表情特征,訓練手勢識別模型和人臉表情識別模型。從多說話人情感語料中獲取語音的聲學參數(shù)和文本的上下文相關標注,用于訓練說話人無關的情感語音聲學模型。在測試階段,將手勢圖像和人臉表情圖像分別輸入訓練階段得到手勢識別模型和人臉表情識別模型,得到手勢對應的文本和人臉表情對應的情感標簽。通過文本分析得到手勢文本對應的上下文相關標注,接著將該標注信息和得到的情感標簽輸入訓練好的情感語音聲學模型,得到語音特征,最后通過語音合成得到情感語音,最終實現(xiàn)手語到情感語音的轉換。
首先依據(jù)手勢圖像和人臉表情圖像的顏色突變、空間紋理和幾何形狀等特性進行圖像邊緣檢測。然后將手勢圖像和人臉表情圖像轉換為灰度圖像。處理之后的圖像大小全部調整為64×64,并進行歸一化處理。模型訓練過程中,對原始圖像進行平移操作實現(xiàn)數(shù)據(jù)擴充,以避免過擬合問題。
手勢識別和人臉表情識別模型是一個深度卷積神經網絡DCNN(Deep Convolutional Neural Network)結構。DCNN結構是由Krizhevsky等[18]于2012年首次提出的,在大型圖像分類上取得了非常好的效果。本文的網絡結構信息如表1所示,包含12個深度神經層,前9個是卷積層,后3個是全連接層。最后一個全連接層的輸出通過Softmax分類器對手勢圖像和人臉表情圖像進行分類。
網絡訓練過程中,首先隨機初始化網絡參數(shù),然后根據(jù)網絡輸出的標簽和樣本的真實標簽計算損失函數(shù)并不斷更新網絡參數(shù)。網絡結構中除最后一層其他層全部使用Leaky ReLU作為激活函數(shù),以均方誤差作為損失函數(shù),使用小批量隨機梯度下降算法進行模型訓練,小批量的大小為256。在隱藏層中增加2個Dropout層進行正則化,每一層都對隱藏層的輸入進行批量歸一化處理[19]。

Table 1 Information of gesture recognition model and facial expression recognition model
在情感語音合成過程中,利用說話人自適應訓練技術訓練了DNN和DNN與LSTM混合網絡2種情感語音合成模型,訓練過程如圖2所示。
首先,從包含多個說話人的情感語料庫中的情感語音中提取對數(shù)基頻(LF0)、廣義梅爾倒譜系數(shù)MGC(Mel-Generalized Cepstral)和頻帶非周期分量BAP(Band A Periodicity)3種模型訓練所需要的聲學參數(shù)。情感語音對應的文本借助詞典和語法規(guī)則,經過語法分析、字音轉換、韻律分析和文本規(guī)范化等文本分析過程獲得文本的聲韻母信息、韻律結構信息、詞信息和語句信息等語境信息,最終得到聲韻母、音節(jié)、詞、韻律詞、韻律短語和語句6層上下文相關標注。然后,將語音聲學參數(shù)、濁音/清音和文本聲韻母的上下文相關標注信息輸入神經網絡進行說話人無關平均音模型訓練。在平均音模型訓練過程中,2種網絡的DNN層在不同的情感說話人之間共享隱藏層進行語言參數(shù)建模,通過反向傳播算法對時長與聲學特征進行建模,并使用非線性函數(shù)對語言特征和聲學特征之間的非線性關系進行建模。
接著,從一個目標說話人的情感語料中提取聲學參數(shù),通過說話人自適應變換,獲得說話人的情感聲學模型。最后,利用人臉表情識別獲得的情感標簽選擇對應的說話人情感聲學模型,利用文本分析獲得的6層上下文相關標注信息作為說話人情感聲學模型的輸入,采用最大似然參數(shù)生成算法生成目標情感語音的聲學參數(shù),利用WORLD聲碼器合成情感語音。
情感語音合成網絡訓練過程中,所有網絡的輸入由425維特征向量組成。該向量包括416維反映語言特征的上下文相關特征和9維數(shù)字特征。所有的輸入特征被歸一化到[0.01,0.99],所有網絡的輸出特征包括60維MGC、1維LF0、1維BAP,及其一階差分和二階差分特征,1維元音/輔音V/UV(Voiced/Unvoiced)特征,共187維特征。
邀請10名不同的人錄制30種不同的手勢,每種手勢錄制50次,以此創(chuàng)建一個包含15 000幅手勢圖像的數(shù)據(jù)庫。所有采集到的手勢圖像保存為jpg格式,并按照手勢對應的文本進行命名。實驗中隨機選取14 000幅圖像作為訓練集,剩余數(shù)據(jù)作為測試集。
人臉表情數(shù)據(jù)來自CK+[20]表情數(shù)據(jù)庫和JAFFE[21]表情數(shù)據(jù)庫,從中提取憤怒、厭惡、害怕、高興、悲傷、驚訝和中性7種表情圖像共計1 462幅。然后對所有數(shù)據(jù)進行平移增強處理,創(chuàng)建一個包含5 000幅人臉表情圖像的混合數(shù)據(jù)集。隨機選擇4 500幅圖像用于訓練集,剩余的用作測試集。
7種人臉表情對應的每種情感,以陳述句為主設計1 000句文本,內容涉及人文、時政、生態(tài)、娛樂和日常交流。語料基本覆蓋所有的普通話發(fā)音現(xiàn)象。語句長度適中,平均句長為13個音節(jié),最短句長2個音節(jié),最長句長32個音節(jié)。同時,語料不包含數(shù)字、字母和特殊符號。然后讓說話人觀看每種情感對應的特定場景視頻片段以激發(fā)說話人的情感。當說話人的情感被激發(fā)后,進行情感語音錄音。語音錄制中邀請10名女性普通話說話人按照設計的文本語料錄音,每名說話人錄制每種情感語音各100句,建立一個包含7 000句普通話情感語音的語料庫。語音數(shù)據(jù)均采用16 kHz采樣,16位量化,存儲為單聲道WAV格式。實驗過程中隨機選取50句語料作為測試集,50句語料作為驗證集,其余語料作為訓練集。
本文方法在進行手勢圖像處理時利用了卷積神經網絡的局部連接、權值共享、池化和多層網絡4個關鍵屬性,自主學習手勢圖像中抽象的特征表達向量。利用卷積層對特征圖的局部連接進行探測,池化層將相似的特征進行融合。實驗進行了5次交叉實驗對DCNN在手勢識別中的效果進行驗證,實驗結果如表2所示。同時,將本文提出的方法與文獻[16]中基于DBN的方法、文獻[17]中基于DNN的方法進行比較,實驗結果如表3所示。結果顯示,DCNN通過表達能力更強的網絡結構來自動學習區(qū)分力更強的手勢特征,使得模型具有更強的泛化能力,因此,在手勢識別中表現(xiàn)出了更好的識別效果。

Table 2 Experimental results of gesture recognition

Table 3 Experimental results of gesture recognition with different methods
本文在混合表情數(shù)據(jù)集上也進行了5次交叉驗證實驗,實驗結果如表4所示。并從混合數(shù)據(jù)集的測試集中隨機取出每種表情20個進行測試,根據(jù)每種表情對應的識別結果構建混淆矩陣,實驗結果如表5所示。

Table 4 Experimental results of facial expression recognition

Table 5 Confusion matrix of facial expression recognition on mixed dataset
憤怒、厭惡和悲傷3種表情非常相似,模型在這3種表情之間出現(xiàn)識別混淆。同時,在CK+數(shù)據(jù)集上識別7種基本人臉表情,表6對采用相同實驗設置獲得的識別準確率進行了匯總,結果表明本文方法在人臉表情單幀圖像上的識別準確率達到95.98%,僅次于GCNET和WGAN 2種方法的,可用于人臉表情識別任務。

Table 6 Recognition rate of different methods on CK+ dataset
使用9名女性說話人的情感語言語料訓練平均音模型,1名女性說話人的情感語言語料進行說話人自適應。
DNN模型包含4個隱藏層,每層512個單元,混合LSTM模型在DNN第4個隱藏層之后增加加一個包含256個記憶單元的LSTM層,使用基于時間的反向傳播算法對模型參數(shù)進行隨機初始化和訓練。2種模型結構的輸出層均采用線性激活函數(shù),其余各層均采用ReLU激活函數(shù),以均方誤差為損失函數(shù),使用小批量隨機梯度下降算法進行聲學模型訓練,小批量的大小為256,并且使用Adam優(yōu)化。在隱藏層中增加2個Dropout層用于正則化。在平均音訓練時,前10個epochs的學習率為0.004,然后減半。在說話人自適應時,前10個epochs的學習率為0.002,然后減半。
(1)客觀評測。
通過計算原始語音的聲學參數(shù)與每個模型下合成的情感語音的聲學參數(shù)的失真來評測合成的情感語音的質量。評測的聲學參數(shù)包括F0的均方根誤差、梅爾倒譜失真MCD(Mel-Cepstral Distortion)、BAP失真和V/UV誤差,客觀評測結果如表7所示。結果表明,混合LSTM模型合成的情感語音的質量優(yōu)于DNN模型的。
(2)主觀評測。
邀請年齡在24~26歲的母語為普通話的15名男性碩士研究生和15名女性碩士研究生作為受試者,從測試集中隨機選取20句測試語音進行評測。利用情感平均意見得分EMOS(Emotion Mean Opinion Score)、情感差異平均主觀得分EDMOS(Emotion Degradation Mean Opinion Score)和AB偏好測試來評價合成情感語音的質量。

Table 7 Objective evaluation results on the synthesized emotional speech with different models
在EMOS測試中,受試者要求使用5分制來評估合成情感語音的自然度。合成情感語音在95%置信區(qū)間的平均EMOS如圖3所示。
在EDMOS測試中,合成情感語音與對應的原始錄音為一對文件,每一對語音文件按照原始錄音在前、合成情感語音在后的順序隨機播放。要求受試者仔細比較2段語音,并在5分范圍內評估合成情感語音與原始語音的相似度。5分表示合成語音與原始語音非常接近,而1分表示相差很大。95%置信區(qū)間下不同模型的合成情感語音平均EDMOS如圖4所示。
在AB偏好測試中,隨機播放2種模型合成的同一句情感語音,要求受試者求給出下列3種選項中的一種:(1)A更自然,(2)沒有偏好(NP),(3)B更自然。對合成的情感語音的偏好結果如表8所示。

Table 8 Subjective AB preference score(ρ<0.01)
從評測結果可知,2種情感語音合成模型均合成出了高質量的情感語音。但是,混合LSTM模型中通過DNN的多層結構將語言特征逐幀映射到語音特征,LSTM層可以捕獲給定語音幀的前向輸入特征,因此更適合構建情感語音合成模型的語音聲學模型,合成的情感語音具有更高的質量和偏好性。
準備30組手勢(包括詞語15組和句子15組)及其轉換得到的情感語音,并邀請母語為普通話的男性碩士研究生和女性碩士研究生各15名作為受試者。本文對受試者播放手勢轉換得到的語音,要求評測人根據(jù)聽到的語音從A、B、C和D4個選項中選擇對應的文本(不考慮情感),通過與標準答案對比計算手語到語音轉換的正確率,結果如表9所示。

Table 9 Accuracy rate of sign language to speech conversion under different speech synthesis models
2種模型都獲得了較高的手語到語音轉換的正確率。由于詞屬于孤立詞間的轉換,而句子是一個完成的表達,更加具備上下文相關特性,所以手語到情感語音的轉換中句子的轉換正確率更高。
此外,本文還采用簡化版的PAD(Pleasure-displeasure, Arousal-nonarousal, Dominance-submissiveness)情感量化表[26]對預先準備的人臉表情圖像及其轉換的情感語音在PAD的3個感情維度進行評分。按照5分制分別在愉悅度、激活度和優(yōu)勢度3個維度上進行打分,最后將打分結果歸一化到[-1,1]。通過對比人臉表情圖像的PAD值與轉換的情感語音的PAD值的差異來評測轉換的情感語音對人臉表情的情感表達程度。人臉表情圖像和轉換的情感語音為一組文件,每組文件按照先人臉表情圖像、后轉換語音的順序進行播放,要求受試者根據(jù)觀測到表情圖像和聽到情感語音時的心理感情狀態(tài)完成PAD情感量表。最終將每種人臉表情和轉換的情感語音在3個維度進行比較,結果如圖5所示。從圖5中可知,2種情感語音合成模型均合成出了與人臉表情情感相似度較高的情感語音。但是,混合LSTM網絡結構以其在處理時序信號中的優(yōu)越性,合成的情感語音對人臉表情的情感表達程度更高。
本文提出了一種基于神經網絡的手語到情感語音轉換的方法,解決語言障礙者與健康人交流困難的問題。利用DCNN實現(xiàn)手勢識別和人臉表情識別,采用DNN和混合LSTM模型來提高合成的情感語音的質量。實驗結果表明,本文提出的方法不僅能夠以較高的正確率實現(xiàn)手語到情感語音的轉換,轉換出的情感語音也能夠準確傳達人臉表情的情感。同時,將本文方法的結果與其他人的工作進行比較,本文方法表現(xiàn)出更佳的效果。未來工作的重點是擴大手勢語料庫和人臉表情語料庫,通過大規(guī)模的語料庫實現(xiàn)更多種類的手語到情感語音的轉換,并嘗試研究動態(tài)手語到情感語音的轉換,以提高手語到情感語音轉換的表現(xiàn)力。