關(guān)鍵詞:仿生機器人;音頻驅(qū)動;情緒導(dǎo)向;卷積長短時記憶網(wǎng)絡(luò)
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2025)08-007-2297-07
doi:10.19734/j.issn.1001-3695.2025.01.0011
Implicit emotion-oriented approach to speech-driven bionic robot facial expressions
XuKang,Yuan Ye,F(xiàn)u Junxiu,F(xiàn)uKeting,RenQinze,Liu Na? (InstituteofMachineInteligence,UniversityofShanghaiforScienceamp;Technology,Shanghai2Ooo93,China)
Abstract:Thisstudyproposedaninovativeimplicitemotion-orientedspeech-drivenmethodforgeneratingfacialexpressions andhead movements inbionicrobots.Traditional methodsrelyonpre-programmedrandomactionsequences,whichare insufficient for precise emotional expresion.Basedondeep leaing,thisstudyintroducedneck servocontrolcoeffcients inadition to facial expresions,achieving precise mappng fromaudiosignals tonatural expressions.Furthermore,thisstudydesignedanimplicitemotion-oriented featurefusionautoencoderframework thatcouldinferemotionalfeaturesimplicitlyfromaudio withoutrequiring explicit emotionparameters.Itenabledthegenerationof richfacialexpresions andneck movements that matchedtheaudiocontentandemotionalnuances.Experiments demonstrate thatthe proposed methodsignificantlyoutperforms existingtechnologies onmultiple datasets.Aditionall,through lightweight design,the proposedmethodeficientlyadapts to mobile devices with limited resources.
Key Words:biomimeticrobots;speech-driven;emotion-oriented;convolutional long short-term memory network
0 引言
隨著人工智能技術(shù)的不斷進步,仿生機器人在模擬人類行為和表情方面的能力日益增強,為多個領(lǐng)域帶來了革命性的應(yīng)用前景,尤其是在主動健康、社交互動、教育娛樂等方面。主動健康強調(diào)通過個體的主動參與和健康管理,提升整體健康水平[1],特別是在幫助聽力殘疾人、老年人和自閉癥譜系障礙(ASD)兒童[2]等弱勢群體方面具有重要意義。盡管運動科學是主動健康的重要組成部分,但面對主動健康醫(yī)學的要求和未來科技發(fā)展的趨勢,運動科學亟需基于復(fù)雜系統(tǒng)、大數(shù)據(jù)和人工智能技術(shù)進行基礎(chǔ)理論創(chuàng)新[1,3]。研究表明,利用機器人幫助ASD兒童發(fā)展社交和情感技能,以克服社交障礙,已被證明具有積極作用[4]。語音驅(qū)動的仿生機器人面部表情和頭部姿態(tài)生成技術(shù),作為實現(xiàn)這一目標的關(guān)鍵,正逐漸成為研究的熱點。
仿生機器人的面部表情與頭部動作不僅是進行情感交流的重要媒介,也是理解人類意圖的重要線索。研究顯示,在人類交流過程中,有超過 60% 的信息通過非言語行為傳遞,其中面部表情和頭部動作占據(jù)了重要比重[5]。因此,使機器人表達出準確的自然表情,對于提升人機交互的親和力至關(guān)重要[6~8] C
以往的研究多側(cè)重于利用人臉關(guān)鍵點檢測技術(shù),賦予表情機器人模擬人類面部表情及頭部動作的能力[9]。同時,也有研究通過音頻來驅(qū)動面部表情,該技術(shù)主要應(yīng)用于動畫領(lǐng)域[10]。盡管在音頻驅(qū)動的面部表情生成技術(shù)上已有所突破,但在提高表情生成的準確性、自然性和實時性方面,尤其是在考慮到伺服系統(tǒng)的限制和硬件條件時,仍然存在重大挑戰(zhàn)[11]。本文旨在探討如何將音頻信號轉(zhuǎn)換為面部表情與頭部動作,通過深人分析語音特征及面部表情變化構(gòu)建高效模型,利用音頻輸人來精準控制仿生機器人頭部的舵機運動,合成自然的面部表情。
本文的主要貢獻包括:a)提出了一種基于深度學習的機器人舵機驅(qū)動新方法,從語音特征中預(yù)測包含頸部舵機的運動控制系數(shù),實現(xiàn)從音頻信號到機器人表情的精確控制;b)設(shè)計了一種隱式情緒導(dǎo)向特征融合自編碼器框架,無須將情緒參數(shù)作為顯式輸入,從而合成具有豐富情緒特征的面部表情和頸部運動;c構(gòu)建了一系列與舵機對應(yīng)的機器人頭部運動模板,通過伺服技術(shù)實現(xiàn)仿生機器人的表情與頭部姿態(tài)的重建。
1相關(guān)工作
1.1最優(yōu)伺服位移映射
當前在虛擬場景下的說話人臉生成技術(shù)主要圍繞兩種核心方法展開:a)通過將語音信號直接映射到人臉網(wǎng)格的頂點坐標[12,13],實現(xiàn)面部表情的生成;b)側(cè)重于預(yù)測與面部網(wǎng)格相關(guān)的系數(shù),以較少的參數(shù)高效捕捉面部的關(guān)鍵變形[14,15]。
Blendshape[16]面部模型作為一種流行的線性模型,使用52個參數(shù)表示人臉表情的關(guān)鍵變形,被廣泛用于模擬各種3D面部結(jié)構(gòu)。Blendshape系數(shù)通常與特定模板網(wǎng)格無關(guān),這意味著它們可以在不同面部模型上復(fù)用,以展現(xiàn)一致的面部表情。模板網(wǎng)格代表一種標準的中性表情狀態(tài),而Blendshape系數(shù)通過控制少量參數(shù)來精確驅(qū)動面部動作,如下巴的張開或眼睛的閉合等。
在實體表情機器人的控制領(lǐng)域,傳統(tǒng)方法主要依賴于一組固定的預(yù)編程動作[17,18],例如,文獻[19]呈現(xiàn)了一張以眼睛和嘴巴為特征的數(shù)字臉,以表達不同的情緒。Cohen等人[20]創(chuàng)造并驗證了動態(tài)身體姿勢來表達恐懼、快樂、憤怒、悲傷和驚訝的表情。近期的一項研究[9通過面部關(guān)鍵點映射到舵機的伺服位移來精確地驅(qū)動面部的運動,表現(xiàn)出比傳統(tǒng)方法更加豐富的面部表情和動作細節(jié)。
本文提出一種將音頻信號情感特征與運動特征映射至機器人的舵機控制參數(shù)的驅(qū)動方法。本文創(chuàng)新性地關(guān)注到了頸部運動的控制系數(shù),實現(xiàn)音頻控制機器人的面部表情與頸部運動。通過計算每個舵機之間的伺服位移誤差,將舵機與控制系數(shù)之間的映射關(guān)系轉(zhuǎn)換為一個優(yōu)化問題,并與專業(yè)的動畫師合作,將控制系數(shù)直接映射為舵機的伺服位移。這種通過專家優(yōu)化得到的伺服驅(qū)動方法,類似于人類肌肉的控制機制,能夠有效地復(fù)現(xiàn)面部細節(jié)的微妙變化,為實體表情機器人的面部表情生成提供了一種可行的技術(shù)路徑。
1.2 音頻驅(qū)動面部表情與頭部姿態(tài)
在語音驅(qū)動的面部表情研究領(lǐng)域,早期的研究者們采用了隱馬爾可夫模型(hiddenMarkovmodel,HMM)并取得了一定的成果[21,22]。盡管這些方法能夠從音頻信號中提取出具有一定效果的面部表情,但它們在捕捉語音與嘴唇運動之間的復(fù)雜關(guān)系方面存在局限性。此外,這些方法在編輯生成的面部動畫時,往往需要大量的人工干預(yù)。
近年來,深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)在語音合成[23,24]和面部動畫[25~27]等領(lǐng)域取得了顯著的進展。Taylor等人[28]提出了一種基于DNN的系統(tǒng)。該系統(tǒng)能夠從輸入音素中估計主動外觀模型(activeappearancemodel,AAM)系數(shù),并且能夠適應(yīng)不同的語音和語言環(huán)境,從而驅(qū)動3D面部模型。Suwajanakorn等人[29]利用長短期記憶(longshort-termmemory,LSTM)遞歸神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetwork,RNN)從聲學特征中預(yù)測2D嘴唇標志,進而用于合成嘴唇運動。Fan等人[26]結(jié)合聲學和文本特征來估計嘴部區(qū)域的AAM系數(shù),并將這些系數(shù)應(yīng)用到實際圖像上,以生成逼真的說話頭。Karras等人[30]提出了一種深度卷積神經(jīng)網(wǎng)絡(luò)(deepconvolu-tionalneuralnetwork,CNN),能夠結(jié)合音頻自相關(guān)系數(shù)和情緒狀態(tài)輸出完整的3D臉型。Chung等人[31]直接從語音中使用深度網(wǎng)絡(luò)生成說話臉。Vougioukas等人[32]進一步利用生成對抗網(wǎng)絡(luò)(generativeadversarialnetwork,GAN)提高了說話頭生成的質(zhì)量。
在這些合成的說話人臉視頻中,頭部姿勢通常是固定的。然而,本文中引人了三維幾何信息,使得模型能夠同時生成個性化的頭部姿勢、表情和嘴唇動作。本文方法基于音頻信號,隱含地推斷情緒表征,無須將情緒作為顯式輸人參數(shù),也無須在后期處理中添加情緒元素,從而合成具有豐富情緒特征的面部表情。此外,該方法還保留了3D模型在音頻重建三維人臉過程中的可編輯特征,可以更靈活地調(diào)整不同場景下面部表情動作的強度。
2方法
本文使用一款自主研發(fā)的25自由度表情機器人,用于演示面部表情和頭部運動。圖1展示了本文方法的流程概述。音頻數(shù)據(jù)被輸人至 speech2head(speech to facial expressionsandheadmotion)深度學習模型,該模型能夠輸出3D面部單元控制系數(shù)。這些運動控制系數(shù)不僅能夠控制基于Blendshape綁定數(shù)字人的面部表情,還能夠通過預(yù)先設(shè)定的映射策略轉(zhuǎn)換為仿生機器人的舵機控制指令。
圖1speech2head 流程概述
Fig.1speech2head model flow overview

2.1仿生機器人頭部平臺
1)機器人頭部平臺硬件
機器人頭部平臺憑借其柔軟的皮膚、微處理器、先進的伺服控制系統(tǒng)和精密的機械結(jié)構(gòu),可以還原人類面部肌肉動作和頸部姿勢,顯示各種面部表情和頭部動作。語音驅(qū)動仿生機器人工作流程概覽如圖2所示。
圖2語音驅(qū)動仿生機器人工作流程Fig.2Audio drives the bionic robot workflow

機器人頭部平臺由頭部框架、內(nèi)部模塊和頸部模塊組成。頭部框架是根據(jù)真實人臉3D打印而成,外部緊密貼合軟質(zhì)皮膚,以賦予其類似人類的外表。頭部內(nèi)部的空腔用于放置機械控制結(jié)構(gòu)。機械控制結(jié)構(gòu)采用連桿結(jié)構(gòu)與半球結(jié)構(gòu)設(shè)計。一對半球機制用于控制眼瞼的開合,上下眼瞼相互遠離的角度為50°~80° 。眉毛的上下運動、面頰的凹陷和凸起都是通過連桿結(jié)構(gòu)來實現(xiàn)的,這些動作的最大位移均達到了 5mm 。在頸部模塊的設(shè)計上,采用了三個高性能伺服舵機,通過它們的協(xié)調(diào)工作,實現(xiàn)頸部三個自由度旋轉(zhuǎn),這種設(shè)計使得機器人頭部平臺能夠精確地還原人類的面部表情和頭部動作,為進一步的人機交互和機器人應(yīng)用提供了技術(shù)基礎(chǔ)。
2)機器人頭部平臺的控制
機器人頭部部署的STM32微處理器通過串口與服務(wù)端通信,微處理器從服務(wù)端獲取標準化的最優(yōu)伺服位移數(shù)據(jù)。由于舵機的旋轉(zhuǎn)角度是由高電平脈沖寬度決定的,微處理器會將標準化位移數(shù)據(jù)的值對應(yīng)到高電平脈沖寬度以驅(qū)動舵機,從而實現(xiàn)從標準化位移數(shù)據(jù)到伺服位移的映射關(guān)系。機器人頭部平臺配備了25個高性能舵機,每個舵機都有特定的功能和自由度(DOF),支持包括控制嘴巴、面頰、眼瞼、眉毛以及頸部在內(nèi)的自由旋轉(zhuǎn)。此外,左右眼瞼、眉毛和面頰可以單獨控制。
2.2 特征提取
在音頻處理任務(wù)中,Mel-frequency cepstral coefficients(MFCC)[33]是一種廣泛使用的特征表示方法,夠有效捕捉音頻信號中的關(guān)鍵信息。給定一個音頻信號 x(t) ,首先通過預(yù)加重、分幀和加窗將其分割為一系列幀 {xn}n=1T ,其中 T 表示時間步長,對 xn 提取MFCC特征向量 Fn∈RD ,其中 D 為特征維度,在本文研究中設(shè)定為39維。
為了捕捉語音信號的動態(tài)特性,MFCC的差分特征(Delta)和二階差分特征(Delta-Delta)被廣泛使用。差分特征描述了特征向量在時間上的變化,能夠反映語音信號的動態(tài)變化。差分參數(shù)的計算公式如下:

其中: dt 表示第 χt 個一階差分; Cι 表示第 χt 個倒譜系數(shù); Q 表示倒譜系數(shù)的階數(shù); K 表示一階導(dǎo)數(shù)的時間差。將一階差分的結(jié)果再代入就可以得到二階差分的參數(shù)。
2.3 模型方法
speech2head模型框架如圖3所示,其中特征融合模塊包含以下子網(wǎng)絡(luò):內(nèi)容編碼器和情緒編碼器。特征融合模塊的整體組成部分如式(2)所示。
Ffusion=fconcat(Econ,Eemo)
其中: Econ 表示內(nèi)容編碼器的輸出; Eemo 表示情緒編碼器的輸出 σ:fconcat 是一個融合函數(shù),用于將兩個編碼器的輸出拼接并統(tǒng)一表示為 Ffusion 張量。
將預(yù)處理后的整個音頻信號特征表示為一個特征矩陣(204號 Fn∈RN×D 。把每幀特征 xt∈RD 經(jīng)過多次卷積處理后,按時間順序堆疊,其表達式如下:
zt(i)=ReLU(xt*W(i)+b(i))
Z=[z1,z2,…,zT]∈RT×D′
其中 zt(i) 是第 χt 幀經(jīng)過第 i 次卷積后的特征; W(i) 是第 i 次卷積權(quán)重; b(i) 是偏置項,最后一次卷積得到的特征表示為 Zt∈ R”。
將卷積后的特征圖 z 按時間步長展開為 Xseq∈RT×D 輸人到mLSTM模塊,計算最后一時刻的隱狀態(tài)作為本模塊的最終輸出 Econ ,隱狀態(tài)更新公式如下:


nt=ftnt-1+itkt

其中 :xt 是時間步長 χt 的輸入向量; W? 是權(quán)重矩陣; w 是權(quán)重向量: σ 是激活函數(shù)ReLU; max 函數(shù)使得分母不為零。
音頻信號提取的特征同步輸?shù)竭M情感編碼模塊,該模塊由四層mLSTM組成,輸出的最后一時刻的隱狀態(tài) hT∈RD′ 作為線性層的輸入,從而得到情緒編碼的最終輸出向量Eemo。
在特征融合階段,情緒特征向量和內(nèi)容特征向量被拼接為融合特征,經(jīng)過多層卷積和池化操作之后,應(yīng)用批量歸一化(BN),在BN之后使用線性矯正(ReLU)激活函數(shù),這一過程允許模型同時考慮音頻信號的情感和內(nèi)容信息,從而在面部表情合成中實現(xiàn)更自然、更真實的效果。最終,融合后的特征向量被用于驅(qū)動面部表情重建網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠根據(jù)音頻特征生成相應(yīng)的運動控制系數(shù),實現(xiàn)從音頻到視覺表情的轉(zhuǎn)換。
圖3speech2head 模型框架 Fig.3speech2head model framework

2.4 損失函數(shù)
在構(gòu)建神經(jīng)網(wǎng)絡(luò)模型的過程中,為了優(yōu)化面部表情的動態(tài)生成,使用了一個綜合性的損失函數(shù),該函數(shù)融合了自重建損失與速度損失兩個關(guān)鍵維度。自重建損失的引入,旨在確保網(wǎng)絡(luò)輸出能夠高保真地映射到實際的面部表情控制系數(shù)。鑒于單獨依賴自重建損失可能導(dǎo)致生成的輸出幀出現(xiàn)不穩(wěn)定性,即視覺上的抖動現(xiàn)象,通過引人了速度損失來抑制異常的幀間跳躍,同時促進模型學習到更加自然和逼真的表情變化模式。整體損失函數(shù)的表達式如下:
L=λ1Lself+λ2Lvelocity


其中: Lself 和 Lvelocity 分別代表自重建損失、速度損失; λ1 和 λ2 是對應(yīng)的權(quán)重系數(shù),用于平衡不同損失的重要性; bt 和
表示在時間幀 Φt 的真實值和預(yù)測值。
2.5硬件平臺舵機控制參數(shù)映射策略
為了實現(xiàn)硬件平臺的舵機控制,本文中與專業(yè)動畫師合作創(chuàng)建了25個語義上有意義的機器人頭部運動模板,圖4展示了機器人單個舵機的面部表情運動模板。通過這些模板的組合使用能夠獲得與Blendshape相對應(yīng)的面部舵機控制參數(shù)。
圖4機器人面部表情運動模板Fig.4Robot facial expression movement template

具體來說,每個舵機的伺服位移由Blendshape系數(shù)線性組合產(chǎn)生,通過對每個舵機在最小化面部表情控制系數(shù)組合與機器人舵機之間的差異,并由專業(yè)動畫師對有意義的機器人頭部模板在硬件限制下設(shè)定幅值或是微調(diào)系數(shù)。可以將表情機器人最優(yōu)伺服位移映射問題的公式表示為

s.t.wij?0?i,?j
sjmin?sj?sjmax?j
其中: s1,s2,…,s25 表示25個舵機的運動狀態(tài);面部表情控制系數(shù)表示為 x1,x2,…,x52 ;第 i 個面部表情控制系數(shù)對第 j 個舵機伺服位移的貢獻權(quán)重表示為 wij W 是一個權(quán)重矩陣,包含了所有 wij 權(quán)重。
3實驗
3.1 數(shù)據(jù)集
本文采用RAVDESS[33]和 HDTF[34] 兩個被廣泛使用的開源二維視聽數(shù)據(jù)集。
a)RAVDESS(Ryerson audio-visual database of emotionalspeechandsong)是一個多模態(tài)情感識別數(shù)據(jù)集,由24名演員(12名男性和12名女性)的1440個短視頻片段組成,數(shù)據(jù)集使用高質(zhì)量的音頻和視頻錄音捕獲,演員們被指示表達特定的情緒,包括中性、平靜、快樂、悲傷、憤怒、恐懼、厭惡和驚訝。
b)HDTF(highdefinitiontalkingface)數(shù)據(jù)集是一個專注于高分辨率音頻視覺數(shù)據(jù)集驅(qū)動的單人臉談話項目。該數(shù)據(jù)集包含了從YouTube收集的大約 16h 的 720P~1080P 視頻,涵蓋了300多個主題和10000個不同的句子。
原始的二維視聽數(shù)據(jù)集中不包含人臉面部的三維信息,通過對2D人臉逐幀計算面部關(guān)鍵點坐標所對應(yīng)的Blendshape,能夠從2D圖像中重建可信的3D面部。Peng等人[15]曾經(jīng)做過相關(guān)工作并提出了一個大型3D情感說話臉(3D-ETF)數(shù)據(jù)集,然而過往的研究僅關(guān)注到人臉面部表情,缺少了頸部運動的控制系數(shù)。為了補充頸部的動作,采用與文獻[15]相似的方法,通過2D人臉的關(guān)鍵點坐標獲取Blendshape系數(shù)以及頭部俯仰角,將運動控制系數(shù)遷移到仿生機器人。如圖5所示,從2D圖像中輸出在時間維度上對齊的人臉表情以及頸部運動的控制系數(shù),以實現(xiàn)從2D圖像中重建包含頸部動作的3D面部信息。處理后的數(shù)據(jù)集被劃分為 80% 用于訓(xùn)練, 10% 用于驗證, 10% 用于測試。
圖5面部表情與頭部運動控制系數(shù)重建 Fig.5Reconstruction of facial expression and head movement control coefficient

3.2 實驗設(shè)置
本文基于RAVDESS多模態(tài)數(shù)據(jù)集構(gòu)建訓(xùn)練框架,采用動態(tài)批處理策略(每個mini-batch包含4個樣本)以適配NVIDIA2090GPU(12GB顯存)的硬件配置。每個樣本均由一系列隨機截取的運動控制系數(shù)和相應(yīng)的語音波形構(gòu)成。通過實施音頻增強策略來增強模型的泛化能力,即在 1/30 s的時間內(nèi),以50% 的概率對語音波形進行位移操作。
訓(xùn)練過程在配備有NVIDIA2090GPU(12GB顯存)的設(shè)備上進行,采用AdamW優(yōu)化器進行500個epoch的參數(shù)優(yōu)化。實驗中設(shè)定超參數(shù)初始學習率為 10-5 以及權(quán)重衰減 10-2 ,以促進模型的收斂速度與泛化能力通過指數(shù)移動平均(EMA)策略平滑參數(shù)更新軌跡,設(shè)置衰減因子為0.9999,最終選取驗證集損失最小的模型作為最優(yōu)解,以確保其在未見數(shù)據(jù)上的最佳表現(xiàn)。
3.3 對比實驗
3.3.1 對比模型
對speech2head進行音頻驅(qū)動表情實驗,并與當前主流的模型進行比較。考慮到公開的語音驅(qū)動混合形狀面部動畫模型有限,本文選擇 SAiD[14] 和EmoTalk[15]作為對比模型,以評估本文方法的性能表現(xiàn)。
a)SAiD。該模型通過輕量級Transformer架構(gòu)結(jié)合預(yù)訓(xùn)練語音編碼器,利用絕對誤差和噪聲級速度損失進行訓(xùn)練,以合成Blendshape。SAiD在BlendVOCA數(shù)據(jù)集[14」上進行訓(xùn)練,該數(shù)據(jù)集包含12名說話者的語音音頻和對應(yīng)的Blendshape系數(shù)序列,可實現(xiàn)高質(zhì)量的唇形同步和面部動畫編輯。
b)EmoTalk。該模型是一個端到端的神經(jīng)網(wǎng)絡(luò),用于語音驅(qū)動的情感增強3D面部動畫。它通過情感解糾纏編碼器分離語音信號中的情感特征和內(nèi)容特征,并利用情感引導(dǎo)的特征融合解碼器生成Blendshape。EmoTalk在3D-ETF數(shù)據(jù)集上訓(xùn)練,由RAVDESS和HDTF數(shù)據(jù)集處理得到,包含高質(zhì)量的語音音頻和對應(yīng)的Blendshape系數(shù)序列。
3.3.2對比實驗與分析
為量化唇部動作與語音的同步精度,本文采用主流的唇部同步誤差(lipsyncerror,LSE)作為核心評估指標。該指標通過計算測試集樣本中唇部運動控制系數(shù)的L2范數(shù)誤差均值,量化生成唇部動作與真實語音的同步精度。然而,LSE無法反映面部情感表達的連貫性,本文進一步提出情感同步誤差(emotionsyncerror,ESE),ESE聚焦于頭部整體運動(如眉毛、臉頰、眼球)與情感語義的匹配度,而非單一唇部區(qū)域。LSE與ESE數(shù)值越低,表示表情同步性越優(yōu)。
在RAVDESS和HDTF數(shù)據(jù)集上對比SAiD、EmoTalk及本文方法的性能。其中,HDTF為本文方法的未見數(shù)據(jù)集,用于驗證泛化能力。
如表1定量評估結(jié)果所示,本文方法在兩項指標上均展現(xiàn)出顯著優(yōu)勢,本文方法計算得到的ESE優(yōu)于對比方法,LSE雖略高于EmoTalk,但仍在可接受范圍內(nèi)。實驗結(jié)果表明,本文方法針對完整頭部運動的合成在多個數(shù)據(jù)集上表現(xiàn)優(yōu)越,驗證了模型的有效性和魯棒性。
表1定量評價結(jié)果Tab.1 Quantitativeevaluation result

表2模型評價結(jié)果

為適配資源受限的移動端部署場景,本文通過輕量化設(shè)計降低了模型計算開銷。如表2所示,相較于SAiD( 1 288.8MB 10.05s)與EmoTalk( 835.9MB/0.076s) ,本文方法規(guī)模僅8.3MB(降低 99.0%~99.4% ),在測試樣本中平均推理耗時為0.324s(滿足實時交互閾值 ?0.5s ),雖略慢于EmoTalk,但其功能局限于局部表情生成,而本文引入了頸部運動合成機制,在保證頭部姿態(tài)自然性的同時,完整覆蓋眼、眉、嘴等情感表達關(guān)鍵區(qū)域,顯著提升了機器人的表現(xiàn)力。實驗表明,本文方法在逼真度與資源效率間實現(xiàn)均衡,可穩(wěn)定部署于主流移動平臺,為人機交互提供低延遲、高仿生的表情反饋。
3.4 損失函數(shù)評估
為評估新引入的速度損失函數(shù)的有效性,本文在RAVDESS數(shù)據(jù)集上對模型進行了重新訓(xùn)練,去除了速度損失項,并對比分析了預(yù)測結(jié)果與實際數(shù)據(jù)的擬合程度。如圖6所示,兩項實驗中分別針對下顫開合與眉毛內(nèi)收進行了擬合,實驗結(jié)果分析表明,引入速度損失函數(shù)能夠有效地抑制幀間跳躍和增強面部表情合成穩(wěn)定性。
3.5 消融實驗
為了驗證本文提出的隱式情緒導(dǎo)向語音驅(qū)動仿生機器人說話方法中各個模塊的有效性,本文設(shè)計了一項消融實驗,旨在探究模型中各個子模塊對表情合成的貢獻。在實驗中控制其他參數(shù)保持不變,僅去除指定的子模塊,從而確保結(jié)果的可比性和可靠性。具體實驗配置如下:a)w/omLSTM。除原模型中的mLSTM模塊,僅使用內(nèi)容編碼模塊;b)w/oCDE。去除原模型中的內(nèi)容編碼模塊,僅使用基于mLSTM的情緒編碼模塊。
分別在數(shù)據(jù)集RAVDESS與HDTF上進行消融實驗得到的唇部同步誤差與情感同步誤差如表3所示。通過對表3中第1~3行的實驗結(jié)果進行比較,可以得出以下結(jié)論:在去除子模塊后,情感表達與唇部動作的合成質(zhì)量都會不同程度地降低,這印證了本文方法中各個模塊的有效性。
表3消融實驗結(jié)果對比Tab.3Comparison of ablation experiment results

圖6速度損失函數(shù)對表情合成的影響
Fig.6Effect of velocity loss function on expression synthesis

3.6 方法評估
本文方法相較于現(xiàn)有研究所合成的運動控制系數(shù)更加精準。為了全面展示該方法的工作流程,從RAVDESS數(shù)據(jù)集中選取了包含快樂、悲傷、驚訝、厭惡、恐懼和憤怒等情緒標簽的樣本,使用不同情緒的音頻驅(qū)動仿生機器人的面部電機執(zhí)行相應(yīng)的表情。如圖7所示,其中每種情緒標簽樣本的第一行圖像對應(yīng)于原始音頻中的人臉面部表情與頭部姿態(tài)。第二行則展示了仿生機器人對原始音頻的表情還原效果。
為了驗證生成的動作控制系數(shù)中的情緒表達,本文使用RAVDESS數(shù)據(jù)集訓(xùn)練了一個基于Blendshape的情感識別網(wǎng)絡(luò),然后,利用該模型對本文方法推理產(chǎn)生的Blendshape序列進行情緒分類,結(jié)果如表4所示。基于真實數(shù)據(jù)集的七類情感分類平均準確率為 57.30% ,推理產(chǎn)生的七類情感分類平均準確率為 50.49% ,表明本文方法在合成富含情緒的面部表情控制系數(shù)上的有效性。
表4七類情感識別結(jié)果
Tab.4Results of seven-category emotion recognition /%

通過從不同情緒的音頻中提取舵機控制指令,機器人能夠成功復(fù)現(xiàn)多種自然表情,表現(xiàn)出較高的運動準確性。然而,由于物理限制(如鼻子運動、露齒笑的表達受限,以及嘴巴自由度不足),部分面部表情的重建仍存在挑戰(zhàn)。此外,從表4的情緒分類結(jié)果來看,盡管厭惡情緒的分類準確率達到了82.73% ,顯示出較高的表達精度,但悲傷、恐懼和驚訝等情緒的分類準確率相對較低。這可能是由于分類模型本身的準確度有限,導(dǎo)致對這些情緒的識別和表達不夠精準。

本文的評估結(jié)果表明,基于深度學習提取音頻中表情控制系數(shù)的方法在生成豐富且自然的表情方面具有顯著潛力。盡管物理約束限制了特定面部表情的完整表達,但該方法對于提升情感人機交互的效果仍具有重要意義,并為未來機器人表情生成技術(shù)的發(fā)展提供了新的方向。
3.7 應(yīng)用分析
1)應(yīng)用場景分析
本文基于仿生機器人頭部平臺進行開發(fā)應(yīng)用,在主動健康領(lǐng)域仿生機器人可被視作交流伙伴,通過接人大模型實現(xiàn)與用戶之間的互動對話,為其提供心理支持與陪伴。本文通過精心設(shè)計的實驗,預(yù)先設(shè)定好對話場景,并利用語音合成技術(shù)生成機器人響應(yīng)音頻,通過用戶與機器人之間的模擬對話交流,分析其在實際應(yīng)用中的表現(xiàn)。具體對話文本內(nèi)容如表5所示。
表5模擬對話實驗文本內(nèi)容Tab.5Simulated dialogue experiment text content

2)應(yīng)用結(jié)果評價
為了客觀評估仿生機器人作為陪伴角色的有效性,本文設(shè)計了一項實驗,隨機邀請了10名參與者與仿生機器人進行標準化的互動對話,實驗結(jié)果通過對四個關(guān)鍵因素進行評價來體現(xiàn),并從好、較好、中、較差四個評語等級進行投票,四項評語等級投票分布如表6所示。
表6評語等級投票分布統(tǒng)計
Tab.6Distribution statistics of comment grade voting

對投票結(jié)果進行分析發(fā)現(xiàn),仿生機器人在對話反應(yīng)靈敏度和表情動作流暢度方面表現(xiàn)較好,但在情感表達準確度和人機對話逼真度方面仍有待優(yōu)化。通過進一步改進,以增強仿生機器人在陪伴角色中的應(yīng)用效果,仿生機器人有望在主動健康領(lǐng)域更好地發(fā)揮陪伴作用。
4結(jié)束語
本文提出了一種基于語音驅(qū)動的仿生機器人頭部舵機控制的新方法。與以往的方法相比,該方法不僅關(guān)注面部表情,還考慮了機器人頸部的運動控制,從而能夠生成更為逼真的頭部動作。首先,開發(fā)了一個具有25個自由度的仿生機器人頭部平臺,從服務(wù)端獲取標準化的最優(yōu)伺服位移數(shù)據(jù),以實現(xiàn)與音頻信號相匹配的面部表情還原。此外,本文設(shè)計了一種隱式情緒導(dǎo)向型特征融合自編碼器框架,將音頻信號中的情感特征與運動特征映射至機器人的舵機控制參數(shù)。通過實驗結(jié)果分析,本文方法在性能上優(yōu)于當前最先進的技術(shù),能夠更有效地驅(qū)動機器人實現(xiàn)更為生動自然的表情。
本文方法雖然取得了一定的成果,但仍存在一些限制,計劃在未來的研究中加以解決。首先,當前方法依賴于大量音頻的預(yù)訓(xùn)練模型,無法實現(xiàn)流式推理,這對實時應(yīng)用構(gòu)成了障礙;其次,訓(xùn)練數(shù)據(jù)來源于二維圖像,這導(dǎo)致生成的偽三維數(shù)據(jù)在精確度上不及三維掃描數(shù)據(jù),并不能準確代表人臉微表情;此外,由于硬件結(jié)構(gòu)限制,目前產(chǎn)生的面部表情動作無法還原如吐舌等特定的人臉表情。因此,未來工作將圍繞這三個方向繼續(xù)開展。
參考文獻:
[1]孫璨,唐尚鋒,陳超億,等.主動健康內(nèi)涵分析[J].中國公共衛(wèi) 生,2023,39(1):68-72.(Sun Can,Tang Shangfeng,Chen Chaoyi,et al.Connotation of activehealth:a literature analysis[J]. Chinese Journal of Public Health,2023,39(1):68-72.)
[2]Halkowski M. Socially assistive robotic instruction for children with autism spectrum disorder[C]//Proc of IEEE International WIE Conferenceon Electrical and Computer Engineering.Piscataway,NJ: IEEEPress,2019:1-4.
[3]李祥臣,俞夢孫.主動健康:從理念到模式[J].體育科學, 2020,40(2):83-89.(Li Xiangchen,Yu Mengsun. Proactive health:fromidea tomodel[J].ChinaSportScience,2O20,40 (2):83-89.)
[4」Erol D,Bart-Pokorny K D,Kose H,et al. Challenges in observing the emotions of childrenwith autism interacting with a social robot [J].International Journal of Social Robotics,2024,16(11): 2261-2276.
[5]Krauss RM,ChenY,Chawla P. Nonverbal behavior and nonverbal communication:what do conversational hand gestures tellus?[J]. Advances in Experimental Social Psychology,1996,28:389- 450.
[6]Alnajjar F,Cappuccio M L,Mubin O,et al.Humanoid robots and autistic children: a review on technological tools to assess social attention and engagement[J]. International Journal of Humanoid Robotics,2020,17(6):2030001.
[7]Chevalier P, Kompatsiari K, Ciardo F,et al. Examining joint attention with the use of humanoid robots-a new approach to study fundamental mechanisms of social cognition[J]. Psychonomic Bulletin amp; Review,2020,27(2):217-236.
[8]Kanda T,Ishiguro H,Ono T,et al.Development and evaluation of an interactive humanoid robot“Robovie”[C]//Proc of IEEE International Conference on Roboticsand Automation.Piscataway,NJ: IEEE Press ,2002:1848-1855.
[9]Liu Xiaofeng,Chen Yizhou,Li Jie,et al.Real-time robotic mirrored behavior of facial expressions and head motions based on lightweight networks[J]. IEEE Internet of Things Journal,2023,10(2): 1401-1413.
[10]Zhang Wenxuan,Cun Xiaodong,Wang Xuan,et al.SadTalker: learning realistic 3D motion coefficients for stylized audio-driven single image talking face animation[C]//Procof IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023: 8652-8661.
[11]Tong Yan,Liao Wenhui,Ji Qiang.Facial action unit recognition by exploiting their dynamic and semantic relationships[J].IEEETrans on Pattern Analysis and Machine Intelligence,20o7,29(10): 1683-1699.
[12]Wang Tingchun,Liu Mingyu, Zhu Junyan,et al. Video-to-video synthesis[EB/OL]. (2018-08- 20).https://arxiv.org/abs/1808. 06601.
[13]李帥帥,何向真,張躍洲,等.融合多情感的語音驅(qū)動虛擬說話 人生成方法[J].計算機應(yīng)用研究,2024,41(8):2546-2553. (Li Shuaishuai,He Xiangzhen,Zhang Yuezhou,et al.Multiemotion driven virtual speaker generation method integrating multiple emotions[J].Application Research of Computers,2024,41 (8) :2546-2553.)
[14]Park I,Cho J. SAiD:speech-driven blendshape facial animation with difusion[EB/OL].(2023-11-25).https://arxiv.org/abs/2401. 08655.
[15]Peng Ziqiao,Wu Haoyu,Song Zhenbo,et al.EmoTalk:speechdriven emotional disentanglement for 3D face animation [C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2023:20630-20640.
[16]Lewis JP,Anjyo K,Rhee T,et al.Practice and theory of blendshape facial models [EB/OL]. (2014). htps://doi.org/10.2312/ egst. 20141042.
[17]Hess U,Kappas A,McHugo G J,et al. The facilitative effct of facial expression on the self-generation of emotion [J]. International Journal of Psychophysiology,1992,12(3):251-265.
[18]Sheu JS,Hsieh T S,Shou HN. Automatic generation of facial explied Research and Technology,2014,12(6):115-1130.
[19]Abaza A,Harrison MA,Bourlai T,et al.Design and evaluation of photometric image quality measures for effective face recognition[J]. IET Biometrics,2014,3(4):314-324.
[20]Cohen I,LooijeR,Neerincx MA.Child’s recognition of emotions in robot's face and body[C]//Proc of the 6th ACM/IEEE International Conference on Human-Robot Interaction.Piscataway,NJ:IEEE Press,2011:123-124.
[21]Wang Lijuan,Han Wei,Soong F K,et al. Text driven 3D photorealistic talking head[C]//Proc of the 12thAnnual Conference of the International Speech Communication Association.[S.1.]:International Speech Communication Association,2011:3307-3308.
[22]Wang Lijuan,Qian Xiaojun,Han Wei,et al.Synthesizing photo-real talking head via trajectory-guided sample selection[C]//Proc of the 11th Annual Conference of the International Speech Communication Association. 2010:446-449.
[23]Qian Yao,F(xiàn)an Yuchen,Hu Wenping,et al. On the training aspects of deep neural network(DNN) for parametric TTS synthesis [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ:IEEE Press,2014:3829-3833.
[24] Zen Heiga,Senior A,Schuster M . Statistical parametric speech synthesis using deep neural networks [C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway, NJ:IEEE Press,2013: 7962-7966.
[25]Ding Chuang,Xie Lei, Zhu Pengcheng. Head motion synthesis from speech using deep neural networks [J]. Multimedia Tools and Applications,2015,74(22) :9871-9888.
[26]Fan Bo,Xie Lei,Yang Shan,et al.A deep bidirectional LSTM approach for video-realistic talking head[J]. Multimedia Tools and Applications,2016,75(9):5287-5309.
[27]Zhang Xinjian,Wang Lijuan,Li Gang,et al.Anew language independent,photo-realistic talking head drivenby voice only[C]// Proc of the 14th Annual Conference of the International Speech Communication Association. [S.1.]: ISCA,2013:2743-2747.
[28]Taylor S,Kim T,Yue Yisong,et al.A deep learning approach for generalized speech animation[J].ACM Trans on Graphics, 2017,36(4) : 1-11.
[29]Suwajanakorn S,Seitz S M, Kemelmacher-Shlizerman I. Synthesizing Obama[J].ACM Trans on Graphics,2017,36(4):1-13.
[30]KarrasT,Aila Timo,LaineS,etal.Audio-driven facial animation by joint end-to-end learning of pose and emotion[J].ACM Trans onGraphics,2017,36(4):1-12.
[31]ChungJS,Jamaludin A, Zisserman A,et al.You said that?[EB/ OL].(2017-05-08).https://arxiv.org/abs/1705.02966.
[32]VougioukasK,PetridisS,Pantic M. Realistic speech-driven facial animation with GANs[J]. International Journal of Computer Vision,2020,128(5):1398-1413.
[33]Livingstone SR,Russo FA. The Ryerson audio-visual database of emotional speech and song(RAVDESS):a dynamic,multimodal set of facial and vocal expressions in North American English[J].PLS One,2018,13(5):e0196391.
[34]Zhang Zhimeng,Li Lincheng,Ding Yu,et al.Flow-guided one-shot talking face generation with a high-resolution audio-visual dataset [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,,2021:3660-3669.