隱式情緒導向的語音驅動仿生機器人說話方法

2025-09-02 00:00:00徐康袁野付軍秀傅柯婷任欽澤劉娜

計算機應用研究 2025年8期

關鍵詞：仿生機器人；音頻驅動；情緒導向；卷積長短時記憶網絡

中圖分類號：TP391 文獻標志碼：A 文章編號：1001-3695（2025）08-007-2297-07

doi：10.19734/j.issn.1001-3695.2025.01.0011

Implicit emotion-oriented approach to speech-driven bionic robot facial expressions

XuKang，Yuan Ye，Fu Junxiu，FuKeting，RenQinze，Liu Na? （InstituteofMachineInteligence，UniversityofShanghaiforScienceamp;Technology，Shanghai2Ooo93，China）

Abstract：Thisstudyproposedaninovativeimplicitemotion-orientedspeech-drivenmethodforgeneratingfacialexpressions andhead movements inbionicrobots.Traditional methodsrelyonpre-programmedrandomactionsequences，whichare insufficient for precise emotional expresion.Basedondeep leaing，thisstudyintroducedneck servocontrolcoeffcients inadition to facial expresions，achieving precise mappng fromaudiosignals tonatural expressions.Furthermore，thisstudydesignedanimplicitemotion-oriented featurefusionautoencoderframework thatcouldinferemotionalfeaturesimplicitlyfromaudio withoutrequiring explicit emotionparameters.Itenabledthegenerationof richfacialexpresions andneck movements that matchedtheaudiocontentandemotionalnuances.Experiments demonstrate thatthe proposed methodsignificantlyoutperforms existingtechnologies onmultiple datasets.Aditionall，through lightweight design，the proposedmethodeficientlyadapts to mobile devices with limited resources.

Key Words：biomimeticrobots；speech-driven；emotion-oriented;convolutional long short-term memory network

0 引言

隨著人工智能技術的不斷進步，仿生機器人在模擬人類行為和表情方面的能力日益增強，為多個領域帶來了革命性的應用前景，尤其是在主動健康、社交互動、教育娛樂等方面。主動健康強調通過個體的主動參與和健康管理，提升整體健康水平[1]，特別是在幫助聽力殘疾人、老年人和自閉癥譜系障礙（ASD）兒童[2]等弱勢群體方面具有重要意義。盡管運動科學是主動健康的重要組成部分，但面對主動健康醫學的要求和未來科技發展的趨勢，運動科學亟需基于復雜系統、大數據和人工智能技術進行基礎理論創新[1，3]。研究表明，利用機器人幫助ASD兒童發展社交和情感技能，以克服社交障礙，已被證明具有積極作用[4]。語音驅動的仿生機器人面部表情和頭部姿態生成技術，作為實現這一目標的關鍵，正逐漸成為研究的熱點。

仿生機器人的面部表情與頭部動作不僅是進行情感交流的重要媒介，也是理解人類意圖的重要線索。研究顯示，在人類交流過程中，有超過 60% 的信息通過非言語行為傳遞，其中面部表情和頭部動作占據了重要比重[5]。因此，使機器人表達出準確的自然表情，對于提升人機交互的親和力至關重要[6～8] C

以往的研究多側重于利用人臉關鍵點檢測技術，賦予表情機器人模擬人類面部表情及頭部動作的能力[9]。同時，也有研究通過音頻來驅動面部表情，該技術主要應用于動畫領域[10]。盡管在音頻驅動的面部表情生成技術上已有所突破，但在提高表情生成的準確性、自然性和實時性方面，尤其是在考慮到伺服系統的限制和硬件條件時，仍然存在重大挑戰[11]。本文旨在探討如何將音頻信號轉換為面部表情與頭部動作，通過深人分析語音特征及面部表情變化構建高效模型，利用音頻輸人來精準控制仿生機器人頭部的舵機運動，合成自然的面部表情。

本文的主要貢獻包括：a）提出了一種基于深度學習的機器人舵機驅動新方法，從語音特征中預測包含頸部舵機的運動控制系數，實現從音頻信號到機器人表情的精確控制;b）設計了一種隱式情緒導向特征融合自編碼器框架，無須將情緒參數作為顯式輸入，從而合成具有豐富情緒特征的面部表情和頸部運動；c構建了一系列與舵機對應的機器人頭部運動模板，通過伺服技術實現仿生機器人的表情與頭部姿態的重建。

1相關工作

1.1最優伺服位移映射

當前在虛擬場景下的說話人臉生成技術主要圍繞兩種核心方法展開：a）通過將語音信號直接映射到人臉網格的頂點坐標[12，13]，實現面部表情的生成;b）側重于預測與面部網格相關的系數，以較少的參數高效捕捉面部的關鍵變形[14，15]。

Blendshape[16]面部模型作為一種流行的線性模型，使用52個參數表示人臉表情的關鍵變形，被廣泛用于模擬各種3D面部結構。Blendshape系數通常與特定模板網格無關，這意味著它們可以在不同面部模型上復用，以展現一致的面部表情。模板網格代表一種標準的中性表情狀態，而Blendshape系數通過控制少量參數來精確驅動面部動作，如下巴的張開或眼睛的閉合等。

在實體表情機器人的控制領域，傳統方法主要依賴于一組固定的預編程動作[17，18]，例如，文獻[19]呈現了一張以眼睛和嘴巴為特征的數字臉，以表達不同的情緒。Cohen等人[20]創造并驗證了動態身體姿勢來表達恐懼、快樂、憤怒、悲傷和驚訝的表情。近期的一項研究[9通過面部關鍵點映射到舵機的伺服位移來精確地驅動面部的運動，表現出比傳統方法更加豐富的面部表情和動作細節。

本文提出一種將音頻信號情感特征與運動特征映射至機器人的舵機控制參數的驅動方法。本文創新性地關注到了頸部運動的控制系數，實現音頻控制機器人的面部表情與頸部運動。通過計算每個舵機之間的伺服位移誤差，將舵機與控制系數之間的映射關系轉換為一個優化問題，并與專業的動畫師合作，將控制系數直接映射為舵機的伺服位移。這種通過專家優化得到的伺服驅動方法，類似于人類肌肉的控制機制，能夠有效地復現面部細節的微妙變化，為實體表情機器人的面部表情生成提供了一種可行的技術路徑。

1.2 音頻驅動面部表情與頭部姿態

在語音驅動的面部表情研究領域，早期的研究者們采用了隱馬爾可夫模型（hiddenMarkovmodel，HMM）并取得了一定的成果[21，22]。盡管這些方法能夠從音頻信號中提取出具有一定效果的面部表情，但它們在捕捉語音與嘴唇運動之間的復雜關系方面存在局限性。此外，這些方法在編輯生成的面部動畫時，往往需要大量的人工干預。

近年來，深度神經網絡（deep neural network，DNN）在語音合成[23，24]和面部動畫[25～27]等領域取得了顯著的進展。Taylor等人[28]提出了一種基于DNN的系統。該系統能夠從輸入音素中估計主動外觀模型（activeappearancemodel，AAM）系數，并且能夠適應不同的語音和語言環境，從而驅動3D面部模型。Suwajanakorn等人[29]利用長短期記憶（longshort-termmemory，LSTM）遞歸神經網絡（recurrentneuralnetwork，RNN）從聲學特征中預測2D嘴唇標志，進而用于合成嘴唇運動。Fan等人[26]結合聲學和文本特征來估計嘴部區域的AAM系數，并將這些系數應用到實際圖像上，以生成逼真的說話頭。Karras等人[30]提出了一種深度卷積神經網絡（deepconvolu-tionalneuralnetwork，CNN），能夠結合音頻自相關系數和情緒狀態輸出完整的3D臉型。Chung等人[31]直接從語音中使用深度網絡生成說話臉。Vougioukas等人[32]進一步利用生成對抗網絡（generativeadversarialnetwork，GAN）提高了說話頭生成的質量。

在這些合成的說話人臉視頻中，頭部姿勢通常是固定的。然而，本文中引人了三維幾何信息，使得模型能夠同時生成個性化的頭部姿勢、表情和嘴唇動作。本文方法基于音頻信號，隱含地推斷情緒表征，無須將情緒作為顯式輸人參數，也無須在后期處理中添加情緒元素，從而合成具有豐富情緒特征的面部表情。此外，該方法還保留了3D模型在音頻重建三維人臉過程中的可編輯特征，可以更靈活地調整不同場景下面部表情動作的強度。

2方法

本文使用一款自主研發的25自由度表情機器人，用于演示面部表情和頭部運動。圖1展示了本文方法的流程概述。音頻數據被輸人至 speech2head（speech to facial expressionsandheadmotion）深度學習模型，該模型能夠輸出3D面部單元控制系數。這些運動控制系數不僅能夠控制基于Blendshape綁定數字人的面部表情，還能夠通過預先設定的映射策略轉換為仿生機器人的舵機控制指令。

圖1speech2head 流程概述

Fig.1speech2head model flow overview

2.1仿生機器人頭部平臺

1）機器人頭部平臺硬件

機器人頭部平臺憑借其柔軟的皮膚、微處理器、先進的伺服控制系統和精密的機械結構，可以還原人類面部肌肉動作和頸部姿勢，顯示各種面部表情和頭部動作。語音驅動仿生機器人工作流程概覽如圖2所示。

圖2語音驅動仿生機器人工作流程Fig.2Audio drives the bionic robot workflow

機器人頭部平臺由頭部框架、內部模塊和頸部模塊組成。頭部框架是根據真實人臉3D打印而成，外部緊密貼合軟質皮膚，以賦予其類似人類的外表。頭部內部的空腔用于放置機械控制結構。機械控制結構采用連桿結構與半球結構設計。一對半球機制用于控制眼瞼的開合，上下眼瞼相互遠離的角度為50^°～80^° 。眉毛的上下運動、面頰的凹陷和凸起都是通過連桿結構來實現的，這些動作的最大位移均達到了 5mm 。在頸部模塊的設計上，采用了三個高性能伺服舵機，通過它們的協調工作，實現頸部三個自由度旋轉，這種設計使得機器人頭部平臺能夠精確地還原人類的面部表情和頭部動作，為進一步的人機交互和機器人應用提供了技術基礎。

2）機器人頭部平臺的控制

機器人頭部部署的STM32微處理器通過串口與服務端通信，微處理器從服務端獲取標準化的最優伺服位移數據。由于舵機的旋轉角度是由高電平脈沖寬度決定的，微處理器會將標準化位移數據的值對應到高電平脈沖寬度以驅動舵機，從而實現從標準化位移數據到伺服位移的映射關系。機器人頭部平臺配備了25個高性能舵機，每個舵機都有特定的功能和自由度（DOF），支持包括控制嘴巴、面頰、眼瞼、眉毛以及頸部在內的自由旋轉。此外，左右眼瞼、眉毛和面頰可以單獨控制。

2.2 特征提取

在音頻處理任務中，Mel-frequency cepstral coefficients（MFCC）[33]是一種廣泛使用的特征表示方法，夠有效捕捉音頻信號中的關鍵信息。給定一個音頻信號 x（t），首先通過預加重、分幀和加窗將其分割為一系列幀 {x_n}_n=1^T ，其中 T 表示時間步長，對 x_n 提取MFCC特征向量 F_n∈R^D ，其中 D 為特征維度，在本文研究中設定為39維。

為了捕捉語音信號的動態特性，MFCC的差分特征（Delta）和二階差分特征（Delta-Delta）被廣泛使用。差分特征描述了特征向量在時間上的變化，能夠反映語音信號的動態變化。差分參數的計算公式如下：

其中： d_t 表示第 χ_t 個一階差分； C_ι 表示第 χ_t 個倒譜系數； Q 表示倒譜系數的階數； K 表示一階導數的時間差。將一階差分的結果再代入就可以得到二階差分的參數。

2.3 模型方法

speech2head模型框架如圖3所示，其中特征融合模塊包含以下子網絡：內容編碼器和情緒編碼器。特征融合模塊的整體組成部分如式（2）所示。

F_fusion=f_concat（E_con，E_emo）

其中： E_con 表示內容編碼器的輸出； E_emo 表示情緒編碼器的輸出 σ_：fconcat 是一個融合函數，用于將兩個編碼器的輸出拼接并統一表示為 F_fusion 張量。

將預處理后的整個音頻信號特征表示為一個特征矩陣（204號 F_n∈R^N×D 。把每幀特征 x_t∈R^D 經過多次卷積處理后，按時間順序堆疊，其表達式如下：

z_t^（i）=ReLU（x_t*W^（i）+b^（i））

Z=[z₁，z₂，…，z_T]∈R^T×D′

其中 z_t^（i）是第 χ_t 幀經過第 i 次卷積后的特征; W^（i）是第 i 次卷積權重； b^（i）是偏置項，最后一次卷積得到的特征表示為 Z_t∈ R”。

將卷積后的特征圖 z 按時間步長展開為 X_seq∈R^T×D 輸人到mLSTM模塊，計算最后一時刻的隱狀態作為本模塊的最終輸出 E_con ，隱狀態更新公式如下：

n_t=f_tn_t-1+i_tk_t

其中：x_t 是時間步長 χ_t 的輸入向量; W_? 是權重矩陣； w 是權重向量： σ 是激活函數ReLU； max 函數使得分母不為零。

音頻信號提取的特征同步輸到進情感編碼模塊，該模塊由四層mLSTM組成，輸出的最后一時刻的隱狀態 h_T∈R^D′ 作為線性層的輸入，從而得到情緒編碼的最終輸出向量Eemo。

在特征融合階段，情緒特征向量和內容特征向量被拼接為融合特征，經過多層卷積和池化操作之后，應用批量歸一化（BN），在BN之后使用線性矯正（ReLU）激活函數，這一過程允許模型同時考慮音頻信號的情感和內容信息，從而在面部表情合成中實現更自然、更真實的效果。最終，融合后的特征向量被用于驅動面部表情重建網絡，該網絡能夠根據音頻特征生成相應的運動控制系數，實現從音頻到視覺表情的轉換。

圖3speech2head 模型框架 Fig.3speech2head model framework

2.4 損失函數

在構建神經網絡模型的過程中，為了優化面部表情的動態生成，使用了一個綜合性的損失函數，該函數融合了自重建損失與速度損失兩個關鍵維度。自重建損失的引入，旨在確保網絡輸出能夠高保真地映射到實際的面部表情控制系數。鑒于單獨依賴自重建損失可能導致生成的輸出幀出現不穩定性，即視覺上的抖動現象，通過引人了速度損失來抑制異常的幀間跳躍，同時促進模型學習到更加自然和逼真的表情變化模式。整體損失函數的表達式如下：

L=λ₁L_self+λ₂L_velocity

其中： L_self 和 L_velocity 分別代表自重建損失、速度損失； λ₁ 和 λ₂ 是對應的權重系數，用于平衡不同損失的重要性； b_t 和表示在時間幀 Φ_t 的真實值和預測值。

2.5硬件平臺舵機控制參數映射策略

為了實現硬件平臺的舵機控制，本文中與專業動畫師合作創建了25個語義上有意義的機器人頭部運動模板，圖4展示了機器人單個舵機的面部表情運動模板。通過這些模板的組合使用能夠獲得與Blendshape相對應的面部舵機控制參數。

圖4機器人面部表情運動模板Fig.4Robot facial expression movement template

具體來說，每個舵機的伺服位移由Blendshape系數線性組合產生，通過對每個舵機在最小化面部表情控制系數組合與機器人舵機之間的差異，并由專業動畫師對有意義的機器人頭部模板在硬件限制下設定幅值或是微調系數。可以將表情機器人最優伺服位移映射問題的公式表示為

ｓ．ｔ．w_ij?0?i，?j

s_jmin?s_j?s_jmax?j

其中： s₁，s₂，…，s₂₅ 表示25個舵機的運動狀態;面部表情控制系數表示為 x₁，x₂，…，x₅₂ ；第 i 個面部表情控制系數對第 j 個舵機伺服位移的貢獻權重表示為 w_ij W 是一個權重矩陣，包含了所有 w_ij 權重。

3實驗

3.1 數據集

本文采用RAVDESS[33]和 HDTF^[34] 兩個被廣泛使用的開源二維視聽數據集。

a）RAVDESS（Ryerson audio-visual database of emotionalspeechandsong）是一個多模態情感識別數據集，由24名演員（12名男性和12名女性）的1440個短視頻片段組成，數據集使用高質量的音頻和視頻錄音捕獲，演員們被指示表達特定的情緒，包括中性、平靜、快樂、悲傷、憤怒、恐懼、厭惡和驚訝。

b）HDTF（highdefinitiontalkingface）數據集是一個專注于高分辨率音頻視覺數據集驅動的單人臉談話項目。該數據集包含了從YouTube收集的大約 ^16h 的 720P～1080P 視頻，涵蓋了300多個主題和10000個不同的句子。

原始的二維視聽數據集中不包含人臉面部的三維信息，通過對2D人臉逐幀計算面部關鍵點坐標所對應的Blendshape，能夠從2D圖像中重建可信的3D面部。Peng等人[15]曾經做過相關工作并提出了一個大型3D情感說話臉（3D-ETF）數據集，然而過往的研究僅關注到人臉面部表情，缺少了頸部運動的控制系數。為了補充頸部的動作，采用與文獻[15]相似的方法，通過2D人臉的關鍵點坐標獲取Blendshape系數以及頭部俯仰角，將運動控制系數遷移到仿生機器人。如圖5所示，從2D圖像中輸出在時間維度上對齊的人臉表情以及頸部運動的控制系數，以實現從2D圖像中重建包含頸部動作的3D面部信息。處理后的數據集被劃分為 80% 用于訓練， 10% 用于驗證， 10% 用于測試。

圖5面部表情與頭部運動控制系數重建 Fig.5Reconstruction of facial expression and head movement control coefficient

3.2 實驗設置

本文基于RAVDESS多模態數據集構建訓練框架，采用動態批處理策略（每個mini-batch包含4個樣本）以適配NVIDIA2090GPU（12GB顯存）的硬件配置。每個樣本均由一系列隨機截取的運動控制系數和相應的語音波形構成。通過實施音頻增強策略來增強模型的泛化能力，即在 1/30 s的時間內，以50% 的概率對語音波形進行位移操作。

訓練過程在配備有NVIDIA2090GPU（12GB顯存）的設備上進行，采用AdamW優化器進行500個epoch的參數優化。實驗中設定超參數初始學習率為 10^-5 以及權重衰減 10^-2 ，以促進模型的收斂速度與泛化能力通過指數移動平均（EMA）策略平滑參數更新軌跡，設置衰減因子為0.9999，最終選取驗證集損失最小的模型作為最優解，以確保其在未見數據上的最佳表現。

3.3 對比實驗

3.3.1 對比模型

對speech2head進行音頻驅動表情實驗，并與當前主流的模型進行比較。考慮到公開的語音驅動混合形狀面部動畫模型有限，本文選擇 SAiD^[14] 和EmoTalk[15]作為對比模型，以評估本文方法的性能表現。

a）SAiD。該模型通過輕量級Transformer架構結合預訓練語音編碼器，利用絕對誤差和噪聲級速度損失進行訓練，以合成Blendshape。SAiD在BlendVOCA數據集[14」上進行訓練，該數據集包含12名說話者的語音音頻和對應的Blendshape系數序列，可實現高質量的唇形同步和面部動畫編輯。

b）EmoTalk。該模型是一個端到端的神經網絡，用于語音驅動的情感增強3D面部動畫。它通過情感解糾纏編碼器分離語音信號中的情感特征和內容特征，并利用情感引導的特征融合解碼器生成Blendshape。EmoTalk在3D-ETF數據集上訓練，由RAVDESS和HDTF數據集處理得到，包含高質量的語音音頻和對應的Blendshape系數序列。

3.3.2對比實驗與分析

為量化唇部動作與語音的同步精度，本文采用主流的唇部同步誤差（lipsyncerror，LSE）作為核心評估指標。該指標通過計算測試集樣本中唇部運動控制系數的L2范數誤差均值，量化生成唇部動作與真實語音的同步精度。然而，LSE無法反映面部情感表達的連貫性，本文進一步提出情感同步誤差（emotionsyncerror，ESE），ESE聚焦于頭部整體運動（如眉毛、臉頰、眼球）與情感語義的匹配度，而非單一唇部區域。LSE與ESE數值越低，表示表情同步性越優。

在RAVDESS和HDTF數據集上對比SAiD、EmoTalk及本文方法的性能。其中，HDTF為本文方法的未見數據集，用于驗證泛化能力。

如表1定量評估結果所示，本文方法在兩項指標上均展現出顯著優勢，本文方法計算得到的ESE優于對比方法，LSE雖略高于EmoTalk，但仍在可接受范圍內。實驗結果表明，本文方法針對完整頭部運動的合成在多個數據集上表現優越，驗證了模型的有效性和魯棒性。

表1定量評價結果Tab.1 Quantitativeevaluation result

表2模型評價結果

為適配資源受限的移動端部署場景，本文通過輕量化設計降低了模型計算開銷。如表2所示，相較于SAiD（ 1 288.8MB 10.05s）與EmoTalk（ 835.9MB/0.076s），本文方法規模僅8.3MB（降低 99.0%～99.4% ），在測試樣本中平均推理耗時為0.324s（滿足實時交互閾值 ?0.5s ），雖略慢于EmoTalk，但其功能局限于局部表情生成，而本文引入了頸部運動合成機制，在保證頭部姿態自然性的同時，完整覆蓋眼、眉、嘴等情感表達關鍵區域，顯著提升了機器人的表現力。實驗表明，本文方法在逼真度與資源效率間實現均衡，可穩定部署于主流移動平臺，為人機交互提供低延遲、高仿生的表情反饋。

3.4 損失函數評估

為評估新引入的速度損失函數的有效性，本文在RAVDESS數據集上對模型進行了重新訓練，去除了速度損失項，并對比分析了預測結果與實際數據的擬合程度。如圖6所示，兩項實驗中分別針對下顫開合與眉毛內收進行了擬合，實驗結果分析表明，引入速度損失函數能夠有效地抑制幀間跳躍和增強面部表情合成穩定性。

3.5 消融實驗

為了驗證本文提出的隱式情緒導向語音驅動仿生機器人說話方法中各個模塊的有效性，本文設計了一項消融實驗，旨在探究模型中各個子模塊對表情合成的貢獻。在實驗中控制其他參數保持不變，僅去除指定的子模塊，從而確保結果的可比性和可靠性。具體實驗配置如下：a）w/omLSTM。除原模型中的mLSTM模塊，僅使用內容編碼模塊;b）w/oCDE。去除原模型中的內容編碼模塊，僅使用基于mLSTM的情緒編碼模塊。

分別在數據集RAVDESS與HDTF上進行消融實驗得到的唇部同步誤差與情感同步誤差如表3所示。通過對表3中第1～3行的實驗結果進行比較，可以得出以下結論：在去除子模塊后，情感表達與唇部動作的合成質量都會不同程度地降低，這印證了本文方法中各個模塊的有效性。

表3消融實驗結果對比Tab.3Comparison of ablation experiment results

圖6速度損失函數對表情合成的影響

Fig.6Effect of velocity loss function on expression synthesis

3.6 方法評估

本文方法相較于現有研究所合成的運動控制系數更加精準。為了全面展示該方法的工作流程，從RAVDESS數據集中選取了包含快樂、悲傷、驚訝、厭惡、恐懼和憤怒等情緒標簽的樣本，使用不同情緒的音頻驅動仿生機器人的面部電機執行相應的表情。如圖7所示，其中每種情緒標簽樣本的第一行圖像對應于原始音頻中的人臉面部表情與頭部姿態。第二行則展示了仿生機器人對原始音頻的表情還原效果。

為了驗證生成的動作控制系數中的情緒表達，本文使用RAVDESS數據集訓練了一個基于Blendshape的情感識別網絡，然后，利用該模型對本文方法推理產生的Blendshape序列進行情緒分類，結果如表4所示。基于真實數據集的七類情感分類平均準確率為 57.30% ，推理產生的七類情感分類平均準確率為 50.49% ，表明本文方法在合成富含情緒的面部表情控制系數上的有效性。

表4七類情感識別結果

Tab.4Results of seven-category emotion recognition /%

通過從不同情緒的音頻中提取舵機控制指令，機器人能夠成功復現多種自然表情，表現出較高的運動準確性。然而，由于物理限制（如鼻子運動、露齒笑的表達受限，以及嘴巴自由度不足），部分面部表情的重建仍存在挑戰。此外，從表4的情緒分類結果來看，盡管厭惡情緒的分類準確率達到了82.73% ，顯示出較高的表達精度，但悲傷、恐懼和驚訝等情緒的分類準確率相對較低。這可能是由于分類模型本身的準確度有限，導致對這些情緒的識別和表達不夠精準。

本文的評估結果表明，基于深度學習提取音頻中表情控制系數的方法在生成豐富且自然的表情方面具有顯著潛力。盡管物理約束限制了特定面部表情的完整表達，但該方法對于提升情感人機交互的效果仍具有重要意義，并為未來機器人表情生成技術的發展提供了新的方向。

3.7 應用分析

1）應用場景分析

本文基于仿生機器人頭部平臺進行開發應用，在主動健康領域仿生機器人可被視作交流伙伴，通過接人大模型實現與用戶之間的互動對話，為其提供心理支持與陪伴。本文通過精心設計的實驗，預先設定好對話場景，并利用語音合成技術生成機器人響應音頻，通過用戶與機器人之間的模擬對話交流，分析其在實際應用中的表現。具體對話文本內容如表5所示。

表5模擬對話實驗文本內容Tab.5Simulated dialogue experiment text content

2）應用結果評價

為了客觀評估仿生機器人作為陪伴角色的有效性，本文設計了一項實驗，隨機邀請了10名參與者與仿生機器人進行標準化的互動對話，實驗結果通過對四個關鍵因素進行評價來體現，并從好、較好、中、較差四個評語等級進行投票，四項評語等級投票分布如表6所示。

表6評語等級投票分布統計

Tab.6Distribution statistics of comment grade voting

對投票結果進行分析發現，仿生機器人在對話反應靈敏度和表情動作流暢度方面表現較好，但在情感表達準確度和人機對話逼真度方面仍有待優化。通過進一步改進，以增強仿生機器人在陪伴角色中的應用效果，仿生機器人有望在主動健康領域更好地發揮陪伴作用。

4結束語

本文提出了一種基于語音驅動的仿生機器人頭部舵機控制的新方法。與以往的方法相比，該方法不僅關注面部表情，還考慮了機器人頸部的運動控制，從而能夠生成更為逼真的頭部動作。首先，開發了一個具有25個自由度的仿生機器人頭部平臺，從服務端獲取標準化的最優伺服位移數據，以實現與音頻信號相匹配的面部表情還原。此外，本文設計了一種隱式情緒導向型特征融合自編碼器框架，將音頻信號中的情感特征與運動特征映射至機器人的舵機控制參數。通過實驗結果分析，本文方法在性能上優于當前最先進的技術，能夠更有效地驅動機器人實現更為生動自然的表情。

本文方法雖然取得了一定的成果，但仍存在一些限制，計劃在未來的研究中加以解決。首先，當前方法依賴于大量音頻的預訓練模型，無法實現流式推理，這對實時應用構成了障礙；其次，訓練數據來源于二維圖像，這導致生成的偽三維數據在精確度上不及三維掃描數據，并不能準確代表人臉微表情；此外，由于硬件結構限制，目前產生的面部表情動作無法還原如吐舌等特定的人臉表情。因此，未來工作將圍繞這三個方向繼續開展。

參考文獻：

[1］孫璨，唐尚鋒，陳超億，等．主動健康內涵分析[J]．中國公共衛生，2023，39（1）：68-72.（Sun Can，Tang Shangfeng，Chen Chaoyi，et al.Connotation of activehealth：a literature analysis[J]. Chinese Journal of Public Health，2023，39（1）：68-72.）

[2]Halkowski M. Socially assistive robotic instruction for children with autism spectrum disorder[C]//Proc of IEEE International WIE Conferenceon Electrical and Computer Engineering.Piscataway，NJ： IEEEPress，2019：1-4.

[3]李祥臣，俞夢孫．主動健康：從理念到模式[J]．體育科學， 2020，40（2）：83-89.（Li Xiangchen，Yu Mengsun. Proactive health：fromidea tomodel[J].ChinaSportScience，2O20，40 （2）：83-89.）

[4」Erol D，Bart-Pokorny K D，Kose H，et al. Challenges in observing the emotions of childrenwith autism interacting with a social robot [J].International Journal of Social Robotics，2024，16（11）： 2261-2276.

[5]Krauss RM，ChenY，Chawla P. Nonverbal behavior and nonverbal communication：what do conversational hand gestures tellus？[J]. Advances in Experimental Social Psychology，1996，28：389- 450.

[6]Alnajjar F，Cappuccio M L，Mubin O，et al.Humanoid robots and autistic children： a review on technological tools to assess social attention and engagement[J]. International Journal of Humanoid Robotics，2020，17（6）：2030001.

[7]Chevalier P， Kompatsiari K， Ciardo F，et al. Examining joint attention with the use of humanoid robots-a new approach to study fundamental mechanisms of social cognition[J]. Psychonomic Bulletin amp; Review，2020，27（2）：217-236.

[8]Kanda T，Ishiguro H，Ono T，et al.Development and evaluation of an interactive humanoid robot“Robovie”[C]//Proc of IEEE International Conference on Roboticsand Automation．Piscataway，NJ： IEEE Press ，2002：1848-1855.

[9]Liu Xiaofeng，Chen Yizhou，Li Jie，et al.Real-time robotic mirrored behavior of facial expressions and head motions based on lightweight networks[J]. IEEE Internet of Things Journal，2023，10（2）： 1401-1413.

[10]Zhang Wenxuan，Cun Xiaodong，Wang Xuan，et al.SadTalker： learning realistic 3D motion coefficients for stylized audio-driven single image talking face animation[C]//Procof IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2023： 8652-8661.

[11]Tong Yan，Liao Wenhui，Ji Qiang.Facial action unit recognition by exploiting their dynamic and semantic relationships[J].IEEETrans on Pattern Analysis and Machine Intelligence，20o7，29（10）： 1683-1699.

[12]Wang Tingchun，Liu Mingyu， Zhu Junyan，et al. Video-to-video synthesis[EB/OL]. （2018-08- 20）.https：//arxiv.org/abs/1808. 06601.

[13］李帥帥，何向真，張躍洲，等．融合多情感的語音驅動虛擬說話人生成方法[J]．計算機應用研究，2024，41（8）：2546-2553. （Li Shuaishuai，He Xiangzhen，Zhang Yuezhou，et al.Multiemotion driven virtual speaker generation method integrating multiple emotions[J]．Application Research of Computers，2024，41 （8）：2546-2553.）

[14]Park I，Cho J. SAiD：speech-driven blendshape facial animation with difusion[EB/OL].（2023-11-25）.https：//arxiv.org/abs/2401. 08655.

[15]Peng Ziqiao，Wu Haoyu，Song Zhenbo，et al．EmoTalk：speechdriven emotional disentanglement for 3D face animation [C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway，NJ：IEEE Press，2023：20630-20640.

[16]Lewis JP，Anjyo K，Rhee T，et al.Practice and theory of blendshape facial models [EB/OL]. （2014）. htps：//doi.org/10.2312/ egst. 20141042.

[17]Hess U，Kappas A，McHugo G J，et al. The facilitative effct of facial expression on the self-generation of emotion [J]. International Journal of Psychophysiology，1992，12（3）：251-265.

[18]Sheu JS，Hsieh T S，Shou HN. Automatic generation of facial explied Research and Technology，2014，12（6）：115-1130.

[19]Abaza A，Harrison MA，Bourlai T，et al.Design and evaluation of photometric image quality measures for effective face recognition[J]. IET Biometrics，2014，3（4）：314-324.

[20]Cohen I，LooijeR，Neerincx MA.Child’s recognition of emotions in robot's face and body[C]//Proc of the 6th ACM/IEEE International Conference on Human-Robot Interaction.Piscataway，NJ：IEEE Press，2011：123-124.

[21]Wang Lijuan，Han Wei，Soong F K，et al. Text driven 3D photorealistic talking head[C]//Proc of the 12thAnnual Conference of the International Speech Communication Association.[S.1.]：International Speech Communication Association，2011：3307-3308.

[22]Wang Lijuan，Qian Xiaojun，Han Wei，et al.Synthesizing photo-real talking head via trajectory-guided sample selection[C]//Proc of the 11th Annual Conference of the International Speech Communication Association. 2010：446-449.

[23]Qian Yao，Fan Yuchen，Hu Wenping，et al. On the training aspects of deep neural network（DNN） for parametric TTS synthesis [C]// Proc of IEEE International Conference on Acoustics，Speech and Signal Processing. Piscataway，NJ：IEEE Press，2014：3829-3833.

[24] Zen Heiga，Senior A，Schuster M . Statistical parametric speech synthesis using deep neural networks [C]//Proc of IEEE International Conference on Acoustics，Speech and Signal Processing.Piscataway， NJ：IEEE Press，2013： 7962-7966.

[25]Ding Chuang，Xie Lei， Zhu Pengcheng. Head motion synthesis from speech using deep neural networks [J]. Multimedia Tools and Applications，2015，74（22）：9871-9888.

[26]Fan Bo，Xie Lei，Yang Shan，et al.A deep bidirectional LSTM approach for video-realistic talking head[J]. Multimedia Tools and Applications，2016，75（9）：5287-5309.

[27]Zhang Xinjian，Wang Lijuan，Li Gang，et al．Anew language independent，photo-realistic talking head drivenby voice only[C]// Proc of the 14th Annual Conference of the International Speech Communication Association. [S.1.]： ISCA，2013：2743-2747.

[28]Taylor S，Kim T，Yue Yisong，et al.A deep learning approach for generalized speech animation[J]．ACM Trans on Graphics， 2017，36（4）： 1-11.

[29]Suwajanakorn S，Seitz S M， Kemelmacher-Shlizerman I. Synthesizing Obama[J].ACM Trans on Graphics，2017，36（4）：1-13.

[30]KarrasT，Aila Timo，LaineS，etal．Audio-driven facial animation by joint end-to-end learning of pose and emotion[J]．ACM Trans onGraphics，2017，36（4）：1-12.

[31]ChungJS，Jamaludin A， Zisserman A，et al.You said that？[EB/ OL].（2017-05-08）.https：//arxiv.org/abs/1705.02966.

[32]VougioukasK，PetridisS，Pantic M. Realistic speech-driven facial animation with GANs[J]. International Journal of Computer Vision，2020，128（5）：1398-1413.

[33]Livingstone SR，Russo FA. The Ryerson audio-visual database of emotional speech and song（RAVDESS）：a dynamic，multimodal set of facial and vocal expressions in North American English[J].PLS One，2018，13（5）：e0196391.

[34]Zhang Zhimeng，Li Lincheng，Ding Yu，et al.Flow-guided one-shot talking face generation with a high-resolution audio-visual dataset [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ： IEEE Press，，2021：3660-3669.

計算機應用研究2025年8期

計算機應用研究的其它文章: 多突觸連接脈沖神經元的突觸延遲在線監督學習算法; 基于污點分析的移動端深度學習模型泄露自動分析方法; 基于時間塊動態圖神經網絡的序列推薦方法; 基于二跳鄰居的分布式大規模混合多智能體系統一致性協議; 融合時空信息與運動信息的骨架行為識別; 基于多智能體深度強化學習的海上風電傳感器節點能效優化