

摘要:隨著交互式數字人的迅速發展,情感識別技術得到了廣泛應用,數字人在此項技術的支持下通過語音、面部表情和文本分析等方式來理解人類的情感狀態;情感響應技術則讓數字人能夠通過語音生成、視覺反饋或動作做出適當反應?;诖?,對情感響應系統的評估方法進行分析,通過應用測試,展示這些技術的實際效果,并提出未來研究方向等內容。
關鍵詞:人工智能 交互式數字人 情感識別 響應技術
中圖分類號:TP18
Research on Interactive Digital Human Emotion Recognition and Emotional Reaction Technology Based on Artificial Intelligence
KANG Xu
Tianjin Branch, CNOOC Information Technology and Services Co., Ltd., Tianjin City, 300452 China
Abstract: With the rapid development of interactive digital humans, emotion recognition technology has been widely applied. With the support of this technology, digital humans understand human emotional states through speech, facial expressions, and text analysis; Emotional response technology enables digital humans to respond appropriately through speech generation, visual feedback, or actions. Based on this, analyze the evaluation methods of emotional response systems, demonstrate the actual effects of these technologies through application testing, and propose future research directions.
Key Words: Artificial intelligence; Interactive digital human; Emotion Recognition; Reaction technology
在人工智能領域,交互式數字人情感識別與響應技術已成為一個快速發展的研究領域,它涵蓋了機器學習、自然語言處理、計算機視覺和信號處理等多個學科的交叉應用。此類技術的核心目標是賦予數字人模仿人類情感交互能力,進而提升其應用效果,使之在如客戶服務、教育、健康護理和娛樂等多個領域中發揮更大的作用。情感識別技術通過解析用戶的語音、面部表情、文本輸入等多模態數據來推斷用戶的情緒狀態,而情感響應技術則依據這些推斷結果生成相應的語音、文本或視覺反饋,以實現與用戶之間的自然、有效交互。交互式數字人技術的發展意義重大,不僅因為它可以提高服務的個性化和滿意度,也因為它在處理和響應人類情緒方面展示了巨大潛力。
1 交互式數字人情感識別與響應技術概述
在當前人工智能領域的研究中,交互式數字人情感識別與響應技術日益顯得至關重要,它涵蓋了機器學習、自然語言處理、計算機視覺及信號處理等多個技術的交叉應用,旨在賦予數字人類似于人類的情感理解和表達能力,以提升其交互效果和用戶體驗[1]。情感識別技術,作為交互式數字人的核心組成部分,主要依賴于模式識別和深度學習算法來分析用戶的語音、面部表情以及文本輸入,從而推斷出用戶的情緒狀態。
2 交互式數字人情感識別技術
2.1面部表情分析
面部表情分析在交互式數字人情感識別技術中占據核心地位,它通過高精度的圖像處理和機器學習技術解讀人類表情中的微妙變化,從而推斷出用戶的情緒狀態。該技術的實現基于面部動作編碼系統(Facial Action Coding System ,FACS),該系統能詳細地描述面部肌肉所產生的每一個動作,這些動作被編碼為特定的動作單元(Action Unit,AUs),每個動作單元對應一組特定的肌肉運動。通過分析這些動作單元的激活狀態,可以推斷出表情所表達的基本情感,如快樂、悲傷、驚訝等[2]。
2.2語音情感識別技術
語音情感識別技術是交互式數字人情感識別領域的一個重要分支,依賴于聲學特征提取、語音信號處理和機器學習模型來分析和識別人類語音中的情緒內容。這一技術的核心在于提取語音的基本和高級特征,如基頻(fundamental frequency,F0)、能量、音色和語速,以及它們在語音中的動態變化[3]。采用特征提取技術如梅爾頻率倒譜系數(Mer frequency inverted spectrum coefficient,MFCC)、線性預測編碼( linear predictive coding ,LPC)、倒譜提升等從處理好的信號中提取有效的聲學特征,如圖1所示。這些特征不僅反映了語音的物理屬性,還蘊含了說話人的情緒狀態信息。在特征提取之后,采用各種機器學習算法,如支持向量機( Support Vector Machine SVM)、隨機森林、深度神經網絡(deep neural network ,DNNs)和長短期記憶網絡(Long Short-Term Memory,LSTMs)等進行情緒分類。這些算法通過訓練已標記的情感語音數據庫,學習不同情緒狀態下的聲學特征模式。
3 交互式數字人情感響應技術
3.1音頻響應技術
音頻響應技術在交互式數字人情感響應系統中扮演了至關重要的角色,它涉及通過生成的音頻來傳達相應的情緒反饋,從而增強交互式數字人與用戶之間的情感聯結。這一技術的核心是利用語音合成(Text-to-Speech, TTS)系統,將文本信息轉換為語音輸出,同時注入適當的情緒色彩,以模仿人類在特定情感狀態下的語音特征[4]。音頻響應技術不僅僅是復制人類語音的聲音特性,更重要的是能夠在語調、節奏、音量和語速等方面精確地調制情感表達,這需要對語音信號進行細致的情感調控。
3.2視覺響應生成
視覺響應生成技術在交互式數字人情感響應系統中占據著重要位置,其目標是創建視覺輸出,如面部表情和身體語言,這些輸出能夠在視覺上表達復雜的情感狀態,以增強與用戶的情感共鳴和交互的真實性。這一技術涵蓋了從基礎的圖像處理到高級的計算機圖形和動畫生成,依賴于一系列先進的算法和模型,包括但不限于三維建模、動作捕捉技術、面部動畫參數化以及實時渲染技術。
3.3情感響應系統的評估
評估交互式數字人情感響應系統的效能與準確性是確保其實用性的關鍵步驟,本研究采用基于機器學習的實時情感狀態監測算法(Real-time Emotion Monitoring, REM)來實現這一目的。該算法核心在于持續更新情感狀態的評估,以提供即時的響應調整。該算法的實施步驟如下所示,每一步均涉及具體的數學公式,用于定義和優化情感識別與響應生成的過程。
REM算法基于用戶的語音、面部表情及文本輸入數據集進行操作,其中每個輸入?都與一個情感標簽相關聯。算法的目標是學習一個映射函數,該函數能夠預測未見數據的情感狀態。該過程可以通過以下優化問題來形式化。
式(1)中:為損失函數,用于量化預測情感標簽和真實情感標簽之間的差異;為訓練樣本的數量。
為了實現實時監測,REM算法更新其模x6NhW3nV3rrbeNqdAtOZuQ==型參數通過一個迭代過程,通常使用梯度下降法。在每個時間步,參數更新可以表示為:
式(2)中:為學習率;為損失函數相對于模型參數的梯度,表示為函數對參數的敏感度。
在系統評估階段,關鍵性能指標如準確率、召回率和F1分數被計算以評估情感識別的準確性。這些指標的計算如下:
式(3)中,、、和分別代表真正例、真負例、假正例和假負例的數量。這些公式在REM算法中的應用是多方面的:優化問題確立了學習任務的框架,參數更新公式指導了模型在接收新數據時如何調整,以保持其性能和適應性。
4 應用測試
為了確保交互式數字人情感識別與響應系統的評估具有高度的準確性和實用性,本研究采用了一組精心挑選的數據集。這些數據集是實測數據,由專業演員在控制的實驗室環境下收集,以確保情感表達的廣泛性和多樣性。演員們被要求表達不同的情感狀態,包括快樂、悲傷、憤怒、驚訝和中性,以覆蓋人類情感的主要類別[5]。此外,數據收集過程中使用了高質量的錄音和錄像設備來捕捉聲音和面部表情,以及相關的文本標注。
本研究中的數據集共包含10 000個樣本,這些樣本均勻分布在5種主要情感狀態之間。為了評估情感識別與響應技術的效果,數據集被分為訓練集和測試集。其中:80%(即8 000個樣本)用于訓練機器學習模型,以學習不同情感狀態下的數據特征和模式;剩余20%(即2 000個樣本)則用作測試集,以驗證模型的性能和準確性。在本研究中,情感響應系統的評估采用了系統化的測試方法。數據的使用過程中,整個測試系統進行了3次完整的迭代,以確保評估結果的穩定性和可靠性。每次迭代都包括對全部2 000個測試樣本的處理,而未對這些樣本進行進一步的分組。這是因為目標在于評估模型在處理多樣化情感狀態下的整體性能,而非在特定子集上的表現,確保測試結果具有廣泛的代表性和適用性,具體測試如表1所示。
從表1結果中可以觀察到,模型在識別各種情感狀態方面表現出高度的準確性和效率,尤其是在處理“驚訝”狀態時,準確率和F1分數均達到了最高值,表明模型對表達驚訝的情感特征識別尤為敏感和精確。相較之下,對“中性”情感的處理略顯不足,這可能是由于中性情感的表達較為含蓄和不明顯,導致識別難度增加。這些結果整體表明:REM算法在多樣化情感狀態的識別上具備高效的實時處理能力,能夠為用戶提供準確反映情感狀態的交互體驗。
5 結語
為有效實現這些應用,必須對交互式數字人的情感識別與響應機制進行深入研究。這包括了解情感的心理和生理機制,開發能夠準確捕捉和解析這些情感表達的算法,以及設計能夠實時、自然地響應這些情感的系統。其中,情感識別算法需要處理和分析大量的實時數據,識別出用戶的情緒狀態,而情感響應算法則需要根據這些狀態生成適當的反饋。這一過程不僅要求高效的數據處理能力,還需要對人類情感的深刻理解和精準的模擬能力。
研究交互式數字人的情感識別與響應技術,不僅有助于提升技術本身的成熟度和應用廣度,還可以為理解人類情感和認知過程提供新的視角。通過這些技術的發展,可以極大地提高機器的人機交互質量,使其更加智能化和人性化,最終實現與人類用戶之間更有效、更富有同理心的互動。
參考文獻
[1] 鄧歡.面向深度神經網絡模型安全性測試的對抗補丁生成技術[D].北京:軍事科學院,2023.
[2] 蕭萍.具身,想象與共情:人工智能音樂生成與傳播的技術現象學研究[J].現代傳播:中國傳媒大學學報,2022,44(9):155-161.
[3] 范永超,韓佳南.基于人工智能的語音識別系統設計與研究[J].數字通信世界,2022(5):55-57.
[4] 齊燕.基于人工智能算法的圖像識別與生成研究[J].電子元器件與信息技術,2019, 3(11):45=47.
[5] 楊毯毯.基于HMM與改進的神經網絡語音識別[D].青島:山東科技大學,2019.