999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本驅動的人體運動生成綜述

2025-07-08 00:00:00趙光哲金銘邱爽王雪平閆飛虎
復雜系統與復雜性科學 2025年2期
關鍵詞:動作文本模型

中圖分類號:TP391;TP183 文獻標識碼:A

Abstract: Human motion generation aims to generate realistic, high-quality human motion. Aiming to summarize the recent advances in text-driven human motion generation technology, through extensively investigating relevant research and literature, this paper systematically reviews the development process and research status of the text-driven human motion generation task.It comprehensively summarizes the model methods related to the task by classifying the generation models and further analyzes the research progress of key technical issues. It summarizes the commonly used datasets and evaluation methods and deeply discusses the unresolved problems and possible future research directions in this field.

Keywords: avatar; motion generation;human motion; text-driven;deep learning

0 引言

近年來,計算機視覺技術迅速發展,特別是在ChatGPT發布后,全球范圍內掀起了內容生成大模型的研究熱潮,人體動畫的AI內容生成受到廣泛關注。人體運動分析涵蓋運動重建、運動生成、姿態遷移等方面。自2020 年以來,人體運動生成(Human Motion Generation,HMG)逐漸成為研究熱點。人體運動生成旨在生成連貫、自然、高質量的動作,以逼真模擬現實中的人類行為。目前,相關研究多聚焦于跨模態的條件式生成任務,包括文本驅動、音頻驅動、參考圖像驅動等的生成任務,以提高運動生成的可控性。其中,文本驅動條件主要分為兩類:一類是早期使用的以描述運動類別的文本為約束條件,如“跳躍”“揮手”;另一類是以自然語言描述,即一段文本提示,作為標簽來控制運動生成。圖1展示了文本驅動的人體運動生成技術框架[1-4]。該技術在影視制作、游戲開發、人機交互及虛擬現實等領域具有廣闊的應用前景。

不同于對物體的視頻生成,文本驅動的人體運動生成任務面臨著更多挑戰。首先,人體系統本身是一個復雜系統[5]。人體具有獨特的生物學運動機理,人體關節的連接與轉動存在復雜的約束,需要從系統性科學的角度進行分析。其次,受目前生成模型理解能力與數據集限制,文本信息與人體運動在語義上的對齊也是一大研究難題。目前,文本驅動的人體運動生成在真實度、語義對齊度、接觸面生成效果等方面仍有很大的改進空間。

近年來,文本驅動的人體運動生成研究迅速發展,涌現出許多生成模型與相關數據集。彭淑娟等[]總結了當時用于人體運動生成任務的幾種生成式深度學習模型與混合學習方法。Zhu等[7]對人體運動生成的研究現狀做了較全面的調研,介紹了各種條件驅動的人體運動生成技術的進展。類似地,趙寶全等[8對基于多模態信息的數字人運動生成技術做了較詳細的綜述。但以上研究均未針對文本驅動的運動生成技術做單獨深入調研。本文對文本驅動的人體運動生成技術進行了系統綜述,詳細介紹了該任務的深度學習基礎模型、現有方法、相關數據集以及評價指標,并進行了總結和展望。

圖1文本驅動的人體運動生成技術框架[1-4]
圖2人體模型的兩種表示方法Fig.2Tworepresentation methodsofhumanmodel

1模型發展概述

運動生成技術自2015年起逐漸發展,研究初期主要采用基于神經網絡的傳統方法,主要包括循環神經網絡(Recurrent Neural Network,RNN)[9]與圖卷積神經網絡(Graph Convolutional Network,GCN)[10]等。然而,這些方法在人體運動生成上的效果有限,多數只能生成人體骨架的短時運動,且很少涉及文本等其他模態信息。隨著深度學習的發展,多種深度學習模型被應用于該領域,包括基于生成對抗網絡(Generative Adversarial Net-work,GAN)[11]、變分自編碼器(Variational Autoencoder,VAE)[12]、擴散模型(Diffusion Model,DM)[13]以及Transformer[14]等的方法及其衍生模型。這些方法在文本驅動的人體運動生成任務中表現優越。近三年來該任務的相關研究數量顯著增加,其發展歷程大體分為四個階段:基于RNN等模型的早期研究階段、基于生成對抗網絡模型研究階段、基于變分自編碼器模型研究階段以及基于擴散模型的高質量運動生成研究階段。

1.1基于RNN、自回歸模型等的早期生成方法

早期的人體運動生成技術主要依靠RNN、自回歸模型等實現。部分工作引入了長短時記憶網絡(LongShort-Term Memory,LSTM)[15]。Li等[16]、Wang等[17]基于LSTM、強化學習等提出運動生成方案,但未考慮多模態輸入的控制,因此模型可控性相對較差。Battan 等[18]提出一個基于 Seq2Seq 和雙向LSTM 的兩階段運動生成方法GlocalNet,該模型加人了運動類別約束,使用CMU等數據集進行訓練,能生成6O多種運動。

自回歸模型按時間步逐步推理生成運動序列,每個時間點的預測值都基于之前的序列通過遞歸計算得到。JL2P[19] 是一種基于自回歸的姿態預測模型,提出學習語言與運動的聯合嵌入空間,實現了文本到運動的跨模態語義對齊能力的提升,但由于過程存在誤差積累,模型對運動細粒度控制能力不足。

盡管具有較好的序列建模能力,基于RNN、LSTM以及簡單自回歸的生成方法需要逐步迭代,存在一定的誤差積累,同時很難實現并行式計算,模型計算速度較慢,因此很快被其他深度生成模型取代。

1.2基于生成對抗網絡的運動生成

生成對抗網絡[11]是2014年被提出一種深度生成框架,可用于視覺內容生成。GAN包含兩個主要部分:生成器和鑒別器。生成器負責生成數據樣本,而鑒別器對這些樣本的真偽進行評估。在兩者的對抗性訓練過程中,生成器生成越來越真實的輸出。2017年起,GAN逐漸被應用到在人體運動生成的研究中。Tulyakov等[20]提出的 MoCoGAN 視頻生成框架是早期可實現運動生成的GAN模型之一,但未明確考慮文本控制條件。Ahn 等[21]首次將GAN應用于文本驅動的運動生成任務,提出了一種融合 Seq2Seq 的GAN 模型生成框架 Text2Action。該模型可用于機器人控制,但受數據限制只能生成上半身骨架運動。 Yu 等[22]關注到幀內與幀間的動作序列中的結構信息,提出SA-GCN模型。該模型采用GAN模型的整體架構,同時融合了GCN與自注意力機制。Ghosh 等[23]提出一種雙流分層模型作為生成器,將運動分為上、下半身分別學習,同時使用雙流編碼器對文本編碼,結合鑒別器生成合理的運動。盡管GAN應用廣泛,但由于其結構的對抗性,訓練過程中容易出現生成器與鑒別器的不平衡,引發模式坍塌。此外,GAN模型一定程度上忽視了數據分布的多樣性,生成運動相對單一。近年來基于GAN的方法逐漸減少,研究者更多地轉向基于VAE、DM等其他模型的研究。

1.3基于變分自編碼器的運動生成

變分自編碼器[12]是一種基于概率的深度生成模型。VAE假設數據服從高斯分布,其編碼器將輸人數據映射到潛在空間中的概率分布,其解碼器由潛在空間中的采樣點生成目標圖像。矢量量化變分自編碼器[24]VQVAE(Variational Quantized Variational Autoencoder)是對VAE的優化,引人了離散潛在空間,將潛在空間量化為有限的離散向量集合,有助于模型更好地學習和表示樣本的底層數據結構。

Guo 等[25最先將VAE應用于動作引導的人體運動生成,模型結合了李代數理論,實現了生成運動真實度的較大提升。ACTOR[26]模型從序列級潛在向量中采樣,結合位置編碼生成可變長運動。但受訓練數據與模型理解能力限制,該模型只能生成預定義動作。2022 年后出現了許多基于VAE的模型[27-30]。TEMOS[27]通過 Dis-til-BERT提取文本特征,通過 Transformer 編碼器分別對運動和文本 token 編碼,在潛在空間中隨機采樣,通過Transformer解碼器生成運動序列。該模型架構在真實性和語義一致性方面達到了較好的效果,但模型受訓練數據集的最大序列長度限制,生成運動仍為較短序列。Zhang等[31提出T2M-GPT,將VQ-VAE與生成式預訓練Transformer(Generative Pretrained Transformer,GPT)結合,為了減小訓練和測試之間的差異,模型在GPT的訓練中引人分解策略。Lin 等[32基于零樣本學習提出了一種離線開放詞匯的生成模型OOHMG,建立了基于CLIP 的大規模文本-姿態對齊模型 TPA,并采用部分掩碼策略。OOHMG在開放詞匯運動生成方面表現出色。盡管基于VAE的生成模型在運動生成上達到了較好的生成效果,但此類模型需要輸人目標序列長度,這使模型生成長度受到一定的限制。另一方面,量化過程會損失部分信息,對生成效果造成一定的影響。

1.4基于擴散模型的運動生成

擴散模型[13]分為兩個過程:前向加噪過程與反向去噪過程,反向去噪過程為圖像的生成過程。前向加噪過程中,擴散模型向原圖像分布中逐步疊加高斯噪聲,直至圖像無限接近于純噪聲圖像。在反向去噪的擴散過程中,模型預測每一步中疊加的噪聲,對圖像逐步去噪,直至圖像恢復原始分布。

Zhang等[3」設計了首個基于擴散模型的文本驅動運動生成框架 MotionDiffuse,支持多層次操控,能夠響應細粒度的身體部位指令,并能合成任意長度的時變文本提示運動。該模型實現了將擴散模型引人人體運動生成的突破性創新,為可控運動生成提供了新思路。Tevet等[34]提出輕量級的MDM模型,MDM模塊使用CLIP提取文本特征,并將 Transformer 編碼器與擴散模型結合。MDM在每個擴散步驟中預測樣本而非噪聲,通過迭代擴散過程逐步生成多樣化的人體運動。MDM還可應用于運動編輯、無約束生成等任務。實驗證明,MDM在文本和動作提示的運動生成中均有較好的表現。Kim等[35]提出了運動合成與編輯模型FLAME,使用預訓練語言模型RoBERTa進行文本編碼,通過交叉注意力和 Transformer解碼器,將結果輸入擴散模型的去噪過程實現運動生成。Chen 等[1提出了運動潛在擴散模型 MLD。MLD 的擴散過程采用了DDIM結構,這使得 MLD 在生成高質量運動的同時推理速度也得到提升。Dabral等[36]提出 MoFusion,該模型融合了跨模態 Transformer 模塊,能夠根據文本、音樂等信息合成高質量的運動動畫。此外,為判斷運動的合理性,他們通過時變加權策略引入了幾種運動學損失。盡管擴散模型在視頻生成質量方面展現出明顯優勢,但由于其多步送代特性,存在計算資源消耗大的問題。如何保證生成質量的同時降低擴散模型計算需求、提升生成效率是目前亟待解決的重要問題。

1.5 基于Transformer的運動生成

Transformer[14]采用自注意力機制,允許模型在處理輸入數據時權衡不同部分的重要性,這種機制使 Transformer 能夠有效捕捉長時依賴關系以及身體關節之間隨時間變化的復雜依賴關系。MotionCLIP[37]利用預訓練CLIP 模型,并結合基于Transformer 的編碼器和解碼器,顯著提升了運動生成的多樣性和真實度。此外,Mo-tionCLIP允許將風格信息加入文本提示,以實現運動風格的調整。TEACH[38]設計了一種分層公式,對動作序列采用自回歸,對動作本身采用非自回歸,有效提升了長序列建模效果。Transformer在人體運動生成任務中展現出較大的優勢,但由于運動數據的時空復雜性較高,訓練和推理階段計算資源需求量較大。

隨著模型的不斷改進,融合多種深度生成模型的方法逐漸增多,包括VAE與Transformer 結合、VAE與DM結合等,這些模型進一步提升了可控人體運動生成的生成質量。Guo 等[2]提出結合VQ-VAE與 Trans-former的MoMask架構,在基礎層與殘差層分別應用掩碼Transformer與殘差Transformer,殘差層逐層預測殘差 token 以還原運動細節,顯著提升了生成運動的真實性。Zhou 等[39]設計了UDE 四步生成模型,使用 VQ-VAE、Transformer、自回歸、擴散解碼實現運動生成。近三年來的運動生成模型大多集成了幾種深度生成模型,模型結構也愈加復雜,這也使模型輕量化成為未來研究中需要考慮的重要問題之一。

2算法改進與技術研究進展

2.1模態融合與語義對齊

在文本嵌入的早期研究中通常設計文本編碼器,或使用BERT、GPT等預訓練語言模型對文本描述進行編碼,將文本信息轉化為向量表示,并通過深度生成模型將文本向量與數據集中提取的人體姿態特征相融合。文本與運動屬于兩種不同模態,存在語義鴻溝。早期部分研究通過將文本特征與運動特征直接拼接,或將它們映射到聯合嵌入空間等實現語義對齊。但由于模態間跨度較大,這些方法往往存在較嚴重的特征融合困難的問題。

近年來, CLIP[40] 預訓練模型成為廣為使用的文本特征提取方法。CLIP利用對比學習方法,使用了大規模訓練數據集,在缺少標注數據的情況下也能有效實現圖像到文本的映射。AvatarClip[29]、 OOHMG[32] 、 MDM[34] 和MotionClip[37]等均基于CLIP 構建。一些研究通過引人交叉注意力機制等方法實現模態融合和文本與運動的跨模態語義對齊。為了解決生成模型對語言細粒度信息關注不夠的問題, Fg-T2M[41] 從自然語言處理的角度出發,通過語句的特征融合和詞匯的交叉注意機制,從全局到局部逐步加強模型對文本語義的理解,顯著提高了運動與文本的語義一致性。隨著大語言模型的完善,研究者開始探索將其應用于可控人體運動生成中。Athana-siou 等[42提出了一種3D人體運動的同步動作合成方法 SINC,利用GPT-3提取動作與身體部位之間的對應關系。Sun等[43]提出基于擴散模型和U-Net的局部到全身生成框架LGTM,利用細化對身體各部位運動的描述,提升了局部運動語義對齊的準確性。采用類似思路的研究還有 STMC[44] AttT2M[45] 等。

最近一些研究嘗試將強化學習與偏好學習引人文本驅動的運動生成模型,以提高運動的語義對齊度。Sheng 等[46]最先探索了偏好學習在文本-運動生成中的作用。他們在MotionGPT模型基礎上加入注釋的 3528個偏好對進行訓練,實驗驗證了偏好學習在提升語義對齊度方面具有顯著效果。

2.2生成連貫性與平滑度

運動的連貫性、平滑度、穩定性、物理合理性是影響生成運動真實性的幾個重要因素。模型訓練過程中,噪聲引入、語義突變、隨機采樣策略、推理策略等因素都可能造成運動生成的不穩定性,進而導致運動連貫性與平滑度的降低。一些研究中對提升生成運動的連貫性與平滑度進行了探索,這對于保證運動生成真實性的基礎上進一步增加生成運動片段的長度也有重要意義。

Barquero等[47]提出了首個基于擴散的無縫人體運動合成模型FlowMDM,并提出了一種混合位置編碼技術。該技術一方面使用絕對位置編碼實現全局運動一致性,使用相對位置編碼建立不同時段間的平滑過渡,這種相對位置編碼策略使FlowMDM在生成運動的準確性和平滑性方面實現了較大的提升,且無需后處理等操作。他們還設計了峰值擾動PJ與擾動下面積AUJ兩個平滑性指標。 T2LM[48] 提出了一種1D卷積的VQ-VAE架構,使模型能生成短序列間平滑的運動過渡,從而實現任意長度文本引導的長序列運動生成,而在訓練中不需要長序列運動數據。這種方法一定程度上提升了運動的連貫性,同時解決了訓練數據不足導致生成長度受限的問題。

針對運動序列間的過渡,一些研究嘗試將相鄰運動序列的起始和結束幀設定為相同的,或對過渡序列進一步去噪處理,從而提升運動平滑度,如DoubleTake[49]等。PCMDM[50]引人了兩種連貫采樣方法,提出一種過去條件擴散模型,可以生成連貫的長序列運動,提升了運動的連貫性與自然度。一些研究中考慮了運動插值等運動編輯問題。運動插值指在兩段運動序列之間補充可能的中間運動,從而實現整個序列運動的平滑過渡,保證運動的連貫性與自然性。MoMask[2] ΔMDM[34] 、 MMM[51] 等工作對這類問題進行了研究。

2.3生成運動的可控性

如何提升模型的可控性是一個相關研究中最關注的問題之一。目前對模型可控性的提升體現在幾個方面:多時段控制、運動軌跡控制、細粒度與風格控制。一些模型引人可編輯式運動生成,極大地提高了模型可控性。

1)運動軌跡控制:為了增強運動生成模型的可控性,一些研究中考慮了運動的軌跡控制,包括整體軌跡控制、關鍵幀定點控制等。FlowMDM[47]模型中加人了軌跡與運動時長結合的控制,同時也能實現運動的關鍵幀定位。為了增強對運動的軌跡控制與空間約束, GMD[52] 提出一種強調映射以及密度信號傳播方法,通過兩者結合,在特征向量較重要的部分上進行映射調整,從而保證人體局部姿態與空間信息一致。另一方面,將關鍵幀控制等稀疏引導信號轉換為軌跡的密集引導信號,有效防止稀疏引導被模型忽視。

2)細粒度控制:許多模型在運動生成任務中存在細粒度信息丟失的問題,表現為手部無法抓握、腳部漂浮與滑動、肢體抖動。一些模型將運動信息壓縮到潛在空間,導致細粒度信息的損失。此外,目前缺少包含細節手部運動信息的全身人體運動數據集。訓練數據的缺失與模型推理能力的限制導致手部彎曲、抓握等運動難以實現。Yoon 等[53]研究了文本驅動的手勢運動生成,但模型沒有實現人體全身運動的整合。肢體漂浮、穿模與腳部滑動是相關研究中較明顯的幾個問題,即生成的人體運動的肢體與周圍地面等環境不接觸,以及在行走時腳部產生對地面的相對滑動,這可能源于模型對肢體的建模與物體或地面接觸點的定位不準確,后期使用 SMPL等模型渲染也會對其產生影響。PhysDif[54]設計了一種即插即用的運動映射模塊,利用人體運動模仿強化對運動的物理約束,一定程度上有效解決了漂浮、穿模與腳部滑動問題。

2.4運動生成與3D場景的結合

戴汝為院士曾指出,系統與其運行的環境兩者間的關系是不可分開的,人與環境的大系統通過動態自適應機制呈現出人與環境相互融合的性質[55]。與3D場景結合是目前可控運動生成技術的一個重要發展趨勢。

Wang 等[5提出了一種基于條件變分自編碼器的3D場景與文本提示下的人體運動生成框架。該模型采用場景與文本的雙模態輸人,分別通過 Transformer 和預訓練 BERT模型處理。為研究文本驅動的人體運動與物體交互問題,Ghosh 等[57]提出IMoS模型,可用于意圖驅動下全身人-物交互運動的生成。

2024年起,更多的研究開始關注融合3D場景的多模態人體運動生成。Wang等[58]提出一個基于擴散模型的兩階段框架,通過利用場景可視圖,該框架在缺乏語言-場景-運動配對數據的情況下部分解決了訓練困難的問題。為了解決復雜環境約束下生成運動缺乏真實性和自然度的問題,Liu等[59]提出開放集運動控制的問題,同時設計了一種基于LLM編程與DM的生成方法,結合物理約束自動編程,提升了交互式運動生成效果。

本文對文本驅動的人體運動生成經典模型的優缺點進行了總結,如表1所示。

表1經典文本驅動的人體運動生成模型優缺點比較Tab.1Comparison of advantages and disadvantages of text-driven human motion gener

3評價指標、人體表示方法及相關數據集

按照評價目標與評價方法的不同,評價指標主要分為四類,如表2所示。針對常用指標,本文對一些生成模型在常用的HumanML3D、HumanActl2數據集上的實驗數據進行了分別統計,如表3、表4所示。

人體模型的表示方法主要分為兩種:基于人體 3D關鍵點和骨架的表示和基于旋轉的表示[7],如圖 2a、b 所示。基于人體關鍵點和骨架的表示方法選取人體主要關節作為骨架關鍵點,根據人體結構將關鍵點連接為整體骨架,在早期研究中廣為使用,如JL2P[19]、SA-GCN[21]、Ghosh 等[23]。基于旋轉的表示通常使用基于蒙皮的多人線性模型 SMPL[60]。SMPL模型通過參數化建模將人體數據表示為真實的人體形態。此外還有優化了面部和手指的細節建模SMPL- ?X[4] 等模型。以下部分介紹相關研究中常用的公開數據集。

1)動作類別標簽的數據集:HumanAct12[25]來源于PHSPD數據集,動作分為12個日常活動類別和 34個細化運動子類別,可用于動作引導的人體運動生成。CMUMoCap數據集是早期研究中使用的一個通用數據集,采用31個關鍵點,提供了更細致、精準的人體模型,但數據集中存在部分噪聲。AMASS[61]是首個大規模人體動作捕捉數據集,將 15個MoCap數據集整合到一個共同的參數化框架中。BABEL[62]數據集基于AMASS 構造,為序列提供了精準的文本標簽,序列標簽描述整個序列中的整體動作,而幀標簽描述序列中每個幀內的動作,每幀標簽都與 MoCap序列中相應動作的持續時間精確對齊。UESTC[63]數據集是一個多視角RGB-D人體運動數據集,數據包含RGB視頻、深度信息與人體3D骨架序列,采集了覆蓋全方位的連續視角運動序列。NTURGB十D120[64] 是在NTURGB +D 數據集基礎上擴充建立的,包含25個關鍵點。數據集擴展了受試者年齡和地區范圍,將動作類別由60類增加到120類,并進一步增加了96種背景以及視角和光線等影響;同時提供了一部分手部細節動作,對需要高精度細粒度控制的模型訓練有較大幫助。

2)文本標簽數據集:HumanML3D-65是目前使用最多的有文本描述標注的人體運動數據集之一,該數據集在 HumanAct12和AMASS 基礎上建立,涵蓋了廣泛的人類動作。HumanML3D數據集平均每個動作的長度為7.1秒,平均描述長度約12 個單詞。KIT Motion Language[6b數據集,簡稱 KIT-ML,是綜合了 KIT Whole-Body 和CMU數據集構建起來的。KIT-ML是首個結合自然語言描述的大型人體運動數據集,也是目前除 Hu? manML3D外最常用的文本-運動數據集,其數據類型包括原運動數據和主運動圖(MMM)框架數據。MMM提供了一個統一參考模型,包含104個自由度,將不同 MoCap 數據的格式進行統一,以便于新數據的引入和更新。2023 年以來一些新數據集被提出,這些數據集在未來研究中具有廣闊的應用空間。Motion- ?X[67] 是首個大規模全身表情運動數據集,包含更多細節的面部表情和手勢動作。

表2常用評價指標和評價方法Tab.2Commonlyusedevaluationmetricsand evaluationmethods
注:加粗部分表示常用指標,“ ↑ ”表示指標的值越高越好,“√”表示指標的值越低越好。
表3文本-運動生成模型在HumanML3D數據集的性能對比Tab.3Performance of text2motion modelson HumanML3D
表4動作-運動生成模型在HumanAct12數據集的性能對比Tab.4Performance of action2motion models

4總結與展望

目前,文本驅動的人體運動生成在計算機視覺領域備受關注,該技術可廣泛應用于數字人動畫生成,在游戲開發、影視制作、教育培訓、醫療健康、服裝銷售等相關領域均有很大的潛在應用價值。文本驅動的運動生成技術可用于游戲和電影中的角色生成與風格化,目前一些模型已在該領域投人使用,如GANimator等。通過將運動生成技術與交互式問答相結合,文本驅動生成的動作演示能夠在醫療康復、體育與健身指導等場景中提供虛擬教學,減少對真人教練的依賴。另一方面,可控的人體運動生成技術的商業化如今已初見發展,如商湯公司的“如影”,這些應用可廣泛用于電商及娛樂直播等以逐漸替代人力勞動,促進直播行業的數字化轉型。

本文對文本驅動的人體運動生成技術的發展情況進行了較全面的綜述。盡管近三年來該技術取得較大進展,相關研究仍面臨諸多問題。具體挑戰性問題及未來研究方向:1)生成質量與細粒度控制:目前,進一步提高生成質量、時間連貫性和自然度仍是主要挑戰之一。此外,如何實現更細粒度的控制,如精準控制身體運動幅度、手部動作等也是有待研究的問題。目前大多數模型對于身體與物體接觸場景下的生成效果仍不佳,一些工作開始關注到這些問題,但改進效果仍待進一步提升。2)生成運動的多樣性:現實世界中,即使對于同一對象的同一種動作,其不同時間運動的細節也是多樣的,因此提高生成的多樣性、靈活性也十分重要,但目前模型的多樣化生成能力仍有不足。3)復雜動作和動態場景生成:當下研究主要集中于簡單動作及單一角色,對復雜場景、連續復雜動作的情況模型生成效果欠佳。如何生成更復雜的動作以及多人交互場景下的動作序列是目前存在的一個挑戰。4)文本與運動的語義對齊問題:自然語言的文本信息具有高度的復雜性和多樣性,人體的肢體運動、肢體表達都存在著隱含的語義。如何準確解析和提取出文本特征,并將其與人體姿態對應的語義準確對齊是一個長期存在的挑戰。此外,結合運動風格化、情感分析與情感計算的個性化生成也是一個可能的未來研究方向。5)數據集構建和數據工程:目前人體運動數據集大多在簡單室內環境中收集,具有復雜背景或多樣化場景的數據集較少,且數據集的表示方法不統一,使模型訓練更有難度。此外,當前數據集大多關注單人運動且缺乏細節控制。有待提出更普適性或針對性的大型數據集,也可探索將網絡數據引入到生成模型的方法,以降低模型對數據集的依賴。

參考文獻:

[1]CHENXB,UWetalExeutigyoucoandsviotioiusiointntspaeC/roceingsfteEofeence on Computer Vision and Pattrn Recognition.Los Alamitos: IEEE Computer Society Press,2023:180oo-18010.

[2]GUOC,MUYX,JAVEDMG,etal.Momask:generativemaskedmodelingof3dhumanmotiosC//ProcedingsofteEEE/CVFCon-ference on Computer Vision and Pattern Recognition.Los Alamitos: IEEE Computer Society Press,2024:1900-1910.

[3]YIH,THSJ,LACK,etalGeneratighumaninteractmotosieswithtextcotrolC/roceigsfteEuroeanoference on ComputerVision.Cham:Springer,2025:246-263.

[4]PAVLAKOSGCHOUTASV,GHORBANINetal.Expresivebodycapture:3dands,face,andodyfromasingleimageCProed-ingsoftheIEE/CVFConferenceonComputerVisionandPaternRecognition.LosAamitos:IEEEComputerSocietyPress,l9097510985.

[5」甄汝為.開展\"系統復雜性\"研究仕重而道遠LJ」.復雜系統與復雜性科字,2004,1(3):1-3.DAI R W. The research on systems complexity- -long-term and huge task[J]. Complex Systems and Complexity Science,20o4,1(3):1-3.

[6]。彭淑娟,周兵,柳欣,等.人體運動生成中的深度學習模型綜述[J].計算機輔助設計與圖形學學報,2018,30(6):1166-1176.PENG SJ,ZHOUB,IUX,etal.Recentadvancesindeeplearningmodelforhumanmotio generationJ].JouralofComputer-Aided Designamp;ComputerGraphics,2018,30(6):1166-1176.

[7]ZHUWT,MAX,ROD,etal.Humanmotiongeneration:asurveyJ].IEEETrasactionsonPaternAnalysisand MachineIteligence,2024,46(4):2430-2449.

[8]趙寶全,付一愉,蘇卓,等.多模態信息引導的三維數字人運動生成綜述[J].中國圖象圖形學報,2024,29(9):2541-2565.ZHAOBQ,FUYY,SUZetal.Asurveyonmultimodalinformationguided3DmanmotiogeneratioJ].JouralofImageandGraphics,2024,29(9):2541-2565.

[9]ELMAN JL. Finding structure in time[J] Cognitive Science,1990,14(2):179-211.

[10]KIPTusedafoiaouaosC/ofIteaioaleon Learning Representations.Washington DC:ICLR,20l7:1-14.

[1]GOODFELLOWOUGE-BEJ,ZA,etalGnerativeadesarialC/rocedingofthe27thInteatilCofeence on Neural Information Processing Systems. Cambridge:MIT Press,2014: 2672-2680.

[12]KINGMAWLIutodingvariatioalbsCroedgofthIteatialCofereceoeangRepatioWashington DC:ICLR,2014:1-14.

[13]SOHL-DICKSTEIJ,WEISSE,MAHESWARATHANN,etal.Deepunsupervisedlearingusing nonequilbumthermodamcs/Proceedings of the International Conference on Machine Learning. New York:JMLR,20l5:2256-2265.

[14]VASWAZEERetalAeisallyeeC/oegofthIteatialCerecelformation Processing Systems. New York: Curran Associates.,20l7:600o-6010.

[15]HOCHREITER S,SCHMIDHUBER J. Long short-term memory[J]. Neural Computation,1997,9(8):1735-1780.

[16]LIZ,ZHOUYIAO,tal.AutooditioedetwokfrextendedoplexumanotosesisC/roedgIternational Conference on Learning Representations. Washington DC:ICLR,2o17:1-13.

[17]WANGZY,HIJX,XIASH.Cmiingrecurtneuraletworksddversarialrgforhumanotiosthesisnd/Procedings oftheIEEETransactionsonVisualiationandComputerGraphics.LosAlamitos:IEEComputerSocietyPress,2O184-8.

[18]BATTANAYOOARAOVetal.Glocaet:swaelteumaotisthsisC]/ProefteIEEE Winter Conferenceon Aplications of Computer Vision(WACV).Los Alamitos: IEEE Computer Society Press,2021:878-88.

[19]AHUJACLanguago:aturallggegroudedefecastigC/rocedigftIteatioalCoeeceo3D Vision (3DV). Los Alamitos: IEEE Computer Society Press,2019:719-728.

[20]TUYAKOVS,IU,YANGXDetal.ocogandecomposingotioandcontentfovidegeneratioC/ProceedingsofeEEConference on Computer Vision and Patern Recognition.Los Alamitos:IEEE Computer Society Press,2018;1526-1535.

[21]AHNH,HYtalextctioerativedesariassisfrlagctiC/roedingoftenational Conference on Robotics and Automation. Los Alamitos: IEEE Computer Society Press, 2o17:1-5.

[22]YUP,ZHY,ICYtalStructureareaactigeneatioC/rocdisfteEureanCofereeoueViioCham:Springer,2020:18-34.

[23]GHOSHA,CHEEAN,OGUZC,etal.SythesisofompositioalanmatiofrotextualdeseriptiosC/ProcedingsofeIEE/CVF International Conference on Computer Vision.Los Alamitos;IEEEComputer Society Press,2021:1396-1406.

[24]VANDEVSONuraletepresetatioleagCroiofte3stInteaalCofereeoealInformation Processing Systems. New York:Curran Associates.,2O17: 6309 -6318.

[25]GUOC,ZUOX,WANS,etalActio2motio;conditioed generationof3dumanmotiosC//ProcedingsofCInteatiolCoference on Multimedia. New York:Association for Computing Machinery,202o:2021-2029.

[26]PETROVICHM,BLACK MJ,VAROLG.Action-conditioned3dhumanmotionsynthesiswithtransformervae[C]/ ProcedingsfteIEEE/CVF International Conferenceon Computer Vision.Los Alamitos:IEEEComputer Society Press,2021:10985-10995.

[27]PETROVICHM,LACKMJVAROLG.TemoseneratingdiverseumanmotiosfromtextalescritiosC//ProcedingoftheEuropean Conference on Computer Vision. Cham: Springer, 2022: 480-497 :

[28]GUOC,ZUOX,WANS,etal.T2t:stochasticandtokenized modelingforthereciprocalgenerationof3dumanmotiosandtexts/Proceedings of the European Conference on Computer Vision. Cham:Springer,2022:580-597.

[29]HONGM,ZHANGL,PANZ,etal.Avatarelip:zeroshottext-drivengenerationandanimationof3davatarsACMTransactiosonGraphics(TOG),2022,41(4):1-19.

[30]LUQ,ZYUtalctodadmotogeatioC/eofhe28teafeeeon Multimedia. New York: Association for Computing Machinery,2022: 2249-2257.

[31]ZHANGJR,ZHAGYS,CUNXD,etal.GeneratighumanmotionfrotextualdescriptiosithdiscreterepresentatiosCroedingsoftheIEEE/CVFConferenceonComputer VisionandPaternRecognition.LosAlamitos;IEEEComputerSocietyPress,2023:14730-Procedings oftheIEEE/CVFConferenceonComputer VisionandPaternRecognitionLosAamitos:IEEEComputerSocietyPress,203:23222-23231.

[33]ZHANGM,CAIZ,AL,etalMtiondiuse:textdrivenumamotiongenerationwithdifusionmodel]IEEETransactioPattern Analysisand MachineIntelligence,2022,46:4115-4128.

[34]TEVETGAABSROBetalHumatidifusioodelCroedingofthInteratioalConfereceonLangepsentations.Washington DC:ICLR,2023:1-12.

[35]KIMJ,IJS.Faefrlgagbedmotssisamp;diigC//rocedifAfereilIntelligence. Menlo Park:AAAI Press,2023:8255-8263.

[36]DABRALR,UGHALGOAV,etal.Mofusio:frameworkfordenoising-diusion-basedmotionsythesisC]/ProedingoftheIEEE/CVFCoferenceonComputerVisionandPaternRecognition.LosAlamitos:IEEComputerSocietyPress,2023:9760-970.

[37]TEVETG,GORDONB,HERTZA,etal.Motioclip:exposinghuman motiongenerationtoclsaeC]/ ProcedingsoftheEuropeanConference on Computer Vision(ECCV).Cham:Springer,2022:358-374.

[38]ATHANOUN,OVCHM,LACKJ,etaleachmporalactioncompositiosfor3dumansC//ProcedingoftheIntenational Conference on 3D Vision (3DV). Los Alamitos: IEEE Computer Society Press,2022: 414-423 二

[39]ZHOUZX,WANGBY.Ude:aunifieddrivingengineforhumanmotiongenerationC//ProcedingsoftheIEEE/CVFConferencenComputer Vision and Pattern Recognition. Los Alamitos:IEEE Computer Society Press,2023:5632-5641.

[40]RADFORDA,KIJW,HLLACCetalLaringtransferablesualodelsfromnatralanguagsupervisioC/rocegsfteInternational Conference on Machine Learning. New York:PMLR,2021:8748-8763.

[41]WANGYEZIFtlg-ratetdimaotgeneatividfieCroEECVF International Conference on Computer Vision. Los Alamitos: IEEE Computer Society Press,2023: 21978-21987.

[42]ATHAUNHCK,etal.Sinc:spatialpostioof3dnmotisfiultaeouactigeProcedingsoftheIEE/CVFInternatioalConferenconComputerVision.LosAamitos:IEEEComputerSocityPress,023:99509961.

[43]SUNHW,ZHENGRK,HUANGHB,etal.Lgtm:local-ogbaltext-drivenhumanmotiondifusionmodelC//rocedigsof ACMSIGGRAPH 2024 Conference Papers. New York:Association for Computing Machinery,2024: 1-9 :

[44]PETROVCHM,ITAYOQBALU,etalMultitrac ielinecontrolfrtext-driven3dumanmotiongeneratiC//rodigsftheIEEE/CVFConferenceonComputer VisionandPaternRecognition.LosAlamitos IEEComputerSocietyPress,2024191-1921.

[45]ZHONGCY,HUL,ZHNGZH,etal.AttT:text-drivenhumanmotiogenerationwithulti-erspectiveatentionmechanisC/ProcedingsoftheIEE/CVF InternationalConferenceonComputerVisionLosAlamitos:IEEEComputerSocietyPress,223:509-519.

[46]SHENGJ,I,ZHOAetalExplorigtext-totiogeneratioithmanprefereeC//rocedigsofteIECCoference nComputerVisionandPaternRecognition Workshops(CVPRW).LosAlamitos:EEEComputerSocietyPress,2024:888-1899.

[47]BARQUEROG,ESCALERAS,PALMEROC.Seamlesshumanmotioncomposionwithblended postionalencodingsC//rodingsofthe IEE/CVFConferenceonComputer VisionandPatern Recognition.LosAlamitos:IEEE ComputerSocietyPress,2024:457-469.

[48]LEETJ,BARADELF,LUCAST,etal.T2lm:lon-term3dumanmotiongenerationfrommuliplesentences[C]/ProcedingfteIEEE/CVFConferenceon Computer VisionandPatern Recognition Workshops (CVPRW).Los Alamitos:IEEE Computer Society Press,2024:1867-1876.

[49]SHAFIRYVG,KAOR,etalHumamotiifusioasenerativepriorC/roedigoftheIteatioalCoeeceoLearning Representations. Washington DC: ICLR,2023: 1-10 二

[50]YANGZH,SUB,WENJR.Synthesinglog-terumamotios withdifusionmodelsviacerentsamplingC//ProcedingofCInternational Conference on Multimedia.New York:Association for Computing Machinery,2023:3954-3964.

[51]PINYOANUNTAPONGE,WANGP,LEEM,etalMmm:generative maskedmotion model[C]/ProcedingsoftheIE/CVFConference on Computer Vision and Patrn Recognition.Los Alamitos: IEEE Computer Society Press,2024:1546-1555.

[52]KARUNRAANAKULK,PREECHAKULK,UWAJANAKORNS,etal.Guidedmotiondfusionforcontrolbluman motiosthesis/ProcedingsofteIEEE/CVFInteratioalConferenceonComputerVisionLoslamitosEComputerSocietyPress,23:15162.

[53]YOONY,BEEJH,etalehsregeneratifrothriodalotetoftetodspeakerdentityaactions on Graphics(TOG),2020,39:1-16.

[54]YUANYOJQBUtaldifsiudedmanotioiusionodeC/rodingoftheEEteational Conference on Computer Vision. Los Alamitos:IEEE Computer Society Press,2022:15964-15975.

[55]戴汝為.從基于邏輯的人工智能到社會智能的發展[J].復雜系統與復雜性科學,2006,3(2):21-25.DAIRWIntellgevelopntrelgicrtiilintelltalitellgeompleSsdei2006,3(2):21-25.

[56]WANGZHEYX,,etalmaniselangagecodiodumamotiogeneratioin3dseesC/rodingofItenational Conference on Neural Information Processing Systems.New York;Curran Asociates.,2022;14959-14971.

[57]GHOSHA,DABRALR,GOLYANKV,etalImos:ntent-drivenfullbodymotionsyntesisforuman-objectinteractiosCouter GraphicsForum,2023,42(2):1-12.

[58]WANGZHEYX,JABXetal.Moveaousaynteractasyoucan:lnguageguidedumanmotiogenerationithenedance [C//ProceedingofteIEEE/CVFConferenceonComputer VisionandPaternRecognitionLosAlamitosIEEComputerSocietyPress, 2024:433-444.

[59]LIUHCZHANXH,HUANGSL,etalProgramableotiogeneratioforopesetotiotroltasksC//rocedingsfIEEE/ CVF Conference on Computer Visionand PatternRecognition.Los Alamitos:IEEEComputer Society Press,2024;1399-1408.

[60]MATTHEWL,NAUREENM,JAVIERR,etal.Smpl:askinedmulti-personlinear model[J].ACMTransactionsonGraphics(OG), 2015,34(6):1-16.

[61]MAHMODN,GHRBANIN,ROJENF,etal.Amass:archiveofmotioncaptureassurfce shapes[C]//ProceedingsoftheIEEE/CVF International Conference on Computer Vision. Los Alamitos: IEEE Computer Society Press,2019:5442-5451.

[62]PUNNAKKALAR,HANDRASEKRANA,AHANASOUN,etalBabel:bdiesactioandbhavowitheglishbesC]/rdingsof theIEEE/CVFConferenceonComputerVisionandPaternRecognition.LosAlamitos;IEEEComputerSocietyPress,202:722-731.

63]JIY,XUaalsbcocl Conference on Multimedia. New York:Association for Computing Machinery,2o18:1510-1518.

[64]LIUJ,SHAHROUA,EREZetal.Nugbd120:largesalbncharkfodumanactivityuderstandingJ]EEasac tions on Pattern Analysis and Machine Intelligence,2020,42(1o):2684-2701.

[65]GUOC,ZOUSH,ZUOXX,etalGeneratigdiverseandnatural3dumanmotionsfromtextC//ProcedingsofteIEE/CVFConfer ence on Computer Vision and Pattern Recognition.Los Alamitos:IEEE Computer Society Press,2022;5152-5161.

[66]PLAPPERT M,MANDERYC,ASFOUR T. The kit motion-language dataset[J]. Big data,2016,4(4):236-252.

[67] LIN J, ZENG A L,LU S L,et al. Motion- X : a large-scale 3d expressive whole-body human motion dataset[C]// Proceedings of the International Conference on Neural Information Processing Systems. New York:Curran Associates.,2024:1-13.

(責任編輯 李進)

猜你喜歡
動作文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
動作描寫要具體
畫動作
動作描寫不可少
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 91麻豆精品国产91久久久久| 97在线视频免费观看| 成人在线综合| 国产又粗又猛又爽| 久久国产黑丝袜视频| 亚洲色精品国产一区二区三区| 久久精品无码中文字幕| 2024av在线无码中文最新| 欧美成人A视频| 91麻豆精品国产高清在线| 国产激爽大片在线播放| 欧美精品一二三区| 亚洲无码视频一区二区三区| 99精品在线看| 国产乱人伦精品一区二区| 国产精品无码作爱| 欧美高清三区| 国产成人久久综合一区| 国产精品香蕉| 青青草欧美| 国产成人福利在线视老湿机| 日韩AV无码免费一二三区| 国内精品视频| 一级全黄毛片| 一级毛片免费播放视频| 亚洲天堂网在线播放| 日韩视频福利| 欧美成人a∨视频免费观看| 国产香蕉97碰碰视频VA碰碰看| 狠狠亚洲婷婷综合色香| 国产成人综合久久精品下载| 免费看一级毛片波多结衣| 欧美啪啪视频免码| 亚洲精品你懂的| 久久99精品久久久久纯品| 亚洲香蕉在线| 重口调教一区二区视频| 免费在线a视频| 456亚洲人成高清在线| 久久女人网| 九九热视频在线免费观看| 国产女人爽到高潮的免费视频| 美美女高清毛片视频免费观看| 亚洲不卡影院| 国产91丝袜| 国产欧美日韩精品综合在线| 40岁成熟女人牲交片免费| 九月婷婷亚洲综合在线| 中文字幕久久波多野结衣| 亚洲性影院| 久久精品视频一| 国产亚洲精久久久久久无码AV| 国产极品嫩模在线观看91| 国产jizz| 一级毛片免费观看久| 五月丁香伊人啪啪手机免费观看| 国产后式a一视频| av在线5g无码天天| 亚洲成人一区二区三区| 亚洲va欧美ⅴa国产va影院| 夜夜高潮夜夜爽国产伦精品| 深爱婷婷激情网| 又黄又湿又爽的视频| 国产国产人成免费视频77777| 亚洲国产中文欧美在线人成大黄瓜 | 国产99精品久久| 露脸一二三区国语对白| 四虎综合网| 久操中文在线| 国产H片无码不卡在线视频| 久久成人18免费| 国产精品9| 99热这里只有精品国产99| 国产乱子精品一区二区在线观看| 国产精品对白刺激| 欧美性爱精品一区二区三区| 天天躁夜夜躁狠狠躁躁88| 精品国产Ⅴ无码大片在线观看81| 国产日韩AV高潮在线| 亚洲中文字幕在线观看| 午夜一级做a爰片久久毛片| 国产精品视频白浆免费视频|