999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于情感引導-擴散模型的藏族音樂生成網絡

2025-09-02 00:00:00宋子牛彭春燕王龍輝鄭鈺輝
計算機應用研究 2025年8期

關鍵詞:藏族音樂生成;擴散模型;情感引導;tokendrop;self-conditioning中圖分類號:TP183 文獻標志碼:A 文章編號:1001-3695(2025)08-005-2283-07doi:10.19734/j. issn.1001-3695.2025.01.0014

Emotion-driven diffusion model for Tibetan music generation

Song Ziniuab,Peng Chunyanab?,Wang Longhuiab,Zheng Yuhuia,b (a.Collegeofomputerb.StateKeyLaboratoryfetanIntellgence,QinghaNmalUniversityXinngoCina)

Abstract:Artificialintellgencehasachievedremarkableprogressinmusiccreation,yetresearchontheautomaticgenration of Tibetanmusicremainslimited.Currentstudiesface threekeychallenges:inadequate expresionofspecificemotionsefficiencyinhandlinghigh-dimensionalfatures,andinsuficientcontextualconsistencyingeneratedmusic.Toddresseseissues,this paperproposedanemotion-drivendifusionmodel(EDDM)basedontheVAE-difusion framework.This modelutilizedavariationalautoencoder(VAE)toextractessentiallatentfeaturesfromaudiodataand modelsthemduringthedifusion processEDDMintroducedthreecoreinnovations:embeddedanemotionfeatureencoderviacross-attentiontoenableprecise expresion of Tibetan music’sunique emotionsand styles,introduced a token drop strategy to filter redundant features and enhancediversityandrobustness,and proposed aself-conditioning mechanism to ensure contextual coherencebyleveraging prior-step informationfornext-stepgeneration.ExperimentalresultsshowthatEDDMachievesstate-of-the-artperformance, outperforming existing methods in objective metrics such as FAD (2.35↓ ), JSD (0.08↓ ),and NDB (18↑ ),while also exceling insubjectiveevaluationsbyproducingmusicwithstrongemotionalexpresionandfeatureconsistency,showcasingits innovationandvalueinethnic musicgeneration.TheemotionallyguidedTibetanmusic generatedinthis workispubliclyavailableat https://szn1998.github.io/.

Key words:Tibetan music generation;diffusion model; emotion-driven; token drop;self-conditioning

0 引言

近年來,人工智能賦能音樂生成領域取得了顯著的進展[1,2]。現有研究大多集中于流行音樂和西方經典音樂的生成[3],對于具有特定地域和風格的民族音樂研究和探索明顯不足,尤其對藏族音樂生成的研究尚屬空白。作為中國少數民族音樂的重要組成部分,藏族音樂以其獨特的旋律、節奏和情感表達而聞名,具有顯著的文化和社會價值[4]。藏族音樂特點主要包括:a)旋律獨特,普遍采用五聲音階,同時融入細膩的音程變化;b)藏族音樂大多為民歌,情感表達豐富,節奏多樣,快慢節奏相互交織;c)大部分藏族音樂都是多樂器協作,常見樂器如扎念琴、笛子、藏鼓和嗩吶,共同構成層次豐富的聲場。針對藏族音樂的上述典型特征,本文提出一種音樂生成模型,不僅能夠滿足其特性需求,還可以填補人工智能在藏族音樂生成領域的研究空白。這一創新將為音樂自動生成技術注人新的活力,同時有效推動藏族音樂等中華優秀傳統文化創造性轉化和創新性發展。

當前,音樂生成模型大體可被劃分成自回歸模型與擴散模型兩大類別。自回歸模型以 WaveNet[5] 為代表,通過對標量量化的波形樣本建模,能夠生成短小的音樂片段。然而,由于逐樣本生成的自回歸方式[6],其采樣效率較低。為提升效率,研究者通常采用將波形樣本編碼為低時間分辨率離散潛在表示(tokens)的方式。這些編碼器(如VQ-VAE[7]及其變體[8])通過結合感知對抗損失進行訓練[9,10],為自回歸Transformer建模tokens序列提供支持,從而顯著提高了生成效率。此類模型中,Jukebox[,12]是一個具有代表性的框架,能夠從歌詞文本生成具有特定情感、風格和樂器特性的音樂,推動了音樂生成技術的突破性進展。

相比之下,擴散模型在音樂生成領域展現出了更大潛力。例如,Huang等人[13]通過擴散模型生成中間表示,如下采樣波形或梅爾頻譜(Mel-spectrogram,Mel)特征,再利用級聯器或聲碼器解碼為音樂波形,從而實現了音樂的高效生成。在此基礎上,文獻[14,15]將擴散目標擴展到梅爾頻譜或波形域VAE的潛變量上,使生成的音樂在質量和多樣性方面實現了新突破。Li等人[16]引入了擴散幅值自動編碼器(DMAE),通過學習音頻編碼器的潛變量并結合擴散模型訓練,在生成過程中展現了更強的情感表達能力。Evans等人[3]則通過對波形域VAE的潛變量進行擴散建模,不僅實現了整首歌曲的高效生成,還為音樂生成技術提供了更加完整的解決方案,進一步拓展了其應用場景。

盡管上述方法取得了顯著進展,但直接用于訓練生成藏族音樂仍存在諸多局限性,突出表現在以下三個方面:a)音樂情感表達不足。如生成一段表達“莊嚴肅穆”的藏族宗教音樂時,現有模型無法準確捕捉其獨特的情感特質,導致生成的音樂情緒與主題不符。b)冗余特征影響生成效率。生成長時間音樂片段時,模型往往需要處理高維且冗余的特征數據,低責獻甚至無關的tokens不僅增加了計算成本,還可能引入噪聲,影響最終生成質量[17]。c)上下文一致性缺失?,F有模型在處理多樂器協奏時,往往無法有效利用先前生成的音軌(如鋼琴或笛子),導致后續生成的樂器(如鼓或貝斯)與前者旋律缺乏協調性。

為解決上述問題,本文提出了一種基于情感引導-擴散模型的藏族音樂生成網絡(emotion-drivendiffusionmodel,EDDM)。基于LatentDiffusion框架,通過訓練共享的變分自編碼器(variationalautoencoder,VAE)壓縮音樂音頻以提取潛在特征,利用擴散模型對潛在變量進行建模。在整個擴散過程中,本文結合以下三個創新點提升音樂生成的質量與一致性:a)設計情感特征編碼器,將音樂情感特征通過交叉注意力機制嵌入到擴散模型中,指導擴散模型生成符合特定情感的音樂片段,從而更好地滿足藏族音樂的情感需求。b)改進tokendrop策略使其在訓練過程中隨機丟棄部分tokens,增強模型對缺失信息的魯棒性,提升生成音樂的多樣性與連續性,同時有效過濾冗余信息以降低計算成本。c)提出self-conditioning機制,利用模型先前的生成結果作為條件輸入,為后續生成提供上下文信息,從而確保音樂旋律與情感的一致性,特別是在多樂器協奏中提高協調性。本文收集了5000個藏族音樂樣本,并采用弗雷歇音頻距離(Frechetaudiodistance,FAD)詹森-香農散度(Jensen-Shannon divergence,JSD)和獨立箱數(numberofdistinctbins,NDB)三個關鍵的客觀指標來評價生成的藏族音樂的質量和多樣性。實驗結果表明,EDDM在生成具有藏族音樂特征時表現出顯著的高效性和情感一致性,在主觀人類評價和客觀指標上均顯著優于現有方法,為民族音樂生成研究提供了新方向和新思路。

本文的主要貢獻概括如下:a)提出了一種基于情感引導的擴散模型(EDDM),通過將音樂情感特征嵌入模型中,顯著提高了生成藏族音樂的情感一致性;b)引入了改進的tokendrop策略和self-conditioning機制,增強了生成音樂的效率,有效提升了其多樣性與連續性。在收集的藏族音樂數據集上進行的實驗表明,EDDM在主觀評價和客觀指標(FAD(2.35↓)、JSD(0.08↓)、NDB(18↑))上均顯著優于現有方法,達到了最先進的水平。

1相關研究

本章圍繞深度學習在音樂生成領域的相關研究展開,闡述了國內外現有的生成方法,重點探討了擴散模型的基本原理及其技術特點。

1.1音樂生成

深度學習在音樂生成領域的廣泛應用,極大地提升了音樂創作的效率和表現力。根據生成方法的差異,現階段音樂生成領域的主流模型主要分為基于Transformer架構的自回歸模型和基于Diffusion的擴散模型兩大類。

自回歸模型通常通過逐步預測序列中的下一個元素,捕捉音樂的時間依賴性,以生成連續的音符或音頻信號。這類模型在處理音樂序列生成方面表現出色,例如,Huang等人[18]提出的MusicTransformer通過引入相對位置編碼,提升了對長時間依賴的建模能力,可以生成具有復雜和弦結構的音樂; Xu 等人[19]提出的MUSENET基于多層LSTM和Transformer架構,支持多軌音樂生成,覆蓋從古典到流行的多種風格。然而,這類模型主要專注于音源分離,難以生成具有創意性的全新音樂內容,且在生成長序列時可能面臨效率低下和誤差累積的問題。

擴散模型在音樂生成中的表現尤為突出,尤其是在建模復雜數據分布和生成整體音樂片段方面。擴散模型通過逐步添加噪聲并反向去噪來生成數據,具有強大的分布學習能力。例如,Yang等人[14]提出的Diffsound使用MelVQ-VAE編碼器生成離散中間表示,并通過離散擴散模型對tokens序列建模,顯著提升了生成效率和細節表現力。文獻[15,16]進一步使用頻譜域或波形域的連續潛變量作為擴散的中間表示。StableAudio2[3]結合波形域VAE,使用擴散對其潛變量建模,從而生成整首歌曲。盡管擴散模型可以生成完整混合的音樂片段,但多數方法無法有效分離單獨的音源。而理想的音樂生成方法應能同時生成并分離單獨音源,例如控制鋼琴與鼓的音量比例,使生成的音樂更加可解釋和可控。為此,部分研究轉向多軌建模的方法,如通過直接生成音樂音符或MIDI表示[20,21]并使用合成器解碼為單一波形;或者通過建模多軌音樂軌道,如Mittal等人[20]利用掩碼語言模型對encodectokens進行建模,生成單一樂器音源。文獻[21]通過潛在擴散模型生成基于混合音源的貝斯伴奏,而文獻[22]根據人聲音源生成背景伴奏。Pasini等人[23]則提出在波形域擴散模型上同時建模四種樂器音源,Donahue等人[24]在此基礎上擴展至文本條件生成,支持更廣泛的音樂數據集。此外,文獻[25]認為音樂是由多個緊密相關的音軌組成的,提出了多源擴散模型MusicLDM。該模型可在統一的框架下同時處理音樂生成和音源分離任務,為實現高度可控且富有創造力的音樂生成提供了新方向。基于此,本文探索同時處理音樂生成和音源分離的新方法,以期實現高質量且具有強解釋性和控制性的音樂生成。

1.2擴散模型

擴散模型是一類概率生成模型,通過對噪聲樣本的迭代細化來學習噪聲與數據的映射關系。去噪擴散概率模型(denoi-singdiffusionprobabilisticmodel,DDPM)[26]是一種典型的擴散方式,它定義了一個前向過程將輸入逐步轉換為高斯噪聲,同時學習一個逆向過程用于恢復輸入。具體來說,在前向擴散過程中,原始樣本 x0 經過 T 步逐步添加噪聲,生成一系列帶噪樣本 x1,x2,…,xT 。在每一個時間步 χt ,樣本 xt 的條件概率分布由前一時刻的樣本 xt-1 確定,其數學形式為

其中 Ω:β1,…,βt,…,βr 是預定義的噪聲調度參數。根據高斯分布的性質可以推導出:

其中: 。通過采樣 ε~N(0,I) 并使用重參數化技巧,可以得到樣本 。在一定條件下,最終步驟的分布 q(xT) 近似為標準高斯分布。

逆向生成過程是從純噪聲樣本 xT 開始,逐步去噪重建T-1,T-2,,x,最終得到逼真的樣本。逆向過程被定義為條件概率分布 pθ(xt-1|xt) ,通過一個神經網絡進行學習,用于近似 q(xt-1|xt,x0) 。為了學習 pθ(xt-1|xt) ,只需訓練模型輸出εθ(xt,t) 來恢復生成 xt 時所加入的噪聲 ε 。訓練擴散模型的損失函數為 。在推理時,給定 xt 和預測的噪聲,可以通過式(3)從 pθ(xt-1|xt) 采樣。

其中: χ;z~N(0,I) 。

2模型構建

本文提出一種基于情感引導-擴散模型的藏族音樂生成網絡EDDM。EDDM的整體架構如圖1所示,主要分為VAE編解碼原始音樂提取latent特征和基于情感引導完成音樂的擴散過程兩個步驟。VAE模塊將原始音頻信號輸人到編碼器中,編碼器利用共享權重對音頻信號進行特征提取,將其轉換為低維的潛在表示。該潛在表示包含了音頻數據的主要特征,能夠有效地捕捉音源的結構和信息。接著,擴散過程對潛在變量進行進一步建模,通過逐步添加噪聲再進行反向去噪生成音樂。在擴散過程中,首先,嵌入情感引導模型,即引入激發度(arousal)和愉悅度(valence)兩個維度來生成特定情感的藏族音樂。在生成過程中,通過音樂情感編碼模塊得到情感特征,并將特征作為條件輸入以跨模態注意力(cross-attention)的方式融合到擴散模型中;其次,在擴散過程的每一步中,隨機選擇的tokens被丟棄,即 tokendrop 策略,這一過程是在生成潛在變量之后進行的,確保模型在生成過程中保持多樣性和魯棒性;最后,在每次生成新音符或音頻片段時,模型會參考之前生成的部分作為上下文信息。具體而言,模型將先前生成的潛在變量作為條件輸入,影響后續的生成過程,即self-conditioning策略,以此來增強生成結果的一致性。

圖1基于情感引導的擴散模型藏族音樂生成網絡架構

Fig.1Architecture of emotion-driven diffusionmodel for Tibetan music generation

2.1音樂情感特征嵌入擴散過程

整體架構由VAE模塊[27]和基于情感引導的擴散引導模塊兩部分組成。VAE模塊用于將包含 N 個樣本波形域的音樂音源表示 S∈RN 壓縮到一個緊湊且具有連續性的潛在空間,同時確保重建結果在感知上與原始音源不可區分。給定一個輸人信號 s ,編碼器將其映射為后驗分布:

ψenc(S)=N(α?α|μz(S),Σz(S))

其中 是潛在后驗均值; Σz(S) 為后驗協方差矩陣; d=320 為時域下采樣因子; c=80 為潛在空間維度。編碼后,通過采樣 )并將其輸入解碼器以重建信號 So 為進一步簡化潛在特征的提取,本文直接使用后驗均值 zsz(S) 作為潛在表示。

在潛在空間中建模音樂生成的過程,本文基于潛在擴散模型,進一步引入音樂情感信息以引導潛在變量的生成。音樂情感是音樂表達的重要特征。Russell提出的情感二維模型以愉悅度(valence)和喚醒度(arousal)兩個維度作為最廣泛的指標[27],其連續性和可調性非常適合捕捉音樂情感的這種動態變化。通過直接調控愉悅度和喚醒度的數值,可以引導潛在空間中的變量生成具有特定情感特征的音樂內容。

設多個輸入音樂音源的潛在表示為 Z=(z1,z2,…,zK)∈ ,其中 zi 是第 i 個音樂片段的潛在表示, K 為片段數。音樂情感信息通過一個情感編碼器生成,該編碼器將情感描述映射到潛在空間中的特征矩陣 E∈RM×C ,其中 M 是情感特征的數量。在生成過程中,采用交叉注意力機制將情感信息與潛在表示結合:

其中: A∈RK×M 是注意力權重; 是融合情感信息后的潛在表示。在擴散過程中,按照時間調度 σ(t)=t ,前向擴散過程定義為

其中: 然后通過求解ODE[28] 反向過程來采樣

其中:分數項 )由神經網絡 近似,并通過分數匹配損失進行訓練。

2.2token drop策略

音頻數據在頻率域和時間域通常包含大量冗余信息,直接處理所有數據不僅計算成本高,還可能分散模型對關鍵特征的關注。如圖2所示,在擴散模型中,潛在表示通常被劃分為小塊進行逐步處理,但并非所有小塊對生成任務的重要性都是相同的。因此,為了進一步提升擴散模型在音樂生成領域的效率與質量,本文將 策略改進后引入到音樂生成任務中,專門針對音頻數據在頻率域和時間域的冗余問題,旨在減少不必要的計算負擔,同時確保生成效果的一致性和精確性。

圖2token drop 策略示意圖Fig.2Illustration of token drop

對于tokendrop策略,潛在表示 zt 被劃分為大小為 p×p 的小塊,每個小塊展平成向量后形成令牌,令牌總數為 N=(h× w)/p2 ,其中, p 表示劃分塊(patch)的大小, h 和 w 分別表示潛在表示 zt 的空間維度(即高度和寬度)。隨后,這些令牌被重塑為矩陣 u∈Rd×N ,其中 d=c×p2 表示單個令牌的維度, c 表示潛在表示 zt 的通道維度。為減少冗余計算,本文設計了動態掩蔽機制,對令牌矩陣 進行選擇性掩蔽。具體實現如下:a)定義掩蔽比例 ρ ,用于確定需要掩蔽的令牌數量 ρN? 。掩蔽比例 ρ 定義為需要掩蔽的令牌占總令牌數的比例,其中, .ρ 取值為 0?ρ?1 ,當 ρ=0 時不掩蔽任何令牌,當 ρ=1 時所有令牌都被掩蔽。b)構造掩碼矩陣 M∈RN ,通過隨機或基于特定權重選擇部分令牌進行掩蔽, M[i]=1 表示被掩蔽, M[i]=0 表示未掩蔽。c)掩蔽后的令牌表示為 u=M?u+(1-M)?O 其中 ? 表示逐元素乘積操作。此時,僅保留未掩蔽令牌參與后續的擴散建模,從而顯著減少計算開銷。

擴散模型的編碼器專注于未掩蔽令牌 u 的處理,生成特征表示 q 。為恢復被掩蔽的令牌,本文引入側插值器 Int(?) ,通過插值方式填補掩蔽區域,公式為

k=(1-M)???q+M?Int(q)

其中: Int(q) 表示根據編碼器輸出 q 對掩蔽令牌進行估計。插值后的令牌 k 結合位置嵌入輸入解碼器,恢復完整的潛在表示 ,并通過VAE解碼器還原高分辨率音頻數據。

2.3self-conditioning策略

在擴散模型中,每一步的去噪網絡需要對原始信號 x0 進行逐步還原。然而,以下問題限制了生成質量和效率。一方面,上一步生成的先驗信息利用不足,模型無法利用前一時間步的估計結果,導致每一步都是“從零開始”,未能充分發揮時間序列的協同作用。另一方面在于誤差累積。由于每一步預測與前一步無關,任何噪聲或偏差都會在后續時間步中逐步放大,影響生成的穩定性和質量。因此,本文提出self-conditioning策略,通過將前一時間步的估計值作為附加輸人,逐步優化對x0 的估計,提高采樣過程的準確性和魯棒性。

在標準的擴散采樣中,在每個時間步 Φt ,去噪網絡 θ, 在僅使用 xt 作為輸入的情況下生成對 x0 的估計 t,θ) 。標準擴散模型在每個時間步 Φt 獨立生成對 x0 的估計 ,未能利用前一時間步的估計來逐步優化結果。Self-conditioning通過在去噪網絡中引入上一時間步的估計 ,使網絡能夠參考歷史信息來改進當前時間步的預測。在self-conditioning中,去噪網絡的估計修改為

其中: 是前一時間步 t+1 的估計結果。為在網絡輸入中集成 self-conditioning,通常通過在特征軸上將 xt 拼接。

在訓練階段,為了近似self-conditioning的推理行為,同時保持計算效率,采用以下兩步方法:

a)初步估計(無self-conditioning)。設置self-conditioning輸人為零,即 ,計算一個初步估計:

其中: 是僅根據當前噪聲表示 xt 和時間步 Φt 的估計結果。

b)帶self-conditioning的估計。在第一次前向傳播中得到初步估計 后,通過停止梯度(stop-gradient)操作,將 用作self-conditioning輸人,進行第二次前向傳播:

去噪網絡使用兩次前向傳播的輸出進行優化,以便能夠準確估計 x0 。

3 實驗及分析

本章通過對比實驗和多組消融實驗,全面驗證本文EDDM的效果和性能。在藏文音樂數據集上對模型進行評估,并與現有先進方法進行比較,從客觀指標和主觀人類驗證兩方面證明其優越性。

3.1數據集及實驗設定

本實驗使用的藏族音樂數據集包含多種音樂音頻格式樣本,經過Wiener去噪算法處理以提升音質,有效去除背景噪音。所有音頻樣本統一設置為 24kHz 的采樣頻率,以確保輸入數據的一致性。數據集被劃分為訓練集和測試集,其中訓練集占總數據的 80% (約4000個樣本),測試集占 20% (約1000個樣本),確保不同音樂風格和演奏者的樣本均勻分布。

在情感信息提取過程中,采用情感識別模型從音頻中提取梅爾頻率倒譜系數(MFCC)及節奏特征等低級特征。音頻樣本經過人工標注,構建了包括快樂、悲傷、憤怒和平靜等情感標簽。情感識別模型基于這些標注數據進行訓練,以預測未標注音頻樣本的情感標簽。

在擴散模型的實驗設置中,采用基于score-based的擴散模型[25],結合SourceVAE[29]提取音頻信號的潛在表示。訓練過程中使用訓練集中的音頻樣本進行模型優化,損失函數包括梅爾重構損失、特征匹配損失、對抗損失和KL散度損失。參數設置方面,學習率設為0.001,擴散步數為15000,噪聲標準差范圍設定為[0.01,3],以確保模型的收斂性和生成效果。

在測試階段,FAD、JSD和NDB指標對生成的音頻樣本進行定量評估。其中,FAD用于衡量生成音頻與真實音頻之間的分布距離,值越小表示相似度越高;JSD用于衡量生成音頻與真實音頻特征分布的相似性,取值在[0,1],值越小表示兩組分布越相似;NDB用于評估生成數據的多樣性,通過計算生成音頻在特征空間中分布到不同“箱子”的數量來衡量,NDB值越大則表示生成音頻的多樣性越高。

3.2 對比實驗

在本次實驗中,本文評估了多種音頻生成模型的性能,包括DAC[15]、 AUDIOGen[30] 、Encodec[20]、MSDM[23]、MSLDM[25]以及本文EDDM( TD-50% )和EDDM( TD-0% ),通過FAD、JSD和NDB三個關鍵指標進行對比分析。

本研究采用以下訓練策略:a)使用 50% 的 token drop 率和80% 的self-conditioning率進行訓練,通過該策略訓練得到的模型稱為EDDM( TD-50% );b)在此基礎上進一步訓練EDDM( TD-50% ),保持相同的 self-conditioning率,修改 token drop率為 0% ,此時訓練得到的模型稱為EDDM( TD-0% )。

這種訓練策略是參考文獻[17]進行的,其核心思想是在初始階段引入tokendrop,以提升模型對缺失信息的魯棒性,同時提高訓練效率,而后去除tokendrop,使模型能夠學習完整的token信息,從而在最終生成時保持高質量。該訓練策略既可以保證訓練效率,同時又能最大限度地保證質量。

不同模型在藏文音樂數據集生成效果對比如表1所示。DAC、AUDIOGen和Encodec模型直接從原始音源信息來生成音樂,不同模型表現出了不同程度的優勢。DAC在FAD(4.65)和JSD(0.45)上表現較好,但NDB值僅為5,顯示生成音頻的多樣性較低;AUDIOGen通過改進的特征建模機制獲得了更優的性能指標( FAD=4.30 ! JSD=0.15 , NDB=9 );Enco-dec則在所有指標上均表現最佳( FAD=3 .15, JSD=0 .11,NDB=15 ),表明其生成音頻不僅高質量且具備顯著的多樣性,這得益于其先進的編碼解碼策略。其次,MSDM和MSLDM作為同時關注音源分離與音樂生成的代表表現出一定差異。MSDM在音頻質量方面與DAC相近( FAD=4.98 ,特征分布和多樣性指標略有提升( JSD=0.23 , NDB=6 )。MSLDM通過改進的潛空間建模獲得了更優的生成效果( FAD=4.20 , JSD= 0.14, NDB=10 )。最后,本文EDDM( TD-50% )在保持較高音頻質量的同時( FAD=3.80 , JSD=0.12 ),展現了良好的多樣性( NDB=12 );EDDM( TD-0% )在所有評估指標上均達到最優水平 FAD=2.35 , JSD=0.08 , NDB=18 ),顯著優于基準模型。實驗結果表明,相較于現有方法,本文模型在藏族音樂生成任務上通過完整保留特征信息,在音頻質量和生成多樣性方面均實現了顯著提升。

[ab.1Comparison of generation performance of different models ol the Tibetan music dataset

3.3tokendrop和self-conditioning比率影響

本節測試了不同tokendrop和self-conditioning比率對生成音樂的影響。表2的結果表明,self-conditioningrate和tokendroprate對生成音樂的質量和多樣性具有顯著影響。為了更清晰地展示表2的結果,本文結合散點圖和等高線圖來展示。從圖3可以看出,高self-conditioningrate( 80% )與適度tokendroprate( 50% )的組合在生成質量和訓練效率上實現了最佳平衡。針對表2和圖3分析如下:a)self-conditioningrate的影響。在固定tokendrop 的情況下,較高的 self-conditioning rate帶來了更好的生成效果,顯著提高了生成的一致性和情感表達能力。然而,為了避免模型過度依賴自我信息而導致的潛在缺陷(如缺乏多樣性和靈活性),本文選擇將self-conditioning rate設置為 80% ,以確保生成結果的穩定性和多樣性。b)tokendroprate的影響。在固定self-conditioning的情況下,較低的tokendroprate有助于保留更多信息,但可能導致模型的處理效率下降。如表2所示,雖然tokendroprate為 20% 時的FAD、JSD、NDB優于 token drop rate為 50% 的,但是會導致訓練效率有所下降,GFLOPS明顯高于tokendroprate為 50% 的。而過高的 token drop rate( 80% )則會導致FAD、JSD、NDB指標顯著下降。因此,綜合考慮生成效果和計算效率,本文選擇將tokendroprate設置為 50% 。此外,本文采用了漸進式策略,在后續的二階段訓練中不僅能在維持高生成質量的同時增強多樣性,也有助于優化模型的訓練效率。

表2self-conditioning 和 token drop 不同比率的結果對比

3.4不同模塊的消融實驗

本節實驗測試不同模塊對模型的性能及生成效果產生的影響。如表3所示,去掉情感特征編碼模塊(w/osentiment)時,FAD值為4.50,JSD為0.15,NDB為10。這表明缺乏情感信息會影響生成音頻的質量,盡管多樣性仍然保持在較高水平。去掉self-conditioning機制(w/oSC)后,FAD值上升至5.72,JSD為0.24,NDB降至7。這說明self-conditioning機制在生成過程中起到了一定的提升作用,缺失它會導致生成效果的下降,尤其是在一致性方面。在不進行tokendrop的情況下(w/oTD),FAD值降至3.13,JSD為O.11,NDB上升至13。這表明該方法能顯著提高生成音頻的質量和一致性,同時增加了多樣性,顯示出tokendrop對改善生成結果的積極作用。最后,當同時去掉self-conditioning機制和tokendrop時(w/oSCamp;TD),FAD值增加至6.20,JSD為0.25,NDB降至6。再次證實了這兩種機制對生成效果的重要性,其缺失會顯著降低生成音頻的質量和一致性,同時也會對多樣性產生負面影響。綜上所述,情感編碼模塊、self-conditioning機制和tokendrop在生成模型中各自發揮著重要的作用,合理的組合能夠顯著提升生成音頻的質量和多樣性。

表3不同模塊的消融實驗結果

Tab.3Ablation experiment results of different modules

3.5 性能分析

為了驗證本文模型在性能上的優越性,比較了不同模型的參數量、GFLOPS以及推理時間。如表4所示,EDMM(TD-0% )在生成音頻的質量方面表現最佳,FAD值為2.35,優于其他所有模型,同時保持了相對較低的計算復雜度(GFLOPS為15.2)和推理速度(4.91s)。相比之下,EDDM( TD-50% )在質量和效率之間實現了更好的平衡,推理速度更快(4.68s),且GFLOPS為14.5。通過這兩種 策略的結合,本文模型在確保音頻質量的同時有效降低了計算資源的消耗。

Tab.4Performanceanalysis of different models

此外,本文分析了 所帶來的效率提升。隨著to-kendrop的加入,模型用較短的時間可以達到相當的效果。如圖4所示,圖中“wtokendrop”表示帶有 的訓練任務,“w/otokendrop\"表示不進行tokendrop策略的訓練任務??梢杂^察到:a)隨著訓練時間的進行,兩種訓練任務的錯誤率都在不斷下降;b)“wtokendrop\"任務在整個訓練過程中始終優于“w/o token drop\"訓練任務,這意味著 tokendrop 策略有助于更快地提高模型性能;c)在相同的錯誤率的情況下,“w to-kendrop\"能在更少的計算資源和時間內達到更優的水平。此外,從圖中可以看出,“wtokendrop\"在處理復雜音樂特征時表現更穩定,降低冗余特征干擾,使模型更專注于重要模式的學習從而提升模型的上限。因此,通過引入tokendrop策略,可以在較短時間內獲得更優的效果,從而加快訓練過程并提高模型效率。

3.6 可視化比較

如圖5所示,本文通過音樂波形的方式可視化展示了不同模型生成音頻的特征,對比真實音頻(GT)與本文模型(EDDM),可以明顯觀察到兩者在波形上具有高度的相似性,與其他模型相比,EDDM與GT的重疊程度顯著高于MSLDM、MSDM和Encodec,這表明本文生成的音頻在保留真實音樂特征方面表現優異。結果表明,本文模型在捕捉音樂的細微特征和動態變化方面表現出色,能夠生成更自然和真實的音頻信號。MSLDM和MSDM的波形與GT相比存在明顯的偏差,顯示出它們在音頻生成上的局限性,導致生成音頻在情感表達和音質上不夠理想。

3.7 人類驗證

為評估不同音頻生成模型在聽覺質量方面的表現,實驗選取了50個生成的音頻結果,分別從可理解性(intelligibility)、自然性(naturalness)質量(quality)和同步性(synchronization)四個維度通過人類聽眾的主觀評價進行評分,維度評價結果能夠反映聽眾對音頻生成效果的整體感受。評分結果如表5所示,MSLDM的表現較為遜色,各個維度的評分均低于其他模型,可理解性為 3.29±0.15 ,自然性為 3.23±0.17 ,質量為2.98±0.14 ,且同步性為 3.68±0.11 。這些結果表明MSLDM在音頻生成的質量和自然性方面存在明顯不足。Encodec的表現略優于MSLDM,在可理解性、自然性、質量和同步性上的評分分別為 3.75±0.11,3.98±0.12,3.60±0.11 ,以及 3.82± 0.11。盡管這些分數優于MSLDM,但仍低于本文模型,表明其在音頻生成質量方面的改進空間。本文模型整體表現較為均衡,在可理解性和自然性方面的評分為 3.87±0.12 和 4.01± 0.15,能夠達到更加清晰自然的用戶聽感體驗,且在質量( 3.54± 0.10)和同步性( 3.87±0.11 )方面也取得了較為滿意的結果。綜上所述,本實驗通過人類評價提供了音頻生成模型在多個維度上的量化比較,結果顯示,本文模型在可理解性、自然性、質量和同步性方面均具有相對優勢。

圖5不同模型生成的音樂與真實音樂的頻譜特征對比分析 Fig.5Comparison analysis of spectral features between music generatedbydifferentmodelsand real music

表5人工評估得分對比

Tab.5Comparison of human evaluation scores

4結束語

本文針對藏族音樂生成中的核心挑戰,提出了一種基于情感引導的擴散模型,成功克服了現有技術在情感引導、高維特征冗余及上下文一致性方面的不足。通過使用LatentDiffusion框架,模型有效提取了關鍵潛在特征,并結合情感特征編碼器實現了音樂情感特征的嵌入。此外,引入tokendrop策略顯著增強了生成的魯棒性和多樣性,而self-conditioning機制確保了多樂器音源之間的旋律和情感一致性。實驗結果表明,本文模型EDDM在FAD(2.35)、JSD(O.08)和NDB(18)等指標上均表現優異,顯示出其在音頻生成質量和特征分布上的顯著優勢。人類評價方面,模型在可理解性( 3.87±0.12 )、自然性(4.01±0.15 )、質量 (3.54±0.10 )和同步性 (3.87±0.11 )上的評分也表明其良好的生成性能。未來研究可以探索更豐富的情感特征嵌入機制、改進模型的上下文理解能力,并進一步提升生成音頻的多樣性和真實性,以拓寬該方法在其他民族音樂生成中的應用潛力。

參考文獻:

[1]Copet J,Kreuk F,Gat I,et al. Simple and controllable music generation[C]//Proc of the 37th International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc., 2023:47704-47720.

[2]Lam M WY, Tian Qiao,Li Tang,et al. Efficient neural music generation[C]//Proc of the 37th International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2023:17450-17463.

[3]Evans Z,ParkerJD,Carr CJ,et al.Long-form music generation with latent diffusion[EB/OL].(2024-04-16).htps://arxiv.org/ abs/2404.10301.

[4]考吉桑.藏戲發展現狀及音樂藝術特征[J].文化藝術創新·國 際學術論壇,2024,3(7):1-3.(Kaoji Sang.The current development status and music art characteristics of Tibetan opera[J].International Academic Forum on Cultural and Artistic Innovation, 2024,3(7):1-3.)

[5]van den OordA,DielemanS,Zen H,etal.WaveNet:a generative model for raw audio [EB/OL].(2016-09-13). htps://arxiv. org/ abs/1609.03499.

[6]KumarR,Seetharaman P,Luebs A,et al.High-fidelity audio compression with improved RVQGAN[C]//Proc of the 37th International Conference on Neural Information Processing Systems. Red Hook, NY:Curran Associates Inc.,2023:27980-27993.

[7]Zeghidour N,Luebs A,Omran A,et al. Soundstream:an end-to-end neural audio codec[J]. IEEE/ACM Trans on Audio,Speech, and Language Processing,2021,30: 495-507.

[8]van den Oord A,Vinyals O.Neural discrete representation learning [C]//Proc of the 37th International Conference on Neural Information Processing Systems.Red Hook,NY: Curran Associates Inc., 2017:6309-6318.

[9].Defossez A,Copet J,Synnaeve G,et al. High fidelity neural audio compression [EB/OL].(2022-10-26).https://arxiv.org/abs/ 2210.13438.

[10] Kong J,Kim J,Bae J.HiFi-GAN: generative adversarial networks forefficientand high fidelity speech synthesis[C]//Proc of the 37th International Conference on Neural Information Processing Systems. Red Hook,NY:Curran Associates Inc.,2020:17022-17033.

[11] Dhariwal P,JunH,Payne C,et al.Jukebox:a generative model for music [EB/OL].(2020-04-30)). https://arxiv.org/abs/2005. 00341.

[12]Agostinell A,Denk TI,Borsos Z,et al. MusicLM: generating music from text [EB/OL].(2023-01-26).https://arxiv.org/abs/2301. 11325.

[13]Huang Qingqing,Park DS,Wang Tao,et al.Noise2Music:textconditioned music generation with difusion models[EB/OL]. (2023-03-06). https://arxiv.org/abs/2302.03917.

[14]Yang Dongchao,Yu Jianwei,Wang Helin,et al. Diffsound:discrete diffusion model for text-to-sound generation[J].IEEE/ACM Trans on Audio,Speech,and Language Processing,2023,31: 1720-1733.

[15]Chen Ke,Wu Yusong,Liu Haohe,et al.MusicLDM: enhancing novelty in text-to-music generation using beat-synchronousmixup strategies [C]//Proc of IEEE International Conference on Acoustics, 1206-1210.

[16]LiPP,Chen Boyu,Yao Yao,et al.JEN-1:text-guided universal music generation with omnidirectional diffusion models[C]//Proc of IEEE Conference on Artificial Intellgence.Pisceataway,NJ:IEEE Press,2024:762-769.

[17]He Kaiming,Chen Xinlei,Xie Saining,et al.Masked autoencoders are scalable vision learners [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:16000-16009.

[18]HuangCZA,Vaswani A,Uszkoreit J,et al.Music Transformer [EB/OL].(2018-12-12).https://arxiv.org/abs/1809.04281.

[19]Xu Senrong,Li Liangyue,Yao Yuan,et al.MUSENET:multiscenario learning for repeat-aware personalized recommendation [C]//Proc of the 16th ACM International Conference on Web Search and Data Mining.New York:ACM Press,2023:517-525.

[20]Mittal G,Engel J,HawthorneC,etal.Symbolic music generation with diffusion models[EB/OL].(2021-03-31).https://arxiv.org/ abs/2103.16091.

[21]Dong Haowen,HsiaoWY,YangLC,et al.MuseGAN:multi-track sequential generative adversarial networks for symbolic music generationand accompaniment[C]//Proc ofAAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018.

[22]Parker JD,Spijkervet J, Kosta K,et al. STEMGEN: a music generation model that listens[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2024:1116-1120.

[23]Pasini M,Grachten M,Latner S. Bass accompaniment generation via latent diffusion [C]//Proc of IEEE International Conferenceon Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2024:1166-1170.

[24]Donahue C, Caillon A,Roberts A,et al. SingSong:generating musical accompaniments from singing[EB/OL].(2023-01-30). https:// arxiv.org/abs/2301.12662.

[25]MarianiG,Tallini I,PostolacheE,etal.Multi-source diffusion models for simultaneous music generation and separation[EB/OL]. (2023-02-04).htps://arxiv.org/abs/2302. 02257.

[26]Ho J, Jain A,Abbeel P.Denoising diffsion probabilistic models [C]//Proc of the 37th International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc., 2020: 6840-6851.

[27]Krols T,Nikolova Y,Oldenburg N.Multi-modality in music:predicting emotion in music from high-level audio features and lyrics[EB/ OL]:(2023-02-26).htps://arxiv.org/abs/2302.13321.

[28]Wang Yuqing,He Ye,Tao Molei.etal.Elucidating the design space of difusion-based generative models[C]//Proc of the 37th International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2025:19307-19352.

[29]Xu Zhongweiyang,DuttaD,Wei Yulin,etal.Multi-source music generation with latent diffsion[EB/OL].(2024-09-10).https:// arxiv. org/abs/2409.06190.

[30]KreukF,Synnaeve G,Polyak A,etal.AUDIOGEN:textually guided audio generation[EB/OL].(2023-03-05).htps://arxiv. org/abs/2209.15352.

主站蜘蛛池模板: 日韩经典精品无码一区二区| 国产在线拍偷自揄观看视频网站| 亚洲成在人线av品善网好看| 精品成人一区二区三区电影| 久久国产毛片| 国产九九精品视频| 亚洲AV无码久久精品色欲| 这里只有精品免费视频| 最近最新中文字幕免费的一页| 国产高清在线观看91精品| 色综合狠狠操| 在线观看av永久| 国产激情第一页| 99在线观看视频免费| 久久a级片| 欧美在线国产| 毛片一级在线| 亚洲AV无码乱码在线观看代蜜桃| 国产亚洲一区二区三区在线| 亚洲综合色婷婷| 朝桐光一区二区| 国产成人久久777777| 午夜激情福利视频| 国产精品极品美女自在线看免费一区二区| 亚洲精品日产精品乱码不卡| 久久午夜夜伦鲁鲁片不卡| 亚洲va精品中文字幕| 国产精品亚洲va在线观看| 国产精品视频久| 亚洲国产综合精品一区| 国产一级妓女av网站| 91九色视频网| 成人国产三级在线播放| 国产第一色| 中文字幕欧美日韩| 日本精品一在线观看视频| 国产综合亚洲欧洲区精品无码| 都市激情亚洲综合久久| 亚洲视频无码| AV不卡无码免费一区二区三区| 九色在线视频导航91| 亚洲人成网站观看在线观看| 99r在线精品视频在线播放| 国产精品福利导航| 亚洲国产欧美自拍| 国产成人综合欧美精品久久| 三上悠亚在线精品二区| 一区二区理伦视频| 人妻无码中文字幕第一区| 福利视频99| 久久国产免费观看| 欧洲熟妇精品视频| 国产伦片中文免费观看| 欧美日韩久久综合| 国产精品七七在线播放| 国产亚洲现在一区二区中文| 欧美一级黄片一区2区| 就去吻亚洲精品国产欧美| 亚洲国产欧洲精品路线久久| 欧美成人精品在线| 免费一级毛片| 国产午夜一级毛片| 亚洲日韩高清无码| 亚洲,国产,日韩,综合一区| 国产成人一区在线播放| 国产SUV精品一区二区6| 国产小视频免费| 人妻中文久热无码丝袜| 精品91自产拍在线| 色妞www精品视频一级下载| 国产乱子伦无码精品小说| 欧美无遮挡国产欧美另类| 91精品国产情侣高潮露脸| 亚洲动漫h| 国模私拍一区二区三区| 91麻豆精品国产高清在线| 1024国产在线| 亚洲无码免费黄色网址| 欧美色伊人| 免费高清自慰一区二区三区| 麻豆精品在线播放| 亚洲成aⅴ人在线观看|