郭聯(lián)俊, 侯峰
(陜西鐵路工程職業(yè)技術(shù)學(xué)院, 工程管理與物流學(xué)院, 陜西, 渭南 714000)
人們的生活情感可以通過(guò)音樂(lè)得以體現(xiàn),在人們的日常生活和精神生活中音樂(lè)屬于重要構(gòu)成部分[1]。數(shù)字音樂(lè)資源在數(shù)字時(shí)代中的數(shù)量直線上升,管理海量音樂(lè)資源的基礎(chǔ)是對(duì)音樂(lè)風(fēng)格進(jìn)行分類[2]。國(guó)內(nèi)對(duì)音樂(lè)風(fēng)格分類的研究與國(guó)外相比起步較晚,但越來(lái)越多的國(guó)內(nèi)外學(xué)者開始研究音樂(lè)風(fēng)格分類,在音樂(lè)風(fēng)格特征提取和分類等領(lǐng)域取得了一定的成就,并提出了部分音樂(lè)風(fēng)格分類模型。
文獻(xiàn)[3]提出基于PNN的音樂(lè)風(fēng)格分類方法,該方法建立音樂(lè)情感與特征之間的聯(lián)系模型,并提取音樂(lè)播放的特征參數(shù),將其輸入神經(jīng)網(wǎng)絡(luò)中,實(shí)現(xiàn)音樂(lè)風(fēng)格的分類。該方法具有較好的準(zhǔn)確率,但無(wú)法對(duì)獲取的音樂(lè)特征參數(shù)進(jìn)行融合處理,分類結(jié)果的ROC曲線不理想,存在F1值低的問(wèn)題。文獻(xiàn)[4]提出基于度量學(xué)習(xí)和特征提取的MP3音樂(lè)分類模型。度量學(xué)習(xí)過(guò)程考慮使用結(jié)構(gòu)化預(yù)測(cè)方法從包含多個(gè)音樂(lè)流派的一組MP3音頻文件中學(xué)習(xí)一組參數(shù)化距離。利用Mel倒譜系數(shù)(MFCC)提取聲學(xué)信息,并利用主成分分析進(jìn)行降維,實(shí)現(xiàn)MP3音樂(lè)分類。該方法能夠有效實(shí)現(xiàn)音樂(lè)分類,但沒(méi)有對(duì)音樂(lè)標(biāo)簽進(jìn)行融合處理,導(dǎo)致處理候選標(biāo)簽所用的時(shí)間較長(zhǎng),存在時(shí)間復(fù)雜度高的問(wèn)題。
為了解決上述方法中存在的問(wèn)題,本文提出基于改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)的音樂(lè)風(fēng)格分類模型優(yōu)化方法。利用D-S證據(jù)理論,融合處理提取的音樂(lè)特征,縮短了特征數(shù)據(jù)所用時(shí)間,進(jìn)而降低了時(shí)間復(fù)雜度。融合處理后的音樂(lè)特征,采用改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò),構(gòu)建音樂(lè)風(fēng)格分類模型,實(shí)現(xiàn)音樂(lè)風(fēng)格分類,提高了方法的有效性。
本文主要從音色、節(jié)奏和音高三個(gè)方面進(jìn)行音樂(lè)特征提取。具體的特征提取過(guò)程如下。
1) 音色特征提取
音色主要由頻域統(tǒng)計(jì)特征決定,音色特征提取實(shí)際上就是頻域統(tǒng)計(jì)特征的提取。由于頻率通常情況下會(huì)影響音色的概率,因此采用短時(shí)傅里葉變換方法,提取頻域統(tǒng)計(jì)特征[5]。在提取頻域統(tǒng)計(jì)特征之前,首先用x(n)描述音樂(lè)信號(hào)的原始時(shí)域,通過(guò)傅里葉變換音樂(lè)時(shí)域獲得序列Y(k)=FFT(x(n))。
在此基礎(chǔ)上,對(duì)于音頻信號(hào),常見的頻譜統(tǒng)計(jì)特征包括譜質(zhì)心、譜擴(kuò)散、譜偏度、譜峰度、滾降截止頻率、譜通量及譜平坦度。計(jì)算頻譜統(tǒng)計(jì)特征及其公式如下。
(1) 譜質(zhì)心
設(shè)μ代表譜質(zhì)心,可通過(guò)式(1)計(jì)算得到:
(1)
式中,f(k)代表第k個(gè)頻帶對(duì)應(yīng)的中心頻率,m1代表頻率對(duì)應(yīng)的一階中心距。頻率通常情況下屬于隨機(jī)變量,歸一化的幅值即為頻率的概率密度p(f(k))[6]:

(2)
(2) 譜擴(kuò)散
譜擴(kuò)散σ描述的是普矩心在頻譜中的擴(kuò)散程度[3],可通過(guò)式(3)計(jì)算得到:
(3)
式中,m2代表頻率對(duì)應(yīng)的二階中心距。
(3) 譜偏度
譜偏度的表達(dá)式如下:
(4)
式中,m3代表頻率對(duì)應(yīng)的三階中心距。
(4) 譜峰度
譜峰度代表在中心附近頻率分布的平坦程度:
(5)
式中,m4代表頻率對(duì)應(yīng)的四階中心距。
(5) 滾降截止頻率
滾降截止頻率描述的是當(dāng)音樂(lè)信號(hào)總量衰減為95%的狀態(tài)下能量對(duì)應(yīng)的頻率,其表達(dá)式如下:
(6)
式中,fc代表衰減截止頻率,sr代表采樣率。頻譜形狀的特性在一般情況下可以通過(guò)滾降截止頻率進(jìn)行度量[7]。
(6) 譜通量
頻率幅度的變化情況可以通過(guò)譜通量Flux進(jìn)行反映[8]:
(7)
式中,Yt(k)代表經(jīng)過(guò)傅里葉變換后第t幀序列。
(7) 譜平坦度
譜平坦度SFM可以通過(guò)式(8)計(jì)算:
(8)
通過(guò)上述公式,對(duì)音色特征進(jìn)行提取。
2) 節(jié)奏特征提取
節(jié)奏特征的提取實(shí)際上就是提取節(jié)拍相關(guān)特征,即獲取節(jié)拍分布直方圖。通過(guò)在信號(hào)中尋找節(jié)拍顯著性最強(qiáng)的周期性,實(shí)現(xiàn)音樂(lè)節(jié)奏特征的提取[9]。本文基于離散小波變換方法,結(jié)合節(jié)拍的低頻特征獲取音樂(lè)節(jié)拍,具體過(guò)程如下。
通過(guò)Mallat算法獲取小波系數(shù),每一層中都存在采樣過(guò)程以及低通、高通濾波表示為

(9)
式中,x1,L(n)代表高通濾波結(jié)果,x1,H(n)代表低通濾波結(jié)果,h(k)、g(k)分別代表低通和高通濾波器。小波分解流程如圖1所示。

圖1 小波分解流程
利用小波分解對(duì)低通、高通濾波進(jìn)行分解,得到序列信號(hào)α和干擾信號(hào)β,選取合適的低通和高通濾波器進(jìn)行重構(gòu),獲取序列信號(hào)在低通和高通濾波器上的重構(gòu)信號(hào)表示為

(10)

3) 音高特征提取
音高特征提取實(shí)際上就是獲取基音周期。基于自相關(guān)函數(shù)算法,在頻域上提取音高特征。音高特征的提取流程如圖2所示。
根據(jù)圖2可知,首先輸入初始信號(hào),并對(duì)輸入的初始信號(hào)進(jìn)行預(yù)處理,當(dāng)頻率小于1 kHz時(shí),通過(guò)低通濾波進(jìn)行周期檢測(cè);當(dāng)頻率大于1 kHz時(shí),經(jīng)過(guò)周期檢測(cè)后,再通過(guò)半波濾波進(jìn)行周期檢測(cè)。采用自相關(guān)函數(shù)算法,獲取基音周期,實(shí)現(xiàn)音高特征提取。

圖2 音高特征提取流程
在完成音樂(lè)特征提取后,利用D-S證據(jù)理論對(duì)上述提取的特征進(jìn)行融合處理,用樣本空間(a1,a2,…,an)描述上述過(guò)程提取的音樂(lè)特征信息作為證據(jù),通過(guò)M(ai)=exp DEN-7/G對(duì)樣本空間(a1,a2,…,an)進(jìn)行處理,獲得證據(jù)置信函數(shù)M1(a1),M2(a2),…,Mn(an),其中,ai描述的是DT-CWT紋理特征。
通過(guò)式(11)融合目標(biāo)多元證據(jù)置信函數(shù):

(11)

設(shè)Pl(A)代表融合似然函數(shù),Bel(A)代表融合置信度函數(shù),其表達(dá)式分別如下:

(12)
式中,2D由D的全部子集構(gòu)成。
通過(guò)最大類概率函數(shù)f(A)對(duì)音樂(lè)特征進(jìn)行判斷,實(shí)現(xiàn)音樂(lè)特征的融合:
(13)
式中,|A|、|D|分別代表A、D中元素的數(shù)量。
在實(shí)現(xiàn)音樂(lè)特征融合后,將融合的音樂(lè)特征輸入改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò),構(gòu)建音樂(lè)風(fēng)格分類模型。
(1) 將音樂(lè)特征輸入網(wǎng)絡(luò),對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)的權(quán)值矩陣W進(jìn)行初始化處理,將隱含層和可見層的偏置a、b初始化為0。

(3) 神經(jīng)元在隱含層對(duì)應(yīng)的激活概率值p(h|v)通常情況下為實(shí)數(shù),對(duì)其進(jìn)行二值化處理。
(4) 在深度學(xué)習(xí)網(wǎng)絡(luò)中反向傳播隱含層單元對(duì)應(yīng)的概率值,獲得重構(gòu)值v′。用p(v′|h)描述激活概率:
(14)
(5) 在改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)中正向傳播重構(gòu)的v′,計(jì)算反向傳播概率和激活概率。
(6) 利用上述計(jì)算結(jié)果獲取可見層中偏置b對(duì)應(yīng)的增量,同時(shí)在隱含層h中獲取偏置a對(duì)應(yīng)的增量。權(quán)值矩陣W的增量可通過(guò)反向傳播概率和正向傳播概率計(jì)算得到,通過(guò)式(15)構(gòu)建音樂(lè)風(fēng)格分類模型表示為

(15)
式中,ε代表學(xué)習(xí)率。
通過(guò)上述步驟,輸出音樂(lè)風(fēng)格分類結(jié)果。
為了驗(yàn)證基于改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)的音樂(lè)風(fēng)格分類模型優(yōu)化方法的整體有效性,需要對(duì)本文所提方法進(jìn)行測(cè)試,仿真環(huán)境選擇 MATLAB 2021,從九酷音樂(lè)平臺(tái)中1 500首歌曲作為實(shí)驗(yàn)所需的音樂(lè)文件,包括6種音樂(lè)風(fēng)格,每種風(fēng)格有250首歌曲。其中,1 000首作為訓(xùn)練級(jí)數(shù)據(jù),500首作為測(cè)試集數(shù)據(jù),本次測(cè)試的實(shí)驗(yàn)環(huán)境如表1所示。

表1 實(shí)驗(yàn)環(huán)境
采用基于改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)的音樂(lè)風(fēng)格分類模型優(yōu)化方法(方法1)、基于PNN的音樂(lè)風(fēng)格分類方法(方法2)和基于用戶評(píng)論的音樂(lè)風(fēng)格分類方法(方法3)分別進(jìn)行測(cè)試。
實(shí)驗(yàn)選取F1值、時(shí)間復(fù)雜度和ROC曲線作為測(cè)試指標(biāo)。其中,F(xiàn)1值是用來(lái)衡量模型精確度的一種指標(biāo),F(xiàn)1值越接近于1,表明方法模型的有效性越好。F1值表達(dá)式為
(16)
式中,macro_P代表樣本總體的精確率,macro_R代表樣本總體的召回率。
方法1、方法2和方法3的F1值測(cè)試結(jié)果如圖3所示。

圖3 F1值測(cè)試結(jié)果
分析圖3可知,在多次迭代中方法1的F1值遠(yuǎn)遠(yuǎn)高于方法2和方法3的F1值。F1值越高對(duì)應(yīng)的有效性越好,因而方法1可有效地實(shí)現(xiàn)音樂(lè)風(fēng)格的分類。其原因是方法1在音高、節(jié)奏和音色三個(gè)方面提取音樂(lè)風(fēng)格的特征,融合提取的特征實(shí)現(xiàn)音樂(lè)風(fēng)格的分類,提高了方法的有效性。
時(shí)間復(fù)雜度是一個(gè)算法的時(shí)間耗費(fèi),時(shí)間耗費(fèi)越長(zhǎng),時(shí)間復(fù)雜度就越高。但時(shí)間耗費(fèi)理論上是計(jì)算不出的,需要上機(jī)運(yùn)行測(cè)試進(jìn)行估計(jì)。通過(guò)運(yùn)行時(shí)間對(duì)方法1、方法2和方法3的時(shí)間性能進(jìn)行測(cè)試,不同方法的運(yùn)行時(shí)間測(cè)試結(jié)果如圖4所示。
由圖4可知,在多次迭代中方法1的運(yùn)行時(shí)間均在20 s以內(nèi),方法2在第1次迭代中獲得的運(yùn)行時(shí)間高達(dá)60 s,方法3的運(yùn)行時(shí)間在第2次迭代中高達(dá)70 s。通過(guò)上述分析發(fā)現(xiàn),方法1的運(yùn)行時(shí)間最短。因?yàn)榉椒?利用D-S證據(jù)理論對(duì)提取的音樂(lè)特征進(jìn)行了融合處理,縮短了特征數(shù)據(jù)所用的時(shí)間,進(jìn)而降低了方法1的時(shí)間復(fù)雜度。
ROC曲線是用來(lái)描述模型的性能,ROC曲線接近于1,表明方法模型的特異性和靈敏性越高。圖5中的橫縱坐標(biāo)分別代表特異性和靈敏度,不同方法的ROC曲線如圖5所示。
由圖5可知,方法1的ROC曲線接近于1,表明方法1對(duì)音樂(lè)風(fēng)格分類的特異性和靈敏度較好,因?yàn)榉椒?根據(jù)融合處理后的音樂(lè)特征采用改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)構(gòu)建了音樂(lè)風(fēng)格分類模型,利用分類模型實(shí)現(xiàn)音樂(lè)風(fēng)格的分類,提高了方法的特異性和靈敏度。根據(jù)方法2和方法3的ROC曲線可知,以上2種方法在音樂(lè)風(fēng)格分類的過(guò)程中無(wú)法同時(shí)滿足靈敏性和特異性,獲取的音樂(lè)風(fēng)格分類結(jié)果效果不理想。
音樂(lè)曲庫(kù)的規(guī)模隨著多媒體技術(shù)的發(fā)展不斷擴(kuò)大,并且還有大量的新曲目增加到音樂(lè)曲庫(kù)中,在上述背景下亟需有效的方法對(duì)音樂(lè)風(fēng)格進(jìn)行分類,方便用戶在海量音樂(lè)庫(kù)中檢索出自己喜歡的音樂(lè)曲目。目前音樂(lè)風(fēng)格分類方法存在分類有效性差和時(shí)間復(fù)雜度高的問(wèn)題,為此提出基于改進(jìn)深度網(wǎng)絡(luò)的音樂(lè)風(fēng)格分類模型優(yōu)化方法,提取音樂(lè)特征并進(jìn)行融合處理,通過(guò)改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)構(gòu)建音樂(lè)風(fēng)格分類模型,實(shí)現(xiàn)音樂(lè)風(fēng)格的分類,解決了目前方法中存在的問(wèn)題,為音樂(lè)曲庫(kù)規(guī)模的擴(kuò)大提供了保障。