劉萬軍,王佳銘,曲海成,董利兵,曹欣宇
基于頻譜空間域特征注意的音樂流派分類算法
劉萬軍,王佳銘*,曲海成,董利兵,曹欣宇
(遼寧工程技術大學 軟件學院,遼寧 葫蘆島 125105)( ? 通信作者電子郵箱wjm0703@126.com)
為了提升深度卷積神經網絡對音樂頻譜流派特征的提取效果,提出一種基于頻譜空間域特征注意的音樂流派分類算法模型DCNN-SSA。DCNN-SSA模型通過對不同音樂梅爾譜圖的流派特征在空間域上進行有效標注,并且改變網絡結構,從而在提升特征提取效果的同時確保模型的有效性,進而提升音樂流派分類的準確率。首先,將原始音頻信號進行梅爾濾波,以模擬人耳的濾波操作對音樂的音強及節奏變化進行有效過濾,所生成的梅爾譜圖進行切割后輸入網絡;然后,通過深化網絡層數、改變卷積結構及增加空間注意力機制對模型在流派特征提取上進行增強;最后,通過在數據集上進行多批次的訓練與驗證來有效提取并學習音樂流派特征,從而得到可以對音樂流派進行有效分類的模型。在GTZAN數據集上的實驗結果表明,基于空間注意的音樂流派分類算法與其他深度學習模型相比,在音樂流派分類準確率和模型收斂效果上有所提高,準確率提升了5.36個百分點~10.44個百分點。
音樂流派分類;深度卷積神經網絡;深度學習;空間注意力機制;梅爾頻譜
音樂是以聲音為媒介的一種藝術表現形式,是由不同的旋律、節奏、和聲等元素依照一定規律組合而成[1]。隨著互聯網與多媒體技術的飛速發展,參與音樂等藝術作品創作的人數及音樂作品的數量也與日俱增。傳統音樂作品的分類方法,通常是由專業人員對作品的音樂流派[2]進行分析后分類,但由于人工分類的局限性已無法適應當下需求。音樂信息檢索(Music Information Retrieval, MIR)作為一門橫跨音樂學、機器學習等多個專業的跨學科科學,通過計算機對音樂進行自動分類,在克服人工分類局限性的同時大幅度提升了分類效率[3],其中流派分類應用廣泛。
音樂流派自動分類步驟:1)對原始音頻信號進行預處理,提取具有流派屬性的特征;2)通過對不同流派特征進行進一步的提取并訓練,使得分類器具有良好的流派分類效果;3)將待分類音樂進行上述操作,通過訓練得到的分類器進行屬性判定。傳統機器學習應用于音樂流派分類領域時,影響流派分類效果的主要因素為流派特征的提取和分類器的選取。Wold等[4]通過對原始音頻信號進行均值、自相關系數等處理提取音頻特征,然后通過NN(-Nearest Neighbors)算法[5]進行流派屬性判別。Tzanetakis等[3]將音樂的音高、音色和節奏等屬性組合為特征集合,通過高斯混合模型[6]等算法進行特征集選取后分類。徐星[7]引入頻譜方差等音頻特征,結合主成分分析及稀疏編碼理論進行降維,分析并研究了稀疏表示的模型分類。傳統機器學習在音樂流派分類領域已經證明了流派自動分類的效果,但存在容易過擬合和難以處理大規模樣本等問題[8]。隨著深度學習的發展,基于神經網絡的流派分類方法可以有效地解決上述問題。
神經網絡憑借其多層非線性變換的屬性,對高維數據復雜表示的學習具有優勢[8]。隨著深度學習在人工智能各領域的廣泛應用[9-12],其在音樂流派分類領域的優勢也隨之凸顯。Li等[13]通過三個一維卷積層構成的卷積神經網絡對音頻信號的梅爾倒譜系數進行學習并分類。Dieleman等[14]以一維卷積和一維最大池化為主設計卷積神經網絡,并驗證了在特征預處理階段梅爾頻譜在特征表達上的有效性。Yang等[15]對卷積神經網絡結構進行改進,通過重復的卷積層和與其對應的池化層,增大網絡深度,提升網絡模型的特征提取效果。上述深度學習模型在音樂流派分類領域的應用,顯著提升了流派分類效果,但仍存在問題:1)特征預處理方法對音樂流派特征提取缺乏適用性;2)單純堆疊卷積層深化網絡,難以在確保模型有效性的同時對特征進行高維抽象提取;3)普通卷積容易忽略音頻譜圖中對音樂節奏特性的表達。
本文在對比了多種特征預處理方法與模型結構后,對音頻譜圖流派特征提取的算法模型進行增強,提出了一種基于頻譜空間域特征注意的音樂流派分類算法模型——DCNN-SSA(Deep Convolutional Neural Network Spectral Spatial Attention),旨在增強算法模型對音樂音頻譜圖中流派特征的提取性能,進而提升算法模型音樂流派分類的準確率。
不同流派音樂在音強、節奏等音樂特性表達上具有一定差異,模型通過對這些差異進行有效學習實現對不同流派音樂的良好判定。通過對原始音頻信號進行梅爾頻譜和梅爾頻譜倒譜系數兩種特征的提取,對比兩種方法對音樂流派特性表達的優異程度。梅爾頻譜的處理過程與人耳聽覺系統濾波類似,而梅爾頻譜倒譜系數是在梅爾頻譜的基礎上進行對數能量譜變換,但在音樂流派特征提取中離散余弦變換容易丟失部分音頻信號的信息,降低音頻信號間的相關性[16],因此選擇梅爾頻譜對原始音頻信號進行特征提取。
在時域范圍內,音頻信號的狀態是非穩定的,所以要先對音樂原始音頻信號進行分幀、加窗操作,在短時間內假定音頻信號的穩定性[17];其次對得到的音頻信號進行快速傅里葉變換;然后將變換后的音頻信號通過梅爾濾波器組,提取音頻信號的梅爾頻譜;最后將得到的所有頻譜進行拼接,得到原始音頻信號的梅爾頻譜。梅爾頻譜計算過程如圖1所示。

圖1 梅爾頻譜計算過程
由于梅爾濾波會對音頻信號進行數據降維,并且將分窗操作的數據進行單純拼接生成梅爾頻譜,對音頻信號間的相關性及音樂的節奏性表達容易產生損失。針對上述問題,對梅爾濾波后的數據進行數據維度上的還原,細化局部特征。通過對比多種還原方法,本文采用線性插值運算代替原有的拼接操作,在還原數據維度的同時,對數據間的相關變化進行擬合,增強音頻信號間的相關性。
維度還原前后的梅爾譜圖如圖2所示。

圖2 維度還原前后的梅爾譜圖
在音樂流派分類領域,流派判別過程中不需要對整體音樂信息進行分析,在訓練階段以音樂的整體梅爾譜圖為單元輸入網絡將造成大量的冗余計算。本文以227×227×1大小為譜圖單元,將提取到的梅爾譜圖進行切割后輸入網絡。
以切割后的譜圖集合作為模型輸入的優點:
在訓練階段,可以降低模型輸入大小,提升模型計算速度的同時,也提高了模型對局部細節特征的提取效果,并且擴大訓練規模,有利于模型訓練。
在測試階段,對音樂譜圖集合的流派判別結果進行統計,輸出判別概率最大的流派作為最終結果,有助于提升流派分類性能。
為增強DCNN對音頻譜圖處理的適應性,提升模型對譜圖流派性特征的提取效果,對網絡結構進行優化。通過多次實驗,對比不同模型結構,最終構建本文DCNN-SSA模型的網絡結構,如圖3所示。

圖3 DCNN-SSA網絡模型結構
DCNN-SSA模型對原始音頻信號的梅爾頻譜進行提取后,進行數據維度上的還原,以細化音頻信號的局部特征。將處理后的譜圖切割后輸入網絡,首先通過兩次小核卷積、池化操作,減少冗余參數,加快模型收斂;其次經過4個疊加的卷積層增強輸入網絡的音頻信號間的相關性依賴,對即將進行的空間域標注進行預處理;然后將特征增強后的音頻信號輸入空間注意模塊,在空間域上對音頻信號間的流派特性進行表達;最后將標注后的音頻信號輸入殘差模塊,以殘差特性對多層次音頻特征進行融合,對空間域標注后的音頻信號進行細節描述,對音頻信號的流派特性進行有效的提取。
模型訓練時,將模型對訓練集中全部音樂文件進行一次訓練,對驗證集中全部音樂文件進行一次驗證作為一個批次,多次迭代訓練模型和驗證模型,在到達指定批次時輸出音樂流派分類模型。
改進1 堆疊4個卷積層,增加感受野,增強音頻譜圖中特征的全局化表達,通過進行多次非線性映射,增加網絡模型的非線性擬合能力。
改進2 引入空間注意力機制,通過對特征的空間域注意,增強音頻譜圖中空間維度上的相關性依賴,進一步增強網絡模型對音頻譜圖中節奏性特征的提取效果。
改進3 在音頻譜圖的空間域注意后引入殘差思想,通過殘差特性對空間標注后音頻譜圖進行細節描述,進一步增強音頻譜圖中流派性特征的表達。
空間注意力機制可以通過其空間域敏感屬性對音頻譜圖的全局與局部細節特征進行多層次空間域標注。在空間注意模塊前預先疊加多個卷積層,增強譜圖中信息的相關性依賴,為空間注意模塊的特征提取提供預處理。通過多次實驗驗證,疊加4個卷積層時效果最佳,過多疊加卷積層易造成大量計算冗余,且對實驗結果影響甚微。空間注意模塊結構如圖4所示。

圖4 空間注意模塊結構
從圖4可以看出,該模塊對輸入的音頻譜圖同時進行全局平均池化與全局最大池化,將得到的特征圖進行拼接。得到的拼接特征圖再經過一層卷積,通過Sigmoid函數對特征空間域的相關性進行顯示。將得到的相關性參數作為權重,通過乘法對音頻譜圖原信號進行運算,完成在空間域上對音頻譜圖特征的重新標定。最后,將重新標定的音頻譜圖特征輸入下一層,完成空間注意模塊對音頻譜圖特征的有效標注,提高音頻譜圖節奏性特征提取的空間指向性,進一步提升音樂流派分類效果。
在空間注意模塊后,引入以殘差思想設計的殘差模塊。殘差思想的設計,主要是為解決網絡深度增加伴隨的梯度消失等問題。殘差思想通過殘差映射的方法,使網絡提升深度的同時確保訓練效率。
本文通過殘差直連通道的思想,對空間域特征提取后的音頻譜圖進行卷積操作,對空間注意模塊得到的譜圖進行更為抽象的高層次特征提取。通過對不同層次的特征提取,提升特征的多樣性與有效性;并在殘差模塊后添加一層卷積一層池化層,對融合得到的特征譜圖進行一次過濾,從而增強對音頻譜圖中流派特性的細節描述,進一步增強網絡對流派性特征的提取性能。殘差模塊結構如圖5所示。

圖5 殘差模塊結構
本文實驗服務器配置為Intel Core i9-10900K 3.70 GHz CPU+NVIDIA TITAN RTX GPU,對比實驗采用基于Python語言的Tensorflow深度學習框架構建深度學習模型。
GTZAN數據集為音樂流派分類領域常用的公開數據集[3]。該數據集共有1 000條音樂數據,且這1 000條音樂數據平均分布在10個音樂流派中,每一條音樂數據的時長約為30 s。本文實驗將數據集中的音樂文件轉換為頻譜圖后對音頻特征進行提取,以800條音樂數據作為訓練集,100條音樂數據作為驗證集進行監督學習,100條音樂數據作為測試集進行音樂流派分類準確率測試。
以學習率0.001、迭代次數37 000對模型驗證集進行實驗,迭代37 000次實驗結果如圖6所示。

圖6 迭代37 000次的實驗結果
根據圖6實驗結果分布可以看出,流派分類準確率隨迭代次數增加先提升,后趨向穩定。由圖可得,可認為模型相關參數在迭代31 000次后趨向穩定。
為了說明梅爾頻譜對流派分類結果的影響,以學習率0.001、迭代次數31 000,對驗證集進行特征預處理消融實驗。特征預處理消融實驗結果如圖7所示。特征預處理消融實驗流派分類準確率見表1。

圖7 特征預處理消融實驗結果
表1特征預處理消融實驗的流派分類準確率 單位:%

Tab.1 Genre classification accuracy of ablation experiment of feature preprocessing unit:%
通過分析圖7及表1中實驗結果可得,梅爾頻譜對音樂流派特征的提取較傳統傅里葉變換,可在驗證集上對音樂流派分類準確率提升1.92個百分點。
為了驗證DCNN-SSA模型主要模塊的有效性,以學習率0.001、迭代次數31 000,分別對驗證集進行消融實驗。驗證集模型主要模塊消融實驗結果如圖8所示。模型主要模塊消融實驗流派分類準確率見表2。
表2中,實驗a為原始模型,實驗b為增強空間域注意模型,實驗c、d為在空間注意模塊前后分別輔助增強的模型,實驗d為增強后模型。通過分析圖8及表2中實驗結果,對比實驗a、b可知特征的空間域注意對音樂流派分類效果上獲得了1.27%的增益。分別對比實驗b、c與實驗b、d可知,在空間注意模塊前通過四重卷積對特征進行預處理可以在音樂流派分類效果上提升0.63個百分點,在空間注意模塊后通過殘差模塊細化標注后的特征可以在音樂流派分類效果上提升1.72個百分點。分別對比實驗e、c與實驗e、d可知,在空間注意模塊前后均添加輔助增強模塊在音樂流派分類效果上提升1.52個百分點~2.61個百分點。由此可得,空間注意模塊對音樂流派分類準確率有所提升,且殘差模塊與四重卷積均對空間注意模塊具有輔助增強效果,同時對空間注意模塊進行增強可以達到較優效果。

圖8 模型主要模塊的消融實驗結果
表2模型主要模塊消融實驗流派分類準確率

Tab.2 Genre classification accuracies in ablation experiment for main modules of model
將DCNN-SSA模型同其他常用深度學習模型以相同數據預處理進行訓練,當學習率0.001、迭代次數為31 000時,各網絡均趨于穩定。所以選取學習率0.001、迭代次數31 000進行網絡模型對比實驗,多次實驗后采用最優值作為對比實驗結果。不同網絡在驗證集上的流派分類準確率對比見表3。
表3不同網絡在驗證集上的流派分類準確率對比 單位:%

Tab.3 Genre classification accuracy comparison of different networks on verification set unit:%
表3中實驗結果表明,DCNN-SSA模型較其他常用深度學習模型在驗證集上流派分類準確率提升了5.36個百分點~10.44個百分點。由此可得,DCNN-SSA模型在音頻譜圖中具有更好的流派特征提取性能。將本文模型與其他常用深度學習模型對GTZAN數據集的測試集音樂進行流派分類。網絡測試集上的流派分類準確率對比見表4。
實驗結果表明,使用維度還原后的梅爾頻譜對音樂文件進行特征表達后,通過空間注意力機制增強模型對音頻譜圖空間域特征的提取,并通過四重卷積和殘差模塊對空間注意模塊進行輔助增強,構建增強頻譜空間域注意的DCNN-SSA模型對GTZAN數據集中測試集進行流派分類,音樂流派分類準確率達到82.00%,比其他深度學習模型高出6個百分點~12個百分點。由此可得,較其他常用深度學習模型, DCNN-SSA模型具有更好的音樂流派分類效果。
表4不同網絡在測試集上的流派分類準確率對比 單位:%

Tab.4 Genre classification accuracy comparison of different networks on test set unit:%
為增強深度學習模型在音樂流派分類領域的流派特征提取效果,本文分析并設計了一種基于深度卷積神經網絡的DCNN-SSA模型。在音樂流派特征表達方面,將維度還原的梅爾頻譜進行分割后作為訓練集輸入網絡,使訓練樣本在提升自身特征表達的同時,提升計算速度;在音樂流派特征提取方面,通過四重卷積與殘差結構輔助空間注意力機制對DCNN進行增強。四重卷積可以預先提升音頻譜圖內部特征的相關性依賴,使得在空間域標注時得到更強的節奏特性;殘差結構可以在空間注意模塊后提升空間標注后音頻譜圖的細節表達。空間注意力機制可以對音樂頻譜特征相關性進行有效增強,增強對音頻譜圖中節奏特征的提取,使網絡對音頻譜圖特征提取的指向性增強,從而提升流派分類效果。
[1] 伊恩?本特,戴明瑜. 音樂分析學導論[J]. 中國音樂, 1995(4): 50-51.(BENT I B, DAI M Y. Introduction to music analysis[J]. Chinese Music, 1995(4): 50-51.)
[2] SAMSON J. Genre[J/OL]. Grove music online.[2021-02-20]. https://www.oxfordmusiconline.com/grovemusic/view/10.1093/gmo/9781561592630.001.0001/omo-9781561592630-e-0000040599?rskey=lxSqC9.
[3] TZANETAKIS G, COOK P. Musical genre classification of audio signals[J]. IEEE Transactions on Speech and Audio Processing, 2002, 10(5):293-302.
[4] WOLD E, BLUM T, KEISLAR D, et al. Content-based classification, search, and retrieval of audio[J]. IEEE Multimedia, 1996, 3(3): 27-36.
[5] COVER T, HART P. Nearest neighbor pattern classification[J]. IEEE Transactions on Information Theory, 1967, 13(1): 21-27.
[6] DUDA R O, HART P E, STORK D G. Pattern Classification[M]. 2nd ed. New York: John Wiley & Sons, Inc., 2000: 5-6.
[7] 徐星. 基于最小一范數的稀疏表示音樂流派與樂器分類算法研究[D]. 天津:天津大學, 2012: 154-171.(XU X. Research on the musical genre and instruments classification based on sparse representation-based classification via L1-minimization[D]. Tianjin: Tianjin University, 2012: 154-171.)
[8] 焦李成,楊淑媛,劉芳,等. 神經網絡七十年:回顧與展望[J]. 計算機學報, 2016, 39(8): 1697-1716.(JIAO L C, YANG S Y, LIU F, et al. Seventy years beyond neural networks: retrospect and prospect[J]. Chinese Journal of Computers, 2016, 39(8): 1697-1716.)
[9] 曹玉紅,徐海,劉蓀傲,等. 基于深度學習的醫學影像分割研究綜述[J]. 計算機應用, 2021, 41(8):2273-2287.(CAO Y H, XU H, LIU S A, et al. Review of deep learning-based medical image segmentation[J]. Journal of Computer Applications, 2021, 41(8):2273-2287.)
[10] 孔伶旭,吳海鋒,曾玉,等. 使用深度學習和不同頻率維度的腦功能性連接對輕微認知障礙的診斷[J]. 計算機應用, 2021, 41(2):590-597.(KONG L X, WU H F, ZENG Y, et al. Diagnosis of mild cognitive impairment using deep learning and brain functional connectivities with different frequency dimensions[J]. Journal of Computer Applications, 2021, 41(2):590-597.)
[11] 史文旭,鮑佳慧,姚宇. 基于深度學習的遙感圖像目標檢測與識別[J]. 計算機應用, 2020, 40(12):3558-3562.(SHI W X, BAO J H, YAO Y. Remote sensing image target detection and identification based on deep learning[J]. Journal of Computer Applications, 2020, 40(12):3558-3562.)
[12] 彭育輝,鄭瑋鴻,張劍鋒. 基于深度學習的道路障礙物檢測方法[J]. 計算機應用, 2020, 40(8):2428-2433.(PENG Y H, ZHENG W H, ZHANG J F. Deep learning-based on-road obstacle detection method[J]. Journal of Computer Applications, 2020, 40(8):2428-2433.)
[13] LI T L H, CHAN A B, CHUN A H W. Automatic musical pattern feature extraction using convolutional neural network[C]// Proceedings of the 2010 International MultiConference of Engineering and Computer Scientists. [S.l.]: International Association of Engineers, 2010:546-550.
[14] DIELEMAN S, SCHRAUWEN B. End-to-end learning for music audio[C]// Proceedings of the 2014 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2014:6964-6968.
[15] YANG H S, ZHANG W Q. Music genre classification using duplicated convolutional layers in neural networks[C]// Interspeech 2019: Proceedings of the 20th Annual Conference of the International Speech Communication Association. [S.l.]: International Speech Communication Association, 2019: 3382-3386.
[16] 杜佑宸. 基于卷積神經網絡的音樂流派分類研究[D]. 大連:大連理工大學, 2019: 26-27.(DU Y C. Research of music genre classification based on convolutional neural network[D]. Dalian: Dalian University of Technology, 2019:26-27.)
[17] MANNEPALLI K, SASTRY P N, SUMAN M. MFCC-GMM based accent recognition system for Telugu speech signals[J]. International Journal of Speech Technology, 2016, 19(1): 87-93.
LIU Wanjun, born in 1959, M. S., professor. His research interests include digital image processing, moving target detection and tracking.
WANG Jiaming, born in 1996, M. S. His research interests include deep learning, pattern recognition.
QU Haicheng, born in 1981, Ph. D., associate professor. His research interests include rapid remote sensing image processing, intelligent big data processing.
DONG Libing, born in 1996, M. S. Her research interests include deep learning, pedestrian detection.
CAO Xinyu, born in 2002. Her research interests include deep learning.
Music genre classification algorithm based on attention spectral-spatial feature
LIU Wanjun, WANG Jiaming*, QU Haicheng, DONG Libing, CAO Xinyu
(,,125105,)
In order to improve the extraction effect of the deep convolutional neural network on music spectrum genre features, a music genre classification algorithm model based on attention spectral-spatial feature, namely DCNN-SSA (Deep Convolutional Neural Network Spectral Spatial Attention), was proposed. In DCNN-SSA model, the genre features of different music Mel spectrograms were effectively annotated in the spatial domain, and the network structure was changed to improve the feature extraction effect while ensuring the effectiveness of the model, thereby improving the accuracy of music genre classification. Firstly, the original audio signals were Mel-filtered to effectively filter the sound intensity and rhythm change of the music by simulating the filtering operation of the human ear, and the generated Mel spectrograms were cut and input into the network. Then, the model was enhanced in genre feature extraction by deepening the number of network layers, changing the convolution structure and adding spatial attention mechanism. Finally, through multiple batches of training and verification on the dataset, the features of music genres were extracted and learned effectively, and a model that can effectively classify music genres was obtained. Experimental results on GTZAN dataset show that compared with other deep learning models, the music genre classification algorithm based on spatial attention increases the music genre classification accuracy by 5.36 percentage points to 10.44 percentage points and improves model convergence effect.
music genre classification; deep convolutional neural network; deep learning; spatial attention mechanism; Mel spectrogram
This work is partially supported by National Natural Science Foundation of China (41701479), General Project of Educational Department of Liaoning Province (LJ2019JL010).
TP181
A
1001-9081(2022)07-2072-06
10.11772/j.issn.1001-9081.2021050740
2021?05?10;
2021?11?05;
2021?11?24。
國家自然科學基金資助項目(41701479);遼寧省教育廳一般項目(LJ2019JL010)。
劉萬軍(1959—),男,遼寧錦州人,教授,碩士,CCF高級會員,主要研究方向:數字圖像處理、運動目標檢測與跟蹤; 王佳銘(1996—),男,河北秦皇島人,碩士,主要研究方向:深度學習、模式識別; 曲海成(1981—),男,山東煙臺人,副教授,博士,CCF會員,主要研究方向:遙感影像快速處理、智能大數據處理; 董利兵(1996—),女,遼寧葫蘆島人,碩士,主要研究方向:深度學習、行人檢測; 曹欣宇(2002—),女,遼寧錦州人,主要研究方向:深度學習。