基于深度學習的音樂情感識別

2019-05-24 14:13:16唐霞張晨曦李江峰

電腦知識與技術 2019年11期

唐霞張晨曦李江峰

摘要：隨著互聯網多媒體技術的發展，越來越多的音樂歌曲通過網絡發布并存儲在大型數字音樂數據庫中。針對傳統音樂情感識別模型音樂情感識別率低的問題，本文提出一種基于深度學習的音樂情感識別模型。該模型使用音樂信號特征語譜圖作為音樂特征輸入，使用卷積神經網絡和循環神經網絡相結合的方法對語譜圖進行特征提取和情感分類。實驗表明，相比于單獨使用CNN、RNN等情感識別模型，該模型對音樂情感識別率更高，對音樂情感識別的研究具有重大意義。

關鍵詞：音樂情感識別；深度學習；語譜圖；卷積神經網絡；循環神經網絡

中圖分類號：TP18 文獻標識碼：A

文章編號：1009-3044（2019）11-0232-06

Abstract：With the development of Internet multimedia technology， more and more music songs are issued through the Internet and stored in large digital music databases. Aiming at the problem that the emotion recognition accuracy of traditional music emotion recognition model is low， this paper proposes a music emotion recognition model based on deep learning. The model uses the music signal feature spectrogram as the music feature input， and uses the combination of convolutional neural network and recurrent neural network to extract features of spectrograms and classify their emotions finally. Experiments show that compared with the emotion recognition models such as CNN and RNN， the model has higher emotion recognition accuracy for music， which is of great significance for the study of music emotion recognition.

Key words：music emotion recognition； deep learning； spectrogram； convolutional neural network； recurrent neural network

引言

隨著計算機多媒體技術的不斷發展進步，人類與計算機的關系日益密切，人們通過計算機網絡獲取大量的視頻、音頻和文字信息并從中得到精神上的享受，其中音樂對于人類來說至關重要。由于互聯網音樂的快速發展，大量的歌曲通過網絡發布并存儲在大型數字音樂數據庫中，而檢索和描述音樂最常用的就是情感詞[1]，因此對海量音樂作品基于情感的組織和檢索問題，越來越受到人們的關注。

為了實現基于情感的音樂檢索，往往需要標注音樂作品的情感，如果使用人工方式對海量音樂進行情感標注，不僅工作量巨大，而且工作效率較低。因此，研究音樂情感識別技術，實現音樂作品的自動情感標注就成為必然的選擇。音樂情感識別模型就是通過分析音樂的音頻信號構建計算模型，從而實現音樂情感自動識別[2]。

在音樂情感識別模型中，音樂情感模型貫穿始終，它決定了情感分類的類別。1936年Hevner [3]提出了音樂離散類別情感模型，用67個情感形容詞來描述音樂表達的情感空間，并且將這67個情感形容詞分成8個類別，每個類別有一個代表性的形容詞。除了音樂離散類別情感模型，還有學者提出音樂情感通過連續的空間維度來表示，這便是Russell提出的Valence-Arousal情感模型（后文簡稱為V-A模型）[4][5]。該模型認為情感狀態是分布在一個包含Valence（效價度）和Arousal（激活度）的二維空間上的點，效價度反映情感的積極和消極程度，激活度反映情感的激烈程度。本文正是采用Russell提出的Valence-Arousal情感模型作為音樂情感模型。

傳統的機器學習方法是從音樂音頻信號中手動提取聲學特征作為特征輸入，例如手動提取出音樂信號的音調特征，節奏特征和音色特征等，但是這樣帶來的問題是在大樣本上面表現力不足，效果不佳。除此外還有使用處理后的音樂信號特征，例如梅爾倒譜系數MFCC，但實際取得的效果也不明顯。因此在本文中特征輸入采用包含了音樂音頻信號所有頻譜信息，沒有經過任何加工過的語譜圖。很顯然，使用完整的音樂信號特征能更加完善的保留音樂信號的特征，為后續特征提取提供完整的特征原本。

深度學習（deep learning）能從音頻數據中學習音頻的底層特征與高層概念的關系。而音樂情感識別面臨的巨大挑戰在于音頻信號的特征與音樂的情感語義之間存在著難以用物理參數描述的差異，通過深度學習進行情感識別，也許能夠跨越這一差異。其中卷積神經網絡（Convolutional neural network， CNN）已經在許多音樂分類任務中展現了它的優秀性能，例如，音樂標注[6][7]，體裁分類[8][9]和音樂推薦[10]。

因此，本文提出基于深度學習的音樂情感識別模型采用深度學習神經網絡Convolutional Recurrent neural network（CRNN），通過結合卷積神經網絡（CNN）和循環神經網絡（Recurrent neural network， RNN），充分利用CNN對于圖像極強的綜合特征提取能力和RNN對于時間序列數據時序特征的提取能力，對語譜圖從綜合特征和時序特征二個方面進行特征提取，從而實現音樂的情感分類。通過在公開音樂數據集上進行實驗，與單獨使用CNN和RNN比較，CRNN具有更好的音樂情感準確率。

1 深度學習神經網絡模型

1.1 模型框架

本文基于深度學習的音樂情感識別模型是采用機器學習的方法來建立分類模型，圖1所示為該模型的基本框架圖。

模型設計思路為：將包含音樂信號和對應情感標簽的音樂數據集分為訓練集和測試集，在訓練階段，先對訓練集中的音樂信號樣本進行預處理，再對其進行特征的提取，之后與對應的情感標簽通過分類模型進行訓練。在測試階段，對測試樣本提取相同的特征，并利用訓練階段得到的分類模型，進行音樂情感的分類判別。

1.2 情感模型

本文采用Russell提出的Valence-Arousal情感模型作為音樂情感模型，情感狀態是分布在一個包含Valence（效價度）和Arousal（激活度）的二維空間上的點，其中縱軸表示激活度，橫軸表示效價度。總的來說就是，效價度反映了情感的積極和消極程度，Valence值越大，則情感的積極程度越高，反之則消極程度越高；激活度反映了情感的激烈程度，Arousal值越大，則情感的激烈程度越高，反之則越低。V-A情感模型如圖2所示。

本文將V-A二維空間映射為（+ V + A ）、（-V+A）、（-V-A）和（+V-A）的4個離散類別，再分別對應離散類別情感模型中的四種典型情感，從而獲得本文的音樂情感類別，更適合實驗的開展。四個類別的音樂情感的對應關系如表1中所示。

1.3 語譜圖

語譜圖（Spectrogram）是時序相關的傅里葉分析的顯示圖像，是一種可以反映音樂信號頻譜隨時間改變而變換的二維時頻圖，其橫坐標表示時間，縱坐標表示頻率。語譜圖中顯示了大量與音樂信號特性相關的信息，如共振峰、能量等頻域參數隨時間的變化情況，它同時具有時域波形與頻譜圖的特點。也就是說，語譜圖本身包含了音樂信號的所有的頻譜信息，沒有經過任何加工，所以語譜圖關于音樂的信息是無損的。這也是本文選擇語譜圖作為音樂信號特征輸入的原因。語譜圖的生成流程如圖3所示。

語譜圖的生成需要先進行分幀加窗、短時傅里葉變換將是時域信息轉換為頻域信息，進行刻度轉換成振幅的分貝表示，然后將處理后的頻域信息按照時序拼接形成語譜圖。針對具體的音樂信號，從波形圖到語譜圖的生成過程如圖4所示。

在本文中，考慮到人耳聽覺特性，所以所選擇的頻率為Mel頻率，由此得到的語譜圖是Mel范圍內的語譜圖（Mel-Spectrogram）。語譜圖的橫坐標是時間，縱坐標是Mel頻率，坐標點值為音樂信號數據能量。由于是采用二維平面表達三維信息，所以能量值的大小是通過顏色來表示的，顏色深，表示該點的語音能量越強。如圖5所示就是本文使用的灰度化的語譜圖。

1.4 深度學習神經網絡模型

1.4.1 卷積神經網絡模型

卷積神經網絡之所以可以在音樂情感分析中進行應用，是因為音樂的特征除了時域特征，還有頻域特征。可以將先將語音信號分幀，對每一幀進行傅里葉變換成頻譜圖，然后將頻譜圖在時間維度上進行連接，形成成語譜圖。一張語譜圖中可以包含所有的音頻信息，再加上卷積神經網絡對于圖片超強的自動特征提取的能力，所以可以使用語譜圖作為卷積神經網絡的原始輸入，從而將音樂信號和卷積神經網絡聯系在一起。

在卷積神經網絡模型中，輸入是音頻的語譜圖，經過卷積神經網絡結構進行自動特征提取，在此過程中不斷將特征進行降維以及特征再提取，最后將提取出來的特征向量展平，輸入到全連接網絡后通過Softmax回歸得到輸出結果。關于該網絡模型的詳細結構流程如圖6所示。

如圖6所示，在CNN音樂情感識別模型中輸入的語譜圖生成參數是幀長256，幀移是128，由此得到的音樂片段語譜圖的大小以height*width的形式表示為96*1366，因為是由一個音樂片段生成的一張語譜圖，所以輸入層就表示為1@96*1366。將輸入數據1@96*1366進行Batch Normalization處理后再輸入到大的卷積層中，在每個大的卷積層里面，都要進行卷積、池化（子采樣）、標準化，dropout等操作。進行了5層的卷積層操作后，將輸入數據由1@96*1366特征提取，降維處理為256@1*1的形式。在CNNs 計算完畢后將輸出進行展開為256維的向量，然后輸入到一層全連接層中，得到一個4維的向量，最后將這個4維的向量輸入Softmax中進行分類處理得到最后的分類結果。

1.4.2 循環神經網絡模型

由于生成的語譜圖具有時間序列的特征，所以可以考慮使用循環神經網絡RNN提取其時序方面的特征進行分類處理。RNN音樂情感識別模型的輸入是一張原始音頻生成的語譜圖，經過RNN網絡后將最后一個step的輸出連接全連接神經網絡中，最后通Softmax回歸得到分類結果。圖7展示了RNN音樂情感識別模型的詳細結構網絡流程圖。

如圖7所示，在RNN音樂情感識別模型中輸入的語譜圖生成參數是幀長256，幀移是128，由此得到的音樂片段語譜圖的大小以width*height的形式表示為1366*96，因為是由一個音樂片段生成的一張語譜圖，所以輸入層就表示為1@96*1366。對于輸入數據1@96*1366先對數據進行Batch Normalization處理，然后再輸入到循環神經網絡中，這里采用GRU作為RNN的cell單元，在每一個cell單元中都包含dropout層，以此來防止過擬合。在經過RNN網絡后將最后一個step的輸出連接全連接神經網絡中，得到一個4維向量，最后將這個4維的向量輸入Softmax中進行分類處理得到最后的分類結果。

1.4.3 深度學習神經網絡CRNN模型

為了能充分利用語譜圖中的時序特征，獲得更好的分類效果，我們將語譜圖作為特征輸入，先使用CNN對語譜圖進行特征提取，在此過程中同時保留語譜圖的時序特征，以此獲得綜合特征的時序數據特征圖，再將特征圖輸入到RNN中，利用RNN的時序特征提取能力，對特征圖針對時序特征再進行特征提取，以此獲得最終的特征向量。這就是本文使用的CRNN模型。CRNN模型系統是一個以音頻為原始輸入，語譜圖為音樂信號特征，CRNN模型進行特征訓練的一個端到端的音樂情感識別模型。如圖8所示為CRNN模型的結構圖。

在圖8中，CRNN模型以音樂信號語譜圖（橫軸為時間方向，縱軸為頻率方向，單聲道灰度表示）為輸入。在CNN子結構中，利用CNN神經網絡對于圖像二維數據特征提取的能力，將蘊含在語譜圖中頻率方向的音樂情感特征提取出來并保留其時序特征，從而獲得1*15*N（頻率*時間*特征圖數目）的特征圖，這樣就可以去掉頻率維度，獲得了形如（時間*特征圖數目）的二維特征數據。在RNN子結構中，利用RNN模型提取時間序列數據時間方面特征的能力，把形如（時間*特征圖數目）的二維數據輸入到RNN模型進行情感分析，最后獲得one-hot向量。

CRNN模型的關鍵在于卷積神經網絡CNN的卷積和池化過程中，通過卷積核，步長，層數等參數設計，巧妙地使最后獲得的特征圖頻率方向的維度降為1，這樣既提取了頻率方向的特征，又保留了一定的時序特征。

該模型綜合了CNN對于圖像（二維數據）極強的綜合特征提取能力和RNN對于時間序列數據時間特征的提取能力，對語譜圖從綜合特征和時序特征二個方面進行特征提取，既考慮到語譜圖作為圖像角度的特征提取，又兼顧了音樂信號時間序列角度的特征提取。如圖9所示為CRNN音樂情感識別模型的流程圖。

如圖9所示，CRNN音樂情感識別模型的流程為：將一段音樂歌曲信號進行切分，獲得合適大小子音頻信號然后轉換為語譜圖。在本文中，獲得的是大小形為height*width的96*1366的語譜圖，然后將每張語譜圖輸入到卷積神經網絡CNN中。在圖9中，輸入層是1@96*1366的數據，表示為CNN的輸入形狀（shape）[batch_size， height， width， channels]就是[batch_size， 96， 1366， 1]，其中batch_size為訓練集中所取的批數據的大小，channels是圖像的通道數，因為本文的語譜圖都處理為單通道灰度圖，所以channels取1。

為了數據的方便處理，本文對輸入數據[batch_size， 96， 1366， 1]進行pad操作，于是獲得的輸入數據shape為[batch_size， 96， 1440， 1]。進行4層卷積神經網絡CNN操作后（每個CNN中，卷積、池化、標準化，dropout等操作），獲得shape為[batch_size， 1， 15， 128]的向量，過程中的特征圖shape如圖中所示。

對于shape為[batch_size， 1， 15， 128]的向量可以理解為高度為1，寬度為15，通道數為128的圖像。因為高度為1，所以可以降維處理為[batch_size， 15， 128]，此時，向量的shape就是理解為[batch_size， time_steps， features]，把寬度15看作是RNN輸入的time steps，1*128就是每個step的特征向量，這樣就符合RNN的輸入格式了。于是把[batch_size， 15， 128]的向量，通過GRU為cell的RNN，取最后一個step的結果，在經過一層全連接神經網絡通過Softmax回歸分類就可以得到分類結果了。

2 實驗過程及結果

2.1 數據集

為了對以上模型進行訓練和測試，我們使用MediaEval Emotion in Music任務數據集[11]。在MediaEval Emotion in Music任務數據集中，1000首歌曲片段以1到1000作為歌曲片段id保存在一個文件夾database中，在annotations文件夾中注釋了每首歌曲的描述信息，以第二首歌曲為例，所使用到的描述信息如表2所示。

數據集中每個歌曲片段的時長是45s，45s的歌曲片段均采用44.1kHZ的采樣頻率，單通道，1000首歌曲片段的保存格式為MPEG layer 3（MP3）格式。

由于去除了重復片段，所以有744個片段被標注。在數據集的靜態注釋中，每段音樂的靜態V-A值設置在范圍1到9中。本文取平均Arousal值和平均Valence值作為整個片段的V-A值，然后采用Valence-Arousal情感模型，將V-A值映射到四類情感上，以（5，5）作為坐標原點，得到表2中的情感標簽。

然而，在上述數據集中，每個音樂歌曲片段有45s的時長，不管是對人還是對分類模型而言，45s對于識別一首音樂的情感類別綽綽有余。因此，本文將45s的音樂片段分隔成若干4s左右的音樂片段，以擴充音樂數據集，同時以整個片段的情感標注作為子片段的情感標注，最終得到包含8184個音樂片段的數據集。

2.2 參數設置

本實驗中CRNN模型的網絡結構參數如表3和表4中所示，該網絡的輸入參數形式是[batch_size， height， width， channels]，考慮到電腦內存情況以及模型的復雜度，batch_size取24，也就是一次輸入24張大小為96*1366的語譜圖，該語譜圖的生成參數幀長256，幀移是128，每張圖片都是單通道。對輸入數據[batch_size， 96， 1366， 1]進行pad操作，于是獲得的輸入數據shape為[batch_size， 96， 1440， 1]。然后經過4層卷積神經網絡，每層都進行卷積+標準化+ReLu激活函數，然后進行池化+dropout，卷積層的padding方式取“same”，池化層的padding方式取“valid”。經過CNN的處理獲得shape為[batch_size， 1， 15， 128]的特征圖向量。把shape為[batch_size， 1， 15， 128] 的特征圖向量進行reshape操作，獲得shape為 [batch_size， 15， 128]的向量，此時向量的shape就是理解為[batch_size， time_steps， features]。

之后將shape為 [batch_size， 15， 128]的向量輸入到RNN中。輸入到RNN的時候，將 1x128 作為一個time step的輸入，這樣共有15個time_step。內部的RNN結構設置為多層GRU-Cell，并且用dropout進行包裝處理，keep_prob參數設置為0.7。在RNN多層GRU-Cell處理結束后，將最后一次time_step的輸出結果形如[bacth_size， state_size]的向量輸入到全連接層中，輸出形如[batch_size， num_class]的特征，接著進行Softmax回歸進行分類處理。

本實驗中，超參數設置為CNN部分dropout為0.5，RNN部分dropout為0.3，初始學習率設置為0.001，迭代周期epoch設置為400，損失函數選擇交叉熵cross entropy，優化器選擇Adam優化器。

2.3 實驗結果

本實驗的分類結果列在表5-7中。表5是使用CNN網絡（網絡結構圖如圖6所示）的情感分類的結果，表6是使用RNN網絡（網絡結構圖如圖7所示）的情感分類的結果，表7是使用CRNN網絡（網絡結構圖如圖9所示）的情感分類的結果。為了驗證模型的泛化性能，本文采用10折交叉驗證，將數據集分成10份，輪流將其中9份作為訓練數據，1份作為測試數據，進行測試，每次取模型收斂后最后10組性能指標數據的算數平均值作為本次的訓練的性能指標，指標使用宏平均的計算方式，重復10次獲得測試數據。

通過上述實驗結果可以看出，相比于單獨使用CNN對語譜圖進行綜合特征提取和單獨使用RNN對語譜圖進行時序特征提取，先將語譜圖通過CNN進行綜合特征提取再使用RNN對保留時序特征的特征圖進行時序特征提取的CRNN模型實驗取得的分類效果更好。

3 結論

隨著機器學習領域的不斷發展，與日俱增的實際應用問題也不斷被提出，其中音樂情感的識別問題依舊是具有挑戰的。在本文中，我們沒有使用傳統的手工特征，而是使用包含了音樂信號所有頻譜信息沒有經過任何加工的語譜圖作為特征輸入，與單獨使用CNN的音樂情感識別模型和單獨使用RNN的音樂情感識別模型相比，先將語譜圖通過CNN進行綜合特征提取再使用RNN對保留時序特征的特征圖進行時序特征提取的CRNN音樂情感識別模型實驗取得的分類效果更好。這個比較為我們以后的研究提供了堅實的基礎。在以后的研究中，我們將著力于音頻和視頻的多模型情感識別任務。

參考文獻：

[1] Woo W，J I Park，Y lwadate. Emotion Analysis from Dance Performance Using ime-delay Neural Networks [J]. 2000，Atlantic City，NJ，United States： Duke University，Association for Intelligent Machinery，Durham，NC 27708-0291，United States.

[2] Kim Y E，Schmidt E M，Migneco R. State of the Art Report： Music Emotion Recognition： A State of the Art Review[C]. International Society for Music Information Retrieval Conference，Ismir 2010， Utrecht， Netherlands， August，DBLP，2010，255-266 .

[3] Hevner K. Experimental studies of the elements of expression in music[J]. American Journal of Psychology， 1936， 48（2）： 246-268.

[4] Russell J A. A circumplex model of affect[J]. Journal of Personality and Social Psychology，1980， 39（6）： 1161-1178.

[5] Posner J， Russell J A， Peterson B S. The circumplex model of affect： An integrative approach to affective neuroscience， cognitive development and psychopathology[J]. Development and Psychopathology， 2005，17（3）： 715-734.

[6] Sander Dieleman， Benjamin Schrauwen. End-to- end learning for music audio[C]. Acoustics， Speech and Signal Processing （ICASSP）， 2014 IEEE International Conference on. IEEE， 2014：6964-6968.

[7] Keunwoo Choi， George Fazekas， Mark Sandler. Automatic tagging using deep convolutional neural net- works[C]. International Society of Music Information Retrieval Conference. ISMIR， 2016.

[8] Siddharth Sigtia， Simon Dixon. Improved music feature learning with deep neural networks[C]. 2014 IEEE international conference on acoustics， speech and signal processing （ICASSP）. IEEE， 2014.

[9] Paulo Chiliguano， Gyorgy Fazekas. Hybrid music recommender using content-based and social information[C]. 2016 IEEE International Conference on Acoustics， Speech and Signal Processing （ICASSP）. IEEE， 2016：2618-2622.

[10] Aaron Van den Oord， Sander Dieleman， Benjamin Schrauwen. Deep content based music recommendation[C]. Advances in Neural Information Processing Systems， 2013：2643–2651.

[11] MediaEval Benchmarking Initiative for Multimedia Evaluation. 2015 emotion in music task [EB/OL]. http：//www.multimediaeval.org/mediaeval2015/emotioninmusic，2015.

【通聯編輯：唐一東】