音樂情感識別中的遷移學習方法研究

2018-04-24 12:17:18于超

現代計算機 2018年6期

于超

（四川大學計算機學院，成都 610065）

0 引言

近年來，隨著移動智能設備硬件性能和產品設計水平的不斷提高。人們可以隨時隨地享受諸多便捷的服務，而作為藝術一大領域的音樂，也成為人們生活不可或缺的一部分。得益于大數據和計算力的增長以及智能算法的研究，機器學習技術開始廣泛應用到互聯網產品中，使得用戶可以獲得更加個性化的體驗。

基于機器學習的個性化音樂推薦系統也逐漸成為研究熱點，而音樂的情感則是音樂內容本身非常重要的語義信息。本文主要研究了基于卷積神經網絡的音樂情感識別遷移學習方法，并在公開音樂情感數據集上進行了實驗及分析。

1 音樂情感識別現狀

音樂情感識別的研究可以追溯到1988年[1]，在隨后的三十年里越來越受到相關研究者的重視。時至今日，音樂情感識別的研究仍然面臨諸多困難和挑戰。

首先，當前領域由于缺乏高質量和統一的研究數據集，不同研究員只能自建數據集進行研究，這樣不利于研究者之間進行比較和判斷，因而影響了研究的發展。現有的音樂識別方面的公開數據集，較多是曲風識別以及社交網絡標簽識別，少量的專注于音樂情感識別的數據集中，也存在數據量太少或類別嚴重不平衡的問題。自2007年起，音樂信息檢索領域的知名競賽MIREX[2]（Music Information Retrieval Evaluation eX?change）開始加入了音樂情感分類的任務，并提供了一套建立情感分類數據集的方法，并構建了相應的數據集供參賽者進行評估和比較，MIREX每年一次的舉辦為該領域的研究發展起到了很好的作用，但其數據集僅僅開放給參賽者使用。Panda Renato和Rui Pedro Paiva在2012年采納MIREX的數據集收集方法，構建了一套公開的音樂情感分類數據集，稱為類MIREX數據集[3]，從而為不同研究者在該領域進行研究提供了很好的助益，因此，本文也將在此數據集上開展實驗。

此外，近年來大數據的發展讓人們認識到，少量的采樣會影響對真實世界的認知，對于機器智能算法來說也是一樣，而相比于音樂曲風識別的公開數據集已經達到了十萬首的數量級[4]，目前的音樂情感數據集在曲目數量上仍較少，本文將研究基于卷積神經網絡的遷移學習方法，在當前數據量較少的情況下改善系統的識別能力。

2 基于梅爾聲譜圖及遷移學習的音樂分類方法

2.1 音樂的梅爾聲譜圖表示

圖1 一首音樂的原始波形（上）與對應的聲譜圖（下）

梅爾聲譜圖是一種常用的音頻信號表示方法，圖1展示了一首音樂的原始波形極其對應的聲譜圖。在數字信號領域中，將時間信號轉換為時間-頻率表示是一種有助于信號分析的方法，聲譜圖的生成原理也類似，即先將音頻信號根據設置的時間窗口分成許多幀，對每一幀音頻，通過短時傅立葉變換生成頻譜圖，同時考慮到梅爾頻率更加符合人類的聽覺特點，將頻譜圖映射到梅爾頻率上，再把所有幀的頻譜在時間軸上拼接成一張完整的聲譜圖。

將音樂信號表示為梅爾聲譜圖，有助于通過圖像這個載體，進行后續的音樂情感識別。

2.2 卷積神經網絡分類模型

自2012年基于卷積神經網絡的AlexNet[5]在Ima?geNet圖像識別競賽上大放異彩起，深度學習技術在圖像領域得到了快速發展，相較于傳統人工設計的特征，卷積神經網絡通過逐層卷積和反向傳播算法，從數據當中自動學習出對于當前問題更合適的特征表示，已經在圖像領域顯示出強大的能力。一個典型的卷積神經網絡分類器包含卷積層、激活函數、池化層、全連接層和Softmax分類器，同時還有一些防止網絡過擬合的結構和措施。受Aaron和Sander Dieleman等人將圖像卷積用于解決音樂推薦問題[6]的啟發，本文將采用聲譜圖結合卷積神經網絡的方式對音樂數據進行分析。

2.3 特征提取與遷移學習方法

卷積神經網絡出色的表現一部分來源于其逐層提取特征的能力，也就是通過低層特征的不同組合形成高層特征。Zeiler,Matthew D.和Rob Fergus通過對訓練完成的卷積神經網絡進行了可視化[7]，發現隨著網絡層次的加深，提取出來的特征在語義上也更高級。得益于ImageNet大規模圖像數據集的發布和深度學習算法的研究，使得人們可以在數據量較小的情況下，通過遷移學習的方法更好更快地訓練一個新的任務的模型。

基于深度學習的遷移學習技術，即在當前任務數據樣本量較少的情況下，首先尋找擁有大量數據的相關問題，通過對相關問題的學習之后，再將網絡學習到的知識（即特征表示）應用到當前要解決的任務上來。具體可以采用兩種方式進行知識遷移。其一，將預訓練好的網絡作為特征提取器，后續增加的網絡或者分類器在前序提取的特征基礎上進行訓練。其二，使用預訓練好的網絡參數初始化當前更改過結構的網絡參數，整個網絡與新增加的部分一同訓練。

Google的聲音理解小組在2017年初發布了大規模音頻數據集AudioSet[8]，其中包含了兩百萬個帶有人工標簽的視頻音軌，并且在此數據集上預訓練了一個音頻事件檢測網絡[9]，本文的遷移學習研究將在此基礎上展開。

3 實驗部分

3.1 實驗數據及評測標準

本文采用公開的類MIREX（MIREX-like）音樂情感數據集進行相關實驗。數據集包含903首30秒的音樂片段，如表1所示，每個片段屬于一個特定的類別（聚簇），每個類別由語義上相似的情感詞聚合而成。其中每個類別150首歌曲構成平衡訓練集，剩下20%的曲目則構成測試集。

表1 M IREX-like音樂情感數據集類別構成

實驗的評價指標采用分類正確率（Accuracy）衡量。正確率的定義為下式，其中I為指示函數，當括號內的等式為真時，該值為1。

3.2 數據預處理

為便于后續在AudioSet模型上進行遷移學習，首先將MIREX-like數據集中所有的音樂片段按1秒分割提取成96×64的梅爾聲譜圖，構成相應的切片訓練樣本和切片測試樣本，同時將同屬于一首測試歌曲的切片組合成完整的測試樣本。

3.3 遷移學習模型

實驗中所采用的卷積神經網絡架構如表2所示。由于遷移學習的方式，該網絡的輸入層直至第三全連接層（FC3）的結構與AudioSet模型結構相同，包含了6個卷積層、4個池化層及3個全連接層，這部分的輸出稱為嵌入層（Embedding）。在AudioSet模型的基礎上增加一個小型神經網絡（FC4+FC5+Softmax）或直接增加Softmax分類器（FC5+Softmax），用于學習Embed?ding層的高層語義特征與音樂情感之間的映射關系。

3.4 實驗結果與分析

本文首先進行了普通的學習方式與遷移學習方式的對比試驗，其中遷移學習方式采用了前述的兩種方法進行了實驗。實驗結果如表3所示：

表3 普通學習方式與遷移學習方式的對比

訓練過程在30輪左右已經基本收斂，所以基于同樣的訓練輪數對結果進行觀察。

一方面，使用遷移學習的方式最終獲得的分類正確率均高于直接從少量數據中訓練的結果，說明從音頻大數據訓練得到的特征表示在音樂情感識別的任務上也具有較好的能力。對于遷移學習方式2，由于要訓練的網絡容量比方式1大得多，所以在不改變網絡架構的情況下，正確率會較低一些。

另一方面，在預訓練網絡結構之上增加更多的層次，只對正確率略有提升，也從另一角度說明遷移學習過來的特征表示已經具有較好的能力。

同時，本文也進行了實驗，分析從AudioSet預訓練網絡遷移音頻特征表示對音樂情感識別任務學習速度的影響，監測訓練過程收斂所花費的訓練輪次，實驗結果如表4所示：

表4 普通學習方式與遷移學習方式的對比

實驗顯示，采用遷移學習方法對網絡進行訓練將收斂速度提升了一倍以上，與此同時，將預訓練網絡部分與新增網絡部分協同訓練會進一步提高收斂速度。

4 結語

本文基于梅爾聲譜圖、卷積神經網絡及AudioSet模型研究了音樂情感識別的遷移學習方法。實驗中著重對音頻遷移學習帶來的音樂情感識別能力提升和訓練速度提升進行了考察。由于AudioSet音頻事件檢測任務同音樂情感識別任務存在語義上的相關性，應用遷移學習方式提高了原神經網絡的分類性能，同時大幅提升了訓練過程的收斂速度，證明了相關音頻領域中的特征表示在音樂情感識別任務中具有較好效果。在未來工作中，我們仍需要進一步解決許多現存問題，第一，情感類別對于不同主體的歧義性導致訓練數據的質量不穩定，產生的誤差將會進一步影響后續的學習與識別。第二，研究基于不同的大規模數據的遷移學習對音樂情感識別效果的影響。

參考文獻：

[1]Katayose,Haruhiro,M.Imai,and Seiji Inokuchi.Sentiment Extraction in Music.Pattern Recognition,1988.,9th International Conferenceon.IEEE,1988.

[2]http://www.music-ir.org/mirex/wiki/MIREX_HOME

[3]Panda,Renato,and RuiPedro Paiva.Music Emotion Classification:Dataset Acquisition and Comparative Analysis.15th International Conferenceon Digital Audio Effects（DAFx-12）.2012.

[4]Defferrard,Micha?l,et al.FMA:A Dataset For Music Analysis.arXiv Preprint arXiv:1612.01840（2016）.

[5]Krizhevsky,Alex,Ilya Sutskever,Geoffrey E.Hinton.Imagenet Classification with Deep Convolutional Neural Networks.Advances in Neural Information Processing Systems，2012.

[6]Aaron Van den Oord,Sander Dieleman,Benjamin Schrauwen.Deep Content-Based Music Recommendation.Advances in Neural Information processing systems.2013.

[7]Zeiler,Matthew D.,and Rob Fergus.Visualizing and Understanding Convolutional Networks.European Conferenceon Computer Vision.Springer,Cham,2014.

[8]Gemmeke,Jort F.,etal.Audio Set:An Ontology and Human-Labeled Dataset for Audio Events.IEEE ICASSP，2017.

[9]Hershey,Shawn,etal.CNN Architectures for Large-Scale Audio Classification.arXiv preprint arXiv:1609.09430（2016）.