999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

音樂情感識別中的遷移學習方法研究

2018-04-24 12:17:18于超
現代計算機 2018年6期
關鍵詞:情感音樂實驗

于超

(四川大學計算機學院,成都 610065)

0 引言

近年來,隨著移動智能設備硬件性能和產品設計水平的不斷提高。人們可以隨時隨地享受諸多便捷的服務,而作為藝術一大領域的音樂,也成為人們生活不可或缺的一部分。得益于大數據和計算力的增長以及智能算法的研究,機器學習技術開始廣泛應用到互聯網產品中,使得用戶可以獲得更加個性化的體驗。

基于機器學習的個性化音樂推薦系統也逐漸成為研究熱點,而音樂的情感則是音樂內容本身非常重要的語義信息。本文主要研究了基于卷積神經網絡的音樂情感識別遷移學習方法,并在公開音樂情感數據集上進行了實驗及分析。

1 音樂情感識別現狀

音樂情感識別的研究可以追溯到1988年[1],在隨后的三十年里越來越受到相關研究者的重視。時至今日,音樂情感識別的研究仍然面臨諸多困難和挑戰。

首先,當前領域由于缺乏高質量和統一的研究數據集,不同研究員只能自建數據集進行研究,這樣不利于研究者之間進行比較和判斷,因而影響了研究的發展。現有的音樂識別方面的公開數據集,較多是曲風識別以及社交網絡標簽識別,少量的專注于音樂情感識別的數據集中,也存在數據量太少或類別嚴重不平衡的問題。自2007年起,音樂信息檢索領域的知名競賽MIREX[2](Music Information Retrieval Evaluation eX?change)開始加入了音樂情感分類的任務,并提供了一套建立情感分類數據集的方法,并構建了相應的數據集供參賽者進行評估和比較,MIREX每年一次的舉辦為該領域的研究發展起到了很好的作用,但其數據集僅僅開放給參賽者使用。Panda Renato和Rui Pedro Paiva在2012年采納MIREX的數據集收集方法,構建了一套公開的音樂情感分類數據集,稱為類MIREX數據集[3],從而為不同研究者在該領域進行研究提供了很好的助益,因此,本文也將在此數據集上開展實驗。

此外,近年來大數據的發展讓人們認識到,少量的采樣會影響對真實世界的認知,對于機器智能算法來說也是一樣,而相比于音樂曲風識別的公開數據集已經達到了十萬首的數量級[4],目前的音樂情感數據集在曲目數量上仍較少,本文將研究基于卷積神經網絡的遷移學習方法,在當前數據量較少的情況下改善系統的識別能力。

2 基于梅爾聲譜圖及遷移學習的音樂分類方法

2.1 音樂的梅爾聲譜圖表示

圖1 一首音樂的原始波形(上)與對應的聲譜圖(下)

梅爾聲譜圖是一種常用的音頻信號表示方法,圖1展示了一首音樂的原始波形極其對應的聲譜圖。在數字信號領域中,將時間信號轉換為時間-頻率表示是一種有助于信號分析的方法,聲譜圖的生成原理也類似,即先將音頻信號根據設置的時間窗口分成許多幀,對每一幀音頻,通過短時傅立葉變換生成頻譜圖,同時考慮到梅爾頻率更加符合人類的聽覺特點,將頻譜圖映射到梅爾頻率上,再把所有幀的頻譜在時間軸上拼接成一張完整的聲譜圖。

將音樂信號表示為梅爾聲譜圖,有助于通過圖像這個載體,進行后續的音樂情感識別。

2.2 卷積神經網絡分類模型

自2012年基于卷積神經網絡的AlexNet[5]在Ima?geNet圖像識別競賽上大放異彩起,深度學習技術在圖像領域得到了快速發展,相較于傳統人工設計的特征,卷積神經網絡通過逐層卷積和反向傳播算法,從數據當中自動學習出對于當前問題更合適的特征表示,已經在圖像領域顯示出強大的能力。一個典型的卷積神經網絡分類器包含卷積層、激活函數、池化層、全連接層和Softmax分類器,同時還有一些防止網絡過擬合的結構和措施。受Aaron和Sander Dieleman等人將圖像卷積用于解決音樂推薦問題[6]的啟發,本文將采用聲譜圖結合卷積神經網絡的方式對音樂數據進行分析。

2.3 特征提取與遷移學習方法

卷積神經網絡出色的表現一部分來源于其逐層提取特征的能力,也就是通過低層特征的不同組合形成高層特征。Zeiler,Matthew D.和Rob Fergus通過對訓練完成的卷積神經網絡進行了可視化[7],發現隨著網絡層次的加深,提取出來的特征在語義上也更高級。得益于ImageNet大規模圖像數據集的發布和深度學習算法的研究,使得人們可以在數據量較小的情況下,通過遷移學習的方法更好更快地訓練一個新的任務的模型。

基于深度學習的遷移學習技術,即在當前任務數據樣本量較少的情況下,首先尋找擁有大量數據的相關問題,通過對相關問題的學習之后,再將網絡學習到的知識(即特征表示)應用到當前要解決的任務上來。具體可以采用兩種方式進行知識遷移。其一,將預訓練好的網絡作為特征提取器,后續增加的網絡或者分類器在前序提取的特征基礎上進行訓練。其二,使用預訓練好的網絡參數初始化當前更改過結構的網絡參數,整個網絡與新增加的部分一同訓練。

Google的聲音理解小組在2017年初發布了大規模音頻數據集AudioSet[8],其中包含了兩百萬個帶有人工標簽的視頻音軌,并且在此數據集上預訓練了一個音頻事件檢測網絡[9],本文的遷移學習研究將在此基礎上展開。

3 實驗部分

3.1 實驗數據及評測標準

本文采用公開的類MIREX(MIREX-like)音樂情感數據集進行相關實驗。數據集包含903首30秒的音樂片段,如表1所示,每個片段屬于一個特定的類別(聚簇),每個類別由語義上相似的情感詞聚合而成。其中每個類別150首歌曲構成平衡訓練集,剩下20%的曲目則構成測試集。

表1 M IREX-like音樂情感數據集類別構成

實驗的評價指標采用分類正確率(Accuracy)衡量。正確率的定義為下式,其中I為指示函數,當括號內的等式為真時,該值為1。

3.2 數據預處理

為便于后續在AudioSet模型上進行遷移學習,首先將MIREX-like數據集中所有的音樂片段按1秒分割提取成96×64的梅爾聲譜圖,構成相應的切片訓練樣本和切片測試樣本,同時將同屬于一首測試歌曲的切片組合成完整的測試樣本。

3.3 遷移學習模型

實驗中所采用的卷積神經網絡架構如表2所示。由于遷移學習的方式,該網絡的輸入層直至第三全連接層(FC3)的結構與AudioSet模型結構相同,包含了6個卷積層、4個池化層及3個全連接層,這部分的輸出稱為嵌入層(Embedding)。在AudioSet模型的基礎上增加一個小型神經網絡(FC4+FC5+Softmax)或直接增加Softmax分類器(FC5+Softmax),用于學習Embed?ding層的高層語義特征與音樂情感之間的映射關系。

3.4 實驗結果與分析

本文首先進行了普通的學習方式與遷移學習方式的對比試驗,其中遷移學習方式采用了前述的兩種方法進行了實驗。實驗結果如表3所示:

表3 普通學習方式與遷移學習方式的對比

訓練過程在30輪左右已經基本收斂,所以基于同樣的訓練輪數對結果進行觀察。

一方面,使用遷移學習的方式最終獲得的分類正確率均高于直接從少量數據中訓練的結果,說明從音頻大數據訓練得到的特征表示在音樂情感識別的任務上也具有較好的能力。對于遷移學習方式2,由于要訓練的網絡容量比方式1大得多,所以在不改變網絡架構的情況下,正確率會較低一些。

另一方面,在預訓練網絡結構之上增加更多的層次,只對正確率略有提升,也從另一角度說明遷移學習過來的特征表示已經具有較好的能力。

同時,本文也進行了實驗,分析從AudioSet預訓練網絡遷移音頻特征表示對音樂情感識別任務學習速度的影響,監測訓練過程收斂所花費的訓練輪次,實驗結果如表4所示:

表4 普通學習方式與遷移學習方式的對比

實驗顯示,采用遷移學習方法對網絡進行訓練將收斂速度提升了一倍以上,與此同時,將預訓練網絡部分與新增網絡部分協同訓練會進一步提高收斂速度。

4 結語

本文基于梅爾聲譜圖、卷積神經網絡及AudioSet模型研究了音樂情感識別的遷移學習方法。實驗中著重對音頻遷移學習帶來的音樂情感識別能力提升和訓練速度提升進行了考察。由于AudioSet音頻事件檢測任務同音樂情感識別任務存在語義上的相關性,應用遷移學習方式提高了原神經網絡的分類性能,同時大幅提升了訓練過程的收斂速度,證明了相關音頻領域中的特征表示在音樂情感識別任務中具有較好效果。在未來工作中,我們仍需要進一步解決許多現存問題,第一,情感類別對于不同主體的歧義性導致訓練數據的質量不穩定,產生的誤差將會進一步影響后續的學習與識別。第二,研究基于不同的大規模數據的遷移學習對音樂情感識別效果的影響。

參考文獻:

[1]Katayose,Haruhiro,M.Imai,and Seiji Inokuchi.Sentiment Extraction in Music.Pattern Recognition,1988.,9th International Conferenceon.IEEE,1988.

[2]http://www.music-ir.org/mirex/wiki/MIREX_HOME

[3]Panda,Renato,and RuiPedro Paiva.Music Emotion Classification:Dataset Acquisition and Comparative Analysis.15th International Conferenceon Digital Audio Effects(DAFx-12).2012.

[4]Defferrard,Micha?l,et al.FMA:A Dataset For Music Analysis.arXiv Preprint arXiv:1612.01840(2016).

[5]Krizhevsky,Alex,Ilya Sutskever,Geoffrey E.Hinton.Imagenet Classification with Deep Convolutional Neural Networks.Advances in Neural Information Processing Systems,2012.

[6]Aaron Van den Oord,Sander Dieleman,Benjamin Schrauwen.Deep Content-Based Music Recommendation.Advances in Neural Information processing systems.2013.

[7]Zeiler,Matthew D.,and Rob Fergus.Visualizing and Understanding Convolutional Networks.European Conferenceon Computer Vision.Springer,Cham,2014.

[8]Gemmeke,Jort F.,etal.Audio Set:An Ontology and Human-Labeled Dataset for Audio Events.IEEE ICASSP,2017.

[9]Hershey,Shawn,etal.CNN Architectures for Large-Scale Audio Classification.arXiv preprint arXiv:1609.09430(2016).

猜你喜歡
情感音樂實驗
記一次有趣的實驗
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
做個怪怪長實驗
如何在情感中自我成長,保持獨立
圣誕音樂路
兒童繪本(2017年24期)2018-01-07 15:51:37
音樂
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 一本大道视频精品人妻 | 国产特级毛片| 国产精品一区在线麻豆| 青青草久久伊人| 99ri国产在线| 麻豆国产原创视频在线播放| 99国产在线视频| 91小视频在线| 狠狠色丁香婷婷综合| 欧美精品伊人久久| 久久久久久尹人网香蕉 | 一区二区三区四区精品视频| 日韩 欧美 小说 综合网 另类| 亚洲AⅤ永久无码精品毛片| 久久天天躁狠狠躁夜夜2020一| 国产成人精品在线| 国产精品自拍合集| 久久免费观看视频| 免费在线国产一区二区三区精品| 88av在线播放| 欧洲亚洲一区| 亚洲欧美激情小说另类| 91欧美亚洲国产五月天| 欧美精品亚洲精品日韩专区va| 亚洲高清在线天堂精品| 亚洲AV永久无码精品古装片| 久久婷婷色综合老司机| 黄色网在线免费观看| 久久婷婷五月综合色一区二区| 一本大道香蕉久中文在线播放| 一级毛片无毒不卡直接观看| 三区在线视频| 五月天丁香婷婷综合久久| 国产区在线看| 欧美一区日韩一区中文字幕页| 国产精品30p| 国产麻豆aⅴ精品无码| 夜夜操国产| 日本国产在线| 亚洲第一黄色网| 精品国产一区91在线| 成人免费一级片| 午夜国产在线观看| 国产69囗曝护士吞精在线视频| 亚洲人成网站在线观看播放不卡| 亚洲高清中文字幕在线看不卡| 婷婷色一区二区三区| 欧美中文字幕一区二区三区| 亚洲国产精品美女| 亚洲香蕉久久| 九九九精品成人免费视频7| 亚洲国产无码有码| 97成人在线观看| 日韩精品一区二区三区中文无码| 国产精品嫩草影院av| 欧美中文字幕在线二区| 日日碰狠狠添天天爽| 久久国产乱子| 亚洲欧洲AV一区二区三区| 欧美亚洲日韩中文| 色综合五月| 99久久免费精品特色大片| 午夜国产小视频| 国产精品第一区| 欧美区在线播放| 在线国产资源| 精品一區二區久久久久久久網站 | 国产99在线| 亚洲精品成人片在线观看 | 青青青国产视频| 99视频精品在线观看| 91成人在线观看| 国产成人久久综合777777麻豆| 99激情网| 久久毛片免费基地| 四虎影视无码永久免费观看| 全免费a级毛片免费看不卡| 一级片一区| 国产成人精品一区二区不卡| 中文字幕 日韩 欧美| 久久精品波多野结衣| 啪啪永久免费av|