999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XLNet-CBGRU 的雙模態音樂情感識別

2023-10-24 03:32:24董曉斌
物聯網技術 2023年10期
關鍵詞:模態特征文本

董曉斌,王 亮

(沈陽化工大學 計算機科學與技術學院,遼寧 沈陽 110020)

0 引 言

隨著時代與互聯網的快速發展,越來越多的音樂創作者能夠在網絡上盡情地展示自己的作品。音樂作為一個信息的載體,其中蘊含了豐富的情感信息。由于音樂的組成特性,創作者能夠通過歌詞、旋律、聲調、海報等形式來傳達自己想要表達的情感。傳統的音樂情感識別采用單一的模態對音樂這種復雜的作品進行情感識別,這樣往往會帶來信息丟失、識別準確度不高等問題,因此多模態音樂情感識別逐漸成為學者們的研究重點。

本文提出一種XLNet-CBGRU 音樂歌詞情感識別模型,首先通過XLNet 模型,充分考慮上下文位置信息,學習到文本的動態特征向量,之后通過雙向GRU 網絡學習文本的深層語義得到音樂歌詞的情感特征。對于音樂音頻使用卷積神經網絡提取局部特征后再作為輸入,輸入到雙向GRU 學習音頻的時序信息得到音樂的音頻情感特征。最后利用互注意力機制對歌詞和音頻特征進行加權融合,最終對音樂的情感類型進行預測。實驗結果證明,本文所使用的方法在預測準確度上有一定的提升。

1 相關研究

1.1 音頻情感識別

隨著深度學習的不斷發展,目前音樂音頻情感識別的研究重心以從傳統的機器學習轉移到深度學習。Li 等人提出了一種基于DBLSTM-ELM 的動態音樂情感識別模型,該模型將LSTM 與極限學習機相結合,在DBLSTM 訓練出結果后再由ELM 進行融合[1]。鄭艷等人結合深度學習網絡的特性,提出了一種新的模型CGRU,模型由CNN 與GRU 相結合,對MFCC 特征進行提取后再由隨機深林進行特征的選取,提高了識別的精度[2]。Xie 等人提出了一種基于幀級音頻特征并結合LSTM 的情感識別方法,用幀級特征代替傳統的統計特征,并根據注意力機制傳統的LSTM 進行改進,最終在模型性能上獲得了提升[3]。王晶晶等人為了提高模型效率,提出了新的網絡模型LSTM-BLS,該模型將深度學習與寬帶學習相結合,利用寬帶學習快速處理數據能力,將LSTM 當作BLS 的特征映射節點,提高了情感識別的效率[4]。鐘智鵬等人針對LSTM 的效率低下以及長距離依賴問題,提成了一種新的網絡模型CNN-BiLSTM-SA[5]。

1.2 文本情感識別

隨著自然語言處理領域的快速發展,音樂的歌詞情感識別也得到了學者的重視。吳迪等人針對傳統文本情感識別模型不能根據上下文信息動態獲取詞向量問題,提出一種基于ELMo-CNN-BiGRU 的情感識別模型,對ELMo 和Glove 兩種預訓練模型生成的動態與靜態詞向量通過堆疊得到輸入向量,再通過CNN 和BiGRU 提取局部特征和全局特征,最終完成情感識別[6]。Liu Ning 等人提出了一種基于BERT 的文本情感識別算法,該算法利用BERT 提取出句子級向量,再結合CNN 和對抗網絡完成情感識別[7]。梁淑蓉等人針對BERT 模型上下游任務不一致的問題,提出一種基于XLNet-LSTM-Att 的文本情感識別模型,該模型首先通過XLNet 生成考慮上下文信息的特征向量,再通過LSTM 進一步提取上下文特征,最后結合注意力機制完成情感識別[8]。

1.3 多模態情感識別

音樂作為一種人類情感的載體,它是由多個部分共同組成的。一首歌曲的曲調、歌詞、海報、演唱者的聲調等都在傳遞著情感信息。多模態融合主要有早期融合和晚期融合兩大類型。早期融合是在數據級和特征級的融合,而晚期融合是在決策級的融合。決策級融合存在忽略了模態之間的關聯性以及不能對不同類別賦予不同權重的問題。王蘭馨等人提出一種結合Bi-LSTM-CNN 的雙模態情感識別模型,該模型包括基于文本的Bi-LSTM-CNN 模型和CNN 模型,并分別驗證了特征級融合和決策級融合的效果[9]。張昱等人提出一種基于雙向掩碼注意力的多模態情感分析模型BMAM,該模型通過掩碼注意力動態地調整不同模態間的權重,繼而獲得更準確的模態表示[10]。文獻[11]是從不同模態中提取數據并使用數據級的融合完成情感識別。奚晨是在特征級融合的基礎上引入互注意力機制,通過計算自動為不同模態添加權重以體現模態間的重要性程度[12]。

2 基于深度學習的多模態音樂情感識別

2.1 基于CNN-BiGRU 的音樂音頻情感識別

音頻信號是一組在8 ~44.1 kHz 頻率范圍內的離散時間序列。與其他的機器學習任務一樣,音頻信號的特征提取在音樂情感識別(MER)中也非常的重要。大多數情況下,音頻特征可分為時域特征、頻域特征、倒譜域特征和其他特征。語譜圖(Spectrogram)是頻譜分析視圖,橫坐標為時間,縱坐標為頻率,是音頻在時域和頻域特性上的綜合描述。Spectrogram 本身包含了音樂信號的所有頻譜信息,沒有經過任何加工,所以Spectrogram 關于音樂的信息是無損的。

本文采用的音頻情感識別模型如圖1 所示。該模型主要包括卷積層、BiGRU 層、全連接層和分類層。

圖1 音頻情感識別模型圖

(1)卷積層

卷積層的輸入為音頻的語譜圖IT×N(T為時間,N為頻率),利用CNN 的局部數據處理能力,對語譜圖進行特性提取。通過卷積、池化、dropout 等操作后,得到了時間乘以特征數目的頻率面情感特征。

(2)BiGRU 層

RNN 是處理序列數據的神經網絡,可以有效地學習序列信息。傳統的RNN 難以捕獲長距離依賴信息且在反向傳播時經常會出現梯度消失,而LSTM 在內部門控制機制下有效地解決了這些問題。GRU 是LSTM 的優化版本,簡化了其內部結果,在提升訓練效率的同時保持了幾乎相同的效果。GRU 結構如圖2 所示。

圖2 GRU 內部結構

在GRU 內部有重置門rt和更新門zt,前向的計算公式如下:

式中:wr、wz和w分別為重置門、更新門和候選特征的參數矩陣;σ為sigmoid 激活函數;ht為t時刻的隱藏狀態;ht-1為上一時刻的隱藏狀態;為t時刻的候選信息。

本層的輸入為CNN 層提取出的情感局部關鍵特征和低水平特征(MFCC、RP)。在文獻[13]中已證明RP 能夠與MFCC 實現信息的互補。通過兩個獨立的隱藏層,分別學習前向和后向序列信息。最終將提取出的語譜圖中和LLD 中的情感特征進行全連接后輸入到softmax 層進行分類。

2.2 基于XLNet-BiGRU 的歌詞情感識別

目前主流的文本情感識別主要是使用預訓練語言模型。BERT 模型是在谷歌大腦于2018 年提出的一種基于Encoder-Decoder 架構的語言模型,在NLP 各項領域取得了優異的成績;但其也存在上下游任務不一致、忽略了預測詞之間的依賴關系的問題。于是谷歌大腦于2019 年發布了XLNet 模型,在多個任務上超越了BERT 的性能。

XLNet-BiGRU 模型主要由XLNet 層和BiGRU 層組成,其具體結構如圖3 所示。

圖3 基于XLNet-BiGRU 的模型結構圖

現階段的預訓練語言模型有自回歸語言模型(Auto Regressive Language Model, ARLM)和自編碼語言模型(Auto Encoder Language Model, AELM)。ARLM 不能同時學習前后文的信息,但是其考慮到了單詞之間的依賴關系,而AELM 可以同時學習到前后文的信息,但忽略了單詞之間的依賴關系,同時存在預訓練階段和微調階段的不一致問題。XLNet 結合了ARLM 和AELM 的優點,提出了排列語言模型(Permutation Language Model, PLM)方法,對句子中的Token 進行全排列,通過采樣不同的序列順序進行預測。

該模型的工作流程如下:

(1)將歌詞數據Xn(n=1, 2, ...,N)輸入到XLNet 層,Xi表示為歌詞中第i個單詞。

(2)將文本數據轉化為在字典中對應的編碼,利用XLNet 模型學習到文本的動態特征向量Tn,向量T充分地利用了上下文的位置關系,能夠很好地表現單詞在不同句子中的含義。

(3)將特征向量Tn作為輸入矩陣,輸入到BiGRU 層,分別通過正向BiGRU 層和反向BiGRU 層得到hli和hri,加權連接后得到深層語義特征hi。

(4)通過全連接層對hi進行全連接,輸出的維度為情感標簽的種類數量。

(5)最后在softmax 層對全連接層的輸出結果歸一化處理,得到音樂的情感類別。

2.3 多模態音樂情感識別

多模態融合方式一般可以分為早期融合和晚期融合。早期融合是對不同模態間特征的融合,這種融合方式可以較好地考慮到不同模態間信息的互相補充。晚期融合是指決策的融合,不同模態的數據分別通過不同的模型得到分類決策,然后對不同的結果進行融合。

一般的特征融合是對不同模態的特征向量進行直接的拼接,這樣不能很好地考慮不同模態之間的差異性,以及在決策中模態之間不同的權重。因此,本文采用互注意力機制的特征融合,具體公式如下:

式中:Fa為音頻的特征;Ft為文本的特征;Wa和Wt為參數矩陣。通過計算后分別得到語音關于文本的互注意力特征Fat和文本關于語音的互注意力特征Fta,最后通過向量的級聯得到音頻-文本互注意力特征Fat。

3 實驗結果與分析

3.1 數據集

本文針對音樂情感識別實驗的數據集來自Million Song Dataset(百萬音樂數據集)。在其標簽子集Last.fm,根據憤怒、悲傷、快樂、放松四種情緒類別,抽取音樂2 000 首。具體分類情況見表1 所列。

表1 實驗數據集

由于整首音樂存在重復的部分,且一般音樂的副歌部分是整首歌曲的情感爆發點,因此選取每首歌的15 ~45 s 之間的30 s 作為音頻數據,并按照8 ∶2 的比例隨機劃分訓練集和測試集。

3.2 實驗結果

在本次實驗中,分別采取了不同特征選取、不同分類模型和不同融合方法進行了實驗。實驗具體結果見表2 所列。

表2 實驗對比結果

由表2 可見,在音頻情感識別部分把語譜圖作為二維特征輸入到CNN,取得0.588 的準確率,通過CNN 和GRU的組合方式,準確率有一定的提升,而本文中所使用模型對LLD 和語譜圖中感情信息的融合進一步提升了分類的準確率,達到了0.69。在歌詞情感識別部分,本文使用的XLNet語言模型,相對于之前的Word2Vec 和BERT 有2%~9%的提升,準確率達到了0.794。在多模態情感識別部分可以看出,決策級的融合對比單一的模態準確率并沒有提升,是因為不同的決策具有相同的權重,對最終分類結果造成了負面的影響。而在考慮了互注意力機制的特征融合下,分類效果提升了3%左右。

4 結 語

本文針對音樂情感識別領域,提出了一種基于XLNet-CNN-BiGRU 的音樂情感識別模型。在音頻部分,采用MFCC 與RP 相互融合,再結合語譜圖以獲得更加豐富的情感信息,模型充分利用了CNN 的局部特征提取能力和GRU的結合上下文的序列特征提取能力。在歌詞文本部分,首先利用預訓練模型XLNet 動態獲取包含上下文語義的特征向量,再利用雙向GRU 網絡再次提取上下文相關信息。最后在模態融合部分,結合互注意力機制對不同特征加權,對歌曲情感進行識別。經過對比實驗,該方法在一定程度上提高了分類的準確度。日后的工作中,對音頻更加高效的特征提取是研究的重點。

猜你喜歡
模態特征文本
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 免费在线色| 亚洲一级毛片在线观播放| 亚洲 欧美 中文 AⅤ在线视频| 国产清纯在线一区二区WWW| 亚洲性日韩精品一区二区| 一级香蕉人体视频| 精品久久人人爽人人玩人人妻| 四虎国产精品永久一区| 91精品国产一区自在线拍| 国产va在线观看| 91精品啪在线观看国产91九色| 国产爽妇精品| 人妻中文字幕无码久久一区| 婷婷六月激情综合一区| 国产精品无码AV片在线观看播放| 国产97区一区二区三区无码| 老司机aⅴ在线精品导航| 久久这里只有精品66| 被公侵犯人妻少妇一区二区三区| av在线手机播放| 国产黄在线免费观看| 亚洲欧美成人综合| 亚洲欧美人成电影在线观看| 亚洲妓女综合网995久久| 少妇极品熟妇人妻专区视频| 亚洲男人天堂网址| 免费看黄片一区二区三区| 亚洲色欲色欲www在线观看| 天堂av高清一区二区三区| 高清国产在线| www.国产福利| 直接黄91麻豆网站| 久久久精品无码一区二区三区| 亚洲成aⅴ人片在线影院八| 日本精品中文字幕在线不卡| 国产福利2021最新在线观看| 亚洲一区波多野结衣二区三区| 毛片基地美国正在播放亚洲 | 国产成人精品视频一区二区电影 | 亚洲精品另类| 激情影院内射美女| 亚国产欧美在线人成| 97国产在线视频| 亚洲动漫h| 亚洲欧洲综合| 欧美一级高清片欧美国产欧美| 午夜精品影院| a级毛片免费看| 亚洲精品自产拍在线观看APP| 一区二区三区精品视频在线观看| 国产主播在线一区| 99这里只有精品免费视频| 老司国产精品视频91| 久久先锋资源| 久久久无码人妻精品无码| 国产亚洲欧美日韩在线一区二区三区| 免费观看三级毛片| 国产黄在线免费观看| 亚洲最新地址| 在线观看无码av免费不卡网站| 精品视频免费在线| 大陆精大陆国产国语精品1024| a级毛片网| 99国产在线视频| 91精品亚洲| 亚洲欧美日韩成人高清在线一区| 在线观看国产精品日本不卡网| 国产男人天堂| 亚洲视频无码| 女同久久精品国产99国| 91亚瑟视频| 热九九精品| 18禁黄无遮挡网站| 国产成人精品日本亚洲77美色| 欧美精品影院| 日韩在线永久免费播放| 青青青亚洲精品国产| 亚洲欧美综合在线观看| 日韩精品免费一线在线观看| 国产网站黄| 这里只有精品在线| 91久久偷偷做嫩草影院免费看|