秦繼偉,鄭慶華
(1. 新疆大學網絡與信息技術中心,830046,烏魯木齊;2. 西安交通大學計算機科學與技術系,710049,西安)
音樂作為誘導情感的資源之一,不僅具有娛樂作用,同時蘊含著豐富的情感內涵,具有增強或者減弱聽者情感的功能,常被用來推薦給聽者滿足其情感需求。然而,由于情感受到上下文環境、以往經歷、認知水平等影響,它的產生、變化是一個復雜動態的過程;因此,同一首音樂作品被不同用戶標注時可能會產生不同的情感標簽。因此,如何分析和確定音樂情感,成為音樂推薦研究的熱點問題。
本文以推薦音樂滿足用戶的情感需求為背景,提出以音樂力度、速度、音強等表現要素為維度,表達用戶對音樂情感的理解,構建音樂情感內涵空間實現對音樂作品的情感分析。
目前,基于音樂情感的推薦系統中音樂情感分析主要是通過對音樂內容分析添加情感標簽實現。音樂內容的研究圍繞音高、音強、音色、旋律、歌詞等一系列給人們帶來的聽覺、感知特性的特征量進行分析。這里,音樂內容特征分為聲學特征和語義特征[1],在聲學特征研究方面,例如,采用Thayer的AV (Arousal-Valence)情感模型對聲音數據的強度、音色和節奏等3個特征分析,建立基于高斯混合模型GMM的層次化情感檢測系統,實現對音樂片段進行分類[2];文獻[3]選取音樂的音頻特征用支持向量機方法對音樂情感進行分類;在語義特征方面,研究者從歌詞入手去分析音樂的情感,比較了高斯混合模型、K近鄰、支持向量機3類分類方法,并結合歌詞中的情感詞輔助進行情感分析[4];文獻[5]以情感單元取代詞匯,以情感單元的統計量作為情感特征,建立音樂情感向量空間模型,提高了情感的分類精度;在此基礎上,文獻[6]提出情感向量空間模型和“情感詞-情感標簽”共現的特征降維方法,與傳統的文本特征向量模型相比,能夠更好地提高歌曲情感分類準確率。
上述音樂情感分析的研究成果有效地推動了音樂推薦系統的發展,并被應用到基于音樂情感的推薦系統研究領域。通過深入分析,我們不難發現,在基于音頻信號的聲學特征研究方面,由于從音頻信號中提取出來的特征眾多,很難從中辨識與情感相關的特征;在歌詞特征方面,歌詞具有文本短小、不規范和存在重復段等特征,因此采用現有的文本分類方法,很難準確劃分歌曲的情感類別;并且以歌詞特征評價音樂情感類別的方法,不適用于沒有歌詞的音樂,因而具有一定的局限性;因此,本文針對以上存在的問題,從音樂創作的角度出發,提出音樂內涵空間模型的方法分析音樂的情感。
音樂作為一種藝術表達形式,彈奏者或者演唱者都應反映創作者賦予音樂的內涵。本文從音樂創作者的意圖出發,將內涵空間概念應用到音樂作品中,通過力度、速度和音強3個音樂表現要素的變化來反映音樂的情感,建立音樂的內涵空間,分析音樂的情感。
音樂內涵空間以音樂的力度、速度和音強3個特征為緯度,基于兩級尺度,反映音樂的情感。其中,音樂的力度、速度、音強3個值對應在內涵空間的點反映了該音樂作品的情感。
力度是音樂表現的重要手段。一般來說,力度越強,音樂越雄壯、緊張;力度越弱,音樂越緩和、委婉。在音樂內涵空間中,設力度軸表示為HL,如音樂i,則音樂力度為;
速度是一個非常重要的音樂元素,它影響著作品的情感。在音樂內涵空間中,設速度軸表示為HS,如音樂i,則音樂力度為;
音強是語音要素之一,指聲音的客觀物理強弱,對音樂情感表達起輔助作用。在音樂內涵空間中,設速度軸表示為HY,如音樂i,則音樂力度為。
基于兩極尺度的語義將力度、速度和音強按照大小、快慢和強弱等程度,劃分為5個等級,分別用1、2、3、4、5表示,其中,1表示力度很小,速度很慢,音強很弱;5分別表示力度很大,速度很快,音強很強;2、3、4則表示音樂在三個特征上處于中間程度。例如,用戶對音樂《寂寞在唱歌》在力度、速度和音強上取值分別為 2、3、4,則在音樂情感的內涵空間中點{2,3,4}反映了音樂《寂寞在唱歌》的情感內涵。
為了評價用戶在音樂情感內涵空間中標注值與音樂情感內涵實際值之間的一致程度,可采用內部相關系數ICC衡量和評價用戶信度[7]

式中:BMS是所有用戶對每首音樂的平均評分與所有音樂的平均評分之間的方差;WMS是某個用戶對音樂的評分與所有用戶對音樂評分之間的方差。假如,k為用戶數;M為用戶評價的音樂數量;xij為用戶uj對音樂mi的評分;表示所有用戶對音樂mi評分的平均值;表示所有用戶對所有音樂評分的總平均值,則


顯然地,ICC介于0~1之間,0表示不可信;1表示完全可信。一般認為,信度系數低于0.4表示信度較差,對于定量資料常常需要高的 ICC。例如,用戶1、用戶2、用戶3對音樂作品《寂寞在唱歌》在情感內涵空間中的評價分別為{2,3,4},{2,2,3},{2,4,4}。根據上述3個用戶在《寂寞在唱歌》內涵空間上的取值,采用相關系數計算評價《寂寞在唱歌》在力度、速度和音強上用戶間信度為0.703,0.826和0.722,則可信程度較高。
將音樂情感內涵空間模型應用于音樂推薦,通過兩組實驗驗證音樂情感內涵空間模型的有效性。其中,第一組實驗在不同歌曲上,比較基于內涵空間的音樂推薦列表、基于情感標簽的音樂推薦列表與基于個人喜好形成的最佳音樂列表之間的差異性,驗證本文所提的音樂內涵空間模型的準確性。第二組實驗在不同用戶數目情況下,通過最佳音樂列表與基于內涵空間的音樂推薦列表、基于情感標簽的音樂推薦列表的比較,驗證基于音樂內涵空間的推薦算法更能滿足用戶的情感需求。
情感的類型沒有統一的標準,目前未有公共的音樂數據集。本實驗數據集來源于課題組建立的一個音樂推薦評價網站,此網站中102個用戶對1 548首音樂(來源于百度音樂和酷狗音樂網站),10 672條評分記錄。
當多個用戶標注一首音樂作品時,為了描述多個用戶對這首音樂作品在內涵空間的取值,分析所有用戶在這首音樂作品力度、速度和音強上取值的概率分布。例如,上述3個用戶對音樂作品《寂寞在唱歌》內涵空間中的評價分別為{2,3,4},{2,2,3},{2,4,4},從以上取值分析《寂寞在唱歌》,在力度上3個用戶取值都為2,則這首歌在力度值1、2、3、4、5上的概率分布為{0,1,0,0,0};在速度上3個用戶取值為3、2、4,則這首歌在速度值1、2、3、4、5上概率分布為{0,1/3,1/3,1/3,0};在音強上3個用戶取值為4、3、4,則這首歌在音強值 1、2、3、4、5上概率分布為{0,0,1/3,2/3,0}。同樣地,多個用戶對同一首音樂作品標注情感標簽時,根據所有用戶對這首音樂的情感標注的類別的概率分布進行描述。
3.2.1 驗證過程在音樂推薦系統中,用戶對音樂的偏好通過用戶對音樂評分反映,用戶對音樂評分的分值越高,表明此用戶對這首音樂越喜歡。如果通過音樂數據庫中用戶ua在悲傷情境下的對所有音樂的評分,根據評分進行排序,選擇前 10首音樂,形成用戶u最佳音樂列表 { ma,… , ma,… ,ma};從a1i10用戶 u最佳列表中選擇音樂,計算數據集中所a有用戶對音樂標注的內涵空間的概率分布與用戶 u對音樂標注的內涵空間的概率分布之間的a距離,并按照距離由小到大重新排序,形成基于內涵空間推薦的音樂列表;同樣的方式形成基于情感標簽推薦的音樂列表,根據 mi的情感標簽從音樂數據庫中選擇出與音樂 mi具有相同情感標簽的音樂mj,形成基于情感標簽的音樂列表;然后,整體上比較基于內涵空間、基于情感標簽的音樂列表與最佳列表差異程度,差異越小則推薦的越準確。

圖1 音樂內涵空間驗證過程
3.2.2 評價指標依據上述描述,首先,采用歐氏距離計算數據集中所有用戶對音樂標注的(內涵空間或情感標簽)的概率分布與用戶 ua對音樂標注的(內涵空間或情感標簽)的概率分布之間的距離為

式中:n是概率分布向量的維數;xik是所有用戶對音樂標注的概率分布向量中的第k分量;是用戶u對音樂標注的內涵空間的概率分布向a量中的第k分量。
其次,采用Kendall’ tau距離[8]計算基于評分的最佳音樂列表法與基于內涵空間推薦的音樂列表、基于情感標簽推薦的音樂列表之間的差異程度。假如xi是對應最佳音樂列表第i首音樂的推薦序,yi是對應在基于內涵空間(情感標簽)推薦的音樂列表中第i首音樂的推薦序,則計算為

式中:ti是x的第i組結點x值得數目,ui是y的第i組結點y值得數目,n為音樂列表中音樂的數目。
分析數據集,選取出在數據集上評價數目較多的用戶,且用戶的評分值(評分值1~5,評分越高,用戶越滿意)分布合理,并將此用戶最偏好的音樂列表作為此用戶的最佳音樂列表。從數據集中選出用戶8,此用戶評價156首音樂,將用戶8評分最高的10首音樂,作為最佳音樂列表,如表1所示。

表1 最佳音樂列表中音樂內涵空間和情感標簽

度 度 強M1 真的愛你 5 4 4 感激M2 天路 5 3 5 感激M3 上海灘 5 3 4 自豪M4 朋友 4 3 4 感激M5 男兒當自強 4 3 5 自豪M6 美麗的神話 3 3 4 感激M7 精忠報國 4 3 5 自豪M8 紅梅贊 2 2 2 自豪M9 橄欖樹 2 3 3 自豪M10 滄海一聲笑 4 3 4 自豪
首先,按照圖1所示驗證過程,分別基于內涵空間、情感標簽產生相應音樂列表,采用kendall's tau距離計算基于內涵空間推薦的音樂列表、基于情感標簽推薦的音樂列表與基于評分推薦的最佳音樂列表的距離,結果如圖2所示,基于內涵空間推薦的音樂列表與最佳音樂列表的距離小于基于情感標簽推薦的音樂列表與最佳音樂列表的距離,本文所提的內涵空間模型準確度較高。

圖2 不同音樂下內涵空間的驗證
進一步,選定以上 10首音樂作為最佳音樂列表,在不同用戶數目下,對用戶的評分進行了平均處理,由此基于評分的最佳音樂列表同時被平均;分別通過概率分布量化每首音樂的情感內涵及情感標簽,采用kendall’ tau距離計算基于內涵空間推薦的音樂列表、基于情感標簽推薦的音樂列表與基于評分推薦的最佳音樂列表的距離,結果如圖3所示,基于內涵空間推薦的音樂準確性高于基于情感標簽推薦的音樂,并且當用戶較少時,基于音樂內涵空間的推薦音樂更能滿足用戶的情感需求。

圖3 不同用戶數目下音樂內涵空間的驗證
通過以上兩組實驗驗證,在相同數據集下,基于內涵空間推薦的音樂與基于情感標簽推薦的音樂相比,基于內涵空間推薦的音樂準確度更高,更能滿足用戶的情感需求。
本文面向音樂推薦系統提出內涵空間模型分析音樂情感的方法。所提內涵空間模型,選取音樂力度、速度、音強,基于兩極尺度的語義,建立音樂的內涵空間。通過音樂內涵空間表達音樂情感,減少了音頻特征客觀水平與主觀情感范圍之間的差距,克服了由于情感復雜可變特性造成的通過音樂聆聽屬性到情感范疇映射困難的問題。實驗結果表明,與基于情感標簽推薦的音樂列表相比,基于本文所提的內涵空間推薦的音樂準確度更高,更能滿足用戶的情感需求。下一步工作利用用戶體驗,對基于內涵空間的推薦系統繼續展開深入研究。
[1]CASEY M A, VELTKAMP R, GOTO M, et al.Content-based music information retrieval:current directions and future challenges [J]. Proceedings of the IEEE, 2008, 96(4):668-696.
[2]LIU Dan,LU Lie,ZHANG Hongjiang. Automatic mood detection from acoustic music data [C]//Proceedings of the International Symposium on Music Information Retrieval. Baltimore,MD,USA:The Johns Hopkins University Press,2003:81-87.
[3]LI Tao, OGIHARA M. Content-based music similarity search and emotion detection [C]//Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing.Piscataway, NJ, USA:IEEE, 2004:705-708.
[4]YANG Dan,LEE W S.Music emotion identification from lyrics [C]// Proceedings of the 11th IEEE International Symposium on Multimedia. Piscataway, NJ, USA:IEEE, 2009:624-629.
[5]夏云慶,楊瑩,張鵬洲,等.基于情感向量空間模型的歌詞情感分析[J].中文信息學報,2010,24(1):99-103.XIA Yunqing, YANG Ying, ZHANG Pengzhou, et al. Lyric-based song sentiment analysis by sentiment vector space model [J]. Journal of Chinese Information Processing, 2010, 24(1):99-103.
[6]李靜,林鴻飛,李瑞敏.基于情感向量空間模型的歌曲情感標簽預測模型[J].中文信息學報,2012,26(6):45-50.LI Jing, LIN Hongfei, LI Ruimin, et al. Sentiment vector space model based musical emotion tag prediction [J]. Journal of Chinese Information Processing, 2012, 26(6):45-50.
[7]SU Xiaoyuan, KHOSHGOFTAAR T M. A survey of collaborative filtering techniques [J].Advances in Artificial Intelligence, 2009, 2009:1-19.
[8]GOVINDARAJULU Z. Rank correlation methods[J]. Technometrics, 1992, 34(1):108.
[9]HUQ A, BELLO J P, ROWE R, et al. Automated music emotion recognition:a systematic evaluation [J]. Journal of New Music Research,2010, 39(3):227-244.