萬昭龍 芮曉芳 王 繁
(長安大學運輸工程學院,陜西 西安 710064)
音樂從一開始就是人類社會的一部分,是文化遺產的重要組成部分。為了理解音樂在人類集體經驗中所扮演的角色,要求我們開發一種量化音樂進化的方法。當藝術家創作一段新的音樂時,有許多因素會影響他們,包括他們天生的創造力,當前的社會或政治事件,使用新樂器或工具,或其他個人經歷等,通過量化,我們旨在了解和衡量之前制作的音樂對新音樂和音樂藝術家的影響。
問題一:創建音樂影響力的(多個)定向網絡,其中影響者連接到追隨者。開發參數來捕捉這個網絡,通過創建定向影響者網絡的子網絡來探索音樂影響力的子集。并描述此子網,在這個子網絡中揭示了什么?
問題二:使用音樂特征的匯總數據集(具有藝術家和年份)來開發音樂相似性度量模型。
第一,同一個音樂家所寫歌曲之間的相似度會較高。
第二,這個音樂家與受其影響者歌曲的相似度也會較高。
第三,這個音樂家與不受其影響者歌曲的相似度較低。

表1 符號說明
為了提高數據挖掘的質量,并為后續的模型建立提高數據支撐,數據預處理是必不可少的。數據預處理主要包括異常值和冗余數據的處理。首先,考慮到異常值的處理,本文使用python刪除了Impact-Data數據集中的影響者名稱和追隨者名稱中的異常名稱(包括特殊符號),如表2所示,例如B9062:?‰dith Piaf。排除異常值后,數據量從原始的42770更改為41494。

表2 數據異常值的處理
為了建立影響者與追隨者的連接圖,本文利用python工具箱中的networks工具建立了定向網絡圖,網絡圖顯示了一組實體之間的互聯,每個實體由一個或者多個節點表示,彰顯出節點間的映射關系。如圖2所示,對2010年開始藝術生涯的藝術家建立定向網絡,反映在此期間,音樂家之間的相互關系,此圖中Frank Ocean, Flume, Alt-J, The Weeknd等人都影響了兩個藝術家,而其他藝術家不是影響一個藝術家就是被一個藝術家所影響,可以推測Frank Ocean,Flume, Alt-J, The Weeknd的影響力和地位較高。圖中箭頭指向的是被影響的藝術家,箭頭的起點處是發揮影響的藝術家。由圖2還可知,雖然在2010年開始藝術生涯的藝術家人數不多,但是他們之間還是有著較為復雜和密切的關系。研究此期間藝術家之間的關系,探尋期間藝術家的影響力,對于提取數據、推廣我們的影響力評價模型有著至關重要的作用。

圖2 藝術家之間的定向網絡圖
3.1 熵權法基本原理
熵權法是一種客觀賦權方法,在使用過程中,熵權法根據各指標的變異程度,利用信息熵計算各指標的熵權,再利用熵權對各指標的權重進行修正,從而得出較為客觀的指標權重的方法,最后計算出得分,通過對得分的排序,確定影響力的大小。熵權法模型步驟如下。
第一,第i個影響者的第j個指標的比重。

第二,第j個指標的信息熵和信息效用值。

第三,計算第j個指標的權重。

第四,指標加權計算得分。

3.2 評價指標的構建
對于音樂影響力評價指標,考慮到題目要求與所給數據,只能從influence_data數據集中提取指標。基于統計學理論和相關文獻的查閱發現,影響力的確定涉及相對性與絕對性的觀點,影響人的追隨者越多,相應的藝術家影響力就越大;如果他所在領域的藝術家本身很少,但他影響了絕大部分人,也可以認為他的影響力較大。例如blues流派有1000人,一個影響者影響該領域的300人,但是另外一個影響者屬于jazz流派,他影響50個人且他的領域里面只有60人,說明在該領域這個人也有統治般的影響力。
因此,在確定指標時,相應地權衡各領域人數,為此,本文把藝術家的影響人數和所在領域年份總人數作為評價指標。最后,結合指標選取與結合的原則,經過篩選后,確定評價指標為跟隨者數量、跟隨者派別個數、影響者派別總數。如表3所示,選取和統計了2010年開始藝術生涯的藝術家的評價指標數據。

表3 評價指標統計
3.3 數據標準化處理
假設有n個要評價的對象,m個評價指標構成的正向化矩陣為X,對X進行標準化的矩陣記為Z。

3.4 結果求解與分析
由于指標數量較少且計算相對簡便,利用excel進行求解。以2010年開始音樂生涯的藝術家為例,各指標權重和影響力綜合評分結果見表4和表5。由表4可知,在三個因素當中,影響者派別總數的權重最大,表明其在評價影響力時更為重要,即一個人影響力的大小,更多地取決于影響者派別總數,由表5可知,2010年開始音樂生涯的藝術家,名為Flume的藝術家音樂影響力最大。

表4 各要素計算結果

表5 影響力綜合評分結果
根據full-music-data發現,評價音樂相似度的指標較多,本文從聽眾的角度出發,以popularity為參照,利用JMP軟件,對指標的相關性進行分析,求得各個指標與popularity相關性,如表6所示。

表6 指標相關系數
當相關性系數絕對值小于0.1時,相關性系數太低。所以去掉相關性絕對值小于0.1的指標。由表6可知,explicit、loudness、acousticness、instrumentalness、danceability、energy和tempo作為音樂相似度模型的評價指標。
5.1 音樂相似度的探尋思路
結合上面所建立的影響力模型,從三個角度探尋音樂之間的相似度,首先,從同一藝術家的歌曲出發,探尋這個藝術家所寫歌曲的相似度。其次,從這個藝術家和受這個藝術家影響的人出發,探尋這個藝術家和其被影響者歌曲之間的相似度。最后,從這個藝術家和沒受這個藝術家影響的人出發,探尋這個藝術家和沒受其影響者歌曲之間的相似度。
5.2 模型的建立及驗證
5.2.1 模型指標的定義
Z為歌曲相似度,Z={A1,A2,...Am},Ai(i=1,2,…,m)為選定的歌曲,Ai={xi1,xi2,...,xi7}其中xi1,xi2,...xi7分別為 指 標explicit、loudness、acousticness、instrumentalness、danceability、energy和tempo。
5.2.2 建立初始化矩陣
將m個選定的歌曲對象和n個歌曲指標,建立正向化的初始評價矩陣Z。

5.2.3 數據無量綱化處理
為了消除各個指標之間的量綱帶來的影響,需要對數據進行無量綱化處理,本文利用最小-最大標準化進行數據的處理。

歸一化后的矩陣可表示為

5.2.4 相似度的求解
求解歌曲之間的相似度,利用皮爾遜系數,計算公式如下。

根據影響力模型,選中Flume這個藝術家對其進行分析,選取Flume這個藝術家的8首歌曲進行分析,接著按照上述音樂相似度模型的求解,得出歌曲間的皮爾遜系數,Flume各個歌曲與歌曲Ezra的皮爾遜系數如表7所示,Flume與其影響者歌曲之間的皮爾遜系數如表8所示,歌曲家Flume的歌曲Ezra與不受其影響的歌曲之間的皮爾遜系數如表9所示。

表7 Flume各個歌曲與歌曲Ezra的皮爾遜系數

表8 Flume與其影響者歌曲之間的皮爾遜系數

表9 Flume與不受其影響的歌曲之間的皮爾遜系數
5.3 數據分析
從表7至表9中得出,對于Flume這個音樂家,其創作的作品中,存在與其創作的音樂Ezra具有強相關的歌曲,但是有些歌曲與音樂Ezra相關度不是很高,符合實際情況。在實際生活中,同一個音樂人創作歌曲會有很多同一類型的歌曲,其旋律歌詞都比較類似,也會存在音樂創作人另辟蹊徑,創作出與自己平時創作歌曲風格截然不同的情形。
對于受Flume這個音樂家影響的歌曲家,他們創作的一些歌曲會跟Flume創作的歌曲Ezra有較大的相關度,有一些相關度較低,其也較為契合實際,一些歌曲家在創作時,在旋律歌詞等較多的借鑒其影響者的創作風格,而有些歌曲家只是在其創作靈感上借鑒了其影響者。
至于不受其影響的歌曲家創作的作品,因為一些音樂流派其旋律等風格相似,從而也會導致歌曲之間也會有些許相似,但是其相似的比值不會很大。
從上面得到的數據和分析中,驗證了之前的假設,從而進一步說明了本文所建立的音樂相似度模型的正確性。
通常來說一個藝術家音樂影響的人數越多其影響力越大,然而通過基于熵權法的音樂影響力模型分析發現,藝術家的音樂影響力更多取決于藝術家所在流派中受其影響人數的比例。藝術家與受其影響的藝術家之家的歌曲相似度較大,由于流派之間旋律等因素的相似,也會造成不同流派之間的歌曲相似較高。
本文所建立的評價模型,可以將錯綜復雜的藝術家之間的關系,進行簡便可靠又較為客觀的分析與評價,從而得到藝術家影響力的大小,以及藝術家之間歌曲的相似程度。
在未來,我們將模型進一步優化,將藝術家之間的關系進行更多層次的評價,對于藝術家影響力的評價會有一個更加客觀和可靠的結果;將音樂進行指標的量化,把抽象的音樂旋律變成可視的指標數據,進而利用量化的指標出發,探尋音樂的相似度,對于探究音樂之間的相似度會有更高的準確性。這種探究思路,對于音樂界藝術家的評價和音樂之間的相似度評價具有極高的可操作性和客觀性,可以為量化音樂、分析音樂影響力提供一定的思路,并可用于音樂特征提取、音樂推薦系統中。