徐蕓芝,邵 曦
(南京郵電大學 通信與信息工程學院,江蘇 南京 210003)
基于MT-LDA的音樂標簽主題檢索
徐蕓芝,邵 曦
(南京郵電大學 通信與信息工程學院,江蘇 南京 210003)
隨著協同標注功能的普及,用戶可以通過對自己感興趣的音樂進行標注從而實現個性化的分類管理,因此音樂共享系統中的社會化標簽已成為互聯網的重要資源。考慮到社會化標簽的特性及其對音樂信息檢索系統的影響并綜合考慮了用戶的檢索行為、歌詞和音樂標簽,利用MT-LDA方法對標簽進行聚類以獲取主題類別,從而進行分析得出檢索主題,提高音樂信息檢索系統的效率和性能。實驗結果表明:在沒有屬性數據信息的檢索情況下,基于標簽主題的MT-LDA檢索模型相比于基于標簽關鍵詞檢索模型,尤其是在音樂標簽稀疏和非正規的情況下,在一定程度上更能夠提高音樂信息檢索性能。
音樂信息檢索;主題類別;關鍵詞檢索;MT-LDA模型
伴隨著數字技術的飛速發展,人們對音樂的需求量越來越大,同時對音樂的要求也越來越高。為了滿足這樣的要求和現狀,人們把越來越多的音樂資源上傳到網上,使得這些音樂資源以海量的速度增長,因此音樂信息檢索(MIR)系統得到的關注越來越多,但也給其處理音樂數據庫帶來了難度和挑戰。即使使用多媒體引擎為音樂信息檢索帶來了突破性的進展,但是,目前仍然是以檢索歌曲的基本屬性為搜索歌曲的主要方式。當只給定一個查詢,卻沒有精確匹配或與其近似匹配的記錄來匹配時,谷歌音樂、酷狗音樂和Last.fm等眾多常見的音樂檢索系統很難查詢到滿足用戶要求的歌曲[1]。或者是,當你的檢索詞屬于多種不同的歌曲類別時,音樂檢索系統會特別混亂地將所有跟關鍵詞相關的歌曲推薦給你,這樣導致你反而不能聽到你想聽的歌。例如,當你在百度MP3的音樂檢索欄中輸入“我希望找到些搖滾(rock)又古典(classic),但同時又比較動感(dance)的歌”,系統會根據你的查詢,匹配數據庫中存儲的歌曲屬性關鍵詞,去除掉輸入的一些不要的詞匯,提取出“搖滾、古典、舞曲”,從而把和這些詞相關的歌曲推薦給你。在這一過程中,音樂標簽在一定程度上起到了至關重要的作用。其實還可以根據這些詞提取出用戶的主要需求。
對音樂歌曲進行輕量級的文字描述的過程就是所謂的標注行為,這些描述的文字就是標簽[2]。標簽不僅表達和標注出了用戶對資源的喜好和看法,還可以看作是用戶協作參與交互的一種途徑。雖然沒有一個通用的詞典或公共標準來約束用戶的標注行為,但是標簽里面暗含的信息也是不能忽視的,有時候為用戶獲取和分享信息提供相當大的便利。因此,如果能從標簽中挖掘出用戶能理解的語義信息,并且結合音樂本身具有的屬性數據來完成音樂的檢索和推薦,這將為MIR(Music Information Retrieval)領域研究者檢索音樂帶來巨大的突破。
文中主要使用MT-LDA(Music Tag Latent Dirichlet Allocation,音樂標簽潛在狄利克雷分配模型)提取出用戶需要檢索的主題,從而改善音樂搜索引擎的數據處理過程。MT-LDA模型是一種來源于LDA模型的產生式概率模型,它適用于很多離散數據集(例如:音樂歌曲的標簽集合)。該方法先將用戶的查詢映射到更廣闊的空間,通過泛化概念來更好地了解和理解用戶的檢索意圖和目的。
文中的研究重點在兩個方面:一方面是如何從網站上得到你想要的歌曲標簽及挖掘出這些標簽潛在的語義信息;另一方面根據你挖掘的信息進行主題提取并進行建模,得出相應的主題并完成檢索。通過以上兩方面的研究,探索主題提取模型在MIR系統中的應用。
目前,包括社會化標簽的音樂分類檢索[3-4]應用系統已經廣泛地使用了社會化標簽來滿足用戶多層次多角度的要求。利用已有的標簽信息并將用戶標注的標簽聚類來完成相應音樂的檢索,這種改進檢索效果的方法是由Begelman和Karydis提出的[5-6]。
從以上研究成果可以看出,如果在一個應用系統中將用戶標注的標簽進行整合和應用,這將大大提升MIR系統的檢索性能。詞以及低級特征(屬性數據)已經通過信息檢索模型被廣泛地應用到含有標注的圖像檢索系統等多媒體檢索系統中來進行索引,但還沒有被用到音樂檢索系統里。實驗結果表明,如果利用音樂對應標簽的潛在的語義信息再結合音樂的音頻特征和組成各個類別的同義詞典的方法,能在很大程度上提高MIR的性能。
很多人都在進行音樂信息檢索的相關研究,但他們主要研究的是音頻的處理和音樂分類,對用戶檢索意圖和音樂數據庫進行理解和分析的研究相對較少。LDA模型是一種挖掘潛在語義和理解屬性數據語義信息的模型,它主要是將相關屬性聚合成人們看不到的簇團,但這些簇團內部又包含著相關的屬性聯系。LDA模型是由Blei等提出的,后來又被廣泛用到自然語言處理的各個相關領域,例如垃圾網頁的分類、檢測、去除以及主題識別等[7]。傳統的音樂檢索,都只是用關鍵詞匹配來得到歌曲推薦列表。Krestel等已經將LDA模型應用到標簽推薦系統中[7-8],與傳統的音樂檢索方法——關鍵字匹配檢索相比,該方法能擴展資源,在新資源中能夠較好地改進搜索效果,從而極大地提高檢索性能。
3.1 音樂向量空間模型
通過對用戶的查詢進行分析發現:在大部分情況下,用戶只是輸入歌曲名、歌手信息或與歌曲相關的其他屬性數據而不會輸入其他數據;這樣就有必要統計用戶的查詢來調整屬性數據特征的權重,從而修改傳統的屬性數據的向量空間模型[9]。結合用戶查詢,對本地組件包特征再賦權值,以這種方式重新組合集中的數據向量,式(1)是對音樂向量進行的描述:
Vsong=(a1w1,a2w2,a3w3,a4w4)
(1)
其中,w1表示歌曲名;w2表示作者名字的維度;w3表示專輯;w4表示包括歌詞等其他維度的音樂信息;a1,a2,a3和a4分別表示修正參數,考慮到四者在用戶查詢統計中的比重和查詢的意義,將四者初步設定為0.4,0.2,0.2,0.1。
對音樂的描述定義完后,用式(2)來計算歌曲查詢相似度。
3.2 關鍵詞音樂信息檢索
關鍵詞音樂信息檢索,是一種基于標簽的檢索模式。該模式改變了傳統的檢索模式,允許用戶在不知道音樂的名稱、歌詞或歌手名等特定信息的情況下,輸入一些與想查詢的歌曲相關的標簽信息來輔助查詢擴展和結果的排序。用戶也可以在搜索引擎輸入框中輸入自己當時的心情、自己當時的情感以及當時的環境,系統會根據用戶輸入的信息對檢索出來的結果進行過濾、篩選和排序,最后實現音樂的檢索和自動推薦[10]。為了提高音樂信息的檢索效果,要考慮到如下幾個因素:
(1)歌曲除了歌手、歌名等標注,還有關于其他信息的標簽。
(2)該歌曲被聽過的用戶數目,及標簽是否大眾化而不是個別用戶標注的。
(3)該歌曲的標簽數目及標簽的形式,標簽是否有多余、重復和不相關的詞。
為此,文中從Last.fm網站上爬取了很多已經進行過分類的歌曲并進行標簽整理,去除多余、沒用和無關的標簽,并且對標簽數目進行統計。用式(3)計算每首歌每個標簽的概率:
(3)
其中,TFij是詞頻(TermFrequency),即某標簽ti在該歌曲標簽中出現的頻率;IDF是逆向文件頻率(InverseDocumentFrequency),可以由總歌曲數目除以包含該標簽的歌曲的數目,再將得到的商取對數得到。
把搜索輸入框輸入的關鍵詞與音樂歌曲庫的標簽進行匹配,按照式(4)計算并推薦概率相對較大的歌曲:
(4)
從表1可以發現,某歌曲屬于某一個主題類別時,它的標簽描述會大多數偏向于這種主題類別,說明用戶標注不是盲目的。每首歌會有不同的標簽,而且有的標簽會被用戶重復標注,這將直接影響到計算該標簽的概率,從而會改變檢索歌曲的概率值,使該歌曲更容易被檢索到。

表1 隨機抽取的5首歌類別及標簽
3.3 基于音樂標簽理解的MT-LDA檢索
MT-LDA(Music Tags-Latent Dirichlet Allocation)是一種提取音樂標簽主題的LDA模型。該模型(見圖1)不僅為音樂標簽設置了潛在語義模型,還使每首歌對應的標簽內容是一個隨機變量,用來顯示所歸屬的潛在主題(潛在類別)的概率值。在模型中,潛在話題定義為一個在有限詞典上的單詞(標簽,這里主要考慮與流派相關的標簽)的離散分布。MT-LDA假設每個歌曲標簽是由一個帶有隨機選擇參數分布的隨機主題從可見以及非可見的歌曲標簽群中產生的,主題單一平滑分布會將歌曲標簽滿足的參數實例化一次[11]。
該方法中的隨機變量有:變量θ~p(θ);多項式變量c來表示主題類別;多項式變量t表示歌曲標簽詞匯。

圖1 基于音樂標簽的MT-LDA方法
其中,M是整個音樂標簽數據集;α是Dirichlet先驗參數,在模型中用于生成一個主題θ向量;β是表示各個主題對應的標簽概率分布矩陣[12]。它證明了基于MT-LDA的音樂標簽主題檢索方法在注重簡單詞語擴展的相關規則下,可以從用戶協作標注的標簽中挖掘出一個共享的主題結構。
在這個簡化基本模型中有一些假設。首先,假設維度為K的狄利克雷分布(即主題類別的維度變量c)是已知和固定的。其次,就是詞匯的概率參數β是一個K×V的矩陣,將其看成是固定的且可以估計出來的[13]。最后,泊松估計不是很重要,它可以根據歌曲的標簽多少來調節使用。此外,發現N獨立于其他所有生成數據變量(θ和t),它是一個輔助變量,所以通常會忽略其隨機性對數據變量的影響。

(5)
式中,α為K維變量;Γ(x)是伽馬函數。
鑒于給定了參數α和β,混合主題θ、N個主題類別c、N個標簽詞組的聯合概率如式(6):
(6)
該方法中歌曲的標簽組t被當成觀察變量,θ和c被當成隱藏變量,于是就可以通過EM算法[14]學習訓練出α和β。在這個學習訓練求解過程中,若遇到后驗概率p(θ,c|t)無法直接求解的情況,需要找到一個似然函數下界來輔助近似求解。文中使用基于分解假設的變分法進行計算,用到了EM算法,每次E-step輸入α和β,計算得到所需的似然函數,再用M-step最大化這個似然函數,算出α和β,不斷循環迭代直到收斂[14]。
從以上的討論中可以看出,MT-LDA模型有三個重要的部分:
(1)α和β都是用來表示語料級別的參數,也就是每首歌的標簽組都被當作是一樣的,因此生成過程只采樣一次;
(2)θ是歌曲標簽組級別的變量,方法中每個歌曲標簽組產生各個主題類別c的概率是不同的,因此每個歌曲標簽組對應一個不同的θ,也就是說,所有生成的每個歌曲標簽組采樣一次θ;
(3)c和t都是標簽詞匯級別變量,c由θ生成,t由c和β共同生成,一個標簽詞匯t對應一個主題類別c[15]。
至此,MT-LDA模型主要通過GibbsSampling學習求解出音樂標簽集中標簽在主題類別上的概率分布α,以及主題類別在標簽詞匯上的概率分布β。根據α和β,就能求解出每次輸入的檢索詞匯向量組關于各個主題類別的概率分布以及主題類別關于各個標簽詞匯的概率分布[16]。通過概率計算,就能分析出每次檢索最可能想要檢索到的歌曲主題類別,及各個主題類別最具代表性的標簽詞匯,從而完成歌曲的檢索和推薦。
4.1 實驗過程
音樂社會化標簽可以從不同角度和方面反映人們對音樂的感受和想法,具有許多社會屬性的同時,也包含了歌曲自身的許多客觀屬性。為了保證實驗數據的客觀性及可再現,文中使用了著名音樂社交網站Last.fm的數據語料。該數據集是從Last.fm上爬取了2014年下半年至2015年3月份全球各個地區的熱門音樂榜單,其中包括歌曲名、歌手名及其標簽信息。
數據集本身包含的是原始的歌曲信息,其中有的歌曲標簽只有一個,選擇標簽數為三個以上的歌曲。還有的標簽是句子或詞組,要對其進行處理和整理。對于一些無明確含義及對檢索沒有幫助的垃圾標簽,如“first listen”,將垃圾標簽從語料中去除。最終得到了500首歌曲和38個標簽詞匯,而且大多數標簽是有關音樂流派風格。
使用MT-LDA模型對數據庫進行主題類別挖掘,訓練得出α和β,根據α和β,再結合檢索框輸入的檢索詞匯挖掘出用戶最想聽到什么樣的歌,把這些相關的歌推薦給用戶。
4.2 實驗結果及分析
文中實驗過程中一共進行了9次檢索操作,每次檢索輸入多個檢索詞匯來查找自己想聽到的歌曲。分別用傳統的關鍵詞檢索和MT-LDA模型提取主題檢索兩個方法進行檢索,檢索到的推薦歌曲數選擇最靠前的20首。抽出其中的一次檢索,可得到關鍵詞檢索歌曲推薦表,如表2所示。表3顯示的是用MT-LDA主題提取方法檢索得到的歌曲表。歌曲推薦表中不僅顯示了歌曲名,還包括檢索的相關歌曲類別。

表2 關鍵詞檢索歌曲推薦表

表3 MT-LDA主題檢索歌曲推薦表
文中采用MAP(Mean Average Precision),每個主題類別的平均準確率的平均值指標,對實驗結果進行度量。MAP是度量檢索系統性能的常用指標,也是主題建模界常用的衡量方法。系統檢索出來的相關歌曲越靠前,MAP值越高,表示檢索性能越好,模型的推廣性越好。
圖2顯示了兩種檢索方式9次檢索的MAP值的比較。

圖2 兩種檢索方法的MAP值比較
把表2和表3進行比較可以得出,雖然輸入的檢索詞匯都是“rap rock folk electronic”,但是,關鍵詞檢索方法只會匹配跟這四個檢索詞相關的歌曲,把概率值大的歌曲推薦給你。而MT-LDA檢索方法會結合訓練出的參數得出你最想檢索的歌曲的主題類別,從而把這個主題類別相關的歌曲推薦給你。所以會發現,表2中的歌曲的類別特別混亂,反而不知道你想聽什么歌;而表3主要給你推薦了“disco”和“electronic”的歌曲。
由圖2可以看出,MT-LDA主題檢索方法的MAP值比關鍵詞檢索方法的高出許多,證明MT-LDA主題檢索方法的檢索性能要高于關鍵詞檢索方法。
綜上所述,MT-LDA主題檢索方法在設計中不僅考慮了歌曲集的標簽信息,還能從不知道歌曲歌名及歌手信息的用戶檢索信息中挖掘出用戶最想聽的歌曲的主題類別,從而把相關歌曲推薦給用戶,大大提高了檢索性能。
MT-LDA模型通過對已有的數據集進行數據處理及分析,得出標簽檢索主題,極大地提高了檢索的準確性和性能。未來將側重于結合歌曲的音頻特性和MT-LDA模型給用戶標注過的新歌曲進行分類,使得歌曲數據集更具有準確性,從而提高主題提取精度,進一步增強檢索性能。
[1] Levy M,Sandler M.Music information retrieval using social tags and audio[J].IEEE Transactions on Multimedia,2009,11(3):383-395.
[2] Beckett D. Semantics through the tag[C]//Proceeding of XTech 2006:building web 2.0.[s.l.]:[s.n.],2006.
[3] Kim H,Breslin J G,Yang S,et al.Social semantic cloud of tag:semantic model for social tagging[C]//Proceedings of the 2nd KES international conference on agent and multi-agent systems:technologies and applications.[s.l.]:ACM,2008:83-92.
[4] Wang F,Wang X,Shao B,et al.Tag integrated multi-label music style classification with hypergraph[C]//Proc of 10th international society for music information retrieval conference.Kode,Japan:[s.n.],2009:363-368.
[5] Begelman G,Keller P,Smadja F.Automated tag clustering,improving search and exploration in the tag space[C]//Proc of the 15th international world wide web conference.Edinburgh,UK:[s.n.],2006.
[6] Karydis I,Nanopoulos A,Gabriel H,et al.Tag-aware spectral clustering of music items[C]//Proc of 10th international society for music information retrieval conference.Kode,Japan:[s.n.],2009:159-164.
[7] Krestel R,Fankhouser P,Nejdl W.Latent Dirichlet allocation for tag recommendation[C]//Proceedings of ACM conference on recommender systems.New York,USA:ACM,2009:61-68.
[8] Feng Y,Zhang Y,Pan Y.Popular music retrieval by detecting music[C]//Proc of ACM SIGIR’03.Toronto,Canada:ACM,2003.
[9] Baeza-Yates R,Ribeiro-Neto B.Modern information retrieval[M].New York:ACM Press,1999.
[10] Meila M,Heckerman D.An experimental comparison of several clustering and initialization methods[J].Machine Learning,2001,42:9-29.
[11] 周利娟,林鴻飛,閆 俊.基于TLDA和SVSM的音樂信息檢索模型[J].計算機科學,2014,41(2):174-178.
[12] Stigler S M.Parametric empirical Bayes inference:theory and applications[J].Journal of the American Statistical Association,1983,78(381):47-65.
[13] Nigam A,McCallum A K,Thrun S.Text classification from labeled and unlabeled documents using EM[J].Machine Learning,2000,39:103-134.
[14] Popescul A,Ungar L H,Pennock D,et al.Probabilistic models for unified collaborative and content-based recommendation in sparse-data environments[C]//Proceedings of the seventeenth conference on uncertainty in artificial intelligence.San Francisco:Morgan Kaufmann,2001.
[15] Rennie J.Improving multi-class text classification with Naive Bayes[R].[s.l.]:MIT,2001.
[16] Ronning G.Maximum likelihood estimation of Dirichlet distributions[J].Journal of Statistical Computation and Simulation,1989,34(4):215-221.
Music Tags Topic Retrieval Based on MT-LDA
XU Yun-zhi,SHAO Xi
(College of Communication & Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)
Music sharing systems with collaboratively tagging function have been important parts on the Internet.They make the system users annotate and categorize their own interests and thoughts about the resources possible.Considering the characteristics of social tagging and its influence on Music Information Retrieval (MIR) system,MT-LDA method by jointly considering lyrics,tags and searching behavior can be used to analyze collaboratively generated tags and the topic category of tags to catch the retrieval topic,so as to improve the efficiency and performance of MIR system.The experiment shows that MT-LDA retrieval model based on tags topic performs better than keywords retrieval model based on tags into improving the MIR system performance especially tags for tracks are extremely sparse and informal,when retrieval information have no attribute data.
music information retrieval;topic category;keywords retrieval;MT-LDA model
2015-09-28
2015-12-30
時間:2016-05-25
國家自然科學基金青年基金(60902065)
徐蕓芝(1989-),女,碩士研究生,研究方向為多媒體音樂信息處理和檢索;邵 曦,博士,副教授,研究生導師,研究方向為多媒體信息處理系統、基于內容的音樂信息檢索等。
http://www.cnki.net/kcms/detail/61.1450.TP.20160525.1711.068.html
TP31
A
1673-629X(2016)07-0200-05
10.3969/j.issn.1673-629X.2016.07.043