李 鏘,李秋穎,關(guān) 欣
(天津大學(xué)電子信息工程學(xué)院,天津 300072)
面對(duì)互聯(lián)網(wǎng)上海量的音樂(lè)數(shù)據(jù),對(duì)音樂(lè)信息的檢索顯得尤為重要.目前絕大多數(shù)音樂(lè)數(shù)據(jù)庫(kù)除了可以根據(jù)音樂(lè)名稱或者藝術(shù)家姓名建立索引以外,還可以利用音樂(lè)的流派信息建立索引.現(xiàn)有的音樂(lè)流派分類方法大多是在音樂(lè)數(shù)字符號(hào)的基礎(chǔ)上提取音樂(lè)的音色、節(jié)奏和音高等內(nèi)容,這些特征主要包括短時(shí)傅里葉變換(short time Fourier transform,STFT)系數(shù)、美爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)、線性預(yù)測(cè)系數(shù)(linear prediction coefficients,LPC)、過(guò)零率(zero-crossings ratio)、最強(qiáng)節(jié)拍(strong beat)和最強(qiáng)節(jié)拍力度(strength of strong beat)[1-3]等,也有使用網(wǎng)絡(luò)上對(duì)音樂(lè)進(jìn)行標(biāo)注的標(biāo)簽和音樂(lè)專家對(duì)音樂(lè)的評(píng)價(jià)作為特征進(jìn)行音樂(lè)流派分類的.
聽(tīng)覺(jué)圖像模型(auditory image model,AIM)[4]是劍橋大學(xué)Roy Patterson實(shí)驗(yàn)室開(kāi)發(fā)的通過(guò)模擬人耳耳蝸的結(jié)構(gòu)特征,將一維聲音信號(hào)轉(zhuǎn)化為二維聽(tīng)覺(jué)圖像的時(shí)域模型.根據(jù)聲音聽(tīng)覺(jué)圖像的不同,可用來(lái)區(qū)分聲音的元音和輔音[5],監(jiān)測(cè)深海中障礙物的大小[6],進(jìn)行聲音排序(sound ranking)[7],還能對(duì)復(fù)合音中的音強(qiáng)度進(jìn)行分析[8].Ness等[9]曾在聽(tīng)覺(jué)圖像的基礎(chǔ)上進(jìn)行了古典作曲家分類和音樂(lè)情感分類的研究,但沒(méi)有進(jìn)行音樂(lè)流派的分類.
本文首先利用聽(tīng)覺(jué)圖像模型將音頻信號(hào)轉(zhuǎn)化為聽(tīng)覺(jué)圖像,再采用尺度不變特征轉(zhuǎn)換(scale invariant feature transformation,SIFT)[10-11]和空間金字塔匹配(space pyramid matching,SPM)[12]方法提取聽(tīng)覺(jué)圖像的特征向量進(jìn)行音樂(lè)流派分類,分類結(jié)果優(yōu)于同樣基于人耳耳蝸結(jié)構(gòu)提取的美爾頻率倒譜系數(shù)的分類結(jié)果.
聽(tīng)覺(jué)圖像模型,通過(guò)模擬人耳的聽(tīng)覺(jué)系統(tǒng),經(jīng)過(guò)耳蝸預(yù)處理、基底膜活動(dòng)、神經(jīng)活動(dòng)模式、頻點(diǎn)短時(shí)整合,最后得到穩(wěn)定的聽(tīng)覺(jué)圖像,具體過(guò)程如下所述.
耳蝸預(yù)處理(pre-cochlear processsing,PCP)過(guò)程就是利用帶通濾波器來(lái)模擬外耳和中耳對(duì)音頻信號(hào)的濾波功能.以一首古典音樂(lè)為例,其原始音頻波形如圖1(a)所示,經(jīng)PCP預(yù)處理后的波形如圖1(b)所示,濾除超出人耳聽(tīng)覺(jué)頻帶范圍的信號(hào),便于后續(xù)分析.

圖1 耳蝸預(yù)處理波形Fig.1 Wave figures for PCP
基底膜活動(dòng)(basilar membrane motion,BMM)部分就是仿照人耳耳蝸對(duì)音頻信號(hào)的處理過(guò)程建立的耳蝸功能模塊.根據(jù)耳蝸基底膜上不同位置的細(xì)胞對(duì)不同頻率聲音的選擇過(guò)程,將一維音頻信號(hào)轉(zhuǎn)換成多通道(multi-channel)的不同頻帶上的波形信號(hào).動(dòng)態(tài)壓縮的 Gammachirp(dynamic compressive Gammachirp,dcGC)濾波器級(jí)聯(lián)結(jié)構(gòu)和如圖 2所示的極零點(diǎn)濾波器級(jí)聯(lián)結(jié)構(gòu)(pole-zero filter cascade,PZFC)[13]都可以模擬人耳不同位置基膜上聲音信號(hào)的幅度和時(shí)延.

圖2 極零點(diǎn)濾波器級(jí)聯(lián)結(jié)構(gòu)Fig.2 Structure chart of PZFC
圖 2中的自動(dòng)增益環(huán)路對(duì)應(yīng)于腦干中橄欖復(fù)合體的傳出神經(jīng)元對(duì)耳蝸外纖毛細(xì)胞活動(dòng)的控制.半波整流器用于保持所有帶通信號(hào)的能量和精細(xì)時(shí)間結(jié)構(gòu).以一首古典音樂(lè)為例,采用極零點(diǎn)濾波器的BMM 過(guò)程如圖 3所示,其中圖 3(a)為原始音頻信號(hào),圖 3(b)為將原始音頻轉(zhuǎn)換為等效矩形帶寬(equivalent rectangular bandwidth,ERB)刻度下不同頻帶的波形.將時(shí)域?yàn)V波器中心頻率f轉(zhuǎn)換為 ERB刻度下的頻率關(guān)系式為


圖3 將音頻信號(hào)轉(zhuǎn)化為多通道信號(hào)的BMM過(guò)程Fig.3 Multi-channel figure for BMM
神經(jīng)活動(dòng)模式(neural activity pattern,NAP)模擬耳蝸內(nèi)耳毛細(xì)胞,將BMM模塊的響應(yīng)信號(hào)進(jìn)行半波整流、壓縮和低通濾波,轉(zhuǎn)換為耳蝸的神經(jīng)活動(dòng).半波整流用于模擬內(nèi)耳毛細(xì)胞的響應(yīng)過(guò)程.壓縮是為了模擬人耳耳蝸的壓縮功能,對(duì)輸入和輸出信號(hào)起到平滑的作用.低通濾波是為了減少隨著頻率增加和鎖相環(huán)所造成的損失.以一首古典音樂(lè)為例的NAP圖如圖 4所示,增強(qiáng)了 BMM 的頻譜信息和短時(shí)信息.

圖4 由BMM轉(zhuǎn)換為NAP的過(guò)程Fig.4 Figure for NAP from BMM
頻點(diǎn)短時(shí)整合(strobe temporal integration,STI)是基于人耳的聲音感知原理,利用頻點(diǎn)檢測(cè)技術(shù)檢測(cè)出每條通道的峰值.以一首古典音樂(lè)為例的單通道頻點(diǎn)檢測(cè)過(guò)程如圖5所示.

圖5 單一通道的頻點(diǎn)檢測(cè)過(guò)程Fig.5 STI on a single channel
穩(wěn)定的聽(tīng)覺(jué)圖(stabilized auditory image,SAI)依據(jù)聽(tīng)覺(jué)皮層的二維結(jié)構(gòu)及在聽(tīng)覺(jué)神經(jīng)系統(tǒng)中的各種映射方式,將聽(tīng)覺(jué)神經(jīng)上的信號(hào)轉(zhuǎn)換為二維滑動(dòng)圖.具體而言,即將由STI得到的波形顯著峰值作為觸發(fā)選通信號(hào),與各通道的信號(hào)進(jìn)行短時(shí)互相關(guān)運(yùn)算,完成觸發(fā)式時(shí)域融合,得到最終的聽(tīng)覺(jué)圖像.將時(shí)域NAP信號(hào)轉(zhuǎn)換成時(shí)間間隔和頻率維度上的穩(wěn)定聽(tīng)覺(jué)圖信號(hào),以一首古典音樂(lè)為例的聽(tīng)覺(jué)圖如圖 6所示,右側(cè)部分是信號(hào)在頻率上的分布,下側(cè)部分是在時(shí)間間隔上的分布.
圖 7是將聽(tīng)覺(jué)圖用圖像的形式表現(xiàn)出來(lái)的聽(tīng)覺(jué)圖像,可以看出聽(tīng)覺(jué)圖像的模式及其紋理結(jié)構(gòu),通過(guò)觀察不同流派的音樂(lè)聽(tīng)覺(jué)圖像,發(fā)現(xiàn)不同流派的聽(tīng)覺(jué)圖像在圖像模式及紋理走向上都是不同的,提取圖像的紋理結(jié)構(gòu)特征可以作為音樂(lè)流派分類的基礎(chǔ).

圖6 穩(wěn)定聽(tīng)覺(jué)圖Fig.6 Stabilized auditory image

圖7 用圖像的形式表示的聽(tīng)覺(jué)圖Fig.7 Image form of SAI
本文采用尺度不變特征轉(zhuǎn)換和金字塔匹配方法提取圖像特征.因?yàn)槌叨炔蛔兲卣鬓D(zhuǎn)換可以更全面地提取圖像的局部信息,能夠更準(zhǔn)確地描述圖像所包含的特征.先將圖像劃分成相互重疊的圖像塊,提取各圖像塊的 SIFT描述符,然后對(duì)提取的 SIFT描述符進(jìn)行稀疏編碼,用少量的非零值表示 SIFT描述符,再根據(jù)不同的空間金字塔匹配方法,對(duì)聽(tīng)覺(jué)圖像在不同刻度上進(jìn)行映射,這樣就將局部特征整合到整體特征,用整體特征表示聽(tīng)覺(jué)圖像更全面.
空間金字塔匹配方法主要有3種,即均方根值法(the square root of mean squared statistics)Sqrt、絕對(duì)值均值法(the mean of absolute values)Abs和最大絕對(duì)值法(max pooling)max,如式(2)~(4)所示.

式中:uij為SIFT描述符向量中第i行第j列的元素;M為劃分的區(qū)域內(nèi)SIFT描述符的個(gè)數(shù);zj為映射后的向量的第 j個(gè)元素.
對(duì)于音樂(lè)流派的自動(dòng)分類,本文采用線性支持向量機(jī)的分類方法.臺(tái)灣大學(xué)林智仁副教授等開(kāi)發(fā)設(shè)計(jì)的 LibSVM 中對(duì)于高維度的特征向量,線性支持向量機(jī)效果最佳.
本文實(shí)驗(yàn)采用國(guó)內(nèi)外音樂(lè)流派分類研究中常用的 GTZAN數(shù)據(jù)庫(kù),其中包括藍(lán)調(diào)、古典、鄉(xiāng)村、迪斯科、嘻哈、爵士、電子、流行、雷鬼和搖滾10種音樂(lè)流派的1,000首音樂(lè),采樣頻率為22.05,kHz.實(shí)驗(yàn)中每首音樂(lè)選取時(shí)間長(zhǎng)度為5,s的音樂(lè)片段對(duì)其進(jìn)行聽(tīng)覺(jué)圖像轉(zhuǎn)換,AIM 的設(shè)置與文獻(xiàn)[8,14]相同,PZFC 中濾波器的頻率范圍選取為 40.00~0.85sf/2,Hz(sf為采樣頻率),每秒選取 50幀.為了能夠更好地描述音樂(lè)信息,計(jì)算總幀數(shù)的圖像均值作為每首音樂(lè)的聽(tīng)覺(jué)圖像.對(duì)于動(dòng)態(tài)壓縮的Gammachirp聽(tīng)覺(jué)濾波器頻率范圍選取 40~16,000,Hz,通道數(shù)選擇 50和 75兩種情況.通過(guò)比較模擬人耳耳蝸的PZFC和dcGC濾波器級(jí)聯(lián)結(jié)構(gòu),選擇更適合音樂(lè)流派分類的濾波器.
不同聽(tīng)覺(jué)濾波器在相同圖像塊大小(圖像塊大小分別為 16×16、32×32和 64×64),映射方法選擇max,采用線性支持向量機(jī)作為分類器,音樂(lè)流派的分類正確率如表 1中每列所示.相同的聽(tīng)覺(jué)濾波器在不同圖像塊大小、相同的 max映射方法和線性支持向量機(jī)分類器下,音樂(lè)流派分類正確率如表1中每行所示.相同的聽(tīng)覺(jué)濾波器在相同的 16×16圖像塊、相同的線性分類器、不同的映射方法下,音樂(lè)流派分類正確率如表2中每行所示.
由表1和表2可見(jiàn),采用音樂(lè)聽(tīng)覺(jué)圖像對(duì)音樂(lè)流派進(jìn)行分類最好的設(shè)置是聽(tīng)覺(jué)濾波器選擇 PZFC,圖像塊大小選擇 16×16,增大圖像塊的大小反而會(huì)降低正確率.3種空間金字塔匹配方法中,選取最大絕對(duì)值法能夠達(dá)到最好的實(shí)驗(yàn)效果.

表1 采用不同濾波器在不同圖像塊大小下的分類正確率Tab.1 Accuracy of different filters and different sizes of images

表2 采用不同濾波器在不同的映射方法下的音樂(lè)流派分類正確率Tab.2 Accuracy of different filters and different methods for mapping
下面討論在最佳分類效果下各流派的具體分類效果.采用PZFC聽(tīng)覺(jué)濾波器,圖像塊大小選取16×16,匹配方法選擇最大絕對(duì)值法,分類器選擇線性支持向量機(jī)的音樂(lè)流派分類結(jié)果如表3所示.

表3 最佳參數(shù)下各音樂(lè)流派分類結(jié)果Tab.3 Accuracy with the best parameters
以表 3中的古典音樂(lè)為例,92%的古典音樂(lè)被認(rèn)為是古典音樂(lè),2%的被誤判為鄉(xiāng)村音樂(lè),2%的被誤判為迪斯科,2%的被誤判為爵士,2%的被誤判為雷鬼,故古典音樂(lè)分類的正確率為 92%.由表 3可知,古典、爵士和電子音樂(lè)的分類效果比較好,而搖滾音樂(lè)的正確率最低,因?yàn)楣诺?、爵士和電子音?lè)的聽(tīng)覺(jué)圖像的紋理特征和亮度特征較明顯,而搖滾音樂(lè)的聽(tīng)覺(jué)圖像的紋理特征不明顯,容易誤判為其他流派的音樂(lè).
Tzanetakis等[3]用單一特征集在高斯分類器下的分類結(jié)果如表4所示,如5維的音階特征的正確率為23.0%,6維的節(jié)拍特征的正確率為 28.0%,9維的短時(shí)傅里葉變換特征的正確率為45.0%,10維基于人耳耳蝸結(jié)構(gòu)得到的 MFCC特征的分類效果只有47.0%.所有特征集的總和才只能得到 59.0%的正確率,而本文基于模擬人耳耳蝸結(jié)構(gòu)得到的聽(tīng)覺(jué)圖像的流派分類效果可以達(dá)到62.6%,高于MFCC的分類效果,也高于任意其他單一特征集的分類效果,甚至比使用總特征集的效果還要好.

表4 采用不同特征集的分類正確率Tab.4 Accuracy for different feature sets
Genussov等[15]將“模糊映射(diffusion maps)”理論引入音樂(lè)流派自動(dòng)分類系統(tǒng),在從音樂(lè)符號(hào)中提取出的音色特征的基礎(chǔ)上,選取3種不同規(guī)格的數(shù)據(jù)庫(kù)驗(yàn)證實(shí)驗(yàn)效果,古典&電子是選取 GTZAN中古典和電子兩種音樂(lè)流派的數(shù)據(jù)作為兩類分類的數(shù)據(jù)庫(kù),5種流派庫(kù)是GTZAN中藍(lán)調(diào)、古典、電子、流行和雷鬼 5種音樂(lè)流派的數(shù)據(jù)庫(kù).本文也采用同樣的數(shù)據(jù)庫(kù),將基于聽(tīng)覺(jué)圖像的分類效果與采用“模糊映射”前后的音色特征的分類正確率作比較,比較結(jié)果如表5所示.由表 5所示,在 3種不同的數(shù)據(jù)庫(kù)下,采用聽(tīng)覺(jué)圖像對(duì)音樂(lè)流派進(jìn)行分類,優(yōu)于基于“模糊映射”的音色特征的分類正確率.
Deshpande等[16]采用的數(shù)據(jù)庫(kù)是 52首爵士、53首古典和52首搖滾音樂(lè)組成的數(shù)據(jù)庫(kù),在MFCC和STFT的頻譜圖的基礎(chǔ)上,對(duì)圖像提取其紋理信息,采用 K-NN分類器(k=3)時(shí)得到最好的實(shí)驗(yàn)結(jié)果是75.00%,在同樣規(guī)格的數(shù)據(jù)庫(kù)下基于聽(tīng)覺(jué)圖像可以得到 77.35%的正確率,高于 MFCC和 STFT的頻譜圖提取特征的分類效果.

表5 不同規(guī)格數(shù)據(jù)庫(kù)下的分類正確率Tab.5 Accuracy in different databases
通過(guò)以上比較結(jié)果可知,相較于 MFCC,聽(tīng)覺(jué)圖像能夠更好地模擬人耳耳蝸的結(jié)構(gòu),便于音樂(lè)流派的分類.基于聽(tīng)覺(jué)圖像的音樂(lè)流派分類結(jié)果優(yōu)于單一特征集的分類效果.
本文將聽(tīng)覺(jué)圖像引入音樂(lè)流派自動(dòng)分類系統(tǒng),用尺度不變特征轉(zhuǎn)換和空間金字塔匹配方法提取圖像特征向量,優(yōu)于同樣模擬人耳耳蝸的 MFCC特征集,也優(yōu)于任意單一特征集的分類效果.Gjerdigen和Perrot曾做過(guò)一個(gè)實(shí)驗(yàn),用 1,年的時(shí)間訓(xùn)練 52名心理學(xué)專業(yè)的大學(xué)生去聽(tīng)音樂(lè),培養(yǎng)他們的樂(lè)感,對(duì)于250,ms的音樂(lè)片段的音樂(lè),對(duì)音樂(lè)流派判斷結(jié)果的正確率為 40.0%左右.本文從音樂(lè)中提取聽(tīng)覺(jué)圖像的采樣點(diǎn)僅為 35,ms的時(shí)間長(zhǎng)度,卻能達(dá)到62.6%的正確率.
[1] Aucouturier J J,Pachet F. Representing musical genre:A state of the art[J].Journal of New Music Research,2003,32(1):83-93.
[2] Tzanetakis G,Cook P. Marsyas:A framework for audio analysis[J]. Organised Sound,1999,4(3):169-175.
[3] Tzanetakis G,Cook P. Musical genre classification of audio signals[J].IEEE Transactions on Speech and Audio Processing,2002,10(5):293-302.
[4] Bleeck S,Ives T,Patterson R D. Aim-mat:The auditory image model in MATLAB[J].Acta Acustica United with Acustica,2004,90(4):781-787.
[5] Patterson R D. Auditory images:How complex sounds are represented in the auditory system[J].Journal of the Acoustical Society of America,2000,21(4):183-190.
[6] Fox P D,Bleeck S,White P R,et al. Initial results on size discrimination of similar underwater objects using a human hearing model[C]//Proceedings of the Institute of Acoustics. St Albans,UK,2007,29(6):233-239.
[7] Rehn M,Lyon R F,Bengio S,et al. Sound ranking using auditory sparse-code representations[C]//ICML2009:Workshop on Sparse Method for Music Audio.Montreal,Canada,2009:118-120.
[8] Timothy I D,Patterson R D. Pitch strength decreases as F0 and harmonic resolution increase in complex tones composed exclusively of high harmonics[J].Journal of the Acoustical Society of America,2008,123(5):2670-2679.
[9] Ness S R,Walters T,Lyon R F.Auditory Sparse Coding[M]. Boca Raton,F(xiàn)L,USA:Music Data Mining,CRC Press,2011.
[10] Lowe D G. Object recognition from local scale-invariant features[C]//International Conference on Computer Vision. Corfu,Greece,1999:1150-1157.
[11] Lowe D G. Distinctive image features from scaleinvariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[12] Yang Jianchao,Yu Kai,Gong Yihong,et al. Linear spatial pyramid matching using sparse coding for image classif i cation[C]//IEEE Conference on Computer Vision and Pattern Recognition. Miami,F(xiàn)L,USA,2009:1794-1801.
[13] Lyon R F. Machine hearing:An emerging field[J].IEEE Signal Processing Magazine,2010,27(5):131-139.
[14] Lyon R F,Rehn M,Bengio S,et al. Sound retrieval and ranking using sparse auditory representations[J].Neural Computation,2010,9(22):2390-2416.
[15] Genussov M,Cohen L. Musical genre classif i cation of audio signals using geometric methods[C]//18th European Signal Processing Conference(EUSIPCO-2010).Aalborg,Denmark,2010:497-501.
[16] Deshpande H,Nam U,Singh R. Classification of music signals in the visual domain[C]//Proceedings of the COST G-6 Conference on Digital Audio Effects(DAFX-01). Linerick,Ireland,2001:DAFX-1-DAFX-4.