韓彬彬 程 科 王義軍
(1.江蘇科技大學計算機學院 鎮江 212000)
(2.中鐵隧道集團三處有限公司 深圳 518051)
近年來,電子音樂的發展達到了一個前所未有的高度,擁有了更加便捷的傳播途徑和良好的儲存媒介。通過對電子音樂進行合理且有效的分類,可以使用戶能快速搜索到喜歡的音樂,也使音樂推薦系統能進行更加精準的推薦。設計出能準確識別音樂類別的模型可以取代大量的人工標注工作,具有十分重大的意義。目前在眾多對音樂分類方法的研究中,主要可以分為兩個方面:音樂特征提取和分類模型選擇。傳統的音樂特征可分為韻律學特征[1]、音質特征[2]、基于譜的相關性特征[3],單一的特征具有音樂信號表達不準確的問題。在分類器方面,神經網絡和極限學習機屬于經驗風險算法,對訓練樣本要求較高,而且容易出現過擬合或欠擬合。SVM 對樣本要求較低,但是參數很難確定,會直接影響分類精度[4~6]。
本文提出了一種基于CGABC-SVM 的多特征融合音樂分類方法:提取四種不同類型的特征組成多特征融合矩陣,使用交叉全局人工蜂群算法來優化SVM 的參數,構建CGABC-SVM 分類模型。結果表明,本文提出的分類方法的準確率優于對比音樂分類方法。
基頻即基音頻率,是韻律學特征中一個非常重要的特征參數,可以反映出演唱環境、情緒狀態等信息。常見的特征提取方法有自相關函數法、平均幅度差法、線性預測法等[7~8]。本文采用自相關函數法提取基頻特征,短時自相關函數的定義如式(1)所示。
式中:xi(m)為第i幀語音信號,N為幀長,k為時間延遲量,Ri(k) 為第i幀自相關函數值。
共振峰特征屬于音質特征,其產生和共鳴物理結構有關,可以很好地反映出音樂片段中的情感信息和節奏信息。本文采用線性預測分析方法(LPC)[9]來提取共振峰特性。其傳遞函數如式(2)所示。
式中:G為增益,p為輸出線性組合的個數,ai為線性預測系數。
梅爾頻率倒譜系數(MFCC)是根據人耳聽覺原理提出的一種基于譜的音頻特征參數[10]。相比其他音頻特征,具有高辨識率、強抗噪性、魯棒性好等特點。MFCC利用的是在1000Hz以上時,人耳對聲音的感知與頻率成非線性關系。這種非線性關系,可以用式(3)來近似表示。
式中:f為頻率,單位為Hz。關于MFCC 的具體計算流程如圖1所示。

圖1 MFCC特征提取流程
Mel 濾波器組由m 個三角濾波器組成,其頻率響應定義如式(4)所示。
式中:m為濾波器數量,(f)
m為第m個濾波器的中心頻率[11],其中。
感知線性預測(PLP)是將臨界頻帶、強度響度轉換、等響度預加重相結合,進而提取音頻相關信息。傳統的PLP 特征在提取過程中會出現頻譜變化較快的問題,在臨界頻帶分析之后加入低端頻率非常低的帶通濾波器進行濾波就可抑制這種快速變化[12]。相對譜-感知線性預測的提取流程如圖2所示。

圖2 RASTA-PLP特征提取流程
本文選用Log-RASTA 濾波器,其傳輸函數如式(5)所示。
在音樂分類中,單一音頻特征具有音樂信號表達不完整的問題。本文提取四種特征進行多特征融合,將各個特征提取結果分別進行歸一化處理,再以列向量的形式進行組合,構建多特征融合矩陣,從而實現對音樂信號更加全面的描述,具體如表1所示。

表1 音頻特征參數
其中,基音頻率屬于音樂的韻律學特征,提取其最小值、最大值、極差、平均值、標準差、平均絕對斜度、上四分位數、中位數、下四分位數、內四分極值,共10 維。共振峰屬于音質特征,選取前三個共振峰的平均值、中位數、變化范圍、均方差、平均變化率,共15 維。MFCC 和RASTA-PLP 屬于基于譜的相關性音頻特征,MFCC特征由MFCC系數、一階差分參數、二階差分參數和幀能量構成,共40 維;RASTA-PLP 特征由頻譜相關系數和倒譜相關系數構成,共30維。
多特征融合相比于單特征提取,可以更加全面地描述音樂信號,進而提高音樂信號分類準確率。
支持向量機(Support Vector Machine)是由Vapnik 等提出的一種基于監督學習的非參數化數據分類器,在小樣本、非線性、高維空間中具有較好的分類性能[13]。SVM的目標是找到一個超平面,使輸入的數據能最大化地分離,從而實現對數據的精確分類。
在音樂信號分類中,SVM 也得到了廣泛的應用。因為音頻特征數據屬于比較復雜的非線性分布,所以不能在低維度找出一個線性的邊界,而是需要把數據從低維度映射到高維度,再找出合適的邊界進行音頻數據的分類。從低緯度到高維度的映射過程可以通過向量積的方式來實現,計算兩向量積的具體方法稱之為核函數[14]。在非線性分類下,SVM的約束優化問題可以轉化為如式(6)所示。
分類函數如式(7)所示。
式中:αi為拉格朗日乘子,C為懲罰因子,b為閾值,K(xi,yi) 為向量內積。本文選用的核函數是高斯徑向基核函數,它可以把特征數據映射到無窮維,表達式如(8)所示。
式中:δ為徑向基寬度。
由上述公式可以看出,懲罰因子C和核函數徑向基寬度參數δ的選取對SVM 分類器影響很大,可以直接影響到分類精度。
選用合適的尋優算法尋找使分類效果較好的參數對(C,δ),然后利用此參數對構建SVM 分類模型,可以有效地提高分類精度。文獻[15]提出了采用人工蜂群算法(ABC)優化SVM 的控制參數以提高分類正確率的方法。
人工蜂群算法(ABC)是一種群體智能模型,模仿采蜜時不同種類的蜜蜂之間,根據分工不同進行不同的活動,最終找到最優蜜源,也就是最優解[15]。但是,傳統的人工蜂群算法也存在著一些問題,比如在進行尋優過程中,容易造成局部最優解,導致出現“早熟”現象。針對這一現象,可以使用基于交叉的全局人工蜂群算法(CGABC)來尋找最優解,其核心思想是將遺傳算法(GA)和人工蜂群算法(ABC)相結合,在人工蜂群算法的尋優過程中引入種群的交叉算子,在一定程度上提高蜂群的多樣性,進而提高算法的全局搜索能力[16~18]。
遺傳算法中的交叉操作是利用遺傳學原理,通過個體間進行基因交換、重組,形成新的個體,將父代的優秀基因遺傳給子代,這樣可以在一定程度上提高算法的尋優能力。本文使用二項交叉的方式,交叉操作如式(9)所示。
式中:cr為交叉系數(取值一般為0.3~0.6),為全局最優解,β為隨機值(0~1.5)。
每一個分量會產生一個0~L之間的隨機數rand,若rand小于cr,則接受目標對應的分量,否則保留當前對應的分量。選擇合適的交叉系數后,通過上式可以避免迭代過程中出現提前收斂的情況,提高算法的尋優能力和開發能力。
本文采用交叉全局人工蜂群算法(CGABC)來優化SVM 中的參數對(C,δ),構建CGABC-SVM 分類模型。設置SVM 中的參數對(C,δ)為蜜源,音樂信號分類的正確率作為算法的適應度函數值,利用CGABC 找到最優解(C,δ),在此基礎上構建SVM分類模型,實現對音樂類型的準確判別。具體的流程如圖3所示。

圖3 CGABC優化SVM 參數流程
1)初始化算法參數和蜜蜂種群信息。
2)設定CGABC 算法的適應度函數值為SVM模型的分類正確率。
3)開始迭代過程,采蜜蜂根據已有蜜源的位置進行鄰域搜索,尋找新的蜜源位置,計算公式如(10)所示。
式 中:i,k∈1,2,3,…,N和j∈1,2,3,…,D,φij=rand(-1,1)。當采蜜蜂找到新的蜜源后,會根據蜜源的適應度利用貪婪原則選擇較好的蜜源。
4)采蜜蜂鄰域搜索結束后,按照式(9)與當前最優蜜源采用二項交叉的方式進行交叉操作,然后根據貪婪原則選擇新蜜源。
5)觀察蜂計算蜜源被選擇的概率,如式(11)所示。
式中:N為蜜源的數量,fiti為蜜源i的適應度。同時觀察蜂變為采蜜蜂進行鄰域搜索,將搜索結果按式(9)與當前最優蜜源采用二項交叉的方式進行交叉操作,然后根據貪婪原則選擇新蜜源。
6)如果蜜源到達一定的開采次數之后,適應度仍然沒有提高,就放棄該蜜源。相應的,采蜜蜂會變成偵察蜂,偵察蜂通過式(12)搜索新的可能蜜源。
式中:φ=rand(-1,1),和是第j維的下界和上界。
7)記錄當前最優蜜源,判斷是否達到迭代停止的條件,是則執行步驟8),否則執行步驟3)。
8)利用得到的最優蜜源(C,δ) 建立SVM 分類模型。
基于CGABC-SVM 的多特征融合音樂分類流程為:首先,將音樂樣本分為訓練樣本和測試樣本兩類,并對其音樂信號進行多特征提取并融合為95 維的特征向量;然后,利用交叉全局人工蜂群算法來優化SVM 中的參數對(C,δ),結合訓練樣本的特征參數建立音樂分類模型。具體流程如圖4 所示。

圖4 基于CGABC-SVM的多特征融合音樂分類流程
為了測試基于CGABC-SVM 的多特征融合音樂分類方法的效果,本文選擇不同種類的電子音樂作為實驗對象。實驗使用的所有音樂訓練集和測試集均是在網易云音樂平臺根據音樂類別標簽下載的,格式為MP3,先把MP3 格式的數據轉化為wav 格式,再進行多特征提取、融合。音樂片段被標注為搖滾、民謠、輕音樂、爵士和鄉村五個類別,各類別的訓練樣本和測試樣本數量如表2所示。

表2 實驗數據集
采用基于CGABC-SVM 的多特征融合音樂分類方法對表2 中的數據進行訓練和測試,得到的結果如表3 所示。由表中數據分析可得,在所有的測試集中,音樂信號分類的平均正確率為87.81%,其中分類效果最好的是民謠和輕音樂兩類音樂,正確率分別達到了90.48%和92.38%,分類效果最差的是鄉村音樂,正確率僅達到了78.51%。

表3 分類結果
為了能深入分析模型的分類結果,本文根據實驗結果統計得到了五種音樂類型各自的分類結果混淆情況,具體數據如表4所示。表中元素aij表示標簽為i的音樂樣本集經過本文方法分類后被判定為類別j的樣本數量,通過表中結果可以很直觀地看出音樂片段在分類過程中產生的部分混淆情況。根據表4 中混淆數據可以猜測鄉村音樂分類正確率較差的原因可能是因為其本身的音樂風格與其他類型音樂有很多相似之處,導致其測試集的6.67%和7.62%都被誤判為了民謠和爵士。

表4 分類詳情
為了測試基于CGABC-SVM 的多特征融合音樂分類方法的優越性,采用相同的實驗環境和數據,設計單一音頻特征、融合特征分別與CGABC、ABC、PSO 優化參數以及默認參數的SVM 模型相結合,一共八組對比實驗,具體對比結果如表5和圖5所示。

表5 準確率對比

圖5 各分類方法對比
由表中數據分析可得,在各種分類模型中,使用單一音頻特征(MFCC)得到分類模型的正確率平均要比使用多特征融合得到的分類模型低3.5%,證明了提取不同類型的音頻特征并融合可以更好地反映出音樂的特質,從而提高分類模型的分類精度。從分類器的選取角度來分析,無論是使用單一音頻特征,還是多特征融合,CGABC-ABC 分類模型都是各個模型中分類效果最好的,平均正確率可達到87.81%。
本文提出了一種基于CGABC-SVM 的多特征融合音樂分類方法,在音樂特征提取和分類模型選擇兩個方面進行了不同程度的改進,提高了音樂分類的正確率。利用多特征融合的方法,使特征向量更能充分反映音樂特質,同時使用CGABC 算法對SVM 的參數進行優化,解決SVM 參數優化問題。本文采用多組不同的音樂分類方法進行比對實驗,結果表明,基于CGABC-SVM 的多特征融合音樂分類方法明顯優于其他分類方法,可以高精度地識別各種音樂信號。