999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于梅爾頻率倒譜系數的音頻分類研究

2022-05-10 10:26:06屈曉淵
電子設計工程 2022年9期
關鍵詞:信號

屈曉淵,崔 青

(1.榆林學院 信息工程學院,陜西 榆林 719000;2.榆林學院 藝術學院,陜西 榆林 719000)

隨著大數據技術的發展,越來越多的音頻資源存儲于網絡平臺之上,面對這些海量的資源,有效的資源檢索技術顯得尤為重要。如何在大量的音樂數據中快捷且準確地檢索到所需的信息,對充分利用這些資源有著很重要的研究意義。

音樂的流派分類研究就是要求設計的分類系統能夠根據所輸入的音頻,提取音頻特征信息,從而識別出音樂的所屬流派。這一研究對音樂信息檢索(Music Information Retrieval,MIR)有著至關重要的作用[1]。在音頻特征提取方面,根據不同的應用場景有諸多的提取方法,雖然在語音提取方面可以根據余弦相似度進行語音識別[2],或者基于PIFA 的語音識別[3]等方法,但是在音樂特征方面,這些算法的效果并不是特別理想。

文中從采樣的音頻數據提取出梅爾倒譜系數(MFCC)特征,并對MFCC 特征進行數據歸一化處理。通過選擇合適的神經元激活函數、損失函數計算方法,對優化器、訓練精確度等參數進行設定,構建多層卷積神經網絡模型,設計出一種音頻數據分類模型。

1 音頻特征提取

1.1 音頻數據預處理

在音樂流派的分類過程中,可能存在著由于音樂數據來源不同而產生的音樂存儲格式或采樣頻率不統一,且可能存在無用的干擾噪音等問題[4],因此需要對音頻信號進行預處理操作。音頻預處理的主要工作包括統一音頻信號的存儲格式、采樣量化、加窗、分幀等操作,能夠為音頻分類研究中的特征提取步驟提供標準化、可靠的音頻信號樣本[5]。

1.1.1 音頻信號的預處理

音頻的數字化處理過程中有著兩個重要的指標,分別為采樣率與采樣大小[6]。采樣率定義為每秒鐘從連續的音頻信號中提取并組成離散的音頻信號的采樣個數,其單位為Hz。采樣大小表示量化的過程,將該頻率的能量值量化,用于表示信號強度。

文中采用22.05 kHz 的采樣率對原始音頻數據進行重采樣,并將信號轉換到單聲道,同時設定合適的采樣偏移量與持續時間。以藍調、金屬、流行風格音頻為例,重采樣后的波形圖如圖1 所示。

圖1 重采樣后音頻波形圖

對數據集中的歌曲樣本進行分析,每個樣本均為30 s 左右的播放時長,根據采樣率進行重采樣后,每一個歌曲樣本均設定650 000 個采樣點。

1.1.2 數據歸一化處理

重采樣后,需要對數據進行歸一化處理,使訓練集、測試集和驗證集數據都具有相同的空間分布。針對音頻特征,使用min-max 標準化方法進行處理,使結果分布于[-1,1]區間,公式如下:

其中,x為當前采樣點,max 為樣本數據的最大值,min 為樣本數據的最小值。通過min-max方式標準化后,經測試可知,所有樣本數據位于[-0.840 240 5,0.885 376]區間。

1.1.3 音頻信號轉換為單聲道

音樂數據的規模是十分巨大的,且不能直接用于音樂檢索系統。為了方便計算,需要對所有的音頻數據統一格式,將多聲道轉化為單聲道,統一用相同的采樣率與采樣大小進行采樣等處理。

1.1.4 音頻信號的預加重處理

為了增加語言的分辨率,去除環境對音頻的干擾和影響,設定一定的濾波器對語音信號進行預加重處理。一般采用一階FIR 高通數字濾波器來實現預加重處理,該濾波器的主要作用是加強高頻信息、避免FFT操作中的數值問題、增加信噪比,見公式(2)。

其中,x(n)表示音頻信號在某采樣時刻的采樣值,a∈[0.9,1],y(n)表示預加重處理后的結果。

1.2 梅爾頻率倒譜系數特征提取

梅爾倒譜系數MFCC 是在Mel 標度頻率域提取出來的倒譜參數,Mel 標度描述了人耳頻率的非線性特性,即依據人的聽覺實驗結果來分析音頻的頻譜[7]。通過對音頻信號進行的一系列數據轉換得到便于分析的梅爾頻率倒譜系數,其流程如圖2 所示。

圖2 梅爾頻率倒譜系數提取流程

1)音頻信號在宏觀上和微觀上顯示出極大的差異,體現為宏觀上的不平穩性和微觀上的平穩性。在圖1 音頻波形圖中可見音頻信號宏觀上的不平穩性,但是在每30 ms 左右音頻顯示出相對平穩的特點。在此情況下,將部分連續的n個采樣點{xj,xj+1,…,xj+n-1}合并為一個幀Chunki,每個幀所涵蓋的時間為Ti∈[20,30]ms。為避免相鄰的幀之間數值差過大,設定合適的幀移k,用一定的重合采樣點來解決此問題,相鄰兩幀的采樣點分布可分別由式(3)和式(4)表示:

2)音頻加窗。因為計算機只能處理有限長度的音頻信號,所以需要把長時間序列的信號截斷,獲取音樂的時域信號。對音頻信號使用長度相同且固定大小的窗口進行處理,從而得到等長且較短音頻的信號。對分幀后的每一個幀信號Chunki通過加窗函數δ(n)進行加窗,通過增大音頻信號中的高頻分量的衰減以避免高頻分量的影響,降低頻譜能量泄露的風險[8],從而得到音樂的時域信號wi(n),通過加窗使每一幀的音頻均映射在一段頻譜中,用式(5)表示:

3)使用快速傅里葉變換(Fast-Fourier-Transform,FFT)對加窗分幀后的信號進行轉換得到傅里葉頻譜,wi(n)是輸入信號w(n)的第i幀,Chunki是第i幀采樣點的數量,FFT 可用式(6)表示如下:

通過FFT 處理后,將時域信號轉換為頻域信號,過濾了高于采樣信號中最高頻率的影響,同時實現了降維。

4)通過三角形濾波器組將能量譜定義在有M個濾波器的濾波器組中,設中心頻率為f(m),m=1,2,3…,M,各區域的大小隨m的值而變化,如圖3所示。

圖3 梅爾頻率濾波器組

三角濾波器的定義見式(7):

通過三角濾波器,實現了頻譜的平滑化,強化了原信號中的共振峰,用較少的運算實現諧波消除[9]。

5)通過濾波器將實際頻率f映射到梅爾頻率Mel(f)中,以實現頻率的統一化轉變。將所有的濾波器輸出進行對數運算,獲取對數頻譜,如式(8)所示,然后獲取譜線能量的值。

數學信號頻率與梅爾頻率轉換見圖4。

圖4 數學信號頻率與梅爾頻率轉換

文中以GTZAN 數據集中的藍調類型隨機樣本和流行類型隨機樣本為例,圖5 和圖6 分別描述了原始音頻和梅爾頻譜的對應關系。

圖5 藍調類別音頻聲譜圖和梅爾頻譜圖

圖6 流行類別音頻聲譜圖和梅爾頻譜圖

6)對每一個對數運算結果進行離散余弦變換(Discrete Cosine Transform,DCT),由于濾波器通常都有交疊,因此濾波器能量彼此相關[10];DCT 需要對能量進行去相關性操作。

最終得到音頻的梅爾倒譜系數特征MFCC 系數,如式(9)所示:

其中,i是音頻信號,m表示濾波器個數,n為DOC(離散余弦先換)譜線。圖7 為流行類型某樣本的MFCC13 個特征層和20 個特征層的示例圖。

圖7 13個和20個特征層MFCC圖例

2 多層卷積神經網絡構建

項目中使用GTZAN 數據集進行音頻分類研究。首先依次獲取GTZAN 數據集的音頻數據相應音頻的MFCC 特征圖譜,并對GTZAN 數據集中的數據添加one-hot 編碼標簽,通過深度卷積神經網絡對模型進行訓練,最終得到可用于音頻分類的深度神經網絡模型。

2.1 GTZAN數據集及標簽編碼

GTZAN 數據集是一個經典的音頻數據集,具有十類音樂,分別為藍調、經典、鄉村、迪斯科、嘻哈、爵士、金屬、流行、雷鬼樂及搖滾。每類音頻都有100 個數據,每個數據時長均約30 s,采樣率為22 050 Hz,包括16位單聲道音頻文件。

按照上述十類音頻文件,對應進行one-hot編碼。

表1 GTZAN數據集音頻one-hot編碼表

2.2 網絡模型

卷積神經網絡(Convolutional Neural Network,CNN)是一種前饋型神經網絡,相比傳統的神經網絡,CNN 能有效減少數據前期的處理環節,具有準確度高、參數少等優點。文中使用深度卷積神經網絡進行建模,使用了輸入層、卷積層、池化層、全連接層以及輸出層5 種層次機構。

1)輸入層接收進入網絡的數據,需設定輸入的數據維度。該網絡中的輸入層接收標準化后的MFCC特征數據,按照預先設定好的采樣率和采樣點個數,以20 個特征層的MFCC 圖譜作為輸入數據。

2)卷積層用于提取數據特征。定義好卷積核的大小尺寸、深度、跨度后,也確定了卷積過程中的感受野和卷積運算的規則。卷積核在工作時,會有規律地掃過輸入特征,在感受野內對輸入特征作矩陣元素乘法求和并疊加偏差量[11],其計算公式為:

Zl和Zl+1分別表示第l+1 卷積層的輸入向量和輸出向量。i和j分別表示卷積過程中的動態區域,故有(i,j)∈{0,1,2…,L+1}。l+1 是Zl+1的尺寸。因為該項目實際使用二維卷積,所以有i、j兩個參數。ωl+1表示第l層到第l+1 層的權重,b表示偏移量。

3)池化是在卷積運算之后,為了減少數據的冗余而進行的一種運算,從某種程度上來說,也是對卷積后數據的一種降維[12]。在一個小的區域內進行求均值或者求最大值等運算,該網絡中使用的是Maxpooling 最大池化運算,如式(11)所示:

s0表示步長,則有當p→∞時,在池化過程中得到極大值,取得池化中的Maxpooling。

4)全連接層使用flatten 對多次卷積過的高維數據進行展開,使其滿足全連接層的維度要求。然后使用全連接層,對數據進行降維處理[13]。

5)輸出層輸出十分類的一維向量。

文中使用的多層卷積神經網絡結構如表2所示。

表2 多層卷積神經網絡結構表

模型使用3×3 的卷積核,設定感受野的步長為(1,1),填充方式為等尺寸填充,根據模型設計,共有353 370 562 個參數。

2.3 激活函數和損失函數

1)在卷積層中,激活函數使用線性整流函數(Rectified Linear Unit,ReLU)進行工作,ReLU 又稱修正線性單元[14],是一種人工神經網絡中常用的激活函數,通常指代以斜坡函數及其變種為代表的非線性函數,其公式為:

其中,λ為反向傳播的變量,當λ=0 時的ReLU函數圖像如圖8 所示。

圖8 λ=0時的ReLU函數圖像

2)輸出層使用Softmax 函數進行分類。Softmax函數用于對輸出向量中的各個元素求指數比值,從而計算出各個特征的概率分布[15],公式如下:

其中,i表示輸出向量中的第i個元素,j表示向量的總長度,z表示向量小標對應的元素的值。

3)損失函數使用隨機梯度下降法(Stochastic Gradient Descent,SGD)實現,SGD 本質上仍是一種梯度下降算法,最終目標是減少誤差值[16],訓練出最優參數。SGD 和最常用的GD 相比,GD 每一次迭代都是所有樣本一起進行計算[17],而SGD 是隨機獲取批量樣本中的一個進行計算[18],雖然會在局部出現震蕩的現象,但是在總體上SGD 能實現快速收斂。

3 實驗分析

文中使用GTZAN 數據集進行模型的訓練和測試,將10 個類別的音樂(藍調、經典、鄉村、迪斯科、嘻哈、爵士、金屬、流行、雷鬼樂及搖滾)進行整合,獲取到1 000 個音頻文件的數據集,然后對數據集的順序隨機排列。將上述隨機排序過的數據集分為訓練集、驗證集和測試集,驗證集在每個訓練批次中隨機加入進行訓練,設置epoch 訓練輪次為50 次,獲取其最好的一次訓練模型。

通過訓練可發現,在第280 個樣本處損失函數趨于穩定,但仍有小幅度下降,在第450 個樣本處損失函數基本穩定在0.487 左右。損失函數隨樣本變化分布曲線變化情況見圖9。

圖9 損失函數隨訓練樣本曲線變化圖

隨著損失函數的逐步下降,分類的準確率逐漸提升,圖10 用val_acc 表示分類結果在驗證集上的表現,acc 表示分類結果在測試集上的表現。同時,loss函數值在第450 個樣本開始趨于穩定,所以仍按照500 個樣本為例進行分析,驗證集中準確率為92.1%,在測試集中準確率為86.3%,準確率變化曲線見圖10。

圖10 驗證集和測試集中的準確率

4 結論

文中根據音頻的特征,首先設計出提取音頻梅爾倒譜頻數的方案,提取出具有20 個特征層的梅爾倒譜頻數,通過獲取的數據作出每個音頻文件的頻數圖譜。設計具有353 370 562 個參數深度為15 層的深層卷積神經網絡模型,每個音頻文件的頻數圖譜作為網絡模型的輸入數據,按照設定好的標簽向量進行分類訓練,訓練結果在測試集中達到了86.3%。

因為數據集的數據類型較少,且數據集中的樣本區分度低,所以在測試集和驗證集中表現出來的差距較大。在模型的層級設計中,層級設計只用到了卷積層、池化層和全連接層,沒有考慮過擬合等情況,所以使用其他數據集時,需要對模型層級進行調整,或者加入其他如Dropout 層消除過擬合等方式解決相應的問題。

猜你喜歡
信號
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
7個信號,警惕寶寶要感冒
媽媽寶寶(2019年10期)2019-10-26 02:45:34
孩子停止長個的信號
《鐵道通信信號》訂閱單
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
基于Arduino的聯鎖信號控制接口研究
《鐵道通信信號》訂閱單
基于LabVIEW的力加載信號采集與PID控制
Kisspeptin/GPR54信號通路促使性早熟形成的作用觀察
主站蜘蛛池模板: 黄色片中文字幕| 国产午夜不卡| 久久久精品国产SM调教网站| 亚洲二三区| 欧美一级高清片久久99| 欧美区在线播放| 国产网友愉拍精品视频| 国产精品林美惠子在线播放| 欧美午夜久久| 色噜噜中文网| 极品私人尤物在线精品首页| 国产精品欧美在线观看| 国产一区二区丝袜高跟鞋| 久久精品电影| 亚洲AⅤ无码日韩AV无码网站| 亚洲无码高清一区二区| 深夜福利视频一区二区| 亚洲国产欧美自拍| 中文一级毛片| 国产永久在线观看| 国产精品亚洲日韩AⅤ在线观看| 97se亚洲综合在线| 亚洲天堂网站在线| 欧美不卡二区| 久久大香香蕉国产免费网站| 亚洲中文字幕国产av| 成人精品亚洲| 乱系列中文字幕在线视频| 精品国产免费观看一区| 99re免费视频| 国产丝袜啪啪| 亚洲va视频| 欧美日韩国产综合视频在线观看| 成人免费视频一区| 免费A级毛片无码免费视频| 无码人妻热线精品视频| 亚洲色无码专线精品观看| 97国产精品视频自在拍| 老司机午夜精品网站在线观看| 欧美精品色视频| 老司机精品久久| 精品1区2区3区| 亚洲三级成人| 日韩不卡高清视频| 亚洲妓女综合网995久久| 精品国产成人高清在线| 国产精品一区在线麻豆| 亚洲国产日韩欧美在线| 成人91在线| 国产丝袜丝视频在线观看| 亚洲综合狠狠| 一本一道波多野结衣av黑人在线| 五月激情综合网| yjizz国产在线视频网| 久久一级电影| 久久特级毛片| 亚洲视频四区| 欧美亚洲国产精品第一页| 国产麻豆精品在线观看| 精品国产免费观看一区| 亚洲国产天堂久久九九九| 91精品最新国内在线播放| 久久视精品| 国产视频只有无码精品| 国产网站免费| 97超碰精品成人国产| 美女一级免费毛片| 欧美中文一区| 欧美啪啪精品| 东京热av无码电影一区二区| 欧美性久久久久| 国产杨幂丝袜av在线播放| 美女视频黄又黄又免费高清| 久久国产V一级毛多内射| 欧美激情成人网| 国产福利一区视频| 亚洲最大看欧美片网站地址| 欧美久久网| 欧美综合激情| 亚洲高清在线播放| 亚洲AV无码久久天堂| 中国精品久久|