999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

引入非局部模塊卷積神經網絡的基頻提取模型

2023-03-16 10:21:02劉晶晶
計算機工程 2023年3期
關鍵詞:模型

劉晶晶,黃 浩

(新疆大學 信息科學與工程學院,烏魯木齊 830017)

0 概述

基本頻率或基音是語音信號的重要參數,在語音產生的數字模型中是激勵源的一個重要參數。基頻提取是一項從音頻信號中估計最低頻率部分的任務,近年來一直是一個流行的研究課題。準確檢測語音信號中的基頻周期對高質量的語音合成[1]、語音識別[2]、說話人識別[3]、語音增強[4]等各種語音應用起著至關重要的作用。

目前,研究人員已經提出了各種用于基頻提取的方法。傳統的基頻提取方法包括簡單的信號處理算法和啟發式算法。現有的傳統方法通常使用某個候選生成函數,通過預處理和后處理階段來獲得基頻曲線。這些函數包括頻譜[5]、自相關函數(Autocorrelation Function,ACF)[6]、平均幅度差函數(Average Magnitude Difference Function,AMDF)[7]、RAPT[8]和PRAAT[9]中的歸一化互相關函數(Normalized Cross-Correlation Function,NCCF)以及YIN[10]。最近提出的傳統方法包括PEFAC[11]、SWIPE[12]、pYIN[13]等。pYIN 是對YIN算法的改進,它使用概率模型從時域輸入信號的累積平均歸一化差函數來預測脈沖序列。PEFAC[11]算法使用匹配濾波器分析對數頻域中的噪聲信號,并使用通用長期平均語音頻譜進行歸一化,該歸一化階段使用基頻提取濾波器來減弱強噪聲分量,該基頻估計濾波器可以忽略具有平滑功率譜的寬帶噪聲。SWIPE[12]將基頻估計為匹配輸入信號頻譜的鋸齒波形。除這種實時數字信號處理方法外,還開發出了使用隱馬爾可夫模型(Hidden Markov Model,HMM)[14]、高斯混合模型(Gaussian Mixture Model,GMM)[15]、貝葉斯網絡[16]等機器學習方法來進行魯棒的基頻提取。

目前的研究使用數據驅動的方法進行基頻提取。其中應用深度神經網絡(Deep Neural Network,DNN)及其變體,包括卷積神經網絡和遞歸神經網絡(Recurrent Neural Network,RNN)改善嚴重噪聲條件下的基頻提取。只要深度神經網絡在其隱藏層中包含足夠數量的單元,它們就會派生判別模型來表示任意復雜的映射函數。因此,相比較于傳統方法,深度神經網路模型能夠處理具有更強相關性、更高維度的輸入特征。

文獻[17]介紹了使用監督學習來提取基頻,將基頻的預測問題轉換為分類問題,其中概率基頻狀態是直接從嘈雜的語音數據中學習的。該研究給定觀測值的2個替代神經網絡,它們模擬了基頻狀態分布:第1個是前饋深度神經網絡,它在靜態幀級聲學特征上進行訓練。第2 個是遞歸深度神經網絡,它在連續的幀級特征上進行訓練并能夠學習時間動態。DNN 和RNN都產生基頻狀態的準確概率輸出,然后通過維特比解碼將其連接到基頻輪廓中。該基頻提取算法對不同的噪聲條件具有魯棒性,甚至可以應用于混響語音。但是,基頻輪廓的最終估計值具有有限的頻率分辨率,該分辨率由量化的頻率狀態數決定,就基頻的估計精度而言,這是一個潛在的問題。文獻[18]介紹了遞歸神經網絡回歸模型,該模型將頻譜序列直接映射到基頻值,以解決上述分類方法中的缺點。首先,該模型采用直接波形輸入而不是頻譜序列。其次,提出了一種新的基頻信息的編碼方法,即使用一個以基頻的基本真值振蕩的簡單正弦波。這種編碼使模型能夠將原始語音波形映射到原始正弦曲線,而無需進行其他預處理或后處理。最后,也為實驗增加了噪聲條件,以便針對各種噪聲類型檢查噪聲魯棒性。

文獻[19]介紹的CREPE 是一種直接在時域波形上運行的深度卷積神經網絡(Convolutional Neural Network,CNN)的算法。該算法優于SWIPE[12]和pYIN[13]等啟發式方法,同時對噪聲也更加魯棒。該網絡結構存在以下不足:在該網絡結構中,將每幀1 024 個音頻樣本點作為輸入,全連接層在一層可以獲取全局信息,但是它帶來了很多參數,并且增加了網絡優化的難度;全連接層還需要固定大小的輸入和輸出,并且會失去位置信息。這些缺點在許多情況下限制了全連接層的使用。文獻[20]介紹的FCNF0 使用了全卷積網絡(Fully Convolutional Network,FCN)結構。FCNF0使用等效的卷積層代替了最后的全連接層,該卷積層的長度等于輸入矢量的時間維,并且卷積核的數量等于預期輸出的大小。由于卷積層不需要固定大小的輸入,因此此網絡只允許在整個輸入信號上運行一次卷積,而不是逐幀運行,從而節省了大量的計算量。然后,網絡將不會輸出單個矢量,而是會在每個時間步長包含輸出預測矢量的三維矩陣。然而,上述使用幾種卷積神經網絡提取基頻的方法沒有考慮到相鄰幀與幀之間的關系,而且也沒有捕獲遠程全局的幀與幀之間的關系。這些問題會直接導致基頻提取的性能下降。

為了解決卷積運算的上述問題,本文提出了使用帶有非局部模塊的卷積神經網絡來進行基頻提取。非局部模塊計算所有音頻樣本點之間的相似性,即可以快速捕獲長范圍的幀與幀之間以及樣本點與樣本點之間的相互依賴關系,以較少增加計算復雜度來捕獲音頻的全局信息。

1 基于卷積神經網絡的基線模型

本文使用了文獻[19]介紹的基于卷積神經網絡的基線模型CREPE,CREPE 是一種數據驅動的基頻提取算法,該算法直接在時域波形上運行深度卷積神經網絡。深度卷積神經網絡的輸入來自時域音頻信號的1 024 個音頻樣本,經過6 個卷積層,產生2 048 維的潛在表示。然后將其與對應于360 維輸出向量的S 型(Sigmoid)激活函數連接到輸出層。

該網絡結構存在以下缺點:在該網絡結構中,使用的卷積核非常長(第1 層的輸入是1 024 個音頻樣本),每層的大多數卷積運算都會導致與零的乘法運算,模型不會受益,反而會增加計算量。這與應用于每層卷積層的零填充(“same”卷積)有關,這是保持該層的輸入和輸出之間相同大小所必需的,并且由于CREPE 只能接受固定大小的輸入,這意味著必須以幀為基礎預測基頻。同時,由于卷積神經網絡提取基頻的方法沒有考慮到相鄰幀與幀之間的關系,而且也沒有捕獲遠程全局的幀與幀之間的關系。這些問題會直接導致基頻提取的性能下降。

因此,本文首先提出使用帶有非局部模塊的卷積神經網絡來進行基頻提取。然后對網絡的最后一層輸出進行修改,將其對應于537 維的語音音頻的輸出。最后將修改后的模型應用于語音音頻中的基頻提取。

2 基頻提取的非局部模塊

2.1 非局部模塊實例化

在文獻[21]中,非局部操作根據輸入的相似性聚合輸入的信息,定義如下:

其中:i是要計算其響應的輸出位置時間的索引;j是所有可能位置的索引;x表示輸入信號;y是與x大小相同的輸出信號;函數f(xi,xj)是用來計算i和所有可能關聯的位置j之間的關系(相似度);一元函數g(xj)是計算輸入信號在位置j處的特征值;C(x)是歸一化參數。為簡單起見,僅考慮以線性嵌入的形式定義g函數,即:

其中:Wg是要學習的權重矩陣,通過1×1 卷積實現。

本文引入4 種計算相似性的f函數的形式:即高斯、嵌入式高斯、點積和級聯。

2.1.1 高斯

f函數的自然選擇是高斯函數,如式(3)所示:

其中:是點積相似度。

歸一化因子C(x)表示為:

2.1.2 嵌入式高斯

高斯函數的擴展是計算嵌入空間中的相似度,如式(5)所示:

其中:θ(xi)=Wθ xi和?(xj)=W? xj是兩個嵌入。最近提出的用于機器翻譯的自注意力機制其實是非局部操作中嵌入式高斯函數的一個特例。

2.1.3 點積

f函數可以定義為點積相似度,如式(6)所示:

在這種情況下,將歸一化因子設置為C(x)=N,其中N是x中的位置數,而不是f的總和,因為它簡化了梯度的計算。

點積和嵌入式高斯之間的主要區別在于歸一化指數函數softmax 的存在,它是一個激活函數,如式(7)所示,可被視為K個線性函數的softmax 函數的復合。

2.1.4 級聯

f函數的級聯形式如式(8)所示:

其中:[,]表示級聯;Wf是一個權重向量,把級聯的向量投影到一個標量上,將歸一化因子設置為C(x)=N。在這種情況下,f函數中采用ReLU 激活函數,如式(9)所示:

2.2 非局部模塊

非局部模塊的輸入和輸出是具有相同數量的任意確定維度的特征。因此,非局部模塊可以很容易地與其他深度神經網絡模型相結合來構建網絡模型。本文使用了二維卷積,其中將時間方向視為通道維度,卷積核執行幀與幀之間的卷積操作。非局部模塊能夠基于它們的相似性在遠處的時頻單元之間傳遞信息,因此可以應用于基頻提取任務中來傳遞遠距離樣本點之間的信息。非局部模塊中的殘差連接定義如式(10)所示:

其中:yi通過式(1)給出;+xi表示殘差連接。本文將非局部塊插入卷積神經網絡中,具有相同的輸入輸出維度,而不會破壞其初始行為(Wz初始為零)。一個非局部模塊的內部結構如圖1 所示。

圖1 非局部模塊結構Fig.1 Non-local module structure

2.3 網絡結構

圖2 是一個用于基頻提取的網絡結構。網絡的輸入是時域音頻信號的1 024 個音頻樣本點,本文使用多層卷積神經網絡,其中一些卷積塊與非局部模塊相連。網絡的前幾層用于處理音頻樣本點的時域信息,并且可以將學習好的特征映射傳遞給后續的網絡層。簡單地增加非局部模塊的個數并不能實現更好的性能。因此,本文將2 個非局部模塊插入到卷積層的最后三層。最后使用一層具有線性激活的全連接層將前一層所獲得的特征分為537 類,并得到每一幀音頻的基頻的后驗概率。

圖2 網絡結構Fig.2 Network structure

2.4 訓練目標

為了使基頻提取問題成為一個分類問題,將基頻范圍[fmin,fmax]量化為M個頻點,這M個頻點對應于 RAPT 中的M個基頻狀態。輸出層的M個節點中的每一個都對應于區間的特定中心頻率:

其中:Dp=0.005 是預定義的最小相對基頻變化;fmax=500 Hz 是最大可能的基頻值。本文通過在ci≥fmin中減小i來計算中心頻率ci,其中fmin=50 Hz 是預定義的最小可能基頻值。因此,最大狀態數M=537。

如式(12)所示,訓練網絡是使用最小化目標向量y與預測向量之間的二元交叉熵:

其中:yi和都是0~1 之間的實數,表示模型的輸出,yi表示每幀對應的基頻的真實值。此損失函數使用文獻[22]介紹的ADAM 優化器進行優化,學習率為0.000 5,訓練了100 輪(epochs)。每個卷積層后面都有批歸一化處理,后面是一個衰減層,衰減率為0.25。

3 實驗設置

3.1 實驗數據

實驗數據集使用公開的基頻語音數據庫:格拉茨科技大學的基頻跟蹤數據庫(PTDB-TUG)[23],該數據庫的文本內容來源于文獻[24]介紹的TIMIT語料庫,由2條方言句子(標記為sa)、450條語音緊湊的句子(標記為sx)和1 890條語音多樣化的句子(標記為si)組成。表1所示為上述文本句子在PTDB-TUG數據集中與說話者之間的分布,其中:M 表示男性;F 表示女性。PTDB-TUG中包含來自20 位英語母語者的平行語料(10 位女性說話者,10 位男性說話者)。20 位說話者都閱讀了2 條標記為sa 的句子。此外,每位說話者閱讀了45 條標記為sx 的句子和189 條標記為si 的句子。音頻總時長為9 h 36 min13 s,原始音頻采樣率設置為48 000 Hz,本文將其降采樣至16 000 Hz,分別以80%、7%、13%進行訓練、驗證和測試。該語料庫使用RAPT 算法提取基頻的真實值。

表1 PTDB-TUG 數據庫數據Table 1 Data of PTDB-TUG database

3.2 評價方法

根據以下評價指標評估基頻提取結果:

1)平均絕對誤差(Mean Absolute Error,MAE)。文獻[25]介紹的MAE 表示預測值與真實值的所有絕對誤差的平均值,MAE 是一種線性分數,所有個體差異在平均值上的權重都相等,如式(13)所示:

其中:N表示數據集中所有幀的總數表示模型的輸出;yi表示每幀對應的基頻真實值。

2)檢測率(Detection Rate,DR)。在有聲幀上評估DR,如果估計偏差在真實值的1%以內,則認為基頻估計是正確的。

其中:N0.01表示正確估計的基頻與真實值的偏差不超過1%的情況;Np表示有聲幀的總數。

3)總基頻誤差(Gross Pitch Error,GPE)。文獻[26]介紹的GPE 表示的是所有相對誤差大于其基頻真實值的20%的濁音幀。

其中:NGPE表示基頻估計錯誤的幀數;Nv表示語音幀的總數。估計錯誤是指估計的基頻與真實值的偏差超過20%的情況。

4 實驗結果與分析

4.1 實驗結果

本文首先確定加入網絡中最優的非局部模塊的數量。表2 所示為分別在訓練集、驗證集和測試集上具有不同數量的非局部模塊的MAE。其中,f函數為嵌入式高斯形式。可以發現:當使用2 個非局部模塊時已經給出最佳性能,在卷積神經網絡中加入2 個以上的非局部模塊并不能帶來更好的效果。從實驗結果可以看出:前幾層的卷積神經網絡已經可以學習一些局部特征,以便為后續其他網絡層學習更好的特征。

表2 不同數量的非局部模塊基頻提取的MAE 結果Table 2 MAE results of fundamental frequency extract for different numbers of non-local modules

本文驗證了4 種不同的f函數的形式對整個模型的影響。從表3 可以看出:使用嵌入式高斯模型性能最好,在測試集上其MAE 只有4.8,這也是文獻[27]中介紹的自注意力機制的一種等價操作。當f函數為高斯時,在4 種f函數中性能最差,其在測試集上MAE 為5.2。相比于CREPE 基線模型,使用這4 種f函數中的任何一種,模型的性能都有提升,這也說明了本文在基線模型中加入非局部模塊的合理性。

表3 使用2 個非局部模塊的4 種不同f 函數形式的MAETable 3 MAE for four different f functional forms using two non-local modules

本文使用嵌入式高斯形式來驗證拼接相鄰幾幀的信息對模型性能的影響。表4 所示為加入2 個NLM 后獲取全局特征并且分別拼接5、7、9、15 幀獲取局部特征的實驗結果。可以看出:在測試集上拼接5 幀的MAE 最低,為4.7(本文后續的對比實驗將使用該模型與基線模型對比),但是隨著拼接幀數的增加,MAE 反而開始上升,模型性能在下降。當拼接的幀數在9 幀以上時,對整個模型的影響沒有變化。這也驗證了相鄰幾幀之間的信息對當前幀的基頻值影響比較大,但隨著時間變化,遠距離音頻幀之間的影響并不大。

表4 拼接相鄰幾幀的MAE 結果Table 4 MAE results of splicing adjacent frames

4.2 對比實驗

為了驗證本文在基頻提取任務中的有效性,本文選擇了3 種基線模型:RAPT[8],DNN[17]和CREPE[19],調用了PyThon pysptk 庫中的RAPT 算法。深度學習方法DNN 模型是一個從音頻到量化頻率狀態的分類模型,它包括3 個隱藏層,每層有1 600 個Sigmoid 激活單元,以及1 個softmax 輸出層,其大小設置為基頻狀態的數量。CREPE 其代碼地址為:https://github.com/marl/crepe。由于CREPE 模型是用于音樂基頻提取,因此本文修改了模型最后的輸出層,將特征分為537 類。

表5 所示為本文所提出的模型與RAPT、DNN和CREPE 模型的對比結果。可以看出:由于CREPE模型是音樂數據集上的基頻提取模型,本文將其最后一層全連接層進行修改(其他層保持不變)應用到語音數據集上,所得到的MAE 為5.5。RAPT 模型由于是傳統方法,沒有用到現在流行的深度學習的模型,因此結果較差,MAE 高達7.8。基于 DNN 的方法利用幀級特征來計算基頻狀態的后驗概率。雖然它利用相鄰幀來合并時間信息,但由于特征維數的限制,無法捕捉長范圍的依賴關系,因此使用該模型的結果相比于傳統模型,MAE 提升了1.5 個百分點。但是相比于深度學習的CREPE 模型,DNN 模型并沒有優勢。而本文所提出的模型其MAE 達到了最佳,只有4.7。

表5 不同模型的MAE 結果對比Table 5 Comparison of MAE results for different models

如表6 所示,在測試集上,本文所提出的模型的GPE 比傳統模型RAPT 降低了2.5 個百分點。同時,本文模型在測試集上比基線模型CREPE 的GPE 降低了0.4 個百分點,這也證明了加入非局部模塊后估計基頻幀錯誤率會下降。

表6 不同模型的GPE 率結果對比Table 6 Comparison of GPE rate results for different models

不同模型的DR 如表7 所示,本文所提出的模型在測試集上的DR 為93.4%,而CREPE 的DR 為92.8%,這也表明了加入非局部模塊后網絡的整體性能有一定的提升。相比之下,基于DNN 的基頻提取模型的性能較差,其DR 只有91.7%。

表7 不同模型DR 結果對比Table 7 Comparison of DR results for different models %

5 結束語

本文提出一種改進的基頻提取模型,該模型非局部模塊能夠通過計算所有幀之間的相似度來捕獲時域中的全局信息。非局部模塊具有相同的輸入輸出,因此可以與任何現有的網絡結構同時使用。在此基礎上,驗證了相鄰幾幀之間的信息對當前幀的基頻值影響較大,但隨著時間變化,遠距離音頻幀之間的影響并不大。實驗結果表明,本文提出的網絡比基線模型具有較好的性能,其在測試集上的MAE 只有4.7。然而,本文模型仍處于開發階段,下一步將研究深度自注意力變化網絡以及對基頻提取有益的先驗知識,進一步提升基頻提取模型性能。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 成人免费午间影院在线观看| 亚洲Va中文字幕久久一区 | 国产本道久久一区二区三区| 亚洲中文字幕日产无码2021| 一级全免费视频播放| 国产av剧情无码精品色午夜| 国产麻豆另类AV| 国产av色站网站| 久久国产亚洲欧美日韩精品| 日本高清免费不卡视频| 在线欧美a| 亚洲国产成人麻豆精品| 國產尤物AV尤物在線觀看| 欧美啪啪精品| 香蕉伊思人视频| 伊在人亞洲香蕉精品區| 天天色综网| 国产97公开成人免费视频| 456亚洲人成高清在线| 激情视频综合网| 欧美在线免费| 中文字幕无码电影| 亚洲高清资源| yy6080理论大片一级久久| 亚洲91精品视频| 久操中文在线| 亚洲美女视频一区| 国产三区二区| 1769国产精品免费视频| 91成人免费观看| 女高中生自慰污污网站| 亚洲精品国产首次亮相| 一级香蕉人体视频| 夜精品a一区二区三区| 国产欧美日韩精品综合在线| 国模在线视频一区二区三区| 久久国产热| 亚洲第一成年人网站| 黄片在线永久| 毛片免费高清免费| 伊人激情综合| 国产精品七七在线播放| 亚洲人成网站在线播放2019| 日韩 欧美 小说 综合网 另类| 青青网在线国产| 波多野结衣国产精品| 国产精品男人的天堂| 国产网友愉拍精品| 男女男精品视频| swag国产精品| 91亚洲国产视频| 一本大道视频精品人妻| 色妞永久免费视频| 在线观看免费黄色网址| 亚洲无码视频图片| 色悠久久久久久久综合网伊人| 久热这里只有精品6| 日本欧美精品| 亚洲中文无码h在线观看| 成人一区专区在线观看| 亚洲精品国产成人7777| 美女免费精品高清毛片在线视| 欧美久久网| 亚洲欧洲日产国码无码av喷潮| 国产欧美又粗又猛又爽老| 在线播放91| 毛片在线播放a| 九色视频线上播放| 国产精品lululu在线观看| 欧美一级黄色影院| 日韩精品亚洲一区中文字幕| 在线无码私拍| 伊人丁香五月天久久综合| 自拍偷拍欧美日韩| 国产国产人在线成免费视频狼人色| 欧美日韩一区二区在线播放| 日韩视频精品在线| 午夜人性色福利无码视频在线观看| 国产高清无码麻豆精品| 国产自在线播放| 国产91导航| 四虎精品国产AV二区|