999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙分支融合和時頻壓縮激勵的魯棒語音關鍵詞識別

2024-12-30 00:00:00張婷婷邱澤鵬趙臘生毛嘉瑩
計算機應用研究 2024年12期

摘 要:

現實生活中的噪聲會對語音時域和頻域信息產生干擾,導致語音關鍵詞識別模型在噪聲環境下準確率下降。針對此問題,提出了雙分支融合單元,其中時域分支與頻域分支以并行的方式提取時域特征和頻域特征,降低了串行堆疊時域卷積和頻域卷積所帶來的信息損耗;隨后通過交叉融合的方式加強模型對時頻信息的感知,進一步增強了模型特征表達能力。同時提出了時頻壓縮激勵模塊,通過對時域與頻域中信息的重要性分布建模,可以為模型提供選擇性關注有價值片段的能力,進一步提高了模型魯棒性。在Google Command v2-12數據集上,相比于對比模型,所提模型在不同信噪比的測試中取得了更高的識別準確率,且參數量更低;對于訓練階段未涵蓋的信噪比條件,所提模型在測試中展現出更高的泛化性。實驗結果表明,本文模型在識別準確率和參數量方面更具優勢,具有更好的噪聲魯棒性。

關鍵詞:關鍵詞識別;雙分支融合;時頻壓縮激勵;魯棒性模型;注意力機制

中圖分類號:TP391.42"" 文獻標志碼:A""" 文章編號:1001-3695(2024)12-018-3658-06

doi: 10.19734/j.issn.1001-3695.2024.04.0121

Robust speech keyword spotting based on dual-branch fusion and time-frequency squeeze and excitation

Zhang Tingting, Qiu Zepeng, Zhao Lasheng, Mao Jiaying

(Key Laboratory of Advanced Design amp; Intelligent Computing Ministry of Education, Dalian University, Dalian Liaoning 116622, China)

Abstract:

In real-life scenarios, noise interferes with the temporal-frequency information of speech, leading to a decrease in the accuracy of keyword spotting models in noisy environments. To address this issue, this paper proposed a dual-branch fusion unit, which the temporal branch and the frequency branch extracted temporal and frequency features in parallel to reduce the information loss caused by serially stacking temporal and frequency convolutions. Cross-fusion enhanced the model’s perception of temporal and frequency information, thereby it strengthened the model’s feature representation capability. Additionally, this paper proposed a temporal-frequency squeeze and excitation module, which modeled the importance distribution of information in the temporal and frequency domains, enabling the model to selectively focus on valuable segments and further improved its robustness. Experimental results demonstrated that on the Google Command v2-12 dataset, the proposed model achieved higher recognition accuracy in tests with different signal-to-noise ratios compared to contrast models, while having a lower parameter count. Furthermore, the proposed model generalized better during testing for signal-to-noise ratio conditions that were not included during training. Experimental results show that the proposed model has advantages in recognition accuracy and parameter quantity, and has better noise robustness.

Key words:keyword spotting; dual-branch fusion; time-frequency squeeze amp; excitation; robust model; attention mechanism

0 引言

隨著人工智能的不斷發展,人們可以通過語音實現更為便捷的人機交互,例如可以通過“Hey Siri”等喚醒命令來輕松激活設備,通過類似“開”和“關”的常見命令來控制設備等。這些正是依賴于語音關鍵詞識別(keyword spotting,KWS)模型來實現的,此類任務通常運行于資源有限的邊緣設備中,通過持續監聽特定的關鍵詞以觸發相應功能。為了獲得良好的用戶體驗,KWS系統應有良好的抗噪聲能力并滿足移動設備中低內存占用的要求。

近年來許多基于深度學習的方法如深度神經網絡[1~3]、卷積神經網絡(convolutional neural network,CNN)[4~8]和循環神經網絡[9~11]等,在語音任務中表現出良好效果。其中,CNN因在改善模型性能和縮小模型規模兩方面的優勢使得其在輕量化KWS模型中變得越來越流行。相比圖像來說,語音在橫向和縱向空間分別展現出其特有的時域和頻域特征,傳統的卷積方式可能并不適合所有的KWS任務。為了有效挖掘語音中的時域信息,TC-ResNet[12]采用一維時間卷積來對特征進行處理,MatchBoxNet[13]使用深度可分離卷積(depthwise separable convolution,DWS)取代了TC-ResNet中的標準卷積結構以尋求更低的參數量。雖然相較于二維方法它們有著更低的計算量,但Kim等人[14]考慮到一維卷積運算的平移等方差性質在頻域中不保留的問題,提出了廣播殘差網絡BC-ResNet以同時利用一維卷積和二維卷積的優點。目前基于卷積的KWS模型在噪聲環境中性能下降明顯,越來越多的學者開始研究魯棒性模型。Ng等人[15]提出了ConvMixer網絡模型,其在同時使用一維卷積和二維卷積提取特征的基礎上,通過混合層實現了特征交互,并使用課程式學習的訓練策略進一步提升了模型魯棒性。此外,通過多條件訓練的訓練策略[1,16,17]可以提高模型的噪聲魯棒性,其通過使用多種不同噪聲環境下的音頻數據來訓練神經網絡模型。但考慮到訓練策略主要作用在于調優模型參數,識別效果仍然受限于模型學習能力的上限,越來越多的學者也從KWS模型本身尋求改進,如使用注意力機制[18]增強模型的特征提取能力。文獻[19~22]使用自注意力機制來獲取長距離上下文信息,有效地建模全局依賴關系,使模型能夠更好地應對復雜的噪聲環境,但隨之帶來的較大的參數量和內存占用使其難以應用于小型設備中。Kwon[23]設計了輕量級的注意力機制以降低模型的參數量和計算復雜度,在提供了選擇性聚焦于音頻序列中有價值片段能力的同時降低了對噪聲信息的關注。

噪聲在語音的時域和頻域中會產生不同的影響,在時域中其通常具有隨機性和不規則性,而在頻域上,噪聲可能引入額外的頻率成分[24]。目前基于卷積的KWS模型通常將時域卷積與頻域卷積按順序組合在一起[14, 15],形成串行化的處理模式,往往會導致經過頻域卷積丟失的時域信息無法參與接下來的時域特征提取,反之亦然。文獻[25]認為這種靜態單分支結構很難解釋和修改,于是采用雙分支結構融合全局和局部的特征。ASGRU-CNN[26]將并行雙分支結構分為空間特征提取和時序特征提取兩部分,通過聯合處理模塊融合了三維卷積、二維卷積以及循環神經網絡所提取的特征。目前雙分支結構傾向于不同尺度特征間的融合,且參數量較大,少有針對語音時域和頻域特性的討論。

為了解決上述問題,本文構建了輕量級的并行時頻卷積網絡(parallel time-frequency convolution network, PTFNet),提出了雙分支融合單元(dual-branch fusion unit, DBF)和時頻壓縮激勵模塊(time-frequency squeeze and excitation module, TFSE)。針對上述中串行化特征提取所帶來的特征信息損耗問題,DBF的時域分支和頻域分支以并行的方式提取時域和頻域信息以降低串行結構在特征提取時產生的信息損耗,之后分別采用雙向池化并進一步提取時頻信息,以交叉融合的方式進一步加強了模型對時頻信息的感知。針對上述噪聲對語音數據的影響使得模型魯棒性下降的問題,TFSE通過在語音的時域與頻域中提取注意力權重向量來實現時域加權和頻域加權,賦予模型選擇性地關注不同頻帶和不同時間幀中有效特征信息的能力,最終使模型更加關注有價值的語音信息,減少對不相關信息的關注,從而增強模型魯棒性。

1 PTFNet模型

1.1 整體流程

本文提出的并行時頻卷積網絡PTFNet整體流程如圖1所示。首先在特征提取中,語音信號會經過預加重、分幀和加窗處理,之后每一幀都會通過傅里葉變換得到頻譜圖,頻譜圖會通過一個64維的濾波器組,并沿頻率維度取對數以獲得FBank特征。本文提出的PTFNet輸入為FBank特征,模型的輸出對應標簽的分類概率,概率中的最大值表示當前語音的預測標簽。

1.2 模型框架

PTFNet的整體架構如圖2所示。FBank特征首先進入預卷積塊(pre-block),其由兩個二維深度可分離卷積組成,用來實現對特征的初步提取。中間部分創建了四層殘差塊(residual block,ResBlock),每個殘差塊由雙分支融合單元和時頻壓縮激勵模塊兩部分組成,兩者協同作用,可以在充分利用時頻信息的同時使模型能夠對不同特征進行重要性調整,從而提高模型的噪聲魯棒性。最后是后卷積塊(post-block),由三層一維深度可分離卷積組成,在不增加過多參數量的同時增加特征通道數,通過逐層卷積以增強模型的特征提取能力。最終經過最大池化層、線性層以及softmax的處理輸出分類概率。

1.3 雙分支融合單元

為了解決只使用一維卷積導致的平移等方差性質在頻域中不保留的問題,文獻[15]使用二維頻域卷積子塊和一維時域卷積子塊進行特征提取,本文在DBF模塊設計中借鑒了該方法以增強模型的特征表達能力,但本文考慮到串行化特征提取方式可能導致信息損耗,因此采用了并行處理方式來提取頻域特征和時域特征,詳細架構如圖3所示。為了使操作過程更加直觀,圖3并沒有展示代碼中的轉置操作。

在雙分支融合單元中,采用了并行方式分離時域和頻域特征的提取流程,時域特征提取和頻域特征提取會對相同的輸入進行不同的處理,時域分支和頻域分支又單獨形成雙分支結構,以便提取更為豐富的時域與頻域信息,并通過交叉融合的方式相互補充。

1.4 時頻壓縮激勵模塊

受壓縮激勵模塊[28]在計算機視覺領域中有效性的啟發,本文提出了TFSE,詳細架構如圖4所示。它可以針對噪聲數據對不同頻帶以及不同時間幀影響不同的特點,分別在時域方向上和頻域方向上應用注意力機制生成兩個權重向量,引導模型重點關注有價值的時間幀和頻率區域,再將其與原來的特征圖相乘,為每個分量分配差異化的權重,以便于自適應地調節每個時間幀以及每個頻帶的特征在后續網絡層中的重要性,賦予模型選擇性地關注不同頻帶和不同時間幀中有效特征片段的能力,從而使模型能夠強調有價值的特征并減少對噪聲信息的關注。

首先特征圖會在時間和頻率維度上分別經過全局平均池化獲得兩個分別包含時域和頻域全局信息的一維特征向量ZT(h)和ZF(k),計算公式如式(9)(10)所示。

ZT(i)=1h∑hj=1x(i, j)(9)

ZF(j)=1w∑wi=1x(i, j)(10)

其中:ZF和ZT分別表示沿著頻域方向和時域方向做平均池化,ZT(i)是ZT的第i個元素,ZF(j)是ZF的第j個元素。之后ZT和ZF通過全連接層的學習生成兩個注意力權重向量即Vt和Vf,Vf代表每個頻帶的重要性系數,Vt代表每個時間幀的重要性系數;然后Vf和Vt會擴展回原來的形狀,并與O進行點乘,完成在頻率以及時間維度上對原始特征的重標定。計算方式如式(11)~(13)所示。

Vf=σ(FC(λ(FC(ZF(O)))))(11)

Vt=σ(FC(λ(FC(ZT(O)))))(12)

Y=O(Ep(Vf)Ep(Vt))(13)

其中:FC()代表線性層;σ()表示sigmoid激活函數;λ()代表ReLU激活函數;Y表示經過TFSE層的輸出結果。

2 實驗結果與分析

2.1 實驗環境及數據集

實驗中使用的處理器為10核20線程的i9-10900F處理器,圖形處理器為RTX-3090,深度學習框架為PyTorch。所有實驗均在相同的硬件條件下進行訓練、驗證和測試。

本文在Google Speech Commands v2[29]數據集上對模型進行評估,該數據集包含35個不同命令關鍵詞的105 000個語音片段,數據集的采樣頻率為16 000 Hz,每條長度為1 s。本文將其劃分為12類子集,具體來說涵蓋了“up”“down”“left”“right”“yes”“no”“on”“off”“go”“stop”“silence”和“unknown”。其中,“unknown”類別是數據集中未歸類到其他命令的語音片段。為了能夠公平方便地進行比較,本實驗遵循官方提供的數據分割比例劃分數據,其中訓練集占80%,驗證集占10%,測試集占10%。并且使用文獻[29, 30]中的常見設置,重新平衡了“silence”和“unknown”兩個類別的樣本數量。

此外,本文還引入了來自MUSAN[31]數據集的噪聲樣本以模擬復雜的噪聲環境。它包含了930條數據長短不一的各種技術與非技術的噪聲,如汽車喇叭和雷聲等,采用16 000 Hz的采樣率對音頻片段進行了隨機采樣,并將其與原始音頻進行混合,以形成clean、0 dB、-5 dB、-10 dB四種不同的信噪比的語音,所有不同信噪比的語音均一起參與模型訓練過程。在測試過程中,本文在五種不同信噪比中進行了單獨的測試,即[clean,20 dB,0 dB,-5 dB,-10 dB],其中額外引入了在訓練過程中不存在的20 dB信噪比語音進行測試,以體現模型對未見過的信噪比數據的泛化性。

2.2 實現細節

本文使用的幀偏移為10 ms、窗口大小為25 ms的64維對數梅爾濾波器組來提取聲學特征,batchsize設置為128。損失函數使用二元交叉熵損失。首先對語音數據的輸入長度進行處理,不足1 s的用0填充,大于1 s的將被截斷,經過這樣處理得到的每個特征圖大小為98×64。在訓練過程中,遵循文獻[30]的數據增強設置,時間平移范圍為-100~100 ms,并采用了最大長度為25 ms的時間和頻率掩蔽參數的頻譜圖掩蔽。使用初始學習率為6E-3的Adam優化器,并且設置第五個epoch之后的每四個epochs間隔上乘以0.85的學習率衰減因子。此外,使用早停法來避免網絡發生過擬合現象,將模型訓練設置為:首先訓練10次,防止模型過早收斂。在10個epochs以后,將早停輪次設置為5,如果連續5個epochs中的驗證集準確率不高于當前最佳標準時停止訓練,并將加載當前驗證集準確率最高的模型以進入接下來的最終測試階段。

2.3 對比實驗

本文從參數量、計算量和準確率三個方面將所提模型與現有相關模型進行比較。其中,使用準確率作為主要評估指標來反映模型在噪聲環境下的性能;模型的計算量使用thop庫進行計算,輸入為單個語音樣本。對比模型采用相同的實驗設置,并且使用官方提供的源代碼重新進行訓練,結果如表2所示。從表2可以看出,在任意信噪比條件下的測試中,本文所提出的模型都展現出了更好的識別效果,且參數量更低。

MHAtt-RNN[32]采用多頭注意力機制來捕獲輸入序列中的復雜相關性,然而在低信噪比的場景中其表現并不理想,這是因為噪聲可能會阻礙模型有效捕獲關鍵信息的能力,并且采用的注意力機制將明顯地提升參數量及運算量,使得MHAtt-RNN的參數量及計算量高于本文方法10倍。

Matchbox[13]使用了一維DWS建立識別架構以降低參數量及運算量,與二維卷積相比,一維DWS能夠降低模型的參數量,限制運算量的增長。盡管Matchbox在堆疊模型時參數量有所上升,但仍保持著較低的運算量。在不同信噪比下的準確率測試中明顯低于本文模型,說明僅采用一維DWS可能降低模型在噪聲條件下的特征提取能力。

BC-ResNet[14]認為Matchbox僅使用一維DWS,缺乏頻域維度的信息,提出了同時使用一維卷積和二維卷積的廣播殘差網絡,并且其模型規模可以改變;在增加其網絡規模后,網絡的參數量和模型識別能力都有所提升,說明合理增大規模可以提高模型識別能力的上限。相比于對比實驗中準確率最高的BC-ResNet-8,本文提出的PTFNet在不同信噪比環境的測試中均取得了更好的效果,在clean、0 dB、-5 dB、-10 dB的測試中識別準確率分別提升了0.58、1.84、1.4、1.7百分點,且BC-ResNet-8的參數量及運算量高于PTFNet的四倍。

QBCResNet[33]提出了四元數神經模型,旨在保持模型識別性能的前提下降低模型的參數量和運算量,在KWS中可以有效地替代傳統的聲學建模方案。四元數卷積涉及四元數濾波器矩陣和四元數向量的哈密頓積,傳統卷積的計算量是其4倍[33]。QBCResNet明顯降低了運算量,在clean條件下識別準確率與BC-ResNet-6接近,但在噪聲條件下性能略低于BC-ResNet-6,且與PTFNet模型有著一定的差距,說明其在低信噪比時不能很好地適應帶噪語音數據。

ConvMixer[15]通過混合器模塊來計算全局通道特征交互,同時使用了課程式學習的訓練策略提高模型的魯棒性。但其首先使用一維DWS提取時域信息,之后經過二維DWS來提取頻域信息,串行的特征提取方式可能導致信息損耗。此外,使用線性層搭建的混合器模塊會帶來較多的參數量及運算量。

本文提出的PTFNet采用了雙分支融合單元和時頻壓縮激勵模塊,其中雙分支融合單元通過并行方式對每個分支進行雙向池化來進一步提取并融合時域信息和頻域信息,從而加強模型對時頻信息的感知,使模型能夠在提取更全面的特征信息的同時降低信息損耗。時頻壓縮激勵模塊分別在時域和頻域方向上應用注意力機制賦予模型選擇性地關注不同頻帶和不同時間幀中有效特征片段的能力,從而使模型選擇性地強調有價值的特征并減少對噪聲信息的關注。實驗證明,本文模型在僅有77 K參數的情況下實現了更高的模型魯棒性,這進一步證實了所設計模型的有效性。此外,對于訓練過程中沒有的20 dB信噪比數據,PTFNet模型展現出了更高的泛化性,達到了96.24%的識別精度。

2.4 消融實驗

為了進一步驗證改進部分的有效性,本節將分別評估網絡中所包含的兩個核心組件對模型性能的影響,分別建立了有DBF無TFSE的網絡、有TFSE無DBF的網絡以及同時不包含DBF和TFSE的網絡。因為DBF中采用時頻并行的特征提取方式,所以在去除DBF的實驗中,模型采用串行堆疊頻域卷積和時域卷積的特征提取方式以驗證雙分支的有效性。為了更準確地評估每個模塊對模型性能的影響,本部分將參數量精確到小數點后三位,并保持其他實驗設置不變。實驗結果如表3所示。

從表3中可以發現單獨去除任何所提出的方法,都會降低模型的準確率。在純凈條件下測試時,分別移除DBF和TFSE時的性能均有下降,隨著信噪比的不斷降低,兩者下降幅度都更加明顯,說明所提出的方法均能提升噪聲條件下的模型魯棒性。特別是在低信噪比下移除DBF比移除TFSE所帶來的性能下降更加明顯,在-5 dB、-10 dB信噪比下去除DBF的下降幅度明顯大于移除TFSE,說明相比于TFSE,DBF更能提升噪聲條件下的模型魯棒性。此外,當同時將這兩個核心組件移除時,模型的識別準確率明顯下降,并且均低于單獨移除某個組件的性能,所提出的兩種方法在僅增加7.64 K參數的情況下實現了可觀的性能提升,證明了其有效性。

為了驗證DBF中并行方式和交叉融合的有效性,本文對DBF模塊進行了消融實驗,如表4所示。交叉融合依賴于雙分支結構的特征提取,所以本文首先移除了交叉融合部分以驗證其性能,其次在此基礎上進一步移除了并行方式,采用串行的頻域、時域卷積堆疊方式進行了實驗,以驗證并行雙分支的有效性。

當移除交叉融合部分時,隨著信噪比的降低,模型識別準確率下降更為明顯,在clean、20 dB、0 dB、-5 dB、-10 dB信噪比條件下的測試中分別下降了0.64、0.88、1.46、1.56、1.68百分點,表明交叉融合部分能夠增強模型對語音信息的感知能力,提高模型在噪聲條件下的識別準確率。在此基礎上移除并行結構,模型識別準確率進一步下降,說明相比于串行單分支結構,時頻并行的雙分支結構能夠改善模型在噪聲條件下的識別性能。

本文在雙分支融合單元中使用了平均池化來壓縮時域和頻域信息,現將其替換為最大池化進行消融實驗,結果如表5所示。從表5可以發現,使用最大池化的模型精度在各個信噪比下均低于使用平均池化進行降維提取的識別精度,說明在當前任務中,使用平均池化可以保留更多的有用信息,更有利于提升模型識別準確率。

3 結束語

本文提出了并行時頻卷積網絡,其中通過使用雙分支融合單元來減少串行化堆疊時域卷積和頻域卷積所產生的特征損耗,并加強模型對時頻信息的感知;通過時頻壓縮激勵模塊,模型可以選擇性地關注不同頻帶和不同時間幀中有價值的信息以進一步提升模型的魯棒性。在包含多種不同信噪比的Google Speech Commands v2-12數據集上,本文模型取得了更高的準確率,并且參數量更低。

本文研究了加性噪聲對模型的影響,未來將進一步研究混響(乘性噪聲)對模型性能的影響。此外,在未來的研究中將考慮對不同種類的噪聲進行細致的探討,并進行相應的模型設計,使模型能夠應用于更多的噪聲場景。

參考文獻:

[1]Prabhavalkar R, Alvarez R, Parada C, et al. Automatic gain control and multi-style training for robust small-footprint keyword spotting with deep neural networks [C]// Proc of the 40th International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2015: 4704-4708.

[2]Miah M N, Wang Guoping. Keyword spotting with deep neural network on edge devices [C]// Proc of the 12th International Conference on Electronics Information and Emergency Communication. Piscata-way, NJ: IEEE Press, 2022: 98-102.

[3]Pereira P H, Beccaro W, Ramírez M A. Evaluating robustness to noise and compression of deep neural networks for keyword spotting [J]. IEEE Access, 2023, 11: 53224-53236.

[4]Sainath T, Parada C. Convolutional neural networks for small-footprint keyword spotting [C]// Proc of the InterSpeech. [S.l.]: International Speech Communication Association, 2015: 1478-1482.

[5]Li Ximin, Wei Xiaodong, Qin Xiaowei. Small-footprint keyword spotting with multi-scale temporal convolution [C]// Proc of InterSpeech. [S.l.]: International Speech Communication Association, 2020: 1987-1991.

[6]Rostami A M, Karimi A, Akhaee M A. Keyword spotting in continuous speech using convolutional neural network [J]. Speech Communication, 2022, 142(7): 15-21.

[7]Tsai T H, Lin Xinhui. Speech densely connected convolutional networks for small-footprint keyword spotting [J]. Multimedia Tools and Applications, 2023, 82(25): 39119-39137.

[8]孫興偉, 李軍鋒, 顏永紅. 結合卷積神經網絡與混響時間注意力機制的混響抑制 [J]. 聲學學報, 2021, 46(6): 1234-1241. (Sun Xingwei, Li Junfeng, Yan Yonghong. Speech dereverberation method with convolutional neural network and reverberation time attention [J]. Acta Acustica, 2021, 46(6): 1234-1241.)

[9]Arik S O, Kliegl M, Child R, et al. Convolutional recurrent neural networks for small-footprint keyword spotting [C]// Proc of InterSpeech. [S.l.]: International Speech Communication Association, 2017: 1606-1610.

[10]Liu Zuozhen, Li Ta, Zhang Pengyuan. RNN-T based open-vocabulary keyword spotting in mandarin with multi-level detection [C]// Proc of the 46th International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2021: 5649-5653.

[11]Zhang Ying, Zhu Shirong, Yu Chao, et al. Small-footprint keyword spotting based on gated channel transformation sandglass residual neural network [J]. International Journal of Pattern Recognition and Artificial Intelligence, 2022, 36(7): 2258003.

[12]Choi S, Seo S, Shin B, et al. Temporal convolution for real-time keyword spotting on mobile devices [C]// Proc of InterSpeech. [S.l.]: International Speech Communication Association, 2019: 3372-3376.

[13]Majumdar S, Ginsburg B. MatchboxNet: 1D time-channel separable convolutional neural network architecture for speech commands recognition [C]// Proc of InterSpeech. [S.l.]: International Speech Communication Association, 2020: 3356-3360.

[14]Kim B, Chang S, Lee J, et al. Broadcasted residual learning for efficient keyword spotting [C]// Proc of InterSpeech. [S.l.]: International Speech Communication Association, 2021: 4538-4542.

[15]Ng D, Chen Yunqi, Tian Biao, et al. ConvMixer: feature interactive convolution with curriculum learning for small footprint and noisy far-field keyword spotting [C]// Proc of the 47th International Confe-rence on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2022: 3603-3607.

[16]Wang Yuxuan, Getreuer P, Hughes T, et al. Trainable frontend for robust and far-field keyword spotting [C]// Proc of the 42nd International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2017: 5670-5674.

[17]López-Espejo I, Tan Zhenghua, Jensen J. A novel loss function and training strategy for noise-robust keyword spotting [J]. IEEE/ACM Trans on Audio, Speech, and Language Processing, 2021, 29: 2254-2266.

[18]趙澤宇, 張衛強, 劉加. 采用注意力機制和多任務訓練的端到端無語音識別關鍵詞檢索系統 [J]. 信號處理, 2020, 36(6): 839-851. (Zhao Zeyu, Zhang Weiqiang, Liu Jia. End-to-end keyword search system based on attention mechanism and multitask learning [J]. Journal of Signal Processing, 2020, 36(6):" 839-851.)

[19]Berg A, O’connor M, Cruz M T. Keyword transformer: a self-attention model for keyword spotting [C]// Proc of InterSpeech. [S.l.]: International Speech Communication Association, 2021: 4249-4253.

[20]沈逸文, 孫俊. 結合Transformer的輕量化中文語音識別 [J]. 計算機應用研究, 2023, 40(2): 424-429. (Shen Yiwen, Sun Jun. Lightweight Chinese speech recognition with Transformer [J]. Application Research of Computers, 2023, 40(2): 424-429.)

[21]Gulati A, Qin J, Chiu C C, et al. Conformer: convolution-augmented transformer for speech recognition [C]// Proc of InterSpeech. [S.l.]: International Speech Communication Association, 2020: 5036-5040.

[22]胡從剛, 申藝翔, 孫永奇, 等. 基于Conformer的端到端語音識別方法 [J]. 計算機應用研究, 2024, 41(7): 2018-2024. (Hu Conggang, Shen Yixiang, Sun Yongqi, et al. End-to-end method based on Conformer for speech recognition [J]. Application Research of Computers, 2024, 41(7): 2018-2024.)

[23]Kwon S. Att-Net: enhanced emotion recognition system using lightweight self-attention module [J]. Applied Soft Computing, 2021, 102(4): 107101.

[24]Zhao Boxiang, Wang Shuliang, Chi Lianhua, et al. Hanm: hierarchical additive noise model for many-to-one causality discovery [J]. IEEE Trans on Knowledge and Data Engineering, 2023, 35(12): 12708-12720.

[25]Peng Yifan, Dalmia S, Lane I, et al. Branchformer: parallel MLP-attention architectures to capture local and global context for speech recognition and understanding [C]// Proc of the 39th International Conference on Machine Learning.[S.l.]: PMLR, 2022: 17627-17643.

[26]高鵬淇, 黃鶴鳴. 基于ASGRU-CNN時空雙通道的語音情感識別 [J]. 計算機仿真, 2024, 41(4): 180-186.(Gao Pengqi, Huang Heming. Speech emotion recognition based on ASGRU-CNN spatiotemporal dual channel [J]. Computer Simulation, 2024, 41(4): 180-186.)

[27]Huang Chun, Wei Hefu. Speech-music classification model based on improved neural network and beat spectrum [J]. International Journal of Advanced Computer Science and Applications, 2023, 14(7): 52-64.

[28]Hu Jie, Li Shen, Sun Gang. Squeeze-and-excitation networks [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 7132-7141.

[29]Warden P. Speech Commands: a dataset for limited-vocabulary speech recognition [EB/OL]. (2018-04-09). https://arxiv.org/pdf/1804.03209.

[30]Tang R, Lin J. Deep residual learning for small-footprint keyword spotting [C]// Proc of the 43rd International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2018: 5484-5488.

[31]Snyder D, Chen Guoguo, Povey D. MUSAN: a music, speech, and noise corpus [EB/OL]. (2015-10-28). https://arxiv.org/pdf/1510.08484.

[32]Rybakov O, Kononenko N, Subrahmanya N, et al. Streaming keyword spotting on mobile devices [C]// Proc of InterSpeech. [S.l.]: International Speech Communication Association, 2020: 2277-2281.

[33]Chaudhary A, Abrol V. Towards on-device keyword spotting using low-footprint quaternion neural models [C]// Proc of IEEE Workshop on Applications of Signal Processing to Audio and Acoustics. Pisca-taway, NJ: IEEE Press, 2023: 1-5.

主站蜘蛛池模板: 国产精品密蕾丝视频| 国产午夜精品一区二区三| 亚洲视频免费在线| 伊人久久青草青青综合| 欧美一区中文字幕| 激情综合五月网| 亚洲乱码精品久久久久..| 98超碰在线观看| 国产精品网拍在线| 国产欧美精品一区二区| 小蝌蚪亚洲精品国产| 伊在人亚洲香蕉精品播放| 欧美日本激情| 久久毛片基地| 久久精品一卡日本电影| 国产丰满成熟女性性满足视频| 尤物亚洲最大AV无码网站| 国产女同自拍视频| 欧美视频在线观看第一页| www.日韩三级| www亚洲天堂| 制服丝袜在线视频香蕉| 国产激情国语对白普通话| 国产精品密蕾丝视频| 天堂成人在线| 亚洲熟女偷拍| 国产麻豆精品久久一二三| 日韩人妻少妇一区二区| 性视频久久| 亚洲妓女综合网995久久| 一级毛片无毒不卡直接观看| 天天躁夜夜躁狠狠躁躁88| 亚洲一区二区三区在线视频| 国产噜噜噜| 人人爱天天做夜夜爽| 永久天堂网Av| 成人在线观看不卡| 丰满的熟女一区二区三区l| 欧美在线国产| 2048国产精品原创综合在线| 2021精品国产自在现线看| 国产麻豆精品手机在线观看| 国产人前露出系列视频| 国产综合色在线视频播放线视| 亚洲资源在线视频| 国产自在线拍| 国产第四页| 日韩人妻无码制服丝袜视频| 97狠狠操| 一本一本大道香蕉久在线播放| 麻豆精品视频在线原创| 在线观看精品国产入口| 色国产视频| 丝袜美女被出水视频一区| 999精品色在线观看| 露脸一二三区国语对白| 欧美激情福利| 色窝窝免费一区二区三区| 国产在线观看人成激情视频| 一级毛片高清| 国产福利一区二区在线观看| 亚洲中文字幕无码爆乳| 亚洲精品第一在线观看视频| 小13箩利洗澡无码视频免费网站| 直接黄91麻豆网站| 麻豆精选在线| 伊人久久精品无码麻豆精品 | 国产精品久久国产精麻豆99网站| 亚洲免费黄色网| 日韩无码真实干出血视频| 久久黄色一级片| 亚洲愉拍一区二区精品| 国产中文在线亚洲精品官网| 99成人在线观看| 伊人久久久久久久久久| 欧美午夜性视频| 亚洲无码高清免费视频亚洲| 亚洲精品无码AⅤ片青青在线观看| 日韩 欧美 国产 精品 综合| 国产地址二永久伊甸园| 亚洲天堂免费| 最新午夜男女福利片视频|