多任務實時聲音事件檢測卷積模型與復合數據擴增

2023-01-01 00:00:00劉臣倪仁倢周立欣

計算機應用研究 2023年4期

作者簡介：劉臣（1981－），男，河南人，副教授，碩導，博士，主要研究方向為社交用戶行為挖掘、深度學習；倪仁倢（1994－），男（通信作者），上海人，助理工程師，碩士研究生，主要研究方向為模式識別、深度學習（oliverjonasqueen@163.com）；周立欣（1989－），男，河南人，博士（后），主要研究方向為知識圖譜、深度學習.

摘要：現有的聲音事件檢測研究多為對離線音頻進行分析，且模型參數量較多、計算效率低，不適用于實時檢測。提出一種面向多任務實時聲音事件檢測的輕量化卷積神經網絡模型，它將喚醒與檢測任務整合成多任務學習框架，此外模型的卷積結構聯合了稠密連接、Ghost模組與SE注意力機制；另外還提出了一種復合數據擴增方法，將音頻變換、隨機裁剪與頻譜掩蔽相結合。實驗結果顯示，該模型在ESC－10和Urbansound8K數據集上的平均預測準確率高于當前新型的基線模型2%以上，同時模型的參數和內存更少。研究表明，多任務學習的方式節省了計算量，又因為卷積結構復用了中間層特征，模型可以快速地反饋檢測結果。另外，復合數據方法相比傳統方法使模型獲得了更好的性能和魯棒性。

關鍵詞：實時聲音事件檢測；輕量化卷積神經網絡；多任務學習；數據擴增

中圖分類號：TP391.42 文獻標志碼：A 文章編號：1001－3695（2023）04－020－1080－08doi： 10.19734/j.issn.1001－3695.2022.07.0415

Abstract：Most of the existing sound event detection researches analyzes from recorded audio， and these models had massive parameters with low efficiency， which is not suitable for real-time detection. This paper proposed an efficient convolutional neural networks model for multi-task and real-time sound event detection. The model considered triggering and detecting task as multi-task learning mission， and its structure combined densely connection， ghost module and SE block. Moreover， this paper proposed a data augmentation method that combined with audio shifting， random cropping and SpecAugment. The experimental results show that the mean prediction accuracies of the model on ESC-10 and Urbansound8K datasets are at least 2% higher than latest baseline models， but also has better robustness as well as less parameters and memory. Additionally， multi-task learning saves computation， and due to the reusing of feature maps， the model can quickly and accurately feedback the results. Compared with the traditional data augmentation methods， the proposed model achieves better perfor-mance and robustness.

Key words：real-time sound event detection; efficient CNN; multi-task learning; data augmentation

0 引言

聲音事件檢測（sound events detection， SED）是指通過分析不同的聲音信號，檢測出各個聲源所含信息的類別和起訖時間［1］，目前SED已在智能家具、醫療、環境監測和人機交互等領域中被廣泛使用［2］。實時地進行SED有著較多的應用價值，如實時檢測城市街道中的非法鳴笛，在病房內檢測咳嗽聲、噴嚏聲等以監測患者病癥狀態。

目前許多學者開始將深度學習模型用于SED，Sang等人［3］結合卷積神經網絡（convolutional neural networks， CNN）和長短時記憶網絡（long short-term memory，LSTM）構建模型，采用波形音頻作為輸入特征，但LSTM存在著無法并行計算的缺點，導致模型計算效率較低。Takahashi等人［4］采用深度卷積神經網絡（deep convolutional neural networks， DCNN）結合多層感知機來構造模型，使用對數梅爾頻譜作為輸入特征，模型的參數量較大為233 M，內存約為800 MB。上述模型均需要較高的硬件支持，且計算量較大，無法快速地反饋檢測結果，它們主要用來檢測離線的音頻信號，在需要實時反饋檢測結果的場景中存在局限性。

目前不少學者從硬件層面對實時SED進行了研究［5，6］，但在軟件層面關于實時SED的算法卻非常少。而實時關鍵詞檢測（keyword spotting， KWS）作為實時SED的分支領域，它們之間存在著不少的相似性，例如都需要模型永遠處于運行狀態。蘋果公司的語音助手Siri在進行實時KWS時，分別使用兩個節點數量不同的深度神經網絡（deep neural networks， DNN）進行喚醒和檢測計算，當喚醒模型檢測到可能的關鍵詞信號時，將激活較大的檢測模型進行檢測［7］，此方法的缺點在于檢測模型無法復用喚醒模型的計算結果。亞馬遜公司的語音助手Alexa則是先區分音頻中的有聲段和無聲段，并將有聲段輸入模型進行KWS計算［8］，但是現實世界中聲音事件的音量可能小于環境背景噪聲，導致該方法并不適用于SED。Tucker等人［9］通過構建單個線性壓縮的DNN來進行KWS，它結合了低階權重矩陣與知識蒸餾兩種方法，取得了良好的效果，但知識蒸餾增加了訓練時長和硬件需求；此外因為模型永遠處于運行狀態，所以它的計算資源消耗較多；另外不同環境中的聲音事件特征差異較大，SED模型相較于KWS模型需要具備更強的特征抽象能力［10］，淺層的DNN效果較差，而當層數較深時，其所需的計算量和響應時間都較多。

深度學習模型的訓練較依賴數據量，數據量過少容易導致模型無法有效學習或者出現過擬合等現象，從而導致模型的泛化能力較弱［11］。學者普遍認為數據量越大，模型性能將會越好［12，13］，而現實世界中獲取不同環境下的聲音數據成本較高。所以目前許多學者采用了音頻數據擴增這一方法［1，14，15］，即對音頻進行一系列變換操作來擴充訓練數據量，從而提升模型性能。但是他們在擴充時大多采用單種類型的變換操作［14，15］，變換時所使用的參數相同［15］。此舉導致擴增的數據量較少，而且模型可能會學習到擴增數據和原始數據之間的潛在聯系，導致模型處理未知數據時的泛化能力有限。

從實時SED存在的難點出發，本文構建了一個輕量化且高性能的卷積瓶頸結構（GDS-Bneck），并以此結構建立實時SED模型（GDS-Net）。GDS-Bneck首先通過結合逐點卷積［16］和深度卷積［17］構成Ghost模組［18］，模組之間采用稠密連接［19］，并且加入了SE注意力機制［20］。GDS-Net能夠實時地處理SED中的喚醒任務和檢測任務，分別對應模型中的喚醒模塊和檢測模塊。其中檢測模塊共用了喚醒模塊的權重參數，節省了計算量的同時也加快了響應速度。此外本文還提出了一種復合音頻數據擴增方法，使用單種或多重變換操作疊加的方式對原始音頻進行數據變換，再對擴增后的音頻數據進行隨機裁剪，并從提取出的頻譜特征上應用頻譜掩蔽［21］方法來進一步提升模型的性能和魯棒性。

實驗結果表明，GDS-Net在ESC-10［22］和Urbansound8K［23］數據集上的平均預測準確率比新型輕量化DCNN高出2%以上且擁有更好的魯棒性，同時模型的參數和內存更少。本文的復合音頻數據擴增方法相較于僅采用原始數據集進行訓練，使模型的平均預測準確率提升了15%左右，并且讓模型在不同折疊上的預測準確率更為接近。相較于僅采用傳統單種變形的擴增方式，本文方法能更好地提升模型的性能和魯棒性。

本文的主要貢獻有以下三個方面：a）將喚醒任務和檢測任務整合成一個多任務學習框架，減少了實時SED所需的計算量和響應時間；b）設計了一個輕量化卷積瓶頸結構GDS-Bneck，并組成了實時SED模型，它的運算效率、預測準確率和魯棒性都較高；c）提出了一種復合音頻數據擴增方法，使模型的性能和魯棒性均得到顯著的提升。

1 多任務實時聲音事件檢測卷積模型

實時聲音事件檢測是指實時地識別環境中存在的聲音事件的類別與起訖時間。與KWS相似，檢測過程中模型必須及時地反饋檢測信息并且將始終處于運行狀態，所以模型的計算效率不能過低。

1.1 多任務學習框架

本文提出了一個多任務學習的實時SED框架，首先讀取音頻流并提取頻譜特征，再輸入喚醒模塊（trigger）負責判別聲音信號是否存在可能的目標類別即是否為正例，決定是否激活檢測模塊（detector）進行識別，該任務為二分類任務；檢測模塊則進一步計算并確定聲音事件所屬類別，為多分類任務。當檢測模塊檢測到目標類別的聲音事件時，將返回聲音事件所屬的類別和時間戳。實時SED框架如算法1所示。其中分類函數classify（·）結構如式（1）所示。首先輸入全連接層［4］，再使用softmax函數激活，得出分類結果。

由于喚醒任務始終處于工作狀態，并且它的難度低于檢測任務，所以喚醒模塊所使用的卷積層數和參數量都小于檢測模塊。檢測模塊則共用了喚醒模塊的權重參數，當檢測模塊被激活時將在喚醒模塊輸出的中間層特征基礎上繼續運算，相較于使用兩個獨立的模型分別進行喚醒和檢測［7］，多任務學習的方式節省了計算量，同時也加快了響應速度。模型的多任務學習框架如圖1所示。

1.2 輕量化卷積瓶頸結構

由于不同環境中聲音事件特征差異較大，相較于關鍵詞喚醒，模型需要擁有更強的特征抽象和泛化能力［10］，同時模型計算效率也較高，以保證響應速度。從實時SED的難點出發，本文提出了一個輕量化卷積瓶頸結構GhoDenSE-bottleneck（GDS-Bneck），如圖2所示。

隨著神經網絡層數的加深，層與層之間信息流的傳遞部分受阻，導致網絡出現退化現象。He等人［26］提出了殘差模塊來解決該問題，該模塊使用卷積操作對中間層特征進行降維后再升維，形成了類似沙漏的瓶頸結構。而GDS-Bneck結構則是先升維再降維，類似于MobileNetV2［27］的瓶頸結構。為了緩解網絡退化現象同時節省計算量，GDS-Bneck的卷積層之間采用了稠密連接（densely connection）［19］，稠密連接將先前各個卷積層的輸出特征堆疊并輸入當前的卷積層，如式（5）所示。它使靠后的卷積層可以直接收到先前不同卷積層的輸出特征，有效緩解了梯度消失和網絡退化等現象。同時由于它復用了中間層特征，從而減少了卷積運算量。

傳統的CNN容易在中間層產生許多相似的特征，形成冗余數據［28］，且占用著大量的內存和每秒浮點運算次數（floating point operations per second，FLOPs）［18］。由于在實際應用中模型需要快速地反饋SED結果，為了減少模型計算量并加快響應速度，在GDS-Bneck中使用Ghost模組［18］來代替傳統的2D卷積操作。GDS-Bneck中所使用的Ghost模組結構如下：首先使用逐點卷積［16］對輸入特征進行降維，再對降維后的特征進行深度卷積［17］，深度卷積中的過濾器不添加偏置向量，使用填充保持數據大小不變。Ghost模組中所有的卷積操作后都伴隨有批歸一化（batch normalization，BN）和ReLU激活函數。最后將逐點卷積和深度卷積的輸出特征進行堆疊得到Ghost模組的輸出。Ghost模組的卷積操作過程如式（6）所示。

2 復合音頻數據擴增

受到材料、介質等多種外界復雜因素的影響，現實世界中的同一類聲音在不同環境下其樣本特征存在著較大差異［1］，如圖3所示。這給識別工作帶來了一定的難度，要求聲學模型具備較高的泛化能力［10］。而現實世界中獲取不同環境下的聲音數據成本高昂，數據量過少會導致過擬合或者訓練崩潰等情況的出現［9］。

為了避免上述現象并提升模型性能，本文提出了一種復合音頻數據擴增方法：a）音頻數據變換，對原始音頻應用單種和多重音頻變換操作；b）頻譜掩蔽，對變換后的音頻進行隨機裁剪并在頻譜特征上進行隨機掩蔽。復合音頻數據擴增的流程如圖4所示。

2.1 多重音頻變換

傳統的音頻數據擴增方法通過對原始音頻實施各種音頻變換操作，從而擴充數據集的數量，然而它們在進行音頻變換時僅僅采用單一形式進行變換［14，15］，使得擴增后的數據量提升有限。只要進行有效的變換操作，即不改變數據本身的含義［11］，模型的性能將與數據量成正比，并隨著邊際效應逐漸收斂［13］。但若變換后的數據與原始數據差異過大時，將產生模型無法學習的噪聲數據，影響模型訓練［30］。

傳統音頻數據擴增方法多采用單種類型的變換操作，且變換時所使用的參數相同［14，15］，如式（9）所示。

本文應用了四種類型的音頻變換操作，具體過程如下：

a）動態范圍壓縮（dynamic range compression，DRC）。DRC是一種對音頻信號的幅值進行動態調整的技術，當某一時刻信號幅值較低時會對其進行增益，而當幅值較大時則會衰減。對原始音頻進行DRC操作，將其幅值的閾值壓縮至-30～-50 db。

b）音高變換。聲音的音調高低取決于振動頻率，頻率越高音調越高。音調變換是對聲音的音高進行調整，在進行音高變換時，將原始音頻的音高在正負4個半音區間內隨機變化，音頻速度則保持不變，如圖5（b）所示。

c）音頻拉伸。音頻拉伸是指在時間維度上對音頻速度進行變化。在音頻拉伸過程中，隨機將音頻拉伸為原來的0.9～1.1倍，同時音調保持不變，結果如圖5（c）所示。

2.2 頻譜掩蔽

Park等人［21］提出了一種應用于語音識別的數據擴增方法SpecAugment，它類似于計算機視覺領域中對圖片數據進行隨機遮蓋，通過隨機地遮蔽部分區域達到防止過擬合，并且提升了模型的泛化能力。

本文所使用的頻譜掩蔽方法與SpecAugment存在著較大的差異。首先兩者輸入數據存在著較大差異，相較于語音識別，聲音事件音頻的持續時間往往較短；其次是應用的模型，GDS-Net為CNN模型，而SpecAugment所使用的LAS模型則包含有長短時記憶網絡（bidirectional long short term-memory，Bi-LSTM）。相比之下Bi-LSTM有著更強的非線性能力，它能有效地捕捉長時間序列之間的依賴關系，但CNN卻較難做到這點。所以將SpecAugment直接應用于CNN來處理SED任務效果一般。

本文所提出的頻譜掩蔽具體操作如下：首先提取三種頻譜特征，分別為梅爾頻譜、對數梅爾頻譜（Mel-filter bank，Fbank）［24］和梅爾頻譜倒譜系數（Mel frequency cepstrum coefficient， MFCC）。因為提取MFCC過程時的中間產物包含了梅爾頻譜與Fbank，所以在特征提取時不會產生額外的計算成本，而相比單頻譜特征又保留了更多信息。雖然融合不同類別聲學特征的方式［31］可以提升模型的性能，但計算效率會降低，導致響應速度較慢。此外由于特征提取始終處于工作狀態，提取不同類別的聲學特征會較大幅度地增加模型待機時的計算量，所以僅使用頻譜特征作為模型的輸入。

頻譜特征的具體提取過程如下：a）對波形音頻進行幀采樣，采樣率設為16 kHz，聲道為單聲道；b）對音頻進行分幀，幀長設為32 ms，幀移為16 ms；c）分幀后進行短時傅里葉變換（short-time Fourier transform，STFT），窗函數選用漢明窗，如式（11）所示，STFT操作將音頻數據從時域轉變為頻域。

3 實驗及分析

3.1 實驗環境

在開發和模型的訓練階段使用較高配置的平臺，實驗環境如下：操作環境Windows 10 Pro，CPU為AMD Ryzen 2700 @ 3.2 GHz，GPU采用NVIDIA Geforce GTX1080 8 GB VRAM，內存使用雙通道32 GB 3000 MHz DDR4，硬盤采用1 TB SSD和3 TB HDD，深度學習開發環境是PyTorch 1.9.0+CUDA 11.2，工具包使用Librosa 0.9.0，SoundFile 0.10.3，PyAudio 0.2.11，NumPy 1.20.3，開發工具為PyCharm。

在測試過程中選用較低配置的筆記本電腦來查看模型移動端的性能，環境如下：操作環境Windows 10，CPU為Intel Core i3 380 M @ 2.5 Hz，內存使用雙通道4 GB 1066 MHz DDR3，軟件配置方面與開發環境相同。

3.2 實驗數據

實驗的數據集采用ESC-10［22］和Urbansound8K［23］（US8K）。ESC-10是哈佛大學制作的一個小型環境聲音分類數據集，它包含10個聲音類別，如犬吠、雨聲、噴嚏聲等，其中每個類別有40個樣本，總樣本數為400個，總時長33 min。而US8K 則是目前應用較為廣泛的用于自動城市環境聲分類研究的公共數據集，一共包含8 732條已標注的聲音片段，每個片段的時長小于4 s，總共包含10個類別，如空調聲、汽車鳴笛聲等。ESC-10數據集被預先分割成5個折疊，US8K被設置成10個折疊。

實驗在保留ESC-10和US8K數據集預設分割方式的基礎上使用2.1節的數據擴增方法進行多重音頻數據變換，并且向數據集中額外增加了城市背景噪聲（city back ground noise，CBGN）這一類別，因為在現實世界中必然存在不屬于預設目標類別的聲音。在ESC-10和US8K的訓練集中分別加入了30%的CBGN，喚醒任務的測試集加入100%的CBGN，檢測任務的測試集中加入10%的CBGN，CBGN中不包含兩個數據集中所含的聲音事件類別。

3.3 超參數設置

GDS-Net在檢測任務的兩個數據集中同樣取得了最優的成績，在ESC-10上為91.37%，在US8K上為80.86%。ResNet-18處于第二，它在ESC-10的mAP比GDS-Net低了1.6%，在US8K上低了2.09%。其他主流輕量化卷積神經網絡的性能MobNetV3、GhostNet和ShuffleNet-V2則不同程度地低于GDS-Net 2%以上。Siri模型在檢測任務中的mAP同樣最低，它在較小的數據上表現尚可，但在大型數據集上的泛化能力較弱。

表2的實驗結果還表明，復合數據擴增方法可以有效地提升模型在檢測任務上的性能，其中提升幅度最高達到28.41%，不同DCNN的提升幅度均保持在20%左右。雖然GDS-Net在原始狀態下表現略低于ResNet-18，但是經過擴增后模型性能得到反超。Siri由于受限于自身結構，在ESC-10數據集上僅提升了9.32%，而在US8K數據集上無明顯提升。因為喚醒任務的難度較低，擴增給模型性能帶來的提升較為有限。

除了比較模型的性能之外，本文還對模型的魯棒性進行了對比，實驗結果如表3所示。

結果顯示GDS-Net在兩個擴增后的數據集和原始US8K數據集上都達到了最優的魯棒性。除了ESC-10數據集上的ShuffleNet其Rstd略微上升外，數據擴增都使模型的Rstd不同程度地下降。根據模型結構的差異，魯棒性提升的幅度也有所不同，GDS-Net、GhostNet和MobNetV3-Large在兩個數據集上的Rstd都顯著下降，而MobNetV3-Small和ResNet-18的提升則相對較少。此外經過擴增后，Siri在ESC-10上也獲得了較大的提升，但是在US8K數據集上則無明顯提升。

由于該算法需要及時反饋出聲音事件檢測的結果，除了模型的性能外，運算效率和資源占用也是非常重要的衡量指標。通過查看模型計算一次特征Xc所消耗的時間來判斷它的計算效率。此外考慮到算法在移動端的應用，模型的參數量和內存也需納入考慮范圍內。模型的計算效率如表4所示。

實驗結果表明，GDS-Net的參數量最低僅為0.31 M，它的模型內存也最低只有1.31 MB，約為Siri的1/50；而ResNet-18所占用的FLOPs最高，響應時間也最慢。Siri由于模型簡單，它的FLOPs和響應時間較少，但它的參數量和內存都較大并且性能過差。MobNetV3-Large和ShuffleNet-V2的FLOPs、參數量和內存占用均高于GDS-Net，響應時間則基本相同。GhostNet 的FLOPs較少，但其余指標均弱于GDS-Net。MobNetV3-Small的FLOPs和響應時間都少于GDS-Net，但它的參數量、內存和性能都較為欠缺。

3.6 消融實驗

通過消融實驗來查看復合音頻數據擴增方法中的各個子操作對GDS-Net性能與魯棒性造成的影響，結果如圖9所示。其中原始代表不適用任何數據擴增方法，僅使用原始數據集進行訓練。消融的實驗結果表明，隨機裁剪和頻譜掩蔽都可以略微地提升模型的性能，并且降低模型在不同折疊上的預測準確率標準差（std）。它們在ESC-10數據集上所獲得的提升大于US8K數據集，原因是ESC-10的數據量僅為US8K的4.58%。在數據量較少的情況下訓練模型更容易造成過擬合，而隨機裁剪和頻譜掩蔽都有效地起到了正則化的作用。實驗結果還表明，單種變換和多重變換的方式均可以顯著提升模型的mAP。相比較僅使用原始數據集進行訓練，多重變換的方式在兩個數據集上提升了約15%，單種變換則提升了10%～12%，然而變換操作使模型std下降的幅度卻較為有限。

本文所提出的將多重音頻變換、隨機裁剪和頻譜掩蔽相結合的方式不僅使GDS-Net在兩個數據集上的mAP均提升至最高。而且模型的std也下降至最低，在ESC-10數據集上相較于原始狀態下降約70%，在US8K數據集上也減少了約40%。

3.7 應用與仿真實驗

將訓練后的GDS-Net模型保存，使用Python3.8.8按照算法1所示的框架進行實例化，并將其封裝成實時SED應用程序。程序的主要邏輯如下：首先采用16 kHz的采樣率持續錄制單聲道音頻流，使用長度為3 s的窗口不斷地對音頻流進行切片，窗口每間隔0.3 s向右滑動一次，從切片后的音頻中提取出頻譜特征并送入喚醒模型運算，當喚醒模型輸出為正例時，激活檢測模型進一步計算，再由檢測模型得出最后的結果。程序運行時上述過程將保持循環，程序的總體框架如圖10所示。

實時聲音事件檢測程序中提取音頻特征和數據預處理所花費的時間為46 ms，喚醒模塊和檢測模塊的運算需要55 ms，程序的總計算時間約為0.1 s，從聲音事件出現到程序給出反饋結果其耗時約為0.4 s。受硬件性能和工況等因素影響，響應時間會略微波動。縮短窗口間隔可以加快響應時間，但代價是增加了待機時的計算量，反之亦然。

本文使用了森海塞爾MKE440和MKH416兩支麥克風，在室內安靜和室外嘈雜的環境下測試GDS-Net中各個模塊24小時誤喚醒次數FP（1 positive），GDS-Net采用在ESC-10數據集上訓練后的模型，室外錄音時麥克風都加裝有防風毛衣以減少風噪。實驗結果如表5所示。在室內環境中模型表現優異，FP僅為0或1。而在室外環境中因為存在著大量的隨機高頻噪聲，FP的數量明顯增多。此外，不同的麥克風種類也會對FP產生較大的差異，指向性更強的超心型麥克風MKH416由于擁有較長的干涉管，能過濾更多干擾性噪聲，所以模型的FP約為MKE440的40%。

4 結束語

本文提出了一個多任務實時SED模型（GDS-Net），它集成了喚醒功能和檢測功能。模型結合了逐點卷積與深度卷積組成Ghost模塊，模塊之間采用稠密連接，并且加入了SE注意力機制。實驗結果表明，模型在ESC-10和US8K數據集上的平均預測準確率比新型輕量化卷積神經網絡高出2%以上且擁有更好的魯棒性，同時模型參數和內存都遠小于基線模型。GDS-Net可以快速并準確地實時反饋聲音事件的檢測結果。但由于GDS-Net 參數量較少，當聲音事件的類別數量很多時，模型的性能會有所下降，在保持卷積層數不變的情況下，增加參數量即可提升模型性能。

此外本文還提出了一種復合音頻數據擴增方法，對音頻應用單種和雙重變換操作，之后對擴增后的音頻數據進行隨機裁剪并在頻譜特征上進行隨機掩蔽，實驗結果表明該數據擴增方法使模型的性能和魯棒性均提升至最佳，優于傳統單種變換的數據擴增方式。

實時SED算法有著豐富的應用場景，用戶可以根據實際需要錄制數據集并訓練模型，定制個性化的算法。后續也可在此基礎上進一步拓展，例如使用麥克風陣列判斷聲源的位置等。

參考文獻：

［1］Mesaros A，Heittola T，Virtanen T，et al. Sound event detection： a tutorial ［J］. IEEE Signal Processing Magazine，2021，38（5）： 67－83.

［2］楊利平，郝峻永，辜小花，等. 音頻標記一致性約束CRNN聲音事件檢測［J］. 電子與信息學報，2022，44（3）： 1102－1110. （Yang Liping，Hao Junyong，Gu Xiaohua，et al. Sound event detection width audio tagging consistency constraint CRNN ［J］. Journal of Electronics amp; Information Technology，2022，44（3）： 1102－1110.）

［3］Sang J，Park S，Lee J. Convolutional recurrent neural networks for urban sound classification using raw waveforms ［C］// Proc of the 26th European Signal Processing Conference. Piscataway，NJ： IEEE Press，2018： 2444－2448.

［4］Takahashi N，Gygli M，Pfister B，et al. Deep convolutional neural networks and data augmentation for acoustic event detection ［EB/OL］. （2016－12－08）［2022－03－08］. https：//arxiv.org/pdf/1604.07160.pdf.

［5］Oletic D，Korman L，Magno M，et al. Time-frequency pattern wake-up detector for low-power always-on sensing of acoustic events ［C］// Proc of IEEE International Instrumentation and Measurement Techno-logy Conference. Piscataway，NJ： IEEE Press，2018： 1－6.

［6］Fourniol M，Gies V，Barchasz V，et al. Analog ultra low-power acoustic wake-up system based on frequency detection ［C］// Proc of IEEE International Conference on Internet of Things and Intelligence System. Piscataway，NJ： IEEE Press，2018： 109－115.

［7］Team S. Hey Siri： an on-device DNN-powered voice trigger for Apple’s personal assistant ［EB/OL］. （2017－10）［2022－03－08］. https：//machinelearning.apple.com/research/hey-siri.

［8］Piersol K W，Beddingfield G. Pre-wakeword speech processing： USA，US－2020279552-A1 ［P］. 2019－01－24.

［9］Tucker G，Wu Minhua，Sun Ming，et al. Model compression applied to small-footprint keyword spotting ［C］// Proc of the 17th Annual Conference of International Speech Communication Association. 2016： 1878－1882.

［10］Zinemanas P，Cancela P，Rocamora M. End-to-end convolutional neural networks for sound event detection in urban environments ［C］// Proc of the 24th Conference of Open Innovations Association. Piscata-way，NJ： IEEE Press，2019： 533－539.

［11］Shorten C，Khoshgoftaar T M. A survey on image data augmentation for deep learning［J］.Journal of Big Data，2019，6（7）：article No.60.

［12］Halevy A，Norvig P，Pereira F. The unreasonable effectiveness of data ［J］. IEEE Intelligent Systems，2009，24（2）： 8－12.

［13］Sun Chen，Shrivastava A，Singh S，et al. Revisiting unreasonable effectiveness of data in deep learning era ［C］// Proc of the 16th IEEE International Conference on Computer Vision. Washington DC： IEEE Computer Society，2017： 843－852.

［14］Salamon J，Bello J P. Deep convolutional neural networks and data augmentation for environmental sound classification ［J］. IEEE Signal Processing Letters，2017，24（3）： 279－283.

［15］Mushtaq Z，Su Shunfeng. Environmental sound classification using a regularized deep convolutional neural network with data augmentation ［J］. Applied Acoustics，2020，167（10）： 107389.

［16］Chollet F. Xception： deep learning with depthwise separable convolutions ［C］// Proc of the 30th IEEE Conference on Computer Vision and Pattern Recognition. Washington DC： IEEE Computer Society，2017： 1251－1258.

［17］Howard A G，Zhu Menglong，Chen Bo，et al. MobileNets： efficient convolutional neural networks for mobile vision applications ［EB/OL］. （2017－04－17）［2022－03－11］. https：//arxiv.org/pdf/1704.04861.pdf.

［18］Han Kai，Wang Yunhe，Tian Qi，et al. GhostNet： more features from cheap operations ［C］// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press，2020： 1580－1589.

［19］Huang Gao，Liu Zhuang，Van Der Maaten L，et al. Densely connected convolutional networks ［C］// Proc of the 30th IEEE Conference on Computer Vision and Pattern Recognition. Washington DC： IEEE Computer Society，2017： 4700－4708.

［20］Hu Jie，Shen Li，Sun Gang. Squeeze-and-excitation networks ［C］// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway，NJ： IEEE Press，2018： 7132－7141.

［21］Park D S，Chan W，Zhang Yu，et al. SpecAugment： a simple data augmentation method for automatic speech recognition ［EB/OL］. （2019－12－03）［2022－04－21］. https：//arxiv.org/pdf/1904.08779v1.pdf.

［22］Piczak K J. ESC： dataset for environmental sound classification ［C］// Proc of the 23rd ACM International Conference on Multimedia. New York： ACM Press，2015： 1015－1018.

［23］Salamon J，Jacoby C，Bello J P. A dataset and taxonomy for urban sound research ［C］// Proc of the 22nd ACM International Confe-rence on Multimedia. New York： ACM Press，2014： 1041－1044.

［24］劉臣，倪仁倢，周立欣，等. 多聲學特征融合的語音自動剪輯深度學習模型［J/OL］. 小型微型計算機系統，2022，https：//kns－cnkinet. webvpn. usst. edu. cn/kcms/detail/21. 1106. TP. 20220 615. 1600. 008. html. （Liu Chen，Ni Renjie，Zhou Lixin，et al. A fusing acoustic features model based on deep learning for voice automatic editing ［J/OL］. Journal of Chinese Computer Systems，2022，https：//kns-cnkinet. webvpn. usst. edu. cn/kcms/detail/21. 1106. TP. 20220615. 1600. 008. html.）

［25］Szegedy C，Vanhoucke V，Ioffe S，et al. Rethinking the inception architecture for computer vision ［C］// Proc of the 29th IEEE Confe-rence on Computer Vision and Pattern Recognition. Washington DC： IEEE Computer Society，2016： 2818－2826.

［26］He Kaiming，Zhang Xiangyu，Ren Shaoqing，et al. Deep residual learning for image recognition ［C］// Proc of the 29th IEEE Confe-rence on Computer Vision and Pattern Recognition.Washington DC： IEEE Computer Society，2016： 770－778.

［27］Sandler M，Howard A，Zhu Menglong，et al. MobileNetV2： inverted residuals and linear bottlenecks ［C］// Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press，2018： 4510－4520.

［28］王光宇，張海濤. 輕量型圖像分類神經網絡改進研究［J］. 計算機應用研究，2021，38（12）： 3808－3813，3830. （Wang Guangyu，Zhang Haitao. Research on improvement lightweight image classification neural network ［J］. Application Research of Computers，2021，38（12）： 3808－3813，3830.）

［29］Howard A，Sandler M，Chen Bo，et al. Searching for MobileNetV3 ［C］// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway，NJ： IEEE Press，2019： 1314－1324.

［30］Gong Chengyue，Wang Dilin，Li Meng，et al. KeepAugment： a simple information-preserving data augmentation approach ［C］// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press，2021： 1055－1064.

［31］Boddapati V，Petef A，Rasmusson J，et al. Classifying environmental sounds using image recognition networks ［J］. Procedia Computer Science，2017，112： 2048－2056.

［32］Ma Ningning，Zhang Xiangyu，Zheng Haiao，et al. ShuffleNet V2： practical guidelines for efficient CNN architecture design ［C］// Proc of the 15th European Conference on Computer Vision. Cham： Springer，2018： 116－131.

計算機應用研究2023年4期

計算機應用研究的其它文章: 基于空間關聯性注意力的圖像描述生成方法; 一種基于序貫三支決策的圖像識別方法; 名詞引導局部特征提取的基于文本的實例分割方法; 融合多注意力機制的脊椎圖像分割方法; 基于結構重參數化的太陽斑點圖像弱監督去模糊方法; 基于多層二部圖的高光譜模糊聚類算法