999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多尺度距離矩陣的語音關鍵詞檢測與細粒度定位方法

2024-12-31 00:00:00李祥瑞毛啟容
計算機應用研究 2024年11期
關鍵詞:檢測模型

摘 要:針對現有語音關鍵詞檢測方法定位精度低的問題,提出了一種基于多尺度距離矩陣的語音關鍵詞檢測與細粒度定位方法(spoken term detection and fine-grained localization method based on multi-scale distance matrices,MF-STD)。該方法首先利用殘差卷積網絡提取特征并構建距離矩陣以建模輸入之間的相關性;其次通過多尺度分割和解耦頭學習不同尺度下的定位信息;最后根據多尺度加權定位損失、置信度損失和分類損失優化模型,實現對關鍵詞存在性和時域邊界的細粒度預測。在LibriSpeech數據集上的實驗結果表明,MF-STD在集內詞的檢測中,精準率和交并比分別達到97.1%和88.6%;在集外詞的檢測中,精準率和交并比分別達到96.7%和88.2%。與現有的語音關鍵詞檢測與定位方法相比,MF-STD的檢測準確率和定位精度顯著提升,充分證明該方法的先進性,也證明了多尺度特征建模與細粒度定位約束在語音關鍵詞檢測任務中的有效性。

關鍵詞:語音關鍵詞檢測;語音細粒度定位;多尺度檢測;殘差卷積網絡

中圖分類號:TN912.34 文獻標志碼:A 文章編號:1001-3695(2024)11-024-3370-06

doi:10.19734/j.issn.1001-3695.2024.03.0097

Spoken term detection and fine-grained localization method based on multi-scale distance matrices

Li Xiangrui1, Mao Qirong1,2?

(1.School of Computer Science and Communication Engineering, Jiangsu University, Zhenjiang Jiangsu 212013, China; 2.Jiangsu Province Big Data Ubiquitous Perception amp; Intelligent Agriculture Application Engineering Research Center, Zhenjiang Jiangsu 212013, China)

Abstract:Aiming to address the low localization accuracy of existing spoken term detection methods, this paper proposed a spoken term detection and fine-grained localization method based on multi-scale distance matrices (MF-STD). This method firstly employed a residual convolutional network to extract features and construct a distance matrix to model the correlation between inputs. Then, it learnt the localization information at different scales through multi-scale segmentation and decoupling heads. Finally, the model was optimized according to the multi-scale weighted localization loss, confidence loss, and classification loss. This enabled the model to achieve fine-grained prediction of keyword existence and time domain boundaries. Experimental results on the LibriSpeech dataset demonstrate that for in-vocabulary detection, the precision and intersection over union (IoU) reach 97.1% and 88.6%, respectively. In the case of out-of-vocabulary detection, the precision and IoU reach 96.7% and 88.2%, respectively. In comparison to existing methods for spoken term detection and localization, MF-STD significantly improves detection accuracy and localization precision. This fully demonstrates the superiority of the proposed method and the effectiveness of multi-scale feature modeling and fine-grained localization constraints in spoken term detection tasks.

Key words:spoken term detection; speech fine-grained localization; multi-scale detection; convolutional residual network

0 引言

近年來,隨著人工智能技術的蓬勃發展,如自動駕駛、語音助手、智能客服、智能家居等技術逐漸從實驗室走入人們的現實生活。語音是人與智能設備溝通的重要方式[1,而語音關鍵詞檢測能從用戶輸入語音中查找系統感興趣的部分,是實現語音人機交互的關鍵技術之一2。除此之外,語音關鍵詞檢測技術在語音信息檢索3、音頻分類4等領域中也具有廣泛的應用。例如,在語音信息檢索中,通過檢測關鍵詞,可以快速定位到包含目標信息的語音片段,大大提高檢索效率;在音頻分類任務中,關鍵詞的出現頻率和分布情況可以作為重要的分類依據[5,有助于提升分類準確率。因此,語音關鍵詞檢測技術在這些領域中扮演著越來越重要的角色。

從任務目標上,語音關鍵詞檢測可分為孤立詞檢測和持續關鍵詞檢測兩類[6。現有的持續語音關鍵詞檢測中,關鍵詞的輸入形式主要有兩種:a)以文本形式輸入[7,該類方法屏蔽了同種查詢詞的差異,但難以對未見關鍵詞進行檢測;b)以語音形式輸入關鍵詞,也稱為基于樣例查詢的語音關鍵詞檢測(query-by-example spoken term detection,QbE-STD),這類方法查詢詞存在類內差異,提高了訓練難度,但對未見關鍵詞具有一定的魯棒性,易于拓展。

語音關鍵詞檢測一般可以分為特征提取和相似度匹配兩個階段。在特征提取階段,語音被轉換為更易區分和匹配的特征表示,早期主要使用梅爾倒譜系數等手工設計的低維特征。近年來,一些方法引入深度學習技術作為特征提取器,如利用自動語音識別系統、音素分類器或語音特征提取器產生的詞格[8、音素9、嵌入表示10~12等。實驗結果證明,基于深度學習的特征提取方法能夠顯著提高關鍵詞檢測的準確率,逐漸成為該領域的主流技術。相似度匹配階段旨在計算待測語音和查詢詞之間的相似度得分,以判斷查詢詞是否存在于待測語音中。傳統方法主要基于動態時間規整(dynamic time warping, DTW)算法,通過動態規劃尋找兩個語音特征序列之間的最優對齊路徑,進而計算相似度[13, 14。為了克服DTW的計算復雜、難以并行的缺陷,劉暢等人[15提出基于特征點界標過濾的時間序列模式匹配方法,有效降低了計算復雜度。Ram等人[16提出根據特征向量構造距離矩陣,并以卷積神經網絡替代DTW,大幅提高了相似度匹配的計算效率。Yuan等人[17受自然語言處理中詞嵌入的啟發,將語音編碼為固定長度的詞嵌入向量,然后直接計算嵌入向量之間的余弦相似度,簡化了匹配過程。

上述研究專注于提升檢測準確率、降低時延和減少模型訓練資源要求,而為了給出關鍵詞的定位信息,需要借助滑動窗口對待測語音的不同位置多次與查詢詞進行匹配,這不僅計算重復,還無法確定關鍵詞在滑動窗口內部的具體位置,導致定位效率和精度均有不足。為了細粒度定位目標關鍵詞在待測語音中出現的位置,一些方法設計了基于規則的搜索算法,但是實驗結果顯示其定位準確性較差[18。Li等人[19利用CTC(connectionist temporal classification)損失學習音節與音頻幀之間的對齊關系,但該方法需要大量精確標注的音節信息。Segal等人20由圖像領域的目標檢測算法受到啟發,提出一種簡單高效的端到端模型SpeechYOLO,并首次在語音關鍵詞檢測任務中使用定位損失學習關鍵詞出現的位置。隨后,Fuchs等人[21將SpeechYOLO進一步改進為Embedding Speech YOLO(ESY),增加詞嵌入向量作為查詢詞,從而支持對集外詞的查詢。Samragh等人[22設計了一種基于BCResNet的網絡,BCResNet通過在殘差塊中引入組卷積和通道混洗操作,在保持準確率的同時大幅減少了參數量和計算量[23,替換SpeechYOLO中的特征提取網絡后,模型體積顯著降低。

現有語音關鍵詞檢測方法雖然取得了一定進展,但仍然存在以下缺陷:a)特征提取網絡采用固定大小的感受野,由于關鍵詞的長度受說話人的語速、停頓等因素影響,固定感受野難以有效處理變長的關鍵詞;b)采用同一網絡結構處理關鍵詞的檢測和定位任務,檢測任務關注關鍵詞的存在性,定位任務關注關鍵詞的具體邊界,兩個任務的目標和側重點不同,統一的網絡結構難以兼顧兩個任務的特點;c)關鍵詞檢測數據集中存在大量的負樣本,但現有方法的損失函數設計并未考慮正負樣本的不平衡問題,這導致模型訓練過程中更側重于學習負樣本的特征,而忽略了正樣本的邊界信息。

這些缺陷限制了現有方法在檢測和定位性能上的進一步提升。為了解決上述問題,本文提出了一種細粒度的語音關鍵詞定位方法,稱為MF-STD:a)通過構建多尺度距離矩陣,建模不同長度的查詢語音和待測語音之間的相關性,從而自適應地處理變長的關鍵詞,提高了模型魯棒性;b)引入基于距離矩陣和解耦頭的特征融合與目標優化機制,將檢測頭和定位頭解耦,使其分別關注關鍵詞的存在性判斷和邊界回歸,更好地應對了兩個任務的不同特點;c)在損失函數中引入加權平衡因子,設計出多尺度加權定位損失和置信度損失,在平衡正負樣本對模型訓練的影響的同時,多目標優化模型,促進細粒度定位能力的提升。

本文提出一種新的端到端語音關鍵詞檢測與定位網絡,首次通過多尺度距離矩陣建模待測語音和查詢語音的相關性,提高了模型對不同長度輸入的魯棒性;

首次提出基于距離矩陣和解耦頭的特征融合與目標優化機制,在提高參數復用的同時,更好地應對檢測與定位任務的不同特性;

首次提出多尺度加權定位損失,與置信度損失和分類損失形成多任務優化目標,有效緩解了樣本不均衡問題,提升了關鍵詞的定位精度。該思想亦可用于指導其他不平衡學習問題的損失函數設計。

1 細粒度定位方法

MF-STD方法包含以下四個步驟:a)構建待測音頻和語音關鍵詞的特征向量;b)構造兩特征向量之間的距離矩陣;c)通過定位和分類檢測頭輸出對應結果;d)計算損失函數值并反向傳播更新模型參數。

圖1展示了MF-STD的模型架構,所有模塊的參數在訓練過程中同步更新,是一個端到端模型。

1.1 構建語音特征

語音信號本身具有高維度、高冗余等特點,直接處理原始語音波形將導致大量的計算和存儲開銷。因此,在建模待測語音和查詢語音的相關性之前,通常需要先對原始語音進行特征提取,將語音波形數據映射到一個維度更低、信息更加緊湊的特征空間中,以減小后續處理的復雜度。

首先提取原始語音波形的梅爾頻譜特征,然后將其輸入到一個殘差卷積神經網絡,其結構如圖2所示,由若干一維卷積層、批歸一化層、激活層、殘差鏈接等構成,其中一維卷積后的括號中三個值分別表示卷積通道數、卷積核大小、步長。由于一維卷積神經網絡相比于循環神經網絡能并行計算,效率更高,大量的殘差結構能有效避免訓練過程中的梯度消失問題,提高了訓練效率。僅使用卷積而不使用全連接層使得該結構在提取更高層次特征的同時,保留了語音信號中的關鍵信息順序不變,有助于特征融合后對關鍵詞的細粒度定位。

1.2 構建距離矩陣

實現樣例查詢的關鍵詞檢測需要構建待測語音特征與查詢語音特征之間的關系,本文基于余弦距離矩陣來描述待測語音特征Fs與查詢語音特征Fq之間的關系。計算公式如下:

M(Fs,Fq)=1-FTsFq|Fs||Fq|(1)

其中:|·|表示取向量模長。根據式(1)的定義,mij∈M值越小,則表明待測語音特征向量的第i幀與查詢語音的第j幀越相似。因此,在理想情況下,若查詢語音為待測語音的一個子序列,則M中必然存在一個由若干連續的行列依序構成子矩陣M′,其主對角線上各點的值顯著低于主對角線以外的值,且該主對角線在行方向上投影的起止位置即為查詢語音特征向量在待測語音特征向量中出現的起止位置。在更一般的情況下,由于查詢語音并不與待測語音完全一致,例如查詢語音和待測語音在發音、語速等方面存在差異,這將導致M′中值較小的點與主對角線有一定的偏移,但依然能構成一條區別于其他點的斜線模式。通過構造距離矩陣,關鍵詞的檢測與定位問題就轉換為了從距離矩陣M中找到滿足條件的M′,并確認其邊界的問題。

1.3 解耦檢測頭

MF-STD中包含3組解耦頭,每組包括1個分類檢測頭和1個定位檢測頭。判斷關鍵詞的存在性與預測關鍵詞出現的位置是兩個不同的任務,具有不同的特點。判斷關鍵詞存在性是一個分類任務,需要關注特征圖的整體信息;而預測關鍵詞位置是一個回歸任務,需要關注特征圖中的局部邊界信息。將這兩個任務解耦,設計獨立的網絡結構進行優化,有助于針對不同的任務特點提取更有效的特征,提高關鍵詞檢測和定位的準確性。

各檢測頭的基本結構如圖3所示,即首先將M沿行方向劃分為若干等長的單元,通過兩層二維卷積捕獲每個單元中的斜線模式。然后用一層自適應最大池化層將隨尺寸輸入變化的特征圖匯總為固定維度的向量。

分類檢測頭輸出維度為C個二維向量p,以softmax函數激活,每個向量的兩個維度分別表示查詢語音不存在、存在于待測音頻的概率。定位檢測頭輸出維度為C×B×3,其中C表示距離矩陣M沿行劃分的單元數,B表示每個單元的檢測框數,每個檢測頭輸出各單元各檢測框內的查詢語音出現中心位置t、查詢語音長度與單元長度的比值w、查詢語音在該檢測框出現的置信度p。三組檢測頭的劃分單元數分別為c、2c、4c,用于應對不同尺度的檢測目標,避免單一尺度下M′跨越多個單元或在一個單元中占比過小導致的檢測錯誤。

1.4 損失函數設計

為訓練MF-STD模型,設計損失函數包含多尺度加權定位損失、分類損失和置信度損失三部分。

1.4.1 多尺度加權定位損失

定位損失用于直接優化模型的定位精度。現有方法往往直接將定位損失定義為模型預測的目標中心、目標寬度與對應真實值之間的交叉熵損失,該方法具有以下幾個缺陷:a)無法有效利用目標中心與寬度值之間的相關性;b)在不同的尺度劃分下,查詢語音在預測單元中的出現位置與標簽的交并比(intersection of union,IoU)不一致,對于模型訓練的重要性不同;c)同一尺度下,查詢語音一般僅出現在一個預測單元中,大量的不包含查詢語音的預測單元將會干擾模型訓練。因此,提出多尺度加權定位損失來解決上述問題,其定義如下:

Lloc=∑Kk=1 ∑Ckj=1 ∑Bi=1ωijk1-IoU+(w-)2+(t-)2U(2)

其中:K為尺度數;Ck為第k個尺度下的單元數;B為每個單元的檢測框數量;ωijk為對應權重;w和分別為一個檢測框內的查詢語音寬度預測值和真實值;t和分別為一個檢測框內的查詢語音出現中心位置預測值與真實值。

在式(2)中,權重ωijk用于平衡不同尺度下各個單元與檢測框在模型訓練中的重要性。權重ωijk定義如下:

ω=IoU

IoU∈[δ0,δ1]1IoU∈(δ1,+∞)

0otherwise(3)

其中:IoU表示查詢語音與預測單元的交并比;δ0和δ1是IoU的有效范圍邊界,即僅當查詢語音與預測單元的交并比值在該范圍內,其權重才有效,否則置權重為0。

通過式(2)所定義的多尺度加權定位損失,查詢語音目標的中心位置與寬度之間的關系被考慮,而通過權重ω的設置,平衡了預測單元內及單元之間的重要性。

1.4.2 分類損失

分類損失用于優化模型對查詢語音在待測語音中的存在性預測,計算公式如下:

L cls=∑Kk=1 ∑Ckj=1(pjk-jk2Ck(4)

其中:pij為對應尺度的單元下模型輸出的二維向量,兩個維度分別表示查詢語音存在/不存在的概率。

1.4.3 置信度損失

置信度損失是對分類損失的補充,一般情況下,訓練QbE-STD時查詢語音僅在待測語音中出現一次,因此每個尺度下僅有一個預測單元包含查詢語音,置信度損失正是用于緩解訓練數據集中這種正負樣本不均衡時的問題,其定義如下:

Lconf=∑Kk=1 ∑Ckj=1 ∑Bi=1Ckωijk(pijk-1)2+1Ck(1-ωijk)p2ijk(5)

最終損失函數由上述三個損失的加權和表示:

Ltotal1Lloc2Lcls3Lconf(6)

其中:λ1、λ2和λ3為模型訓練時的超參數。

1.5 模型訓練與推理

每次訓練開始前,隨機初始化網絡中各層的參數。從訓練數據集中按隨機順序不重復地抽取若干樣本對和對應標簽構成一個訓練批次(batch),其中每個樣本對包含一條待測語音和一條查詢語音。由于模型訓練時的內存限制,超過4 s的待測語音均被裁剪到4 s,查詢語音則通過0填充使其與該批次中最長的查詢語音片段時長一致。所有語音數據按Speech-YOLO[20一致的方法提取160維對數梅爾頻譜特征,作為整個網絡的輸入。一個訓練批次的數據經過網絡模型前向計算后,得到該批次的輸出,隨后按照式(6)計算該批次的損失函數值,并通過反向傳播算法更新整個網絡的參數。當訓練數據集中的所有數據均被網絡計算一次,則完成一個周期epoch的訓練。要使得模型收斂,可能需要多個epoch的訓練,訓練完成后保存網絡參數,即可在推理時使用。

模型推理時的輸入處理與訓練時一致,查詢語音在待測語音中的存在性由三個尺度下檢測頭的最大輸出值決定。在判斷查詢語音在該檢測單元內的位置時,根據定位頭輸出的置信度,取該單元內置信度最大的檢測框的定位信息。

2 實驗

2.1 實驗數據集

為方便對比,本文使用了開源的LibriSpeech[24語音數據集評估不同模型的性能。LibriSpeech包含大量高質量的英文書本朗讀語音,經過強制對齊能夠獲得準確的單詞定位信息。

選取LibriSpeech的train-clean-360子集作為訓練集,dev-clean作為驗證集,查詢詞為train-clean中出現的時長在0.2~2 s,且出現頻率前1 000的詞,并從test-clean和test-other子集分別分出集內詞評估子集TC-inv、TO-inv和集外詞評估子集TC-oov、TO-oov,以評估模型在不同環境下的性能。此外,為了探究MF-STD的最高性能,使用train-clean-360中出現過的所有詞作為查詢詞,并分別從test-clean和test-other中劃分集內詞和集外詞子集,稱為TC-inv(full)、TO-inv(full)、TC-oov(full)、TO-oov(full)。表1為實驗中使用到的不同子集的具體介紹。

2.2 評價指標

本文使用精準率(precision, Prec.)作為檢測指標,使用交并比(IoU)作為定位指標。精準率的定義式為

Prec.=TPTP+FP(7)

其中:TP和FP分別表示模型將正樣本正確分類和錯誤分類的數量。IoU的定義式為

IoU=IU(8)

其中:I和U分別為模型預測查詢語音出現區域和真實區域之間的交集和并集的長度。設在一個預測單元內,te與ts為模型預測的查詢語音出現的結束和開始位置,es為真實值,則

I=min{e,te}-max{s,ts}(9)

U=max{e,te}-min{s,ts}(10)

2.3 實驗方法與參數設置

實驗在搭載Ubuntu 20.04.4操作系統的計算機中完成,其CPU為Intel? Xeon? Silver 4316,主頻為2.30 GHz,GPU為GeForce RTX 3080Ti,顯存12 GB,內存64 GB。

本文方法及實驗過程均使用Python 3.11.3實現,其中模型基于PyTorch 2.0.0實現,待測語音和查詢語音基于torchaudio 2.0.1重采樣到16 000 Hz并提取160維對數梅爾頻譜特征。模型結構及損失函數中的超參數設置如表2所示。

模型使用Adam優化器在訓練集上訓練共200個epoch,初始學習率設置為10-3,每10個epoch將學習率減半,L2正則化系數設為10-4,完成一次訓練共計耗時約16 h。

2.4 實驗結果與分析

首先對比了本文方法和現有方法在TC-inv、TC-inv、TC-oov和TO-oov上的檢測與定位性能。SpeechYOLO[20和文獻[22]由于不支持集外詞的檢測,所以僅對比TC-inv和TO-inv上的結果。Embedding Speech YOLO(ESY)[21的查詢詞以文本形式輸入,因此實驗中將查詢語音對應的文本編碼作為查詢詞部分輸入網絡。QNN[25是語音關鍵詞檢測在Google Speech Commands V2上的最先進的方法,由于此方法不直接輸出關鍵詞的定位信息,所以使用窗長為400 ms的滑動窗口以50 ms的步長從待測語音片段劃過,并以模型輸出類別概率最高的窗口位置中心作為模型預測的查詢詞中心。表3展示了對比實驗的結果。

可以看出,MF-STD在四個測試集上的檢測和定位性能均優于其他方法,證明了該方法的有效性。具體而言,相比于SpeechYOLO、QNN及文獻[22],MF-STD通過距離矩陣建模輸入之間的相似性,避免了對輸入進行分類,從而支持大量的集外詞檢測;相比于ESY方法,MF-STD基于殘差卷積的特征提取器具有更強的表征能力,且能夠充分保留輸入特征的順序信息,從而在精準度上平均提升了0.174。盡管QNN在孤立詞檢測任務中表現出色,但其基于滑動窗口獲得定位信息的方法定位效果較差,在兩個測試集中,MF-STD在IoU指標上平均領先QNN 0.180。相比于文獻[22],通過引入多尺度加權損失函數和解耦檢測頭,MF-STD在IoU指標上平均提升了0.016,精準率也提高了0.100。

為比較不同方法的推理效率,對比了實驗中各方法處理單條輸入和并行處理20條輸入時的推理耗時,實驗中待測語音時長固定為4 s,計算1 000次推理的平均耗時,結果如表4所示。由于文獻[22]的源碼未公開,所以該實驗中不討論其推理耗時。雖然推理效率并非本文設計模型時考慮的首要因素,但MF-STD依然在處理單個輸入時取得了有競爭力的結果,且在并行處理多個輸入時,推理速度超過了現有的所有方法。

接下來,通過擴充訓練數據量,使用train-clean-360中所有的樣本對訓練MF-STD,并在四個測試集上重新進行了性能評估,以探究該方法在LibriSpeech數據集上的極限性能,結果如表5所示。從表5可以看出,MF-STD在訓練數據增多的情況下,結果取得了進一步優化,即便測試集的詞類別達到數萬個,也能取得非常優秀的檢測和定位性能。

最后,為探究所述方法各個組件對于最終性能的貢獻,設計了若干組消融實驗。結果如表6所示,其中:“最優配置”表示模型所有組件和損失函數均使用時取得的結果;“-多尺度”表示去除所有多尺度輸出和損失函數中對不同尺度的求和,即將模型變為單一尺度時的結果;“-距離矩陣”表示將待測語音特征和查詢語音特征的融合方式由距離矩陣更改為沿著特征維度拼接,且后續檢測頭更改為全連接層的結果;“-解耦頭”表示不再解耦定位頭和檢測頭,而是使用同一個卷積神經網絡完成p、w、t和p的輸出;“-Lloc”、“-Lcls”、“-Lconf”分別表示將定位損失、分類損失、置信度損失的權重置為0時的結果。

從表6可以看出,MF-STD的各個組件均對語音關鍵詞的檢測與定位具有不同程度的貢獻。具體而言,去除多尺度模塊將會導致模型的檢測和定位能力整體降低,且定位性能降低更為嚴重。特征拼接與距離矩陣兩種不同的特征融合方式也會對結果造成影響,尤其在關鍵詞定位方面,將距離矩陣替換為特征拼接使得定位精度大幅降低。解耦預測頭比距離矩陣更為重要,去掉該模塊導致檢測和定位性能均下降更多。

在損失函數方面,定位損失直接影響模型的定位性能,去掉該損失將導致模型不具備關鍵詞定位的能力,但因目標更簡單而檢測準確率略微提升。分類損失則直接影響檢測性能,去掉該損失將導致模型無法準確判斷關鍵詞的存在性,且不使用分類損失也無法帶來較好的定位效果,證明分類損失對于模型定位起到有力的輔助作用。而置信度損失對于模型性能起到一定輔助作用,去除該損失將導致檢測和定位性能均小幅下降。

為進一步驗證本文模型的有效性,對模型在三個不同尺度下輸出的距離矩陣進行了可視化分析,同時通過消融實驗對比了去除三個損失函數對結果的影響,結果如圖4所示。

圖4中各個子圖表示不同尺度下每個預測單元內的距離矩陣,顏色越深表示特征對應幀之間的距離越小(參見電子版)。p表示模型預測該單元中查詢語音出現的概率,虛線框標定了查詢語音出現的真實位置,實線框為模型預測的出現位置。由圖4(a)可以看出,當查詢語音出現時,距離矩陣中會存在一段連續的距離較小的區域,與1.2節中的描述一致,且模型預測結果與標簽值接近。從圖4(b)可見,去除分類損失會直接導致模型學習到的特征表征能力大幅下降。盡管模型仍然嘗試在每個預測單元中給出可能的定位信息,但由于無法確定關鍵詞是否在該單元中出現,所以這些定位信息缺乏實際意義。從圖4(c)可見,去除置信度損失后,在查詢語音出現的預測單元內,模型仍能給出較為可靠的檢測和定位結果,但在查詢語音未出現的單元中,模型產生了更多的誤報。當去除定位損失時,從圖4(d)可見,模型仍然可以較準確地判斷關鍵詞在預測單元內是否出現,但其定位信息不具備參考價值。此外,在部分查詢語音未出現的預測單元中,距離矩陣也出現了類似的斜線模式,表明該模型存在較高的誤報風險。綜上所述,本文提出的三個損失函數均對最終的檢測與定位性能有所貢獻。

3 結束語

本文MF-STD著眼于解決語音關鍵詞檢測任務中,由于關鍵詞目標尺度變化、檢測網絡設計缺陷、缺乏細粒度定位約束的損失函數等,導致定位精度低。該模型以語音對的形式輸入查詢詞語音和待檢測語音,通過殘差卷積神經網絡分別提取兩者的高層語義表征,并通過距離矩陣建模輸入語音對之間的相關性。在此基礎上,通過對距離矩陣多尺度分割并傳入解耦檢測頭與定位頭,完成對關鍵詞存在性的預測和時域邊界的回歸,并使用獨立的分類損失、定位損失和置信度損失聯合優化模型。在公開數據集LibriSpeech上的實驗結果表明,與現有語音關鍵詞檢測和定位方法相比,MF-STD在維持較高推理速度的同時,精準率和交并比兩個指標上顯著提升,尤其在集外詞的檢測中體現出了良好的泛化能力。此外,消融實驗證實了模型中多尺度策略、距離矩陣、解耦頭以及三個損失函數的有效性和必要性。在未來的研究中,將考慮引入注意力機制等技術來優化特征表征和匹配過程,并在多語種、口音等因素上擴展實驗數據,進一步提高模型的魯棒性。

參考文獻:

[1]謝旭康, 陳戈, 孫俊, 等. TCN-Transformer-CTC的端到端語音識別 [J]. 計算機應用研究, 2022, 39(3): 699-703. (Xie Xukang, Chen Ge, Sun Jun, et al. TCN-Transformer-CTC for end-to-end speech recognition [J]. Application Research of Computers, 2022, 39(3): 699-703.)

[2]Deekshitha G, Mary L. Multilingual spoken term detection: a review [J]. International Journal of Speech Technology, 2020, 23: 653-667.

[3]Wazir A S B, Karim H A, Abdullah M H L, et al. Design and implementation of fast spoken foul language recognition with different end-to-end deep neural network architectures [J]. Sensors, 2021, 21(3): 710.

[4]Dinkel H, Wang Yongqing, Yan Zhiyong, et al. Unified keyword spotting and audio tagging on mobile devices with transformers [C]// Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2023: 1-5.

[5]Bhavsar S, Khairnar S, Nagarkar P, et al. On time document retrie-val using speech conversation and diverse keyword clustering during presentations [J]. International Journal of Recent Technology and Engineering, 2020, 9(3): 529-535.

[6]Liu Dong, Mao Qirong, Wang Zhiyong. Keyword retrieving in continu-ous speech using connectionist temporal classification [J/OL]. Journal of Ambient Intelligence and Humanized Computing, (2020). https://doi.org/10.1007/s12652-020-01933-z.

[7]Zhao Zeyu, Zhang Weiqiang. End-to-end keyword search system based on attention mechanism and energy scorer for low resource languages [J]. Neural Networks, 2021, 139: 326-334.

[8]Kirandevraj R, Kurmi V K, Namboodiri V P, et al. Generalized keyword spotting using ASR embeddings [C]// Proc of the 23rd Annual Conference of the International Speech Communication Association. [S.l.]:ISCA, 2022: 126-130.

[9]Reuter P M, Rollwage C, Meyer B T. Multilingual query-by-example keyword spotting with metric learning and phoneme-to-embedding mapping [C]// Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2023: 1-5.

[10]Huang J, Gharbieh W, Shim H S, et al. Query-by-example keyword spotting system using multi-head attention and soft-triple loss [C]// Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2021: 6858-6862.

[11]Li Meirong. A lightweight architecture for query-by-example keyword spotting on low-power IoT devices [J]. IEEE Trans on Consumer Electronics, 2022, 69(1): 65-75.

[12]Tian Ziwei, Yang Shiqing, Xu Minqiang. Fast QBE: towards real-time spoken term detection with separable model [C]// Proc of International Conference on Machine Learning and Intelligent Systems Engineering. Piscataway, NJ: IEEE Press, 2022: 137-141.

[13]Zhan Junyao, He Qianhua, Su Jianbin, et al. A stage match for query-by-example spoken term detection based on structure information of query [C]// Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2021: 6833-6837.

[14]Deekshitha G, Mary L. Two-stage spoken term detection system for under resourced languages [J]. IET Signal Processing, 2020, 14(9): 602-613.

[15]劉暢, 李正欣, 張曉豐, 等. 基于特征點界標過濾的時間序列模式匹配方法 [J]. 計算機應用研究, 2022, 39(4): 1008-1012. (Liu Chang, Li Zhengxin, Zhang Xiaofeng, et al. Time series pattern matching method based on feature point landmark filtering [J]. App-lication Research of Computers, 2022, 39(4): 1008-1012.)

[16]Ram D, Miculicich L, Bourlard H. Neural network based end-to-end query by example spoken term detection [J]. IEEE/ACM Trans on Audio, Speech, and Language Processing, 2020, 28: 1416-1427.

[17]Yuan Yougen, Leung C C, Xie Lei, et al. Query-by-example speech search using recurrent neural acoustic word embeddings with temporal context [J]. IEEE Access, 2019, 7: 67656-67665.

[18]Pham V T. Robust spoken term detection using partial search and re-scoring hypothesized detections techniques [D]. Singapore: Nanyang Technological University, 2019.

[19]Li Shengwei, Zhang Huajun. Keyword spotting based on CTC and similarity matching for Chinese speech [C]// Proc of the 23rd IEEE/ACIS International Conference on Computer and Information Science. Piscataway, NJ: IEEE Press, 2023: 79-84.

[20]Segal Y, Fuchs T S, Keshet J. SpeechYOLO: detection and localization of speech objects [C]// Proc of the 20th Annual Conference on International Speech Communication Association. [S.l.]: ISCA, 2019: 4210-4214.

[21]Fuchs T S, Segal Y, Keshet J. CNN-based spoken term detection and localization without dynamic programming [C]// Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2021: 6853-6857.

[22]Samragh M, Kundu A, Hu T Y, et al. I see what you hear: a vision-inspired method to localize words [C]// Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press,2023: 1-5.

[23]Kim B, Chang S, Lee J, et al. Broadcasted residual learning for efficient keyword spotting [C]// Proc of the 22nd Annual Conference on International Speech Communication Association. [S.l.]:ISCA, 2021: 4538-4542.

[24]Panayotov V, Chen G, Povey D, et al. LibriSpeech: an ASR corpus based on public domain audio books [C]// Proc of IEEE Internatio-nal Conference on Acoustics, Speech and Signal Processing. Pisca-taway, NJ: IEEE Press,2015: 5206-5210.

[25]Chaudhary A, Abrol V. Towards on-device keyword spotting using low footprint quaternion neural models [C]// Proc of IEEE Workshop on Applications of Signal Processing to Audio and Acoustics. Pisca-taway, NJ: IEEE Press, 2023: 1-5.

猜你喜歡
檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 精品无码专区亚洲| 久久亚洲中文字幕精品一区| 日韩成人在线一区二区| 亚洲中文在线视频| 精品国产一区91在线| 国产一区二区人大臿蕉香蕉| 精品国产免费第一区二区三区日韩| 日韩不卡免费视频| 欧美天堂久久| 在线中文字幕日韩| 婷婷五月在线视频| 久久窝窝国产精品午夜看片| 欧美日韩激情在线| 美女内射视频WWW网站午夜| 国产va视频| 人人妻人人澡人人爽欧美一区| jizz在线观看| 天天干天天色综合网| 91久久青青草原精品国产| 鲁鲁鲁爽爽爽在线视频观看| 潮喷在线无码白浆| 波多野吉衣一区二区三区av| 亚洲人成高清| 国产成人久视频免费| 97一区二区在线播放| 五月婷婷精品| 日韩天堂网| 一本大道香蕉久中文在线播放| 成人亚洲国产| 亚洲国产天堂久久综合226114| 激情综合网激情综合| 久久国产精品影院| 国产精品成人不卡在线观看| 国产一级二级三级毛片| 永久免费av网站可以直接看的| 久热精品免费| 日本精品视频一区二区| 国产经典三级在线| 国产精品冒白浆免费视频| 香蕉久久国产超碰青草| 免费一级毛片不卡在线播放| 国产亚洲美日韩AV中文字幕无码成人| 97在线观看视频免费| 九九热精品视频在线| 97精品伊人久久大香线蕉| 免费无码AV片在线观看中文| 精品国产欧美精品v| 亚洲天堂精品视频| 日本黄网在线观看| 一级看片免费视频| 久久亚洲日本不卡一区二区| 国产幂在线无码精品| 欧美国产另类| 无码内射在线| 欧洲高清无码在线| 国产极品美女在线| 亚洲av无码牛牛影视在线二区| 99精品国产自在现线观看| 青青青国产视频手机| 在线中文字幕网| 青青草国产免费国产| 国产99视频精品免费视频7| 高h视频在线| 最新亚洲人成网站在线观看| 国产成人AV综合久久| 人妻无码中文字幕第一区| 国产精品免费p区| 国产性生交xxxxx免费| 无码中文字幕精品推荐| 婷婷激情五月网| 成人夜夜嗨| 亚洲无码视频喷水| 久久不卡精品| 国产永久在线视频| 国产丝袜无码精品| 亚洲一区色| 另类欧美日韩| 国产自在线拍| 亚洲AV无码精品无码久久蜜桃| 国产美女丝袜高潮| 久久综合九色综合97网| 日本高清在线看免费观看|