










關鍵詞:信號檢測;圖檢測方法;語音信號;受試者工作特征曲線
中圖分類號:TN912. 34 文獻標志碼:A 開放科學(資源服務)標識碼(OSID):
文章編號:1003-3106(2024)11-2537-10
0引言
語音信號檢測在許多領域廣泛應用,可以去除噪聲和干擾,提高語音信號的質量和準確性,使得語音識別[1]、語音增強[2]、語音壓縮和語音通信等方面的應用更加有效和可靠[3-4]。常用的語音信號檢測方法依靠統計量分析、譜分析等方法,通過對比語音信號出現、消失前后的檢測指標量來判定當前接收信號中是否存在語音。
常用的基于統計的語音信號檢測方法包括M2M4 方法和基于熵分析的檢測方法。M2M4 方法是一種基于信號幅度統計特性的信號檢測方法,在通信、醫療和工業制造等領域得到了廣泛應用[5-10]。然而,M2M4 方法依靠高階統計量檢測,由于語音信號本身非平穩,當用于檢測的信號長度不滿足高階統計量計算需求時,信號檢測指標量常常具有極強的不穩定特征,限制了其在實際應用中的有效性。
為了解決這些問題,越來越多的研究者開始探索使用其他統計特征進行語音信號檢測。陳佳琪等[11]在語音信號與船舶背景噪聲信號時域序列復雜性基礎上,提出了基于信號序列樣本熵的語音信號檢測算法,經過大量實測實驗數據的驗證,環境噪聲信號的辨別準確度為90.33% ,語音信號為95. 05% 。在實際應用中,該方法存在對數據長度敏感、魯棒性不強和無法處理多元數據等問題。鄭慧貞[12]通過使用長短期記憶(Long Short Term Memory,LSTM)網絡、高斯混合模型(Gaussian Mixture Model,GMM)和長短期記憶-高斯混合模型-循環神經網絡(LongShort Term Memory-Gaussian Mixture Model-RecurrentNeural Network,LSTM-GMM-RNN)模型開展了針對語音檢測的研究。在音頻流中使用不同模型并成功實現了成人語音的檢測識別。然而,該研究依賴于深度學習方法,對于訓練集的要求較高。龍華等[13]針對語音通話中語音段的起始檢測性能不佳、檢測語音連續性結構受到破壞的問題,提出了一種基于特征流融合的帶噪語音檢測算法。該方法存在對樣本要求高、語音信號檢測能力較弱和特征提取依賴度高等缺陷。朱敏[14]為了提高語音識別的效率,提出一種改進的雙門限法語音端點檢測算法,采用動態設定閾值,進行平滑濾波等改進方法,在高信噪比環境下的語音信號檢測取得了較好的結果,但對于低信噪比環境的成功率和性能仍有待提高。這些方法依賴于深度學習技術且需要訓練數據和先驗信息,或存在推廣和應用難度高、過擬合等問題。
不同于基于傳統統計量的方法和深度學習等方法,圖檢測方法能夠從接收信號幅度統計分析和時序信號前后關聯關系兩方面提取信號特征。文獻[15-18]提出了基于圖結構稀疏性的盲信噪比估計方法,并將該方法用于通信信號檢測。對比通信信號檢測,語音信號具有更豐富的時域頻域特征,其檢測問題難度更高。圖檢測方法利用量化和映射的方法將時序信號幅度信息轉換到離散的節點,將信號之間的關聯性表示為圖節點之間的關聯性,并運用圖論算法進行信號分析和處理,從而提高檢測精度。總之,圖檢測方法在信號檢測領域具有廣泛的應用前景和優勢。
本文比較了使用圖檢測方法和M2M4 方法處理語音信號檢測的表現。結果顯示,在受試者工作特征(Receiver Operating Characteristic,ROC)曲線和曲線下面積(Area Under Curve,AUC)值方面,圖檢測方法均優于M2M4 方法,具有更高的檢測性能。此外,在不同參數條件下的對比分析中,圖檢測方法也表現出了更好的檢測正確率。檢測正確曲線的對比分析進一步驗證了圖檢測方法在各種條件下的優越性。
1系統模型
假設接收到的信號為X(k),其中k 表示時間序列的離散值索引。該信號由原始發送信號S(k)、傳輸過程中受到的干擾信號Y1(k)和噪聲信號Y2(k)組成,用數學式表示為:
式中:μ 表示正態分布的均值,σ 表示正態分布的標準差。
圖構建過程如圖1 所示。需要對實際信號X(k)進行分段處理,得到等長的片段序列。然后對這些片段序列進行歸一化和量化處理。使用鄰接矩陣[19]統計相鄰量化值出現的概率,以表征不同量化值之間的關系。通過鄰接矩陣得到各個頂點的度數進而獲得各個信號片段的度矩陣。計算度矩陣的跡,即度數累加,可以得到該信號片段的邊數累加值。計算各個片段的邊總數,并將其應用于后續的信號檢測過程中。
實驗中的語音信號內容為“不知江月待何人”。為定量化研究,參考文獻[22-27],在仿真中將信噪比設定為6 dB。
在干擾語音信號檢測的實驗中,對2 組語音信號分別加入了Canon 純音樂信號作為干擾。干擾的信干比分別為1. 973、2.312、7.993、8. 33 dB。為了應對序列量較少的情況,采取了序列重疊操作,并在進行歸一化和量化處理后,利用圖檢測方法計算各個信號片段的邊的總數。接下來,通過繪制ROC 曲線來評估分類器的檢測性能,并同時獲取AUC 值。此外,利用ROC 曲線計算YI,以確定最佳閾值。最后,在有干擾和無干擾條件下,基于最佳閾值進行概率判決,并比較了圖檢測方法和M2M4 方法在不同參數條件下的信號檢測效果。
4實驗結果及實驗分析
4.1實驗說明
實驗參數如表1 所示。在表1 的條件下,繪制了不同信噪比下無干擾的語音信號檢測的ROC 曲線,結果如圖3 所示。表2 給出了對應的AUC值數據。
接著,在無干擾和有干擾的條件下,根據得到的正確檢測概率P,繪制了正確檢測概率曲線,并給出了相應的語音信號正確檢測概率P22 和AUC 值表格。對于特定參數的測試,其他實驗數據保持不變,與表1 一致。
由表2 和圖3 可以看出,使用圖檢測繪制的曲線在左上角更為顯著,同時AUC 值也更大。
在信噪比參數的實驗中觀察到,使用M2M4 方法檢測信號時正確檢測概率出現了下降現象。這是由于隨著信噪比的增加,M2M4 方法在信號區域的幅度增加速度要快于噪聲區域的幅度增加速度。本文采用了YI 來確定最佳閾值檢測方法,因此會出現這種下降現象[6-7]。
4. 2無干擾情況
4. 2. 1噪聲類型
不同噪聲類型的信號正確檢測概率如圖4 所示。不同噪聲類型語音信號正確檢測概率與AUC值如表3所示。
由圖4和表3可知,在高斯、均勻和瑞麗噪聲環境下,圖檢測方法達到1.0的高正確概率,而在卡方噪聲情況下表現相對不佳。M2M4方法在卡方噪聲下表現優異,但在其他噪聲環境下相對較差。
在語音信號正確檢測概率與AUC 值方面,圖檢測方法在大多數情況下表現良好,但在卡方噪聲下稍顯不足。
4.2.2信噪比
不同信噪比的信號正確檢測概率如圖5 所示,不同信噪比的語音信號正確檢測概率與ACU 值如表4所示。由圖5 和表4 可以看出,圖檢測方法和M2M4方法的正確概率整體呈現增加趨勢。在較低信噪比范圍內,圖檢測方法稍遜于M2M4 方法;而在較高信噪比范圍內,圖檢測方法明顯優于M2M4 方法。
此外,隨著信噪比的提高,2 種方法的語音信號正確檢測概率和AUC 值也逐漸增加。相對于M2M4 方法,圖檢測方法在這些指標上表現的更優秀。
4. 2. 3重疊長度
不同重疊長度的信號正確檢測概率如圖6 所示,不同序列重疊長度的語音信號正確檢測概率與AUC 值如表5 所示。由圖6 和表5 可以看出,2 種方法的正確檢測概率相對穩定,但圖檢測方法始終優于M2M4 方法。隨著重疊序列的增加,圖檢測方法的語音信號正確概率與AUC 值呈逐漸下降趨勢,而M2M4 方法稍有波動。與圖檢測方法相比,M2M4 方法的正確概率低一些。
4. 2. 4量化等級
不同量化等級的信號正確檢測概率如圖7 所示,不同量化等級的語音信號正確檢測概率與AUC值如表6 所示。由圖7 和表6 可以看出,在不同量化等級條件下,圖檢測方法和M2M4 方法的正確概率和分類能力保持穩定。它們處理不同量化等級的語音信號時都能夠保持較高的正確概率和分類能力。其中圖檢測方法始終優于M2M4 方法。
4. 3有干擾情況
4. 3. 1噪聲類型
不同噪聲類型的信號正確檢測概率如圖8 所示,不同噪聲類語音信號正確檢測概率與AUC 值如表7 所示。由圖8 和表7 可以清楚地看出,在所有噪聲類型下,圖檢測方法的正確檢測概率均高于M2M4 方法。在所有噪聲類型下,圖檢測方法的語音信號正確檢測概率與AUC 值均優于M2M4方法。
4. 3. 2信噪比
不同信噪比的信號正確檢測概率如圖9 所示,不同信噪比的語音信號正確檢測概率與AUC 值如表8 所示,-5 ~ -1 dB 信噪比下M2M4 方法的信號正確檢測概率表現較好,而-1 ~ 9 dB 信噪比下圖檢測方法表現更佳。
隨著信噪比增加,圖檢測方法的正確概率和AUC 值穩步提升。然而,正如4. 1節實驗說明指出,M2M4 方法與YI 閾值分類相結合,在高信噪比信號檢測方面表現不佳。在超過界限后,其正確概率、語音信號正確概率和AUC 值隨信噪比增加而出現下降現象。
4. 3. 3重疊長度
不同序列重疊長度的語音信號正確檢測概率與AUC 值如表9 所示,不同重疊長度的信號正確檢測概率如圖10 所示,圖檢測方法在不同重疊序列參數下表現出更高的正確檢測概率。M2M4 方法的正確檢測概率稍有上升,但信號正確檢測概率低于圖檢測方法。
在不同重疊長度范圍內,圖檢測方法始終顯示出更高的語音信號正確檢測概率和AUC 值,且表現穩定。無論是否存在重疊序列,圖檢測方法都優于M2M4 方法。
4. 3. 4量化等級
不同量化等級的語音信號正確檢測概率與AUC 值如表10 所示,不同量化的信號正確檢測概率如圖11 所示。由表10 和圖11 可以看出,圖檢測方法和M2M4 方法在不同量化等級下的正確概率、語音信號正確概率和AUC 值均保持相對穩定。2種方法在處理不同量化等級的語音信號時都能夠保持較高的正確概率和分類能力,但圖檢測方法始終優于M2M4 方法。無論是在正確概率還是分類能力方面,圖檢測方法都表現出更高的性能。
5結束語
本文比較了使用圖檢測方法和傳統的M2M4 方法對語音信號處理的表現。結果顯示,圖檢測方法在ROC 曲線和AUC 值方面均優于M2M4 方法,具有更高的檢測性能。此外,在不同參數條件下的對比分析中,圖檢測方法在無干擾和有干擾的實驗條件下表現出更好的信號正確檢測概率、語音信號正確檢測概率和AUC 值。不同參數條件下的正確檢測概率曲線圖與語音信號正確檢測概率和對應AUC 值表格的對比分析驗證了圖檢測方法在各種條件下的優越性。同時采用序列重疊法可以更好地利用片段信息,提高系統的準確性和穩定性。在檢測信號領域,圖檢測方法具有較強的優勢,為該技術在實際應用中帶來了廣闊的應用前景。尤其是在需要處理復雜、受多種因素影響的語音信號數據時,圖檢測方法可以提高語音信號的檢測精度和分類性能,并且無需訓練集,可靠性很高。因此,在語音信號處理中,圖檢測方法是一種有效的方法,具有很大潛力和廣泛的應用前景。
作者簡介
陳杰偉 男,(1999—),碩士研究生。主要研究方向:信息檢測處理、機器視覺、圖像處理。
閆坤 女,(1983—),博士,教授。主要研究方向:機器學習、圖像處理、深度學習等。
陳啟博 男,(1998—),碩士研究生。主要研究方向:深度學習、機器視覺。
章芮寧 男,(1998—),碩士研究生。主要研究方向:深度學習、機器視覺。
劉興 男,(1999—),碩士研究生。主要研究方向:深度學習、機器視覺。