陳航 伍子嘉 彭勇 宋威



摘 ?要:在語音信號(hào)處理中,端點(diǎn)檢測(cè)是語音處理的一個(gè)重要部分。現(xiàn)提出一種基于分形維數(shù)和語音幀自相關(guān)函數(shù)絕對(duì)值均值的雙門限端點(diǎn)檢測(cè)方法。根據(jù)語音信號(hào)和噪聲信號(hào)分形維的不同,以及噪聲信號(hào)與語音信號(hào)自相關(guān)函數(shù)的特點(diǎn)進(jìn)行語音端點(diǎn)檢測(cè),并通過MATLAB仿真進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,該方法在5 dB噪聲環(huán)境下能較好地判斷語音信號(hào)的起止點(diǎn)。
關(guān)鍵詞:端點(diǎn)檢測(cè);分形維數(shù);自相關(guān)函數(shù)絕對(duì)值均值
中圖分類號(hào):TN92 ? 文獻(xiàn)標(biāo)志碼:A文章編號(hào):2096-4706(2021)21-0108-04
Abstract: In speech signal processing, endpoint detection is an important part of speech processing. In this paper, a dual-threshold endpoint detection method based on the fractal dimension and the absolute mean value of the speech frame autocorrelation function is proposed. According to the different fractal dimensions of speech signal and noise signal and the characteristics of autocorrelation function of noise signal and speech signal, the speech endpoint is detected and verified by MATLAB simulation. Experimental results show that this method can better judge the start and end points of speech signals in 5 dB noise environment.
Keywords: endpoint detection; fractal dimension; absolute mean value of autocorrelation function
0 ?引 ?言
語音端點(diǎn)檢測(cè)是語音識(shí)別中的一個(gè)重要部分,用于準(zhǔn)確地判斷含有噪聲語音信號(hào)的起止點(diǎn)[1]。隨著機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)的發(fā)展,語音識(shí)別也越來越受到人們的重視,語音識(shí)別中端點(diǎn)檢測(cè)是極其重要的一環(huán),端點(diǎn)檢測(cè)的正確率會(huì)直接影響到后續(xù)語音識(shí)別的準(zhǔn)確率。研究表明,即使是在十分安靜的環(huán)境下,語音識(shí)別也不可能百分之百準(zhǔn)確,語音檢測(cè)系統(tǒng)中超過一半以上的錯(cuò)誤可能來自端點(diǎn)檢測(cè)[2]。因此,對(duì)端點(diǎn)檢測(cè)的研究具有十分重要的意義。傳統(tǒng)的語音檢測(cè)方法主要是基于短時(shí)能量和短時(shí)過零率的雙門限檢測(cè)方法,雙門限法對(duì)含有白噪聲語音的檢測(cè)效果很好。然而,現(xiàn)實(shí)世界中的噪聲是復(fù)雜多變的,致使雙門限法有時(shí)候也難以達(dá)到預(yù)期的效果[3],為此許多學(xué)者對(duì)其進(jìn)行了改進(jìn)。薛勝堯[4]出于提高識(shí)別率的目的,提出一種通過調(diào)整閾值個(gè)數(shù),引入語音結(jié)束最小長(zhǎng)度的方法對(duì)其進(jìn)行改進(jìn)。鄧艷容等[5]提出先利用譜減法去噪,然后采用雙門限法進(jìn)行判斷。朱利春[6]等提出基于LMS自適應(yīng)濾波進(jìn)行判斷的方法。專家們所提的這些方法都取得了較好的效果。除了雙門限法之外,后來學(xué)者們又提出了譜距離法、MCCF倒譜距離法、譜熵法等方法以及先降噪再進(jìn)行端點(diǎn)檢測(cè)的聯(lián)合方法,也都取得了較好的效果[7]。
本文基于短時(shí)能量與短時(shí)過零率的雙門限思想,提出一種新的檢測(cè)方法,即結(jié)合分形維數(shù)與自相關(guān)函數(shù)絕對(duì)值均值來對(duì)語音信號(hào)進(jìn)行端點(diǎn)檢測(cè)。通過對(duì)信號(hào)進(jìn)行預(yù)加重及分幀加窗處理,計(jì)算每一幀數(shù)據(jù)的分形維數(shù)和自相關(guān)函數(shù)絕對(duì)值均值。通過設(shè)置合理的門限進(jìn)行判斷,達(dá)到對(duì)語音端點(diǎn)檢測(cè)的目的。
1 ?分形維數(shù)與自相關(guān)函數(shù)
1.1 ?分形維數(shù)
空氣動(dòng)力學(xué)的研究發(fā)現(xiàn),語音信號(hào)是一種非線性信號(hào),具有混沌的特性[8]。分形是描述混沌特性的一種重要手段,而分形維數(shù)則是分形的一個(gè)重要特征。因此,我們可以用分形維數(shù)來描述語音信號(hào)。語音分形維數(shù)常用的計(jì)算方法有Katz方法、Higuchi方法、Petrosian方法和Maragos方法[9],本文采用Katz方法進(jìn)行計(jì)算。
將語音信號(hào)看成一系列的點(diǎn),在坐標(biāo)系中用(x,y)的形式表示出來,x代表示采樣點(diǎn)且單調(diào)遞增,y表示對(duì)應(yīng)的幅值。那么語音信號(hào)的分形維數(shù)就可以用式(1)來計(jì)算:
式(2)中,wlen表示一幀語音信號(hào)的長(zhǎng)度,xi(j+1)和xi(j)表示第i幀數(shù)據(jù)的第j+1和第j個(gè)點(diǎn)對(duì)應(yīng)的橫坐標(biāo)。yi(j+1)和yi(j)則表示第i幀數(shù)據(jù)的第j+1和第j個(gè)點(diǎn)的幅值,式(3)中xi(1)表示第i幀數(shù)據(jù)的第一個(gè)點(diǎn)的橫坐標(biāo),yi(1)表示第i幀數(shù)據(jù)的第一個(gè)點(diǎn)的幅值,其他變量與式(2)中的含義相同。式(4)中變量含義與式(1)中相同。
通過以上表達(dá)式,我們就可以計(jì)算含噪聲語音信號(hào)的每一幀數(shù)據(jù)的分形維數(shù),由表達(dá)式可知,影響分形維數(shù)的主要因素就是信號(hào)的幅值,而含有噪聲的語音信號(hào)所對(duì)應(yīng)的幅值往往大于單獨(dú)的噪聲信號(hào)的幅值,所以可以得出,含有噪聲的語音信號(hào)的分形維數(shù)一般大于單獨(dú)的噪聲信號(hào)。圖1給出了10 dB信噪比下分形維數(shù)分布圖。
由圖1可知,語音信號(hào)的分形維數(shù)一般大于噪聲信號(hào)的分形維數(shù),特別是語音幅度較大時(shí),分形維數(shù)的幅值會(huì)相應(yīng)地更大;語音幅值較小時(shí),對(duì)應(yīng)的分形維數(shù)也相對(duì)較小,閾值選取不當(dāng)容易造成誤判。
1.2 ?自相關(guān)函數(shù)
自相關(guān)又稱序列相關(guān),它描述的是一個(gè)信號(hào)本身在不同時(shí)刻的互相關(guān)。在信號(hào)處理中,常常被用來找出一系列數(shù)據(jù)中重復(fù)的模式(比如被噪聲淹沒的周期信號(hào)),也可以用來識(shí)別淹沒于信號(hào)的諧波頻率中的基頻信號(hào)。它的函數(shù)定義可以由(5)表示:
式(6)相較于式(5)在形式上多了一個(gè)下標(biāo)i,下標(biāo)i表表示第i幀數(shù)幀據(jù),其他變量與式(5)中的含義相同。
自相關(guān)函數(shù)是偶函數(shù),左右對(duì)稱。噪聲信號(hào)的自相關(guān)函數(shù)與語音信號(hào)的自相關(guān)函數(shù)有著明顯的區(qū)別,噪聲信號(hào)的自相關(guān)函數(shù)值呈現(xiàn)無規(guī)則狀態(tài),在中間點(diǎn)達(dá)到最大值[10],且最大值較小,兩側(cè)的自相關(guān)函數(shù)值迅速地衰減為0。而含有噪聲語音信號(hào)的自相關(guān)函數(shù)則不同,在短時(shí)間內(nèi)可以看作是平穩(wěn)信號(hào),語音信號(hào)的自相關(guān)函數(shù)值在中間點(diǎn)達(dá)到最大值,且最大值較大,語音信號(hào)兩側(cè)的自相關(guān)函數(shù)值呈現(xiàn)一定的周期性且緩慢地衰減為0。因此通過二者的特性計(jì)算得到含噪聲語音信號(hào)的自相關(guān)函數(shù)絕對(duì)值均值,由此得出噪聲階段的自相關(guān)函數(shù)絕對(duì)值均值小于語音信號(hào)階段的自相關(guān)函數(shù)絕對(duì)值均值。圖2給出了在信噪比為10 dB時(shí)語音信號(hào)的自相關(guān)函數(shù)絕對(duì)值均值分布圖。
由圖2可以看出,在沒有語音信號(hào)的時(shí)間段,自相關(guān)函數(shù)絕對(duì)值均值幾乎為0,而有語音信號(hào)的時(shí)間段,自相關(guān)函數(shù)絕對(duì)值均值明顯大于0。
2 ?端點(diǎn)檢測(cè)
2.1 ?清音與濁音
語音信號(hào)分為有聲段和無聲段,無聲段就是噪音,有聲段分為清音和濁音,濁音是我們所需要的承載信息的部分,由聲帶振動(dòng)發(fā)出,而清音是由空氣進(jìn)入口腔后發(fā)生摩擦或者爆破產(chǎn)生的。分形維數(shù)可以很好地區(qū)分語音信號(hào)的濁音部分和噪聲信號(hào),也能區(qū)分濁音信號(hào)和清音信號(hào),但是分形維數(shù)容易受噪聲干擾,自相關(guān)函數(shù)則能摒除噪聲干擾,但是自相關(guān)函數(shù)絕對(duì)值均值的判斷方法對(duì)清音信號(hào)判斷有所不足,所以二者結(jié)合能實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ)。
2.2 ?判斷方法
本文所采用的判別方法與傳統(tǒng)判別方法一樣,為分形維數(shù)F和自相關(guān)函數(shù)絕對(duì)值均值Z各設(shè)兩個(gè)閾值,分別為FL、FH和ZL、ZH。然后對(duì)兩者進(jìn)行判斷。
若之前是靜音區(qū),那么當(dāng)F大于FL并且Z大于ZL時(shí),進(jìn)行預(yù)測(cè),推斷信號(hào)可能進(jìn)入語音區(qū),后續(xù)繼續(xù)檢測(cè),一旦出現(xiàn)F大于FH并且Z大于ZH的情形,則意味著信號(hào)進(jìn)入語音區(qū),若是中途出現(xiàn)F小于FL或者Z小于ZL的情形,那么就否定之前的預(yù)測(cè),回歸到靜音區(qū)的判定。
若之前是語音區(qū),后續(xù)如果出現(xiàn)F小于FH或者Z小于ZH的情形,可以假設(shè)語音即將結(jié)束,如果后面出現(xiàn)F小于FL或者Z小于ZL的情形,那么就認(rèn)為語音區(qū)結(jié)束。
3 ?實(shí)驗(yàn)驗(yàn)證
在計(jì)算分形維數(shù)和自相關(guān)函數(shù)之前,需要對(duì)語音信號(hào)進(jìn)行預(yù)處理。語音信號(hào)的預(yù)處理分為預(yù)加重和加窗分幀處理兩部分。預(yù)加重的目的是為了提升高頻部分,加重之后會(huì)使得信號(hào)的頻譜變得更加平坦,那么在低頻到高頻的整個(gè)頻段中就可以使用同樣的信噪比來求解頻譜,方便后續(xù)的頻譜分析和聲道參數(shù)分析。加窗分幀處理使用漢明窗,采用交疊分幀方式進(jìn)行處理,這樣能使得分幀后的數(shù)據(jù)具有連續(xù)性,過渡更加自然。這里采用ZOIZEUS數(shù)據(jù)庫(kù)語音信號(hào)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)的采集頻率為8 000 Hz,因?yàn)檎Z音在10 ms到36 ms之間被認(rèn)為是平穩(wěn)的,所以我們以200個(gè)數(shù)據(jù)點(diǎn)為一幀數(shù)據(jù)信號(hào)(即以25 ms為一幀數(shù)據(jù)),步長(zhǎng)為80個(gè)數(shù)據(jù)點(diǎn)(10 ms)。取5 dB street、airport環(huán)境下的含噪聲語音信號(hào)進(jìn)行實(shí)驗(yàn),并將本文算法結(jié)果與傳統(tǒng)雙門限法的結(jié)果進(jìn)行對(duì)比,得到的實(shí)驗(yàn)結(jié)果如圖3所示。
從圖中可以看出,5 dB噪聲下,無論是airport還是street環(huán)境下,語音信號(hào)的過零率均已受到噪聲的嚴(yán)重影響,語音信號(hào)與純?cè)肼暡糠值倪^零率不再出現(xiàn)陡峭的下降趨勢(shì),而是下降過程變得相對(duì)平緩,甚至反而升高,此時(shí)已經(jīng)失去了在高信噪比時(shí)噪聲信號(hào)過零率遠(yuǎn)大于語音信號(hào)過零率的特點(diǎn),所以在檢測(cè)中,檢測(cè)結(jié)果會(huì)出現(xiàn)偏差甚至是錯(cuò)誤。本文未曾在途中標(biāo)出檢測(cè)結(jié)果,因?yàn)檫^零率已經(jīng)產(chǎn)生明顯偏差,不可能得到正確的檢測(cè)結(jié)果。而本文的方法中,分形維數(shù)和自相關(guān)函數(shù)絕對(duì)值均值兩個(gè)因素受噪聲的影響都相對(duì)較小,各自的特性不曾發(fā)生明顯改變,所以在二者的相互作用下,依舊能獲得較為準(zhǔn)確的檢測(cè)結(jié)果。
4 ?結(jié) ?論
根據(jù)語音存在混沌的特性,引入了分形維的概念。根據(jù)語音信號(hào)和噪聲信號(hào)自相關(guān)函數(shù)的區(qū)別,引入了自相關(guān)函數(shù)絕對(duì)值均值。通過對(duì)語音信號(hào)進(jìn)行分幀預(yù)處理,計(jì)算各個(gè)語音幀的分形維數(shù)與自相關(guān)函數(shù)絕對(duì)值均值,然后將分形維數(shù)與自相關(guān)函數(shù)絕對(duì)值均值結(jié)合起來,基于傳統(tǒng)的雙門限思想,對(duì)分形維數(shù)與自相關(guān)函數(shù)絕對(duì)值均值設(shè)置合適的閾值,對(duì)語音的端點(diǎn)進(jìn)行檢測(cè)。實(shí)驗(yàn)表明本文方法能夠有效避免噪聲干擾,準(zhǔn)確地判斷出語音的起止點(diǎn),也能判斷出語音的清音部分。通過與傳統(tǒng)雙門限檢測(cè)方法的對(duì)比,展現(xiàn)出基于短時(shí)能量與短時(shí)過零率的傳統(tǒng)雙門限檢測(cè)方法的不足,表明了本文方法的效果優(yōu)于傳統(tǒng)的檢測(cè)方法。當(dāng)然本文方法也有許多有待改進(jìn)的地方。本文不曾對(duì)漢語語音進(jìn)行測(cè)試,對(duì)于漢語中語音結(jié)構(gòu)復(fù)雜的端點(diǎn)檢測(cè)有待后續(xù)進(jìn)一步深入研究,同時(shí),本文方法未與信號(hào)降噪等方法相結(jié)合,對(duì)于先通過降噪算法進(jìn)行語音降噪處理然后再采用本文方法判斷端點(diǎn)的聯(lián)合效果也有待進(jìn)一步研究。
參考文獻(xiàn):
[1] 陳錫鍛.一種雙門限語音端點(diǎn)檢測(cè)算法 [J].浙江工貿(mào)職業(yè)技術(shù)學(xué)院學(xué)報(bào),2021,21(2):43-46.
[2] 沈蓉.智能門禁系統(tǒng)聲紋識(shí)別中端點(diǎn)檢測(cè)算法研究 [D].西安:西安科技大學(xué),2015.
[3] 吳邊,王忠,劉興濤.強(qiáng)背景噪聲下語音端點(diǎn)檢測(cè)的算法研究 [J].計(jì)算機(jī)工程與應(yīng)用,2011,47(33):137-139.
[4] 薛勝堯.基于改進(jìn)型雙門限語音端點(diǎn)檢測(cè)算法的研究 [J].電子設(shè)計(jì)工程,2015,23(4):78-81.
[5] 鄧艷容,景新幸,楊海燕,等.語音端點(diǎn)檢測(cè)研究 [J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2012,21(6):240-243.
[6] 朱春利,李昕.基于LMS減噪與改進(jìn)的雙門限語音端點(diǎn)檢測(cè)方法 [J].系統(tǒng)仿真學(xué)報(bào),2017,29(9):1950-1960+1967.
[7] 夏令祥.低信噪比環(huán)境下語音端點(diǎn)檢測(cè)方法的研究 [D].徐州:中國(guó)礦業(yè)大學(xué),2019.
[8] HAGHANI S K,AHADI S M. Robust voice activity detection using feature combination [C]//2013 21st Iranian Conference on Electrical Engineering (ICEE).Mashhad:IEEE,2013:1-5.
[9] 劉煒杰,安桐,張濤.基于Katz維數(shù)的改進(jìn)譜減算法 [J].信息與控制,2021,50(6):677-684.
[10] 崔東東,張恒璟,程鵬飛.一種自相關(guān)函數(shù)絕對(duì)值均值變點(diǎn)的去噪方法 [J].測(cè)繪科學(xué),2019,44(12):42-49.
作者簡(jiǎn)介:陳航(1998—),男,漢族,湖北孝感人,碩士研究生在讀,主要研究方向:數(shù)字信號(hào)處理;伍子嘉(1997—),男,漢族,江蘇揚(yáng)州人,碩士研究生在讀,主要研究方向:機(jī)器視覺與深度學(xué)習(xí);彭勇(1967—),男,漢族,江蘇無錫人,副教授,碩士,主要研究方向:嵌入式軟件與設(shè)計(jì);宋偉(1981—),湖北恩施人,教授,博士,主要研究方向:機(jī)器學(xué)習(xí)、自然語言處理。