田學民,孫 飛,宋云燕
(河北工業大學 天津300401)
一種應用于智能家居的語音端點檢測方法
田學民,孫 飛,宋云燕
(河北工業大學 天津300401)
提出了一種應用于智能家居的語音端點檢測方法,綜合利用語音信號的時域特性。設置了短時能量動態門限作為前端判定;對短時過零率算法做了抗干擾處理并結合平均幅度差函數做后期判定。實驗結果表明,該算法能在室內信噪比較低的情況下準確地檢測出語音信號,計算方法簡單便于硬件實現,能夠滿足實時系統的需要。
語音識別;語音時域分析;智能家居;端點檢測
21世紀以來人工智能得到飛速發展,語音識別、人臉識別等技術都取得了重大研究成果,甚至聲紋技術已經出現。在高度智能化的今天,傳統的家居已慢慢不能滿足人們生活樂趣,新的智能家居成為新寵。本文正是以語音識別在智能家居中的應用而展開。
語音識別并不同于說話人識別,前者著重點在于語音內容的識別,后者在于說話的人的識別。語音識別技術的發展研究使得人機對話成為了可能,這一新的人機互動方式將預示著一個新的時代的開始。
語音識別系統一般包括前端處理、特征提取和模板匹配等幾個模塊組成,每一個模塊都對識別的結果有著重要影響。研究表明,在信噪比良好的外界條件下,語音識別仍有50%以上的錯誤來自前端處理,而其中絕大部分錯誤都是因錯誤的識別出語音始末導致。由此可見,端點檢測技術作為語音識別系統基礎的存在在語音識別系統中扮演著至關重要的角色。端點檢測技術的優秀與否有以下判決條件:1)判定門限應能夠隨外界語音條件的變化而相應改變;2)對于超過門限的噪聲,如短時高頻噪聲也能夠有效地歸為非語音;3)能夠清楚地判別語音停頓和語音結束;4)針對于FPGA等硬件,端點檢測算法還要相對簡單便于硬件實現以及滿足實時性識別。
語音分析可分為時域分析、頻域分析和倒頻域分析,后兩者雖然能夠在惡劣的語音條件下仍有較為理想的識別效果,但由于其算法一般比較復雜,需要經過大量的乘法甚至更高級的運算不便于硬件實現[1],更不利于實時性的識別。因此,在一般條件下多采用短時能量、短時過零率等語音檢測方法,而為了提高時域分析方法的準確性和適應性,筆者改進了一些算法和檢測手段。
鑒于智能家居語音系統輸入的語音信號來自室內語音,可能受到一些高頻短噪聲、電視或其他說話人的干擾。語音端點檢測系統要求有較好的抗干擾能力,為了提高時域分析方法的準確性和適應性,筆者改進了一些算法和檢測手段。端點檢測的基本思路是:1)電視,其他說話人的干擾為無用的說話人語音,對語音識別干擾很大,但由于電視、其他說話人一般距智能家居(電視作為智能家居其語音系統構造不太相同,故不作考慮)較遠,其語音信號能量較低,因此可以依靠語音信號的能量強度以予判別。2)針對于白噪聲、瞬時高頻噪聲我們可以采用短時過零率和短時平均幅度差相結合的方法以予判別。
1.1短時能量和短時平均幅度
人的語音信號是不規則變化的,但其在極短的時間內可以看做平穩信號。對語音信號進行預加重、分幀加窗后我們可以得到每一幀的短時能量[2]:

由公式可以看出表示En的是輸入信號振幅的平方,表示語音信號的能量。而正由于En是平方函數,其對電平變化非常敏感,我們可以利用這一特點用以區分能量相差較小語音信號。在室內環境下,說話人的語音中可能有電器工作的聲音、其他說話人聲音的干擾。但由于其能量較低,因此可設置短時能量門T限加以識別。能量門限T的選取一般是根據經驗選取一個固定的能量門限,文中以前五幀信號的平均能量的1.5倍作為門限值T。
1.2短時過零率
短時過零率為一幀語音信號其語音信號波形傳過橫軸(零電平)的次數,對于離散的語音信號而言,過零率意味著語音信號改變符號的次數[3]。語音信號x(i)的短時過零率Zn定義為:

式中,sgn[]為符號函數:

從過零率的定義可以看出,平均過零率易受低頻信號干擾,解決這個問題一般是在前端設置一個帶通濾波器來減小隨機噪聲的干擾。在這里我們可以對平均過零率定義做一個小的修改,即設置一個能量門限Gt,將過零率的定義修改成跨過正負門限[4-6]。
于是,平均過零率的定義被修改為:

過零率的跨過門限Gt一般由經驗所得。其實 ,任何一種語音信號都有其頻率范圍,根據這個特點我們可以設置過零率的第二個門限Gz。人們發出的語音有清音和濁音,清音頻率高故而過零率高,濁音頻率低過零率低。對于人來講女聲頻率高、男聲頻率低,由此可以確定語音過零率的大致范圍Gz1,Gz2。當連續N幀語音Zcr
1.3短時相關分析
信號的短時相關分析一般借助于短時自相關函數,由于自相關函數自身的一些性質:如果輸入信號具有周期性,則其也為周期函數并具有相同的周期,利用自相關函數的性質,自
相關函數可以運用到信號處理的時域分析中,自相關函數的定義為:

其中0 假設語音信號是周期信號,其周期為T,則相距為NT的樣點的幅值是相等的,差值為零,即: 考慮到實際的輸入信號不是絕對的周期信號,等式右邊不為零,但等式右邊將會是極小的數,由此可得短時平均幅度差函數: 對于單頻信號而言,它是一個準周期信號,所以信號的差值在kT處必然很小,白噪聲周期性差,沒有明顯的極小值,而語音信號的周期性介于兩者之間。如此,當FL 考慮到說話人可能會有極小的語音停頓,文中設定只有連續14幀無法檢測到語音信號時系統才認定語音結束,同時為了避免遺漏有用的語音信號錯誤判斷語音結束,系統在確定語音開始后其判斷條件設定較低。語音端點檢測系統的語音起始條件為:En連續7幀有4幀超過門限T且Zcr、Fn是否滿足。語音結束條件為:En連續7幀有4幀超過門限T或Zcr、Fn是否滿足。 語音檢測流程如圖1所示。 語音端點檢測的短時能量門限由輸入的前五幀信號決定,在一定程度上提高了端點檢測系統的穩定性;Zcr以及AMDF門限由實驗經驗所得[7]。 圖2 語音信號的短時能量及過零率 圖3 語音信號的AMDF 圖4 白噪聲的AMDF 文中所使用語音信號為錄音軟件錄制的單聲道、8位、8.000 kHz音頻文件,使用Modelsim和Matlab聯合仿真。短時能量、過零率仿真結果如圖2:Speech為經過歸一化的語音信號,短時能量、過零率在語音始末很快有相應改變,能夠很好地反映語音信號的變化。圖3、圖4分別為白噪聲和語音段的平均幅度差函數。在實際應用的情況下,由于硬件仿真中平均幅度差比軟件相應要大,所以應該根據實際進行調整。 通過語音端點檢測的理論研究和實驗結果,可以得知:在室內即使存在其他說話人的干擾,但由于距語音接收系統較遠,很難被接收;其次由于短時能量門限為動態門限以及短時過零率、平均幅度差函數的后期判定,即使在如播放歌曲的室內環境下依然能有90%以上的識別率。由于電視、音箱等可能作為智能家居出現,在其工作時必然會對語音識別造成極大影響,因此如何在極強語音干擾中識別所需語音將是今后的研究方向。 文中提出的應用于智能家居的語音識別系統能在室內環境中起到很好的識別效果,所涉及到的算法簡單,滿足語音識別的實時性要求并且便于FPGA硬件實現。 [1]王宏禹,邱天爽.自適應噪聲抵消和時間延遲估計 [M].大連:大連理工大學出版社,1999. [2]張雄偉,陳亮,楊吉斌.現代語音處理技術及應用[M].北京:機械工業出版社,2003. [3]王帆.魯棒語音識別中聲學特征的提取與處理研究[D].北京:清華大學,2002. [4]GervenS,XieFei.Acomparativestudyof speech detection methods[C],EUROSPEECH,Greece,1997. [5]W.Gin-Der and L.Chin-Teng,Word boundary detection with meI-scale frequency bank in noisy environment[C]. IEEE Transactions on Speech and Audio Processing,2000. [6]Christoph Bandt,Bernd Fompe.Permutation entropy-a natural complexity measure for time series[C].Phys.Rev. Lett.2002. [7]馬莉,黨幼云.特定人孤立詞語音識別系統的仿真與分析[J].西安工程大學學報,2007,21(3):371-373. A kind of speech endpoint detection method is app lied to intelligent household TIAN Xue-min,SUN Fei,SONG Yun-yan Put forward a kind of speech endpoint detection method is applied to the intelligent household,comprehensive utilization of time-domain features ofspeech signals.Setup a short-time energy dynamic threshold as the front-end judgement;Did anti-jamming processing algorithm for short-time zero crossing rate and averagemagnitude difference function to do later. Indoors experimental results show that the algorithm can accurately under the condition of low signal noise ratio(SNR)to detect the speech signal,the calculationmethod is simple and convenient forhardware implementation,can satisfy the need of real-time system. speech recognition;the time domain analysis of speech;smarthome;endpoint detection TN912.34 A 1674-6236(2016)19-0089-03 2015-09-09稿件編號:201509072 田學民(1967—),男,天津人,博士,副教授。研究方向:半導體材料及光電器件的研究開發。

2 語音端點檢測整體流程
3 仿真結果



4 結 論
(HebeiUniversity of Technology,Tianjin 300401,China)