江躍龍,龔儉龍,鐘宇軒,楊世杰,黃震
(1.廣州鐵路職業(yè)技術(shù)學(xué)院,廣州 510610;2.廣東交通職業(yè)技術(shù)學(xué)院,廣州 510650)
人的自生以來(lái)的聽(tīng)覺(jué)系統(tǒng)是非常特殊的一個(gè)非線性系統(tǒng),人類的耳朵能夠響應(yīng)不同頻率信號(hào)[2]。因此,在語(yǔ)音特征提取方面,借助人類與生俱來(lái)的聽(tīng)覺(jué)系統(tǒng),它不僅能夠提取語(yǔ)義的信息,同時(shí)還可以提取說(shuō)話人的特征,這些人類的特性在現(xiàn)有的語(yǔ)音識(shí)別系統(tǒng)所望洋興嘆。本文設(shè)計(jì)秉承“綠色環(huán)保、節(jié)能減排”與“深度學(xué)習(xí)人工智能”的設(shè)計(jì)理念,將以MFCC 特征提取技術(shù)與全新節(jié)能技術(shù)融入人工智能應(yīng)用領(lǐng)域中。
本文將基于MFCC 特征提取的全新節(jié)能機(jī)器人進(jìn)行了研究,并將面向服務(wù)的深度學(xué)習(xí)技術(shù)應(yīng)用,其中構(gòu)建了原始語(yǔ)音信號(hào)頻譜和預(yù)加重后語(yǔ)音信號(hào)頻譜分析和特征提取。本文實(shí)現(xiàn)的功能:基于MFCC 特征提取的智能語(yǔ)音識(shí)別交互控制的機(jī)器人與無(wú)線Wi-Fi 通信技術(shù)及紅外控制技術(shù)相結(jié)合,實(shí)現(xiàn)與人進(jìn)行交流對(duì)話、查詢天氣、查詢時(shí)間、語(yǔ)音控制等功能。硬件模塊由太陽(yáng)能光伏供電模塊、ARM 處理器主控模塊、無(wú)線Wi-Fi通信模塊、LCD 顯示模塊、檢測(cè)室內(nèi)環(huán)境傳感器模塊、MIC 輸入模塊、語(yǔ)音處理模塊以及人工智能處理模塊等組成,其系統(tǒng)總體設(shè)計(jì)框圖如圖1所示。
全新節(jié)能機(jī)器人在復(fù)雜的應(yīng)用環(huán)境下,作為語(yǔ)音類應(yīng)用的前端接口,語(yǔ)音信號(hào)預(yù)處理顯得尤為重要,其可以細(xì)分出處理噪聲干擾的語(yǔ)音增強(qiáng)和處理人聲干擾的語(yǔ)音分離[1]。語(yǔ)音在實(shí)際的傳輸過(guò)程中,環(huán)境噪聲和人的聲音干擾都會(huì)對(duì)全新節(jié)能機(jī)器人語(yǔ)音識(shí)別產(chǎn)生一定的影響,使得語(yǔ)音的質(zhì)量和可懂性能大大地下降,同時(shí)也給后續(xù)全新節(jié)能機(jī)器人語(yǔ)音識(shí)別方面的應(yīng)用帶來(lái)挑戰(zhàn),例如語(yǔ)音識(shí)別、說(shuō)話人的語(yǔ)音識(shí)別等。

圖1 系統(tǒng)總體設(shè)計(jì)框圖
利用麥克風(fēng)陣列的語(yǔ)音輸入設(shè)備進(jìn)行語(yǔ)音原始未經(jīng)處理信號(hào)進(jìn)行錄制。由本人錄音,在無(wú)噪音環(huán)境下錄制“小云”語(yǔ)音為實(shí)驗(yàn)的對(duì)象,經(jīng)過(guò)格式轉(zhuǎn)換后,實(shí)驗(yàn)語(yǔ)音數(shù)據(jù)分別命名為xiaoyun.wav。該關(guān)鍵詞的“小云”語(yǔ)音信號(hào)是在較為安靜的環(huán)境下錄制而成的。在釆集的該語(yǔ)音輸入信號(hào)過(guò)程當(dāng)中,將會(huì)直接消除或減少語(yǔ)音輸入時(shí)間序列數(shù)據(jù)受偶然性因素干擾而產(chǎn)生不規(guī)則樣本或說(shuō)話人自己造成的不規(guī)則樣本。
預(yù)處理的常用方法有預(yù)加重、端點(diǎn)檢測(cè)、分幀、聲道轉(zhuǎn)換、去加重、加窗、重采樣等,不同的語(yǔ)音識(shí)別在預(yù)處理方法和處理順序上有一定差別。在進(jìn)行關(guān)鍵詞“小云”語(yǔ)音信號(hào)特征提取之前,都要對(duì)原始序列做一系列的預(yù)處理,目的是盡可能保證后續(xù)語(yǔ)音處理得到的信號(hào)更均勻、平滑,為信號(hào)參數(shù)提取提供優(yōu)質(zhì)的參數(shù),提高語(yǔ)音處理質(zhì)量,同時(shí),消除采集語(yǔ)音信號(hào)的設(shè)備所帶來(lái)的混疊、高次諧波失真、高頻等因素,以免對(duì)關(guān)鍵詞的“小云”語(yǔ)音信號(hào)質(zhì)量的影響。
語(yǔ)音信號(hào)預(yù)加重(Pre-emphasis)是一種將低頻段關(guān)鍵詞“小云”語(yǔ)音信號(hào)能量放大,在高頻段的信號(hào)能量變小。因此,在傳輸之前把關(guān)鍵詞“小云”語(yǔ)音信號(hào)的高頻部分進(jìn)行處理(如加重處理),然后接收端再去重處理,以此來(lái)提高信號(hào)的傳輸質(zhì)量,要在對(duì)關(guān)鍵詞“小云”語(yǔ)音信號(hào)進(jìn)行分析之前對(duì)其高頻部分加以提升,以便于關(guān)鍵詞“小云”信號(hào)的頻譜分析或者聲道參數(shù)分析。
設(shè)關(guān)鍵詞“小云”語(yǔ)音信號(hào)t 時(shí)刻的語(yǔ)音采樣為S(t),經(jīng)預(yù)加重處理后結(jié)果為 Y(t)=S(t)-μ*S(t-1),其中μ根據(jù)經(jīng)驗(yàn)值取μ取值為0.97。通常設(shè)置一階數(shù)字濾波器:

上式中,μ值=預(yù)加重系數(shù),其范圍為:0.9<μ<1.0。

圖2 原始小云語(yǔ)音信號(hào)頻譜及預(yù)加重后頻譜
語(yǔ)音處理過(guò)程需要我們理解語(yǔ)音信號(hào)各個(gè)頻率成分具體分布情況,這時(shí)就需要利用傅里葉變換分析頻率成分。傅里葉變換要求輸入語(yǔ)音信號(hào)是平穩(wěn)的,在宏觀上來(lái)看語(yǔ)音信號(hào)是不平穩(wěn)的,從微觀上來(lái)看,語(yǔ)音信號(hào)在非常短時(shí)間內(nèi)可以看作是具有平穩(wěn)的。由此可見(jiàn),從宏觀角度來(lái)看語(yǔ)音信號(hào)的特性和表征,它的本質(zhì)特征和相關(guān)參數(shù)都是隨時(shí)間而變化的,所以語(yǔ)音信號(hào)是一個(gè)不平穩(wěn)態(tài)的信號(hào),不能用處理數(shù)字信號(hào)處理技術(shù)(如傅里葉變換)的對(duì)其進(jìn)行平穩(wěn)信號(hào)分析處理。但是,微觀角度來(lái)看,雖然語(yǔ)音信號(hào)具有時(shí)變特性,但是在一個(gè)非常短的時(shí)間(在10~30ms 時(shí)間內(nèi))范圍內(nèi),語(yǔ)音信號(hào)特性和參數(shù)基本保持不變,即語(yǔ)音信號(hào)保持相對(duì)穩(wěn)定的狀態(tài),所以我們可將語(yǔ)音信號(hào)看作其具有短時(shí)間內(nèi)平穩(wěn)性準(zhǔn)穩(wěn)態(tài)過(guò)程。

圖3 語(yǔ)音分幀

圖4 漢明窗(hamming window)
將語(yǔ)音信號(hào)分幀處理(如圖3 所示)后,我們將每一幀代入漢明窗(hamming window)窗函數(shù)如圖4 所示,窗外的值通常設(shè)為0,是為了消除每一個(gè)幀的兩端信號(hào)可能會(huì)造成的頻譜泄露spectral leakage(即不連續(xù)性)現(xiàn)象。理論上窗函數(shù)越寬,產(chǎn)生的平滑效果就會(huì)越好,同時(shí)也會(huì)使窗函數(shù)的坡度不斷增大,導(dǎo)致頻譜泄露現(xiàn)象比較嚴(yán)重,截?cái)嘈?yīng)也會(huì)很嚴(yán)重。所以綜合分析與考慮,我們將漢明窗的主瓣設(shè)為較寬而旁瓣設(shè)為較低,對(duì)語(yǔ)音信號(hào)處理的平滑效果更明顯,根據(jù)窗函數(shù)的頻域特性,漢明窗的主瓣比較寬而旁瓣比較低,對(duì)處理語(yǔ)音信號(hào)的平滑性效果比較好。常采用漢明窗,公式如下:

梅爾(Mel)頻率分析是基于人類的聽(tīng)覺(jué)感知系統(tǒng)實(shí)驗(yàn)的,經(jīng)實(shí)驗(yàn)觀測(cè)發(fā)現(xiàn)人的聽(tīng)覺(jué)系統(tǒng)對(duì)不同的頻率是有一定地選擇性的,人耳類似一個(gè)濾波器組一樣,它只關(guān)注個(gè)別特殊頻率的分量。換句話說(shuō),它只讓某些特定的頻率信號(hào)通過(guò),同時(shí)可以對(duì)不想感知的頻率信號(hào)過(guò)濾掉。這些濾波器在頻率的坐標(biāo)軸上不是成統(tǒng)一分布,在低頻信號(hào)區(qū)域有很多的濾波器,它們分布較為密集,而在高頻區(qū)域,濾波器的個(gè)數(shù)就變得較少,分布也較為稀疏。若我們利用語(yǔ)音處理技術(shù)在語(yǔ)音識(shí)別系統(tǒng)中能夠模擬類似人類的聽(tīng)覺(jué)感知,那么就極有可能提高和改善語(yǔ)音識(shí)別率。
通常語(yǔ)音信號(hào)的特征參數(shù)MFCC 提取過(guò)程,具體如圖5 所示步驟。

圖5 MFCC提取流程圖

圖6 Mel濾波器組
由于人耳對(duì)應(yīng)外界不同頻率的敏感程度是不同的,而且成為一種非線性關(guān)系,為此將語(yǔ)音信號(hào)頻譜按人耳敏感程度劃分多個(gè)梅爾(Mel)濾波器組如圖6 所示,在梅爾(Mel)刻度范圍內(nèi)將各個(gè)濾波器的中心頻率f(m)等間隔的線性分布和頻率范圍形成非相等間隔,然后將線性分布的頻譜映射到類似人的聽(tīng)覺(jué)感知梅爾(Mel)非線性頻譜中,最后轉(zhuǎn)換到梅爾(Mel)倒譜上。將普通頻率轉(zhuǎn)化到梅爾(Mel)頻率的公式如下:

上式中f 為頻率,Mel(f)為梅爾(Mel)頻率,單位為Hz。
將該信號(hào)的能量譜通過(guò)一組Mel 三角形濾波器組(Mel-Filter banks),定義一個(gè)用 24 個(gè)濾波器(0-4000Hz)總點(diǎn)數(shù),每個(gè)濾波在中心頻率f(m)的響應(yīng)都是1,然后左右兩邊線性下降到相鄰的三角形濾波器的中心頻率f(m)處為0,如圖6 所示。
本文實(shí)驗(yàn)是在基于MATLAB 2017b 軟件平臺(tái),語(yǔ)音樣本由作者規(guī)定為普通話“小云”錄音組成,并在安靜環(huán)境內(nèi)完成的。選用Windows 10 自帶錄音軟件進(jìn)行錄制,CompressionMethod:'Uncompressed',NumChannels: 2,SampleRate: 48000,TotalSamples: 354304,Duration: 7.3813,BitsPerSample: 16 保存文件為 xiaoyun.wav格式。音頻數(shù)據(jù)x=xiaoyun.wav,采樣率fs=8000Hz,采用端點(diǎn)檢測(cè),最后提取MFCC 特征參數(shù),實(shí)驗(yàn)輸出數(shù)據(jù):(N=分幀個(gè)數(shù),M=特征維度)大小的特征參數(shù)矩陣,特征參數(shù)為M=24 倒譜系數(shù)為12 維,一階差分為12維。通過(guò)實(shí)現(xiàn)分幀、加窗、快速傅里葉變換(FFT)、梅爾濾波器組(Mel-bank)、離散余弦變換(DCT)等過(guò)程來(lái)計(jì)算得到語(yǔ)音信號(hào)MFCC 特征提取如7 圖所示。

圖7 MFCC特征提取
本文梅爾頻率倒譜系數(shù)(MFCC)方法應(yīng)用于全新節(jié)能機(jī)器人設(shè)計(jì)與實(shí)現(xiàn)進(jìn)行了研究與實(shí)驗(yàn),并將面向服務(wù)的深度學(xué)習(xí)技術(shù)應(yīng)用。在梅爾濾波(Mel filter)實(shí)驗(yàn)過(guò)程中,對(duì)原始小云語(yǔ)音信號(hào)時(shí)域波形、語(yǔ)譜圖繪制,然后對(duì)該信號(hào)進(jìn)行預(yù)加重,并分析其分幀的語(yǔ)音信號(hào)在短時(shí)間(通常10-30ms)內(nèi)具有平穩(wěn)性。通過(guò)錄入小云語(yǔ)音信號(hào)進(jìn)行實(shí)驗(yàn)加入短時(shí)能量特征,并引入梅爾頻率倒譜系數(shù)(MFCC)的一階差分和二階差分,對(duì)語(yǔ)音數(shù)據(jù)特征提取和降低運(yùn)算維度感知敏感度,從而提高了特征提取的有效性。在此基礎(chǔ)上,能夠更好地反映全新節(jié)能機(jī)器人在復(fù)雜環(huán)境下,它能夠較好地表述語(yǔ)音信號(hào)特征并且能準(zhǔn)確提取語(yǔ)音信號(hào)特征,為后期語(yǔ)音匹配時(shí)對(duì)輸入語(yǔ)音的采集及識(shí)別做出一定積累經(jīng)驗(yàn)。