張曉明
(唐山市人事考試中心, 河北 唐山 063000)
在考場語音識別過程中識別出發(fā)音錯(cuò)誤的詞匯,對于其系統(tǒng)糾錯(cuò)水平提高具有重要作用,現(xiàn)有的多數(shù)語音識別系統(tǒng)在技術(shù)上無法有效消除信號和雜音干擾,識別能力較差[1-4]。為此本文提出了一種發(fā)音自動(dòng)糾錯(cuò)技術(shù),采用單識別器的CCD 傳感器和TDSP-TF887 芯片提升識別速度,將DTW 算法引入到系統(tǒng)的語音識別程序中以保證錯(cuò)誤語音的精確識別,為考試者提供了一個(gè)良好的口語練習(xí)輔助平臺。
語音信號采集是錯(cuò)誤語音識別流程的第一個(gè)環(huán)節(jié),對應(yīng)的程序需要能夠從采集到的語音信號中提取出發(fā)音有誤的詞匯。程序運(yùn)行的第一步是對系統(tǒng)中安裝的語音設(shè)備進(jìn)行檢測,如果沒有發(fā)現(xiàn)相關(guān)設(shè)備則會(huì)發(fā)出提醒信號;第二步執(zhí)行語音信號初始化操作,保證系統(tǒng)采集到的語音以正確的格式進(jìn)行保存;接下來從存儲(chǔ)空間中劃撥出一部分作為語音數(shù)據(jù)的緩存空間;最后對錯(cuò)誤語音的參數(shù)進(jìn)行計(jì)算。語音采集的具體流程如圖1 所示。
錯(cuò)誤語音信號參數(shù)的提取方式和結(jié)果都是整個(gè)系統(tǒng)識別精度的影響因素。通過錯(cuò)誤語音信號參數(shù)的提取獲取有效的錯(cuò)誤語音信息才能保證系統(tǒng)識別結(jié)果的準(zhǔn)確性。錯(cuò)誤語音信號參數(shù)提取分為以下幾個(gè)步驟進(jìn)行:
1)通過預(yù)加重、信號分幀和加窗的方式對錯(cuò)誤的語音信號進(jìn)行處理,在這個(gè)過程中,設(shè)定采樣點(diǎn)的數(shù)量為256 個(gè),基于傅里葉變換錯(cuò)誤語音信號的頻譜。
2)計(jì)算錯(cuò)誤語音信號的功率譜。
3)獲取功率譜后使用梅爾濾波器對其進(jìn)行運(yùn)算,取運(yùn)算結(jié)果的對數(shù),獲得對數(shù)頻譜。
4)將該對數(shù)頻譜由時(shí)域變換到頻域,具體方式為:
5)基于上述過程對每一幀錯(cuò)誤語音信號進(jìn)行特征提取,獲取效用最高的錯(cuò)誤語音信號。
由上述流程可見,通過功率譜的計(jì)算可以完成錯(cuò)誤語音信號參數(shù)的提取,從而實(shí)現(xiàn)錯(cuò)誤語音識別功能,既簡化了錯(cuò)誤語音識別的流程,又保證了識別結(jié)果的準(zhǔn)確性。
基于錯(cuò)誤語音采集程序和錯(cuò)誤語音信號參數(shù)提取實(shí)現(xiàn)了錯(cuò)誤語音的識別功能,并通過錯(cuò)誤語音的功率譜計(jì)算保證了識別的準(zhǔn)確性。
人發(fā)出的語音由語音識別傳感器中的二極管進(jìn)行采集并將其轉(zhuǎn)換為數(shù)字信號。CMOS 傳感器與CCD傳感器是語音識別系統(tǒng)中較為常見的語音傳感器。CMOS 傳感器中集成了多個(gè)配有單獨(dú)轉(zhuǎn)換電路和識別器的二極管,其語音輸出方式與內(nèi)存電路較為相似;CCD 傳感器的內(nèi)部結(jié)構(gòu)與CMOS 傳感器相比較為簡單,只集成了一個(gè)識別器,語音數(shù)據(jù)由二極管開始逐單元傳輸直至傳感器的最底層并在此進(jìn)行整合,經(jīng)識別器識別后繼續(xù)向后傳輸。本研究選用CCD 傳感器進(jìn)行語音的采集和識別。
本次研究的過程中對語音識別處理器進(jìn)行了優(yōu)化設(shè)計(jì),采用DTW 算法進(jìn)行語音的處理和識別,重點(diǎn)在于能夠?qū)崟r(shí)處理系統(tǒng)采集到的語音。所以,系統(tǒng)的語音識別處理器除了運(yùn)算與控制的基礎(chǔ)功能之外,還通過執(zhí)行程序、指令系統(tǒng)與處理器結(jié)構(gòu)的優(yōu)化具備了語音實(shí)時(shí)處理的能力。DPS 芯片的性能決定了語音數(shù)據(jù)的處理效率,此外還關(guān)系到語音識別處理器的優(yōu)化程度和優(yōu)化過程的復(fù)雜度,因此DPS 芯片的選取是語音識別處理器優(yōu)化設(shè)計(jì)的一個(gè)重要環(huán)節(jié)。
制定語音識別處理器的優(yōu)化方案要從芯片的數(shù)據(jù)處理性能和語音識別精度兩個(gè)方面出發(fā),對于智能語音識別系統(tǒng),語音數(shù)據(jù)的處理效率是極為重要的性能指標(biāo),為了確保實(shí)現(xiàn)語音數(shù)據(jù)的實(shí)時(shí)處理,處理器必須能夠在極短的時(shí)間內(nèi)完成處理過程。對于語音的識別精度,浮點(diǎn)DPS 芯片通常情況下要高于定點(diǎn)DPS 芯片,能夠使智能語音識別系統(tǒng)擁有較強(qiáng)的錯(cuò)誤語音識別能力。語音識別處理器芯片的總體結(jié)構(gòu)與數(shù)據(jù)處理流程如圖2 所示。
語音識別處理的選擇要依據(jù)硬件資源豐富、數(shù)據(jù)處理效率高的要求進(jìn)行。智能語音識別系統(tǒng)的錯(cuò)誤語音識別是基于大量的數(shù)據(jù)運(yùn)算實(shí)現(xiàn)的,為了保證運(yùn)算速度,本次研究選取TDSP-TF887 芯片作為語音識別處理器芯片。基于代碼密度進(jìn)行數(shù)據(jù)處理的語音識別處理器采用了集成16/32 位混合指令集的架構(gòu)形式,應(yīng)用于本系統(tǒng)可以使其獲得更高的錯(cuò)誤語音識別能力。
系統(tǒng)的硬件部分基于CCD 傳感器的應(yīng)用優(yōu)化了語音識別傳感器的語音采集和數(shù)據(jù)處理功能,為了滿足語音數(shù)據(jù)實(shí)時(shí)處理的要求,通過選用TDSP-TF887浮點(diǎn)DPS 芯片優(yōu)化了語音識別處理器,提高了語音的處理效率和識別精度。
為了驗(yàn)證本系統(tǒng)在錯(cuò)誤語音智能識別方面的性能,選取一種傳統(tǒng)語音識別系統(tǒng)為參照系統(tǒng)[5]與本系統(tǒng)進(jìn)行性能對比。使用中文32 篇短文作為口語語音輸入內(nèi)容。系統(tǒng)主要參數(shù)設(shè)定如下:語音振動(dòng)音頻范圍為[-100,100],語音有效性判定參數(shù)=8.5,maxX的峰值分別取3.2、3.6、4.0、4。
系統(tǒng)數(shù)據(jù)庫中包含待測語音數(shù)據(jù)庫、漢語詞典數(shù)據(jù)庫與標(biāo)準(zhǔn)發(fā)音數(shù)據(jù)庫,其中漢語詞典數(shù)據(jù)庫為BEEP 數(shù)據(jù)庫。系統(tǒng)數(shù)據(jù)庫采取對外開放的形式,所有用戶都可以進(jìn)行語音輸入。
發(fā)音自動(dòng)糾錯(cuò)系統(tǒng)的性能以準(zhǔn)確率和查全率兩項(xiàng)指標(biāo)進(jìn)行評價(jià)。其計(jì)算方式分別為:
本系統(tǒng)與參照系統(tǒng)各進(jìn)行10 次性能測試,測試結(jié)果如圖3 和圖4 所示。
由圖3 和圖4 中的數(shù)據(jù)可見,參照系統(tǒng)對錯(cuò)誤語音進(jìn)行識別的準(zhǔn)確率和查全率數(shù)值都處于較低的水平,其中準(zhǔn)確率最高只達(dá)到了62.6%,查全率最高僅為63.4%,10 次測試的準(zhǔn)確率平均值為59.02%。本研究所提出系統(tǒng)的準(zhǔn)確率和查全率均達(dá)到90%以上,其中最高準(zhǔn)確率為96.2%,最高查全率為95.2%,10 次測試的準(zhǔn)確率平均值為93.0%。以上數(shù)據(jù)表明,本研究提出的發(fā)音自動(dòng)糾錯(cuò)系統(tǒng)相較于傳統(tǒng)同類系統(tǒng)擁有更強(qiáng)的錯(cuò)誤語音識別能力。
為了滿足考試語音識別模塊中的糾錯(cuò)需求,本文提出一種發(fā)音自動(dòng)糾錯(cuò)技術(shù),采用CCD 傳感器進(jìn)行語音的采集和處理,基于TDSP-TF887 浮點(diǎn)DPS 芯片實(shí)現(xiàn)了語音識別處理器的優(yōu)化設(shè)計(jì),同時(shí),在軟件部分引入了DTW 算法,提高了系統(tǒng)對錯(cuò)誤語音的識別速度和精度。實(shí)際應(yīng)用測試結(jié)果顯示,本文所設(shè)計(jì)系統(tǒng)的性能相較于其他同類系統(tǒng)有了大幅提高,非常適用于考場語音糾錯(cuò)問題的解決。