文/冀瑞國(guó)
現(xiàn)階段智能終端與用戶(hù)之間的人機(jī)交互方式仍然是觸屏、鍵盤(pán)或鼠標(biāo),傳統(tǒng)操作式的人機(jī)交互已經(jīng)無(wú)法滿(mǎn)足信息時(shí)代對(duì)信息快速交互的需求,創(chuàng)新式語(yǔ)音交互技術(shù)不僅提高了人機(jī)交互效率,而且屬于人類(lèi)所習(xí)慣的交互方式。語(yǔ)音交互的核心技術(shù)為語(yǔ)音識(shí)別技術(shù),語(yǔ)音識(shí)別技術(shù)優(yōu)劣直接決定了語(yǔ)音交互方式是否可用。截止目前,關(guān)于語(yǔ)音識(shí)別技術(shù)的研究已有數(shù)十載,基于英語(yǔ)的語(yǔ)音識(shí)別技術(shù)的準(zhǔn)確率已接近98%,而基于漢語(yǔ)的語(yǔ)音識(shí)別技術(shù)的準(zhǔn)確率卻相對(duì)較低,主要是由于漢語(yǔ)的復(fù)雜度相對(duì)應(yīng)用更廣,同音字較多且發(fā)音較短致使語(yǔ)音識(shí)別精度降低。神經(jīng)網(wǎng)絡(luò)憑借其神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)在識(shí)別方面具有更好的識(shí)別效果,基于此,本文對(duì)神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別的應(yīng)用展開(kāi)了研究。
語(yǔ)音識(shí)別系統(tǒng)是通過(guò)對(duì)語(yǔ)音信號(hào)進(jìn)行分析,與詞匯語(yǔ)音進(jìn)行匹配處理,使得計(jì)算機(jī)能理解語(yǔ)音信號(hào)所傳遞的信息。經(jīng)典的語(yǔ)音識(shí)別系統(tǒng)結(jié)構(gòu)主要包括信號(hào)預(yù)處理、特征提取、數(shù)據(jù)訓(xùn)練、匹配計(jì)算、識(shí)別判決。
通過(guò)對(duì)語(yǔ)音識(shí)別系統(tǒng)的結(jié)構(gòu)進(jìn)行分析可知,可將其劃分為三個(gè)模塊,信號(hào)預(yù)處理模塊、語(yǔ)音特征提取模塊、訓(xùn)練與識(shí)別模塊。
(1)信號(hào)預(yù)處理處于系統(tǒng)的前端,語(yǔ)音信號(hào)的預(yù)處理將便于語(yǔ)音的特征提取,主要包括采樣濾波、預(yù)加權(quán)、信號(hào)分幀、端點(diǎn)檢測(cè)。其中本文的采樣濾波的頻率為8KHz,并選擇預(yù)加權(quán)方式對(duì)高頻階段的語(yǔ)音進(jìn)行加權(quán)處理,從而有效地提高其信噪比。在信號(hào)分幀方面,本文所采納的時(shí)間段為20ms,并通過(guò)端點(diǎn)檢測(cè)方法實(shí)現(xiàn)詞匯信號(hào)與噪聲信號(hào)的分割,從而完成語(yǔ)音信號(hào)的預(yù)處理。
(2)語(yǔ)音特征提取模塊主要是為語(yǔ)音數(shù)據(jù)訓(xùn)練與識(shí)別提供分析數(shù)據(jù),所以語(yǔ)音特征的合理選擇不僅能提升識(shí)別模型的訓(xùn)練效率,而且能有效提高模型的識(shí)別精度。本文基于特征獨(dú)立性、信號(hào)有效表征和精簡(jiǎn)計(jì)算的原則選擇的語(yǔ)音特征主要包括線(xiàn)性預(yù)測(cè)系數(shù)(LPC)、線(xiàn)性預(yù)測(cè)倒譜系數(shù)(LPCC)、美兒頻率倒譜系數(shù)(MFCC)、改進(jìn)的混合MFCC。
(3)訓(xùn)練與識(shí)別模塊作為語(yǔ)音識(shí)別系統(tǒng)的核心,主要是對(duì)特征進(jìn)行分析得到信號(hào)歸屬詞匯。目前常用的識(shí)別模型主要有神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、深度學(xué)習(xí)和人工智能,支持向量機(jī)的識(shí)別精度相對(duì)較低,深度學(xué)習(xí)與人工智能需要大量的訓(xùn)練樣本且實(shí)時(shí)性較差。由于語(yǔ)音識(shí)別對(duì)識(shí)別精度和實(shí)時(shí)性要求較高,因此本文選擇神經(jīng)網(wǎng)絡(luò)作為語(yǔ)音識(shí)別模型。
神經(jīng)網(wǎng)絡(luò)由輸入層、隱層和輸出層構(gòu)成,網(wǎng)絡(luò)基本單元為神經(jīng)元,輸入層的神經(jīng)元為所提取的語(yǔ)音信號(hào)特征,隱層的神經(jīng)元通過(guò)樣本訓(xùn)練構(gòu)建,輸出層的神經(jīng)元為語(yǔ)音識(shí)別詞匯。通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)分析可知,神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的非線(xiàn)性映射能力、泛化能力和容錯(cuò)能力。
神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)音識(shí)別之前需要對(duì)模型進(jìn)行科學(xué)的訓(xùn)練,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練流程如圖1所示,首先需要準(zhǔn)備大量詞匯的語(yǔ)音特征,對(duì)詞匯進(jìn)行編號(hào),然后將準(zhǔn)備的語(yǔ)音特征作為模型訓(xùn)練的輸入,將特征對(duì)應(yīng)的詞匯編號(hào)作為參考數(shù)據(jù),最后檢查模型訓(xùn)練的輸出數(shù)據(jù)與參考數(shù)據(jù)之間的誤差,當(dāng)兩者之間的數(shù)據(jù)誤差低于所設(shè)置的閾值時(shí)停止訓(xùn)練,保存隱層神經(jīng)元的閾值,以及各個(gè)神經(jīng)元之間的鏈接權(quán)值,從而實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)模型的建立。

圖1:BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程
語(yǔ)音識(shí)別系統(tǒng)首先對(duì)語(yǔ)音信號(hào)的進(jìn)行采樣濾波、預(yù)加權(quán)、信號(hào)分幀、端點(diǎn)檢測(cè)操作;其次提取預(yù)處理數(shù)據(jù)的LPC、LPCC、MFCC、改進(jìn)MFCC值;最后訓(xùn)練構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型根據(jù)語(yǔ)音信號(hào)特征識(shí)別語(yǔ)音所對(duì)應(yīng)的詞匯,至此實(shí)現(xiàn)語(yǔ)音信號(hào)的識(shí)別。
本文先對(duì)語(yǔ)音識(shí)別系統(tǒng)展開(kāi)了研究,語(yǔ)音識(shí)別系統(tǒng)由信號(hào)預(yù)處理、語(yǔ)音特征提取、模型訓(xùn)練與識(shí)別三個(gè)模塊構(gòu)成,并分析了神經(jīng)網(wǎng)絡(luò)相對(duì)于支持向量機(jī)、深度學(xué)習(xí)和人工智能的優(yōu)勢(shì),基于此設(shè)計(jì)了一套基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)。識(shí)別系統(tǒng)首先借助大量詞匯的語(yǔ)音特征完成識(shí)別模型的訓(xùn)練,再利用訓(xùn)練合格的語(yǔ)音識(shí)別模型對(duì)從預(yù)處理數(shù)據(jù)中提取的LPC、LPCC、MFCC、改進(jìn)MFCC的語(yǔ)音信號(hào)特征進(jìn)行語(yǔ)音識(shí)別。