基于小語音庫的語音識別技術研究＊

2013-11-23 04:18:42

艦船電子工程 2013年5期

（中國人民解放軍63888部隊濟源 459000）

1 引言

目前語音通信干擾效果評估系統中，一般是首先建立無線電臺通信專向，發方發送語音報文或鍵報，被試干擾設備進行干擾，收方進行報文抄收；然后將所抄報文與報底校對，計算報文正確率來評估干擾設備的干擾效果，以鑒定設備性能是否達到技術指標要求。這種主觀評估方法過程中存在許多人為因素，如抄報人員的抄收水平、精神狀態以及對方報文發送的規范與否等因素，都會對評估結果帶來一定影響。

隨著通信技術不斷提高，語音通信干擾效果評估方法在逐步向客觀評估轉變，本文在介紹客觀評估系統的基礎上，分析研究了語音識別關鍵技術，以及基于小語音庫的語音識別技術在客觀評估系統中的應用，并給出了應用方法。

2 客觀評估系統概述

語音通信干擾客觀評估系統通過比對受干擾前的原始語音與受干擾后的語音的參數特征，實現干擾效果的客觀評估。系統組成包括報文產生及控制終端、發信電臺、收信電臺、語音處理終端、收端計算機等，系統功能框圖如圖1所示。

系統工作流程為：發送端計算機將數字報文轉換成語音報文（.wav文件），并產生控制信號控制電臺（PTT）進行發射，同時將已產生的語音報文通過音頻輸出系統送入電臺音頻口，由電臺將語音報文自動發送出去；在接收端，將無線電臺輸出的音頻送入計算機，由計算機進行音頻采集，基于小語音庫范圍進行語音識別，最后與發送端的報文比較進行報文判決，給出誤碼率。

圖1 系統功能框圖

3 語音識別關鍵技術

語音識別系統基本構造如圖2所示。

系統分為前端處理和后端處理兩部分，前端處理部分包括語音的錄入、處理、特征值的提取。后端處理是一個跨數據庫的搜索過程，分為訓練和識別，訓練是對所建的模型進行評估、匹配、優化，獲得模型參數；識別是一個專用的搜索數據庫過程。獲取前端數值后，在聲學模型、語言模型和字典中進行匹配。聲學模型表示一種語言的發音，可以通過訓練來識別特定用戶的語音模型和發音環境的特征。語言模型是對語料庫單詞規則化的概率模型。字典列出了大量的單詞及發音規則［1］。

總體上說語音識別是一個模式識別、匹配的過程，在這個過程中，計算機首先要根據人的語音特點建立語音模型，對輸入的語音信號進行分析，并抽取所需的特征，在此基礎上建立語音識別所需的模板。然后，在識別過程中，計算機根據語音識別的整體模型，將計算機中已經存有的語音模板與輸入語音信號的特征進行比較，并根據一定的搜索和匹配策略找出一系列最優的與輸入語音匹配的模板。最后通過查表和判決算法給出識別結果［2］。

模型訓練是指按照一定的準則，從大量已知模式中獲取表征該模式本質特征的模型參數，而模式匹配則是根據一定準則，使未知模式與模型庫中的某一個模型獲得最佳匹配。顯然，識別結果與語音特征的選擇、聲學模型和語言模型的好壞、模板是否準確等都有直接的關系［3］。

3.1 語音識別單元的選取

選擇識別單元是語音識別研究的第一步，語音識別單元有單詞（句）、音節和音素三種，應該根據具體研究的識別系統的特點，選擇具體的識別單元。

單詞（句）單元廣泛應用于中小詞匯語音識別系統，但不適合大詞匯系統，原因在于模型庫太龐大，訓練模型任務繁重，模型匹配算法復雜，難以滿足實時性要求。

音節單元多見于漢語語音識別，因為漢語是單音節結構的語言，而英語是多音節語言。漢語大約有1300 個音節，如果不考慮聲調，約有408個無調音節，數量相對較少。因此，對于中、大詞匯量漢語語音識別系統來說，以音節為識別單元基本是可行的。

音素單元以前多見于英語語音識別的研究中，但目前中、大詞匯量漢語語音識別系統也在越來越多地被采用。漢語音節僅由聲母和韻母構成，而且聲、韻母聲學特性相差很大。在實際應用中常把聲母依后續韻母的不同而構成細化聲母，這樣雖然增加了模型數目，但提高了易混淆音節的區分能力。

3.2 特征參數提取

語音信號中含有豐富的信息，如何從中提取出對語音識別有用的信息是語音識別的關鍵。特征提取就是完成這項工作，它對語音信號進行分析處理，去除對語音識別無關緊要的冗余信息，獲得影響語音識別的重要信息。對于非特定人語音識別來講，希望特征參數盡可能多地反映語義信息，盡量減少說話人的個人信息（對特定人語音識別來講，則相反）。從信息論角度講，這是信息壓縮的過程。

線性預測（LP）分析技術是目前應用比較廣泛的特征參數提取技術，許多成功的應用系統都采用基于LP 技術提取的倒譜參數。但線性預測模型是純數學模型，沒有考慮人類聽覺系統對語音的處理特點。

Mel參數和基于感知線性預測（PLP）分析提取的感知線性預測倒譜，在一定程度上模擬了人耳對語音的處理特點，應用了人耳聽覺感知方面的一些研究成果［4］。實驗證明，采用這種技術能使語音識別系統的性能有一定提高。

MFCC 的分析著眼于人耳的聽覺特性，因為人耳所聽到的聲音的高低與聲音的頻率并不成線性正比關系，而用MEL頻率尺度則更符合人耳的聽覺特性。MEL 頻率與實際頻率的具體關系可用公式（1）表示：

實際頻率f的單位是Hz。根據Zwicker的工作，臨界頻率帶寬隨著頻率的變化而變化，并與Mel頻率的增長一致，在1000Hz以下，大致呈線性分布，帶寬為100Hz左右，在1000Hz以上呈對數增長［5］。

3.3 語音模型的選擇

HMM 模型是語音信號時變特征的有參表示法。它由相互關聯的兩個隨機過程共同描述信號的統計特性。其中一個是隱蔽的（不可觀測的）具有有限狀態的馬爾可夫鏈，另一個是與馬爾可夫鏈的每一狀態相關聯的觀察矢量的隨機過程（可觀測的）。隱蔽馬爾可夫鏈的特征要靠可觀測到的信號特征揭示。這樣，語音等時變信號某一段的特征就由對應狀態觀察符號的隨機過程描述，而信號隨時間的變化由隱蔽馬爾可夫鏈的轉移概率描述。

HMM 模型在某狀態j下對應的觀察值可以由一組概率bjk（k＝1，2，…，M）來描述，它是M個離散可數的觀察值中的一個，因而稱為離散HMM［6］。當觀察值為一個連續的隨機變量X，其在狀態j下對應的觀察值由一個觀察概率密度函數bj（X）表示，這就成了連續的HMM。連續的HMM 用Baum-We1ch算法估計模型參數時，雖然在估計π，A參數時適用，但在估計描述bj（X）的參數時必須對bj（X）加以一定的限制才能成立。目前運用最廣泛的是高斯型bj（X）［7］，它可以用下面公式表示：

其中，N（X，μjk，∑jk）為多維高斯概率函數，μjk為均值矢量，∑jk為方差矩陣，K為bjk（X）的混合概率個數，Cj（X）為組合系數，且

4 語音識別在評估系統中的應用

4.1 影響語音識別率的幾個因素

語音識別的關鍵技術對語音識別率起著極其重要的作用，要使語音識別技術能夠應用于實際評估系統，以下幾個影響因素必須考慮：

1）建立語音模板庫，也就是語音模型的訓練。而且模板的好壞直接影響著識別率的高低，對于非特定人的語音識別系統，需要大量的原始語音數據來訓練語音參考模型。

2）提取語音特征參數，對于非特定人語音識別，提取的特征參數應盡量不含有說話人的信息。

3）聲學建模是連續語音識別中聲學層面解決的關鍵步驟，語音識別單元的選擇是聲學建模中的一個基本而重要的問題。

4.2 基于小語音庫的語音識別系統

所謂基于小語音庫的語音識別系統，就是語音模板庫中的語音源限定在一定的數量范圍內，是中、大型語音庫的簡化，基于小語音庫的語音識別系統在識別過程中模式匹配需要進行的運算量特別小。

目前語音通信的特點，通信內容主要是話報，只需要能夠正確識別出0～9這10個數碼及少量固定詞語的語音報文，語音識別技術就完全可以應用于語音通信干擾效果評估系統中。

按照報文生成方法，計算機利用報文產生軟件生成隨機數字報文，數碼0～9在語音文件里均勻分布，然后由語音合成軟件將數字報文生成語音文件，該語音文件是一串數字語音，包括男聲或女聲，發音表見表1，數字報文語音文件里四個數字為一組，該語音文件作為評估系統的客觀信號源。

表1 數字報文發音表

建立語音庫，即語音模板的訓練是語音識別系統中的一個關鍵過程，它的好壞直接關系到語音識別系統識別率的高低［8］。為了得到一個好的模板，往往需要有大量的原始語音數據來訓練語音模型。另外普通大詞匯量語音識別系統語音模型庫龐大，訓練模型任務繁重，匹配算法復雜，難以滿足實時性要求［9］。

將語音識別技術應用在特定的語音通信效果評估系統中，只需要建立包含0～9這10個數碼合成的語音及其它少量詞語的小語音庫，即可滿足系統需要。基于小語音庫的語音識別需要識別的語音源數量特別少，系統運算量小，應用的可行性大大提高。而且小語音庫中的語音由計算機通過語音合成技術生成，所有的語音報文具有相同說話人的特定信息，特征參數的提取穩定，大大地提高了識別的正確率。

另外基于小語音庫的語音識別系統可以采用適用于小詞匯量語音識別單元的單詞單元作為語音識別單元。

4.3 應用方法

語音通信干擾效果評估系統功能流程圖如圖3所示。

圖3 報文生成及錄音評估系統功能流程圖

系統一般分為準備階段、試驗過程及結果處理階段。首先在計算機中通過報文生成軟件產生數字報文，并合成語音文件，然后將通信終端設備與無線電臺相連接，由發送計算機及通信終端控制發端電臺按要求（如頻率、調制方式、功率要求等）進行發送，接收端進行人工抄報，同時錄音采集。結果處理是利用語音識別系統對接收的語音文件在基于小語音庫的模板中進行識別，給出識別結果，并統計出錯誤碼子和組數。

基于4.2節中所描述的小語音庫的語音識別在語音通信干擾效果評估系統中，利用識別軟件對錄音存儲的客觀語音報文進行識別的過程簡化如下：

發送端發送的數碼報文為在0～9中隨機選取的4個數字為一組的組合，收端計算機中預先存有包含數碼0～9的小語音庫模版，根據模式匹配的方法，對語音進行識別成數碼報文，由程序將該數碼報文進行錯誤率統計，最后給出干擾效果評估結果［10］。

這種利用基于小語音庫的匹配方法進行語音識別的識別率能夠達到很高（應用中正確率大于99%），忽略極少數不能正確識別的數字，認為識別正確率基本接近人工收聽的結果。

同時在客觀評估的基礎上還可以再進行人工校報，將主觀評估與客觀評估結果綜合考慮，給出更加合理的評估結果。

5 結語

本文介紹了語音識別的關鍵技術，分析了語音模板庫僅為特定少量詞語的小語音庫語音識別評估系統，以及它在特定的語音通信效果評估系統中的應用，介紹了實際應用方法，對于今后建立語音通信客觀評估系統上具有一定的指導意義。

目前系統中的數字報文均是任意選取的，沒有任何實際語義，評估結果只能根據報文錯組率而不能根據實際語義來進行識別評估。但是從阻斷通信意圖上來說，利用有語義的語音報文進行干擾效果評估更具有一定的現實意義。所以筆者下一步會進行語音通信干擾效果評估系統中基于語義的語音報文識別研究。

［1］吳淑珍，趙朝陽.基于聽覺模型的客觀音質評估方法研究［J］.電子學報，1999（7）：92（94）.

［2］張璐琳，陳靜.國軍標（GJB4405A-2007）［J］.語音通信干擾效果評定準則，2007.

［3］崔文迪，黃關維.語音識別綜述［J］.福建電腦，2008（1）：28-29.

［4］胡航.語音信號處理［M］.哈爾濱：哈爾濱工業大學出版社，2000：73-76.

［5］查普曼.MATLAB［M］.北京：科學出版社，1998：46-47.

［6］樊昌信，張甫翊，徐炳祥，等.通信原理［M］.北京：國防工業出版社，2001：370-372.

［7］LA Liporace.Maximum Likelihood for Multivariate Observation of MarkovSource.IEEE.Trans.IT［J］.1982，28（5）：729-734.

［8］徐煒，徐濟仁.基于聲韻分割的語音信號特征提取技術［J］.小型微型計算機系統，2002，23（2）：172（175）.

［9］王瑛，張知易.一種基于人耳聽覺特性的語音客觀測度研究［J］.通信技術，1999（3）：62（68）.

［10］謝虹.電子裝備作戰效能評估［J］.航天電子對抗，1998（3）：57（59）.

［11］王彪.基于Matlab的語音識別系統研究［J］.計算機與數字工程，2011，39（12）.

［12］劉萍，廖廣銳.高噪聲背景下的語音識別系統設計［J］.計算機與數字工程，2009，37（7）.