付學桐
摘 要 隨著人工智能和網絡自動化工程的不斷發展,人機交互模型發生了天翻地覆的變化,傳統的文字交互模式已被各種新型交互技術所取代,其中語音識別就是最為典型高效的一種。語音識別可以有效地將人類語音轉化為文字并識別,目前已廣泛地應用于文字輸入等多個領域,在語音識別的整個流程中,預處理階段決定了其識別成功率和效率。文章從語音識別的過程講起,詳細分析了語音識別預處理過程,并對其未來發展進行了展望。
關鍵詞 語音識別;預處理;端點檢測;采樣定理
中圖分類號 G2 文獻標識碼 A 文章編號 1674-6708(2019)233-0135-02
隨著當今人工智能的迅速發展,語音識別技術取得了較大的突破,在商業、軍事、民用等方面語音識別都得到了廣泛的運用。目前國內外已有許多對語音識別領域的研究和產品,如蘋果手機的Siri,微軟的Cortana,百度的智能音箱,科大訊飛的訊飛語音輸入等產品。語音識別之所以得到空前重視,從根本上說,也就是源于語音識別所帶來的簡便性。在人工智能中,尤其重要的一點就是要讓機器人知道人類要做什么,所以務必要將人的指令轉化為計算機可以識別的代碼數字,常見的方式有圖像、動作、語音轉換等。而語言就是最直接最簡單的轉換方式,但在其識別系統中,一般要將其在理想環境下訓練成運用于復雜含噪環境中的語音識別系統。語音識別預處理過程是整個語音識別處理過程的前端環節,負責將復雜無規律的語音信號轉化為可供計算機識別的數字信息,對提高語音識別效率和成功率起著決定性作用。
1 語音識別技術概述
語音識別屬于新興技術,目前尚未有一種嚴格規范化的定義,通常被認為是一種將人類語音信息通過軟硬件轉化為文本信息的計算機技術,由于其的特殊屬性,也有科學家將其歸類為自動化技術。語音識別的技術體系復雜,主要包括基礎的發聲機理、聲波傳播、信號學,高級的模式識別和人工智能理論,數學上的概率論和數理統計也有所涉及。語音識別的整個過程基本可以歸納成以下的步驟:輸入—接收語音—預處理—特征提取—對比—翻譯—輸出。
簡單地說語音識別第一步就是將接受到的語音信息進行一定的處理,將其切成一小段一小段的語音片段,再通過波形轉換,將每一小段語音變成一個多維向量,再將其向量與自身數據庫中的進行對比,選出概念大的向量,轉化成數據庫中所對應的狀態號,最終將各個詞匯拼接從而得到語音識別的結果。在特征提取之前,有一項極為重要的流程——預處理。預處理是語音識別過程的前端,所以也叫做前端處理,其目的是通過對原始語音信號的處理,使其更好地被轉化為特定的數字量,以便進行特征識別,提高語音識別的成功率和效率。如果語音識別中不做前端處理,則計算機就無法判斷該音頻從何開始,又從何結束,同時大量的噪音也大大降低的音頻的準確度。所以即使系統已收集可以比對的大量數據,可接收的語言無法轉化正確的狀態號,一切都無法達到相應的指令。可以說語音識別的預處理就相當于系統的眼睛,所以預處理在整個過程中極其重要[ 1 ]。
2 預處理方法及其技術
預處理的常用方法有端點檢測、聲道轉換、預加重、去加重、分帖、加窗、重采樣等,不同的語音識別在預處理順序上有一定差別。
2.1 端點檢測
對語音信號進行時域分析,可以明顯地辨別出原始語音信息包含有聲段、無聲段和濁音段,端點檢測則是通過區分以上不同段的信號來達到區劃語音的開頭與結尾,端點檢測的唯一目的就是找到語音信號的起始點與結束點。端點檢測最常用的方法就是雙門眼檢測法。雙門眼檢測法是通過計算門限能量的方式來判斷語音端點的技術,一般會在語音識別之前設置雙門的門限λ,然后分別計算每個時刻的語音能量,若該能量大于門限閾值,則新生成門限序列為1,反之則為0,從而得到門限序列后,將其點乘原始語音序列,得到有效語音序列。語音能量的計算公式為:

2.2 預加重與去加重
在實際應用過程中,語音信息往往夾雜著環境中的各種其他聲音信息,由于人類發音的特性,語音信息經過頻率轉換后往往大部分集中于低頻帶,從而使得低頻能量過大,高頻能量過低,計算機難以有效提取高頻語音信息。為了抵消掉這種情況,預處理階段使用預加重技術,在語音信息的處理階段預先添加與原始語音高頻信號,通過疊加之后,原始語音信息在高頻和低頻段的能量相當,使得識別效率明顯提升。而在語音識別系統的輸出端,則需要做相反的處理,也就是去加重,采用相反的負能量信號將添加的高頻成分去掉,從而還原原來的信號分布,有效提高聲音信號的信噪比[2]。
2.3 分幀與加窗
分幀從簡單來說,一段信號整體是不穩定的,但從局部來看,信號是穩定的,所以要想接收端接收平穩的信號,就需對整段語音進行分幀,也就是切成幾段。但是需要注意的是,根據香農定理(Shannons Theorem),分幀越多地聲音片段,其開始段和結束段會存在聲音不連續的現象,導致了分幀的幀長越短,信號的誤差就越大。為了解決此問題,語言學家提出了利用帶通濾波器來過濾的方法,也就是加窗。常見的三種窗函數是矩形窗、漢明窗和漢寧窗,其數學公式如下。

實際系統中,語音信號處理一般加漢明窗,就可以滿足絕大多數種語音情況。語音識別的加窗類型受到許多因素的影響,包括不同說話人的發音方式、說話方式、環境噪音、傳輸信道衰落等,實際應用時需要根據不同的情況選擇窗。
2.4 重采樣
根據信號學中的奈奎斯特采樣定理(Nyquists Theorem),再信號采集時,如果采樣頻率滿足采樣頻率大于2倍最高頻率時,經過采樣后的信息可以原本保持的所有特征信息。根據這一定理,語音識別系統中通常采用重采樣技術,也就是限定采樣器的采樣頻率為最高頻率的5~8倍。根據人類語音信號50Hz~6kHz的頻率范圍,可以得出重采樣器的采樣頻率為約16kHz左右,重采樣可以保證語音中的所有信息均被送至特征識別環節中[ 3 ]。
3 語音識別預處理缺陷及其解決方案
語音識別的局限性主要在語音源的多樣性,據相關資料顯示,全世界當前一共有超過1 000種語言,而其中常規語言也就多達數十種,語言識別對于各種語言的適配是一項長期的過程。同時,類似于中文中的四川話、廣東話、上海話,各種大型語言中都有其特定的方言,且使用頻次很高,這些方言在語言詞匯和字符發音上都和傳統的語言不同,訓練語音識別系統適配方言也是亟待解決的問題。當語音信號在傳播過程中有所衰減,為了在保留細節的情況下還原聲波,人為可以利用前置聲音放大器的方式解決。在回聲消除和空間降噪方面,筆者認為可以利用多麥克風采樣技術作為解決方案。區別于一般的單一麥克風采集技術,多麥克風技術搭配多通道采樣技術,分別將人聲的高、中、低頻波段分別采集,同時將不同時間到達的聲音區分開來,在已知噪聲特性的情況下,可以有效降噪,提高人聲的辨識度[ 4 ]。
當前語音識別的發展問題主要存在于兩種:一是反復說話識別,頓挫識別。往往生活中由于某些人的語言習慣,可能會出現反復出現某個詞語,或說話結結巴巴。針對這一問題,就要加強端點檢測的端點的選取,正確選取語音的頭尾,去除話語中間隔的空隙,使一段斷斷續續的話變成一段聯結的話。同時在處理中,可對某些重復出現的詞語進行適當的刪減,增加識別的速率。二是自然語言處理和字典的擴充。由于語音識別運用時的外界環境的復雜性,可能會出現方言,別的語種類型的語言。而解決的首要之舉就是增加數據庫中的數據,從而擴充字典,達到有效的預處理[5]。
參考文獻
[1]陳慧,芮賢義.基于VC++的汽車語音駕駛助手的設計與實現[J].電聲技術,2016,40(8):36-39.
[2]鐘浩,鮑鴻,張晶.一種改進的語音動態組合特征參數提取方法[J].電腦與信息技術,2017,25(3):4-7.
[3]陸振宇,何玨杉,趙為漢.關于多通道語音去噪的識別優化研究[J].計算機仿真,2016,33(6):315-320.
[4]胡郁.人工智能與語音識別技術[J].電子產品世界,2016,23(4):23-25.
[5]張曉丹,黃麗霞,張雪英.關于在噪聲環境下語音識別優化研究[J].計算機仿真,2016,33(8):172-176.