非特定人語音識別關鍵技術研究

2017-11-03 19:03:10李小林許春冬杜燕

物聯網技術 2017年10期

李小林++許春冬++杜燕

摘要：針對市場上語音識別系統難以個性化更改關鍵詞識別列表、實時性不佳等問題，文中設計了一款基于嵌入式的非特定人語音識別系統。該系統具有可個性化設置識別列表、完成非特定人語音識別等功能。通過對不同說話人的語音進行測試表明，該設計達到了預期效果，在相對安靜的條件下，系統的識別率接近95%，且操作便捷、算法簡單，具有很好的實時性，可進一步運用于與語音識別相關的電子產品中。

關鍵詞：嵌入式；語音識別；非特定人；隱馬爾科夫模型；LD3320；LP2303

中圖分類號：TP39；TN912 文獻標識碼：A 文章編號：2095-1302（2017）10-00-03

0 引言

當今社會已經朝著現代化、信息化、智能化的方向發(fā)展，信息技術的浪潮定會使得人們的生活邁上一個新臺階。在這其中，人工智能將體現出巨大的優(yōu)勢，語音識別作為人工智能的一個重要分支，是進行人機交互的關鍵技術。

非特定人語音識別技術已滲透到人們生活及工作的方方面面，嵌入式系統具有功耗低、性能高、成本低等諸多優(yōu)點，可以滿足現代社會對語音識別產品高性能的需求。因此基于嵌入式語音識別系統具有更大的應用范圍[1]。當前大部分語音識別系統都基于軟件實現，而理想的嵌入式非特定語音實時識別系統相對欠缺，且傳統的嵌入式系統有其固有缺點[1]，因此，在研究語音識別關鍵技術基礎上，設計并實現了一款新穎的嵌入式非特定人語音識別系統。

1 語音識別理論基礎

語音識別的前期工作，需要對語音信號進行處理。由于語音信號是模擬信號，很難直接進行識別，應先進行數字化處理，將語音模擬信號轉換成數字信號。

由于語音信號的能量大部分都分布在頻率較低的部分，所以需要提高高頻部分的能量。而由于語音信號具有暫時平穩(wěn)的特點，因此可將語音信號進行分幀加窗處理，更方便分析。找出語音信號的開始和結束時刻，可以提高識別效率。因此需要再對數字信號進行預處理（預加重、分幀加窗、語音降噪、端點檢測）。預處理之后，需要對信號進行特征參數提取，為語音識別做準備。目前使用較多的特征參數提取方法是Mel頻率倒譜系數（MFCC），因為MFCC更能體現出人耳的聽覺特點[2]。

目前主流的語音識別算法有DTW（動態(tài)時間彎折技術）、HMM（隱馬爾科夫模型）、ANN（人工神經元網絡）[3]。結合本文設計的特點，HMM包含兩個隨機過程，巧妙模仿了人類的發(fā)音特點，因此選取HMM模型更為合理[4]。

2 系統的軟硬件設計

2.1 總體方案設計

設計的非特定人語音識別系統，主要由三大部分組成，包含以STM32F103ZET6為核心的STM32開發(fā)板、LD3320非特定人語音識別芯片、LP2303接口轉換模塊。將LD3320模塊和LD3320模塊通過SPI接口和USART接口連接到STM32開發(fā)板上，組成了一個完整的非特定人語音識別系統。

系統采用STM32F103ZET6單片機作為主控制器。這是一款擁有低功耗、低成本、高性能特點的單片機，ARM Cortex-M3為其內核，同時內部還擁有128 KB Flash、20 KB SRAM、兩個SPI、三個串口、一個USB、一個CAN等[5，6]。選取LD3320作為語音識別芯片。LD3320是一款專用的非特定人語音識別芯片，可直接用于識別，并且支持識別列表隨意編寫，使得使用更加方便。通過LP3320接口轉換模塊可以將PC機和語音識別系統連接起來，從而將識別結果打印在串口中，方便查看語音識別結果[7]。

2.2 硬件設計

本系統作為非特定人語音識別系統，語音識別芯片的選擇尤為重要。綜合各方面考慮，系統選用LD3320語音識別芯片。將STM32開發(fā)板、LD3320模塊和LP2303模塊連接起來，組成一個完整的語音識別系統，通過觀察開發(fā)板上LED燈的變化情況和串口顯示結果判斷識別結果。硬件設計框架如圖1所示[8]。

2.3 軟件設計

文中選擇LD3320作為語音識別芯片。LD3320是由ICRoute公司設計生產的非特定人語音識別芯片，該芯片識別原理如圖2所示[9]。論文的軟件設計主要應用Source Insight開發(fā)環(huán)境。Source Insight是一種性能優(yōu)良的語言編輯工具，幾乎適用所有語言[10]。

（1）初始化。完成復位、工作模式設定、設置工作頻率以及FIFO設定的操作[11，12]。

（2）寫入識別列表。識別關鍵詞的格式是 “標號識別關鍵詞”[13]。識別關鍵詞需要以字符串的格式來設置。關鍵詞格式見表1所列[14]。

表1 識別列表實例

標號字符串

1 yuwen

2 qianrushi

3 woxihuanyundong

（3）開始識別。設置相關寄存器中的內容，為進行開始語音識別的工作作相應的準備。語音識別流程如圖3所示[15]。ADC增益可設置在00H-7FH之間，最佳設置在40H-6F之間。聲音增益的大小和系統敏感性有直接聯系，增益越大，系統對外界環(huán)境越敏感，增益越小，可避免遠處噪聲對系統的干擾。

（4）響應中斷。當麥克風采集到聲音時，不管識別結果如何，都會產生一個中斷信號。中斷服務程序的具體流程如圖4所示[15]。從BA寄存器中可以得到若干識別結果，最佳識別結果從C5中得出。

3 實驗結果與分析

對非特定人語音識別系統進行測試，通過實驗結果來判定系統性能的優(yōu)劣情況。語音識別系統的性能與詞條長度和聲音（每個人聲音不同）有關。本次測試分別選擇2個字、3個字、4個字及5個字的詞條，同時選擇不同的人與不同長度的詞條，經多次測試來判斷系統性能。endprint

完成設計的測試工作，需要經過編寫程序—編譯—參數設置—下載流程。

在語音識別前期，需完成一些準備工作。首先建立Keil工程。本次設計在Device下選擇STM32F103ZET6；在Keil工具欄中選擇Project，然后點擊Options for Targe tUSART，在Output中勾選“Creat EX File”，在Debug中選擇“ST-Link Debugger”；在串口調試助手中設置相應的參數，其中，波特率為115 200，數據位為8，停止位為1，校驗位為None，流控位為None。

對著LD3320 Board的MIC順序說出測試指令，并及時記錄每一條指令識別成功的次數，完成相關測試工作，測試結果見表2所列。

根據本次系統的測試，可得出以下結論：

（1）比較表2中第4列和第5列的數據可知，與相對安靜的環(huán)境相比，在存在少許噪聲的情況下系統成功識別的次數下降。由此可知，在相對安靜的條件下，系統的識別率較高；在有少許噪聲的情況下，系統的識別率下降。

（2）比較表2中第1行、第3行、第5行和第7行的數據可知，隨著指令長度的增加，系統識別成功的次數將減少。因此系統的識別率將會隨著指令長度的增加而下降。

（3）在識別過程中發(fā)現，隨著指令長度的增加，在能夠識別成功的條件下，系統的識別時間將會增加。當識別詞條分別為2個字和5個字的情況下，差別會更加明顯。

4 結語

在安靜環(huán)境下，LD3320語音識別模塊的識別率較高，指令內容較短時，其平均識別率接近95%。該系統具有可動態(tài)編寫識別列表、可完成非特定人實時語音識別功能，并具有良好的可擴展性，可進一步應用在實時語音識別的電子設備中。

參考文獻

[1]許春冬，夏日升，應冬文，等.面向語音增強的序貫隱馬爾可夫模型時頻語音存在概率估計[J].聲學學報，2014， 39（5）： 647-654.

[2]方敏，浦劍濤，李成榮，等.嵌入式語音識別系統的研究和實現[J].中文信息學報，2003， 18（6）： 73-75.

[3]許春冬，張震，戰(zhàn)鴿.面向語音增強的約束序貫高斯混合模型噪聲功率譜估計[J].聲學學報， 2017， 42（5）： 633-640.

[4] KARRAY L， MARTN A. Toward improving speech detection robustness for speech recognition in adverse environments[J]. Speech Communication，2003，40（3）：261-276.

[5]張戟，楊騰飛.車載自動語音識別系統設計[J]. 佳木斯大學學報（自然科學版），2011，29（2）： 201-205.

[6]龍順宇，鄭澤龍，譚冬鳳.基于STM32和SD卡文件系統的非特定人語音識別系統設計[J].現代電子技術， 2013，36（21）： 62-66.

[7]文治洪，胡文東，李曉京.基于PL2303的USB接口設計[J].電子設計工程， 2010，18（1）：32-34.

[8] Yang B， Lugger M. Emotion recognition from speech signals using new harmony features[J]. Signal processing， 2010，90（5）：1415-1423.

[9]金鑫，田犇，闕大順.基于LD3320的語音控制系統的設計實現[J].電腦與信息技術，2011， 19（6）：22-25.

[10] Reichl W， Chou W.Robust decision tree state tying for continuous speech recognition[J]. IEEE Transactions on Speech and Audio Processing， 2000，8（5）：555-566.

[11]楊熙，張文昭，梁曉琳.語音識別在智能家居控制系統的應用[J].湖南科技學院學報，2016， 37（10）：34-35.

[12] Lavner Y， Gath L， Rosenhouse J. The efects of acoustic modifications on the identification of familiar voices speaking isolated vowles[J]. Speech Communication， 2000，30（1）：9-26.

[13] Joseph Pieone.Continuous Speech Recognition using Hidden Markov Models[J].IEEE Assp Mag， 1990，7（3）： 26-41.

[14]鐘晨帆.基于LD3320芯片的語音識別系統[D].南京：南京大學，2015.

[15] LD3320開發(fā)手冊[EB/OL].http：//www. icroute.com.endprint