基于環形麥克風陣列的遠場語音識別系統

2017-04-22 02:09:14支艷利張云偉

微型電腦應用 2017年4期

關鍵詞：引擎

支艷利，張云偉

(昆明理工大學信息工程與自動化學院，昆明 650504)

基于環形麥克風陣列的遠場語音識別系統

支艷利，張云偉

(昆明理工大學信息工程與自動化學院，昆明 650504)

語音在遠場識別中，隨著語音傳播距離的加大，語音本身的衰減，混響、背景噪音、人聲干擾和回聲加大等技術難題，會引起的識別距離近、識別率低等問題。針對這些問題，提出了一種基于環形麥克風陣列的遠場語音識別系統。該設計采用SinoVoice公司環形布局的pansy板作為語音前端處理的核心，結合其相應的離線語音識別引擎以及單片機，運用于服務機器人的語音動作控制系統中。經在噪聲環境下的非特定的不同距離、不同角度、消回聲的語音識別測試，結果表明在噪聲環境下，該系統對遠距離命令也有較高的識別率，并且可以消除回聲，適用于服務機器人的應用環境，也適合其他有噪環境下遠場語音識別系統的應用。

遠場語音識別；環形麥克風陣列；語音控制

0 引言

隨著語音識別技術的快速發展，語音識別系統已經成為目前最熱門和最具發展前景的新型技術之一[1-2]，并且已經廣泛應用于機器人、智能終端設備上。2015年百度世界[3]會議指出，語言是人類傳遞信息的主要手段，具有很大改變人與設備交互的潛力，目前語音識別已經達到95%的準確度，但是大段的語音需要距離近，發音清晰才能有較高的識別率，所以如何讓語音交互更自然是現階段研究的主要方向。

在語音識別過程中，機器人、智能終端設備大多使用單麥克風，或者主副麥克風的錄音識別方式，但是受到環境噪音的影響，造成語音識別率較低，拾音距離短等問題，很大程度限制了智能語音交互的應用與發展。并且當語音傳播距離加大時，因語音本身的衰減，混響、背景噪音、人聲干擾和回聲等多重復雜因素，造成必須要近距離對講而且識別率低的問題。在對話過程中，為了使機器人不識別自己的聲音，語音交互方式是一問一答，使語音交互體驗不如人意不能滿足市場的需求。語音識別運算量較大，目前應用語音識別技術的各種智能移動終端與應用多采樣“云”端語音識別技術服務。而現實生活工作中，網絡并非能覆蓋所有環境，同時很多用戶也擔心流量的增加導致使用費用的增長，因此完全依賴“云”端語音識別技術給用戶造成了很大的不便。綜上可知，雖然語音技術水平已經出現邊際效應，但語音場景卻沒有出現爆發增長。目前使用場景的局限被認為是人機語音市場發展的最大阻礙[4]。

本文以SinoVoice公司環形布局的pansy板作為語音識別前端處理的核心，結合其離線語音識別引擎來解決在多重復雜環境下的遠場語音識別問題，并且利用其消回聲技術，來實現人與設備的自然交互。

1 環形麥克風技術

麥克風陣列是由一定數目的聲學傳感器(一般是麥克風)組成，用來對聲場的空間特性進行采樣并處理的系統。早在20世紀70、80年代，麥克風陣列已經被應用于語音信號處理的研究中，進入90年代以來，基于麥克風陣列的語音信號處理算法逐漸成為一個新的研究熱點。而到了“聲控時代”，這項技術的重要性顯得尤為突出。

在復雜的聲學環境下，噪聲總是來自于四面八方，且其與語音信號在時間和頻譜上常常是相互交疊的，再加上回波和混響的影響，利用單麥克風捕捉相對純凈的語音是非常困難的。而麥克風陣列融合了語音信號的空時信息，可以同時提取聲源并抑制噪聲。

1.1 技術原理

靈云麥克風陣列pansy板由一個50 mm*50 mm的主板和4個硅麥克風板組成，如圖1所示。

圖1 麥克風環形布局示意圖

有兩種布局方式，一種是線性布局，另一種是環形布局。本文根據服務機器人的外形特點，以及應用場合，采用其環形布局的Pansy板。此環形麥克風陣列全面整合了聲源定位(DOA)、波束形成(BF)、語音增強(SE)、回聲消除(AEC)等實用化語音信號技術。在語音識別前端，通過環形麥克風陣列準確進行聲源定位，并利用麥克風陣列的空域濾波特性，在目標說話人方向形成拾音波束，抑制噪聲和反射聲，增強聲音信號。在嘈雜環境下可以準確識別3到5米的遠距離語音，識別率達95%，滿足了智能終端設備在復雜聲源環境下的語音交互需求，擺脫了為準確識別遠處命令而使用的遙控器或者手機上的APP，使語音控制更流暢、自然。全力推動了智能語音交互在家居、車載、機器人等領域進入實用化階段。

Pansy板具有靈活的波束控制、較高的空間分辨率、高的信號增益與較強的抗干擾能力等特點，因而成為智能語音處理系統中在遠場距離時捕捉說話人語音的重要手段。并且麥克風陣列通過消回聲算法，把設備播放的聲音給過濾掉，使機器人或終端設備在播放聲音時，同時可以識別用戶的語音指令。

遠場語音識別技術的核心有兩點，一是語音前端處理：利用麥克風陣列、回聲消除等技術將目標說話人的聲音增強，并抑制或消除周圍無用的聲音(噪聲+回聲)；二是語音識別引擎針對麥克風陣列處理后的數據進行專門優化，以使遠場識別效果達到最優。

1.2 技術特點

(1)360度全方位拾音，快速準確定位聲源。4個麥克風分布在一個水平的環形圓的4周，環形的最小半徑是5 cm。在拾音角度方面，該陣列可實現環形360°環形拾音，精準度控制在±10°以內，準確捕獲說話人位置，進行敏銳的聲源定位。根據終端產品的外觀形態，將麥克風安裝在其環形的表面；比如機器人比較矮小，且可以找到比較好的環形面，例如頭部位置，如圖1所示。

(2)利用針對pansy板優化的語音識別引擎，提高了遠場語音識別的準確率。經過麥克風陣列處理后的語音，讓離線語音識別引擎獲取的語音更為清晰純凈，并且結合針對麥克風陣列處理后的數據進行專門優化的語音識別引擎，以使遠場識別的準確率進一步提高。

2 硬件電路設計

2.1 總體結構設計

整個系統的硬件電路主要包括語音處理和語音識別兩個模塊。語音處理模塊主要為環形pansy板，語音識別為SinoVoice公司提供的離線語音識別引擎和結合使用的單片機STC10L08XE。系統的實現方框圖，如圖2所示。

圖2 系統總體結構框架圖

2.2 語音處理部分

語音處理采用SinoVoice公司的環形布局pansy板。此環形麥克風陣列產品采用4麥克風環形布局的方式，對4路麥克風的錄音進行語音算法處理，可以實現3到5米遠距離語音交互；產品自帶喚醒功能，可以使用自帶喚醒詞或者定制特殊的喚醒詞，采用錄音訓練方式，提高喚醒識別率；可以定位到說話人的位置，使機器人能夠轉向說話人，如果設備不可移動，麥克風陣列也可以在說話人方向形成拾音波束，增強說話人的聲音，對周圍背景音和混響進行抑制；靈云麥克風陣列通過消回聲算法，把設備播放的聲音給過濾掉，能在播放聲音時，同時識別用戶說的話，實現語音打斷功能。

為了使客戶的產品更加快速的和麥克風陣列產品進行對接，pansy板既沒有開發板那么大的尺寸，也不像核心板那樣，需要客戶自己設計外圍電路，客戶可以使用pansy板做樣機測試，也可以用來量產。

2.3 語音識別模塊

離線語音識別引擎使用靈云離線式詞表識別技術，該技術采用了最新算法、引擎設計，識別率已提高到97%以上。同時，相對于其他語音識別引擎，在實時率、加載時間和資源占用率等技術性能均有很大的優勢，能夠很好滿足目前各種移動終端的應用需求。離線語音識別技術主要應用于各種移動終端，保證用戶在無網絡環境下依然可以應用語音識別技術，應用語音流暢地與各種數字設備進行溝通交流。

離線式語音識別技術，有效地幫助用戶擺脫應用語音識別對“云”端的完全依賴，滿足用戶在沒有網絡的環境下，仍然能夠方便使用語音識別技術能力。該技術通過在智能移動終端中加載離線語音識別引擎、離線語音包，對語音進行本地化聲學模型、語言模型的處理，從而使各種智能移動設備實現本地化應用和語音識別技術的需求。離線式語音識別引擎，具有識別率高、識別速度快、低運算資源占用、低內存消耗的特性，能夠滿足更多終端設備的使用，保證用戶更好的在無網絡狀態下應用語音識別技術的體驗與感受，如圖3所示。

圖3 語音識別原理框架圖

離線識別引擎與STC10L08XE單片機采用并行方式相接，通過單片機先將關鍵詞列表存儲在識別引擎的離線語音包中。語音識別的過程也是語音識別模塊完成的工作的過程：把通過語音識別模塊識別的文字內容和列表中的關鍵詞語進行匹配，找出得分最高的關鍵詞語作為識別結果輸給單片機，單片機播放對應的提示音。

3 性能測試與應用

本文所設計的遠場語音識別系統主要用在語音控制服務機器人，在應用中主要關注的是識別率和實時性。為了檢測遠場識別效果以及消回聲功能，在實驗室60 dB噪音環境下，選取了不同音色的人站在距離麥克風不同距離且不同角度分別進行測試，每個測試進行50遍。實驗1數據表明，經過環形麥克風處理過后的語音識別率可達95%，并且當在機器播報的時候，機器并沒有拾取機器播報的聲音。實驗2，驗證了和機器不同角度時，經麥克風聲源定位且語音處理后的識別能力，試驗2數據表明，pansy板可以準確進行聲音定位。

試驗1:在實驗室60 dB的噪音環境下，測試人保持和機器角度固定，當和機器距離增大時，使用pansy板與不使用pansy板的識別率分別如圖4和圖5所示。兩種方法下對多個語音命令處理后的波形如圖6、圖7所示。

試驗2：在實驗室60dB的噪音環境下，測試人1站在距離機器人5米處，測試與機器人0度、30度、60度、90度時，正確識別率，如表1所示。

4 總結

在多重復雜環境下的遠場語音識別是使用場景被局限的一個重要原因，也是使人機語音市場發展的最大阻礙。其

圖4 在60 dB、經降噪處理后，不同距離的正確識別率

圖5 在60 dB、沒經降噪處理后，不同距離的正確識別率

圖6 經麥克風降噪語音處理后輸出的語音波形

圖7 無降噪語音處理后輸出的語音波形表1 在固定某因素下，不同角度的正確識別數據表

0度30度60度90度前進98.7%95.6%97.3%99.2%點頭96.5%97.0%98.2%98.5%抬起左手97.7%98.9%95.3%97.1%放下左手99.3%96.6%96.4%99.6%

原因主要是受限于背景噪音、其他聲音干擾、回聲、混響等多重復雜因素，進而導致的識別距離近、識別率低等明顯痛點，在這些問題沒有解決之前，智能語音交互將一直是一個短板。本文設計運用SinoVoice公司的環形布局pansy芯片作為語音識別前端處理的核心，運用其離線語音識別引擎和單片機完成了語音控制系統的語音識別模塊的軟硬件設計。試驗結果表明，基于環形麥克風陣列降噪技術的遠場語音識別系統，對于遠場語音命令的識別率可達95%。并且結合其消回聲技術，使人機交互更流暢。本系統小型化，隨著智能產品的普及，該系統將極大推進語音識別技術在真實生活場景中的應用。

[1] 劉幺和，宋庭新.語音識別與控制應用技術[M].北京：科學出版社，2008:3-40.

[2] 趙力.語音信號處理[M].2版.北京：機械工業出版社，2009:1-26.

[3] 百度世界大會:語音識別國內外現狀.[2016年9月1日].http://baiduworld.baidu.com/

[4] 劉文舉，聶帥，梁山，張學良.基于深度學習語音分離技術的研究現狀與進展[J].自動化學報，2016，42(6):819-833.

[5] 潘麗杰，徐本亮，朱琪，王利峰，繆惠根.基于雙麥克風降噪技術的語音識別系統[J].現代電子技術，2016,39(2)：137-139.

[6] 郭海智，楊大全，郭亮.基于云計算和語音識別的控制系統[J].電腦與電信，2016(1)：84-86.

[7] 于俊婷，劉伍穎，易綿竹，李雪，李娜.國內語音識別研究綜述[J].計算機光盤軟件與應用，2014(10):76-78.

Far-field Speech Recognition System Based on Circular Microphone-array

Zhi Yanli， Zhang Yunwei

(Kumming University of Sinence and Technology,Faculty of Information Engineering and Automation, Kunming 650504, China)

In the far-field speech recognition process,with the increase of distance of speech transmission,it arises the problems, such as voice attenuation,reverberation,background noise,human interference and echo increase,etc.These problems make the speech recognition distance and rate low.According to these problems, this paper presents a solution, which is a far-field speech recognition system based on circular microphone-array.The design adopts SinoVoice company loop layout pansy speech front-end processing as the core, combined with the corresponding off-line speech recognition engine and single chip microcomputer. The design is used in the control system of service robot of speech movements. Under non-specific consideration of the noise environment with different distance and different angles, fire echo speech recognition tests are carried out. The results showed that under noise environment, the system for remote command also has a higher recognition rate and can echo cancellation, can be used in the application environment of service robots, is also suitable for other environmental noise in the far field of speech recognition system application.

Far-field speech recognition; Circular microphone-array; Speech control

支艷利(1989-)，女，河南省安陽市，昆明理工大學，碩士研究生，研究方向：智能信息系統。張云偉(1972-)，男，云南省昆明市，教授、博士。

1007-757X(2017)04-0062-03

TN912

2016.10.11)