智能服務機器人語音交互的設計與實現

2020-05-18 02:44:46楊國慶黃銳李健呂俊濤杜修明

科技視界 2020年9期

楊國慶黃銳李健呂俊濤杜修明

摘要

隨著科技的不斷發展，在營業場所中智能服務機器人漸漸走進我們的生活。同時智能服務機器人的出現給我們的生活也帶來了諸多便利。本文分析了智能服務機器人語音交互控制的應用需求，基于微軟語音應用程序接口設計開發了一套人機語音交互控制系統。詳細闡述了系統的設計思想及關鍵步驟，重點包括語音識別、語音合成、語法規則創建為維護等方面的內容，并就如何進一步提高識別率進行了研究。

關鍵詞

智能服務機器人;人機交互;語音識別;語音應用程序接口

中圖分類號： TP242 ? ? ? ? 文獻標識碼： A

DOI：10.19694/j.cnki.issn2095-2457.2020.09.052

0 引言

使用機器人進行服務，不但會讓營業場所添色，更能夠體現現代化、科技感。目前，智能服務機器人可以實現集自主引導、互動交流等功能為一體的一系列“類人”活動，智能服務機器人的出現，不僅節省了人力和時間成本，還展現了當下智能時代感[1-2]。

智能服務機器人采用最前沿的技術與智能設備、人機交互等相互應用，可提供更快更準的個性化服務，也為營業場所帶來了全新的智能體驗[3]。

目前，由于技術的逐步發展和多地推廣應用。現場應用對機器人的控制方式提出了新的要求，希望能夠以語音命令控制機器人，并且實現與機器人的交互對話。著眼于智能服務機器人語音交互控制的功能需求，本文以語音識別和語音合成的應用開發為手段，實現了可靠快捷的機器人語音控制與交互會話。

1 功能概述與性能指標

對機器人的交互控制是讓機器人識別接收到的有效對話和語音操作指令，根據識別結果做出應答或完成指定操作[4-5]。

利用語音識別技術正確識別操作人員發出的語音指令，再根據識別結果判斷語音指令的類型。語音指令有兩種類型，一種是控制指令，即讓機器人完成指定的操作，如“開始充電”、“停止充電”、“開啟超聲”等進而根據識別結果做出應答或執行指定的操作;正確識別到控制指令需要控制機器人完成對應操作。另外一種指令是應答指令，如“你叫什么名字”、“你會做什么”等，識別到這類指令后機器人需要根據事先設定好的內容應答。

為適應現場應用需求，語音交互控制系統應滿足以下性能指標：

（1）喚醒詞的喚醒率>95%;

（2）近場通用場景識別率>98%;

（3）遠場通用場景識別率>95%;

（4）識別結果響應時間低于200ms。

2 流程設計

分析機器人語音交互控制的功能需求，為實現該系統可將其分解為語音采集、語音識別、對話應答和執行操作等四個模塊。

2.1 語音采集

利用聲音傳感器采集交互語音信號，提供給后續環節的進行分析處理。

2.2 語音識別

通過對采集到的語音信號進行分析處理、提取特征進行比對識別出語音內容，然后據此判定是否是合法指令及指令類型，進而控制機器人做出相應的響應。

2.3 對話應答

識別出合法的應答指令，在應答列表中搜索相應的應答內容，然后使機器人說出應答內容以實現人機對話。

2.4 執行操作

通過語音識別確定合法的操作指令，向機器人發送指令完成相應的操作。

在上述諸環節中，語音信號采集技術成熟、結構簡單，完成語音傳感器（話筒）、采集卡（聲卡）的物理連接，開發語音采集配套程序即可進行語音采集。語音識別是整個系統中的核心部分，對話應答和執行操作都依賴語音識別的結果。對話應答要求機器人具備說話能力，通過語音合成技術將應答內容轉換為會話語音。執行操作部分是向機器人發布控制命令，可直接利用機器人已有的指令控制方式。語言交互控制的處理流程如圖2所示。

3 語音交互詳細設計

由前述分析可知，實現機器人語音交互控制的關鍵是語音識別和用于對話應答的語音合成。結合系統需求和語音技術發展狀況，采用基于現有語音開發包的方式實現了整個語音交互控制系統。

3.1 選擇開發方式

語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術，技術內容主要包括特征提取技術、模式匹配準則及模型訓練技術三個方面[6]。客觀地講，盡管有一些公司提供了某些語音識別的商業應用，但真正高效可靠的語音識別技術仍然是一個技術難點，相對而言抗干擾性差、對語音輸入要求高[7]。

目前常用的語音開發工具有微軟公司的SAPI語言引擎和國內科大訊飛提供的InterReco語音識別系統。對機器人語音交互這類命令式識別而言，兩者效果相當，因科大訊飛開發包成本高而采用微軟的SAPI進行語音識別開發。

SAPI（Speech Application Programming Interface）是微軟語音開發包（Microsoft Speech SDK）提供的關于語音（Speech）處理的一套應用程序編程接口，包含了實現文字-語音識別（Speech Recognition）和語音合成（Text-to-Speech）程序的基本函數，大大簡化了語音編程的難度，降低了語音編程的工作量[8]。

下圖所示是微軟SAPI的開發架構，語音引擎通過設備驅動接口DDI層SAPI運行庫通信，應用程序則通過應用程序接口API層和SAPI交互。通過使用這些API進行語音識別和語音合成方面的開發。

3.2 語音識別的詳細開發

3.2.1 SAPI工作模式

用SAPI構建語音識別系統可以采用兩種識別模式：語音命令控制模式和語音聽寫模式[9]。采用語音命令控制模式構建的語音識別系統，適合小詞匯量、孤立詞、非特定人的語音識別，但是需要創建語法規則，識別范圍只能局限于語法規則內所設計的短語或字詞，適應性差但限定內容識別率高。語音聽寫模式構建的語音識別系統適合于大詞匯、連續語音的識別，同時無須構建復雜的語法規則，語音識別的適應性強，但識別率相對要低一些。

機器人語音交互控制的指令是有限且相對固定的，因此采用識別率更高的命令控制識別模式。按照SAPI的開發流程，完成語音識別的基本配置和識別引擎初始化即可進行語音識別。

3.2.2 語法規則的創建與維護

語音命令識別模式的關鍵問題是語音規則，是對能夠識別的命令庫的標準化描述。SAPI的語法規則采用XML（eXtensible Markup Language，可擴展標記語言）格式。在進行識別工作之前需要編寫一個語法規則文件，其中定義了需要識別的字和短語，SDK語音識別引擎加載該語法規則來識別用戶的語音。

在XML中每個實體或元素是由開始標記<屬性名>和結束標記所組成，在其中間夾的語句就是該實體或元素包含的文法內容。文法的內容可以是普通文字，或者是文法元素的子元素。XML規范中對于合法的文法內容的正式定義是采用多集合表達式的形式。利用這些定義，就可以精確定義文件的語法和文法中的規則。在文法中，

和

中插入的是一組待識別的字或短語，而中插入的是以

為可選擇項的可能匹配用戶語音的字或短語。

圖4所示是機器人語音交互控制采用的部分語法規則。其中GRAMMAR LANGID="804"，指明了識別對象是中文漢字，在識別過程中將調用漢語聲學模型;位于

和

之間的是諸條識別命令。

XML語法文件可根據識別命令手工編輯，當識別命令發生變化時需要同步更新并加載XML文件，語音識別引擎才能識別新的指令。因此手工編輯方式不便于更新語法，在開發過程中根據XML規則實現了語法文件的程序化更新，采用MSXML2：：IXMLDOMDocumentPtr和MSXML2：：IXMLDOMEl ementPtr對XML文件進行編輯。

3.3 語音合成

語音合成又稱文語轉換，能將任意文字信息實時轉化為標準流暢的語音朗讀出來[10]。通過計算機語音合成可以在任何時候將任意文本轉換成具有高自然度的語音，從而真正實現讓機器“像人一樣開口說話”。這正是機器人語音交互應答的需求。

采用微軟SAPI實現語音合成的步驟與語音識別大致類似，同樣包含基本設置（音量和語速）和引擎初始化。其中的一個關鍵問題是選擇發音庫，即讓機器人以什么樣的腔調說話。微軟SAPI包含了中英文的發音庫，但在SAPI 5.4及以下版本里中文發音類型少且效果較差;可通過安裝第三方的語音庫增強語音合成效果，如Neospeech語音庫。

4 提高識別率的方法

按照上述流程完成了機器人語音交互控制系統的開發，經現場測試正確識別率超過90%。要進一步提高語音識別率，可加入語音預處理及用戶訓練。特別地，本文在語法規則設計上進行了實驗研究。

采用圖4所示的語法形式，在語音識別時對每條指令的判斷是采用整體比對，最終的識別結果是與上述列表中最為接近的選項。實驗證明此種形式的語法規則下正確識別率較高，但是虛警率偏高，即可能將某些干擾音輕易地識別為某條指令，特別是一些短的指令，如“打開”等。分析產生這種問題的原因，應該是某些干擾中含有與這些短指令類似的語音成分。為了保證識別率，這種整體指令形式的語法規則下的比對并不是非常嚴格的比對，因為識別系統要容忍一定程度的輸入偏差，如將“山東”讀成“三東”也應能識別出來，畢竟用戶的發音可能千差萬別的。

因此，在上述語法規則下一些短的指令往往被誤識。為改善這一問題，設計了更為嚴格的比對規則，如圖5所示。在這種分段形式的語法規則下實現了更為嚴格的匹配識別。實驗結果也驗證了這種分析，采用這種比對語法能顯著地降低誤識率。

對比圖4、5所示兩種不同形式的識別語法，可以說各有所長，因此如何合理地設計語法規則是改善語音識別效果的一個途徑。

5 結論

為增強智能服務機器人的語音交互功能，根據應用需求設計了完整的語音交互開發流程。在此基礎上基于微軟語音應用程序接口SAPI，完成了一套人機語音交互控制系統?，F場測試結果表明，系統的各項性能指標滿足設計要求。限于語音識別技術的發展水平，機器人的語音識別能力與人相比還有很大差距，仍是下一步亟須解決的問題。

參考文獻

[1]李安琪，蘇偉，吳燕.服務機器人技術的發展[J].科教導刊-電子版（下旬），2018，（11）：261-262.

[2]李強，喬克，顏紅，江熙.基于人工智能技術的電力營業廳機器人設計[J].智能城市，2018，4（24）：10-11.

[3]王博瑋，陸中成.基于云的餐廳服務機器人系統設計[J].自動化儀表，2019，40（8）：65-69.

[4]翁劍鵬，彭軍發，李金林，易向東.基于語音識別的人形機器人的設計與實現[J]. 科技創新導報，2019，16（18）：138-139.

[5]黎世銀，任瑾，任家毅.基于語音控制的自主尋跡與避障智能小車設計[J].電子世界，2019（5）：133-134.

[6]吳麗麗.孤立詞語音識別算法的研究與系統仿真[D].東北大學，2012：1-77.

[7]唐美麗，胡瓊，馬廷淮.基于循環神經網絡的語音識別研究[J].現代電子技術， 2019，42（14）：152-156.

[8]羅志增，趙敬斌.機器人語音控制及其實現[J].杭州電子工業學院學報，2004，24（1）：30-34.

[9]初琦.Speech SDK在語音機器人開發中的應用[J].北京工業職業技術學院學報，2008，7（4）：32-36.

[10]邱澤宇，屈丹，張連海.基于WaveNet的端到端語音合成方法[J].計算機應用， 2019，39（5）：1325-1329.