陳俊濤 許健才
(廣州城市職業學院 信息技術系,廣東 廣州510405)
隨著新一代信息技術快速發展和互聯網的快速普及,以2006 年深度學習模型的提出為標志,人工智能迎來第三次高速發展。與此同時,在“機器人換人”大潮下,服務機器人的應用場景不斷拓展,帶動服務機器人市場規模快速增長。
服務機器人是一種基于多種技術融合和實現的產品,其中關鍵技術包括人工智能技術、語音識別技術、傳感技術、通信技術、電機及舵機技術等。其中的語音識別技術可以讓服務機器人具有非常靈敏的“耳朵”,能夠讓機器人聽到服務對象在說什么,是提高服務機器人的服務能力和服務質量的核心技術之一,也是人與機器人溝通的主要橋梁和紐帶。
該系統主要由中央控制系統、語音采集/識別系統和驅動及行走系統等組成。具體結構如圖1 所示。其中中央控制系統由電源、控制模塊構成,語音采集/識別系統由語音識別子系統及語音采集設備構成,驅動及行走系統由電機驅動模塊、行走機構等構成。

圖1 人機語音交互系統結構圖
人機語音交互系統工作時,當人對系統發送語音指令時,系統的語音采集設備采集收到的語音并傳輸給語音識別子系統,語音識別子系統識別收到的語音,并將識別的語音信號轉換為電信號發送給中央控制系統,中央控制系統的控制模塊對接收到的語音信號與系統預先設置的指令信號進行匹配,如果匹配成功(如收到的指令為"forward"與系統指令匹配),則將對應的行動指令("forward")轉換為電信號發送給驅動及行走系統,電機驅動模塊驅動行走機構按照正確的方向行走。其他語音的交互模式與此類似。
2.1.1 Arduino UNO 簡介
Arduino UNO 是一款便捷靈活、方便上手的開源硬件產品,是一個以ATmega328 處理器為核心,同時具有1 個USB 口、14路數字輸入/輸出口(其中6 路可作為PWM輸出),6 路模擬輸入等的開發板,具有低成本、低功耗的特點。
2.1.2 LD3320 語音模塊
LD3320 語音模塊是一顆基于非特定人語音識別技術的語音識別/聲控芯片模塊。LD3320 芯片上集成了高精度的A/D 和D/A 接口,識別的關鍵詞語列表是可以動態編輯的。基于LD3320 語音模塊,可以在電子產品中實現語音識別、聲控、人機對話功能。為電子產品增加VUI(Voice User Interface)語音用戶操作界面。
2.1.3 L298N 電機驅動模塊
L298N 是一種高電壓、大電流電機驅動芯片。主要特點是:內含兩個H 橋的高電壓大電流全橋式驅動器,可以用來驅動直流電動機和步進電動機等負載;采用標準邏輯電平信號控制;L298N 芯片可以驅動一臺兩相步進電機或四相步進電機,也可以驅動兩臺直流電機。
系統中(系統主要部件接線圖見圖2),arduino UNO 作為系統的控制器,在系統啟動后,當LD3320 語音模塊中的麥克風檢測到語音時進行識別,如果語音匹配,則將信號傳輸到控制器。如果識別的語音是"forward",控制器通過L298N 電機驅動模塊驅動電機正向轉動,電機帶動小車車輪前進;如果識別的語音是"back off",控制器通過L298N 驅動電機反向轉動,電機帶動小車車輪后退;如果識別的語音是其他符合規范的語音,則小車根據相關規則進行左轉、右轉、停車等操作。

圖2 人機語音交互系統主要電路接線圖
系統軟件設計中主要包括語音識別與轉換模塊、電機驅動控制模塊。下面主要列出了涉及語音識別及電機驅動控制的關鍵代碼:


基于Arduino 的面向服務機器人的簡易人機語音交互系統能實現機器自動采集人的語音,再通過語音識別模塊識別相關語音,對于符合系統規范的相關語音執行規定的操作,如機器的前進、后退操作等,該系統設計及實現方法簡單、高效。作為一種簡易的人機語音交互系統對進一步開展服務機器人的其他功能設計提供了開發擴展空間,更為今后研究開開發性價比高的個人(家庭)服務機器人及商用服務機器人的語音交互方式提供了一種低成本、低功耗的選擇。