黃偉潛
(廣東嶺南現代高級技工學校,廣東廣州,510663)
社會的飛速發展,人類對機器人的需求越來越迫切,提高與機器人的交互性能需要不斷地改進新技術。而各國政府對智能機器人的研究進行大力的支持和資金投入。語音識別技術的出現使得機器人能聽懂人類的自然語言,給人類帶來了極大的方便。因此研究并開發實用的機器人語音識別系統對于機器人的廣泛應用具有重要的意義。
語音,是語言通過聲學進行表現的一種形式。一直以來,人類運用語音來進行溝通交流是最自然和有效的方式。語音識別技術能讓計算機理解人類語音,最終目標是實現人與機器進行自然語言通信,從而根據其信息執行人的某種意圖,圖1是語音識別的結構圖。語音識別的關鍵技術主要包括以下四個方面:語音信號的預處理、特征參數提取、模型訓練和模式匹配。

圖1 語音識別結構圖
在對語音信號進行分析和處理之前,必須對信號進行預處理。預處理包含了采樣、去除噪音、端點檢測、預加重、分幀、加窗等過程;語音信號完成端點檢測和分幀處理后,再進行特征參數的提取工作,由于語音信號數據量比較大,為了壓縮數據信息量,應當對其進行特征提取,也就是對語音信號進行分析處理,從語音波形中提取出比較有代表性的反映語音特征的相關信息,去掉那些相對不重要的信息,如信道失真的信息和現場環境的噪聲等。對語音識別出次要的冗余信息,獲得影響語音識別的重要信息。去除對于非特定人語音識別,希望特征參數盡可能多的反映語義信息。而從信息論的角度來說,這是實際就是信息壓縮的過程;模型的訓練是按照規定的準則,從大量已知模式中獲取表征該模式本質特征的模型參數,而模式匹配就是根據一定準則,使未知模式與模型庫中的某一個模型獲得最佳匹配。
從圖1.1可以發現,語音識別過程實際上就是模式匹配的全過程。我們應當首先創建一個較完美的數據模板,這就需要有較多的原始語音數據來訓練這個語音模型,而語音識別是根據模式匹配的原則,計算未知語音模式與語音模板庫中的每個模板的距離參數,從而得出了最合適的匹配模式。通常比較成熟的識別方式有隱馬爾可夫模型、人工神經網絡和動態時間規整技術等。
隱馬爾可夫模型分析方法是運用了概率統計學理論來對語音信號進行分析與處理的方式。它一方面用隱含的狀態對應聲學層穩定的發音單位,通過狀態轉移和狀態駐留來表示發音的變化狀況,而另一方面引入概率的統計模型,用概率密度函數來統計語音參數對模型輸出的概率,通過最佳路徑的搜索獲得最佳狀態序列,最終通過識別準則找到識別的結果輸出,這種模型歸屬于統計語音識別。
2017年,作者參與了廣東嶺南現代高級技工學校的機器人制作項目,并負責語音對話系統的設計。本校制作的機器人身高有2.5米,如圖3.1右部所示,軀體是指導學生采用廢舊汽車材料焊接而成,包括了齒輪、氣缸、輪軸及排氣筒等材料。機器人的外觀模仿了電影《變形金剛》中“大黃蜂”的形象,機器人的說話聲音模仿度也相對較高。
該機器人能夠對話,是因為在機器人的軀體嵌入了語音對話功能系統。該語音系統的硬件模塊主要由拾音器、主機、可觸電容屏、功放機和揚聲器等部件組成。拾音器的功能是將人類的講話內容轉換為電波信號,再送入主機的語音識別模塊;主機是核心部件,由拾音器送入的音頻信號經過A/D 轉換,傳輸給語音處理器;功放機的作用是把主機的結果信號通過放大電路變成功率較大的音頻信號;揚聲器作用是把電信號轉換成聲音,是輸出部件。我校機器人制作項目的硬件構成和實物如圖2所示。

圖2 本校“大黃蜂”機器人的硬件組成和實物
語音識別軟件系統主要能使機器人準確識別語音命令,以數據字典的方式快速地對交流的內容進行調整,再根據識別到的數據進行對比,調用之前設計好了的結果進行輸出,這樣便能與人類進行簡單的溝通。語音識別模塊的前期準備工作是用語音樣本訓練,這一過程主要是用來建立語音模型,通過大量訓練樣本中提取特征參數建立樣本數據庫,可以進行實時識別。第二階段是運用識別算法進行語音識別,在實時識別時,系統通過麥克風拾取外界語音,語音由話筒輸入,以8KHZ頻率采樣,以16bit進行A/D轉換,再經過高頻預加重運算,然后對語音分幀,幀長為 20ms。經過同樣的前端預處理后,提取出實時語音信號的特征矩陣,送入實時識別模塊。通過訓練后得到其參數存入模板庫,將機器人預定工作噪聲的模型參數也存入模板庫中,從而提高抗噪聲性能。
軟件系統設計了一個迎賓介面程序,如圖4.1所示。點擊啟動系統后進入語種選擇,可選普通話、英文和廣州話模式,本系統能夠準確識別語音命令,調用設計好的結果進行回答,能和人進行簡單的語音對話。系統運行后,通過語音指令“對話”進入該模塊,模塊運行時首先進行語音檢測,直接調用語音識別模塊,對檢測結果進行分析,然后將分析結果作為文本信息,在數據字典中進行搜索,若能找到則將答案內容反饋給語音識別模塊,朗讀出來。但是沒有找到對應的結果,則將該命令作為一條新的記錄添加到數據字典中,同時提示輸入相對應的答案內容。
實驗結果表明,在噪聲存在的環境下,系統識別率約為90%。識別率有一定的提高。由于語音信號經過同態變換,將聲道激勵分量和音源激勵分量從中分離而出,濾除掉音源激勵分量對語音系統識別率的負面影響,在頻域內能更好地描述語音信號,因此系統識別率有較好的提升。但是如何更能改進這部分的功能,提高機器人的交互性,將是未來的重點工作。

圖4.1 “大黃蜂”機器人的程序界面
本文以實現一個簡單高效的、性能良好、應用性強的機器人語音識別控制系統為目的,對語音識別的關鍵技術與語音對話系統的設計進行了淺析。但由于作者的時間和水平有限,還有許多難點問題還需要進一步學習,比如對于非特定人識別率方面的提高,因為該系統的面向的使用者是大眾,這樣就需要支持非特定人識別的算法。需要擁有足夠的訓練數據,數據量較大,這也對系統的硬件提出了更高的要求。
[1]李翠, 羅小妮.基于語音識別技術的智能對話機器人的設計[J].濟南職業學院學報, 2015, (01): 94-96.
[2]詹新明, 黃南山, 楊燦.語音識別技術研究進展[J].現代計算機(專業版),2013, (9): 43-45.
[3]楊世強, 梁丁洪, 傅衛平.智能機器人語音遠程控制系統的設計[J].計算機工程與應用, 2012, (25): 71-73.
[4]萬軍, 呂值敏, 熊建國.基于語音識別的機器人控制技術綜述[J].科技展望, 2016, 26(22): 9.
[5]和興敏.基于HMM算法的仿人機器人語音識別技術的研究[D].哈爾濱工業大學, 2013.