劉明輝,徐 莉
(天津三星通信技術研究有限公司,天津 300385)
傳統的人機交互是通過觸覺來實現對機器的操作和控制,但是這種操作方式有很大的弊端。操作不方便,費時,尤其是針對視覺障礙的人士來說更加困難。隨著社會節奏的不斷加快,人們希望使用一種更加便捷的方式來替代觸覺對機器的操控。在這種大背景下智能語音系統的出現體現了其優勢,越來越多的智能設備采用了這種智能語音的技術來實現操控。智能語音控制系統大體分為兩個部分:語音合成系統和語音識別系統。
語音合成(Text To Speech)是通過機械的、電子的方法產生人造語音的技術。傳統工業領域使用的語音控制方式是通過可編程控制器plc控制數碼語音芯片,從而實現語音的分段錄音,組合回放。通過軟件的修改實現長段錄音,循環播放等功能,從而實現在工業控制方面的語音合成與解析。這種語音系統,廣泛應用于電腦語音中,語音型數字萬用表,排隊機,以及公共汽車報站等領域[1]。
傳統的語音合成系統,存儲空間較小,其合成詞語受限,只能合成有限的詞語句子,應用的場景非常有限;其次,由于語音控制芯片參差不齊,其語音合成效率不高,合成效果差。除此之外,還需要通過算法來優化語音合成效果。改進的以服務器為核心的語音合成系統,由于其擁有存儲容量大,可實現cpu多核處理和處理速度快等優勢,可直接錄制真人語音樣本用于語音播放,不需要算法合成,效率高,質量好。并且可以根據用途,提前錄制語音反饋樣本,極大的擴展了語音控制系統的應用范圍。
語音識別,也被稱為自動語音識別(Automatic Speech Recognition,ASR)技術,就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的技術,也就是讓機器聽懂人類的語音。由于語音信號的多樣性和復雜性,傳統的語音識別系統只能在一定的限制條件下獲得滿意的性能,或者說只能應用于某些特定的場合[2]。比如目前的語音識別系統,僅對單一指令識別效果較好,對一條語音中包含兩條以上指令的語句,系統無法準確解析并執行用戶指令。改進的以服務器為核心的語音識別系統,可以對復雜的語音指令識別,通過RU標準語句,和RSU標準生成子語句,分別對系統進行訓練,簡單來說,RU語句就是非常準確的標準的精簡的語句指令,要求用戶精準發出指令,這種指令由于覆蓋精準,語料集小,所以處理速度快,效率高,但是對用戶發出指令的要求高,而RSU則是研究人員根據RU指令,對標準語句進行擴展,使服務器能夠解析口語化的指令,由于語料集的擴大,從而更能提高理解用戶指令的質量。通過這兩種方法對模型進行訓練,可以既保證識別速度,又可以對口語化的指令進行精準識別,達到正確識別用戶語義的效果。
該系統由終端設備模塊,語音分析模塊,服務器以及服務器數據庫組成。用戶通過手持設備和終端進行語音輸入。手持設備和終端對用戶輸入的語音進行信號轉換然后將解析的語音信號發送給服務器,服務器內預置了提前訓練的匹配規則,這種匹配規則是研究人員通過大量的市場調查制定的規則,然后接收到的語音信號與預先預制規則進行匹配,當匹配準確度達到預先設定的一個閾值時。服務器即把此規則認為成用戶發送的指令。然后在服務器中的數據庫找到相應規則的實現指令。然后將這個實現指令逐條的發送給手持設備終端。手持設備終端根據發送的指令進行執行。執行完后,再將結果反饋給服務器,服務器根據反饋結果下發第二條指令或終止指令。
終端設備可以是手機,筆記本電腦和其他手持終端設備。用戶可以通過此終端設備進行語音控制。同時根據數據庫下發的指令。實現用戶語音控制的目的。
語音分析模塊,此模塊的功能主要是把輸入的語音分解成一定的語音規則。此規則,我們根據詞語的重要程度進行劃分。增大有意義的實詞的比例,刪除沒有意義的虛詞。然后將解析好的語句上傳給服務器。
服務器端,提前根據研究員制訂的一系列常用的匹配規則進行訓練。而數據庫中存放的是這些規則對應的執行指令。一條規則會對應多條執行指令來完成這個功能。服務器接收到語音分析模塊上傳的語音。解析的結果和服務器中的規則進行匹配。當匹配到某一個規則后。服務器從數據庫中找到相應的執行指令通過json文件下發給終端設備。
數據庫將指令下發給終端設備。設備實行完指令后,如果成功執行,則將成功碼反饋給服務器,然后服務器在進行第二條執行指令的下發,直到完成最終的指令。如果終端正確執行指令,則服務器收到完成指令后下發完成語音。終端將完成語音廣播出去。如果終端沒有正確執行,則將錯誤碼反饋給服務器。服務器根據反饋的錯誤碼下發預制的語音數據給終端設備。
綜上所述,以服務器為核心的語音控制系統由于使用服務器進行語音的處理和合成,所以,可以有效的改善提高語音合成的效率和合成音質,避免了傳統語音控制系統的合成詞匯有限的弊端。此外,隨著相關研究人員在這一方面的工作經驗的不斷豐富,手持終端設備的不斷的多樣化,這種語音控制系統語音識別和合成的效果會大大優化,語音控制的效率和準確度能夠大幅度提高,并廣泛的應用于工作和生活中。
[1] 范會敏,何鑫.中文語音合成系統的設計與實現[J].計算機系統應用,2017,(02):73-77.
[2] 張仕良.基于深度神經網絡的語音識別模型研究[D].中國科學技術大學,2017.