周瑞巖
摘要:隨著互聯網技術的不斷發展,語音識別、語音翻譯等在生活中普遍應用。以現有基于互聯網構建的語音識別技術為基礎,對其原理進行分析,語音命令轉換器利用離線數據庫進行語音降噪處理,識別采集的語音信息并轉換形成文本信息,與數據庫的特定數據指令進行匹配,再按照指令格式輸出用于試驗訓練,以提高采集信息的時效性。
關鍵詞:降噪;音頻采集;語音識別;語義分析;命令翻譯;數據庫
中圖分類號:TP274文獻標志碼:A文章編號:1008-1739(2018)23-60-2
0引言
近年來,隨著互聯網技術的不斷發展,云技術和大數據技術構建的智慧城市、智慧交通等已經惠及生活,較前些年僅可以通過電話、短信方式進行通信,現以互聯網技術構建的微信語音、微信視頻等通信方式更方便,雖然語音識別、語音翻譯等應用APP在生活中隨處可見,但該技術卻未曾在軍事應用中實現,隨著部隊深化改革的推進,以往通過輔助終端發送命令或裝備信息的方式很難在時域、頻域及可用性上滿足試驗訓練考核的需求,為此借助當前市場上的語音識別、語音翻譯等技術及實現模式,以試驗訓練需求為根本,進行語音命令轉換器的設計。
該設備實現中文自然語音命令的識別,并轉換成相應的設備控制指定報文。輸入為中文語音命令,內部進行識別、語義翻譯及存儲結果,同時可以實現語音命令翻譯為設備控制報文。
1系統國內外現狀
圍繞著語音識別翻譯,國內外有很多圍繞互聯網開發的相應軟硬件系統。
1.1國外現狀
在國外有Nuance、Google、Apple、MSRA語音等公司進行語音識別的開發,還有多款開源軟件,如HTK、Kaldi、Speech等。
①HTK[1]:一款語音識別工具包,源碼可免費獲取。識別流程:語音文件---》HMM---》文件信息;訓練流程:訓練語音文件---》HTK---》HMM。
②Kaldi[2]:一款非常強大的語音識別工具庫,主要由Daniel Povey開發與維護,目前支持GMM-HMM、SGMM-HMM、DNN-HMM等多種語音識別模型的訓練與預測。其中DNN-HMM中的神經網絡還有配置文件自定義,DNN、CNN、TDNN、LSTM及Bidirectional-LSTM等神經網絡結構均可支持。
③Speech工具庫:使用Python3依賴Speech模塊,弊端是離線版開發難度大。
1.2國內現狀
國內開發類似軟件的公司有科大訊飛、云知聲及百度語音等,其中科大訊飛的多款產品應用廣泛,如訊飛翻譯機2.0、訊飛輸入法、訊飛聽見、阿法爾蛋及叮咚音樂盒,還有支持開發的語音引擎。
2方案設計
2.1總體設計
語音命令轉換器采用獨立的系統設計[1-2],輸入接口為語音,輸出可以是串口、網口或者其他類型接口。為了保證語音采集的清晰可靠,采集設備可以采用高性能的降噪麥克風或麥克風陣列,通過音頻接口輸入計算機。命令的報文輸出可以根據具體的操作設備輸入不同而采用不同的接口,例如有UART、CAN及以太網等[3-4]。
為了提高識別準確度,命令需要按照預定義的格式提前在系統中存儲。當語音命令轉換器收到語音指令后,會根據在系統中預置的命令去匹配目標設備和具體的操作指令[5]。
例如:系統提前預定義命令如下:
:(開機)