馬海峰,孫利峰,翟二寧,徐建鋒,李永鋒
(1.西北機電工程研究所,陜西 咸陽 712099;2.中國人民解放軍 66289部隊,河北 涿州 072750)
隨著人工智能技術的迅猛發展,國內外針對人機交互技術的研究日益廣泛。從人機交互角度來看,改善信息輸入手段、減少人工操作時間,是提高信息系統效率的重要手段[1]。現役自行裝備內僅能通過視頻、畫面等顯示方式使操作人員“看”到裝備狀態和外部指令等信息,對信息的處理和利用只能采用文字或圖形的方式。操作人員對信息的感知方式單一,缺少“聽”的感官方式,尤其在作戰時,操作人員精神高度集中,特別是在觀察PPI(Pixels Per Inch)畫面或戰斗畫面中的目標時,容易忽略重要的狀態或顯示的指令信息,造成不期望出現的后果。開展自行裝備的語音交互技術研究,對于優化裝備系統人機工效,提升整個系統的運行效率,有著重要意義[2]。語音交互與其他交互技術有機結合是車載武器系統人機交互技術發展的重要方向,其應用前景非常廣泛。
針對自行裝備信息感知技術的研究,通過增加播報功能,將重要信息通過語音方式進行播報,解決車載裝備中人機交互方式單一問題,使操作人員能“看”到信息的同時可以“聽”到信息,豐富操作人員對信息的感知方式,進而提高車載裝備的信息利用效率,在裝備運用中具有一定的現實意義。基于上述背景及應用需求,筆者設計了一款車載通用語音交互系統,實現了語音合成播報和多通道音頻管理功能。語音合成播報功能用于實時監控、采集系統總線狀態、故障及警報等數據信息或接受上級指揮控制命令并通過語音合成進行語音播報;多通道音頻管理功能用于多路模擬音頻輸入/輸出信號調理并完成各通道獨立音量控制、話音通道切換選擇等。
車載語音交互系統由語音播報器、PTT(Push To Talk)發控組合、揚聲器、有源麥克風組合等組成。語音播報器為核心設備,由主控板和音頻處理板等構成,負責數據處理、語音合成、音頻信號處理、邏輯控制、接口管理等任務;PTT發控組合為電臺發控信號采集、隔離、輸入裝置;麥克風組合為多路麥克風音頻采集、疊加、輸入裝置;揚聲器為音頻播放裝置。
語音交互系統組成如圖1所示。

語音播報器通過數據接口模塊獲取空情、命令、狀態等信息;處理器模塊進行數據分析及轉換,并將結果發送給語音合成模塊;語音合成模塊進行語音合成并輸出模擬音頻信號。該音頻信號匯同2路電臺輸入音頻信號以及1路有線設備輸入音頻信號經過獨立音量調節電路后,輸入模擬混音電路實現語音疊加。混合音頻信號經功放電路進行功率放大之后輸出給揚聲器,最終通過揚聲器播報信息。
麥克風組合采集的模擬音頻信號經過有源放大及語音疊加之后輸入音頻通道管理模塊,音頻多通道選擇電路在處理器模塊通道選擇邏輯控制下完成混合音頻信號三選一通道輸出,分別作為2路電臺或1路低速有線設備音頻輸入信號。最終在PTT發控組合控制下,電臺或有線設備發送輸入的音頻信號。
語音交互系統工作原理如圖2所示。

語音播報器為語音交互系統核心,其硬件設計采用模塊化設計思想,主要包含處理器模塊、語音合成模塊、功率控制模塊、音頻通道管理模塊、接口模塊等。
處理器模塊核心芯片選用AM4379處理器,主頻高達1 GHz,集成2路CAN、2路千兆網口以及多路UART,適用于各種工業應用現場。具有功耗低,接口豐富,處理能力強等優勢,可滿足總體設計需求。
功率控制模塊包含音量調節和功率放大兩部分。音量調節通過微調音頻信號輸出功率來實現,功率放大電路為驅動揚聲器提供足夠輸出功率。音量調節選用4通道專業、高端音頻系統音量控制器PGA4311,具有以0.5 db為步進的-95.5~+31.5 db寬增益范圍。處理器模塊通過SPI(Serial Peripheral Interface)接口發送音量調節命令,4通道獨立控制,且支持靜音模式。功放器件選用TPA3106D1VFP高效D類BTL音頻功率放大器,最大輸出功率40 W,4種固定增益可通過2引腳進行設置,且具有過熱、短路自恢復保護功能。該功率放大電路設計簡潔,轉換效率高達92%,無散熱裝置,體積小[3]。
語音疊加選用雙運算放大器RC4580-Q1,具有低噪音、高增益帶寬、低諧波失真、高輸出電流特性,適合于音頻處理應用。4路音頻輸入信號經過1∶1反相加法運算,再由跟隨電路輸出,提高驅動能力[4]。
為了改善音頻信號質量,提高語音辨識度,在語音疊加輸出端設計了8階30 kHz低通貝塞爾濾波器[5],2階低通貝塞爾濾波器如圖3所示,將2階濾波器進行簡單的串聯便構成了8階低通貝塞爾濾波器。

貝塞爾濾波器通頻帶內提供平坦的幅度和線性相位響應,音頻信號失真小,但它的選擇性比同階的巴特沃斯或切比雪夫濾波器差,所以設計了高階濾波器,從而必須嚴格選擇放大器和元器件來達到最低的噪聲和失真度。
設計選用低噪聲高精度CMOS雙運算放大器AD8656,1%公差的電阻器和5%公差的陶瓷電容器。在整個電路中使用低于1 kΩ的電阻器,可以降低熱噪聲影響。每個AD8656放大器在30 kHz帶寬內帶來的噪聲低于3 nV/Hz,并且在30 kHz帶寬范圍內總噪聲低于3.5 mVrms.對于1 Vrms輸入信號,電路產生的信噪比優于109 dB,并且對于1 kHz、1 Vrms輸入信號,電路產生的THD+N(總諧波失真+噪聲)因子優于0.006‰.
語音合成模塊選用XFS5152CE芯片,該芯片是高集成度的國產語音合成芯片,支持任意中文、英文文本的合成。采用GB2312、GBK、BIG5 和 UNICODE 4種編碼方式,每次合成的文本量最多可達 4K 字節。芯片對文本進行分析,對常見的數字、號碼、時間、日期、度量衡符號等格式的文本,該芯片能夠根據內置的文本匹配規則進行正確的識別和處理;對一般多音字也可以依據其語境正確判斷讀法;另外針對同時有中文和英文的文本,可實現中英文混讀。
處理器模塊通過異步串口(UART)發送控制命令,可對XFS5152CE芯片進行相應的控制,當XFS5152CE收到語音合成命令時,直接合成指令中包含的文本數據并播報輸出。XFS5152CE芯片外圍電路主要包括復位電路、時鐘電路,以及異步串口波特率、電源等配置電路。語音合成模塊電路框圖如圖4所示。

語音播報器軟件采用層次結構化設計方法。定制的BSP程序完成Linux操作系統與硬件平臺的無縫聯結;API程序封裝應用程序的I/O操作、DMA操作、中斷例程及OS調用[6]。
根據系統功能要求,應用軟件包含6個功能模塊:CAN總線接收和解析模塊;串口數據接收和解析模塊;以太網數據接收和解析模塊;語音合成處理模塊;音量控制模塊;通道選擇邏輯模塊。工作流程如圖5所示。

上位機控制界面的開發基于VxWorks 系統風河多媒體庫(WindML)和圖形開發工具Tilcon.作為一套微內核、高可靠性、可裁剪的嵌入式實時操作系統,VxWorks具有友好的用戶開發環境、高性能內核及良好的持續發展能力,可靠性高、實時性強;Tilcon是先進的多平臺嵌入式實時操作系統圖形開發環境,其IDS集成開發環境,能夠在嵌入式實時操作系統下設計出運行效率好、圖形質量高的人機圖形用戶界面GUI[7].
語音播報器控制界面采用彈出式菜單設計,通過軟按鍵控制其彈出或隱藏。界面包括通道選擇和音量調節兩個控制區,通道選擇包含“電臺1”、“電臺2”及“有線”3個單選框,對應3路音頻輸出通道選擇控制;音量控制按照全通道或各通道獨立調節方式設計,拖動按鈕完成相應通道音量調節任務。語音播報器控制界面如圖6所示。

在某自行裝備上,將車載語音交互系統接入CAN/ETH系統總線,通過串口與綜合管理系統相連,電臺1、電臺2及有線話音設備通過音頻口接入語音播報器。試驗系統架構如圖7所示。

該語音交互系統通過監聽CAN/ETH系統總線數據,讀取裝備狀態、故障、警報等信息,進而語音合成并播報;裝備綜合管理系統將情報、控制、位置和命令信息采用TXT文本的方式通過串口發送至語音交互系統,語音交互系統進行語音合成并播報;通過綜合管理系統遠程操控語音播報系統,包括音量調節、音頻通道選擇以及播報器狀態查詢等。
試驗過程中,模擬實際應用場景,分別在CAN/ETH總線輸入各種狀態、故障、警報等數據信息;綜合管理系統模擬發送各種情報、指令及控制命令。測試語音交互系統語音播報功能清單如表1所示。

表1 語音播報功能清單
注:預置播報指令為1條/min,每條不超過15個漢字。
通過綜合管理系統部署語音播報器控制軟件,分別對通道選擇及音量調節控制進行了100次反復測試,全部操作成功。
驗證結果表明該語音交互系統能夠通過系統總線及數據接口獲取信息,從而進行語音合成并播報;能夠實現遠程音頻通道選擇及音量調節控制;麥克風及發控組合可以通過電臺或有線設備對外通話,功能正常。通過該語音交互系統實裝使用,有效降低了重要作戰指令、狀態提示以及故障警報等信息錯漏的可能;且可以替代傳統車內通話系統,操作簡單、便捷。
為提升某自行裝備人機交互效率,完善操作人員信息獲取方式,筆者設計了一款車載語音交互系統,首次實現自行裝備數字信息的語音播報服務;同時支持終端控制功能,可以實現遠程音頻通道選擇及音量調節。實踐證明該語音交互系統結合傳統人機交互模式,完善了車載裝備人機交互功能,提高了操作人員對整個裝備系統狀態的掌控能力和信息的利用效率,對于人機功效的提升具有積極意義。該語音交互系統已在某自行裝備成功應用,提升了整個武器系統的作戰效率。