一種基于語音交互應用的全時AI電視系統設計方案

2022-03-22 09:10:39洪文生徐遙令沈思寬艾倩

電子產品世界 2022年1期

關鍵詞：電視

洪文生徐遙令沈思寬艾倩

摘要：提出一種基于語音交互應用的全時AI電視系統設計方案，詳細闡述了系統工作原理及AI語音交互、AI待機交互、線性陣列麥克風模塊和防反射收音管道設計關鍵技術；系統在開機和AI待機狀態時均可進行AI語音交互，實現不間斷全時語音交互，同時AI待機語音交互功率低，系統語音交互準確性和識別率高。該方案已應用于創維全時AI電視產品，效果良好，產生了良好效益。

關鍵詞：語音交互；全時AI；電視

以人為中心的身體、姿態、動作、表情、語音識別技術的自然人機交互已開始應用于智能電視[1]。聲音可最自然和直接地訪問信息和交換信息，語音信息輸入、識別和實現，可以大大降低用戶的通信成本，豐富人機交互[2]。語音識別技術是通過對語音信號特征的提取，使用不同的模式對其進行匹配，最終將語音信號轉化成為文本內容或者命令的技術[3]。

語音交互作為最符合人機交互的方式之一，逐步成為電視等智能硬件的“標配”，并使語音搜索成為了主流的AI（artificial intelligence，AI）技術[4]。AI語音技術在智能電視上應用，需要24 h全時段支持交互功能，不管是開機狀態還是待機狀態，都要能夠接收和處理語音、實現交互，為人們提供高品質和便捷的交互服務。

本文提出一種基于語音交互應用的全時AI電視系統設計方案，闡述了系統工作原理及AI語音交互、AI待機交互、線性陣列麥克風模塊和防反射收音管道設計工藝關鍵技術；系統在開機和AI待機狀態時均可進行 AI語音交互、實現不間斷全時語音交互，同時AI待機時的交互功率低，采用線性陣列麥克風和防反射收音管道設計實現良好的收音效果，系統語音交互的準確性和識別率高。該方案已用于創維全時AI電視產品，得到了良好應用。

1 系統原理

基于語音交互應用的全時AI電視系統由全時和分時工作模塊組成，框圖如圖1所示。全時工作模塊包括陣列麥克風、語音DSP、互聯網功能、語音處理部分及電源管理模塊；分時工作模塊包括顯示處理、視頻處理、音頻處理及其他電視處理模塊。

全時AI電視系統有三種狀態：開機、AI待機和深度待機。開機時，全時工作模塊和分時工作模塊處于工作狀態，電視可以進行語音交互、音視頻播放等；AI待機時，全時工作模塊處于工作狀態，而分時工作模塊處于關閉狀態，此時僅語音交互相關的模塊處于工作狀態，其他模塊基本不消耗電能，在保持正常語音交互的情況下實現了低功耗；深度待機時，全時工作模塊和分時工作模塊都處于關閉狀態，此時功耗極低，但無法進行語音交互。

全時AI電視系統的待機流程如圖2所示。電視在開機狀態時，可以進行AI語音交互、音視頻播放等，接收遙控器、按鍵、語音或手機等設備發出的待機指令，如果此時系統設置為AI待機且網絡連通，將先關閉分時工作模塊，然后進入AI待機狀態；否則依次關閉分時和全時工作模塊，然后進入深度待機狀態。在AI待機時，可以進行AI語音交互、響應語音指令，打開分時工作模塊的部分功能，進行語音響應播報聲音；可以通過語音喚醒電視或傳統遙控方式快速喚醒電視，使電視系統不需要重啟而迅速進入開機狀態；還可設定特定條件（如長時間未進行AI語音交互時）自動切換至深度待機狀態，以節省能耗。在深度待機時，不響應AI語音交互，且必須通過傳統的遙控或按鍵開機指令使系統重啟后進入開機狀態。

2 關鍵技術

1）AI語音交互技術

AI語音交互技術原理框圖由全時AI電視系統、網絡、服務器系統組成，如圖3所示。其中，全時AI電視系統包括聲音采集、聲音提取及增強、人聲識別與語音檢測等模塊；服務器系統包括語音識別、邏輯轉換等模塊。

全時AI電視系統通過聲音采集模塊采集聲音（包括環境噪聲、人聲、及電視喇叭聲音等），進行降噪等預處理后得到聲音信號，然后對聲音信號進行回音消除、去混響、聲音提取和增強等處理，以及進行人聲識別及人聲端點語音檢測，獲取人聲語音信息，然后將語音編碼、調制后通過網絡傳送給服務器系統；服務器系統接收語音后，進行語音識別和邏輯處理等，向全時AI電視系統反饋語音代表的語義等信息；全時AI電視系統接收到反饋信息后，進行解碼處理并生成電視系統的執行指令，控制電視系統的模塊工作，完成AI語音交互。

2）AI待機交互技術

由系統原理闡述可知，在AI待機時分時工作模塊進入關閉狀態。而在AI待機過程中，為滿足良好人機交互需要、同時要兼顧低功率消耗，根據AI交互不同的指令，在交互時需要合理啟動分時工作模塊的部分功能進入工作狀態。AI交互指令及處理功能工作狀態如圖4所示。

AI待機交互技術設計原理為：①當AI語音為音頻指令時，需合理開啟音頻處理功能；如語音輸入“今天天氣怎么樣”，電視系統收到服務器系統的反饋信息并生成及執行指令，立即開啟音頻播放功能進行天氣播報；如語音輸入“播放音樂”，電視系統收到服務器系統的反饋信息并生成及執行指令，立即開啟音樂播放器和音頻播放功能播放音樂。②當AI語音為視頻指令時，需合理開啟視頻和顯示處理及音頻處理功能；如語音輸入“播放中央一套”，電視系統收到服務器系統的反饋信息并生成及執行指令，立即開啟視頻播放功能和打開電視屏幕顯示及開啟音頻播放功能，進行央視一套節目播放。③當接收到遙控或按鍵指令時，需合理開啟顯示或音頻處理功能；如指令為待機，需要立即開啟顯示功能；如為音量加減，則僅開啟音頻處理的音量調節功能而不開啟顯示功能。在特定或設定場景下，如果未檢測到AI語音交互或遙控等指令，系統可以由AI待機狀態進入深度待機狀態。

3）線性陣列麥克風模塊及工藝

麥克風設計是影響全時AI電視系統語音交互準確性和精度的重要因素之一，系統采用線性陣列麥克風模塊及防反射收音管道設計工藝。

防反射收音管道設計示意圖如圖6所示，由導音管、密封圈、吸音膜及麥克風組成。防反射收音管道的導音管開孔大于麥克風收音孔20%以上、保證收音范圍較廣；密封圈采用硅膠材質，與導音管下表面精密配合，為防止聲音反射，采用吸音膜來吸收未進入麥克風收音孔的聲音，吸音膜吸收音頻頻率范圍大于人聲的頻率范圍，即大于20 Hz～20 kHz，確保每個頻段的聲音都能很好衰減；防反射收音管道能夠有效防止聲音反射問題，同時確保收音范圍廣，獲取高質量音頻。

3 系統應用

全時AI電視系統設計方案已經在多個電視產品中應用，涵蓋43～86英寸（注：1英寸=2.54 cm），包括創維電視Q40、Q51、S81、S9A等產品系列。產品內置線性陣列麥克風，支持良好的全時AI語音交互體驗，市場銷售規模超過百萬臺。

以65英寸電視產品為例，AI待機時功率約16 W，從AI待機狀態進入開機狀態的時間約2 s，支持遠距離語音交互：3 m內喚醒率99%、識別率95%，8 m喚醒率95%、識別率93%。

4 結束語

文章提出一種基于語音交互應用的全時AI電視系統設計方案，闡述了系統工作原理及AI語音交互、AI待機交互、線性陣列麥克風模塊和防反射收音管道設計工藝關鍵技術；系統在開機和AI待機狀態時均可進行AI語音交互，并實現不間斷全時語音交互；同時AI待機時的語音交互功率低，并采用線性陣列麥克風和防反射收音管道設計實現良好的收音效果，系統語音交互的準確性和識別率高。該方案已應用于創維全時AI電視產品，效果良好，產生了良好經濟社會效益。

參考文獻：

[1]任飛.智能電視軟件平臺關鍵技術研究[D].成都：電子科技大學， 2013.

[2]汪文弈.智能電視語音交互系統的研究與設計[D].成都：電子科技大學，2017.

[3]王景山.基于語音交互的電視節目點播系統[D].蘭州：蘭州大學， 2016.

[4]章金水.AI客廳語音入口探索與實踐[J].數字通信世界，2020， 44（3）：24-26.

3905501908227