冠捷顯示科技(廈門)有限公司 王衍軍
2014年亞馬遜推出智能音箱Echo產品,將遠場語音應用到傳統音箱中,從而賦予音箱人工智能的屬性。在其他應用領域也在嘗試導入遠場語音技術,比如教育機器人、汽車語音助手、白色智能家電、智能廚電等。近年來智能電視開始配置遠場語音技術,帶給用戶更便捷的人機交互方式,真正實現解放雙手,帶來全新的交互體驗。
電視產品遠場語音系統硬件實現框架如圖1,采用4個麥克風線性陣列,數字麥克風輸出PDM信號給DSP處理,DSP采用的是一款中等成本專用32位DSP音頻處理微控制器,可支持8通道音頻輸入的采樣和處理,內置1MKB SRAM,工作頻率高達250MHz,同時配備了閃存控制器,它允許用戶更新程序而不需要將芯片從實際的最終產品中移除。兩顆ADC ES7210將從功放輸出回采的模擬音頻信號轉成IIS數字信號傳輸給DSP處理,麥克風采集到的PDM信號與回采的IIS數字信號經DSP算法處理,消除回聲成分后得到有用的音頻數據,再通過USB2.0傳輸給TV SOC,SOC再將音頻數據上傳到語音服務器,與數據庫連接識別語意返回給SOC電視端按語音指令做出響應。

圖1 硬件框架
麥克風選型要符合語音算法廠商設計要求,國內常用的語音算法有科大訊飛、思必馳、騰訊、百度等,本文采用思必馳語音算法,要求的性能指標包括:(1)靈敏度>-42dBFS,測試條件1KHz 94dB SPL;(2)靈敏度一致性≤±1.5dBFS;(3)信噪比(S/N)≥63dBA;(4)總諧波失真(THD)≤1%(1kHz);(5)聲學過載點(AOP)≥120dBSPL;(6)自由場頻率(100-10kHz內)響應波動≤3dB。
本文采用背收音數字硅麥克風3SM222KMB1HA,靈敏度-26dBFS且誤差在±1dBFS內、信噪比64dBA、總諧波失真小于0.2%、AOP 120dBSPL。此麥克風集成前置放大器和模數轉換器,可提供電容式音頻傳感器的高信噪比輸出。采用最常見的數字麥克風接口方式:特性脈沖密度調制器(PDM)輸出接口,支持在一條數據線上同時連接兩個麥克風,本文使用4個麥克風只需要兩條數據線輸出,簡化輸出數據線。
電視正常播放過程中,聲音的失真會影響消回聲算法的處理,造成語音識別率低,所以電視選擇的揚聲器總諧波失真越小越好,要求的性能指標包括:左右揚聲器50、70、100音量分別播放100-8kHz掃頻文件,此時100-200Hz THD≤8%、200-400Hz THD≤5%、400-8kHz THD≤3%,一般揚聲器在低頻部分總諧波失真會比較高,建議通過功放端調節EQ,降低低頻頻段EQ曲線或是在語音算法中加濾波器濾除低頻成份,同時在整機機構裝配上減少機振以改善喇叭非線性失真。
整機機構裝配上改善喇叭非線性失真對策實際案例:(1)左右喇叭本體靠近背板面各貼1PCS海棉(防止喇叭聲音通過背板傳導到麥克風);(2)Panel地側貼附不織布,沿上邊緣由中間往兩邊貼附(地側喇叭出聲位置,防止喇叭出聲導致地側共振的產生)。
語音識別算法,需要外接回聲消除電路,經算法消除回聲成分后得到有用的麥克風音頻數據,采樣點優選功放后端。從功放后端采集到的模擬音頻信號經兩級濾波、分壓后得到的信號需滿足ADC ES7210輸入幅值≤1Vrms要求。
本方案選用4麥克風線性陣列方案,PCB layout時相鄰麥克風收音孔間距控制在35mm,麥克風電源濾波電容靠近麥克風供電引腳放置,clk信號走線兩側需鋪銅進行包地處理,防止電磁輻射干擾。本方案采用背收音麥克風,麥克風收音面需要緊貼PCB且收音孔周圍需增加接地環焊盤,防止聲音通過PCB與麥克風之間間隙進入,影響麥克風模組氣密性。PCB收音通道開孔直徑使用麥克風廠家推薦的0.75mm。如圖2所示。

圖2 麥克風收音孔周圍接地環及開孔
(1)人聲能直達每個麥克風,避免遮蔽效應,即產品正常使用場景下,保證聲源的直達聲(非反射聲)到達每個麥克的機會是均等的,建議:麥克風陣列裝配應該盡可能朝向使用者,在產品裝配或放置后,麥克風孔應該利于拾音且不被其它物品遮擋。
(2)麥克風組件應該裝配于一個比較穩固的結構上,如果裝配位置很薄,固定不牢會抖動,麥克風會在里面晃蕩,這個時候會發現采集的音頻里,就會出現一些很奇怪的磕磕碰碰的聲音。
(3)聲音到達麥克風的路徑盡可能短、寬,要求諧振點頻率在8KHz以上。對于背收音麥克風建議:塑料結構開孔直徑≥密封層開孔直徑≥PCB開孔直徑≥麥克風進音孔直徑,裝配后塑料結構、密封層、PCB疊加總厚度≤5mm,越小越好。
(4)麥克風要遠離干擾或震動。對于震動,建議麥克風板與塑料結構間增加密封層(如泡棉雙面膠,軟硬度可根據實際結構形式進行匹配驗證),一方面可以防止喇叭聲音通過塑料結構直接傳遞給麥克風,還可以提高麥克風的氣密性。
(5)結構設計要避免喇叭本體結構引發的失真,喇叭要進行減震處理,避免結構震動對麥克風造成較大影響。
(6)喇叭腔體四周與其它機構件至少保留1mm的間距,振膜上方與機構件至少保留1.5mm的間隙,防止振膜碰到結構件產生振動和異音。
(7)避免整機結構內聲音傳播,即喇叭的聲音不能在電視機結構內部泄露到麥克風,只能通過結構外的空氣傳播到麥克風,建議喇叭和麥克風放在不同腔體內或喇叭出聲口應距離麥克風收音開口10cm以上,越大越好,也可以選用性能好的密封材料對腔體內麥克風部分進行密封,防止內部串聲。
(8)IR/KEY/Wifi/BT等板子,不建議僅用卡勾固定,需用螺絲鎖付防止震動。
(1)在半消聲室內將監聽音箱放置在麥克風模組前方50cm位置,循環播放粉噪音頻信號pink_noise.wav。
(2)調節監聽音箱音量,使麥克風模組位置量測音壓為63dB。
(3)在不堵孔情況下,保存麥克風模組錄制的音頻數據。
(4)使用阻尼、橡皮泥類材料分別密封各個麥克風收音孔,保存麥克風模組錄制的音頻數據。
(5)選取一段時間讀取平均RMS振幅,比較堵孔前后差異。
(6)氣密性規格:思必馳要求堵孔前后音壓差>15dB。
(1)測試地點:20~30㎡左右的房間(確認混響狀況),測試距離及角度:距電視中心位置1m、5m。
(2)環境底噪40~50dBA,語音指令聲壓級≈65dBA@1M,測量設備:聲壓計。測試人員:男生/女生分別測試一次。
(3)電視在無音頻輸出狀態下(如主頁面/節目菜單頁面等),分別在不同距離測試遠場語音喚醒、識別功能。
(4)播放電視節目音量level30(70dB左右),分別在不同距離測試遠場語音喚醒、識別功能。
結束語:本文介紹了采用背收音式數字硅麥克風方案的電視遠場語音系統設計,詳細闡述了電視遠場語音系統麥克風、揚聲器的選型,回采電路及PCB設計注意事項,并結合設計產品完成相關測試。本產品帶給終端用戶更便捷的人機交互方式,真正實現解放雙手,帶來全新的交互體驗。