孫杰英 孔睿迅 黃偉彬 許蘊盈
(1.威凱檢測技術有限公司 廣州 510663;2.中國電器科學研究院股份有限公司 廣州 510300;3.廣東中創智家科學技術有限公司 廣州 510663)
噪聲錄制的方法手段各異,從最簡單的使用帶MIC的設備(例如手機、電腦等)直接在聲源附近錄制,到使用高精度MIC陣列通過特定的拓撲結構在消聲室與聲源通過特定的角度進行錄制。同樣噪聲回放也存在不同維度的異同,最簡單的使用具有揚聲器的設備(手機、電腦等)直接播放聲音文件,復雜的則需要與錄制時候的環境、設備、距離等進行復雜的邏輯運算及解碼后,在特定的環境使用特定的設備進行回放。上文中不同的錄制回放手段,實現難度不同,在真實還原錄制時聲場環境時的表現也各異[1,2],下文則分別從錄制手段、回放手段、回放性能等方面進行分析。
噪聲錄制環境主要指噪聲錄制場地的地點、內外部混響,本底噪聲等。目前一般的噪聲錄制場地有設備使用環境(例如家居環境、咖啡廳等)、專業聲學環境(消聲室、半消聲室、混響室等)、其它自然環境(公園、森林、車流附近等)。本文主要研究智能家居測試用噪聲,所以下文主要分析典型的家居場景,在國內家居場景一般按功能分成客廳、臥室、廚房、衛生間等場景,主要分析這些場景及周圍的一些聲學參數及影響這些聲學參數的因素。所以本文中典型家居場景分為浴室、客廳、臥室以及廚房這四個場景。下面從這幾個場景特征來進行說明。
1.1.1 混響時間
最廣泛使用來表征房間的聲學特征的參數是它的混響時間,它表示的是聲壓衰減 60 dB 所需的時間。通用標準 ISO 3382-1[3]提供測量指南,通過ISO 3382-1[3]第6.2 條的擴展的方法來確定[4],然后平均各個麥克風的混響時間來確定總混響時間,見表1。
表1 典型家居場景的混響時間
1.1.2 場景底噪
場景中的本底噪聲,一般和周圍環境噪聲及場景中的布置有關系,一般建議在45 dB左右。
1.1.3 場景大小
家居場景的大小各不相同,但是場景的大小會影響到混響等聲學參數,也影響使用場景,表2約定了一般的典型場景大小。
表2 典型家居場景的大小
1.1.4 場景布置
這里一般指場景中的一些影響聲音傳輸或者吸收的部分,例如窗簾、地毯等,也包含一般的功能性的物品,例如廚具、床等,見表3。
表3 典型家居場景的布置
1.2.1 手機/PC等終端
這種方法操作非常簡單,直接打開設備即可以錄音,但是這些麥克風一般具有主動降噪的功能,在錄制環境噪聲時,部分噪聲可能會被主動降噪算法所識別,會做些降噪處理,從而影響部分真實性。
1.2.2 錄音筆等便攜設備
同樣的,錄音筆錄音操作很簡單,但是錄音筆一般對人聲有加強作用而對噪聲會有一定的抑制,從而保障更好的錄音效果,但是在用到噪聲錄制或者交互人聲的錄制時,同樣會存在失真的問題。
1.2.3 家電內麥克風或其它工業麥克風
直接使用被測物品或者其它同型號的工業麥克風測試思路非常直接,操作也很方便,但是用這些設備錄制的噪聲,回放后卻不一定能保證無失真,因為這些麥克風的靈敏度和能錄制的頻率范圍一般比較低,在錄制時信息會有部分丟失,回放測試時針對性比較強,對于錄制麥克風和測試麥克風不同的場景失真可能比較大,同時,由于部分家電為了加強語音識別的效果,會有部分降噪和語音增強的算法或者處理,這些也會導致錄制的噪聲失真。建議用于直接測試而不是錄制需要回放的噪聲。
1.2.4 高精度麥克風
這里主要討論靈敏度高,無降噪等處理的高精度麥克風,這些麥克風的自噪聲較低,頻率范圍比較廣,靈敏度高,錄制的單點噪聲的信息量足夠。這些麥克風一般價格相對比較昂貴,錄制時需要配套其它的設備才能錄制,錄制時的距離角度等及回放的設備都會相應的影響還原的性能。
1.2.5 麥克風陣列
麥克風陣列使用多個麥克風通過一定的拓撲排列組合到一起來錄制噪聲源,麥克風陣列的結構和麥克風數量都會影響到錄制的難度和方法,也影響噪聲真實再現的難度。
波束還原技術[5]利用麥克風陣列能非常真實的還原聲場,但是對于麥克風的數量要求非常多,實現難度較高。
本節主要討論典型的家居場景的錄制的聲源,在錄制的時候通過各種排列來模擬各種真實的使用場景,見表4。
表4 典型家居場景的聲源
本節主要討論典型的家居場景的點位,即典型家電的位置信息,見表5。
表5 典型家居場景的點位
噪聲回放的環境影響最后回放的效果,在一般的家居場景回放、則會有家居場景的混響和環境噪聲和錄制的混響和噪聲進行了疊加,最終的效果則可能和錄制的噪聲存在一定的差異。
噪聲回放的設備一般是揚聲器,可以是帶揚聲器的設備,例如手機電腦,單獨的揚聲器,也可以是揚聲器陣列,一般來說,如果要真實的還原錄制的噪聲,則揚聲器數量需要大于等于麥克風數量且揚聲器需要能在全頻范圍內聲場平坦,能無損的播放錄制的聲源。一般這種揚聲器的要求很難達到,數量和拓撲結構也很難和錄制的麥克風保持一致,在實際使用過程中會有一定的調整。
本節提到的噪聲回放方法主要涉及以下兩個方面,一個是音源的編碼解碼問題,另一個方面在于揚聲器陣列的控制問題。
環繞聲技術[6]使用了特殊的環繞編碼器,允許將 5通道信號從特殊的調音臺編碼到 5.1 數字數據流。播放系統由一個特殊的解碼器組成,允許再次分離5個通道并將它們分配到 5.1 揚聲器播放系統上。這些系統兼容單聲道和立體聲,可以通過特定解碼器處理較舊的 4 聲道環繞技術。環繞聲技術旨在創建聲學圖像,而不是接近原始錄音和再現。
波場合成技術[5]應用惠更斯波的原理。將此原理應用于聲學意味著可以使用揚聲器陣列再現任何形式的波前,從而可以將虛擬聲源放置在聆聽區域內的任何位置。在實際使用中,有必要將揚聲器放置在播放室的四周。為了生成逼真的聲場,必須單獨計算每個揚聲器的輸入信號。為此,必須單獨記錄每個單個聲源。如果錄音是在房間里完成的,錄音室的特征也必須單獨錄制。然后在后期編輯過程和再現過程中混合和處理所有產生的音軌。然后在播放室的廣闊區域內實現自然逼真的空間聲音再現。這種方法的缺點在于所需的組件:復雜的錄音系統、用于實時混合大量錄制音軌的強大計算單元以及必須安裝在聽音室中的揚聲器數量。
HATS錄制再現[2]方式是為了再現使用人工頭部技術記錄的雙耳信號。它改善了方向和距離的印象。四個揚聲器通常圍繞中心點等距放置在方形結構中,例如2米。在人工頭部的左耳通道處測量來自兩個左側揚聲器的傳遞函數用來均衡。以此結果設計了 IIR 和 FIR 濾波器,通過它們在回放期間對左側、右側揚聲器的輸入信號進行濾波,使得隨后在人工頭部左側通道上測量的傳遞函數在頻譜上是平坦的。
最小均方方法[1,7],通過八個記錄聲道記錄和八個揚聲器回放,以達到良好的再現效果。 該方法基于八個重要測試位置,例如 HATS 附近,主要是手機的麥克風位置。再現時相應八個點的錄音聲場的合理再現,在這些點之間也產生良好的再現精度。
聲場記錄技術[1,7](多點聲場記錄技術)是基于聲音的優化空間不同點的場再現。優化標準基于復制的最小化每個麥克風位置的誤差。基于這一原則,麥克風的位置可以在很寬的范圍內選擇聲場再現最準確的空間。方法是這些位置可以適應要測試的設備類型,如果被測設備 (DUT) 集成了麥克風陣列的多點聲場記錄麥克風可以定位在 DUT 的麥克風區域。如果要測試免提設備多點聲場記錄麥克風位于免提設備區域。
原聲場和還原聲場應該在聲壓[8]上保持還原,原聲場與模擬聲場對比,如表6可見,麥克風聲壓[2]的差異應該在±3 dB 范圍內。
表6 聲壓對比
原始替代參考噪聲記錄的幅度曲線與再現寬帶噪聲的幅度曲線(均以 dB 為單位測量)應在 ±3 dB 范圍內。以 50 Hz 到 10 kHz 的 1/3 倍頻程和 ±6 dB 測量,所有麥克風的平均頻譜精度應在 ±3 dB 以內。如圖1和圖2所示為原始聲場和再現聲場的頻譜對比。
圖1 原始聲場頻譜
圖2 再現聲場頻譜
在 100 Hz ~1 kHz 的頻率范圍內,復相干幅值應大于0.9,以 1/3 倍頻程測量。
1~1.5 kHz 范圍內復相干相位應在的 ±10 度以內和±30 度以內,以 1/3 倍頻程測量,見圖3、圖4。
圖3 100~1 000 HZ復相關幅度
圖3 1 000~1 500 HZ復相關幅度
噪聲錄制和回放的“真實”性依賴于實施方案的科學性和復雜度,綜合考慮實施的復雜度和“真實”程度,標準[1,3]涉及到的噪聲錄制回放方法都已經形成了系統性的方法,實施和回放都比較方便,但是二者在應用領域存在一定的差異,HATS錄制方法更適用于測試噪聲的降噪等方面的性能,而最小均衡方法和多點還原對于還原智能家居設備的麥克風處的噪聲存在一定的優勢。