凌 聰,謝凌云
(中國傳媒大學 傳播聲學研究所,北京 100024)
對于視聽交互現象及其機理的研究,國外已有大量的心理聲學研究和實驗表明,視覺刺激對聽覺感受是有影響的,例如在Kato M.和Kashino M.的實驗中發現[1],視覺空間信息不但可以幫助聲音感知處理,而且可以提高人耳對聲音空間分辨的敏感度。而聽覺掩蔽效應作為人類聽覺感知機理的一個重要效應,是現代音頻壓縮編碼理論的技術基礎,并廣泛運用于電視技術、多媒體技術領域。目前國內外在視聽交互領域具體到視覺刺激對于聽覺掩蔽效應影響的研究還很少,一些有關視覺刺激下的聽覺頻域掩蔽實驗[2-3]證明視覺刺激對于聽覺頻域掩蔽效應存在一定的影響。而聽覺掩蔽效應包括聽覺頻域掩蔽與時域掩蔽[4],筆者將從聽覺的時域掩蔽效應入手,設計實驗來觀察視聽同時呈現情況下的聽覺滯后掩蔽效應與無視覺刺激下的聽覺滯后掩蔽效應的變化情況。
在時間上相鄰的聲音之間也有掩蔽現象,即掩蔽聲與被掩蔽聲不是同時發生,這種掩蔽現象稱為時域掩蔽。時域掩蔽分為超前掩蔽(pre-masking)和滯后掩蔽(post-masking)[5](一些文獻中也稱滯后掩蔽為前掩蔽)。滯后掩蔽效應的非線性特性[6]對設計掩蔽實驗造成一定難度,因此,實驗將固定掩蔽聲聲壓級和掩蔽聲與被掩蔽聲之間的延遲時間,且基于本文實驗方法的考慮,還需固定掩蔽聲與被掩蔽聲的時長。
本文實驗音頻信號的選擇具體如表1所示。

表1 時域掩蔽實驗音頻信號
其中,掩蔽聲與被掩蔽聲之間無延時,粉紅噪聲是自然界最常見的噪聲,也是噪聲掩蔽純音實驗中常用的掩蔽聲;選取250 Hz,1 170 Hz,4 000 Hz這3種純音作為代表觀察低、中、高頻純音的滯后掩蔽效果。根據前人的經驗[6],200ms的噪聲對于30ms的純音,在無延遲時間的情況下,會出現明顯的滯后掩蔽現象。
視覺刺激材料選取畫面具有短時沖擊感的一類視頻,視頻時長均為2 s,畫面內容分別為完全黑暗、小爆炸、大爆炸。視頻沖擊感由小到大分為3個等級,如圖1所示。

圖1 視頻信號截圖
每組刺激信號都包括音頻信號和視頻信號,視頻信號與音頻信號同時發生。一個視頻刺激的長度為2 s,掩蔽聲為200ms,被掩蔽聲為30ms,掩蔽聲與被掩蔽聲之間無延時。一組音視頻刺激信號結束之后,有2 s的靜音,然后繼續進行下一組信號。音視頻刺激時域構成示意圖如圖2所示。

圖2 音視頻刺激時域構成示意圖
實驗中采用恒定刺激法[7]測量聽覺滯后掩蔽閾值。恒定刺激法是心理物理學中最準確、應用最廣的方法,可用于很多心理值的測定。實驗中被掩蔽聲聲壓級以2 dB為步長進行改變,共為5種不同聲壓級掩蔽聲。為了使被試對于被掩蔽信號聲壓級最大值與最小值的判斷符合恒定刺激實驗的要求,首先通過兩段音頻信號隨機選擇結合三上一下適應調整程序的方法[6],測得各個純音在無視覺情況下滯后掩蔽的大概閾值,具體數據見表3。

表3 粗測各被試的滯后掩蔽大概閾值
由表3可知,不同被試的掩蔽閾值是不同的,因此根據粗測得到的各被試的大概閾值來設計被掩蔽聲的5個恒定刺激值,并且通過微調,來確定最終用于實驗的5個刺激值聲壓級,使被試對于被掩蔽聲最大值與最小值的判斷符合恒定刺激實驗的要求。
實驗開始時讓每名被試判斷在無掩蔽聲存在的情況下,判斷被掩蔽聲的最大值和最小值是否都能聽見,結果所有被試均能做出聽見的判斷,證明聽覺聞閾在滯后掩蔽閾值之下。
總體實驗設計采用“對照組—實驗組”模式,均采用恒定刺激法測量50 dB時長200 ms的粉紅噪聲在無延遲下掩蔽30ms純音的滯后掩蔽閾值。對照組為無視頻刺激下聽覺掩蔽實驗,共兩組,記為A1組和A2組。實驗中不同聲壓級的被掩蔽聲的恒定刺激次數為5,這樣A1和A2組的刺激次數均為3×5×5=75,兩組實驗共計2×75=150;實驗組為加入同步視頻刺激下的聽覺掩蔽實驗,記為AV組,在AV組中,3種視覺刺激隨機出現,且保證每種視覺刺激下的聽覺信號數量相等 (以便計算每種視頻刺激下的聽覺滯后掩蔽閾值),數據統計時,將完全黑暗視頻刺激組記為AV1組,小爆炸視頻刺激組記為AV2組,大爆炸視頻刺激組記為AV3組,AV1,AV2,AV3組的刺激次數均為3×5×5=75,共計刺激225次。
實驗順序依次為:A1 組、A2 組、AV 組(包含 AV1,AV2,AV3 組),其中 A1,A2 組間隔 5min,A2,AV 組間隔 10min。實驗有效性和穩定性的檢測設計,是通過兩個對照組A1和A2的重復實驗對比來檢驗的。實驗在中國傳媒大學傳播聲學研究所內的消聲室進行。實驗中的7名被試均來自中國傳媒大學傳播聲學研究所,男生3名,女生4名,年齡為22~25歲,有較好的心理聲學實驗經驗。
實驗中7名被試數據均通過信度檢驗。圖3為有、無視覺刺激下測得的50 dB時長200 ms粉紅噪聲無延遲掩蔽30 ms純音的滯后掩蔽平均閾值。

圖3 測得的各組滯后掩蔽的平均閾值
由圖3a可知,兩次無視頻下測得的平均閾值極為接近,各對應頻率點的差別僅在0.1~0.8 dB;由圖3b可知,有視覺刺激組AV1,AV2,AV3及AV組與無視覺刺激對照組A1組的平均閾值差別也不明顯,各對應頻率點的差別在 0~2.4 dB。
通過計算每名被試有無視覺刺激下的掩蔽閾值發現,被試之間在有視頻刺激的情況下對聽覺掩蔽實驗的影響有個體差異性,為了體現這種差異性,將對照組A1中的21個數據作為參考(被掩蔽聲共3個,7名被試,所以每組實驗均得到了21個閾值數據),在相同的被試、相同的測試音點位置處,其他掩蔽實驗組的數據與A1組相對應位置的數據求差并取絕對值,用這個絕對差值來表現其他掩蔽實驗組相對于對照組A1閾值的絕對改變量。無視覺刺激下的A2組與加入視覺刺激后的AV組相對于A1組閾值的絕對改變量分布情況如圖4所示。

圖4 A2組和AV組相對于A1組的閾值改變量分布圖比較
圖4a中可以看到兩次無視頻情況下聽覺掩蔽效應實驗差別很小,7名被試在3個測試點上數據的改變量均在2 dB以下,被試在無視頻刺激下,對各測試點掩蔽閾值的判斷保持較好的穩定性。而在圖4b中可以明顯看出,當加入視覺刺激后,被試在相同的測試點的掩蔽閾值絕對改變量出現了較大的波動性 (AV組閾值數據通過AV1,AV2,AV3這3組數據采用恒定刺激閾值計算方法計算得出)。這種閾值變化的波動性還可以從數據樣本組的標準差的大小反映出來,經過計算,|A2-A1|(注:該表達式僅用來說明A2組數據與A1組數據間的關系,其他表達式與此類似)組數據樣本的標準差為0.6,|AV-A1|組數據樣本的標準差為1.7。在加入視覺刺激后,50 dB時長200ms粉紅噪聲在無延遲下掩蔽30ms純音的滯后掩蔽閾值絕對改變量出現了明顯的差異。
AV組中的完全黑暗、小爆炸、大爆炸視頻刺激下對應的數據組AV1,AV2,AV3與A1組閾值絕對改變量分布情況如圖5。

圖5 不同視覺刺激 AV1,AV2,AV3組相對于A1組閾值的絕對變化情況
由圖5可知,不同視頻刺激的閾值改變量都有較大的波動性,且經過計算,|AV1-A1|數據樣本的標準差為2.2,|AV2-A1|的標準差為 1.7,|AV3-A3|的標準差為2.1,3種不同視頻對于閾值改變量的影響相互之間差別不大。
將7名被試各組閾值改變量數據進行平均,比較有視覺刺激下的AV組與無視覺刺激下的A2組相對于A1組閾值的平均絕對改變量,如圖6。

圖6 有無視覺刺激下的閾值絕對改變量比較
由圖6可知,加入視覺刺激后,7名被試在3個頻率上閾值改變量的平均值均大于對應頻率上的無視覺刺激下的閾值改變量,AV組與對照組A1的差值最大為2.6dB,A2組與A1的差值最大為1.4 dB,視頻組的差值要大于無視頻組的差值。
圖7為不同視頻刺激下的7名被試閾值平均改變量與無視覺刺激的閾值改變量比較。

圖7 不同視覺刺激下的閾值絕對改變量比較
由圖7可知,3種不同畫面沖擊強度的視覺刺激(完全黑暗、小爆炸、大爆炸)對比無視覺刺激下的閾值改變量相差不大,它們在不同頻率上的差別僅在0.1~1.1 dB。以上實驗結果分析表明,在加入具有短時沖擊感的同步視頻之后,對于50 dB時長200ms的粉紅噪聲在無延遲下掩蔽30 ms純音的滯后掩蔽閾值會產生影響,具體體現在被試個體閾值改變的波動性上。被試在有視覺刺激下閾值改變的波動性要明顯高于無視覺刺激下的改變量。而本實驗中使用的不同沖擊感強度視頻之間對于閾值影響的差別不大。
實驗證明,聽覺滯后掩蔽實驗的被試個體閾值會受到視覺刺激的影響。這種影響不一定從平均閾值的統計值改變量上體現出來,因為被試閾值的波動方向不一致,導致平均閾值在統計時抹平了這種個體差異。在加入視覺刺激后滯后掩蔽閾值受到影響,這種現象符合心理學經典理論——注意力有限理論[8]。本實驗中,不同沖擊強度的爆炸視頻對于閾值波動性的影響無顯著性差異,特別是當呈現完全黑暗視頻時,閾值的波動性大小與另外兩類爆炸視頻效果也無明顯差異,閾值的波動性并沒有在不同沖擊強度等級視頻刺激下呈現某種一致趨勢。這種情況可以解釋為,被試在接受不斷隨機播放的各類視頻時,注意力已經做好了分配,因此即使此時播放的是完全黑暗視頻,被試對于視覺通道的注意力分配也不會出現太大改變,仍然會對注意力在聽覺通道的分配造成影響。
另外,滯后掩蔽可能與周邊神經的適應有關[9],當聽神經對掩蔽聲反應后,對緊隨其后的信號的反應度將降低,并認為滯后掩蔽可能與中樞神經系統相關。當聽覺系統的滯后掩蔽效應的作用機理主要由中樞神經系統控制時,同時進入中樞神經系統的視覺刺激信號就有了影響聽覺信號的空間和可能。
雖然實驗中所使用的同步視覺刺激對于50 dB時長200 ms的粉紅噪聲在無延遲下掩蔽30 ms純音的滯后掩蔽效應平均閾值的影響不明顯,但被試在有視覺刺激下的閾值改變的波動性要明顯高于無視覺刺激下的改變量。這個現象可以從注意力理論和滯后掩蔽聽神經機理兩個角度進行解釋。本實驗對于視覺刺激下的聽覺滯后掩蔽實驗只是針對固定掩蔽聲與被掩蔽聲時長、以及固定掩蔽聲聲壓級和掩蔽聲與被掩蔽聲之間延遲時間來進行的。可進一步針對實驗中固定量的改變深入考察視覺刺激對于聽覺滯后掩蔽效應的影響情況。此外,視覺刺激對于被試閾值影響的差異性變化也是下一步研究的切入點。
[1]KATOM,KASHINOM.Audio-visuallink inauditoryspatialdiscrimination[J].Acoust.Sci.&Tech.,2001,22:382.
[2]潘楊,陳瑜,謝凌云.顏色喜好對純音聽覺掩蔽效應影響的實驗[C]//2007年聲頻工程學術交流年會論文集.北京:中國電子學會/中國聲學學會聲頻工程分會,2007.
[3]陳瑜,謝凌云.視覺提示對窄帶噪聲掩蔽影響的實驗研究[C]//2009年度全國物理聲學會議論文集.西安:中國聲學學會物理聲學分會,2009:135-136.
[4]謝志文,尹俊勛.音頻掩蔽效應的研究及發展方向[J].電聲技術,2002(12):4-7.
[5]ZWICKER E,FASTL H.Psychoacoustics:facts and models[M].New York:Springer,1990:61-109.
[6]謝志文.心理聲學掩蔽效應的研究[D].廣州:華南理工大學,2005:73-84.
[7]孟子厚.音質主觀評價的實驗心理學方法[M].北京:國防工業出版社,2008:43-47.
[8]王甦,汪安圣.認知心理學.北京:北京大學出版社,1992.
[9]王堅,蔣濤,曾凡鋼.聽覺科學概論[M].北京:中國科學技術出版社,2005:394-395.