鄭 茜 張亭亭 李 量 范 寧 楊志剛
(1 河北大學教育學院,保定 071002) (2 北京大學心理學系,北京 100871)
在日常生活中,對特定目標說話人聲音的加工常會受到來自于其他聲源信息的干擾,導致對目標聲音加工的困難或失敗,這種現象稱為聽覺掩蔽(auditory masking;Kidd et al.,2005)。已有研究發現,聽覺掩蔽主要可以分為能量掩蔽和信息掩蔽兩種不同的類型(Arbogast et al.,2002;Brungart,2001;Freyman et al.,2001)。能量掩蔽主要是目標與掩蔽聲音在時間和頻率上的重疊所導致的。在特定的時間窗口內,目標聲音的特定的頻率成分在聽覺外周系統(耳蝸和聽神經)受到干擾聲音的影響,目標聲和掩蔽聲的成分會共同激活耳蝸基底膜上的相同或鄰近區域,導致目標聲音在聽覺外周的生理表征被破壞,從而導致其后續加工的困難或失敗,因此能量掩蔽也被稱為外周掩蔽(peripheral masking;Brungart,2001;Carlile & Corkhill,2015;Yang et al.,2007)。
然而能量掩蔽并不能解釋所有的掩蔽現象。大量研究表明,即使在聽覺外周沒有產生時頻重疊的目標聲和掩蔽聲進入到聽覺中樞系統后,由于掩蔽聲和目標聲在聲學屬性和語義內容方面的相似性,掩蔽聲與目標聲也會在聽覺中樞競爭加工資源,造成聽者對目標聲音加工的困難,這種掩蔽形式被稱為信息掩蔽(Kidd & Colburn,2017;Scott & McGettigan,2013;Summers & Roberts,2020;Wilson et al.,2012;Yang et al.,2007)。
然而,一個顯見的事實是,聽力正常的聽者在如“雞尾酒會”一樣的嘈雜環境中,仍具有相對準確的識別目標語音的能力,顯示出聽覺系統具有很強的抗掩蔽性。這是由于聽者能夠利用多種線索幫助其對目標聲音進行追蹤,從而實現對干擾聲音的克服(Cherry,1953)。例如,目標聲和掩蔽聲在空間位置上的分離(Culling & Mansell,2013;Glyde et al.,2013),對目標聲音的熟悉感(Huang et al.,2009;Lu et al.,2018),目標聲音的唇讀(Wu et al.,2013;Wu et al.,2017)以及情緒信息等(Dupuis & Pichora-Fuller,2014;Lu et al.,2018)都被發現具有抗掩蔽的作用。
在日常交流中,說話者的聲音通常會帶有某種情緒。這些情緒信息既可能體現在聲音的韻律上,也可能包含在其語義內容中(Grass et al.,2016;Jaspers-Fayer et al.,2012;Mittermeier et al.,2011)。二者都會對語音的加工過程產生影響。而且與字詞的含義相比,聲音的音調和節奏更能直接地傳遞情緒信息(Grass et al.,2016)。
Dupuis 和Pichora-Fuller (2014)分別考察年輕和年老的成年人在噪音背景下(multi-talker babble)對以7 種情緒(憤怒,厭惡,恐懼,悲傷,中性,開心,驚喜)發出的單詞的再認準確率。結果發現,目標聲的情緒韻律確實會影響聽者的再認,以恐懼情緒發出的項目的再認準確率最高,其次是以驚喜情緒發出的項目,然而,對以悲傷情緒發出的項目的再認準確率最低,其它3 種情緒再認的準確率相似。Dupuis 和Pichora-Fuller 認為聽者在噪音中對不同情緒下發出單詞的再認行為表現不同,可能是由于情緒聲具有明顯的可辨別的聲學特征。他們根據先前有關情緒的研究,對整個情緒聲音的響度范圍、持續時間、F0 的平均值和范圍進行聲學分析。結果發現7 種情緒的F0 平均值和范圍(最小值和最大值之間的差)差異均顯著。以恐懼情緒發出的刺激的F0 的平均值最高,以驚喜情緒發出的刺激的F0 的變化范圍最大,而以中性情緒發出的刺激的F0 不論是平均值還是范圍均最小。這些分析表明聲音韻律的去掩蔽作用可能主要是源于其音高等聲學特征,較高的音高會優先在知覺上吸引聽者的注意。
然而,另一方面,有研究者認為低層的聲學特征并不是導致情緒言語加工優勢的唯一原因,情緒性信息本身可能為聽者提供了一種趨近動機,使其能夠更好地在背景干擾聲中檢測特定目標聲音的存在(Gordon & Hibberts,2011;Johansson,1997)。在近期的一項研究中,Lu 等人(2018)在不改變目標聲音聲學特點的情況下,利用經典條件化范式將原本不具有情緒性的目標聲音(中性韻律)與具有顯著消極效價的女性的大聲尖叫聲匹配,從而使目標聲音能夠誘導出消極情緒。結果發現,經過情緒條件化的聲音在信息掩蔽釋放量上顯著大于與中性聲音匹配的聲音。這說明即便排除了聲學因素的影響后,具有情緒性的聲音依然具有顯著的去掩蔽作用。
神經影像學的研究發現顳上皮層(superior temporal cortex regions,STR)是對聲音韻律進行表征的一個關鍵區域(Bestelmeyer et al.,2014;Ethofer et al.,2012;Grandjean et al.,2005)。杏仁核是對與危險有關的刺激進行加工的中樞結構。大量的研究表明與中性聲音相比,生氣聲音會引起更大的STR和杏仁核的反應(Frühholz & Grandjean,2013;Grandjean et al.,2005;Sander et al.,2005)。Mothes-Lasch 等人(2016)在以前研究的基礎上使用功能性磁共振成像技術(fMRI)探究聽覺背景的復雜程度和注意的聚焦點是否能夠調節STR 和杏仁核對于情緒韻律的反應。結果發現,在顳上皮層中部,情緒效應會受到聽覺背景復雜程度的影響,在復雜程度低的條件下,對生氣情緒韻律發出的目標聲音的反應更大;然而,在杏仁核和顳上皮層前部,情緒效應僅受注意的影響,只有將注意集中到韻律聲音時,對生氣情緒韻律發出的目標聲音反應更大。這說明了在不同的腦區,對情緒韻律加工有不同的限制。這一結果也為情緒韻律具有去聽覺掩蔽的作用提供了神經機制方面的證據。
另一方面,言語中所包含的語義情緒信息具有加工優勢,已經為大量研究所證實(Goh et al.,2016;Iwashiro et al.,2013)。例如,Goh 等人使用詞匯判斷任務和語義分類任務考察單詞語義的情緒效價是否對單詞的再認產生影響。在詞匯判斷任務中,要求聽者盡可能快且準確地判斷雙耳聽到的聲音是詞還是非詞;在語義分類任務中,要求聽者盡可能快而準確地判斷雙耳聽到的單詞在語義上是具體的還是抽象的。結果發現:在兩個任務中,與中性單詞相比,聽者對消極語義單詞和積極情緒語義單詞的反應都更快。
此外,Iwashiro 等人(2013)使用具有情緒語義的單詞誘導情緒。除情緒效價(消極、中性、積極)外,單詞的喚醒度、優勢度和詞頻差異均不顯著;并且由合成的中性韻律發出單詞,不同效價的單詞的振幅和音高在平均值、方差和范圍上差異均不顯著。所有單詞的呈現時間和RMS 相同。使用雙耳分聽范式,左耳呈現消極、中性、積極單詞,右耳呈現中性單詞;或者相反。要求聽者有選擇地注意左耳或者右耳,并且盡可能快地從屏幕上出現的4個單詞中選擇注意耳所聽到的單詞。結果表明,無論是否將注意集中在消極單詞上,聽者在有消極單詞出現時的反應時間均顯著長于兩耳均呈現中性單詞時的反應時間。這說明不論是在注意還是在非注意條件下,聽覺呈現的消極情緒詞都會占用聽者更多的加工資源。
那么言語中所包含的語義情緒信息在有干擾的環境中是否也具有加工優勢,可以起到去掩蔽的作用?如果有的話,其在機制上與情緒韻律線索的去掩蔽機制是否有所不同?
如前所述,聽覺掩蔽中包含著不同的成分,其中能量掩蔽不受認知、注意等高級加工的調節,具有很強的不可逆性(Wu et al.,2007;Yang et al.,2007)。因此,言語的韻律和語義中所包含的情緒信息的去掩蔽作用很可能是主要作用于信息掩蔽而非能量掩蔽。但另一方面,信息掩蔽本身也可能有不同的發生機制。雖然很長一段時間內它都被當作一個行李箱詞匯,但近年來已經有越來越多的研究者指出信息掩蔽中可能存在著不同的成分(楊志剛等,2014;Carlile & Corkhill,2015;Cooke et al.,2008;Mattys et al.,2009;Watson,2005)。比如,楊志剛等(2014)認為信息掩蔽可以分為知覺信息掩蔽(perceptual informational masking)和認知信息掩蔽(cognitive informational masking)兩種成分。知覺信息掩蔽是指掩蔽聲音與目標聲音競爭注意資源所導致的干擾;認知信息掩蔽是由掩蔽聲音與目標聲音競爭認知/言語加工資源所導致的??紤]到前面所提出的言語情緒韻律與情緒語義的特性,是否兩種線索可以對不同的信息掩蔽子成分發揮作用?具體地說,具有情緒性韻律的聲音能夠更好地吸引被試的注意力,使其能夠在混合的聲音流中被追隨,因而有利于克服知覺掩蔽;而目標聲音中所包含的情緒語義信息則會因其特殊的生態學意義而得到中樞系統的優先激活,從而會有助于減少對其的認知掩蔽。因此,本研究擬探究言語的情緒韻律和情緒語義在去知覺信息掩蔽和去認知信息掩蔽中的作用。從實際意義來看,在現實的交流場景中,不論是情緒韻律還是情緒語義,都是在交流中經常會出現的泛語言元素,了解這元素在交流中的作用和具體機制,對于提升日常交流的效能,以至于開發更為有效的人工耳蝸算法都有重要的啟示。
已有研究表明,對于英語和漢語目標語音的再認,當背景掩蔽聲數量為2 個時,造成的信息掩蔽量最大(Freyman et al.,2004;Freyman et al.,1999;Rakerd et al.,2006;Wu et al.,2007)。因此,本研究使用兩個掩蔽聲來模擬“雞尾酒會”聽覺條件。此外,時間逆轉語句不具有語義可懂度,僅能夠產生知覺信息掩蔽;而正序的無意義語句具有一定程度的語義可懂度,既可以造成知覺掩蔽,也可以造成認知掩蔽。本研究使用這兩種語句作為掩蔽材料,從而可以對知覺掩蔽與認知掩蔽的作用進行分離。主觀空間分離范式利用優先效應能夠使聽者主觀感知到目標聲和掩蔽聲來自不同的位置(雖然實際上目標聲和掩蔽聲播放位置相同),其主要釋放信息掩蔽,對能量掩蔽影響不大(Freyman et al.,1999,2001)。因而,本研究引用主觀空間分離范式探究情緒韻律與情緒語義線索去信息掩蔽的機制。
實驗1 考察情緒韻律的去掩蔽作用。利用知覺空間分離下多個說話人聲音掩蔽范式,分別在實驗1a 和實驗1b 中考察逆序與正序言語掩蔽條件下目標言語的情緒韻律的去掩蔽作用。
2.1.1 被試
研究1a 的被試為26 名聽力正常的河北大學在校學生,其中男生10 人,女生16 人。平均年齡為19.85 ± 2.15 歲。母語為漢語,右利手。所有被試均通過純音聽力測試(聽力計,Conera,GN OTOMETRICS A/S),具有正常且左右平衡的聽力(左右耳相差不高于15 dB,在任何一個頻率上不高于20 dB)。實驗結束后,獲得一定報酬。
2.1.2 材料和設備
目標刺激為句法正確的漢語無意義句子(Yang et al.,2007),每個句子都包含12 個音節。其中包括三個關鍵成分:主語、謂語和賓語。這三個成分同樣是三個關鍵詞,每個關鍵詞由兩個音節組成,如“他的水道可能停放這個動脈”。實驗前由35 名非實驗被試對詞匯(動詞: 571、名詞: 1091)的效價和喚醒度進行9 點評分。動詞、名詞效價的有效評分者分別為26 個和29 個。所有的詞匯材料均來自中文詞匯數據庫(CLD) http://www.chineselexicaldatabase.com/ (Sun et al.,2018)。選擇效價評分為4.50~5.50,喚醒度相對較低的動詞(182 個,評分 ≤ 6.00)和名詞(364 個,評分 ≤ 3.51)作為中性詞構成目標語句。之后所有目標語句均由同一個年輕女性(C)以不同情緒韻律(中性、開心)讀出并進行錄音,每句時長為3 s 左右。錄制后的句子由20 個人(女,10)對聲音韻律的效價和喚醒度進行5 點評分。結果表明,中性韻律的效價平均分為1.71 ± 0.23,喚醒度為2.20 ± 0.24;開心韻律的效價平均分為4.20 ±0.21,喚醒度為4.06 ± 0.20。中性韻律和開心韻律語句在效價和喚醒度上均差異顯著[效價:F(1,180)=5793.64,p〈 0.001;喚醒度:F(1,180)=3147.26,p〈 0.001]。
掩蔽刺激為2 個說話人說出的時間逆轉的無意義語句。逆序言語具有與正常言語相反的時間變化模式,但是能保留人們嗓音的特征,同樣有諧波和共振峰結構。將兩個女性(A 和B)讀出的句法正確的漢語無意義句子,經Matlab 程序在時間上逆轉后,按照不同的實驗條件進行隨機等強度疊加,形成2 個說話人的混合聲音。時間逆轉言語不具有語義可懂度,被認為僅能夠產生知覺信息掩蔽(Yang et al.,2007)。
所有聲音信號都用聲音編輯軟件Adobe Audition以22.05 kHz 的采樣率數字化,并形成16-Bit 的PCM 波形文件。運用心理學實驗軟件Matlab 對實驗使用的刺激進行合成。目標聲音在單耳耳機中的呈現水平為56 dB,以目標聲的聲壓級為基準調整掩蔽聲的呈現水平以得到規定的信噪比。
實驗時刺激由Matlab 呈現。聲音刺激由電腦聲卡發出,通過雙聲道耳機(isk,HP-960B)呈現給被試。目標聲和掩蔽聲均在左右兩個聲道中播放,在有主觀空間分離的條件下,目標聲在右側聲道中起始的時間領先其在左側聲道中的相同復本3 ms,而掩蔽聲在左側聲道中領先其在右側聲道中的相同復本3 ms,如此使得目標聲聽起來是在右側聲道中發出,而掩蔽聲在左側聲道中發出,兩者有主觀(知覺的)的空間分離;在沒有主觀空間分離的條件下,目標和掩蔽聲均同時在左右聲道發出,沒有時間延遲。
2.1.3 設計與程序
實驗采用2×2×4 的被試內設計。3 個被試內變量及水平分別為:(1)主觀空間分離(有主觀空間分離、無主觀空間分離);(2)情緒韻律(中性韻律、開心韻律);(3)信噪比(-8 dB、-4 dB、0 dB、4 dB)。每個被試共接受16 個實驗條件,每個條件下有11個trials。根據主觀空間位置關系和情緒韻律條件,將所有trials 分為4 個block,4 個block 的順序在不同的被試間進行完全拉丁方平衡。4 種信噪比水平在每個block 中隨機化。因變量為被試復述關鍵詞的正確率。
被試進入實驗室后被要求坐于電腦前,頭與電腦屏幕平行,不得隨便移動。主試給被試講解指導語,為確保被試能完全理解指導語并能正確跟蹤目標語句,在正式實驗之前被試會接受大約10 分鐘的練習。練習中首先在安靜條件下呈現目標聲音,讓被試熟悉目標聲音的音色;再給出幾個練習試次進行練習。練習階段使用的語句和正式實驗階段使用的語句均不同。
練習之后進入正式實驗。被試按下電腦鍵盤的空格鍵開始實驗。在每個試次中,掩蔽聲音呈現1 s之后,目標語句呈現,并和掩蔽聲同時結束。被試在每個試次結束后,要盡可能地復述整個目標語句。實驗人員坐在被試旁,記錄被試重復的關鍵詞,每個關鍵詞兩個音節,復述對一個音節記一分。被試完成一個block 之后,休息2 分鐘,再完成下一個block。整個實驗持續大約40 分鐘。實驗結束后主試對被試在每種條件下的識別正確率進行離線計算。
2.1.4 結果與分析
首先,對所有被試在不同條件下識別目標句的正確率進行均值分析,描述統計結果見表1。

表1 識別目標句的正確率(M ± SD)
對不同實驗條件下的識別正確率進行3 因素的重復測量方差分析(所有p值都經過Greenhouse-Geisser 矯正),結果表明,主觀空間分離主效應顯著,F(1,25)=102.66,p〈 0.001,=0.80,有主觀空間分離條件下的識別正確率(M=0.75,95% CI:[0.72,0.79])高于無主觀空間分離條件下的識別正確率(M=0.66,95% CI: [0.62,0.70])。情緒韻律主效應顯著,F(1,25)=6.02,p=0.02,=0.19,開心韻律條件下的識別正確率(M=0.72,95% CI: [0.68,0.75])高于中性韻律條件下的識別正確率(M=0.69,95% CI: [0.65,0.73])。信噪比主效應顯著,F(3,75)=314.75,p〈 0.001,=0.93,隨著信噪比的提高,識別的準確率也提高,ps 〈 0.001。
主觀空間分離、情緒韻律和信噪比三者交互作用顯著,F(3,75)=3.16,p=0.041,=0.11。隨后的簡單簡單效應分析發現,在無主觀空間分離且信噪比為-8 dB 或者-4 dB 時,開心韻律條件下的識別正確率顯著高于中性韻律條件下的識別正確率(p=0.001;p=0.002)。
為了進一步得到在知覺信息掩蔽下,情緒韻律、主觀空間分離線索和二者結合時的掩蔽釋放量,使用Origin 8.0 軟件中的Logistic 心理測量函數,對每個被試在不同實驗條件下識別目標語句的正確率進行擬合,并計算其在50%識別正確率時的識別閾限(Lu et al.,2018)。

在該函數中,y是被試能正確識別關鍵詞的概率,x是與y相對應的信噪比,μ是指識別目標語句的正確率為50%處的信噪比,即語音識別閾限,σ是與μ對應的斜率。圖1 顯示了所有被試平均識別率的擬合結果。不同主觀空間分離和情緒韻律條件下平均識別閾限結果如圖2 所示。

圖1 逆序言語掩蔽下目標關鍵詞的識別率

圖2 逆序言語掩蔽下的識別閾限
為了分別考察情緒韻律線索和主觀空間分離線索的去掩蔽效應,參照前人研究(Lu et al.,2018),將在無主觀空間分離條件下目標語句以中性韻律發出時的識別閾限減去以開心韻律發出時的識別閾限,得到單獨的情緒韻律線索的掩蔽釋放量;將目標語句以中性韻律發出時,無主觀空間分離條件下的識別閾限減去有主觀空間分離條件下的識別閾限,得到單獨的主觀空間分離線索的掩蔽釋放量;將無主觀空間分離且目標語句以中性韻律發出時的識別閾限減去有主觀空間分離且目標以開心韻律發出時的識別閾限,得到情緒韻律線索和主觀空間分離線索結合時的掩蔽釋放量。
對所得三種掩蔽釋放量進行單因素方差分析,結果表明,聽覺線索類型效應顯著,F(2,75)=6.03,p=0.004。情緒韻律的掩蔽釋放量(M=1.41,95%CI: [0.67,2.15])顯著低于主觀空間分離(M=3.06,95% CI: [2.32,3.80],p=0.009)和二者結合的掩蔽釋放量(M=3.42,95% CI: [2.26,4.59],p=0.002);但主觀空間分離的掩蔽釋放量和二者結合的效應差異不顯著,p=0.557。結果如圖3 所示。

圖3 不同聽覺線索的掩蔽釋放量
綜上,實驗1a 發現,在逆向言語掩蔽條件下,情緒韻律和主觀空間分離均具有去知覺信息掩蔽的作用,但前者的作用要比后者更小。且情緒韻律的作用主要是在沒有主觀空間分離且信噪比比較低的條件下才顯現出來。這可能是由于在知覺條件相對困難的情況下,更需要被試利用任何可得的線索幫助其追蹤和識別目標聲音。而在相對簡單的識別條件下,如有空間分離或信噪比相對較高,主觀空間分離和信噪比線索就已經釋放了大量的知覺掩蔽,目標語音的情緒韻律作為一種知覺線索的作用就無從發揮了。接下來的實驗1b 將使用句法正確的正序無意義語句作為掩蔽材料,探究情緒韻律在知覺、認知雙重信息掩蔽下,是否還具有去掩蔽的作用。
2.2.1 被試
31 名聽力正常的河北大學在校學生參加研究,其中男生15 人,女生16 人。平均年齡為19.45 ±1.39 歲。母語為漢語,右利手,并通過純音聽力測試(聽力計,Conera,GN OTOMETRICS A/S)。所有被試均具有正常且左右平衡的聽力(左右耳相差不高于15 dB,在任何一個頻率上不高于20 dB)。實驗結束后,獲得一定報酬。
2.2.2 材料和設備
目標刺激同實驗1a,掩蔽刺激為正序播放的2個說話人說出的句法正確的漢語無意義語句。這種聲音被認為能夠產生知覺、認知雙重信息掩蔽(Yang et al.,2007)。實驗設備同實驗1a。
2.2.3 設計和程序
均同實驗1a。
2.2.4 實驗結果
使用SPSS 21.0 軟件對所有數據進行統計分析。
首先,對所有被試在不同條件下識別目標句的正確率進行均值分析,描述統計結果見表2。

表2 識別目標句的正確率(M ± SD)
對不同實驗條件下的識別正確率進行3 因素重復測量方差分析(所有p值都經過 Greenhouse-Geisser 矯正)。結果表明,主觀空間分離主效應顯著,F(1,30)=357.27,p〈 0.001,=0.92,有主觀空間分離條件下的識別正確率(M=0.66,95% CI:[0.63,0.69])顯著高于無主觀空間分離條件下的識別正確率(M=0.48,95% CI: [0.45,0.51])。情緒韻律主效應顯著,F(1,30)=38.15,p〈 0.001,=0.56,開心韻律條件下的識別正確率(M=0.61,95% CI:[0.58,0.63])高于中性韻律條件下的識別正確率(M=0.53,95% CI: [0.49,0.57])。信噪比主效應顯著,F(3,90)=764.63,p〈 0.001,=0.96,隨著信噪比的提高,識別準確率也提高,ps 〈 0.001。
主觀空間分離、情緒韻律和信噪比三者交互作用顯著,F(3,90)=5.21,p=0.003,=0.15。簡單簡單效應分析發現,在無主觀空間分離且信噪比為-8 dB、-4 dB 或者0 dB 時,開心韻律條件下的識別正確率顯著高于中性韻律條件下的識別正確率,ps 〈 0.001;在有主觀空間分離且信噪比為-8 dB 時,開心韻律條件下的識別正確率顯著高于中性韻律條件下的識別正確率,p〈 0.001。
同實驗1a,將每個被試在不同實驗條件下的識別目標語句的正確率轉化為相應的語音識別閾限。圖4 顯示了所有被試平均識別率的擬合結果。不同主觀空間分離和情緒韻律條件下平均識別閾限結果如圖5 所示。并進而求得在知覺、認知雙重信息掩蔽下,情緒韻律線索、主觀空間分離線索和二者結合時的掩蔽釋放量。

圖4 正序言語掩蔽下目標關鍵詞識別正確率

圖5 正序言語掩蔽下的識別閾限
單因素方差分析表明,聽覺線索類型效應顯著,F(2,90)=28.42,p〈 0.001。情緒韻律的掩蔽釋放量(M=2.22,95% CI: [1.60,2.83])顯著低于主觀空間分離(M=4.33,95% CI: [3.68,4.98],p〈 0.001)或二者結合時的釋放量(M=5.59,95% CI: [4.90,6.28],p〈 0.001);主觀空間分離線索的掩蔽釋放量也低于二者結合的效應,p=0.007。結果如圖6 所示。

圖6 不同聽覺線索的掩蔽釋放量
綜上,實驗1b 發現在正序播放的無意義語句帶來的知覺、認知雙重信息掩蔽下,情緒韻律線索也具有去掩蔽作用。情緒韻律線索的作用依然受到主觀空間分離和信噪比因素的影響,但相比實驗1a,在較低信噪比條件下,即使存在主觀空間分離,情緒韻律線索依然具有去掩蔽作用。這可能是因為正序播放的無意義語句除了會導致知覺掩蔽外,還會有因語義可懂度所帶來的認知掩蔽。更多的掩蔽量也就留下了更大的掩蔽釋放空間,在信噪比較低的條件下,即使存在主觀空間分離因素,目標聲的情緒韻律依然可以幫助聽者更好地加工目標聲音,從而帶來一定程度的掩蔽釋放。然而,當聽覺任務過于簡單時,情緒韻律線索就不再有效了。
為了探究在單純知覺掩蔽下和在知覺、認知雙重信息掩蔽下不同線索的去掩蔽效應是否存在差異,分別將實驗1a 中情緒韻律、主觀空間分離和二者結合時的掩蔽釋放量與實驗1b 所求得的相應掩蔽釋放量進行獨立樣本t檢驗。結果表明,(1)對于情緒韻律線索,在知覺信息掩蔽下的掩蔽釋放量和在知覺、認知雙重掩蔽下的掩蔽釋放量盡管存在差異,但沒有達到0.05 的顯著性水平,t(55)=-1.75,p=0.086;(2)對于主觀空間分離線索,在知覺信息掩蔽下的掩蔽釋放量顯著小于在知覺、認知雙重信息掩蔽下的掩蔽釋放量,t(55)=-2.66,p=0.010,95% CI: [-2.23,-0.32];(3)當情緒韻律和主觀空間分離線索結合時,在知覺掩蔽下的掩蔽釋放量和在知覺與認知信息掩蔽下的掩蔽釋放量差異顯著,t(55)=-3.41,p=0.001,95% CI: [-3.43,-0.89]。結果如圖7 所示。

圖7 實驗1a 和實驗1b 去掩蔽量結果對比
這些結果表明單純的情緒韻律線索主要對知覺信息掩蔽有效;主觀空間分離因素既有去知覺掩蔽,也有去認知掩蔽的作用。有趣的是,情緒韻律線索和主觀空間分離結合時也具有去認知信息掩蔽的作用,這可能是由于主觀空間分離線索在起主要作用。
實驗2 考察目標聲音中所包含關鍵詞的情緒性語義在時間逆轉(實驗2a)和正序(實驗2b)言語掩蔽條件下的去掩蔽作用。
3.1.1 被試
31 名聽力正常的河北大學在校學生參加實驗,其中男生14 人,女生17 人。平均年齡為19.16 ±1.59 歲。母語為漢語,右利手,并通過純音聽力測試(聽力計,Conera,GN OTOMETRICS A/S),具有正常且左右平衡的聽力(左右耳相差不高于15 dB,在任何一個頻率上不高于20 dB)。實驗結束后,獲得一定報酬。在數據分析階段剔除一名數據異常的被試,有30 名被試的數據進入最后的統計分析。
3.1.2 材料和設備
目標刺激為由一個特定說話人讀出的漢語無意義語句,但與實驗1 相比在兩個方面存在差異。首先,實驗二中所有目標語句都為中性情緒韻律。其次,在實驗二中的積極語義條件下,無意義語句的主語、謂語和賓語成分均具有積極情緒效價,如“那些情侶可能愛慕這些別墅”。中性語義條件則與實驗1 中相同。具體地,選擇在實驗1a 中詞匯效價評定時評分為4.50~5.50,喚醒度相對較低的動詞(107 個,評分 ≤ 3.20)和名詞(214 個,評分 ≤2.69)作為中性詞;評分為5.80~9.00,喚醒度相對較高的動詞(107 個,評分 ≥ 5.26)和名詞(214 個,評分 ≥ 4.23)作為積極情緒詞。對所有動詞和名詞的效價和喚醒度的評分進行分析。結果如表3 所示。

表3 動詞和名詞的效價和喚醒度(M ± SD)
分析表明,積極效價動詞與中性效價動詞在效價和喚醒度上差異顯著{效價:t(287)=-42.00,p〈0.001,95% CI: [-1.80,-1.64];喚醒度:t(287)=-38.38,p〈 0.001,95% CI: [-2.87,-2.59]}。積極效價名詞與中性效價名詞在效價和喚醒度上差異也均顯著{效價:t(576)=-61.43,p〈 0.001,95% CI:[-1.48,-1.39];喚醒度:t(576)=-60.49,p〈 0.001,95% CI: [-2.51,-2.35]}。
為了確保實驗2 中不同情緒語義的句子在韻律上保持一致,由23 名和20 名未參與實驗的被試分別對中性和積極語義條件下目標句的韻律效價和喚醒度進行評分,結果發現,在感知聲音韻律的效價上,情緒語義效應不顯著,t(212)=1.53,p=0.127,95% CI: [-0.00,0.03];在感知聲音韻律的喚醒度上,情緒語義效應也不顯著t(212)=0.46,p=0.650,95% CI: [-0.05,0.08]。
掩蔽刺激為2 個說話人說出的時間逆轉的無意義語句(Yang et al.,2007),與實驗1a 相同。實驗設備同實驗1a。
3.1.3 設計和程序
實驗采用2×2×4 的被試內設計。3 個被試內變量及水平分別為:(1)主觀空間分離(有主觀空間分離、無主觀空間分離);(2)情緒語義內容(中性效價、積極效價);(3)信噪比(4 dB、0 dB、-4 dB、-8 dB)。每個被試共接受16 個實驗條件,每個條件下有11個trials。根據主觀空間位置關系和語義條件,將所有trials 分為4 個block,4 個block 的順序在不同的被試間進行完全拉丁方平衡。4 種信噪比水平在每個block 中隨機化。因變量為被試復述關鍵詞的正確率。
程序同實驗1a。
3.1.4 實驗結果
使用SPSS 21.0 軟件對所有數據進行統計分析。
首先,對所有被試在不同條件下識別目標句的正確率進行均值分析,描述統計結果見表4。

表4 識別目標句的正確率(M ± SD)
對不同實驗條件下的識別正確率進行3 因素的重復測量方差分析(所有p值都經過Greenhouse-Geisser 矯正)。結果表明,主觀空間分離主效應顯著,F(1,29)=118.51,p〈 0.001,=0.80,在主觀空間分離條件下的識別正確率(M=0.77,95% CI:[0.74,0.80])高于在無主觀空間分離條件下的識別正確率(M=0.69,95%,CI: [0.66,0.71])。情緒語義主效應不顯著,F(1,29)=2.60,p=0.117。信噪比主效應顯著,F(3,87)=509.62,p〈 0.001,=0.95;隨著信噪比的提高,識別準確率也提高,ps 〈 0.001。
主觀空間分離和情緒語義交互作用不顯著,F(1,29)=0.00,p=0.989。主觀空間分離和信噪比交互作用顯著,F(3,87)=36.28,p〈 0.001,=0.56。簡單效應分析發現,當信噪比為-8 dB、-4 dB 或者0 dB時,在有主觀空間分離條件下的識別正確率顯著高于無主觀空間分離條件下的識別正確率(SNR為-8 dB 或者-4 dB 時,ps 〈 0.001;SNR 為0 dB 時,p=0.001)。情緒語義和信噪比交互作用不顯著,F(3,87)=1.53,p=0.22。三者交互作用不顯著,F(3,87)=1.13,p=0.336。
同實驗1a,將每個被試在不同實驗條件下識別目標語句的正確率轉化為相應的語音識別閾限。圖8 顯示了所有被試平均識別率的擬合結果。不同主觀空間分離和情緒語義條件下的平均識別閾限結果如圖9 所示。實驗2a 進而求得在知覺信息掩蔽下,情緒語義、主觀空間分離線索和二者結合時的掩蔽釋放量。

圖8 逆序言語掩蔽下的目標關鍵詞識別正確率

圖9 逆序言語掩蔽下的識別閾限
單因素方差分析表明,聽覺線索類型效應顯著,F(2,87)=20.44,p〈 0.001。情緒語義的掩蔽釋放量(M=0.11,95% CI: [-0.67,0.88])顯著低于主觀空間分離(M=2.84,95% CI: [2.05,3.63],p〈 0.001)和二者結合的掩蔽釋放量(M=2.97,95% CI: [2.36,3.58],p〈 0.001),但主觀空間分離的掩蔽釋放量和二者結合的效應差異不顯著,p=0.796。結果如圖10 所示。

圖10 不同線索的掩蔽釋放量
綜上,實驗2a 發現在知覺信息掩蔽下,情緒語義線索本身不具有去掩蔽的作用,并且與空間線索和聽覺任務難度均沒有交互作用。那在知覺、認知雙重信息掩蔽下,情緒語義是否具有去掩蔽的作用?實驗2b 將對其進行探究。
3.2.1 被試
27 名聽力正常的河北大學在校學生參加實驗,其中男生10 人,女生17 人。平均年齡為19.67 ±1.75 歲。母語為漢語,右利手,并通過純音聽力測試(聽力計,Conera,GN OTOMETRICS A/S),具有正常且左右平衡的聽力(左右耳相差不高于15 dB,在任何一個頻率上不高于20 dB)。實驗結束后,獲得一定報酬。
3.2.2 材料和設備
目標刺激同實驗2a;掩蔽刺激為正序播放的2個說話人說出的句法正確的漢語無意義語句(Yang et al.,2007)。實驗設備同實驗1a。
3.2.3 設計和程序
均同實驗2a。
3.2.4 實驗結果
使用SPSS 21.0 軟件對所有數據進行統計分析。
首先,對所有被試在不同條件下識別目標句的正確率進行均值分析,描述統計結果如表5。

表5 識別目標句的正確率(M ± SD)
對不同實驗條件下的識別正確率進行3 因素的重復測量方差分析(所有p值都經過Greenhouse-Geisser 矯正)。結果表明,主觀空間分離主效應顯著,F(1,26)=177.11,p〈 0.001,=0.87,在主觀空間分離條件下的識別正確率(M=0.68,95% CI:[0.65,0.71])高于在無主觀空間分離條件下的識別正確率(M=0.50,95% CI: [0.48,0.52])。情緒語義主效應顯著,F(1,26)=19.55,p〈 0.001,=0.43,在積極語義條件下的識別正確率(M=0.61,95% CI:[0.58,0.64])高于中性語義條件下的識別正確率(M=0.57,95% CI: [0.54,0.59])。信噪比主效應顯著,F(3,78)=1131.78,p〈 0.001,=0.98;隨著信噪比的提高,識別準確率也提高,ps 〈 0.001。
主觀空間分離和情緒語義交互作用不顯著,F(1,26)=0.27,p=0.611。主觀空間分離和信噪比交互作用顯著,F(3,78)=46.52,p〈 0.001,=0.641。簡單效應分析發現,不管信噪比的大小,無主觀空間分離條件下的識別正確率均顯著低于有主觀空間分離條件下的識別正確率,ps 〈 0.001;但不同信噪比條件下知覺空間分離所帶來的效應量有較大差異,信噪比從-8 dB 增加到4 dB 條件時,Cohen’sd值分別為1.29、1.99、1.35 和0.54。情緒語義和信噪比交互作用不顯著,F(3,78)=2.41,p=0.077。三因素交互作用不顯著,F(3,78)=1.88,p=0.143。
進一步將每個被試在不同實驗條件下識別目標語句的正確率轉化為相應的語音識別閾限。圖11顯示了所有被試平均識別率的擬合結果。不同主觀空間分離和情緒語義條件下平均識別閾限結果如圖12 所示。

圖11 正序言語掩蔽下的目標關鍵詞識別正確率

圖12 正序言語掩蔽下的識別閾限
進一步求得情緒語義、主觀空間分離線索和二者結合時的掩蔽釋放量。對其進行單因素方差分析(由于方差不齊性,進行Welch 方差分析)。結果表明不同線索條件下去掩蔽量差異顯著,F(2,48.94)=35.70,p〈 0.001,積極語義去掩蔽量(M=0.80,95% CI: [0.26,1.35])低于主觀空間分離(M=3.75,95% CI: [2.84,4.66],p〈 0.001)和主觀空間分離與積極語義的結合(M=4.56,95% CI: [3.70,5.41],p〈0.001);主觀空間分離和積極語義與主觀空間分離的結合差異不顯著,p=0.387。結果如圖13 所示。

圖13 不同線索的掩蔽釋放量
綜上,實驗2b 發現在知覺、認知雙重信息掩蔽下,情緒語義會起到較小但顯著的去掩蔽作用。但同實驗2a 一樣,情緒語義線索不受空間線索和聽覺任務難度的影響。
實驗2a 結果表明在知覺信息掩蔽下,情緒語義不具有去掩蔽的作用,而主觀空間分離和主觀空間分離與情緒語義結合時均具有去掩蔽的作用;實驗2b 結果表明在知覺、認知雙重信息掩蔽下,情緒語義、主觀空間分離和兩者的結合均具有去掩蔽的作用。因此,可以認為情緒語義不具有去知覺信息掩蔽的作用,但具有去認知信息掩蔽的作用。之后分別將實驗2a 所求得的情緒語義、主觀空間分離以及二者結合時的掩蔽釋放量與實驗2b 所求得的情緒語義、主觀空間分離和二者結合時的掩蔽釋放量進行獨立樣本t檢驗。
結果表明,(1)情緒語義線索在知覺信息掩蔽下的掩蔽釋放量與在知覺和認知信息掩蔽下的掩蔽釋放量無顯著差異,t(55)=-1.48,p=0.144,95%CI: [-1.64,0.25];(2)主觀空間分離線索在知覺信息掩蔽下的掩蔽釋放量與知覺和認知雙重掩蔽下的掩蔽釋放量差異不顯著,t(55)=-1.55,p=0.13,95% CI: [-2.09,0.27];(3)當主觀空間分離與積極語義線索結合時,在知覺信息掩蔽下的掩蔽釋放量和在知覺和認知雙重掩蔽下的掩蔽釋放量差異顯著,t(55)=-3.10,p=0.003,95% CI: [-2.61,-0.56]。結果如圖14 所示。

圖14 實驗2a 和實驗2b 去掩蔽量結果對比
實驗1 和實驗2 分別考察了目標言語的情緒韻律與情緒語義信息在去信息掩蔽中的作用。實驗1a和實驗1b 結果的對比分析表明,言語的情緒韻律具有去知覺信息掩蔽的作用,但對認知信息掩蔽作用很小。這能夠進一步解釋Dupuis 和Pichora-Fuller(2014)研究的結果。根據聽覺注意理論,聽者能夠通過一些聲學特點將復雜的聽覺輸入分解成獨立的聽覺客體,不同的聽覺客體會競爭注意資源以主導聽覺知覺。因為有情緒韻律的言語具有更為特殊的聲學特征,例如,音高的平均值和范圍較高(Dupuis & Pichora-Fuller,2014),能夠為優先感知和注意的分配提供線索,所以能夠在復雜的聽覺場景中獲得加工優勢(Asutay & V?stfj?ll,2014;Fritz et al.,2007;Shinn-Cunningham,2008),起到去知覺信息掩蔽的作用。這種去掩蔽的作用在很大程度上是獨立于目標言語的內容的,可以認為是一種前認知過程。
吳超等人(2013)認為掩蔽環境下的言語感知依賴于兩個過程。其中之一是客體的內在特征即信號的頻譜-時間結構,它能夠幫助個體對客體信號進行分流,以形成對客體的印象。因此,情緒韻律可能以其獨特的頻譜-時間結構,優先促進聽者對情緒韻律印象的形成,從而更好地感知目標言語,起到去掩蔽的作用。
然而另一方面,正如引言部分所提到的,言語的情緒信息不一定非要以聲學特征的變化為載體,經過消極情緒條件化的聲音即便在聲學特征上與經過中性情緒條件化的聲音沒有任何區別,依然可以起到一定的去掩蔽作用(Lu et al.,2018)。本研究1中通過操縱說話者的情緒韻律觀察到的去掩蔽作用是否全部是聲學因素所致,還是還包含了聲學特征之外的其他效應(如動機因素),本研究的結果并不能在這兩種可能性間作出區分。后續的研究可以考慮這一問題。
本實驗結果也能夠解釋Brungart (2001)發現的目標聲和掩蔽聲說話人的聲音特點影響對目標聲音識別的現象。例如,與所有聲音的性別相同時相比,當說話者性別不同時,識別正確率更高;與目標聲和掩蔽聲由同一人發出時相比,當聲音由性別相同的不同說話者發出時,識別正確率更高。這種現象可能是由于當目標聲和掩蔽聲在聲學特征上有差別時,目標聲音能夠優先吸引更多的注意,從而達到了去知覺信息掩蔽作用的效果。此外,Brungart 等人(2001)發現,在有3 或4 個聲音源的聽覺環境中,當目標掩蔽比(TMR,目標聲和每一個掩蔽聲的強度之比)接近0 dB 時,與所有聲音均由相同性別發出時產生的信息掩蔽量相比,一個掩蔽聲和其它聲音(目標聲和另外的掩蔽聲)由不同性別發出時產生的信息掩蔽量更多。這可能是因為當目標聲和其它掩蔽聲聲學特征相同時,僅一個掩蔽聲的聲學特征不同,其容易優先吸引更多的注意,進而增加了知覺信息掩蔽。
實驗2b 的結果首次證明了情緒語義具有去信息掩蔽的作用。而且,綜合實驗2a 和實驗2b 的結果發現,情緒語義不具有去知覺信息掩蔽的作用,僅具有去認知信息掩蔽的作用。因為情緒反應系統組織是由欲望和防御兩個基本的動機系統組成(Lang et al.,1997;Lang & Bradley,2010),對于一個積極刺激的快速反應可能將獲得獎賞的可能性最大化。此外,從生物進化的角度,人們為了生存和快速適應環境會對于具有威脅的和有利于維持生命的環境進行快速偵探。因此,具有積極語義的目標聲音會優先占據更多的認知加工資源,從而可以在有語義信息干擾的情況下得到一定程度的優先加工。
Grimm 等人(2012)的研究使用2-back 任務發現,視覺呈現的具有情緒性的單詞能夠激活與工作記憶加工過程有關的外側前額葉區(lateral prefrontal cortex,Hampson et al.,2010)。此外,Song 等人(2017)使用情緒Stroop 任務發現,與中性刺激相比,具有情緒特征的刺激干擾與任務有關信息的加工過程,產生認知沖突時(Mathews,1990;LeDoux,2000),會激活外側前額葉區,尤其是背外側前額葉(dorsolateal prefrontal cortex,DLPEC)和額下回(inferior frontal gyrus,IFG)。這些結果都意味著情緒性刺激能夠優先占據更多的認知資源。那么,與中性語義相比,具有情緒語義的聲音在有干擾聲的背景下,是否也能夠激活外側前額葉區,未來的研究可以使用fMRI 技術對其進行探究。
實驗2a 結果表明在不具語義可懂度的時間逆轉語句的干擾下,情緒語義不具有釋放掩蔽的作用;實驗2b 結果表明在句法正確的無意義語句的干擾下,情緒語義具有釋放掩蔽的作用。這與實驗1 顯示出完全不同的結果模式。這很可能是由于實驗2b中的掩蔽材料盡管在整體結構上是無意義語句,但是從詞匯水平來看仍然是有意義的,因而會對目標語音造成額外的認知掩蔽。而因為目標聲音中的關鍵詞包含的情緒性信息,具有一定的語義突顯性,因而能夠獲得一定程度的優先加工,從而表現出小幅的抗掩蔽性。
主觀空間分離是去聽覺掩蔽的主要線索之一。本實驗結果表明主觀空間分離具有去信息掩蔽的作用,并且大于情緒線索的作用,這與 Lu 等人(2018)的研究結果一致。實驗1a 和實驗2a 結果均表明主觀空間分離具有去知覺信息掩蔽的作用。
情緒信息和主觀空間分離線索結合時既具有去知覺信息掩蔽的作用又具有去認知信息掩蔽的作用。正序和逆序的句子有很大的差別,不僅在語義上,在聲學特征上也有一定的差別(Rhebergen et al.,2005)。Rhebergen 等人的研究發現,對于說荷蘭語的聽者,與正序的瑞典語的相比,掩蔽聲為時間逆轉的瑞典語時聽者的識別閾限提高了2.3 dB。這說明了在排除語義可懂度的影響下,與正序語句相比,時間逆轉的語句會造成更大的知覺信息掩蔽。因此,與不具語義可懂度的時間逆轉語句相比,在句法正確的無意義語句的干擾下,知覺信息的掩蔽量可能會減小。然而語義信息和知覺信息可能存在交互作用,這也許會增加知覺信息掩蔽的效果,但對于這個問題,目前還缺乏相關的研究能夠直接回答。因此,情緒韻律和主觀空間分離線索結合時,在不具語義可懂度的時間逆轉語句的干擾下的掩蔽釋放量與在句法正確的無意義語句的干擾下的掩蔽釋放量差異顯著,這更能說明兩個線索結合時去認知信息掩蔽的作用。
在去知覺信息掩蔽量上,情緒韻律與主觀空間分離線索結合時的作用和單獨的主觀空間分離線索的作用差異不顯著。這可能是由于主觀空間分離線索優先使聽者注意目標聲音,抵抗了掩蔽聲在知覺上的干擾,導致目標聲音的情緒韻律不起作用。同樣地,空間線索能夠使目標聲音優先占據更多的加工資源,導致在知覺、認知雙重掩蔽下情緒語義線索的掩蔽釋放量和情緒語義與主觀空間分離線索結合時的效應沒有顯著差別。
本研究通過2 個實驗分別探究了言語的情緒韻律和情緒語義去信息掩蔽的具體機制。實驗結果表明,言語的情緒韻律能夠優先吸引聽者更多的注意,主要對知覺信息掩蔽起作用。言語的情緒語義能夠優先獲取聽者更多和內容加工相關的高級認知加工資源,具有去認知信息掩蔽的作用,而不具有去知覺信息掩蔽的作用。言語的情緒韻律和情緒語義去信息掩蔽的認知心理機制不同。