祖光耀 李舒淇 張天陽 王愛君 張 明
返回抑制對視聽跨通道對應的影響*
祖光耀1李舒淇1張天陽2王愛君1張 明1
(1蘇州大學心理學系, 心理與行為科學研究中心;2蘇州大學公共衛生學院, 江蘇 蘇州 215123)
視聽跨通道對應(audiovisual crossmodal correspondence)在不同類型的視、聽刺激之間被廣泛發現, 但其發生階段尚不明確。研究采用線索?靶子范式, 探究返回抑制(inhibition of return, IOR)對于視聽跨通道對應的影響。實驗1操縱線索和目標之間的空間位置一致性和聽覺音調與視覺目標位置之間的跨通道對應一致性, 結果發現IOR效應和視聽跨通道對應存在交互作用, 線索化位置存在穩定的視聽跨通道對應效應, 而非線索化位置的視聽跨通道對應效應消失。實驗2操縱無關聽覺刺激是否出現, 發現IOR效應與單獨的聲音出現與否不存在交互作用, 排除了警覺效應對于結果的混淆。實驗3通過延長線索和目標的間隔時間(stimulus onset asynchronies, SOA), 發現伴隨著IOR效應減弱, 線索化位置的視聽跨通道對應效應也相應減弱, 且IOR效應對于視聽跨通道對應的調節作用減弱。研究表明, 僅當聽覺刺激與視覺空間位置之間發生跨通道對應時, 才會與同樣發生在知覺水平的IOR效應產生交互, 支持了視聽跨通道對應發生在知覺階段。同時研究結果支持視聽跨通道對應的發生符合反比效應原則。
視聽跨通道對應, 返回抑制, 線索?靶子范式, 警覺效應
人類依靠多個感覺通道去感受周圍的壞境, 不同感覺通道間信號的結合會促進人類的行為反應, 這一現象被稱為多感覺反應增強(Frassinetti et al., 2002; Stein et al., 1989)。以往對于多感覺反應增強的研究集中于多感覺整合(McCracken et al., 2019; Starke et al., 2017)。多感覺整合是指當不同感覺通道的信息具有時空鄰近性時, 個體將這些信息進行整合以形成連貫和有意義的表征(彭姓等, 2019; Tang et al., 2016)。視覺和聽覺輸入信息的整合被稱為視聽覺整合(audiovisual integration), 相比于單一視覺或聽覺, 視、聽雙通道的整合會產生冗余效應(redundant effect), 促進被試對于雙通道刺激的探測和辨別(彭姓等, 2019; 唐曉雨等, 2020; Stein & Stanford, 2008; Talsma & Woldorff, 2005)。如相同位置同時呈現的視覺和聽覺刺激提供了相同的空間和時間信息, 提高了個體的反應能力(Spence, 2013)。
以往研究發現, 視、聽刺激除了以一種冗余的方式影響被試的反應外, 還能以一種非冗余的方式對被試的反應產生影響, 即視、聽刺激提供了兩種不同維度的信息, 但卻相互映射影響當前的行為, 這種現象被稱為視聽跨通道對應(audiovisual cross- modal correspondence) (Spence, 2011, 2019)。一種常見的視聽跨通道對應是聽覺的音調與視覺的空間位置之間的對應, 個體傾向于將音調較高的聲音與高空間位置相映射, 而將音調較低的聲音與低空間位置相映射。當高音伴隨或者先于視覺刺激呈現時, 被試對于高空間位置呈現的視覺刺激的反應快于低空間位置呈現的視覺刺激, 反之亦然(Chiou & Rich, 2012; Evans & Treisman, 2010; McCormick et al., 2018; Spence, 2019; Zeljko et al., 2019)。除此之外, 音調與刺激大小(Brunetti et al., 2018; Parise & Spence, 2008)、音調與亮度(Maimon et al., 2020; Marks et al., 2003)以及音調與空間頻率(Evans & Treisman, 2010)都存在視聽跨通道對應。不同于視聽覺整合所需要的視覺和聽覺刺激在時間和空間上相鄰呈現(Spence, 2013), 視聽跨通道對應發生時, 視覺刺激和聽覺刺激的呈現位置可以不同, 呈現的時間間隔也可以相對更長(Chiou & Rich, 2012)。視聽跨通道對應是一種相對的映射(Chiou & Rich, 2012), 如在音調與空間位置的跨通道對應中, 不存在某個頻率的音調與某個高度的空間位置之間的絕對的映射, 而是存在兩個音調中相對較高或較低的音調與兩個位置中相對較高或較低的位置之間的映射。
現有研究針對視聽跨通道對應的發生階段存在不同觀點。第一種觀點認為, 視聽跨通道對應發生在知覺水平, 即視聽跨通道對應增加了刺激的感知覺顯著性(Evans & Treisman, 2010)。已有研究發現當被試觀看模糊移動的光柵時, 如果伴隨著音調的上升, 被試更傾向于知覺到光柵在向上運動, 如果伴隨著音調的下降, 被試更傾向于知覺到光柵在向下運動(Maeda et al., 2004)。ERP (event-related potential)研究發現當先前呈現的聲音與當前視覺符號存在對應一致時, 視覺誘發的早期知覺成分N1的波幅相比于對應不一致時更大, 支持了視聽跨通道對應是知覺上的增強(Kovi? et al., 2010)。第二種觀點認為, 視聽跨通道對應發生在語義層面(Spence, 2011)。研究者發現在幾乎所有的語言環境中, 人們都用“高” “低”來描述不同頻率的音調, 而同樣的詞語又對應空間位置的高和低, 以及空間頻率的高和低, 因此研究者認為視、聽不同維度刺激相同的語義編碼導致了視聽跨通道對應的出現(Walker, 2012)。研究者用“高” “低”兩個詞的語音代替高、低頻率的音調, 發現了語音與空間位置也出現了跨通道對應, 支持了視聽跨通道對應發生在語義層面的觀點(Gallace & Spence, 2006)。第三種觀點認為, 視聽跨通道對應發生在晚期決策水平, 即一個通道與另一個通道的對應降低了對于所呈現目標刺激的反應標準(Spence, 2011)。研究者使用信號檢測論的方法對于視聽跨通道對應進行研究, 結果顯示當視聽跨通道對應發生時, 被試的知覺敏感性沒有發生變化, 而對于目標的虛報率則上升。研究者認為如果視聽跨通道對應發生在知覺層面, 被試反應能力的增強不會伴隨虛報率的上升, 因而視聽跨通道對應發生在決策而非知覺水平(Marks et al., 2003)。總之, 由于所選用的刺激材料和測量指標不同, 視聽跨通道對應的發生階段尚無定論(Spence, 2011)。
視、聽刺激的整合或對應可以提高目標的知覺顯著性(Evans & Treisman, 2010; Kovi? et al., 2010; Tang et al., 2019), 促進個體的行為反應, 而注意系統中的返回抑制(inhibition of return, IOR)也會影響人類對于目標的知覺(唐曉雨等, 2020; Tang et al., 2019)。IOR是指在線索?靶子范式(cue-target paradigm)中, 當線索和目標之間的SOA大于約300 ms時, 被試對于線索化位置出現的刺激的反應時慢于非線索位置出現的刺激的現象(Posner & Cohen, 1984)。IOR避免了相同位置被重復搜索, 提高了視覺搜索效率(Redden et al., 2021)。盡管對于IOR的發生機制存有不同的理論解釋, 但人們普遍認為IOR反映了一種知覺抑制, 即注意從線索化位置脫離, 導致線索化位置上目標的感知覺顯著性降低, 使得反應受到損害(Klein, 2000; Satel et al., 2013)。ERP研究發現IOR發生時線索化位置刺激誘發的早期P1和N1成分波幅低于非線索化位置(Hopfinger & Mangun, 2001; Prime & Jolicoeur, 2009), 支持了IOR效應發生在早期的感知覺階段。以往研究關注IOR效應和多感覺刺激間的相互作用, 這樣的研究集中于視聽覺整合(彭姓等, 2019; Tang et al., 2019; van der Stoep, van der Stigchel, et al., 2015)。研究者在線索?靶子范式中設置視聽覺目標, 結果發現IOR效應對于視聽覺整合產生了調節作用。一部分研究者發現線索化位置的視聽覺整合效應更小(彭姓等, 2019; Tang et al., 2019; van der Stoep et al., 2016), 另一部分研究者發現了相反的結果, 即線索化位置的視聽覺整合效應更大(唐曉雨等, 2020)。不同的研究結果可能與不同實驗的SOA設置有關(唐曉雨等, 2020), 但已有研究都表明, 視聽覺整合發生在知覺階段(Tang et al., 2019), 因此會受到同樣發生在知覺加工階段的IOR效應的調節(彭姓等, 2019; 唐曉雨等, 2020)。
盡管視聽覺整合和視聽跨通道對應以不同的方式導致多感覺反應增強, 前者通過時間和空間上的臨近提供冗余的信息(Noesselt et al., 2007; Santangelo et al., 2008), 后者通過不同維度信息間的相互映射促進當前的行為(Chiou & Rich, 2012; McCormick et al., 2018)。但如果視聽跨通道對應發生在知覺階段, 結合以往研究發現的多感覺刺激與包括IOR在內的注意線索效應之間的相互作用(唐曉雨等, 2020; Botta et al., 2017; Chica et al., 2011; Tang et al., 2019), 以及加因素法反應時的實驗邏輯(Sternberg, 1969), 則IOR效應發生時, 線索化位置目標的感知覺顯著性降低會對于視聽跨通道對應產生影響; 而如果視聽跨通道對應發生在語義或者決策水平, 則IOR效應不會對于視聽跨通道對應產生影響。因此, 本研究將空間線索范式與視聽跨通道對應的研究范式相結合, 對于IOR效應和視聽跨通道對應之間的關系進行了探究。以往視聽跨通道對應的研究中, 視、聽刺激同步呈現(Brunel et al., 2015; Gallace & Spence, 2006; Getz & Kubovy, 2018), 導致所測量到的結果可能同時包含了視聽覺整合和視聽跨通道對應。考慮到視、聽刺激呈現的時空鄰近性是視聽覺整合發生的必要條件(Spence, 2011), 已有研究表明當視、聽刺激呈現間隔時間超過100 ms時視聽覺整合效應消失(van der Stoep, Spence, et al., 2015), 因此本研究在聽覺刺激消失后200 ms呈現視覺目標, 且聽覺刺激以雙聲道形式呈現, 以最小化視聽覺整合的影響。
另外, 先于視覺目標呈現的聽覺刺激會對于目標產生警覺效應(Wiegand & Sander, 2019), 這種警覺效應會提高被試對于視覺刺激的知覺能力(Kusnir et al., 2011), 并與目標的感知覺顯著性產生交互作用(Botta et al., 2017), 因此目前研究中警覺效應可能與外源性線索引發的IOR效應相互作用, 造成不同條件下的警覺效應不同。考慮到目前研究是第一個探究IOR效應與視聽跨通道對應之間關系的研究, 在實驗中排除可能存在的混淆因素是必要的, 因此本研究設計了控制實驗, 排除目前范式中警覺效應與IOR效應產生交互進而混淆實驗結果的可能。最后, 為了進一步探究IOR效應和視聽跨通道對應之間交互作用的機制, 本研究通過操縱線索和目標之間的SOA來操縱IOR效應的大小(Lupiá?ez et al., 1997), 進而探究IOR效應對于視聽跨通道對應的調節機制。
綜上, 本研究采用線索?靶子范式, 在視覺目標之前呈現聽覺刺激, 考察IOR對于視聽跨通道對應的影響。研究分為3個實驗, 實驗1操縱線索和目標之間的空間線索有效性和聽覺刺激與視覺目標之間的跨通道對應一致性, 探究IOR效應與視聽跨通道對應之間的關系。實驗1假設, 音調與空間位置之間的視聽跨通道對應發生在知覺水平, 因此會受到發生在相同加工階段的IOR效應的影響, 出現視聽跨通道對應與IOR效應之間的交互作用。實驗2通過操縱聽覺刺激是否出現, 探究IOR效應與單獨的聲音出現與否之間的關系。實驗2中聽覺刺激只存在一種音調, 而音調與空間位置之間的跨通道對應需要呈現兩個具有高低關系的音調才能產生(Chiou & Rich, 2012), 因此只呈現一種音調不會與視覺目標的空間位置產生跨通道對應。實驗2的目的一方面是驗證在目前的研究中, 在視覺刺激前單純呈現聽覺刺激不會與IOR效應產生交互, 而只有聽覺刺激與視覺目標發生跨通道對應才會與IOR效應產生交互; 另一方面是排除可能存在的警覺效應對于結果的混淆。基于以往研究表明, 警覺效應是以一種自上而下的方式增強對于刺激的感知(Kusnir et al., 2011), 而IOR以自下而上的方式影響被試的知覺(Berdica et al., 2017; Jia et al., 2019), 實驗2假設IOR效應不會與聽覺刺激的出現與否產生交互, 進一步支持實驗1的結果是由IOR效應對視聽跨通道對應的影響所導致的。實驗3通過操縱線索和目標之間的SOA來操縱IOR效應的大小, 探究IOR效應對于視聽跨通道對應的調節機制。根據多感覺反應增強中的反比效應原則(principle of inverse effectiveness) (Meredith & Stein, 1983; van der Stoep et al., 2016), 研究預期隨著線索和目標之間的SOA增加, IOR效應變小(Lupiá?ez et al., 1997), 進而使得線索化位置的視聽跨通道對應效應變小, 且IOR效應對于視聽跨通道對應的調節作用減弱。
2.1.1 被試
采用G*Power 3.1軟件對樣本量進行計算(Erdfelder et al., 2009; Faul et al., 2007)。設置I 類錯誤的概率α error prob為0.05, 檢驗效能Power (1 ? β err prob)為0.8, 效應量為中等水平(= 0.25) (Cohen, 1992), 計算被試樣本量為24。招募江蘇省高校在校學生31名, 其中男生14名, 女生17名, 年齡18~24歲。所有被試均為右利手, 聽力、視力或矯正視力正常, 無神經或精神疾病史, 無腦部損傷史。被試在實驗完成后會獲得相應的報酬。
2.1.2 實驗儀器與材料
實驗程序使用E-prime 2.0編制, 運行于Dell 3020 MT主機上。實驗刺激呈現在23英寸的液晶顯示器(Dell E2316Hf)上, 屏幕的分辨率為1024 × 768, 刷新率為60 Hz。整個實驗中被試頭部通過下巴托固定, 距離屏幕60 cm。實驗在隔音的暗環境下進行。
所有的視覺刺激材料都在白色的背景上由黑色(RGB: 0, 0, 0)線條繪制。在每個試次中, 3個正方形方框(1.5°× 1.5°)豎直排列在屏幕上, 其中一個方框位于屏幕正中, 另外兩個方框置于上下兩側, 兩個相鄰方框相距視角為4.5°。中央注視點(1° × 1°)呈現在中央方框內, 線索通過對于注視點上方或者下方的矩形邊框加粗0.5°實現, 中央線索通過中央注視點變大為1.5° × 1.5°實現。視覺目標為一個圓盤(1° × 1°), 聽覺刺激為250 Hz或2500 Hz的正弦音(50 ms)。聲音刺激通過頭戴式鐵三角耳麥(ATH- WS99)從左右耳雙聲道呈現, 音量控制在65 dB。
2.1.3 實驗設計與流程
實驗1采用2 (空間線索有效性:線索有效vs. 線索無效) × 2 (跨通道對應一致性:對應一致vs.對應不一致)的被試內設計, 因變量為反應時和正確率。其中, 跨通道對應一致條件是指在高音后呈現高位置的視覺目標, 在低音后呈現低位置的視覺目標; 跨通道對應不一致條件則與之相反。正式實驗一共5組, 每組53個試次, 其中包含5個捕獲試次, 共265個試次。被試在進行正式實驗前完成53個試次的練習實驗, 整個實驗大約進行35分鐘。
實驗1中每個試次的流程如圖1所示。首先, 屏幕中間會呈現注視點“+”, 呈現時間為750 ms。隨后注視點上方或者下方的方框邊框會加粗, 作為線索, 呈現時間為50 ms, 線索對于目標的空間位置沒有預測性。在250 ms的時間間隔后, 注視點加粗作為中央線索呈現。中央線索是空間IOR研究中常用的設置, 有助于IOR效應更穩定的出現(Prime et al., 2006)。中央線索呈現50 ms, 之后隨機呈現不同音調的聽覺刺激。聽覺刺激呈現時間為50 ms, 在200 ms的時間間隔后, 視覺目標在注視點上方或者下方的方框內呈現100 ms。被試需要在探測到視覺目標時進行既快又準的按鍵反應, 捕獲試次不需要按鍵。如果1000 ms內被試沒有按鍵, 則自動進入下一個試次。除了練習實驗, 實驗中沒有給予被試按鍵正確或錯誤的反饋。
錯誤反應、沒有反應和反應時異常(100 ms以內或超出平均反應時正負3個標準差)的數據不計入反應時分析, 剔除的數據量占總數據量的1.09%。實驗1為簡單的探測反應任務, 被試的平均正確率達到98%以上, 因此不針對正確率進行進一步的統計分析。
對反應時進行2 (線索有效性:線索有效vs. 線索無效) × 2 (跨通道對應一致性:對應一致vs. 對應不一致)的重復測量方差分析。結果如圖2所示, 線索有效性主效應顯著,(1, 30) = 122.26,< 0.001, η2p= 0.80, 線索有效條件下的反應時(325 ms)顯著慢于線索無效條件(288 ms), IOR效應出現。跨通道對應一致性主效應顯著,(1, 30) = 4.95,= 0.034, η2p= 0.14, 對應一致條件下的反應時(305 ms)顯著快于對應不一致條件(308 ms), 視聽跨通道對應效應出現。重要的是, 線索有效性和跨通道對應一致性的交互作用顯著,(1, 30) = 6.69,= 0.015, η2p= 0.18, IOR效應對于視聽跨通道對應產生了調節作用。簡單效應分析表明, 當線索有效時, 跨通道對應一致條件下的反應時(322 ms)顯著快于對應不一致條件(327 ms),(30) = 3.26,= 0.003, Cohen’s= 0.59, 95% CI = [?9.29, ?2.13], 出現了視聽跨通道對應效應; 當線索無效時, 跨通道對應一致條件下的反應時(289 ms)和對應不一致條件下的反應時(288 ms)沒有顯著差異,(30) < 1, 沒有出現視聽跨通道對應效應。另一個維度的簡單效應分析表明, 當跨通道對應一致時, 線索有效條件下的反應時(322 ms)顯著慢于線索無效條件(288 ms),(30) = 10.19,< 0.001, Cohen’s= 1.83, 95% CI = [26.76, 40.19], IOR效應出現; 當跨通道對應不一致時, 線索有效條件下的反應時(327 ms)顯著慢于線索無效條件(288 ms),(30) = 10.76,< 0.001, Cohen’s= 1.93, 95% CI = [31.79, 40.69], IOR效應同樣出現。對于IOR效應量(線索有效條件減去線索無效條件的平均反應時)進行配對樣本檢驗, 結果發現跨通道對應一致條件下的IOR效應量(33 ms)顯著小于不一致條件(39 ms),(30) = 2.59,= 0.015, Cohen’s= 0.47, 95% CI = [?10.31, ?1.21], 視聽跨通道對應產生的促進作用抵消了部分IOR效應。

圖1 實驗1流程圖

圖2 實驗1各個條件下的箱線圖
注:線條自上而下為上限、上四分位數、中位數、下四分位數、下限。散點為個體平均反應時。*< 0.05, **< 0.01, ***< 0.001, n.s.代表無顯著差異
實驗1的結果發現, 被試在線索有效條件下的反應時慢于線索無效條件, IOR效應出現, 表明實驗在中央線索后呈現聽覺刺激并沒有影響IOR效應的產生。此外, 被試在跨通道對應一致條件下的反應時快于對應不一致條件, 聽覺音調與視覺空間位置之間的跨通道對應出現。重要的是, IOR效應與視聽跨通道對應產生了交互作用, 線索有效條件下出現了視聽跨通道對應效應, 而線索無效條件下沒有出現視聽跨通道對應效應, 發生在早期知覺階段的IOR效應對于視聽跨通道對應產生了調節作用。
以往視聽覺整合的研究中, 有研究者發現IOR效應發生時, 線索有效條件下的視聽覺整合效應更大(唐曉雨等, 2020)。研究者通過反比效應原則對此加以解釋, 即更弱的視、聽感覺信號輸入引發了更強的整合(Meredith & Stein, 1983)。目前研究中IOR效應發生時線索化位置的目標感知覺顯著性降低, 非線索化位置的目標感知顯著性相對提高(Satel et al., 2013), 可能導致了視覺目標與聽覺刺激之間的跨通道對應僅在線索化位置出現。這意味著反比效應原則可能也適用于視聽跨通道對應, 具體將在總討論中進一步論述。實驗1還發現跨通道對應一致條件下的IOR效應量更小, 意味著視聽跨通道對應部分抵消了IOR效應對于目標在早期感知覺上的抑制, 這與視聽覺整合研究中的發現相一致(Tang et al., 2019)。
實驗1的結果支持了聽覺音調與視覺空間位置之間的跨通道對應與IOR效應均發生在早期的知覺階段, 因而兩者之間會產生交互。但在目前研究中, 先于視覺目標呈現的聽覺刺激會產生警覺效應(Wiegand & Sander, 2019), 這種警覺效應可能在線索化位置和非線索化位置的大小不同(Botta et al., 2017), 進而對于實驗結果產生混淆。為了進一步支持實驗1的結果是由IOR效應對于視聽跨通道對應進行調節所導致的, 本研究設計了實驗2, 實驗2通過操縱聽覺刺激是否出現, 探究IOR效應與單獨的聲音出現與否之間的關系。實驗2的目的一方面是驗證在目前的研究中, 在視覺刺激前單純呈現聽覺刺激不會與IOR效應產生交互, 而只有聽覺刺激與視覺目標發生跨通道對應才會與IOR效應產生交互; 另一方面是排除可能存在的警覺效應對于結果的混淆。
3.1.1 被試
采用G*Power 3.1軟件對樣本量進行計算。設置I 類錯誤的概率α error prob為0.05, 檢驗效能Power (1 ? β err prob)為0.8, 效應量為中等水平(= 0.25) (Cohen, 1992), 計算被試樣本量為24。招募江蘇省高校在校學生34名, 其中男生15名, 女生19名, 年齡18~24歲。所有被試均為右利手, 聽力、視力或矯正視力正常, 無神經或精神疾病史, 無腦部損傷史。被試在實驗完成后會獲得相應的報酬。
3.1.2 實驗儀器與材料
實驗2中的聽覺刺激為1600 Hz的正弦音, 其余的實驗儀器與實驗材料與實驗1相同。
3.1.3 實驗設計和實驗流程
實驗2采用2 (空間線索有效性:線索有效vs. 線索無效) × 2 (聲音呈現:有聲音vs.無聲音)的被試內設計, 因變量為反應時和正確率。實驗2與實驗1的不同之處是聽覺刺激為1600 Hz的純音, 可能出現在視覺刺激之前, 也可能不出現。其余實驗流程和試次設置均與實驗1保持一致。
錯誤反應、沒有反應和反應時異常(100 ms以內或超出平均反應時正負3個標準差)的數據不計入反應時分析, 剔除的數據量占總數據量的1.88%。在實驗2中, 被試的平均正確率達到98%以上, 因此不針對正確率進行進一步的統計分析。

圖3 實驗2各個條件下的箱線圖
注:線條自上而下為上限、上四分位數、中位數、下四分位數、下限。散點為個體平均反應時。*< 0.05, **< 0.01, ***< 0.001, n.s.代表無顯著差異
對反應時進行2 (線索有效性:線索有效 vs. 線索無效) × 2 (聲音呈現:有聲音 vs. 無聲音)的重復測量方差分析。結果如圖3所示, 線索有效性主效應顯著,(1, 33) = 237.78,< 0.001, η2p= 0.88, 線索有效條件下的反應時(313 ms)顯著慢于線索無效條件(294 ms), IOR效應出現。聲音呈現主效應顯著,(1, 33) = 82.34,< 0.001, η2p= 0.71, 有聲音條件下的反應時(283 ms)顯著快于無聲音條件(305 ms), 聽覺刺激促進被試對于視覺目標的反應。線索有效性和聲音呈現的交互作用不顯著,(1, 33) < 1, 沒有證據表明IOR效應對于聽覺刺激所產生的促進效應產生影響。
實驗2的結果顯示, 被試在線索有效條件下的反應時慢于線索無效條件, IOR效應出現。聲音呈現主效應顯著, 提前視覺刺激200 ms呈現的聽覺刺激促進了被試對于視覺目標的反應。但線索有效性和聲音呈現之間的交互作用不顯著。實驗2的結果表明, 單純的聲音呈現不會與IOR效應產生交互, 只有聽覺刺激與視覺目標發生跨通道對應才會與IOR效應產生交互。實驗2中聽覺刺激對于視覺目標的反應促進主要反映了警覺效應, 而警覺效應沒有和IOR效應產生交互。結合以往研究, 警覺效應是以一種自上而下的方式增強對于刺激的感知(Kusnir et al., 2011), 而IOR以自下而上的方式影響被試的知覺(Berdica et al., 2017; Jia et al., 2019), 由于兩種效應作用的通路不同, 因此不會產生交互作用。實驗2支持了實驗1中的結果的確是IOR效應對視聽跨通道對應的影響所導致的。
為了進一步探究IOR效應對于視聽跨通道對應的調節機制, 本研究設計了實驗3, 實驗3通過操縱線索和目標間的SOA來操縱IOR效應的大小, 探究IOR效應的大小對視聽跨通道對應的影響。如果反比效應原則成立, 則SOA增加所導致的IOR效應變小, 會使得線索化位置的視聽跨通道對應效應減弱, 且IOR效應對于視聽跨通道對應的調節作用減弱。
4.1.1 被試
采用G*Power 3.1軟件對樣本量進行計算。設置I類錯誤的概率α error prob為0.05, 檢驗效能Power (1 ? β err prob)為0.8, 效應量為中等水平(= 0.25) (Cohen, 1992), 計算被試樣本量為16。招募江蘇省高校在校學生37名, 其中男生9名, 女生28名。剔除被試3 名, 剩余有效被試34名, 其中男生9名, 女生25名, 年齡19~26歲。所有被試均為右利手, 聽力、視力或矯正視力正常, 無神經或精神疾病史, 無腦部損傷史。被試在實驗完成后會獲得相應的報酬。
4.1.2 實驗儀器與材料
實驗3在實驗1的基礎上, 將線索與目標之間的SOA設置為600 ms和1300 ms兩種水平。600 ms為實驗1中的線索和目標間的SOA, 1300 ms是通過延長外源性線索與中央線索之間的間隔時間實現的。其余的實驗儀器與實驗材料與實驗1相同。
4.1.3 實驗設計和實驗流程
實驗3采用2 (空間線索有效性:線索有效 vs. 線索無效) × 2 (跨通道對應一致性:對應一致 vs. 對應不一致) × 2 (SOA:600 ms vs. 1300 ms)的被試內設計, 因變量為反應時和正確率。正式實驗一共6組, 每組69個試次, 其中包含5個捕獲試次, 共414個試次。被試在進行正式實驗前完成35個試次的練習實驗, 整個實驗大約進行50分鐘。其余實驗流程均與實驗1保持一致。
錯誤反應、沒有反應和反應時異常(100 ms以內或超出平均反應時正負3個標準差)的數據不計入反應時分析, 剔除的數據量占總數據量的1.22%。實驗3為簡單的探測反應任務, 被試的平均正確率達到99%以上, 因此不針對正確率進行進一步的統計分析。
4.2.1 反應時
對反應時(見表1)進行2 (線索有效性:線索有效 vs. 線索無效) × 2 (跨通道對應一致性:對應一致 vs. 對應不一致) × 2 (SOA:600 ms vs. 1300 ms)的重復測量方差分析。結果顯示, 線索有效性主效應顯著,(1, 33) = 89.44,< 0.001, η2p= 0.73, 線索有效條件下的反應時(355 ms)顯著慢于線索無效條件(336 ms), IOR效應出現。跨通道對應一致性主效應顯著,(1, 33) = 9.57,= 0.004, η2p= 0.23, 對應一致條件下的反應時(343 ms)顯著快于對應不一致條件(348 ms), 視聽跨通道對應效應出現。SOA主效應不顯著,(1, 33) < 1。SOA和線索有效性的交互作用顯著,(1, 33) = 6.89,= 0.013, η2p= 0.17, SOA對于IOR效應產生了調節作用。簡單效應分析表明, 當SOA為600 ms時, 線索有效條件下的反應時(356 ms)顯著慢于線索無效條件(334 ms),(33) = 8.34,< 0.001, Cohen’s= 1.43, 95% CI = [16.33, 26.86], IOR效應出現; 當SOA為1300 ms時, 線索有效條件下的反應時(354 ms)顯著慢于線索無效條件(339 ms),(33) = 8.52,< 0.001, Cohen’s= 1.46, 95% CI = [12.13, 19.74], IOR效應同樣出現。SOA對于IOR效應的調節體現在SOA為600 ms時IOR效應量(22 ms)顯著大于1300 ms時(16 ms),(33) = 2.63,= 0.013, Cohen’s= 0.45, 95% CI = [1.27, 10.05], 隨著SOA的延長, IOR效應變小。

表1 實驗3中不同條件下的平均反應時(M ± SD)
重要的是, 線索有效性、視聽跨通道對應一致性和SOA三因素交互作用顯著,(1, 33) = 6.40,= 0.016, η2p= 0.16。當SOA為600 ms時, 線索有效性和跨通道對應一致性的交互作用顯著,(1, 33) = 19.45,< 0.001, η2p= 0.37, IOR效應對于視聽跨通道對應產生了調節。簡單效應分析表明, 當線索有效時, 跨通道對應一致條件下的反應時(350 ms)顯著快于對應不一致條件(361 ms),(33) = 4.97,< 0.001, Cohen’s= 0.85, 95% CI = [?15.36, ?6.43], 出現了視聽跨通道對應效應; 當線索無效時, 跨通道對應一致條件下的反應時(334 ms)和對應不一致條件(335 ms)沒有顯著差異,(33) < 1, 沒有出現視聽跨通道對應效應。當SOA為1300 ms時, 跨通道對應一致性主效應顯著,(1, 33) = 5.41,= 0.026, η2p= 0.14, 對應一致條件下的反應時(344 ms)顯著快于對應不一致條件(349 ms), 視聽跨通道對應效應出現。線索有效性和跨通道對應一致性的交互作用不顯著,< 1, 無論是線索化位置還是非線索化位置都出現了視聽跨通道對應效應, 但值得注意的是, 此時線索化位置的跨通道對應效應在統計上顯著((33) = 2.11,= 0.042, Cohen’s= 0.36, 95% CI = [?9.73, ?0.19]), 而非線索化位置的跨通道對應效應達到邊緣顯著((33) = 1.78,= 0.084, Cohen’s= 0.31, 95% CI = [?9.44, 0.63]), 這意味著在長SOA下, 線索化位置的視聽跨通道對應效應更加穩定。
4.2.2 視聽跨通道對應效應
首先計算出不同SOA條件下不同線索有效性的視聽跨通道對應效應量(對應不一致減去對應一致的平均反應時), 再對其進行2 (SOA:600 ms vs. 1300 ms) × 2 (線索有效性:線索有效 vs. 線索無效)的重復測量方差分析。
結果如圖4所示。線索有效性主效應顯著,(1, 33) = 10.45,= 0.003, η2p= 0.24, 線索有效條件下的跨通道對應效應量(8 ms)顯著大于線索無效條件(3 ms)。SOA主效應不顯著,(1, 33) < 1。線索有效性與SOA的交互作用顯著,(1, 33) = 6.40,= 0.016, η2p= 0.16。簡單效應分析表明, 在線索有效條件下, SOA為600 ms時的跨通道對應效應量(11 ms)顯著大于SOA為1300 ms時(5 ms),(33) = 2.20,= 0.035, Cohen’s= 0.38, 95% CI = [0.44, 11.44]; 而在線索無效條件下, SOA為600 ms時的跨通道對應效應量(1 ms)與1300 ms時(4 ms)沒有顯著差異,(33) = 1.45,= 0.156。另一個維度的簡單效應分析表明, 當SOA為600 ms時, 線索有效條件下的跨通道對應效應量(11 ms)顯著大于線索無效條件(1 ms),(33) = 4.41,< 0.001, Cohen’s= 0.76, 95% CI = [5.35, 14.50]; 而當SOA為1300 ms時, 線索有效條件下的跨通道對應效應量(5 ms)與無效條件下(4 ms)沒有顯著差異,(33) < 1。

圖4 實驗3不同SOA條件下不同線索有效性的跨通道對應效應量的箱線圖
注:線條自上而下為上限、上四分位數、中位數、下四分位數、下限。散點為個體平均跨通道對應量。*< 0.05, n.s.代表無顯著差異。
4.2.3 IOR效應
首先計算出不同 SOA 條件下不同線索有效性下的 IOR效應量, 再對IOR效應量進行2 (SOA:600 ms vs. 1300 ms) × 2 (跨通道對應一致性:對應一致 vs. 對應不一致)的重復測量方差分析。
結果顯示, SOA主效應顯著,(1, 33) = 6.89,= 0.013, η2p= 0.17, SOA為600 ms時的IOR效應量(22 ms)顯著大于SOA為1300 ms時(16 ms), 隨著SOA的延長, IOR效應量顯著降低。跨通道對應一致性主效應顯著,(1, 33) = 10.45,= 0.003, η2p= 0.24, 跨通道對應一致條件下的IOR效應量(16 ms)顯著小于對應不一致條件(21 ms)。SOA與跨通道對應一致性的交互作用顯著,(1, 33) = 6.40,= 0.016, η2p= 0.16。簡單效應分析表明, 當SOA為600 ms時, 跨通道對應一致條件下的IOR效應量(17 ms)顯著小于對應不一致條件(27 ms),(33) = 4.41,< 0.001, Cohen’s= 0.76, 95% CI = [?14.50, ?5.35], 視聽跨通道對應產生的促進作用抵消了部分IOR效應; 當SOA為1300 ms時, 跨通道對應一致條件下的IOR效應量(16 ms)與對應不一致條件(16 ms)沒有顯著差異,(33) < 1。
實驗3通過操縱線索和目標之間的SOA來操縱IOR效應的大小, 探究IOR效應的大小對視聽跨通道對應的影響。對于IOR效應量的分析發現, 隨著SOA的延長, IOR效應減弱, 這與前人研究結果相一致(Lupiá?ez et al., 1997)。綜合統計結果發現, 當SOA為600 ms時, IOR效應與視聽跨通道對應產生了交互作用, 線索有效條件出現了視聽跨通道對應效應, 而線索無效條件下沒有出現視聽跨通道對應效應, 這與實驗1的結果相一致。隨著SOA延長至1300 ms, 一方面線索有效條件下的視聽跨通道對應效應相比于SOA為600 ms時顯著減弱, 另一方面IOR效應對于視聽跨通道對應的調節作用減弱, 表現為線索有效性與跨通道對應一致性之間交互作用不顯著(線索有效條件下的跨通道對應效應與線索無效條件沒有顯著差異)。當前結果符合反比效應原則(Meredith & Stein, 1983), 即當SOA為1300 ms時, IOR效應減弱使得線索化位置視覺目標的感知覺顯著性相比于SOA為600 ms時增強, 更強的視覺信號輸入引發了更弱的視聽跨通道對應; 同時, 由于IOR效應減弱, 線索化位置與非線索化位置視覺目標的感知覺顯著性間的差異減少, 使得IOR效應對于視聽跨通道對應的調節作用減弱, 導致線索化位置和非線索化位置的視聽跨通道對應效應沒有顯著差異。不過, 由于在1300 ms條件下IOR效應仍然存在, 線索化位置目標感知覺顯著性仍然相對較低, 因此統計結果顯示線索化位置的視聽跨通道對應效應相比于非線索化位置更加穩定。此外, 相比于600 ms條件下, SOA為1300 ms時跨通道對應一致條件下的IOR效應量與對應不一致條件沒有顯著差異, 可能是視聽跨通道對應效應的減弱導致其對于IOR效應的抵抗能力降低。
本研究在空間線索?靶子范式的基礎上, 在視覺目標前呈現聽覺刺激, 操縱空間線索有效性和視聽跨通道對應一致性, 考察IOR效應對于視聽跨通道對應的影響。實驗1發現IOR效應與視聽跨通道對應產生交互, 僅在線索化位置出現了視聽跨通道對應效應。實驗1的結果表明, 視聽跨通道對應發生在早期的知覺階段, 因而會與同樣發生在知覺階段的IOR效應產生交互。實驗2中, 當聽覺刺激為單一音調時, IOR效應沒有對聽覺刺激對于視覺目標的促進作用產生影響, 這意味著只有聽覺刺激與視覺刺激發生跨通道對應時才會與IOR效應產生交互。此外, 實驗2發現聲音刺激所引發的警覺效應不會與IOR效應產生交互, 進一步支持了實驗1的結果是由IOR效應對于視聽跨通道對應的影響所導致的。實驗3中, 研究通過操縱線索與目標之間的SOA來操縱IOR效應的大小, 結果發現隨著IOR效應的減弱, 線索化位置的視聽跨通道對應效應變小, 且IOR效應對于視聽跨通道對應的調節作用減弱。這支持了存在于其他多感覺反應增強研究中的反比效應原則也適用于視聽跨通道對應。
實驗1發現IOR與視聽跨通道對應存在交互作用, 根據加因素法反應時的邏輯, 兩個因素存在交互作用則兩個因素作用于同一個加工階段(Sternberg, 1969)。因此, 本研究支持視聽跨通道對應發生在與IOR效應相同的知覺加工階段, 這與以往一些研究發現一致(Kovi? et al., 2010; Maeda et al., 2004)。以往部分研究認為視聽跨通道對應發生在語義層面上(Gallace & Spence, 2006; Martino & Marks, 1999), 即視、聽信息激活了相同的語義編碼, 導致跨通道對應出現。研究者用“高” “低”兩個詞的語音代替高、低頻率的音調, 發現了語音與空間位置出現了和聲音頻率與空間位置類似的跨通道對應(Gallace & Spence, 2006)。除了直接相關的語義, 研究者在音調與亮度的跨通道對應中, 將亮度刺激換為“白天” “黑夜”這種語義間接相關的詞仍然出現了視聽跨通道對應(Martino & Marks, 1999)。目前的研究則表明, 視聽跨通道對應并不一定要通過語義產生, 而是可以發生在純知覺層面。這符合一些研究發現, 一些不用“高” “低”描述音調的種族仍然存在音調與空間位置的跨通道對應(Parkinson et al., 2012), 而一些尚未習得語言的嬰兒也表現出視聽跨通道對應(Dolscheid et al., 2014; Walker et al., 2010)。當然目前研究結果并不否認語義編碼可能在跨通道對應中發揮作用。本研究中的跨通道對應是兩個基本刺激特征(音調、空間位置)之間的對應, 而聲音頻率和視覺空間位置本身就存在自然的相關性(Spence, 2011), 在自然界中質量較重的生物的發聲頻率往往較低(如牛的叫聲), 而較重的生物不太可能存在于高位置(如空中)。同時, 人類的喉頭在發出較低的音調時下降, 在發出較高的音調時上升(Parkinson et al., 2012), 這都可能導致音調和空間位置之間存在感知上的對應而不需要通過語義產生。而一些不存在自然相關性的刺激特征之間, 或是更復雜的刺激之間的跨通道對應可能需要語義編碼來產生(Parise & Spence, 2012)。此外, 以往視聽跨通道對應的語義研究中, 實驗任務鼓勵被試進行語義編碼(Martino & Marks, 1999), 也可能導致了語義在跨通道對應中的作用增加。
以往有研究者使用信號檢測論的方法對響度與亮度之間的跨通道對應進行研究, 發現視聽跨通道對應不影響被試的知覺, 只影響被試的決策標準(Marks et al., 2003), 但這一研究與通常所用的視聽跨通道對應的范式不同, 被試需要判斷前后兩個刺激的差異, 而非探測或辨別單個刺激, 因此可能造成了行為反應更多依賴于決策過程。總之, 不同刺激之間的視聽跨通道對應可能存在不同的機制(Spence, 2011), 不同的實驗任務也可能產生了不同的結果。
在實驗1中, 視聽跨通道對應僅在線索化位置出現, 這與部分視聽覺整合的研究結果相類似。以往視聽覺整合的研究中, 有研究發現IOR效應發生時, 線索化位置的視聽覺整合效應更大(唐曉雨等, 2020), 研究者使用反比效應原則對于結果進行解釋, 即視、聽感覺信號的輸入強度會影響視聽覺整合效應的大小。根據反比效應原則(Otto et al., 2013), 視覺或聽覺感覺信號輸入強度弱時, 視聽覺整合效應更大; 而視覺或聽覺感覺信號輸入強度強時, 視聽覺整合效應更小(Senkowski et al., 2011)。反比效應原則最初是在動物的單神經元研究中發現的(Meredith & Stein, 1983; Stein & Meredith, 1993), 行為和神經上的研究表明人類被試的多感覺反應增強仍然遵循這一原則(Rach et al., 2011; Senkowski et al., 2011; van de Rijt et al., 2019)。反比效應原則本質上反映的是更弱的冗余性信息引發了更強的整合。本研究的視聽跨通道對應中, 盡管視、聽刺激在形式上是非冗余性的, 但有研究者認為這些刺激處于心理坐標中的相同一端, 如高音和高空間位置都意味著相比于低音和低空間位置更“高”的一端(McCormick et al., 2018), 因此可能存在共同的神經編碼, 產生了冗余性, 因而反比效應原則可能也適用于視聽跨通道對應。當IOR效應發生時, 線索化位置的目標感知覺顯著性降低(Slagter et al., 2016), 視覺信號輸入減弱, 因而產生了穩定的視聽跨通道對應效應, 而非線索化位置相對高的目標感知覺顯著性沒有產生視聽跨通道對應效應。
實驗3的結果發現, 隨著IOR效應減弱, 線索化位置的視聽跨通道對應效應也相應減弱, 同時, IOR效應對于視聽跨通道對應的調節作用減弱, 表現為線索有效性與跨通道對應一致性之間的交互作用不顯著(線索有效條件下的跨通道對應效應與線索無效條件沒有顯著差異), 直接驗證了反比效應原則對于視聽跨通道對應的適用性。在多感覺反應增強的研究中, 反比效應原則不僅存在于無意義的視、聽刺激整合中(Senkowski et al., 2011), 也存在于多感覺輸入下的言語知覺中(van de Rijt et al., 2019), 研究者發現無論是聽覺輸入還是視覺輸入, 更難以感知的單詞輸入引發了更大的多感覺反應增強。目前的研究結果支持視聽跨通道對應的發生也符合反比效應原則, 擴展了反比效應原則在多感覺反應增強領域的適用范圍。
研究同樣發現, 視聽跨通道對應也對IOR效應產生了影響。具體來講, 當SOA為600 ms時, 無論在實驗1還是實驗3中, 跨通道對應一致條件下的IOR效應量都顯著小于對應不一致條件, 這是由于聽覺刺激與視覺目標之間的跨通道對應增加了視覺目標的感知覺顯著性, 部分抵消了IOR效應導致的目標感知覺顯著性降低。而隨著SOA延長, 跨通道對應一致條件下的IOR效應和不一致條件沒有顯著差異。這是由于長SOA下, 視聽跨通道對應效應減弱, 進而抵抗IOR效應的能力也隨之降低, 從而使得不同對應一致性條件下的IOR效應無顯著差異。
目前研究是第一個探究IOR效應與視聽跨通道對應之間關系的研究。因此本研究需要確保實驗中的交互作用的確是由IOR效應對于視聽跨通道對應進行調節所產生的。實驗2在實驗1其他條件保持不變的基礎上, 通過操縱聽覺刺激是否出現, 來探究單純的聲音呈現在本研究中的影響。由于視聽跨通道對應是一種相對的映射(Chiou & Rich, 2012), 需要兩個有相對高、低關系的音調才能與高、低位置相對應, 因此單獨的純音不會引發視聽跨通道對應。結果發現IOR效應與聽覺刺激是否出現不存在交互作用。實驗2的結果一方面驗證了單純的聲音呈現不會與IOR效應產生交互, 只有聽覺刺激與視覺刺激發生跨通道對應才會與IOR效應產生交互。另一方面表明聽覺刺激所產生的警覺效應沒有和IOR效應產生交互, 排除了警覺效應對于實驗結果可能存在的混淆。有研究表明, 聽覺刺激產生的警覺效應會提高被試的感知能力(Kusnir et al., 2011), 并與目標的感知覺顯著性產生交互作用(Botta et al., 2017), 表現為感知顯著性更高的目標產生了更大的警覺效應。來自行為和神經上的證據表明, 警覺效應也會與空間注意產生交互(Botta et al., 2014; 2017), 警覺效應相關的喚醒系統(arousal system)會與注意系統存在補償機制(Fischer et al., 2008; Portas et al., 1998)。但實驗2結果表明, 在目前研究中警覺效應與外源性線索引發的IOR效應缺乏交互作用。這一方面可能由于, 以往研究所比較的是閾上、閾下和閾刺激與警覺效應之間的相互作用(Botta et al., 2017; Chica et al., 2016), 而本研究中視覺目標出現在線索化位置和非線索化位置都完全可見, IOR效應發生所導致的目標感知顯著性的差異不足以引發警覺效應的調節。另一方面可能是警覺效應和IOR效應沿著不同的神經通路獨立發生。盡管有研究表明, 警覺效應和IOR效應都影響刺激的感知覺顯著性(Botta et al., 2014; Prime & Jolicoeur, 2009), 且都與額頂網絡的激活有關(Bourgeois et al., 2012; Kusnir et al., 2011), 但警覺效應是以一種自上而下的方式增加對于刺激的感知(Kusnir et al., 2011), 即通過激活個體的額頂網絡以放大輸入刺激的強度; 而外源性線索引發的IOR以自下而上的方式影響被試的知覺(Berdica et al., 2017; Jia et al., 2019), 通過調節輸入刺激的強度, 影響早期視覺區域對于額頂網絡的投射(Botta et al., 2014)。當然, 警覺效應與IOR效應之間的關系需要神經水平上的進一步的探究。目前的研究排除了警覺效應對于結果的影響, 支持了音調與空間位置之間的視聽跨通道對應發生在知覺水平的觀點。
IOR效應對于視聽跨通道對應產生了調節作用, IOR發生時線索化位置出現了穩定的視聽跨通道對應效應, 而非線索化位置沒有出現。聽覺刺激引發的警覺效應沒有與IOR效應產生交互。隨著IOR效應的減弱, 線索化位置的視聽跨通道對應效應也隨之減弱, 且IOR效應對于視聽跨通道對應的調節作用減弱。當前研究結果支持了聽覺音調與視覺空間位置之間的視聽跨通道對應發生在知覺水平, 且視聽跨通道對應的發生符合反比效應原則。
Berdica, E., Gerdes, A. B. M., & Alpers, G. W. (2017). A comprehensive look at phobic fear in inhibition of return: Phobia-related spiders as cues and targets., 158? 164.
Botta, F., Lupiá?ez, J., & Chica, A. B. (2014). When endogenous spatial attention improves conscious perception: Effects of alerting and bottom-up activation., 63?73.
Botta, F., Ródenas, E., & Chica, A. B. (2017). Target bottom-up strength determines the extent of attentional modulations on conscious perception.(7), 2109?2124.
Bourgeois, A., Chica, A. B., Migliaccio, R., Thiebaut de Schotten, M., & Bartolomeo, P. (2012). Cortical control of inhibition of return: Evidence from patients with inferior parietal damage and visual neglect.(5), 800?809.
Brunel, L., Carvalho, P. F., & Goldstone, R. L. (2015). It does belong together: Cross-modal correspondences influence cross-modal integration during perceptual learning., 358.
Brunetti, R., Indraccolo, A., Del Gatto, C., Spence, C., & Santangelo, V. (2018). Are crossmodal correspondences relative or absolute? Sequential effects on speeded classification.,(2)527?534.
Chica, A. B., Bayle, D. J., Botta, F., Bartolomeo, P., & Paz- Alonso, P. M. (2016). Interactions between phasic alerting and consciousness in the fronto-striatal network., 31868.
Chica, A. B., Lasaponara, S., Chanes, L., Valero-Cabré, A., Doricchi, F., Lupiá?ez, J., & Bartolomeo, P. (2011). Spatial attention and conscious perception: The role of endogenous and exogenous orienting.(4), 1065?1081.
Chiou, R., & Rich, A. N. (2012). Cross-modality correspondence between pitch and spatial location modulates attentional orienting.(3), 339?353.
Cohen, J. (1992). A power primer.(1), 155?159.
Dolscheid, S., Hunnius, S., Casasanto, D., & Majid, A. (2014). Prelinguistic infants are sensitive to space-pitch associations found across cultures.(6), 1256? 1261.
Erdfelder, E., Auer, T. S., Hilbig, B. E., A?falg, A., Moshagen, M., & Nadarevic, L. (2009). Multinomial processing tree models: A review of the literature.(3)108?124.
Evans, K. K., & Treisman, A. (2010). Natural cross-modal mappings between visual and auditory features.(1), 1?12.
Faul, F., Erdfelder, E., Lang, A. G., & Buchner, A. (2007). G*Power 3: A flexible statistical power analysis program for the social, behavioral, and biomedical sciences.(2), 175?191.
Fischer, T., Langner, R., Birbaumer, N., & Brocke, B. (2008). Arousal and attention: Self-chosen stimulation optimizes cortical excitability and minimizes compensatory effort.(8), 1443?1453.
Frassinetti, F., Bolognini, N., & Làdavas, E. (2002). Enhancementof visual perception by crossmodal visuo-auditory interaction.(3), 332?343.
Gallace, A., & Spence, C. (2006). Multisensory synesthetic interactions in the speeded classification of visual size.(7), 1191?1203.
Getz, L. M., & Kubovy, M. (2018). Questioning the automaticity of audiovisual correspondences., 101?108.
Hopfinger, J. B., & Mangun, G. R. (2001). Tracking the influence of reflexive attention on sensory and cognitive processing.(1), 56?65.
Jia, L., Wang, J., Zhang, K., Ma, H., & Sun, H. J. (2019). Do emotional faces affect inhibition of return? An ERP study.(721), 1?8.
Klein, R. M. (2000). Inhibition of return.(4), 138?147.
Kovi?, V., Plunkett, K., & Westermann, G. (2010). The shape of words in the brain.(1), 19?28.
Kusnir, F., Chica, A. B., Mitsumasu, M. A., & Bartolomeo, P. (2011). Phasic auditory alerting improves visual conscious perception.(4), 1201?1210.
Lupiá?ez, J., Milán, E. G., Tornay, F. J., Madrid, E., & Tudela, P. (1997). Does IOR occur in discrimination tasks? Yes, it does, but later.(8), 1241? 1254.
Maeda, F., Kanai, R., & Shimojo, S. (2004). Changing pitch induced visual motion illusion.(23), 990?991.
Maimon, N. B., Lamy, D., & Eitan, Z. (2020). Crossmodal correspondence between tonal hierarchy and visual brightness: Associating syntactic structure and perceptual dimensions across modalities.(8), 805?836.
Marks, L. E., Ben-Artzi, E., & Lakatos, S. (2003). Cross-modalinteractions in auditory and visual discrimination.(1?2), 125?145.
Martino, G., & Marks, L. E. (1999). Perceptual and linguistic interactions in speeded classification: Tests of the semantic coding hypothesis.(7), 903?923.
McCormick, K., Lacey, S., Stilla, R., Nygaard, L. C., & Sathian, K. (2018). Neural basis of the crossmodal correspondence between auditory pitch and visuospatial elevation., 19?30.
McCracken, H. S., Murphy, B. A., Glazebrook, C. M., Burkitt, J. J., Karellas, A. M., & Yielder, P. C. (2019). Audiovisual multisensory integration and evoked potentials in young adults with and without attention-deficit/hyperactivity disorder., 95.
Meredith, M. A., & Stein, B. E. (1983). Interactions among converging sensory inputs in the superior colliculus.(4608), 389?391.
Noesselt, T., Rieger, J. W., Schoenfeld, M. A., Kanowski, M., Hinrichs, H., Heinze, H. J., & Driver, J. (2007). Audiovisual temporal correspondence modulates human multisensory superior temporal sulcus plus primary sensory cortices.(42), 11431?11441.
Otto, T. U., Dassy, B., & Mamassian, P. (2013). Principles of multisensory behavior.(17), 7463?7474.
Parise, C., & Spence, C. (2008). Synesthetic congruency modulates the temporal ventriloquism effect.(3), 257?261.
Parise, C., & Spence, C. (2012). Audiovisual crossmodal correspondences and sound symbolism: A study using the implicit association test.(3?4), 319?333.
Parkinson, C., Kohler, P. J., Sievers, B., & Wheatley, T. (2012). Associations between auditory pitch and visual elevation do not depend on language: Evidence from a remote population.(7), 854?861.
Peng, X., Chang, R., Li, Q., Wang, A., & Tang, X. (2019). Visually induced inhibition of return affects the audiovisual integration under different SOA conditions.(7), 759?771.
[彭姓, 常若松, 李奇, 王愛君, 唐曉雨. (2019). 不同SOA下視覺返回抑制對視聽覺整合的調節作用.(7), 759?771.]
Portas, C. M., Rees, G., Howseman, A. M., Josephs, O., Turner, R., & Frith, C. D. (1998). A specific role for the thalamus in mediating the interaction of attention and arousal in humans.(21), 8979?8989.
Posner, M. I., & Cohen, Y. (1984). Components of visual orienting. In H. Bouma & D. G. Bowhuis (Eds.),(pp. 531?556). Erlbaum.
Prime, D. J., & Jolicoeur, P. (2009). On the relationship between occipital cortex activity and inhibition of return.(6), 1278?1287.
Rach, S., Diederich, A., & Colonius, H. (2011). On quantifying multisensory interaction effects in reaction time and detection rate.(2), 77?94.
Redden, R. S., Maclnnes, W. J., & Klein, R. M. (2021). Inhibition of return: An information processing theory of its natures and significance., 30?48.
Santangelo, V., Ho, C., & Spence, C. (2008). Capturing spatial attention with multisensory cues.(2), 398?403.
Satel, J., Hilchey, M. D., Wang, Z. G., Story, R., & Klein, R. M. (2013). The effects of ignored versus foveated cues upon inhibition of return: An event-related potential study.(1), 29?40.
Senkowski, D., Saint-Amour, D., H?fle, M., & Foxe, J. J. (2011). Multisensory interactions in early evoked brain activity follow the principle of inverse effectiveness.(4), 2200?2208.
Slagter, H. A., Prinssen, S., Reteig, L. C., & Mazaheri, A. (2016). Facilitation and inhibition in attention: Functional dissociation of pre-stimulus alpha activity, P1, and N1 components.(6), 25?35.
Spence, C. (2011). Crossmodal correspondences: A tutorial review.(4), 971? 995.
Spence, C. (2013). Just how important is spatial coincidence to multisensory integration? Evaluating the spatial rule.(1), 31? 49.
Spence, C. (2019). On the Relative nature of (pitch-based) crossmodal correspondences.(3), 235?265.
Starke, J., Ball, F., Heinze, H. J., & Noesselt, T. (2017). The spatio-temporal profile of multisensory integration.(5), 1210?1223.
Stein, B. E., & Meredith, M. A. (1993). The merging of the senses.(3), 373?374.
Stein, B. E., Meredith, M. A., Huneycutt, W. S., & McDade, L. (1989). Behavioral indices of multisensory integration: Orientation to visual cues is affected by auditory stimuli.(1), 12?24.
Stein, B. E., & Stanford, T. R. (2008). Multisensory integration: Current issues from the perspective of the single neuron.(4), 255?266.
Sternberg, S. (1969). The discovery of processing stages: Extensions of Donders' method., 276?315.
Talsma, D., & Woldorff, M. G. (2005). Selective attention and multisensory integration: Multiple phases of effects on the evoked brain activity.(7), 1098?1114.
Tang, X., Gao, Y., Yang, W., Ren, Y., Wu, J., Zhang, M., & Wu, Q. (2019). Bimodal-divided attention attenuates visually induced inhibition of return with audiovisual targets.(4), 1093?1107.
Tang, X., Sun, J., & Peng, X. (2020). The effect of bimodal divided attention on inhibition of return with audiovisual targets.(3), 257?268.
[唐曉雨, 孫佳影, 彭姓. (2020). 雙通道分配性注意對視聽覺返回抑制的影響.(3), 257?268.]
Tang, X., Wu, J., & Shen, Y. (2016). The interactions of multisensory integration with endogenous and exogenous attention., 208?224.
van de Rijt, L. P. H., Roye, A., Mylanus, E. A. M., van Opstal, A. J., & van Wanrooij, M. M. (2019). The principle of inverse effectiveness in audiovisual speech perception., 335.
van der Stoep, N., Spence, C., Nijboer, T. C., & van der Stigchel, S. (2015). On the relative contributions of multisensory integration and crossmodal exogenous spatial attention to multisensory response enhancement., 20?28.
van der Stoep, N., van der Stigchel, S., & Nijboer, T. C. W. (2015). Exogenous spatial attention decreases audiovisual integration.(1), 464?482.
van der Stoep, N., van der Stigchel, S., Nijboer, T. C. W., & Spence, C. (2016). Visually induced inhibition of return affects the integration of auditory and visual information.(1), 6?17.
Walker, P. (2012). Cross-sensory correspondences and cross talk between dimensions of connotative meaning: Visual angularity is hard, high-pitched, and bright.(8), 1792?1809.
Walker, P., Bremner, J. G., Mason, U., Spring, J., Mattock, K., Slater, A., & Johnson, S. P. (2010). Preverbal infants' sensitivity to synaesthetic cross-modality correspondences.(1), 21?25.
Wiegand, I., & Sander, M. C. (2019). Cue-related processing accounts for age differences in phasic alerting., 93?100.
Zeljko, M., Kritikos, A., & Grove, P. M. (2019). Lightness/ pitch and elevation/pitch crossmodal correspondences are low-level sensory effects.(5), 1609?1623.
Effect of inhibition of return on audiovisual cross-modal correspondence
ZU Guangyao1, LI Shuqi1, ZHANG Tianyang2, WANG Aijun1, ZHANG Ming1
(1Department of Psychology, Research Center for Psychology and Behavioral Sciences, Soochow University, Suzhou 215123, China) (2School of Public Health, Soochow University, Suzhou 215123, China)
Different dimensions of visual and auditory stimuli can map to each other to influence human behavioral responses, a phenomenon known as audiovisual cross-modal correspondence. A common audiovisual cross- modal correspondence is between auditory tones and visual spatial locations, with individuals tending to map high-pitched sounds to high spatial location and low-pitched sounds to low spatial location. When a high-pitch sound is accompanied or preceded by a visual stimulus, the participants respond faster to visual stimuli presented in the high spatial location than to visual stimuli presented in the low spatial location, and vice versa. Researchers have different views on the level at which audiovisual cross-modal correspondence occurs. Some argue that audiovisual cross-modal correspondence occurs at the perceptual level, increasing the perceptual saliency of the stimulus, while others argue that audiovisual cross-modal correspondence occurs at a later semantic or decision level. As inhibition of return (IOR) in the attentional system can affect human perception, this study used a cue-target paradigm to explore the interaction between IOR and audiovisual cross-modal correspondence to elucidate the occurrence level and mechanism of audiovisual cross-modal correspondence. Audiovisual cross-modal correspondence between auditory tones and visual spatial locations was expected to occur at the perceptual level and therefore would be subject to the IOR effect occurring at the same processing level.
The present study consisted of 3 experiments. Experiment 1 had a 2 × 2 within-subjects design; we manipulated the spatial cue validity (valid cue vs. invalid cue) and audiovisual cross-modal correspondence (congruent vs. incongruent). During the experiment, a fixation point was first presented in the middle of the screen for 750 ms. The box above or below the fixation point was then bolded for 50 ms, but this cue was not predictive of the spatial location of the target. After a time interval of 250 ms, a fixation point was presented in bold as a central cue. A central cue is commonly used in spatial IOR research, as it facilitates stable occurrence of IOR. The central cue was presented for 50 ms, and then the auditory stimulus (either high or low pitch) was presented for 50 ms. After a 200-ms interval, the visual target was presented for 100 ms in the box above or below the fixation point. The participants were instructed to perform a detection task for the presence of a visual target. The experimental design and procedure of Experiment 2 were identical to those of Experiment 1, except that the sound presented before the visual target was a single tone that was present or absent. Experiment 3 had a 2 × 2 × 2 within-subjects design. Experiment 3 added a factor to Experiment 1, namely, stimulus onset asynchrony (SOA) between the cue and the target (600 ms vs. 1300 ms).
In all three experiments, the overall accuracy (ACC) was very high; thus, no further statistical analysis was conducted for the ACC. In terms of reaction time (RT), the results of Experiment 1 showed that both spatial IOR and audiovisual cross-modal correspondence occurred. Importantly, there was an interaction between spatial cue validity and audiovisual cross-modal correspondence. Specifically, when the cue was valid, audiovisual cross-modal correspondence occurred, and when the cue was invalid, there was no audiovisual cross-modal correspondence. The results of Experiment 2 showed that the interaction between cue validity and sound presentation was not significant, and there was no evidence that IOR influenced the sound-induced facilitation effect. The results of Experiment 3 showed that the interaction among spatial cue validity, cross-modal correspondence congruency, and SOA was significant. Specifically, at an SOA of 600 ms, the interaction between spatial cue validity and cross-modal correspondence congruency was significant. When the cue was valid, audiovisual cross-modal correspondence occurred, and when the cue was invalid, there was no audiovisual cross-modal correspondence. At an SOA of 1300 ms, the interaction between cue validity and cross-modal correspondence congruency was not significant, and cross-modal correspondence occurred in both valid-cue and invalid-cue conditions. The results of the analysis of the IOR effect showed that the IOR effect under the 600-ms SOA condition (22 ms) was significantly larger than that under the 1300-ms SOA condition (16 ms). As the SOA increased, the IOR effect size decreased.
In conclusion, the present results suggested that the IOR effect, occurring at the perceptual level, moderated audiovisual cross-modal correspondence. When the IOR effect occurred, audiovisual cross-modal correspondence occurred in the cued location, but not in the non-cued location. The alerting effect induced by the sound did not interact with IOR. With the weakening of the IOR effect, the audiovisual cross-modal correspondence in the cued location decreased, and the moderating effect of the IOR effect on audiovisual cross-modal correspondence weakened. The present results support that the audiovisual cross-modal correspondence between auditory tones and visual spatial locations occurs at the perceptual level, and the occurrence of audiovisual cross-modal correspondence conforms to the principle of inverse effectiveness.
audiovisual cross-modal correspondence, inhibition of return, cue-target paradigm, alerting effect
2022-9-27
* 教育部人文社會科學研究項目(22YJCZH243)、蘇州市醫療衛生科技創新項目(SKY2022113)、國家自然科學基金項目(31800907)、江蘇高校哲學社會科學研究項目(2022SJYB1454)和蘇州大學人文社科青年交叉團隊(2022)資助。
李舒淇和祖光耀同為第一作者
王愛君, E-mail: ajwang@suda.edu.cn; 張天陽, E-mail: tyzhang@suda.edu.cn
B842