魏一璞
利用視覺情境范式揭示口語加工的時間進程*
魏一璞
(北京大學對外漢語教育學院, 北京 100871)
視覺情境范式是一種通過追蹤、測量人眼在視覺物體上的注視軌跡來研究實時口語加工的眼動實驗范式。該范式運用于語言理解類研究的理論基礎是眼動連接假設(如: 協同互動理論、基于目標的連接假設理論等), 這些連接假設在眼動軌跡與口語加工進程之間建立起了有意義的關聯。使用視覺情境范式所獲取的數據能夠為口語加工提供精確的時間信息, 常用的數據分析方法包括: 時間興趣區內注視比例均值分析、分叉點分析、生長曲線分析等。該范式為研究詞匯語音識別、句法解歧、語義理解、語篇語用信息加工等問題提供了關鍵性證據。
視覺情境范式, 眼動追蹤, 口語加工
語言加工的時間進程問題一直是心理語言學領域的核心議題之一。探討這一問題有三層重要意義: 首先, 不同層面的語言信息(語音、語義、句法、語篇、語用等)以及不同來源的信息(語言輸入、視覺環境、世界知識等)在何時被認知系統加工處理對于語言理解模型的建構至關重要。例如, McRae等人(1998)的基于約束的語言加工模型(constraint-based model), 就是根據歧義句理解的時間進程證據提出的。其次, 研究影響語言理解的因素(如: 詞頻、語言水平、認知能力等)如何起作用也需要語言加工的時間進程信息, 如: Magnuson等人(2003)通過考察聽者理解語音輸入時鎖定目標指代對象的時間, 提出了詞頻會影響詞匯識別的論斷。此外, 語言要素加工的時間線也可以作為反映語言理解能力的重要指標, 在兒童語言習得、二語加工以及老年人語言能力評估等方面發揮作用(Saryazdi & Chambers, 2021)。作為探究口語加工時間進程的重要工具, 視覺情境范式(visual world paradigm)可以提供精確的時間信息, 揭示各個層面口語加工的問題。
視覺情境范式是一種通過追蹤、測量人眼在視覺環境中的注視軌跡研究實時口語理解加工的實驗范式(Allopenna et al., 1998; Salverda & Tanenhaus, 2018)。隨著上個世紀60年代末眼動追蹤儀器與電腦接口的實現, 即時記錄眼動軌跡以及自動處理眼動數據成為可能。70年代中期, 利用眼動技術進行的書面閱讀研究已取得大量進展(綜述見: Rayner, 1978)。與此同時, Cooper (1974)第一次嘗試使用眼動追蹤技術對口語理解進行測量。這項早期研究首次將聽者對視覺物體的注視與語言加工建立了聯系。1995年Tanenhaus等人在《科學》上發文, 闡釋了如何利用眼動追蹤技術揭示歧義句的加工過程, 視覺情境范式(由Allopenna et al., 1998定名)才開始大量被應用于口語加工研究, 成為心理語言學、認知心理學領域最重要的研究手段之一(邱麗景等, 2009; 林桐, 王娟, 2018)。
本文主要闡釋了如何利用眼動視覺情境范式探究口語加工的時間進程。為了闡明這一問題, 本文將首先介紹眼動實驗范式中的連接假設, 將視覺場景中的眼動軌跡與語言的理解過程建立起聯系, 并且充分說明視覺情境范式在任務及數據上有哪些時間性的特點, 以及如何利用這些特點進行數據分析; 進而以口語加工的時間進程為主線, 綜述近20多年來使用該范式的研究在語音、語義、句法、語篇與語用加工等方面的實證發現, 進一步說明這一高時間敏感性范式在口語加工時間進程研究中的貢獻。
視覺情境范式眼動研究方法的理論基礎是連接假設(linking hypotheses), 這類假設將眼動軌跡與口語理解的認知過程建立起了聯系(Allopenna et al., 1998; Tanenhaus et al., 2000)。具體來說, 當聽者處理口語信息時, 會將語言所描述的情景形成動態的心理表征(mental representation); 而理解者對心理表征中特定實體的關注會隨著語言信息的輸入而變化——相應地, 他們在視覺空間中的注視點也會隨之移動(Altmann & Kamide, 2007)。這種注視的聚集和移動, 伴隨著瞳孔位置的改變。通過眼動追蹤手段, 瞳孔位置移動的軌跡可以被有效測量, 進而揭示口語加工的時間進程。過去20年間, 學界提出了諸多反映眼動與口語加工之間關系的具體連接假設理論, 用于闡釋視覺注意如何被分配到指代物體之上(見綜述Magnuson, 2019)。本文總結了其中比較有影響力的三種連接假設理論, 進一步闡明將視覺情境范式應用于口語加工研究的理論基礎。這些連接假設雖未直接就具體語言元素加工的時間進程進行界定, 但其假設中包含了口語加工的若干階段, 是探討加工時間進程的前提基礎。
Knoeferle和Crocker (2006, 2007)提出的協同互動理論(coordinated interplay account)將基于視覺情境的口語理解分為三個主要階段: (1)在原有的語句結構中整合新輸入的詞, 形成新的語句理解, 并基于這一新信息和原有的語言信息、相關世界知識, 共同形成對后面語句的預測; (2)在包含之前視覺場景的工作記憶中, 搜尋詞語所指代的物體或者是基于第一階段信息可以預測到的物體; (3)將語言輸入(名詞、動詞等)與視覺場景中的物體、動作對應, 基于視覺場景信息修正之前形成的語句理解, 并形成新的預測(Knoeferle & Crocker, 2006, 2007; Pyykk?nen-Klauck & Crocker, 2016)。值得注意的是, 這三個進程雖然在協同互動理論中依次呈現, 但該理論并不排斥三個進程在加工時間上有交疊或者同時發生的可能性。協同互動理論凸顯了視覺場景信息對于口語理解的重要性; 而且盡管當視覺場景消失后, 這些情景在工作記憶中會逐漸消退, 但關于情景的記憶仍然對后續句子加工具有顯著的影響(Knoeferle & Crocker, 2007)。
Altmann和Mirkovi? (2009)提出了另一種連接假設理論, 這一理論同樣也認同語句加工受到語言信息(如: 實時語言輸入、語境信息)和非語言信息(如: 視覺場景、世界知識)的共同影響。但不同于Knoeferle和Crocker (2006, 2007)的協同互動理論, Altmann和Mirkovi? (2009)認為處理視覺場景信息與理解語言輸入的過程在心理表征和處理時間上都是無法分割的——因為語言信息和非語言信息都存儲在同一套系統中, 共同構成了對情景的動態表征。當聽者接收到某一信息時, 關于客體的表征(包括與此客體相關的體驗、知識等)會被激活。而隨著聽者不斷接收不同來源的信息(語言輸入、視覺場景、世界知識等), 關于客體的表征就會不斷變化。當不同來源的信息出現重合時, 客體表征的激活就會加強。這一表征系統的不同狀態體現在心智表征(mental representation)層面就是注意力的分配, 而注意力的分配影響了眼動軌跡。換言之, 伴隨語句輸入, 受試者對視覺物體的注視在時間上的變化軌跡, 是由包含語言信息、語境信息、視覺場景、世界知識等的一套共同表征系統所影響并驅動的。在該理論假設框架下, 不同來源的信息對口語加工會產生即時影響, 也會迅速反映在眼動軌跡上。
以上兩種連接假設均基于語言理解視角, 將口語加工過程中的眼動注視變化看作是語言輸入信息與視覺信息共同作用的結果。這兩個假說都將語言加工看作是一項獨立的任務, 與實驗過程中的行為任務目標無關。然而, 此類基于語言理解視角的連接假設未涉及完成任務所需要的動作本身對語言指代加工的影響(Chambers et al., 2004), 同時也未考慮到在視覺搜尋中眼動本身就和行為任務的目標緊密相關——即受試者會更多地注視與自己行為目標相關的物體。為了更好地解釋語言加工與眼動的關系, Salverda等人(2011)提出了基于目標的連接假設理論(goal-based linking hypothesis), 將“任務目標”這一新維度納入眼動連接假設。不同于基于語言理解視角的連接假設, 基于目標的連接假設理論認為不僅語境、語言輸入等可以對語言加工形成約束(constraint), 任務目標本身也可以作為約束——與執行任務目標直接相關的視覺物體, 會吸引更多眼動注視; 而與目標執行無關的物體則不會。該連接假設理論認為, 視覺情境下的口語加工過程首先包含了一項基礎任務, 就是把語言輸入信息與視覺場景中可供選擇的物體對應, 而眼動注視服務于這一任務目標, 用于鎖定可能的指代物體; 不符合可供性(affordance)的物體則很少被注視。例如, 在聽到這一指令時, 只有尺寸大小能放得下立方體(cube)的罐子(can)才會成為被注視的目標容器(Chambers et al., 2004)。Salverda等人(2011)認為, 額外的任務如點擊物體、移動物體等, 共同構成了口語加工任務中的任務目標結構, 并且影響了眼動注視。例如, 當受試者帶著判定句子正誤任務聽句子時, 會比無判定任務情況下聽同樣的句子展現出更早、更顯著的預測性注視(Altmann & Kamide, 1999), 在時間進程上更快地鎖定指代目標。基于目標的連接假設為細化、層級化語言加工過程中的任務目標結構提出了新的要求。
利用眼動視覺情境范式進行的口語加工研究以連接假設為基本前提, 根據利用視覺信息的情況, 可以分為兩個主要研究方向。第一類研究將視覺場景作為呈現物體的布景, 心理表征中對特定指代對象的注意被投射在視覺場景中, 聽者據此形成對指代物體的注視; 而其注視布景上的物體所形成的眼動軌跡, 揭示了不同的語言成分如何被實時加工(例如: Cooper, 1974; Cozijn et al., 2011; Kaiser, 2016)。第二類研究則將視覺信息也作為一種語境約束, 主要探索視覺環境中的信息(如: 候選物體個數、物體大小對比、所描繪的事件動作等)本身對語言加工產生的影響(例如: Chambers et al., 2002; Knoeferle et al., 2005; Tanenhaus et al., 1995)。這兩類研究采用的任務類似, 但是在連接假設的理論層面, 第一類研究強調了理解視覺場景信息與理解口語輸入信息這兩個過程的共時性和不可分割性; 第二類研究則將視覺場景信息加工作為一個相對獨立的過程, 強調視覺場景本身在口語加工過程中的作用。而眼動加工領域最新的趨勢是開始關注任務目標對語言加工的潛在作用。盡管納入了目標維度的連接假設已經完成了初步的理論建構, 但目前針對不同任務目標下加工效應對比的研究仍然是空白。
典型的視覺情境范式實驗通常包含以口語形式呈現的語言指令和以視覺刺激形式出現的物體(在真實世界中或者電腦屏幕上)。受試者在理解口語指令的同時, 在視覺物體上注視點的位置被眼動儀實時記錄并用于后續分析(見圖1)。視覺刺激圖片一般會先于語言指令出現, 并有一定的預視時間; 語言指令以相對固定的播放速度呈現。前人研究中發現, 圖片復雜度、預視時長、語言指令播放速度、任務指令類型(是否明確告知受試者需要預測目標物)等因素都會對眼動結果產生一定的影響(Huettig & Guerra, 2019; Ferreira et al., 2013)。

圖1 視覺情境范式實驗呈現示例
視覺情境范式主要包括兩種不同的實驗任務: 一是主動任務(基于動作的實驗任務), 即要求受試者對語言指令做出行為上的反應(如: 獲取、挪動、點擊物體; 見Hanna & Tanenhaus, 2004; Tanenhaus et al., 1995); 二是被動任務(聽?看任務), 即受試者僅需要聽語言指令、看圖片或者情景, 不需要在行為上做出反應(Altmann & Kamide, 1999; Knoeferle et al., 2005)。關于兩種任務的區別, Salverda等人(2011)指出在主動任務型視覺情境范式實驗中, 獲取、挪動、點擊物體之前受試者會將大量的注視投向目標物體; 而被動任務型實驗不存在這樣的注視模式——此因素可能會導致兩種實驗任務下眼動模式的差異。Pyykk?nen- Klauck和Crocker (2016)綜述對比了采用兩種任務類型的眼動實驗結果, 認為主動任務中一些語言效應(如: 詞頻效應)在眼動指標上表現得更為敏感, 受試者能更快地鎖定目標物體, 顯示出更迅速實時的語言理解過程。而聽句子看圖的被動任務型視覺情境范式實驗, 因不需要受試者完成額外任務, 相對而言具有更好的生態效度(Huettig et al., 2011a); 而且可以被用于檢驗哪些口語加工效應是在語言與視覺交互中普遍存在的, 哪些僅在特殊的實驗任務下才存在(Huettig et al., 2011b)。
視覺情境范式有兩個主要的變體——拼詞呈現范式(printed-word paradigm, Huettig & McQueen, 2007)與空屏呈現范式(blank screen paradigm, Altmann, 2004)。拼詞呈現范式中, 視覺刺激圖片被替換為出現在屏幕上的詞語。受試者會聽到與該詞相關的語音輸入, 同時其在每個字母上的眼動注視軌跡被記錄下來用于分析。拼詞呈現范式可以用于檢驗語音的識別過程、研究正字法信息如何被實時加工等問題。空屏呈現范式主要用于揭示短期記憶在實時語言加工中的作用。在視覺刺激圖片呈現幾秒后, 呈現空白屏幕(一般1秒), 然后播放語音指令。采用該范式的實驗可以證明, 即使在視覺刺激圖片中的物體消失之后, 受試者聽到語言指令仍然會看向相關物體原來所在的位置(Knoeferle & Crocker, 2007)。空屏呈現范式為心智表征提供了依據: 心智表征形成后, 可以不依賴視覺刺激, 而暫時存儲在短期記憶中, 參與后續的語言加工。
視覺情境范式實驗數據分析中的常用因變量為注視和眼跳。其中最常用的注視指標是注視比例(fixation proportion), 即在指定時間窗口內落入某一興趣區的注視點在所有試次中的比例。眼跳(saccade)數據常用的指標包括眼跳比例(即所有試次中看向目標興趣區的眼跳比例)和眼跳反應時(即當目標詞刺激出現后, 看向目標興趣區所需要的眼跳時長)。數據中的自變量可以是實驗設計的組內變量(如: 實驗條件與控制條件、歧義句與非歧義句等), 也可以是組間變量(如: 不同語言背景組、年齡組等)。
視覺情境范式的優勢在于所產出的數據具有高度的時間精確性, 現有的科研用眼動儀可以達到1000 Hz的取樣率, 即每一毫秒捕捉一次眼動位置, 可以提供準確的時間進程信息。以興趣區注視比例這一數據指標為例, 研究者不僅可以跨組對比在某一時間窗口內不同條件組下注視比例的均值, 以確定口語加工中的某一效應; 更重要的是可以探究效應出現的時間(即注視比例在不同條件下開始產生顯著區別的時間)以及效應隨著時間發展而變化的曲線模式。
時間上的精確性是視覺情境范式數據的最重要特點, 如何利用好時間維度信息是該范式數據分析的關鍵。根據利用時間信息的方式, 可將現有的數據分析方法歸為三類: (1)指定時間興趣區內注視比例均值對比; (2)效應出現、持續的時間進程分析; (3)效應隨時間變化的曲線模式分析。為了更好地闡釋三類方法的應用場景與分析邏輯, 本文選用了Allopenna等人(1998)研究中的實驗物體示意圖(圖2)和注視比例數據圖(圖3)作為示例(該研究的詳細討論見第3.1節)。
第一類分析方法是分析視覺情境范式數據最常用、最直觀的方法——將指定時間興趣區內注視比例均值進行對比, 如: 對比從目標詞“燒杯”開始呈現到目標詞結束的約375 ms內聽者對圖2中幾個物體的注視比例。這一分析方法將注視比例、時長或者眼跳指標作為因變量, 組內和組間變量作為自變量, 采用-test、ANOVA、混合效應模型(linear mixed-effects model)等統計手段對比不同物體之間或者不同條件組之間注視比例的差別。相比于-test和ANOVA, 混合效應模型是目前應用最廣的分析方法, 它可以將受試者之間以及試次之間的差異作為隨機變量納入模型, 實現對效應更準確的模擬與測試(應用示例: Gardner et al., 2021; Grüter et al., 2020)。需要注意的是, 此類統計方法通常要求數據符合正態分布, 而注視比例的閾值范圍在0到1之間, 一般需要事先進行對數(log)轉換或者邏輯(logit)轉換(Ito & Knoeferle, 2022)。分析指定時間興趣區內注視比例均值是最簡便的視覺情境范式數據分析方法, 適用于大部分實驗設計。其主要劣勢在于人為設定的時間窗口降低了數據的時間精度, 無法很好地捕捉注視比例隨著時間變化的趨勢; 補償方法可以是將不同時間興趣區作為自變量加入分析模型, 檢驗時間興趣區這一變量本身是否顯著影響注視比例。

圖2 視覺情境范式實驗視覺刺激示意圖
注:語音指令為:“燒杯”。4個用于測量的物體分別為: 左?目標指代物體(referent)“燒杯”、右?語音同群競爭項(cohort)“甲蟲”、上?韻律競爭項(rhyme)“揚聲器”、下?無關項(unrelated) carriage “嬰兒車”。
資料來源: Allopenna等人(1998), 已獲使用許可。

圖3 使用視覺情境范式的詞匯識別任務所得數據示意圖
注:橫軸: 從目標詞開始呈現后的1000 ms時間軸; 縱軸: 注視比例。4條曲線分別代表看向目標指代物體(referent)“燒杯”、語音同群競爭項(cohort)“甲蟲”、韻律競爭項(rhyme)“揚聲器”、無關項(unrelated)“嬰兒車”的注視比例。
資料來源: Allopenna等人(1998), 已獲使用許可。
第二類方法是對效應出現、持續的時間進程進行分析。此類方法充分利用了視覺情境范式精確的時間進程信息, 可用于探究某一口語加工效應出現的確切時間。其中, 分叉點分析(divergent point analysis)將潛在效應出現的時間段再細分為若干小的時間窗口(如20 ms), 在每一個小的時間窗口內對比檢驗兩個條件組的注視比例是否存在顯著區別, 從而找出兩組注視比例曲線最早開始出現顯著分叉的時間點。例如: 圖3中目標指代物體“燒杯”的注視比例曲線與語音同群競爭項“甲蟲”的注視比例曲線分叉點大約在400 ms左右, 晚于目標指代物體與韻律競爭項“揚聲器”的注視比例分叉點, 而通過分叉點分析可以統計計算出不同曲線之間開始顯著分叉的具體時間點。
簡單的分叉點分析只能界定出效應開始的時間點(兩個條件下變化曲線的分叉點), 并不能檢驗分叉點在時間上的變化區間, 也不能跨條件組比較兩個分叉點是否存在統計學意義上的顯著不同。而基于自助抽樣檢驗(bootstrapping)的進階分叉點分析法, 則可以為每一個分叉時間點提供置信區間, 從而實現跨條件組對比(Stone et al., 2021; 應用示例: Corps et al., 2021)。進階的分叉點分析法可為對比研究不同群體語言實時加工的時間進程提供有效的分析工具, 例如, 一語者與二語者在語言加工的某一效應上(如: 預測加工)可能并不存在效應量上的差別, 但是兩類被試者在效應開始的時間上可能存在差異(Kaan & Grüter, 2021), 采用這種分析方法就可以有效檢驗二語者預測加工開始的時間是否會顯著地滯后于一語者。除了分叉點分析法, 基于頻率簇的置換檢驗法(cluster?based permutation analysis; Barr et al., 2014)和自助抽樣檢驗時間序列差別法(bootstrapped differences of timeseries; Seedorff et al., 2018), 均可以用于界定兩個條件組數據出現顯著差別的時間(詳見眼動數據分析方法綜述: Ito & Knoeferle, 2022)。但此類分析方法均無法對不同條件下效應隨時間變化的趨勢進行分析, 要回答此類問題需要借助第三類方法分析變化曲線。
第三類方法主要針對視覺情境范式中效應隨時間變化的曲線模式進行分析。其中, 生長曲線分析法(growth-curve analysis)將不同條件組下關鍵興趣區的注視比例隨著時間變化的曲線進行模擬、分析, 檢驗不同條件組下注視比例曲線變化的模式是否有所不同, 進而檢證效應是否隨著時間發展有所變化(Mirman, 2014; Mirman et al., 2008)。不同于第一類分析法, 生長曲線分析法不僅包括了以時間作為變量的線性模型, 還可以在模型中加入時間變量的二次方、三次方, 以模擬注視比例隨著時間出現曲線變化的模式1在包含時間變量的生長曲線基本模型中(如: Y = β0 + β1× Time), β0為截距, 表示當時間為零時(即開始時)注視比例(Y)的數值; 斜率β1表示隨著時間的推移, 注視比例的變化趨勢; 如將時間的二次方(Time2)、三次方(Time3)加入模型中, 即可以允許注視比例隨著時間推移呈拋物線變化——Time2可以模擬有一次趨勢方向變化(如先升后降, 或先降后升)的曲線, 而Time3可以模擬含兩次方向變化的曲線。, 如在圖3中對語音同群競爭項“甲蟲”的注視比例出現了呈拋物線狀先升后降的趨勢, 且斜率不同于韻律競爭項“揚聲器”, 這一模式就可以采用包含二次方時間變量的生長曲線模型進行分析。在口語加工過程中, 注視隨著時間的變化趨勢常常并非線性上升或者下降, 對變化曲線的模擬和對比能夠更精確地分析語言理解的時間發展進程(應用示例: Henry et al., 2022; Koring et al., 2012; Wei et al., 2019)。需要注意的是, 生長曲線分析法存在數據自動相關性問題(autocorrelation), 即相鄰的兩個時間窗口在注視位置上存在高度相關性, 增加了出現統計學一型錯誤(假陽性)的幾率(Huang & Snedeker, 2020), 因此常需要與第一類和第二類的分析方法相結合, 共同驗證效應。廣義加性混合模型(generalized additive mixed model)分析也可以用于對非線性的數據曲線進行模擬, 通過薄板樣條插值(thin plate regression splines)更靈活地模擬變化曲線, 并且減少統計學上的自動相關性, 一定程度上彌補了生長曲線分析法的劣勢(Porretta et al., 2018)。
學界早年關于語言加工時間進程的爭論主要集中在加工即時性問題上。早期實驗主要采用詞匯再認、線索回憶、自定步速閱讀等任務, 得到的證據傾向于支持延遲整合加工(如: Garnham et al., 1996; Stewart et al., 2000), 即語言使用者加工語言會延遲到句子末尾再進行整合(delayed-integration interpretation; Millis & Just, 1994)。然而, 隨著眼動、腦電事件相關電位(ERP)等測量方法的推廣, 精確測量閱讀時間、腦電信號反應成為可能, 越來越多的證據支持語言加工的即時性, 即語言使用者會隨著語言的輸入即刻處理遇到的信息(incremental interpretation; Traxler et al., 1997; Cozijn et al., 2011; Koornneef & van Berkum, 2006)。對于視覺情境下的眼動測量, 盡管從接收到聽覺語言信號刺激到做出眼動反應需要大約200 ms(Matin et al., 1993; Saslow, 1967), 使用視覺情境范式的大量口語實驗中仍發現了在測試詞開始呈現后、下一詞未開始之前眼動注視投向目標物的效應, 說明語言使用者對口語中信息的處理是即刻發生的(詳見3.1~3.5小節)。
在即時性加工被廣泛認可的基礎之上, 近年來語言加工時間進程的討論主要聚焦于語言使用者何時利用語境信息來理解語言。語言使用者可能在測試詞出現的同時, 即時地結合測試詞的語義與前文語境進行加工; 也可能在測試詞出現之前、加工語境信息的過程中, 對測試詞的語音、語義甚至所處的句法結構提前進行預測性加工(expectation-based account; Levy, 2008)。在對預測效應的檢測上, 視覺情境范式相對于閱讀范式、ERP測量等方法具有明顯優勢(Huettig & Guerra, 2019)。大部分采用后者的研究只能在測試詞出現的位置捕捉到由測試詞語義與語境信息一致性所產生的效應; 而視覺情境范式可以在關鍵詞出現之前, 更早地檢驗到語境對受試者在視覺場景中注視方式的影響, 為口語的預測性加工提供了關鍵性證據。下文將重點分析視覺情境范式在語音、語義、句法、語篇與語用等不同層面如何回答語言加工的時間進程問題。需要說明的是, 不同層面的信息在口語加工中并非獨立, 而是會相互影響(見綜述: Kuperberg & Jaeger, 2016); 而本文出于利于分類總結的考慮, 將各個層面單列綜述。
視覺情境范式中, 聽者聽到一個詞就會在視覺范疇內尋找指代的物體。基于這一特點, 視覺情境范式可以用來檢驗詞匯的識別過程, 并且探究聽者如何利用已有信息預測語音形式。Allopenna等人(1998)利用該范式檢驗了在口語詞匯的語音識別過程中, 語音輸入與詞匯表征的匹配過程是否是漸進發生的。如果這個匹配過程在時間上是漸進的, 那么可以預測目標指代物體“燒杯”的語音同群競爭項“甲蟲”, 會比的韻律競爭項“揚聲器”有更強的干擾效應(見圖2), 因為語音上與在詞語的開頭位置有重疊, 而與的重疊發生在后期。Allopenna等人的視覺情境范式眼動實驗結果驗證了這一假設: 注視目標物體“燒杯”的比例和注視“甲蟲”的比例在語音加工的早期都出現了上升(見圖3), 而對“揚聲器”這一物體的注視比例則是在詞加工的較晚時間才出現上升, 而且注視比例上升的幅度也相對比較小。視覺情境范式提供的眼動注視比例數據有效揭示了詞匯識別中語音輸入和詞匯表征的匹配過程。
在語言使用者能否通過語境信息預測即將出現詞語的語音信息這個問題上, 已有的ERP研究結果存在很大分歧, 并未能得到穩定可復制的語音預測效應(DeLong et al., 2005; Nieuwland et al., 2018), 而視覺情境范式為探討語音預測問題提供了有力的證據。Ito等人(2018)采用視覺情境范式的眼動實驗, 發現在高度可預測的語境下(例如:), 聽者不僅會預測性地注視目標物體(“云”), 還會更多地注視目標物體的語音競爭項(與共享開頭音節的“小丑”), 這一發現證實了語音形式預測的存在。更重要的是, 在視覺情境范式下這一預測效應在目標詞出現前的500 ms就已經出現, 充分證明語言加工中對語音形式的預測是主動的(proactive), 相比于一些其他范式僅在目標詞位置發現整合效應的結果, 視覺情境范式為語言預測提供了更為直接的證據。此外, 視覺情境范式還為研究語音預測機制提供了實證依據: 語音預測與語義預測一樣, 其背后機制都是基于關聯——通過加工語境, 語言使用者在心理詞匯中激活了相應的語義和語音形式, 從而對即將出現的詞語形成預期(Kukona, 2020; 語音預測與語義預測對比見: Karimi et al., 2019)。值得注意的是, 使用西方語言的語音預測研究存在一個無法避免的問題, 即目標詞(如)與其語音競爭項(如)不僅在語音上有重合, 在正字法信息上也存在交疊。Li等人(2022)使用語音與正字法信息相對分離的漢語, 通過視覺情境范式實驗, 也發現了類似的語音形式預測, 驗證了語音預測的普遍性。
視覺情境范式對于句法加工時間進程研究的貢獻主要在兩個方面。首先, 該范式可以用于分析歧義句的解歧過程, 如花園路徑句(garden-path sentences)。Tanenhaus等人(1995)首次采用視覺情境范式探究了存在結構歧義的英文句子加工過程, 以及視覺場景對句子解歧的影響。如在出現前存在結構歧義:既可以是動作的方向, 又可以是的地點限定語。采用視覺情境范式眼動追蹤的實驗方法, Tanenhaus等人發現在視覺場景中只有一個蘋果的時候, 聽者會更傾向于把解讀為動作的方向(眼動注視從蘋果直接移向毛巾); 而當視覺場景中有兩個蘋果時, 聽者則更傾向于將其解讀為的地點限定語而非動作方向(在鎖定毛巾上的蘋果之后直接看向真正的目標地點——箱子)。
其次, 視覺情境范式為句法加工中不同層面信息何時被加工這一問題提供了新的證據。早期的雙階段理論(two-stage account)認為在句子理解過程中, 句法結構分析要先于其他非結構性信息(包括詞匯語義、世界知識、語篇等)的加工(initial syntactic analysis, Frazier, 1987); 基于約束的語言加工理論(constraint-based account)則認為句子加工涉及到多個層面信息的共同限制(Trueswell et al., 1994), 這些限制會在句子加工的早期就對句法結構分析產生影響。視覺情境范式實驗研究支持了后者的假說。如: Snedeker和Trueswell (2004)研究了具有歧義的介詞短語結構(vs)。既可以是賓語的限定成分, 又可以是完成動作所借助的工具。他們發現, 視覺場景中的信息(物體的個數)、動詞的偏向(偏向限定語解讀的動詞“選擇” vs偏向動作工具解讀的動詞“撓”)都會在句子加工的早期對歧義句的句法結構的分析產生影響, 體現在物體個數、動詞偏向不同的情況下, 聽者會看向不同的目標對象。此外, Chambers等人(2002, 2004)的研究還發現, 與視覺場景中物體形態、大小、特質相關的世界知識信息也會影響句法結構的分析, 并且這些影響都發生在句子加工的最開始階段, 駁斥了句法結構分析為先的理論性假設。
視覺情境范式對語義加工研究的一大貢獻是, 揭示了語義加工不僅是即時的, 在很多情況下甚至是具有預測性的(Altmann & Kamide, 1999; Kamide et al., 2003; 理論綜述見: Pickering & Gambi, 2018)。Altmann和Kamide (1999)最早使用視覺情境范式, 研究了動詞?論元整合的時間進程: 與無關動詞move “移動”相比, 聽者在聽到的動詞“吃”時, 會更早地注視到視覺場景中的蛋糕這一物體上。這說明動詞的語義信息(即“吃”需要搭配可以吃的論元)會幫助聽者預測論元的指代對象。Kamide等人(2003)的后續研究總結了語義加工的主要特征: (1)動詞與主語的組合共同促進了語義預測, 例如主語“男人”與動詞“騎”的組合會預測高可能性賓語“摩托車”; (2)除了動詞之外, 附著于論元的格標記也會激活預測加工, 如在動詞后置的日語中, 聽者在動詞還未出現之前也可以通過格標記提前預測即將出現的論元指代對象。
使用視覺情境范式對語義加工的研究不僅限于動詞?論元結構。Chow和Chen (2020)使用該范式研究了漢語量詞信息與語境中世界知識的整合加工, 發現漢語使用者可以根據語境中的世界知識, 在加工的早期對將要出現的名詞形成預期, 而這種預期會受到量詞的影響, 在加工后期進一步修正。此外, Grüter等人(2020)對一語者和二語者量詞加工的研究發現, 一語者與二語者都對量詞包含的語法搭配信息敏感, 并且會利用該信息進行預測性加工。但是, 二語者在加工中會更加依賴語義信息(如: 量詞“條”會搭配長條狀物體), 表現為當視覺場景中出現不符合量詞語法搭配、但符合長條狀語義的干擾物時, 二語者會更多地注視干擾物。
視覺情境范式可以用于探究語篇理解的兩個重要議題——指代關系與連接關系。首先, 視覺情境范式下的眼動追蹤可以有效檢驗代詞與先行詞之間指代關系的建立過程。一般認為, 當聽者聽到與前文語篇有共同指代關系的代詞、并注視某相關物體時, 可以說明此物體被認為是潛在的目標指代物(Runner et al., 2003)。基于這一機制, 研究者利用視覺情境范式探討了諸多指代關系加工中的時間進程問題。例如, Arnold等人(2000)最早發現性別線索和指代對象被提及的順序都對指代消解有即時性影響: 聽者可以在加工早期利用不同性的語言標記形式(如: 英語單數第三人稱或者)鎖定指代的目標; 同時, 句中第一位提及的人物(如: SVO語序句子中的主語)會更容易被解讀為指代對象。在針對隱含因果對代詞消解影響的研究中, Pyykk?nen和J?rvikivi (2010)發現, 隱含因果效應在動詞之后就已經顯現, 聽者聽到動詞后會更多地注視動詞所偏向的指代對象, 如: 在中, 動詞“驚嚇”更偏向第一個人物, 所以當聽者聽到時, 會更多地注視; 而在中, 動詞“害怕”則更偏向第二個人物, 當動詞出現時, 聽者更多注視。這一發現證明了指代加工是即時發生的, 甚至具有預測性, 而非延遲整合(另見: Cozijn et al., 2011)。
視覺情境范式也為連接關系在實時語言理解中的建立提供了豐富的實證證據。Wei等人(2019)采用視覺情境范式探究了主觀因果關系(論點?論據)和客觀因果關系(原因?結果)的加工以及漢語連詞在其中的作用。研究發現, 相較于客觀因果關系連詞“因而”, 當聽者聽到標記主觀因果關系的連詞“可見”時, 相對于客觀因果關系連詞“因而”, 他們會更多地注視視覺場景中的說話人。這表明主觀與客觀因果關系的加工可能在確認、追蹤說話人的過程上有所不同, 而且追蹤說話人的過程是隨著主觀因果連詞的輸入而即時發生的, 實驗證據證明了語篇加工的即時性。Mak等人(2017)通過在視覺場景中提供兩個備選的指代對象, 并追蹤聽者對兩個指代對象的注視軌跡, 探究俄語的兩個連詞在連接關系建立中的作用。研究發現, 連詞“而且” (用于標記延續關系, 連詞前后兩個從句的主語一致)和連詞“而且/但是” (用于標記轉變關系, 前后兩個從句是不同的主語)可以幫助單語兒童和雙語兒童提前預測第二個從句的主語是否轉變, 印證了在口語語篇理解中存在的預測性加工現象。
語用隱含義(pragmatic implicature)何時被加工、這一過程是否先于語義分析是語用學領域關注的重要議題。字面義先行假設(literal-first hypothesis; Huang & Snedeker, 2009, 2011)認為對等級含義詞字面語義(如“一些”的語義解讀應為: 一些?同時可以是全部)的加工先于該詞的語用隱含義(一些?但并非全部); Levinson (2000)認為語用隱含義是默認自動加工的; 基于約束的加工理論則認為語用隱含義是否優先激活取決于是否具有充足的語境支持(Degen & Tanenhaus, 2015, 2016)。
視覺情境范式是對比語義和語用信息加工時間線的重要實驗手段。Huang和Snedeker (2011)的視覺情境范式眼動實驗發現, 聽者在加工“一些”時會先注視與語義解讀(一些?同時可以是全部)相符的對象, 而利用“一些”的語用隱含義(一些?但并非全部)來消除歧義、排除“全部”的指代對象這一過程要晚于的語義加工(約晚800 ms)。Degen和Tanenhaus (2016)的研究則發現, 語用隱含義加工延遲的現象僅僅出現在當數字詞也作為指令出現的情況下; 而當數字詞不存在時,的語用隱含義加工并不會晚于字面語義含義的加工。Gardner等人(2021)改進了Huang和Snedeker (2011)實驗中的視覺物體個數使其更加符合的概念, 他們發現當有足夠的語境支持時, 語用隱含義的加工是迅速即時的, 即聽者可以運用的語用隱含義快速鎖定目標對象。此外, 語言使用者對語用信息的加工還很大程度受到說話人可信度的影響——面對可信度高的說話人, 受試者可以較早地利用等級形容詞的語用含義鎖定目標物體, 而面對可信度低的說話人, 則未出現早期的語用加工效應(Gardner et al., 2021)。
眼動視覺情境范式為研究語言理解提供了兩項重要信息: 一是視覺維度的注視指標; 二是精確的時間測量。前者為心理語言學、認知心理學等領域的實驗設計提供了豐富的可能性; 而精確的時間測量, 為語音、詞匯、句法、語義、語篇、語用等各個層面的口語加工提供了準確的時間進程信息, 極大地拓展了語言理解的相關理論。兩者結合, 可以有效反映在接收到口語信息輸入時, 聽者在視覺場景中的注視位置如何隨著時間變化, 進而為語言理解中的一項重要議題——口語加工的時間進程提供了直接證據。視覺情境范式的實驗研究通過分析高時間敏感性的眼動測量數據, 發現語言各個層面的加工都呈現出即時性甚至預測性的特點, 這與一些早期研究中語言延時整合的發現不同, 說明語言加工時間進程的研究結果與所采用的方法密不可分。此外, 視覺情境范式主要依賴聽力任務, 并不需要受試者具有完整的識字閱讀能力, 可以用來考察低齡兒童、二語學習者、特殊語言障礙人群的語言加工過程(研究示例見: Canseco-Gonzalez et al., 2010; McMurray et al., 2010; Weber & Cutler, 2004)。
視覺情境范式的主要局限性之一在于無法提供加工時長的數據, 因此不能解答語言理解加工困難的相關問題(Salverda & Tanenhaus, 2018)。而且視覺情境范式實驗只能在視覺空間中呈現數目有限的靜態物體, 這也與日常語言理解的復雜視覺環境有所區別。真實的語言理解環境可能包括更多的物體以及動態的動作、事件等, 這也導致了該范式獲得的結果在可推廣性上有一定局限(Huettig et al., 2011a)。此外, 在只呈現有限數目物體的實驗環境下, 聽者可能會提前對語言輸入形成一定的預期, 并策略性地注視某些物體, 因此眼動注視軌跡可能并不完全反映語言加工的過程(Henderson & Ferreira, 2004)。對于這點質疑, Dahan和Tanenhaus (2004)根據其在詞匯識別上的研究提出了不同意見, 他們發現詞頻對詞匯識別的影響效應并不會受到視覺空間中是否存在競爭項以及競爭項數目的影響, 由此推斷在視覺空間中提供有限數目的物體這一設置并不會影響視覺情境范式的有效性。
視覺情境范式的眼動研究仍有很大的發展空間。首先, 盡管連接假設理論中所提出的關于視覺信息和語言信息的理解過程假設已經被大量實證結果所證實, 任務目標對語言加工的重要作用仍然有待進一步探究。對比不同任務目標下, 語言的加工過程如何隨著時間發展, 將是未來視覺情境范式眼動研究的方向之一。近年來, 眼動研究也開始使用三維虛擬現實(VR)技術, 這一技術創新可以高度還原自然的語言交流場景, 同時保持對實驗設置的精確控制。一些利用VR技術的視覺情境范式眼動實驗, 成功復現了語言加工中的一些經典結果, 如預測性語言加工(Eichert et al., 2018; Heyselaar et al., 2020)。這類技術改進不僅提高了視覺情境范式的生態效度, 還可以用于檢驗在接近真實語言使用環境時, 影響語言加工過程的諸多因素。理論和技術的創新都為更準確有效地收集解讀眼動數據、探索語言加工提供了新的契機與更多的可能性。
林桐, 王娟. (2018). 基于視覺情境范式的口語詞匯理解研究進展.,(9), 570?576.
邱麗景, 王穗蘋, 關心. (2009). 口語理解的視覺-情境范式研究., (1), 130?136.
Allopenna, P. D., Magnuson, J. S., & Tanenhaus, M. K. (1998). Tracking the time course of spoken word recognition using eye movements: Evidence for continuous mapping models.,(4), 419?439. https://doi.org/10.1006/jmla.1997.2558
Altmann, G. T. M. (2004). Language-mediated eye movements in the absence of a visual world: The “blank screen paradigm.”,(2), 79?87. https://doi.org/10.1016/ j.cognition.2004.02.005
Altmann, G. T. M., & Kamide, Y. (1999). Incremental interpretation at verbs: Restricting the domain of subsequent reference.,(3), 247?264. https://doi.org/10.1016/ s0010-0277(99)00059-1
Altmann, G. T. M., & Kamide, Y. (2007). The real-time mediation of visual attention by language and world knowledge: Linking anticipatory (and other) eye movements to linguistic processing.,(4), 502?518. https://doi.org/10.1016/ j.jml.2006.12.004
Altmann, G. T. M., & Mirkovi?, J. (2009). Incrementality and prediction in human sentence processing.,(4), 583-609. https://doi.org/10.1111/j.1551- 6709.2009.01022.x
Arnold, J. E., Eisenband, J. G., Brown-Schmidt, S., & Trueswell, J. C. (2000). The rapid use of gender information: Evidence of the time course of pronoun resolution from eyetracking.,(1), B13?B26. https://doi.org/10.1016/s0010-0277(00)00073-1
Barr, D. J., Jackson, L., & Phillips, I. (2014). Using a voice to put a name to a face: The psycholinguistics of proper name comprehension.,(1), 404?413. https://doi.org/10.1037/ a0031813
Canseco-Gonzalez, E., Brehm, L., Brick, C. A., Brown- Schmidt, S., Fischer, K., & Wagner, K. (2010). Carpet or cárcel: The effect of age of acquisition and language mode on bilingual lexical access.,(5), 669?705. https://doi.org/10.1080/ 01690960903474912
Chambers, C. G., Tanenhaus, M. K., Eberhard, K. M., Filip, H., & Carlson, G. N. (2002). Circumscribing referential domains during real-time language comprehension.,(1), 30?49. https://doi.org/ 10.1006/jmla.2001.2832
Chambers, C. G., Tanenhaus, M. K., & Magnuson, J. S. (2004). Actions and affordances in syntactic ambiguity resolution.,(3), 687?696. https://doi.org/ 10.1037/0278-7393.30.3.687
Chow, W. Y., & Chen, D. (2020). Predicting (in)correctly: Listeners rapidly use unexpected information to revise their predictions.,(9), 1149?1161. https://doi.org/10.1080/23273798. 2020.1733627
Cooper, R. M. (1974). The control of eye fixation by the meaning of spoken Language.,(1), 84?107. https://doi.org/10.1016/0010-0285(74)90005-x
Corps, R. E., Brooke, C., & Pickering, M. J. (2021). Prediction involves two stages: Evidence from visual-world eye-tracking.,, 104298. https://doi.org/10.1016/j.jml. 2021.104298
Cozijn, R., Commandeur, E., Vonk, W., & Noordman, L. G.. (2011). The time course of the use of implicit causality information in the processing of pronouns: A visual world paradigm study.,(4), 381?403. https://doi.org/10.1016/j.jml.2011.01.001
Dahan, D., & Tanenhaus, M. K. (2004). Continuous mapping from sound to meaning in spoken-language comprehension: Immediate effects of verb-based thematic constraints.,(2), 498?513. https://doi.org/10.1037/ 0278-7393.30.2.498
Degen, J., & Tanenhaus, M. K. (2015). Processing scalar implicature: A constraint-based approach.,(4), 667?710. https://doi.org/10.1111/cogs.12171
Degen, J., & Tanenhaus, M. K. (2016). Availability of alternatives and the processing of scalar implicatures: A visual world eye-tracking study.,(1), 172?201. https://doi.org/10.1111/cogs.12227
DeLong, K. A., Urbach, T. P., & Kutas, M. (2005). Probabilistic word pre-activation during language comprehension inferred from electrical brain activity.,(8), 1117?1121. https://doi.org/ 10.1038/nn1504
Eichert, N., Peeters, D., & Hagoort, P. (2018). Language- driven anticipatory eye movements in virtual reality.,(3), 1102?1115. https:// doi.org/10.3758/s13428-017-0929-z
Ferreira, F., Foucart, A., & Engelhardt, P. E. (2013). Language processing in the visual world: Effects of preview, visual complexity, and prediction.,(3), 165?182. https://doi.org/ 10.1016/j.jml.2013.06.001
Frazier, L. (1987). Sentence processing: A tutorial review. In M. Coltheart (Ed.),(pp. 559?586). Lawrence Erlbaum Associates.
Gardner, B., Dix, S., Lawrence, R., Morgan, C., Sullivan, A., & Kurumada, C. (2021). Online pragmatic interpretations of scalar adjectives are affected by perceived speaker reliability.,(2), e0245130. https://doi.org/ 10.1371/journal.pone.0245130
Garnham, A., Traxler, M., Oakhill, J., & Gernsbacher, M. A. (1996). The locus of implicit causality effects in comprehension.,(4), 517?543. https://doi.org/doi.org/10.1006/jmla.1996.0028
Grüter, T., Lau, E., & Ling, W. (2020). How classifiers facilitate predictive processing in L1 and L2 Chinese: The role of semantic and grammatical cues.,(2), 221?234. https://doi.org/ 10.1080/23273798.2019.1648840
Hanna, J. E., & Tanenhaus, M. K. (2004). Pragmatic effects on reference resolution in a collaborative task: Evidence from eye movements.,(1), 105?115. https://doi.org/10.1016/j.cogsci.2003.10.002
Henderson, J. M., & Ferreira, F. (2004). Scene perception for psycholinguists. In J. M. Henderson & F. Ferreira (Eds.),(pp. 1?58). Psychology Press. https://doi.org/10.4324/9780203488430
Henry, N., Jackson, C. N., & Hopp, H. (2022). Cue coalitions and additivity in predictive processing: The interaction between case and prosody in L2 German.,(3), 397?422. https://doi.org/ 10.1177/0267658320963151
Heyselaar, E., Peeters, D., & Hagoort, P. (2020). Do we predict upcoming speech content in naturalistic environments?,(4), 440?461. https://doi.org/10.1080/23273798.2020. 1859568
Huang, Y., & Snedeker, J. (2020). Evidence from the visual world paradigm raises questions about unaccusativity and growth curve analyses.,, 104251. https:// doi.org/10.1016/j.cognition.2020.104251
Huang, Y. T., & Snedeker, J. (2009). Semantic meaning and pragmatic interpretation in 5-year-olds: Evidence from real-time spoken language comprehension.,(6), 1723?1739. https://doi.org/10.1037/ a0016704
Huang, Y. T., & Snedeker, J. (2011). Logic and conversation revisited: Evidence for a division between semantic and pragmatic content in real-time language comprehension.,(8), 1161?1172. https://doi.org/10.1080/01690965.2010.508641
Huettig, F., & Guerra, E. (2019). Effects of speech rate, preview time of visual context, and participant instructions reveal strong limits on prediction in language processing.,, 196?208. https://doi.org/10.1016/ j.brainres.2018.11.013
Huettig, F., & McQueen, J. M. (2007). The tug of war between phonological, semantic and shape information in language-mediated visual search.,(4), 460?482. https://doi.org/10.1016/ j.jml.2007.02.001
Huettig, F., Olivers, C. N. L., & Hartsuiker, R. J. (2011a). Looking, language, and memory: Bridging research from the visual world and visual search paradigms.,(2), 138?150. https://doi.org/10.1016/ j.actpsy.2010.07.013
Huettig, F., Rommers, J., & Meyer, A. S. (2011b). Using the visual world paradigm to study language processing: A review and critical evaluation.,(2), 151?171. https://doi.org/10.1016/j.actpsy.2010.11.003
Ito, A., & Knoeferle, P. (2022). Analysing data from the psycholinguistic visual-world paradigm: Comparison of different analysis methods.. https://doi.org/10.3758/s13428-022-01969-3
Ito, A., Pickering, M. J., & Corley, M. (2018). Investigating the time-course of phonological prediction in native and non-native speakers of English: A visual world eye- tracking study.,, 1?11. https://doi.org/10.1016/j.jml.2017.09.002
Kaan, E., & Grüter, T. (2021). Prediction in second language processing and learning: Advances and directions. In E. Kaan & T. Grüter (Eds.),(pp. 1?24). John Benjamins.
Kaiser, E. (2016). Discourse-level Processing. In P. Knoeferle, P. Pyykk?nen-Klauck, & M. W. Crocker (Eds.),(pp. 151?184). John Benjamins Publishing.
Kamide, Y., Scheepers, C., & Altmann, G. T. M. (2003). Integration of syntactic and semantic information in predictive processing: Cross-linguistic evidence from German and English.,(1), 37?55. https://doi.org/10.1023/a:1021933015362
Karimi, H., Brothers, T., & Ferreira, F. (2019). Phonological versus semantic prediction in focus and repair constructions: No evidence for differential predictions.,, 25?47. https://doi.org/10.1016/j.cogpsych. 2019.04.001
Knoeferle, P., & Crocker, M. W. (2006). The coordinated interplay of scene, utterance, and world knowledge: Evidence from eye tracking.,(3), 481?529. https://doi.org/10.1207/s15516709cog0000_65
Knoeferle, P., & Crocker, M. W. (2007). The influence of recent scene events on spoken comprehension: Evidence from eye movements.,(4), 519?543. https://doi.org/10.1016/j.jml.2007.01.003
Knoeferle, P., Crocker, M. W., Scheepers, C., & Pickering, M. J. (2005). The influence of the immediate visual context on incremental thematic role-assignment: Evidence from eye-movements in depicted events.,(1), 95?127. https://doi.org/10.1016/j.cognition.2004.03.002
Koornneef, A. W., & van Berkum, J. J. A. (2006). On the use of verb-based implicit causality in sentence comprehension: Evidence from self-paced reading and eye tracking.,, 445?465. https:// doi.org/10.1016/j.jml.2005.12.003
Koring, L., Mak, P., & Reuland, E. (2012). The time course of argument reactivation revealed: Using the visual world paradigm.,(3), 361?379. https://doi.org/ 10.1016/j.cognition.2012.02.011
Kukona, A. (2020). Lexical constraints on the prediction of form: Insights from the visual world paradigm.,(11), 2153?2162. https://doi.org/10.1037/ xlm0000935
Kuperberg, G. R., & Jaeger, T. F. (2016). What do we mean by prediction in language comprehension?,(1), 32?59. https://doi.org/ 10.1080/23273798.2015.1102299
Levinson, S. C. (2000).. MIT Press.
Levy, R. (2008). Expectation-based syntactic comprehension.,(3), 1126?1177. https://doi.org/10.1016/ j.cognition.2007.05.006
Li, X., Li, X., & Qu, Q. (2022). Predicting phonology in language comprehension: Evidence from the visual world eye-tracking task in Mandarin Chinese.,(5), 531?547. https://doi.org/10.1037/ xhp0000999
Magnuson, J. S. (2019). Fixations in the visual world paradigm: Where, when, why?,(2), 113?139. https://doi.org/10.1007/ s41809-019-00035-3
Magnuson, J. S., Tanenhaus, M. K., Aslin, R. N., & Dahan, D. (2003). The time course of spoken word learning and recognition: Studies with artificial lexicons.,(2), 202?227. https://doi.org/10.1037/0096-3445.132.2.202
Mak, W. M., Tribushinina, E., Lomako, J., Gagarina, N., Abrosova, E., & Sanders, T. (2017). Connective processing by bilingual children and monolinguals with specific language impairment: Distinct profiles.,(2), 329?345. https://doi.org/10. 1017/s0305000915000860
Matin, E., Shao, K. C., & Boff, K. R. (1993). Saccadic overhead: Information-processing time with and without saccades.,(4), 372?380. https://doi.org/10.3758/bf03206780
McMurray, B., Samelson, V. M., Lee, S. H., & Tomblin, J. B. (2010). Individual differences in online spoken word recognition: Implications for SLI.,(1), 1?39. https://doi.org/10.1016/j.cogpsych.2009.06.003
McRae, K., Spivey-Knowlton, M. J., & Tanenhaus, M. K. (1998). Modeling the influence of thematic fit (and other constraints) in on-line sentence comprehension.,(3), 283?312. https://doi.org/ 10.1006/jmla.1997.2543
Millis, K. K., & Just, M. A. (1994). The influence of connectives on sentence comprehension.,(1), 128?147. https://doi.org/ 10.1006/jmla.1994.1007
Mirman, D. (2014).. CRC Press.
Mirman, D., Dixon, J. A., & Magnuson, J. S. (2008). Statistical and computational models of the visual world paradigm: Growth curves and individual differences.,(4), 475?494. https://doi.org/10.1016/j.jml.2007.11.006
Nieuwland, M. S., Politzer-Ahles, S., Heyselaar, E., Segaert, K., Darley, E., Kazanina, N., ... Huettig, F. (2018). Large-scale replication study reveals a limit on probabilistic prediction in language comprehension.,, 1?24. https://doi.org/10.7554/eLife.33468
Porretta, V., Kyr?l?inen, A.-J., van Rij, J., & J?rvikivi, J. (2018). Visual world paradigm data: From preprocessing to nonlinear time-course analysis. In I. Czarnowski, R. Howlett, & L. Jain (Eds.),(Vol. 73, pp. 268?277). Springer.
Pickering, M. J., & Gambi, C. (2018). Predicting while comprehending language: A theory and review.,(10), 1002?1044. https://doi.org/ 10.1037/bul0000158
Pyykk?nen, P., & J?rvikivi, J. (2010). Activation and persistence of implicit causality information in spoken language comprehension.,(1), 5?16. https://doi.org/10.1027/1618-3169/a000002.
Pyykk?nen-Klauck, P., & Crocker, M. W. (2016). Attention and eye movement metrics in visual world eye tracking. In P. Knoeferle, P. Pyykk?nen-Klauck, & M. W. Crocker (Eds.),(pp. 67?82). John Benjamins Publishing.
Rayner, K. (1978). Eye movements in reading and information processing.,(3), 618?660. https://doi.org/10.1037/0033-2909.85.3.618
Runner, J. T., Sussman, R. S., & Tanenhaus, M. K. (2003). Assignment of reference to reflexives and pronouns in picture noun phrases: Evidence from eye movements.,(1), B1?B13. https://doi.org/10.1016/S0010- 0277(03)00065-9
Salverda, A. P., Brown, M., & Tanenhaus, M. K. (2011). A goal-based perspective on eye movements in visual world studies.,(2), 172?180. https://doi. org/10.1016/j.actpsy.2010.09.010
Salverda, A. P., & Tanenhaus, M. K. (2017). The visual world paradigm. In A. M. B. de Groot & P. Hagoort (Eds.),(pp. 89?110). Wiley- Blackwell.
Saryazdi, R., & Chambers, C. G. (2021). Real-time communicative perspective taking in younger and older adults.,(3), 439?454.
Saslow, M. G. (1967). Latency of saccadic eye movement.,(8), 1030?1033. https://doi.org/10.2466/pms.2003.96.1.173
Seedorff, M., Oleson, J., & McMurray, B. (2018). Detecting when timeseries differ: Using the bootstrapped differences of timeseries (BDOTS) to analyze visual world paradigm data (and more).,, 55?67. https://doi.org/10.1016/j.jml.2018.05.004
Snedeker, J., & Trueswell, J. C. (2004). The developing constraints on parsing decisions: The role of lexical-biases and referential scenes in child and adult sentence processing.,(3), 238?299. https://doi.org/ 10.1016/j.cogpsych.2004.03.001
Stewart, A. J., Pickering, M. J., & Sanford, A. J. (2000). The time course of the influence of implicit causality information: Focusing versus integration accounts.,(3), 423?443. https://doi.org/10.1006/ jmla.1999.2691
Stone, K., Lago, S., & Schad, D. J. (2021). Divergence point analyses of visual world data: Applications to bilingual research.,(5), 833?841. https://doi.org/10.1017/s1366728920000607
Tanenhaus, M. K., Magnuson, J. S., Dahan, D., & Chambers, C. (2000). Eye movements and lexical access in spoken-language comprehension: Evaluating a linking hypothesis between fixations and linguistic processing.,(6), 557?580. https://doi.org/10.1023/a:1026464108329
Tanenhaus, M. K., Spivey-Knowlton, M. J., Eberhard, K. M., & Sedivy, J. C. (1995). Integration of visual and linguistic information in spoken language comprehension.,(5217), 1632?1634. https://doi.org/10.1126/science. 7777863
Traxler, M. J., Bybee, M. D., & Pickering, M. J. (1997). Influence of connectives on language comprehension: Eye tracking evidence for incremental interpretation.,(3), 481?497. https://doi.org/10.1080/027249897391982
Trueswell, J. C., Tanenhaus, M. K., & Garnsey, S. M. (1994). Semantic influences on parsing: Use of thematic role information in syntactic ambiguity resolution.,(3), 285?318. https://doi.org/ 10.1006/jmla.1994.1014
Weber, A., & Cutler, A. (2004). Lexical competition in non-native spoken-word recognition.,(1), 1?25. https://doi.org/10.1016/ S0749-596x (03)00105-0
Wei, Y., Mak, W. M., Evers-Vermeul, J., & Sanders, T. J. M. (2019). Causal connectives as indicators of source information: Evidence from the visual world paradigm.,, 102866. https://doi.org/10.1016/ j.actpsy.2019.102866
Visual world paradigm reveals the time course of spoken language processing
WEI Yipu
(School of Chinese as a Second Language, Peking University, Beijing 100871, China)
The visual world paradigm (VWP) assesses real-time language processing by tracking and measuring eye movements in visual contexts. Linking hypotheses, such as the coordinated interplay account and the goal-based linking hypothesis, establish the link between eye movements and the cognitive processes of language comprehension. Time sensitivity is characteristic of the data generated by this paradigm. Analytical methods include the analysis of fixation proportions within time windows, divergence point analysis and growth-curve analysis, etc. Studies using the VWP provide important evidence for speech and lexical recognition, syntactic parsing, semantic integration, and the processing of discourse and pragmatic information.
visual world paradigm; eye-tracking; spoken language processing
2023-02-06
* 教育部人文社會科學研究青年基金項目(21YJC740062)。
魏一璞, E-mail: weiyipu@pku.edu.cn
B842