首詞素位置概率信息未參與漢語閱讀的詞切分：基于副中央凹加工的證據 *

2022-07-18 06:53:56梁菲菲龍夢靈

心理與行為研究 2022年3期

梁菲菲向穎龍夢靈

(1 教育部人文社會科學重點研究基地天津師范大學心理與行為研究院，天津 300387) (2 天津師范大學心理學部，天津 300387) (3 學生心理發展與學習天津市高校社會科學實驗室，天津 300387)

1 引言

詞是閱讀的重要加工單位，這在漢語和拼音文字語言中具有跨語言的普遍性（Bai et al., 2008;Li & Pollatsek, 2020; Rayner et al., 1998）。大多數拼音文字語言書寫系統中包含詞間空格，它能在視覺上進行詞切分，在拼音文字閱讀中十分重要。如果人為地刪除詞間空格，讀者的平均注視時間會顯著變長，眼跳距離顯著變短，閱讀速度下降30%～50%（Rayner et al., 2009）。與英語、德語、西班牙語等拼音文字語言不同，漢語在文本呈現方式上沒有明確的視覺詞切分線索（如詞間空格）。那么，漢語讀者在閱讀文本時利用何種線索將詞從句子中切分出來？該問題是揭示漢語閱讀詞切分認知機理的關鍵（李興珊等, 2011; Liang et al., 2021）。本研究將在Liang等人的研究基礎上，繼續對漢語閱讀中的一種語言詞切分線索—詞素位置概率信息的作用方式進行考察。

詞素位置概率信息是指一個特定漢字用在詞內某個位置（如詞首或詞尾）的概率信息。如果一個漢字常用在多字詞的某個特定位置，該漢字在一定程度上也攜帶了詞內位置線索。例如，基于SUBTLEX-CH語料庫（Cai & Brysbaert, 2010），在“各”字構成的29個雙字詞中（如“各位”“各家”“各路”等），“各”字均用在詞首。該字出現在詞首的概率為100%，其詞素位置線索就指向詞首。具有特定詞素位置線索的漢字在文本閱讀中提供了一定的詞切分信息，如“主持人請各位獲獎選手上臺領獎”，由于“各”只能用在詞首，因此，“各”的出現意味著上個詞的結束，下個詞的開始。在漢語閱讀中，讀者是否會利用詞素位置概率信息進行詞切分和詞識別？

Liang等人（2017）和Liang等人（2015）系統考察了新詞學習情境中詞素位置概率的作用，操縱首、尾詞素的位置概率信息，并控制詞素字頻和筆畫數，構造三類雙字假詞作為新詞，形成三個實驗條件：（1）一致條件，首詞素常用在詞首，尾詞素常用在詞尾，提供了一致的詞切分信息；（2）不一致條件，首詞素不常用在詞首，尾詞素不常用在詞尾，提供了不一致的詞切分信息；（3）平衡條件，首詞素和尾詞素用在詞首和詞尾的概率均在50%左右，不提供任何詞切分信息。其研究將每個新詞嵌在6個強信息限制性語境中，將其描述成某個特定語義類別的新成員。以大學生和小學三年級兒童為被試，記錄其閱讀句子時的眼動軌跡。結果發現，在反映詞匯加工早期和晚期的眼動指標（如首次注視時間、凝視時間、總注視時間）中，被試在一致條件下對新詞的注視時間顯著短于不一致條件，表明當詞素在詞內的實際位置和常用位置不相符時，讀者在閱讀中遇到了加工困難，他們需要額外的加工時間解決由于位置信息不一致帶來的認知沖突。上述研究結果表明詞素位置概率作用于漢語閱讀新詞學習的詞切分。

然而，上述研究為達到自變量操縱力度的最大化，同時操縱首、尾詞素的位置概率。因此，目前的研究發現雖然證實了詞素位置概率信息作用于漢語閱讀的詞切分，但是并未回答以下問題：究竟是首詞素、尾詞素還是二者的位置概率信息共同作用于漢語閱讀的詞切分？因此，Liang等人（2021）通過兩個平行實驗，選擇雙字詞作為目標詞，分別操縱首、尾詞素的位置概率高低，同時保持另一詞素在兩個實驗條件中相同，如“湖水/泉水”（“湖”常用在詞首，“泉”不經常用在詞首），將目標詞嵌在相同語境，記錄被試閱讀句子時的眼動軌跡，發現讀者對目標詞的注視時間在首詞素位置概率高、低兩個實驗條件中無顯著差異；而當尾詞素是常用在詞尾的漢字時，讀者對目標詞的凝視時間和總注視時間顯著短于尾詞素不經常用在詞尾時。該研究結果表明，首、尾詞素的位置概率信息在漢語閱讀詞切分和詞識別中的作用不同，讀者僅對尾詞素的位置概率信息敏感。

為何首詞素的位置概率信息沒有參與漢語閱讀的詞切分和詞識別？根據Li和Pollatsek（2020）在漢語閱讀眼動控制模型中對詞切分和詞識別關系的認識，二者是一個統一的過程。當一個詞被切分出來，意味著這個詞已經被成功識別；當一個詞被識別出來時，也就意味著該詞的詞首和詞尾被成功切分。此外，Li和Pollatsek在模型中假設，漢語閱讀中的詞匯識別符合序列加工原則。由于漢語文本無詞間空格，當前詞的右邊界也是下一個詞的左邊界，也就是說，詞N的左邊界和詞N-1的右邊界完全重合。因此，在詞N未被直接注視之前，其左邊界已經在識別詞N-1時被成功切分。那么，讀者在直接注視詞N時，就無需通過首詞素的位置概率信息再次識別詞N的左邊界。該觀點已得到一些實驗結果的支持，例如，Liu和Li（2014）發現，如果在詞的左側插入詞間空格，不會促進漢語閱讀的詞匯識別；但是在詞的右側插入詞間空格，則會促進當前詞的加工。

上述實驗結果表明，在漢語閱讀的實時加工過程中，判斷一個詞的左邊界發生在直接注視之前，而判斷詞的右邊界則發生在直接注視時。而讀者在閱讀過程中，除了在中央凹對正在注視的目標詞進行直接加工外，還可以從副中央凹處加工到目標詞右側詞匯的部分信息。前期研究已經發現讀者在副中央凹處可以加工到詞匯正字法、語音，以及部分語義信息（Rayner, 2009）。那么，讀者在副中央凹加工中是否會利用首詞素位置信息進行詞切分和詞識別？如果讀者在注視詞N-1時，可以在副中央凹處加工到詞N的首詞素位置概率信息，切分出詞N的左邊界，那么就不需要在直接注視詞N時對其左邊界再次進行切分。

為此，本研究采用邊界范式，操縱目標詞首詞素的位置概率（高、低）和預視類型（相同預視、假字預視），考察讀者是否在副中央凹對首詞素的位置概率信息進行加工。研究假設：如果漢語讀者在副中央凹處對首詞素位置概率信息敏感，與首詞素位置概率低相比，當首詞素位置概率高時，被試將在目標詞加工中獲得更大的預視效益；如果讀者在副中央凹處未對該信息進行加工，兩個實驗條件中的預視效益量差異不顯著。

2 研究方法

2.1 被試

天津師范大學110名大學生，平均年齡為19.2歲。所有被試視力或矯正視力正常，無色盲色弱，不知曉實驗目的。實驗結束后，給予被試一份小禮物作為報酬。

2.2 實驗設計

采用2（首詞素位置概率：高、低）×2（預視類型：相同預視、假字預視）的被試內實驗設計。因變量為反映詞匯加工的系列眼動指標。

2.3 實驗材料及實驗范式

選擇40對雙字詞作為目標詞，操縱目標詞首詞素的位置概率。基于SUBTLEX-CH語料庫（Cai &Brysbaert, 2010），計算首詞素的位置概率：某個漢字用在雙字詞詞首的數量/該漢字組成雙字詞的總數量×100%。高概率條件下首詞素用在詞首的平均概率為81%（全距: 70%～100%）；低概率條件下首詞素用在詞首的平均概率為22%（全距: 7%～30%）。兩個實驗條件中目標詞的尾詞素相同，且用在詞首和詞尾的概率相當（全距: 36%～65%），不能提供明晰的詞切分信息。匹配兩個實驗條件中目標詞首詞素的筆畫數（高概率條件:M=8.1,SD=2.7; 低概率條件:M=8.5,SD=2.4）、字頻（高概率條件:M=963次/百萬,SD=2910次/百萬; 低概率條件:M=436次/百萬,SD=824次/百萬）和目標詞詞頻（高概率條件:M=59次/百萬,SD=153次/百萬; 低概率條件:M=33次/百萬,SD=77次/百萬）。統計檢驗結果表明，兩個實驗條件在筆畫數、字頻和詞頻上均無顯著差異（ts＜1.28,ps＞0.05）。

將每組目標詞嵌入相同的語境，目標詞位于句中。平均句長為12.0個漢字。采用句子完形任務，請15個不參加正式實驗的大學生對句子的預測性進行評定。讓被試根據目標詞左側信息填充可能出現的詞。經檢驗，高概率條件（M=0.11,SD=0.03）和低概率條件（M=0.13,SD=0.04）中句子對目標詞的預測程度無顯著差異，t(39)=0.72，p＞0.05。邀請另外不參加正式實驗的15名大學生對句子的通順性做5點等級評定（“1”表示“非常不通順”，“5”表示“非常通順”），兩個實驗條件無顯著差異，高概率條件：M=4.19，SD=0.21；低概率條件：M=4.24，SD=0.19，t(39)=0.96，p＞0.05。

采用邊界范式（如圖1所示），設有兩個預視條件（相同、假字），與目標詞首詞素位置概率這一自變量相組合，形成四個實驗條件：（1）高概率-相同預視，眼睛在越過邊界前和越過邊界后，均為高概率條件中的目標詞首字，如“湖”；（2）低概率-相同預視，眼睛在越過邊界前和越過邊界后，均為低概率條件中的目標詞首字，如“泉”；（3）高概率-假字預視，眼睛在越過邊界前為符合正字法規則的假字，越過邊界后，則替換為高概率條件中的目標詞首字；（4）低概率-假字預視，眼睛在越過邊界前為符合正字法規則的假字，越過邊界后，則替換為低概率條件中的目標詞首字。假字在條件3和條件4中保持一致，其筆畫數（M=8.4,SD=2.9）與兩個目標詞首字的筆畫數均無顯著差異，ts＜0.56，ps＞0.05。

圖1 邊界范式示意圖

每個被試閱讀40個實驗句和40個填充句，填充語句正常呈現。為確保被試認真閱讀，在20個句子后面伴有一個閱讀理解判斷題目，要求被試根據所閱讀句子的語義作出“是/否”判斷。

2.4 實驗儀器

采用EyeLink 1000型眼動儀，儀器采樣率為1000 Hz。實驗材料在19英寸的DELL顯示器上呈現，刷新率為120 Hz，分辨率為1024×768像素。被試與屏幕之間的距離為75 cm。實驗材料以宋體18號字體呈現，每個漢字大小為25×25像素，呈0.74°視角。

2.5 實驗程序

被試單獨施測。進行水平三點校準。平均誤差小于0.2°。眼睛校準成功后，句子逐一呈現，要求被試認真閱讀所有句子。閱讀完畢后，按鼠標“左鍵”結束當前句子閱讀，并通過鼠標按鍵在屏幕上選擇閱讀理解題目的正確答案。正式實驗前有4個練習語句，以確保被試熟悉實驗程序。整個實驗持續25分鐘左右。

3 結果

被試的閱讀理解正確率均在90%以上，平均正確率為94%，表明所有被試都認真閱讀了實驗語句。根據以下標準刪除數據（王永勝等, 2016;Rayner et al., 1998）：（1）注視點持續時間小于80 ms或大于1200 ms；（2）句子注視點少于3個；（3）邊界變化提前或延遲；（4）邊界變化或注視目標詞時眨眼；（5）3個標準差之外。刪除數據占總數據的14.7%。

選取跳讀率和第一遍閱讀的眼動指標（首次注視時間、單一注視時間、凝視時間、再注視比率、首次注視位置）作為反映預視效益大小的因變量。采用R（R Core Team, 2019）環境下的線性混合模型（liner mixed model, LMM）進行數據分析（Barr et al., 2013）。將首詞素位置概率、預視類型，以及二者的交互作用作為固定因素納入模型，將被試、項目納入模型的隨機效應。采用隨機效應最大逐漸遞減的原則，直至模型擬合成功。

各實驗條件下的平均數和標準差見表1，統計結果見表2。除了首次注視位置，在其他五個眼動指標分析中，得到相同的效應：（1）預視類型的主效應顯著，與假字預視條件相比，被試在相同預視條件下對目標詞的跳讀率更高，注視時間更短，再注視比率更低，表明本研究對預視的操縱有效。（2）首詞素位置概率的主效應不顯著，當目標詞的詞頻相當時，被試對目標詞的第一遍閱讀時間沒有因首詞素位置概率不同而發生變化。這與Liang等人（2021）第一個實驗的研究發現一致，表明漢語讀者在詞切分和詞識別過程中沒有利用首詞素的位置概率信息。（3）首詞素位置概率和預視條件的交互作用不顯著，表明目標詞的預視效益量沒有受首詞素位置概率高低的影響。該結果表明，漢語讀者沒有在副中央凹處加工下一個詞的首詞素位置概率信息。

表1 被試在各實驗條件下對目標詞的注視情況（M±SD）

首次注視位置是指落入目標詞的首個注視點的位置距離詞首的距離，全距為0～2個漢字，其中，詞首為0，中心為1，詞尾為2。分析結果顯示，預視條件、首詞素位置概率以及二者的交互作用均不顯著，表明首詞素位置概率沒有調節讀者在目標詞上的首次眼跳定位。

4 討論

本研究采用邊界范式，考察漢語讀者是否在副中央凹處加工下一個詞的首詞素位置概率信息。結果發現，目標詞的預視效益量并沒有受到首詞素位置概率高低的調節。結合Liang等人（2021）的研究結果，表明漢語閱讀中首詞素位置概率信息沒有參與詞切分和詞識別過程。該研究發現加深了對漢語閱讀詞切分認知機理的認識。

漢語閱讀中首詞素的位置概率信息不作用于詞切分和詞識別，可能與漢語閱讀的文本呈現方式有關。無詞間空格意味著相鄰兩個詞共用一個詞邊界。根據Li和Pollatsek（2020）所持的觀點，詞切分和詞識別是一個統一的加工過程，當讀者在中央凹加工處成功識別詞N-1時，詞N-1的右邊界和詞N的左邊界均被成功切分出來。因此，當眼睛注視詞N時，為了加工的經濟性，讀者不再分配認知資源加工首詞素的位置概率信息。本研究結果進一步說明，讀者沒有在副中央凹處加工下一詞首詞素的位置概率信息。這在一定程度上支持了Yen等人（2012）的研究發現，即漢語讀者對詞素位置概率信息的加工發生在中央凹，而非副中央凹?？赡苁怯捎谧x者在閱讀中對首詞素家族成員的加工更多地涉及到語義層面的加工（Yao et al., 2021），首詞素位置概率信息加工則是在所有家族成員（不論詞內位置）激活的基礎上，計算出該漢字用在詞首的概率信息。語義加工大多發生在中央凹加工（張慢慢等, 2020），因此，首詞素位置概率信息的加工更有可能與中央凹加工有關。

需要指出的是，泰語是一種無詞間空格的拼音文字語言。Kasisopa等人（2013, 2016）在泰語閱讀中發現，詞首和詞尾字母的位置概率信息共同作用于詞切分，具體表現為，當詞首和詞尾字母具有較高的位置概率時，泰語讀者加工目標詞的時間會顯著縮短，同時，在目標詞上的首次眼跳定位將更加靠近詞中心。

綜上所述，首詞素的位置概率信息在泰語閱讀中起到詞切分的作用，而在漢語閱讀中則沒有起到作用，表明首詞素位置概率信息在詞匯識別中的作用具有跨語言的特異性。這可能和該信息在各語言中的性質不同有關。據統計，在泰語中，10個常用在詞首的字母構成的詞占所有詞匯的50%，5個常用在詞尾的字母所構成的詞占所有詞匯的50%（Kasisopa et al., 2013）。對于熟練的泰語讀者，首、尾詞素位置概率信息類似于詞間空格，更像是一種視覺詞切分信息。只要讀者具備一定的閱讀經驗，他們在閱讀中通過視覺加工就可以習得該詞素的位置概率信息。因此，泰語讀者很有可能在副中央凹處就可以通過視覺加工判斷出詞首位置，進而有效引導眼動。如果這種假設正確的話，研究者預期，當在泰語閱讀材料中插入詞間空格后，這種視覺詞切分信息將和首、尾詞素的位置概率信息共同作用于泰語閱讀的詞切分。因為兩種詞切分線索均類似于視覺信息，位于視覺加工這一層級。Kasisopa等人的研究結果支持了上述觀點，該研究發現泰文閱讀中的眼跳定位同時受詞間空格、首、尾詞素位置概率的影響，最佳首次注視位置的分布發生在詞間空格條件下閱讀詞首和詞尾位置概率較高的詞匯時。

相比之下，漢語閱讀中詞素位置概率的特征在視覺上不明顯。據統計，在5915個常用漢字中，少于20%的漢字僅用在詞內的某一個位置（例如單字詞、詞首、詞尾），提供明確的詞切分標記（Yen et al., 2009）。最為重要的是，這些可以提供明確詞邊界的漢字的累積使用頻率較低（1146.9次/百萬）。相比之下，約50%的漢字在詞內的位置非常靈活，既可以用作單字詞，也可以用作多字詞的詞首、詞中和詞尾，例如“衣”“衣服”“洗衣機”“上衣”。這些漢字的累積使用頻率非常高（960976.9次/百萬）。由此可見，與泰語相比，漢語中詞素的位置概率特征不具系統性，它更像是一種基于詞素位置在語言學上的統計學特征，在加工中逐步編碼和表征，隨后影響詞切分和詞識別過程。Liang等人（2017）和Liang等人（2015）的研究成果支持了這一觀點。其研究同時操縱詞素位置概率和文本呈現方式（有無詞間空格）兩個因素，結果并沒有發現兩種詞切分線索的交互效應。詞間空格是一種視覺詞切分線索，因此，研究者推斷，漢語閱讀中讀者對詞素位置概率的加工可能沒有發生在視覺加工層級，而更有可能和早期的語言加工（如詞匯通達等）有關。Yao等人（2022）發現，首詞素家族大小效應發生在凝視時間和總注視時間等反映詞匯加工相對晚期的眼動指標中，這也可以推斷，漢語讀者對詞素位置概率信息的加工與詞匯通達或后期語義整合有關。

尾詞素位置概率如何作用于漢語閱讀的詞匯加工？在拼音文字閱讀中的詞匯識別中，特定字母構成的詞匯在被激活的同時，包含這些字母的其它詞匯（正字法臨近詞）在一定程度上也被激活，例如，在激活cat時，bat，cut，ate等正字法臨近詞也會不同程度地被激活。如果一個詞具有較多的正字法臨近詞，那么，構成詞的字母將接受到更多的、自上而下的、來自詞匯水平的反饋（Andrews, 1989; Forster & Shen, 1996; Johnson &Pugh, 1994; Peereman & Content, 1995; Sears et al.,1995）。因此，這些詞的識別速度將快于擁有較少正字法臨近詞的詞匯（McClelland & Rumelhart,1981）。

無論是在詞匯判讀任務還是在自然閱讀中，當詞內特定位置的詞素具有較多的正字法臨近詞時，其加工速度快于擁有較少正字法臨近詞的詞匯（Tsai et al., 2006）。由此推之，當詞尾漢字具有較多的正字法臨近詞時，包含同一尾詞素的詞匯受到更大程度的激活，目標詞更容易勝出。由此可知，詞素位置概率的加工發生在詞匯識別和切分的“字組詞”環節（Liang et al., 2017; Liang et al., 2015）。

本研究發現對當前的漢語閱讀眼動控制模型有如下啟示。第一，深化對漢語閱讀詞切分內在認知加工過程的認識。Li和Pollatsek（2020）在模型中提出了漢語閱讀詞切分和詞識別的關系，但是并沒有對詞切分的內在認知加工過程進行詳細解釋。本研究結果表明，漢語讀者對詞首和詞尾的切分不是發生在同一個時間點，而是有時間先后之分。其中，詞首的判斷發生在未被直接注視之前。當眼睛直接注視目標詞時，會同時利用自上而下和自下而上的信息判斷詞尾的位置。一旦讀者完成了整個詞匯識別過程，那么，詞尾的切分就已完成；或者說，一旦詞尾的切分完成，讀者就完成了當前詞的切分。同時，下一個詞的詞首切分也就完成了。由此可知，在漢語閱讀中，詞尾切分在一定程度上要比詞首切分更為重要。第二，研究者有必要在當前漢語閱讀詞切分與詞識別模型中納入尾詞素位置概率這一信息，并繼續考察尾詞素位置概率和其它語言學因素（如詞頻、預測性）的交互作用，以此提高模型的解釋力。

5 結論

首詞素用在詞首的概率高低不影響漢語讀者在目標詞上的預視效益量，表明漢語讀者在副中央凹中沒有加工首詞素的位置概率信息。