曹海波 蘭澤波 高 峰 于海濤 李 鵬 王敬欣
(1 天津師范大學心理學部,天津 300387) (2 河北北方學院藝術學院,張家口 075000)(3 福建醫科大學健康學院,福州 350122) (4 燕山大學心理健康教育服務中心,河北 秦皇島 066000)
閱讀過程中讀者對詞素位置信息的加工是詞匯識別不可或缺的步驟,一般而言,詞匯識別包含兩類編碼,即身份信息編碼和位置信息編碼。身份信息編碼是指哪些字符構成了詞匯,而位置信息編碼是指字符在詞匯中的相對順序(滑慧敏 等,2017)。字符的位置信息在詞匯識別中有重要作用,英文中讀者區分相同字母組成的單詞時便依據字母的位置差異,如causal 和casual。同樣,中文讀者也由詞素位置信息識別變位詞,譬如“上海”和“海上”,二者身份信息相同,通過詞素位置區分語義。若詞素位置判斷能力不足則會干擾正常閱讀,一部分閱讀障礙兒童對漢字位置出現判斷困難,測試成績顯著低于控制組兒童(田曉梅 等,2006)。詞素位置信息的加工是通往詞匯識別和更高語言水平加工的重要途徑,離不開視覺和認知加工系統的相互作用。據此,研究者對拼音文字的字母位置信息進行了深入探究,發現了字母的換位效應(transposition-letter effect,TL effect),即人們在閱讀一個內有字母換位的非詞時,傾向于將其識別為與之對應的真詞,并且這種傾向比將內有替換字母的非詞當作真詞的概率要高(Perea & Carreiras,2006)。后續研究更進一步,探究了詞首與詞尾位置之于詞匯識別的重要程度,研究認為比起詞內部的換位,發生在詞首、詞尾的換位會對詞匯識別起到更大的破壞作用(Yakup et al.,2014)。Schotter 等人(2012)發現詞首的字母或者詞首的字更重要。綜上所述,詞素位置信息的加工是詞匯識別的重要環節,且詞素處于不同的位置對詞匯識別所起的作用不同。對詞素位置與整詞詞匯識別關系的深入思考,將有助于我們認識漢字水平自下而上的加工對詞切分及閱讀認知機制的理解。
中文閱讀同樣重視詞素位置的作用,也發現了字母轉置效應(Gu et al.,2015),且發現詞邊界信息影響漢字位置的加工(顧俊娟 等,2020)。彭聃齡等人(1999)發現詞素換位也能達到正常語義啟動的效果,卞遷等人(2010)應用眼動技術探究詞素換位對詞素識別的影響,發現含高頻詞素換位的詞匯識別要快于低頻詞素換位的詞匯。需指出的是,中文的字序編碼區別于位置編碼,字形編碼發生在閱讀的早期階段,而位置信息的編碼則具有一定靈活性(Gu et al.,2015)。徐邇嘉和隋雪(2018)應用啟動范式,比較了不同啟動時間下首字替換詞與尾字替換詞的啟動條件,發現首字替換詞對目標詞的啟動效果最小,說明首字的替換對詞匯識別的破壞性更大,證實了詞首在詞匯加工中的重要性。總體來看,詞素位置信息的加工是詞匯加工的重要環節,且值得思考的是,詞素的特定位置(如詞首)能影響詞匯加工,那么詞素位置概率又是怎樣作用于詞匯識別的呢?具體而言,詞素位置概率指的是漢字出現在詞首或詞尾時雙字詞的次數占該漢字組成的所有雙字詞(無論出現在首字還是尾字)的比重(Yen et al.,2012)。例如,在語料庫中“消”可組成39 個雙字詞,其出現在詞首可組成33 個詞,如“消炎”、“消息”、“消失”等,為此,其詞首詞素位置概率為0.85。可見,“消”常居于雙字詞詞首,這為讀者提供了較清晰的詞邊界信息。連坤予等人(2021)發現被試在低詞素位置概率條件下的凝視時間顯著長于高概率條件,表現出明顯的詞素位置概率效應。而且讀者對詞素位置概率的利用表現出發展上的差異性,即大學生運用詞素位置概率幫助詞切分的能力強于小學生(Liang et al.,2015)。
詞素位置概率現象是中文詞匯的顯著特點,中文以漢字為書寫單元,漢字攜帶一定意義且是漢語最小的語言單位,而詞素是指具有獨立形態和意義的最小語言單位(張玲燕 等,2013),同時,漢語書寫系統中大多數詞是雙字詞,詞素位置信息相對明確(趙思敏 等,2017)。據統計,約20%的漢字出現在多字詞的固定位置,其中 8.2%慣常居于詞首,7.5%慣常居于詞尾,2.1%以單字詞形式呈現(白學軍,閆國利,2017),詞素位置的這一特性為中文讀者提供了詞與詞之間隱含的邊界,為中文詞匯的切分提供了可用線索。因為中文詞匯的識別與切分區別于拼音文字,拼音文字中的空格為讀者提供了明確的單詞首尾部分的物理空間邊界信息,幫助計劃下一次眼跳,促進單詞的識別(Perea & Acha,2009;Rayner,1998)。而中文無詞間空格標示詞邊界,鄰近的漢字可組成雙字詞、三字詞及四字詞,并且中文組詞的模糊性也加大了詞切分難度(Gao et al.,2005),但中文讀者并未遭遇特殊閱讀困難,其閱讀速度可與拼音文字讀者保持一致(Liversedge et al.,2016),那么中文讀者如何進行詞切分就成為漢語閱讀的一個獨特問題,其必定借助某些隱含線索協助詞切分。此時,詞素位置概率信息可作為一種隱含的語言線索幫助詞切分,由于詞素經常出現在雙字詞的某一特定位置(詞首或詞尾),一定程度上標示出了詞與詞之間的隱藏邊界,據此,研究者們開展了一系列研究。梁菲菲(2013)用新詞習得的方式探討了中文讀者對詞素位置概率線索的使用,研究操縱首、尾詞素的位置概率,創設三種類型的假詞作為新詞,發現在詞素位置概率一致條件下的注視時間和注視次數顯著低于不一致條件。Yen 等人(2012)采用邊界范式的研究表明,中文讀者能夠利用詞尾詞素位置概率指導詞匯識別和眼跳控制。高淇(2018)以兒童和成人為研究對象,對詞首、尾詞素位置概率的關系進行了推論,即詞首詞素位置概率的高低對兒童和成人的閱讀行為沒有影響,但詞尾詞素位置概率顯著影響了兒童和成人的閱讀表現,研究結果進一步肯定了詞尾詞素位置概率的詞切分作用。然而一項后續研究提供了不同的實驗證據,即兒童和成人均能利用詞首和詞尾詞素位置概率指導閱讀活動(連坤予 等,2021)。可見,詞首與詞尾詞素位置概率在閱讀過程中的作用還未取得較為統一的觀點,是詞尾詞素位置概率發揮了主要作用,還是詞首與詞尾同等重要?這一問題的解決有待開展后續研究深入考察與澄清。
值得一提的是,有研究指出低頻詞傾向于詞素通達,而高頻詞可能經由整詞路徑通達(高淇,2018)。換言之,在心理詞典中低頻詞傾向于以單個字的形式進行表征,而高頻詞常以整體形式表征(白學軍 等,2015)。事實上,中文復合詞的表征方式一直存有爭議,在識別復合詞時,是通過整詞表征亦或經由分解的詞素表征,以及二者發揮作用的程度如何,一直是心理語言學研究的熱點問題。研究者基于不同的研究材料、范式及技術手段給予了不同程度的回答,既往研究證據提示詞頻會影響詞匯加工,高頻詞的注視時間顯著低于低頻詞(Wei et al.,2013),從高頻中央凹詞到副中央凹詞的眼跳長度顯著長于從低頻詞跳出的眼跳長度(王永勝 等,2018),對不同詞頻的使用會影響真詞與換位假詞的判斷(Vergara-Martínez et al.,2013)。相關研究指出詞素特征是詞匯識別的重要影響因素,并且在低頻詞加工中表現的更加明顯(彭聃齡 等,1999)。與詞素位置顛倒的高頻詞相比,讀者對詞素位置顛倒的低頻詞識別較慢(卞遷 等,2010)。可見,整詞的詞頻對詞匯的加工具有潛在影響。
研究者還關注到,在中文的詞匯識別過程中,首詞素與尾詞素對整詞識別的貢獻不同,且詞頻的變化會帶來閱讀行為的改變,這使得詞頻對詞素位置概率線索的作用成為一個新問題。不同詞頻條件下詞素位置概率還能否發揮作用,詞首與詞尾詞素位置概率的作用差異如何?探查既往研究發現其未對詞頻做出具體區分,這是否成為詞首與詞尾詞素位置概率作用不同的潛在影響因素?另外,根據經典的詞匯識別模型,如McClelland 和Rumelhart(1981)的交互激活模型、Davis (2001)的自我組織詞匯習得與識別模型、Taft(2004)的多層激活模型,詞頻是進入詞匯通達的重要因素,其可能會影響到漢語詞素位置概率對詞匯識別的加工呈現出不同的模式。Li 和Pollatsek (2020)提出的中文閱讀的整合模型也指出詞頻是影響詞匯識別的重要因素,詞頻直接影響詞匯節點的輸入,并成功預測了詞頻對眼跳長度的影響。鑒于此,有必要在探究首、尾詞素位置概率認知機制的基礎上,進一步明確整詞詞頻的內在影響,探究中文復合詞的加工方式,即復合詞的表征究竟是基于詞素、整詞,亦或是混合通達?據此,對上述問題的考察便體現出一定的新意和價值。第一,對復合詞認知加工的組件詞素作用的研究,可加深對復合詞通達表征網絡的理解。第二,當前漢語詞素位置信息加工機制的研究尚淺,持續探討詞素位置概率之于詞切分的作用,有助于回答中文讀者如何確定詞邊界的問題,為仍處于探索中的漢字位置編碼機制提供新視角。
研究設計了4 個實驗,實驗1a 和1b 采用詞匯判斷任務,創設不同的首、尾詞素位置概率條件,同時操縱目標詞詞頻。另外,由于漢語中高、低頻詞匯難以平衡詞首和詞尾的詞素位置概率,故未采用2 (詞頻:高、低) × 2(詞首詞素位置概率:高、低) × 2(詞尾詞素位置概率:高、低)的實驗設計,而是采用2(詞首詞素位置概率: 高、低) × 2 (詞尾詞素位置概率: 高、低)的兩因素被試內重復測量實驗設計,分開考察詞頻因素的影響便于更清晰地考察不同詞頻條件下詞素位置概率的重要程度。詞素位置信息的加工是詞匯加工的重要階段,詞首與詞尾在詞匯識別過程中發揮著不同作用,詞首作用較為積極,研究假設: 詞素位置概率信息是中文詞匯識別的語言線索,且與詞尾詞素位置概率相比,詞首詞素位置概率在詞匯識別中的促進作用更大。實驗2a 和2b 采用句子閱讀任務,記錄被試在句子閱讀過程中的眼動特征,進一步考察處于生態效度更高的自然閱讀情景下詞素位置概率效應是否存在,以及作用發揮在加工的哪一階段。研究假設: 讀者能利用詞素位置概率線索幫助詞切分,詞首詞素位置概率的優勢更為明顯,同時詞頻會影響這一作用的發揮,即低頻詞條件下讀者能夠運用詞素位置概率線索助力詞切分,高頻詞條件下這種促進作用會減弱。依據Li 等人(2009)提出的詞切分與詞匯識別模型,中文詞匯識別是一個交互激活的過程,字水平的激活前饋到詞水平,反過來詞單元的激活也反饋到組成該詞的字水平。字詞層面的信息交互激活并相互影響,屬于該詞的字比其它字激活更快,同時屬于該字的位置比其它字的位置激活更快。如果在高頻詞中未發現詞素位置概率效應,說明詞匯識別是經由整詞表征的,輸入刺激直接激活了心理詞典的整詞詞條。如果在低頻詞中觀察到詞素位置概率效應,則表明詞匯識別過程中發生了分解的詞素表征,詞素激活后影響到整詞識別。鑒于此,復合詞的加工既存在整詞表征又存在詞素表征,研究結果傾向于支持復合詞加工的混合通達表征觀點。
采用詞匯判斷任務,操縱詞首和詞尾詞素位置概率,以高頻目標詞為研究對象,探討詞素位置概率是否影響被試的詞匯識別。
2.2.1 被試
60 名天津師范大學在校學生,其中女生40 名,男生20 名,年齡在18~22 歲之間(M=19.70,SD=1.94)。被試均為漢語母語者,視力或矯正視力正常,均不知實驗目的,實驗結束可獲得一定報酬。為保證較高的統計效能(Faul et al.,2007),在實驗實施前采用G*power 分析方法對樣本量進行估算。根據中等效應量水平(f=0.25)及0.01 的α 水平,G*power分析結果建議實驗需要48 名被試可使統計效能達到0.95。考慮到可能有無效被試,實際取樣60 名。
2.2.2 實驗設計
采用2 (詞首詞素位置概率: 高、低) × 2 (詞尾詞素位置概率: 高、低)的兩因素被試內重復測量設計。
2.2.3 實驗材料
參照中國電視電影旁白的漢語詞匯和筆畫頻率語料庫(Cai & Brysbaert,2010),為保證詞素位置概率條件的區分度,將詞素位置概率高于0.7 定義為高概率,低于0.3 定義為低概率。詞素位置概率計算方法: 漢字出現在詞首或詞尾時雙字詞的數量除以漢字所能組成的所有雙字詞(無論出現在首字還是尾字)的數量。操縱詞素位置概率的高低,共選取80 個雙字詞,將其分為4 種條件(每種條件下20個雙字詞): (1)高詞首詞素位置概率、高詞尾詞素位置概率;(2)高詞首詞素位置概率、低詞尾詞素位置概率;(3)低詞首詞素位置概率、高詞尾詞素位置概率;(4)低詞首詞素位置概率、低詞尾詞素位置概率。控制4 種條件下雙字詞的詞頻差異不顯著(F(3,124)=0.15,p=0.92)、詞首筆畫數差異不顯著(F(3,124)=2.19,p=0.09)、詞尾筆畫數差異不顯著(F(3,124)=1.24,p=0.21)、詞首字頻(F(3,124)=0.98,p=0.40)和詞尾字頻(F(3,124)=0.42,p=0.73)的差異不顯著。考慮到詞素結構可能對詞匯認知加工造成影響,材料選取時盡可能避免選取偏正復合詞和含有詞綴的雙字詞。同時,對雙字詞詞首和詞尾的構詞能力進行了控制,構詞能力是指詞素所能構成雙字詞的數量(馮麗萍,宋志明,2004),例如,在語料庫中“透”字可以組成“透明”、“透徹”、“看透”等20個詞,那么其構詞能力即為20。4 種條件詞首和詞尾的構詞能力之間差異不顯著,ts 〈 1,ps 〉 0.05。此外,請15 名不參加實驗的同學對目標詞的熟悉度和語義透明度進行評定,其中1 代表“非常不熟悉”,5 代表“非常熟悉”,1~5 的變化代表詞語熟悉性的增強,目標詞的熟悉度為M=4.18 (SD=0.17);語義透明度指的是復合詞的語義能從其各個組成詞素的語義推知的程度。其中1 代表“完全不透明詞”,5代表“完全透明詞”,1~5 的變化代表語義透明度的增強,目標詞的語義透明度為M=4.24 (SD=0.15)。實驗材料的基本參數情況見表1。

表1 實驗材料基本參數情況
為平衡詞匯判斷的對錯項目數,在材料中加入填充詞構成“否”反應。填充詞是由真字構成的假詞,其中假詞中字的筆畫與真詞中字的筆畫差異不顯著,t〈 1,p〉 0.05;假詞中的字頻與真詞中的字頻差異不顯著,t〈 1,p〉 0.05。
2.2.4 實驗儀器
實驗采用聯想ThinkPad T-14 筆記本電腦,屏幕為14 英寸,分辨率為1024×728 像素,刺激為32號宋體,每個漢字大小約為41×41 像素,以白底黑字方式呈現。被試眼睛與屏幕之間的距離為75 cm,每個漢字約為1.1°視角。
2.2.5 實驗程序
實驗使用E-prime 2.0 編程。首先,被試閱讀指導語理解實驗程序。實驗開始時,屏幕中央呈現“+”注視點,800 ms 后注視點消失,接著呈現一個詞語,被試需快而準地進行真假詞判斷,若是真詞按“F”鍵,若是假詞按“J”鍵。目標詞在被試做出反應或3000 ms 后消失。反應后空屏600 ms 進入下一試次。實驗材料隨機呈現,為避免練習效應按鍵反應在左右手間平衡。實驗前是10 個試次的練習,正確率達90%以上開始正式實驗,實驗需15 分鐘。實驗流程見圖1。

圖1 實驗1 流程圖
數據分析時,填充材料不參與分析。數據分析過程中刪除了錯誤反應的反應時數據以及大于或小于3 個標準差的極端值,占有效被試數據的1.2%。
注: 例詞“消失”表示高詞首詞素位置概率、低詞尾詞素位置概率條件,即“消”詞首詞素位置概率0.85,“失”詞尾詞素位置概率0.24。
2.3.1 錯誤率
被試在不同詞素位置概率條件下的平均錯誤率如表2 所示。

表2 不同詞素位置概率條件下的平均錯誤率
使用R 統計軟件(R Development Core Team,2016)以及lme4 工具包(Bates et al.,2017),采用廣義線性混合模型(Generalized Linear Mixed-effects Models,GLMMs)對錯誤率數據進行分析。對比傳統的方差分析(ANOVA),線性混合模型將全部原始數據納入模型,數據利用率更高,在計算數據時采用最大隨機效應結構,將被試和項目定義為交叉隨機效應(crossed random effects)同時納入模型,可有效規避被試分析(F1 檢驗)和項目分析(F2 檢驗)檢驗結果不一致的情況,使計算結果更加統一和穩定。統計結果見表3。

表3 不同詞素位置概率條件下錯誤率的線性混合模型統計結果
結果顯示,詞首詞素位置概率(z=0.35,p=0.73)和詞尾詞素位置概率(z=1.07,p=0.29)的主效應均不顯著;二者交互作用不顯著(z=-0.81,p=0.42)。結果表明高頻詞條件下詞素位置概率不影響被試的錯誤率。
2.3.2 反應時
被試在不同詞素位置概率條件下的平均反應時如表4 所示。

表4 不同詞素位置概率條件下的平均反應時(ms)
使用R 統計軟件(R Development Core Team,2016)以及lme4 工具包(Bates et al.,2017),采用線性混合模型(Linear Mixed-effects Models,LMMs)對反應時數據進行分析,統計結果見表5。

表5 不同詞素位置概率條件下反應時的線性混合模型統計結果
結果顯示,詞首詞素位置概率(t=-0.51,p=0.62)和詞尾詞素位置概率(t=1.19,p=0.24)的主效應均不顯著;二者交互作用不顯著(t=0.18,p=0.86)。結果說明高頻詞條件下首、尾詞素位置概率不影響詞匯識別。
實驗1a 結果表明,加工高頻詞時詞首與詞尾詞素位置概率的高低不影響被試反應時。一些研究提示詞頻可影響單詞的表征,高頻詞由于常一起呈現,在通達表征層逐漸形成獨立表征;而低頻詞可能依賴分解的途徑通過詞素進行通達(彭聃齡 等,1999)。有研究指出低頻雙字詞識別過程中存在詞素語義激活,詞素意義和整詞意義之間相互作用,當二者意義相近時相互促進,而且高頻雙字詞詞素語義激活不明顯,整詞語義的激活并不慢于詞素,詞素通達并不是整詞通達的必經階段(俞林鑫,2006)。另有實驗證據表明,雙字詞的詞頻高時,詞素頻率效應不顯著,即詞頻與詞素頻率的作用是競爭的,但詞頻發揮了更強的作用,高詞頻抑制了詞素頻率的效應(王德強,2013)。可見,詞素的特性受到整詞屬性的制約。
總結以往研究可知,與高頻預測性目標詞相比,讀者在加工低頻預測目標詞時耗費的資源更多,詞匯加工的層次也更深(吳瓊,2013)。來自拼音文字的研究顯示,當復合詞為長詞(平均12~13 個字符)時,如breastbone,詞素breast 和bone 的詞頻會影響注視詞的加工時間(Hy?n? et al.,2004);當復合詞變成短詞(平均7~9 個字符)時,詞素詞頻的作用有限,而是整詞詞頻影響目標詞的注視時間。Li 和Pollatsek (2020)認為詞匯識別是從視覺信息開始,之后是字層面的加工,最后是詞層面的加工。因此,字層面的詞素位置概率的加工水平是低于詞匯層面的,詞素位置概率信息沒有詞匯層面信息的豐富性。如在高頻或高預測性條件下,讀者可能更依賴整詞詞頻或整體語境去識別詞匯。對比而言,低頻詞條件由于缺少了整詞提供的豐富的詞匯信息,詞素特性得以展現,此時詞素位置概率信息可能會發揮作用。為此,當目標詞變為低頻條件時,是否存在詞素位置概率效應?首、尾詞素位置概率信息對視覺詞匯加工的重要程度如何?實驗1b 將探究在低頻詞條件下詞素位置概率在詞匯識別中的作用,以期全面考察整詞詞頻對詞素位置概率效應的影響。
采用詞匯判斷任務,操縱詞首和詞尾詞素位置概率,考察在低頻詞條件下被試詞匯判斷的成績差異,探究詞素位置概率線索在詞匯識別中的作用。
3.2.1 被試
同實驗1a。
3.2.2 實驗設計
同實驗1a。
3.2.3 實驗材料
參照中國電視電影旁白的漢語詞匯和筆畫頻率語料庫(Cai & Brysbaert,2010),為保證詞素位置概率條件的區分度,將詞素位置概率高于0.7 定義為高概率,低于0.3 定義為低概率。操縱詞素位置概率的高低,共選取120 個雙字詞,將其分為4 種條件(每種條件下30 個雙字詞): (1)高詞首詞素位置概率、高詞尾詞素位置概率;(2)高詞首詞素位置概率、低詞尾詞素位置概率;(3)低詞首詞素位置概率、高詞尾詞素位置概率;(4)低詞首詞素位置概率、低詞尾詞素位置概率。控制4 種條件下雙字詞的詞頻(F(3,116)=0.62,p=0.60)、詞首筆畫數(F(3,116)=1.28,p=0.12)、詞尾筆畫數(F(3,116)=0.74,p=0.52)、詞首字頻(F(3,116)=1.49,p=0.09)和詞尾字頻(F(3,116)=1.58,p=0.08)的差異不顯著。考慮到詞素結構可能對詞匯認知加工造成影響,材料選取時盡可能避免選取偏正復合詞和含有詞綴的雙字詞。同時,控制4 種條件詞首和詞尾的構詞能力之間差異不顯著,ts 〈 1,ps 〉 0.05。此外,請15 名不參加實驗的同學對目標詞的熟悉度和語義透明度進行評定,其中1 代表“非常不熟悉”,5 代表“非常熟悉”,1~5 的變化代表詞語熟悉性的增強,目標詞的熟悉度為M=3.98 (SD=0.22);語義透明度指的是復合詞的語義能從其各個組成詞素的語義推知的程度。其中1 代表“完全不透明詞”,5 代表“完全透明詞”,1~5 的變化代表語義透明度的增強,目標詞的語義透明度為M=4.13 (SD=0.35)。其中,目標詞的詞頻顯著低于實驗1a 中目標詞的詞頻(t=-9.84,p〈 0.001)。實驗材料的基本參數情況見表6。

表6 實驗材料的基本參數情況
為平衡詞匯判斷的對錯項目數,在實驗材料中加入了填充詞,構成了“否”反應。填充詞是由真字構成的假詞,其中假詞中字的筆畫與真詞中字的筆畫差異不顯著,t〈 1,p〉 0.05;假詞中的字頻與真詞中的字頻差異不顯著,t=1.70,p〉 0.05。
3.2.4 實驗儀器
同實驗1a。
3.2.5 實驗程序
同實驗1a。
數據分析時,填充材料不參與分析。數據分析過程中刪除了錯誤反應的反應時數據以及大于或小于 3 個標準差的極端值,占有效被試數據的1.6%。
3.3.1 錯誤率
被試在不同詞素位置概率條件下的平均錯誤率如表7 所示。使用R 統計軟件(R Development Core Team,2016)以及lme4 工具包(Bates et al.,2017),采用廣義線性混合模型(Generalized Linear Mixed-effects Models,GLMMs)對錯誤率數據進行分析。將詞首、詞尾詞素位置概率以及它們之間的交互作用作為固定因素納入模型進行分析,統計結果見表8。

表7 不同詞素位置概率條件下的平均錯誤率

表8 不同詞素位置概率條件下錯誤率的線性混合模型統計結果
由統計結果可見,詞首詞素位置概率的主效應顯著(z=11.58,p〈 0.001),詞尾詞素位置概率的主效應不顯著(z=1.57,p=0.11),二者的交互作用不顯著(z=-1.69,p=0.09)。結果表明,詞首詞素位置概率在詞匯識別中起了顯著作用。
3.3.2 反應時
被試在不同詞素位置概率條件下的平均反應時如表9 所示。

表9 不同詞素位置概率條件下的平均反應時
使用R 統計軟件(R Development Core Team,2016)以及lme4 工具包(Bates et al.,2017),采用線性混合模型(Linear Mixed-effects Models,LMMs)對反應時數據進行分析。統計結果見表10。

表10 不同詞素位置概率條件下反應時的線性混合模型統計結果
由統計結果可見,詞首詞素位置概率的主效應顯著(t=5.22,p〈 0.001),詞尾詞素位置概率的主效應不顯著(t=-0.03,p=0.97),二者的交互作用不顯著(t=-1.34,p=0.19)。結果表明,與詞尾詞素位置概率相比,詞首詞素位置概率對詞匯識別的作用更大。
3.3.3 詞首詞素位置概率和反應時的簡單線性回歸模型
實驗1b 的結果顯示,被試的反應時隨詞首詞素位置概率的升降而變化,二者之間呈現出一定程度的相關關系。為了檢驗這種相關關系的確切程度及方向性,嘗試根據詞素位置概率建立讀者詞匯判斷反應時的最優回歸模型,以期從更直觀的線性模型視角描述詞素位置概率與詞匯加工的關系。
(1)建立簡單線性回歸模型
運用最小二乘法建立簡單線性回歸的數學模型:

公式中以反應時為因變量,詞首詞素位置概率為自變量,β0為常數項,表示截距項參數;β1為回歸系數,表示自變量X每變化1 個單位時,其單獨引起因變量Y的平均變化量;ε為隨機誤差項,表示除影響因素X以外,其他所有影響Y的因素。借助R 統計軟件(R Development Core Team,2016)以及ggpubr 工具包對數據進行簡單線性回歸分析,計算詞首詞素位置概率和詞匯判斷反應時的相關性,結果顯示,反應時與詞首詞素位置概率呈顯著負相關(r=-0.38,p〈 0.001)。
(2)整體回歸模型的顯著性檢驗
對回歸模型的整體做顯著性檢驗,結果顯示回歸方程高度顯著,F(1,118)=19.93,p〈 0.001。這說明反應時與詞首詞素位置概率間的線性回歸關系密切。
(3)回歸系數的顯著性檢驗
對回歸系數進行顯著性檢驗,即變量系數的t檢驗。以反應時為因變量,以詞首詞素位置概率為自變量,經由R 數據軟件建立簡單線性回歸方程,統計結果見表11 和圖2。

表11 詞首詞素位置概率對反應時的簡單線性回歸結果

圖2 詞首詞素位置概率對反應時的簡單線性回歸圖
由表11 和圖2 的結果可見,模型的回歸系數顯著,為此得出估計的回歸方程:

由回歸方程可知,詞首詞素位置概率與反應時呈顯著負相關關系,即詞首詞素位置概率每增加1個單位,讀者反應時減少135.13 ms,可見詞首詞素位置概率顯著影響讀者的詞匯加工。這啟示我們可根據詞素位置概率來預測讀者的反應時,這對中文讀者閱讀行為的探究具有現實指導意義。
實驗1b 反應時數據提示,詞首詞素位置概率的主效應顯著而詞尾不顯著,即不論雙字詞詞尾詞素位置概率高低與否,只要詞首詞素位置概率高時,詞匯判斷時間便顯著減少。錯誤率數據進一步肯定了詞首的加工優勢。同時,觀察反應時的線性回歸模型發現,被試詞匯判斷的反應時與詞首詞素位置概率呈現顯著的負相關關系,詞首詞素位置概率增加,詞匯判斷反應時減少。Cui 等人(2014)應用邊界范式發現,詞首詞素字頻的識別制約著詞尾詞素的識別,且詞尾詞素語義的獲得還受到了詞首詞素字頻的調節。Bertram 等人(2004)發現與詞首詞素字頻較低的條件相比,詞首詞素字頻較高時復合詞的注視時間顯著降低。后續研究進一步鞏固了詞首詞素的主體地位,長復合詞中讀者首先加工詞首,然后加工詞尾,最后加工整詞(Hy?n? et al.,2004;Pollatsek&Hy?n?,2005)。
中文閱讀研究認為詞匯加工早期階段是詞素層次的通達,詞素身份信息起主要作用,晚期是整詞的檢驗,詞素位置信息開始起作用(彭聃齡 等,1999),詞素身份信息確定后讀者開始加工詞素的位置信息,而單獨呈現雙字詞時,詞素位置信息的重要性在早期階段表現明顯(吳瓊,2013),當詞素經常出現在某一位置時,則對詞素位置產生了期待。例如,“批”字組成的復合詞中其常出現在詞首,如“批改”、“批評”,讀者在學習和閱讀過程中常接受這一訊息,加深了心理詞典中“批”居于詞首的印象,對“批”位于詞首也產生更多期待。當看到“批改”時,詞首“批”被激活的同時所攜帶的高詞素位置概率特征亦被激活。此時,如果被試覺察到當前漢字實際位置與期望位置相符,詞的激活水平比較高,詞匯識別時間較短。一旦讀者發現當前漢字實際位置與期望位置相矛盾,如“批”字出現在不常出現的詞尾位置,組成“分批”一詞,被試需花費額外的認知資源處理這一沖突,詞匯識別時間延長。綜上,低頻詞條件下詞素特征信息得以表達,而加工高頻詞的詞素位置概率信息時,其詞素語義激活相對較弱,以整詞形式完成了詞匯識別,為此詞素提供的位置概率信息被掩蓋。兩個實驗以詞匯判斷的方式獨立呈現雙字詞的詞素位置,一般而言讀者是在句子中理解詞匯,那么,在貼近自然閱讀的句子中,詞素位置概率是否還會發生作用?首、尾詞素位置概率作用的發揮是否一致?實驗2a 將探索處于生態效度更高的自然閱讀中詞素位置概率的現實效用。
通過操縱詞首和詞尾的詞素位置概率的高低,進一步考察在自然閱讀過程中詞素位置概率線索是否會影響被試的詞匯識別與切分。
4.2.1 被試
60 名天津師范大學在校學生,其中女生42 名,男生18 名,年齡在18~24 歲之間(M=19.33,SD=1.54)。被試均為漢語母語者,視力或矯正視力正常,均不知實驗目的,實驗結束可獲得一定報酬。
4.2.2 實驗設計
采用2 (詞首詞素位置概率: 高、低) × 2 (詞尾詞素位置概率: 高、低)的兩因素被試內重復測量設計。
4.2.3 實驗材料
參照中國電視電影旁白的漢語詞匯和筆畫頻率語料庫(Cai & Brysbaert,2010),為保證詞素位置概率條件的區分度,將詞素位置概率高于0.7 定義為高概率,低于0.3 定義為低概率。操縱詞素位置概率的高低,共選取96 個雙字詞,將其分為4 種條件(每種條件下24 個雙字詞): (1)高詞首詞素位置概率、高詞尾詞素位置概率;(2)高詞首詞素位置概率、低詞尾詞素位置概率;(3)低詞首詞素位置概率、高詞尾詞素位置概率;(4)低詞首詞素位置概率、低詞尾詞素位置概率。控制4 種條件下雙字詞的詞頻差異不顯著(F(3,92)=0.23,p=0.87)、詞首筆畫數差異不顯著(F(3,92)=1.43,p=0.23)、詞尾筆畫數差異不顯著(F(3,92)=1.11,p=0.35)、詞首字頻(F(3,92)=0.89,p=0.44)和詞尾字頻(F(3,92)=0.18,p=0.90)的差異不顯著。考慮到詞素結構可能對詞匯認知加工造成影響,材料選取時盡可能避免選取偏正復合詞和含有詞綴的雙字詞。同時,控制4 種條件詞首和詞尾的構詞能力之間差異不顯著,ts 〈 1,ps 〉 0.05。請15 名不參加實驗的同學評定目標詞的熟悉度和語義透明度,其中1 代表“非常不熟悉”,5代表“非常熟悉”,1~5 的變化代表詞語熟悉性的增強,目標詞的熟悉度為M=4.31 (SD=0.12);語義透明度指的是復合詞的語義能從其各個組成詞素的語義推知的程度。其中1 代表“完全不透明詞”,5代表“完全透明詞”,1~5 的變化代表語義透明度的增強,目標詞的語義透明度為M=4.24 (SD=0.35)。實驗材料的基本情況見表12。

表12 實驗材料的基本情況
依據目標詞編制句子,目標詞出現在句子中間位置,句子長度在18~20 個漢字之間。請15 名不參加正式實驗的大學生評定句子的通順性,從1“非常不通順”到5“非常通順”,平均通順性為M=4.22 (SD=0.28)。選取15 名不參加正式實驗的大學生對句子的難度進行 5 級評定,從1“非常簡單”到5“非常難”,平均難度為M=1.86 (SD=0.21)。同時,對雙字詞詞首和詞尾的構詞能力進行控制,4種條件首、尾的構詞能力差異不顯著,ts 〈 1,ps 〉0.05。另選取15 名不參加正式實驗的大學生對句子的預測性進行評定。預測性評定采用補充句子的方式,即將實驗句中目標詞及以后的內容刪除,讓被試依據所剩的部分將句子補充完整。如果被試所填內容與目標詞一致,則表明預測成功,計1 分;否則表明預測失敗,計0 分。經計算,句子的平均預測性為:M=0.012 (SD=0.42),說明目標詞的可預測性非常低。為了避免被試對實驗句形成反應定勢,在閱讀材料中隨機插入填充句。采用拉丁方平衡設計將實驗材料分為4 個Block,每一個Block 包含4個練習句、24 個實驗句和24 個填充句。實驗材料舉例如表13。

表13 實驗材料舉例
4.2.4 實驗儀器
采用Eyelink 1000 plus 眼動儀,采樣頻率1000 Hz。顯示器分辨率為1920×1080,刷新率140 Hz。被試與屏幕相距75 cm。實驗材料的漢字為32 號宋體,漢字為41×41 像素,約呈0.75°視角。
4.2.5 實驗程序
每個被試單獨施測。首先,主試講解指導語確保被試理解實驗過程。開始前對眼動儀進行三點校準,平均誤差小于0.3。之后被試閱讀屏幕上的句子,句子呈現前屏幕左側出現注視點“+”,要求盯住“+”觸發句子閱讀。實驗包括4 個練習句,24 個實驗句,24 個填充句,其中14 個句子后面有簡單的“是”或“否”的判斷題,“是”或“否”的判斷各占一半,以確保被試認真閱讀句子。實驗材料逐屏呈現,被試閱讀完一屏后按空格鍵進入下一個句子。實驗過程中每讀完5 個句子做一次三點校準,其他每個句子做一點校準。主試實時監視眼動儀器必要時進行重新校準,整個實驗大約15 分鐘。
4.2.6 分析指標
參照以往研究(Liang et al.,2015),選取首次注視時間、凝視時間、回視路徑時間和總注視時間進行分析。首次注視時間是指首次通過興趣區的首個注視點的注視時間,與興趣區內有多少注視點無關;凝視時間是指從首次注視開始到注視點第一次離開所在興趣區之間的持續時間;回視路徑時間是指從首次注視開始,到注視點落到所注視興趣區的右側區域為止(不包括右側區域這一注視點),之間所有注視點持續時間的總和;總注視時間是指落在興趣區內所有注視點的持續時間的總和。其中,首次注視時間和凝視時間是反映詞匯通達早期階段特征的有效指標,回視路徑時間既能反映詞匯通達的過程,還可反映詞匯后期加工和語義的整合過程,總注視時間反映的是詞匯加工的總體過程(閆國利 等,2013)。
被試正確率在85%以上(SD=4.2%),說明其認真閱讀了句子。參考以往研究的數據刪除標準(Rayner,2009): (1)刪除注視點持續時間小于80 ms 或大于1200 ms 的注視點(1.9%)。(2)刪除單個句子注視點少于5 個的試次或追蹤丟失的數據(0.42%)。基于R語言環境(R Development Core Team,2016)下的線性混合模型(Linear Mixed-effects Models,LMMs)和lme4 數據包統計數據(Bates et al.,2017)。分析時對注視時間進行了log 轉換,將首、尾詞素位置概率及其交互作用作為固定效應納入模型,被試和項目作為交叉隨機效應。首先從最大效應模型開始,若模型無法擬合則依次簡化最大模型直至擬合。不同詞素位置概率條件下眼動指標的描述統計結果見表14,線性混合模型統計結果見表15。

表14 不同詞素位置概率條件下眼動指標的描述統計結果

表15 不同詞素位置概率條件下線性混合模型的統計結果
根據線性混合模型的統計結果,詞首詞素位置概率在首次注視時間(t=-0.14,p=0.89)、凝視時間(t=-0.39,p=0.70)、回視路徑時間(t=0.06,p=0.95)以及總注視時間(t=0.67,p=0.51)上的主效應不顯著;詞尾詞素位置概率在首次注視時間(t=0.21,p=0.84)、凝視時間(t=-0.17,p=0.86)、回視路徑時間(t=0.02,p=0.99)及總注視時間(t=0.69,p=0.50)上的主效應不顯著;首、尾詞素位置概率在首次注視時間(t=-1.01,p=0.32)、凝視時間(t=-0.93,p=0.36)、回視路徑時間(t=-0.70,p=0.49)及總注視時間(t=-0.38,p=0.71)的交互作用不顯著。研究結果表明,高頻詞條件下詞素位置概率未影響讀者的閱讀行為。
實驗2a 結果表明,當目標詞為高頻詞時,詞首與詞尾不同詞素位置概率水平下的注視時間沒有顯著差異。同時,綜合實驗1a 和1b 的結果發現,當目標詞為低頻時,讀者能利用詞首詞素位置概率線索指導閱讀,而目標詞變為高頻時,詞首詞素位置概率不再顯著影響閱讀進程,這個結果與復合詞混合通達表征模型的觀點較為吻合。Caramazza 等人(1988)提出的混合通達表征模型(Augment Addressed Morphology)認為,詞匯識別時既存在單獨的詞素表征,也存在整詞表征,詞匯識別是詞素與整詞激活并相互作用的結果。例如,加工“walked”可激活“walked”、“talked”等整詞,也可激活“walk”、“ed”這樣的詞素,整詞與詞素誰先達到激活閾限誰便在競爭中勝出。為此,對于新詞或低頻詞,由于在通達表征中沒有相對應的整詞表征,而是相應的詞素被激活,詞素單元在競爭中更易勝出,而后詞素所攜帶的位置概率特征可能被激活;而對于熟悉的高頻詞,其組成成分經常同時出現,傾向形成獨立的識別單元,由此整詞更易被激活繼而通達了語義,這樣的話,可能會減少詞素位置概率提取或使用的機會,詞素攜帶的位置概率信息未得到充分表達。為此,實驗2b 將探究含詞素位置概率信息的低頻目標詞置于句子中的眼動規律,進一步厘清首、尾詞素位置概率在詞匯加工中的重要性。
通過操縱詞首和詞尾的詞素位置概率的高低,考察在低頻詞條件下詞素位置概率線索是否會影響被試的詞匯識別與切分。
5.2.1 被試
同實驗2a。
5.2.2 實驗設計
同實驗2a。
5.2.3 實驗材料
參照中國電視電影旁白的漢語詞匯和筆畫頻率語料庫(Cai & Brysbaert,2010),為保證詞素位置概率條件的區分度,將詞素位置概率高于0.7 定義為高概率,低于0.3 定義為低概率。操縱詞首與詞尾詞素位置概率的高低,將128 個雙字詞分為4 種條件(每種條件下32 個雙字詞): (1)高詞首詞素位置概率、高詞尾詞素位置概率;(2)高詞首詞素位置概率、低詞尾詞素位置概率;(3)低詞首詞素位置概率、高詞尾詞素位置概率;(4)低詞首詞素位置概率、低詞尾詞素位置概率。控制每一種條件下雙字詞的詞首筆畫數與詞尾筆畫數、詞首字頻與詞尾字頻的差異不顯著(t(62) 〈 1,p〉 0.05)。控制4 種條件下雙字詞的詞頻差異不顯著(F(3,124)=0.75,p=0.52)、詞首筆畫數差異不顯著(F(3,124)=0.83,p=0.47)、詞尾筆畫數差異不顯著(F(3,124)=0.94,p=0.42)、詞首字頻(F(3,124)=0.92,p=0.43)和詞尾字頻(F(3,124)=1.88,p=0.10)的差異不顯著。考慮到詞素結構可能對詞匯認知加工造成影響,材料選取時盡可能避免選取偏正復合詞和含有詞綴的雙字詞。同時,控制4 種條件詞首和詞尾的構詞能力之間差異不顯著,ts 〈 1,ps 〉 0.05。此外,請15 名不參加實驗的同學對目標詞的熟悉度和語義透明度進行評定,其中1 代表“非常不熟悉”,5 代表“非常熟悉”,1~5 的變化代表詞語熟悉性的增強,目標詞的熟悉度為M=4.06 (SD=0.19);語義透明度指的是復合詞的語義能從其各個組成詞素的語 義推知的程度。其中1代表“完全不透明詞”,5 代表“完全透明詞”,1~5 的變化代表語義透明度的增強,目標詞的語義透明度為M=4.15 (SD=0.11)。其中,目標詞的詞頻顯著低于實驗 2a 中目標詞的詞頻(t=-10.49,p〈0.001)。實驗材料的基本情況見表16。

表16 實驗材料基本情況
依據目標詞編制句子,目標詞出現在句子的中間位置,句子長度在18~20 個漢字之間。選取15名不參加正式實驗的大學生對句子的通順性進行5級評定,從1“非常不通順”到5“非常通順”,平均通順性為M=4.01 (SD=0.32)。選取15 名不參加正式實驗的大學生對句子的難度進行5 級評定,從1“非常簡單”到5“非常難”,平均難度為M=1.89(SD=0.21)。考慮到詞素結構可能對詞匯認知加工造成影響,保證實驗選取的詞匯材料詞素與整詞語義關聯程度相同,并避免選取偏正復合詞和含有詞綴的雙字詞。另外,選取15 名不參加正式實驗的大學生對句子的預測性進行評定。預測性評定采用補充句子的方式,即將實驗句中目標詞及以后的內容刪除,讓被試依據所剩的部分將句子補充完整。如果被試所填內容與目標詞一致,則表明預測成功,計1 分;否則表明預測失敗,計0 分。經計算,句子的平均預測性為:M=0.009 (SD=0.38),說明目標詞的可預測性非常低。為了避免被試對實驗句形成反應定勢,在閱讀材料中隨機插入填充句。采用拉丁方平衡設計將實驗材料分為4 個Block,每一個Block 包含4 個練習句、32 個實驗句和32 個填充句。實驗材料舉例如表17。

表17 實驗材料舉例
5.2.4 實驗儀器
同實驗2a。
5.2.5 實驗程序
同實驗2a。
5.2.6 分析指標
同實驗2a。
所有被試正確率均在85%以上(SD=5.9%),說明被試都認真閱讀了實驗材料并且理解了句子的內容。參考以往研究的數據刪除標準(Rayner,2009)對眼動數據進行整理: (1)刪除注視點持續時間小于80 ms 或大于1200 ms 的注視點(2.1%)。(2)刪除單個句子上的注視點總數少于5 個的試次或者追蹤丟失的數據(0.68%)。眼動數據基于 R 語言環境(R Development Core Team,2016)下的線性混合模型(Linear Mixed-effects Models,LMMs)和lme4 數據包進行統計(Bates et al.,2017)。數據分析時對注視時間指標的數據進行了log 轉換,將詞首與詞尾詞素位置概率以及它們之間的交互作用作為固定效應納入模型,對于因變量指標,模型的建立以被試和項目作為交叉隨機效應。應用馬爾可夫鏈蒙特卡羅(Markov-Chain Monte Carlo) 的算法得出事后分布的模型參數來作為顯著性的估計值,這一統計算法的優勢是可以同時反映來自被試和項目的變異(Baayen et al.,2008)。模型擬合時首先從最大效應模型開始,若復雜模型無法擬合則依次簡化最大模型直至模型能夠擬合。不同條件下眼動指標的描述性統計結果見表18,線性混合模型統計結果見表19。

表18 不同詞素位置概率條件下眼動指標的描述統計結果

表19 不同詞素位置概率條件下線性混合模型的統計結果
根據線性混合模型的統計結果,詞首詞素位置概率在凝視時間(t=2.01,p=0.05)、回視路徑時間(t=2.65,p=0.01)、總注視時間(t=3.03,p=0.004)上的主效應顯著。詞尾詞素位置概率在首次注視時間(t=-0.39,p=0.69)、凝視時間(t=-0.60,p=0.55)、回視路徑時間(t=0.00,p=0.99)、總注視時間(t=-0.49,p=0.63)上的主效應均不顯著。詞首與詞尾詞素位置概率交互作用在凝視時間上顯著(t=-2.18,p=0.03),在首次注視時間(t=-1.57,p=0.12)、回視路徑時間(t=-0.29,p=0.77)、總注視時間(t=-1.10,p=0.28)上的交互作用均不顯著。
針對詞首與詞尾詞素位置概率在首次注視時間、回視路徑時間、總注視時間上均不存在交互效應,通過貝葉斯因子(Bayes Factor)進一步檢驗首、尾詞素位置概率交互作用不顯著的可靠性。應用Bayes Factor 數據處理包,分別對首次注視時間、回視路徑時間、總注視時間進行線性混合模型的貝葉斯分析(Morey et al.,2018)。分析將既包含兩因素主效應也包含兩因素交互作用的全模型(BFFull),與包含兩因素的主效應模型(BFMain)相比較,即BF=BFFull/ BFMain。若BF值小于1,表示支持虛無假設,即兩因素交互作用不顯著;若BF值大于1,則支持備擇假設,即兩因素交互作用顯著存在。在分析過程中,選取默認的先驗概率值0.5,設定蒙特卡羅迭代次數(Monte Carlo iterations)為100000。貝葉斯分析結果顯示所有指標BF值均小于1 (首次注視時間: 1 : 3.03;回視路徑時間: 1 : 6.41;總注視時間:1 : 11.56),分析結果更加支持詞首與詞尾詞素位置概率之間不存在交互作用。
實驗2b 結果表明,與詞尾詞素位置概率相比,詞首詞素位置概率對詞匯識別與切分占首要地位。在反映詞匯早期加工指標的凝視時間上,詞首詞素位置概率主效應顯著;在反映詞匯后期語義整合的眼動指標回視路徑時間、總注視時間上主效應亦顯著,這意味著詞首詞素位置概率的作用近乎貫穿了詞匯加工的整個過程。大量實證研究肯定了詞首的加工優勢,拼音文字的研究指出詞首字母與高級認知功能高相關,尾字母與低水平的視知覺有關(Johnson&Eisler,2012)。White 等人(2008)通過變換詞首與詞尾字母的位置區分首、尾字母之于詞匯識別的重要性,發現變換詞首字母的注視時間顯著高于詞尾變換,詞首字母在詞匯識別中發揮了關鍵作用。相關中文研究認為詞首字頻在一定程度上調節尾字信息的獲得和加工(Yan et al.,2006)。吳瓊(2013)通過對目標詞設置4 種條件(原詞、換位、首字掩蔽、尾字掩蔽,如“精力”、“力精”、“吅力”、“精吅”)考察詞素位置信息的重要性,研究發現當雙字詞詞首被掩蔽時(如“吅力”)加工難度最大,進一步印證詞首在詞匯加工過程中的重要性。
此外,自我組織詞匯習得與識別模型(selforganizing lexical acquisition and recognition,SOLAR)指出,字母位置的激活程度從詞的左側到右側是遞減的,詞首字母獲得了加工優勢(Davis,2001)。Whitney (2001)提出的SERIOL (sequential encoding regulated by inputs to oscillations within letter units)模型也指出,字母的興奮性輸出在整詞上呈梯度變化,變化方向是從詞首向詞尾逐漸減弱。Zhou 和Marslen-Wilson (1999)認為首詞素的加工會激活整詞的語義表征,繼而影響尾詞素識別。綜上,詞首詞素位置在詞匯識別與加工過程中具有一定優勢。依據漢語閱讀的詞切分和識別模式(Li et al.,2009),知覺廣度范圍內的字均被激活,字所攜帶的位置信息亦被激活。當詞首詞素位置概率較高時,詞首攜帶的詞素位置概率信息容易被激活,例如“鋼”字位于詞首的詞素位置概率為0.87,那么“鋼”居于詞首的信息被預先激活,當閱讀“鋼絲”一詞時,被試發現當前漢字的實際位置與慣常位置相契合,于是詞匯加工較快,反之亦然。
本研究通過詞匯判斷和眼動實驗,探討了詞素位置概率信息與中文詞匯識別與切分之間的關系。綜合分析4 個實驗發現詞素位置概率能有效引導讀者的閱讀行為,且作用發揮受整詞詞頻影響,讀者在低頻雙字詞識別中更依賴詞素位置概率信息。值得一提的是,研究結果顯示詞首詞素位置概率的影響甚于詞尾詞素位置概率,且眼動實驗發現詞素位置概率效應持續發生在詞匯加工的早、晚期階段。在單詞獨立識別及句子語境中均發現了較為穩健的詞素位置概率效應,下面分別討論詞素位置概率在中文詞匯識別與切分中的作用及影響因素。
本研究發現詞素位置概率能夠促進詞匯的識別與切分,詞素位置概率越高注視時間越短,且簡單線性回歸模型說明了這一注視事件的規律。這與連坤予等人(2021)的研究結果具有較強一致性。基于Li 和Pollatsek (2020)提出的中文閱讀整合模型,知覺廣度范圍內的漢字被平行激活,漢字所組成的詞相應被激活。當注視目標詞時,目標詞的漢字被激活,字所攜帶的位置信息亦被激活,詞素位置信息的激活強度與其所處位置的使用頻率關系密切。換言之,某一詞素位置的使用頻率越高,詞素被激活的水平越高。在中文詞匯的學習和使用過程中讀者的閱讀經驗不斷增加,逐漸意識到一些字常出現在詞首,而另一些字常居于詞尾,詞素與詞素位置的聯系得到強化。鑒于此,若詞素實際位置與預期位置相符,詞切分較容易;若詞素實際位置與預期位置不符,需啟動詞素位置的再分析,對詞素出現的實際位置與慣常位置進行核證,為解決這一位置沖突,讀者不得不對有限的認知資源進行二次分配,致使注視時間增多。同時,依據激活擴散模型(Collins & Loftus,1975)和交互激活模型(McClelland&Rumelhart,1981),中文詞匯識別是一個交互激活的過程,字特征信息的激活前饋到詞水平激活相應詞單元。詞的激活反饋到組成該詞的字水平,組成優勢詞的字的識別更快。當加工雙字詞的首字時,其所攜帶的高詞素位置概率信息被激活,以該字開頭的候選雙字詞更易激活,被激發的候選雙字詞反過來促進詞首位置的識別,詞素位置的使用頻率越高激活越快,最終使詞匯識別速度加快。
需關注的是,當前研究發現詞首詞素位置概率的作用更為關鍵,且觀察到首、尾詞素位置概率的交互作用不顯著,這說明詞首詞素位置概率對詞匯識別的促進作用具有獨立性,不受詞尾詞素位置概率影響。大量實證研究支持了詞首位置的重要性,Taft(2004)認為在雙詞素詞通達過程中,首詞素是主要搜索對象,尾詞素的作用相對較小。詞匯開始部分所攜帶的信息量(如語義或詞頻)要大于結尾部分的信息量(Shillcock et al.,2000)。字母換位效應的研究認為含有字母換位單詞的句子會造成讀者認知資源的額外損耗,其損耗程度與單詞字母的換位位置相關,換位發生在單詞開頭時認知資源損耗最大,詞尾次之(Perea & Lupker,2003)。注意資源的分配受字復雜性的影響,這種影響顯著體現在復合詞的詞首位置,詞尾則沒有(Ma & Li,2015)。Davis(2001)提出的自我組織詞匯習得與識別模型指出,每個字母的識別與自身的激活水平有關,首字母激活水平最高,隨后激活水平遞減,最后一個字母激活水平最低。
來自漢語表意文字的研究也印證了首詞素的激活優勢,徐邇嘉和隋雪(2018)發現目標詞的首字身份信息一旦破壞,詞匯的注視時間將顯著增加。陳曦等人(2006)采用語義啟動和色詞干擾范式發現,首詞素在三種不同的刺激間隔條件下激活都達到較高水平。同時,結合Inhoff 和Wu (2005)提出的中文詞匯識別的單向切分假設(un-directional parsing hypothesis),漢語是從左至右逐詞展開的,詞切分遵循著從左向右的序列,受注意梯度的影響左側漢字得到的注意資源較多,且資源從左至右傳遞,左側漢字的激活早于右側漢字,詞首信息激活的同時詞素攜帶的位置信息亦被激活。若詞素在詞首位置的使用頻次較高時,對詞素位置的敏感性提升,當詞首詞素的實際位置與固有位置契合時,高詞首詞素位置概率向整詞釋放興奮,加快了詞匯的識別速度。
本研究發現詞頻調節了詞素位置概率對詞匯識別與切分的影響,當目標詞為高頻時,詞首詞素位置概率對閱讀行為的影響較弱,而加工低頻詞時詞首詞素位置概率發揮了顯著作用。有研究指出低頻詞在識別過程中存在詞素的語義激活,而高頻詞詞素的語義激活不明顯,低頻詞更易被分解表征,高頻詞則傾向于整詞表征(俞林鑫,2006)。既往研究指出不同詞頻條件下讀者耗費的心理資源不同,低頻詞的加工負荷高于高頻詞(高曉雷 等,2020;Rayner,2009;Vorstius et al.,2014),即當中文讀者在句子閱讀過程中遭遇低頻詞時,需要投入更多的認知資源來加工低頻詞匯,而詞素特征在低頻詞條件下更易顯現(白學軍 等,2015;Liversedge et al.,2014),此時固有的詞素位置概率信息為讀者提供了隱含的詞邊界。當目標詞轉為高頻條件時,由于人們常能聽到、見到或書寫高頻詞,刺激材料的加工難度降低,傾向以整詞形式表征,導致激活水平較高,在來自詞素水平的前饋激活到來之前很可能已經被識別了,因此使讀者不能充分提取詞素位置概率的特征信息,這在很大程度上弱化了詞素位置沖突的潛在干擾,繼而掩蓋了詞素位置概率的作用。Chu 和Leung (2005)的研究指出高頻詞傾向自上而下的整體加工,重視整體時局部的特征易忽略,此時難以析出詞素,而低頻詞更傾向自下而上的局部加工,使局部的詞素位置概率特征得到關注。
結合以往研究,詞頻在復合詞表征中扮演了重要角色。我們都明白“海象”、“海馬”這類詞語表達的意義,讀到這些詞時可能頭腦中還會閃現其視覺形象,然而我們不會把這些形象分解為海中的象、海中的馬,可見一定存在與其相對應的整體單元。相對而言,如果看到“海兔”這個詞,由于很少遇到“海兔”一詞,心理詞典中不大可能存在它的獨立表征單元,整詞通達受阻,那么就要通過詞素通達。依據復合詞的混合通達表征模型,心理詞典中既存在詞素表征,也存在整詞表征,詞匯識別是詞素激活和整詞激活相互作用的結果。低頻詞在日常閱讀中不常見,以詞素形式存于心理詞典,且深受詞素特征影響,使得詞素位置概率的特征信息得以表征。在低頻詞的加工中激活了詞素位置概率線索,助力詞匯的識別與切分。反觀高頻詞,日常閱讀中出現的頻率較高,激活閾限較低,通過整詞的形式存儲在心理詞典中,對詞素特征信息不夠敏感,詞素位置概率信息作用有限。
綜合地看,詞素位置概率在中文動態的詞切分過程中發揮了作用,反映出漢語讀者在長期接觸漢字位置信息過程中所形成的心理傾向。而這種詞素位置的識別能力是否具有發展性,還需后續研究進一步揭示,比如探查發展中的兒童、語言發展受阻的閱讀障礙兒童,以及閱讀經驗相對豐富的老年人對詞素位置概率的運用或保留情況。綜上,讀者在閱讀過程中抽取了詞素位置概率這項特征,這也意味著詞素作為一個獨立的語言單元得到了加工,說明中文復合詞加工過程中存在詞素通達。而目標詞轉為高頻詞后詞素位置概率的特性表現的不明顯,說明復合詞加工過程中也存在整詞通達。綜合而言,研究結果支持了中文復合詞加工的混合通達表征模型。
中文閱讀中詞素位置概率信息是讀者重要的語言詞切分線索,且與詞尾詞素位置概率相比,詞首詞素位置概率在詞匯識別與切分過程中發揮的作用更大。同時,讀者對詞素位置概率信息的加工優勢受整詞詞頻的影響,研究結果支持復合詞識別加工的混合通達表征模型。