朱一鳴 趙 陽 唐 寧 周吉帆 沈模衛
(浙江大學心理與行為科學系, 杭州 310058)
漢字是利用二維空間表達信息的象形文字, 由筆畫交錯連接構成, 其正字法規則(Orthographic regularities)較為復雜(陳天泉, 1983)。雖然當前印刷體漢字識別技術已經成熟, 手寫體漢字因其筆畫多變、風格各異, 給機器識別帶來巨大挑戰(任曉倩等, 2018; Krizhevsky et al., 2012)。然而, 漢字使用者往往具備熟練識別手寫漢字的能力。因此理解并借鑒人的手寫漢字識別機制, 探明筆畫、部件等各層次單元的表征及計算機制, 有著重要的理論意義和應用價值(周吉帆 等, 2016; Li et al., 2020; Zhang et al., 2020)。
植根于建構主義的視覺合成分析過程理論(Analysis-by-synthesis process)認為, 所有圖像都是由某些因果過程在時間和空間上的執行而產生的,動態生成的結果是一幅靜態圖像。面對這一輸出結果, 人的視覺系統會自發地以概率計算的方式解釋圖像是如何產生的(Grenander, 1976; Yuille & Kersten,2006)。例如, 人們將蘋果公司的標志看作是被“咬了一口”的殘缺蘋果。面對漢字, 人的視覺系統可能執行了類似的過程: 漢字是筆畫和部件按照自上而下、自左向右等正字法規則書寫生成的產生式文字,漢字識別可能是根據整字這一靜態輸出結果, 逆向推理此前的動態書寫過程, 猜測輸入圖像最有可能由哪個原型字書寫而成。該產生式的概率推斷思想得到行為學和神經科學證據的支持(Gershman et al.,2012; Kok et al., 2013; Laeng et al., 2014)。可見, 如果漢字識別是一個產生式過程, 那么首先需要理解漢字是如何產生的。
漢字是由內含層次關系的各個單元在正字法的引導下生成的。以往的模型大多將漢字分為筆畫、部件、整字三層次, 例如經成分模型(Huang &Wang, 1992)、合體漢字識別的相互作用模型(沈模衛, 朱祖祥, 1997)、多層次交互模型(Taft & Zhu,1997)和格式塔認知模型(陳傳鋒, 黃希庭, 2004)。盡管各模型有所差別, 但它們隱含了一致的觀點,即筆畫是漢字結構和識別的最小單元。如果漢字識別的過程相當于漢字產生的反向推理, 那么獲得筆畫表征應當是漢字識別的前提。
支持筆畫是漢字識別最小單元的實驗證據主要來自漢字的筆畫數效應、筆順效應和筆畫獨立組塊效應。筆畫數效應是指筆畫數多的漢字加工更困難。研究發現, 識別或辨認筆畫數較多的合體字需要花費更多時間(張武田, 馮玲, 1992), 同時正確率和辨別力更低(鄭昭明, 高尚仁, 1982); 判斷一組筆畫是否構成漢字時, 少筆畫組構字的錯誤率低于多筆畫組(羅艷琳 等, 2008)。上述研究提示, 整字包含的筆畫數量越多, 需要加工的特征量也越多, 支持筆畫是漢字字形加工的最小單元。筆順效應是指筆順不同的筆畫在整字識別中具有不同的權重。研究發現, 省略首筆畫比省略中間或尾部的筆畫, 對整字識別造成的干擾更大(閆國利 等, 2013); 以筆順在前的筆畫作為啟動材料, 比筆順靠后的筆畫更有助于漢字命名(Giovanni, 1994)。這些結果也支持筆畫是識別過程的基礎單元。筆畫獨立組塊效應是指漢字識別的基本單元是單個完整筆畫。有研究發現, 去除單個完整筆畫比去除多個筆畫的部分像素產生的干擾更大(Yu et al., 2018)。簡單和復雜筆畫所含像素數量盡管不同, 但識別績效無差別(張積家 等, 2002)。以上結果均支持筆畫是高于像素的最低計算單元。
既然筆畫是漢字產生和識別的起點, 那么了解筆畫的識別機制, 可能是理解漢字識別過程的前提和基礎。然而目前尚未見反映筆畫表征產生機制的相關證據。筆畫識別的本質是, 從構成一個漢字的交錯線條中分離、抽取與筆畫模板相似1與印刷體漢字不同, 手寫體筆畫變形較大, 難以通過與標準筆畫直接比對的方式識別。的基本線段的過程。這些線條由書寫運動產生, 它們交錯連接所產生的交接或交叉區域即為節點。相交的數條線,有多種分割線段的方式, 所有分割方式構成了一個筆畫空間, 識別的目的就是在這個空間中尋找最合理的一個分割方案。例如, 僅由“橫”和“豎鉤”兩劃和一個節點構成的“丁”字, 還可能存在兩種分割方案: “橫折鉤”和“短橫”; 兩個“短橫”和一個“豎鉤”。可見節點附近的所有潛在筆畫組合可以由歷遍該節點附近每一條線段來產生。對于由n個筆畫構成的節點, 若令其潛在筆畫組合的集合為A(n), 則可以推論,A(n)會隨交點相連的筆畫數迅速膨脹。同時, 對于含有m個節點的漢字, 若令整字的潛在筆畫組合為集合A(m), 則A(m)也會隨整字包含的節點數增加而迅速增加。可見, 識別的主要難點在于筆畫空間太大。此外, 手寫體本身的連筆、缺筆特性可能造成節點冗余或缺失, 使正確識別筆畫的難度進一步提高。
對于上述求解空間過大的問題, 基于產生式思想的貝葉斯推理算法或許是目前最為有效的求解方法。Science期刊2015 年12 月的封面文章介紹了適用于字符識別的貝葉斯規劃學習(Bayesian Program Learning, BPL)模型, 認為字符的識別是一個基于產生式模型的反向推理過程(Lake et al,2015)。產生式模型是指, 給定目標變量y的前提下觀測變量X的條件概率模型, 表示為p= (X|Y=y)(Meila, 2006)。基于產生式的反向推理則是根據觀測變量X求解目標變量Y的過程, 假設有數個目標y1、y2……yn, 如果由產生式模型得出yn產生X的概率高于其他目標, 即可認為Y最有可能由yn產生, 則獲得了目標變量的最優解。以常見的產生式模型——BPL 模型為例, 識別手寫字符的過程可以概括如下:先從字母樣例中提取節點, 枚舉所有可能產生該節點的基元(類似于筆畫)組合方式。再根據基元間關系的先驗知識2BPL 模型認為先驗知識包含兩類, 一是任意兩類基元在序列上相鄰出現的概率, 二是任意兩類基元的各種空間關系(尾首相接、首首相接等)的概率。, 得到各種基元組合的后驗概率。最后將輸入字符的產生方式和數據庫中原型字符的產生方式進行相似度比較, 從而推測出哪個字符最有可能“寫出”當前觀察到的手寫字母。該模型在人工字符集的識別任務中達到了人類水平的識別績效(Lake et al, 2015)。
類比貝葉斯規劃學習模型, 漢字的產生式識別是對漢字產生過程的逆推理(Yuille & Kersten,2006)。漢字(獨體字)的產生過程可以描述為: 首先定義漢字的基本筆畫集合, 從中抽取數個筆畫, 并依據先驗的筆畫組合概率, 按照恰當的順序和空間位置將它們書寫出來, 從而構成整字圖像。產生式識別則是根據整字圖像, 反推之前的書寫過程: 從識別輸入字的筆畫開始, 先基于線段交點提取出節點, 接著枚舉所有能產生該節點的筆畫組合方式,再利用筆畫先驗概率篩選出其中概率最高的組合方案, 從而獲得輸入字的產生方式(Gershman et al.,2012)。當長時記憶中某個原型字的產生方式與之高度相似時, 則可將輸入字判定為原型字, 從而完成漢字識別。就合體字而言, 理論上可將合體字視為多個獨體字(部件)的嵌套: 合體字識別需要先拆分部件,然后執行部件識別過程, 從而獲得最有可能產生當前輸入字的部件組合方案, 之后匹配長時記憶中部件產生方式與之最相符的原型字, 進而完成識別3產生式框架下, 合體字中節點和筆畫的加工過程與獨體字一致。此處的部件等高層級加工過程暫是猜想。。
此外, 產生式識別依賴的先驗知識可能來源于人的書寫經驗。大量研究表明, 書寫能促進漢字識別和詞句閱讀(朱朝霞 等, 2019): 一方面, 書寫動作可以加強漢字正字法相關的視空間表征, 以及形、音、義的聯結, 并促進漢字長時動作記憶的形成(Tan et al., 2005); 另一方面, 閱讀文字會調用書寫相關的空間結構和運動知識, 識別有手寫經驗的文字相比無經驗字會引發感覺運動皮層的更強激活(Cao et al., 2013)。綜合產生式理論和經典漢字書寫研究, 手寫漢字的識別, 可能正是基于節點提供的自下而上信息, 結合由漢字書寫習得的自上而下的筆畫運動和多層級概率知識, 以產生式的概率推斷方法逐步求解正確漢字表征的過程。
假設人以上述過程識別漢字, 則可預測其識別過程應出現以下兩種效應: (1)節點數量效應。節點數量是指一個漢字中筆畫交叉或相接區域的數量。由于對節點的分析是獲得筆畫表征的前提, 整字含有的節點越多, 且都得到了充分加工, 則在貝葉斯推測過程中提供的信息量就越大, 即包含較多節點的漢字具有識別優勢。(2)節點復雜度效應。對于連結較多筆畫的復雜節點, 由于其附近潛在的筆畫空間較為龐大, 為了壓縮問題空間, 識別過程會更依賴節點的引導作用。因此, 復雜節點為筆畫組合的計算提供更大的信息量。本研究通過數個實驗, 分別對節點數量效應和節點復雜度效應加以檢驗。
本實驗的目的在于檢驗節點數量效應, 即包含節點數量較多的漢字具有識別優勢。
實驗共招募26 位浙江大學學生(10 男, 16 女),年齡范圍17 至26 歲(M= 21.31 歲,SD= 2.43 歲)。所有被試的母語均為漢語且均為右利手。視力或者矯正視力正常。
實驗采用2 (節點數: 多節點和少節點)×6 (呈現時間: 10 ms、20 ms、30 ms、40 ms、50 ms、60 ms)兩因素被試內設計。76 個刺激在6 種呈現時間下分別出現一次, 每個被試共完成456 個試次。刺激的呈現順序完全隨機。因變量為字判別任務的正確率和反應時。選取多檔刺激呈現時間的原因是, 漢字識別是始于節點分析的時序加工: 識別系統需要先定位節點, 然后拆解附近筆畫, 再計算各種筆畫組合的概率并取優。因此, 當視覺系統執行到一定加工深度時方能在整字績效上發現相關效應。由于暫不明確對應的時間窗口, 本實驗采用的刺激呈現時間數值參考了采用微觀發生法的類似研究(沈模衛,朱祖祥, 1997; 沈模衛 等, 1998), 因其較好展現了漢字加工變化過程的精細信息。
由于獨體字由筆畫直接構成, 節點對筆畫表征的影響可以較為直接地反映在整字的識別績效上,因此本實驗使用獨體字作為實驗材料。實驗分為練習階段和正式實驗階段, 練習階段的刺激包含5 個真字和5 個假字, 正式實驗的刺激使用另外38 個真字和38 個假字。其中真字又分為多節點組和少節點組, 前者由19 個包含3 到6 個節點的真字組成, 后者由19 個包含0 到2 個節點的真字組成, 多節點組(M= 3.95,SD= 0.97)和少節點組(M= 1.32,SD= 0.58)的節點數差異顯著4由于節點數不服從正態分布, 故采用Mann-Whitney U 檢驗。,df= 1,p< 0.001,χ2= 29.04。兩組材料的筆畫數和字頻相匹配: 多節點組和少節點組均包括13 個四筆畫字和6 個五筆畫字。通過規模高達兩億字的漢語網絡數據庫(http://lingua.mtsu.edu/chinesecomputing/)確定多節點組的字頻范圍是2217~755256 次, 平均為4.48(轉換為以10 為底的對數), 少節點組的字頻是312~2237915 次, 平均為4.94 (轉換為以10 為底的對數)。假字由真實筆畫根據漢字書寫習慣組合而成, 也包括多節點和少節點兩組, 前者由19 個含3 到6 個節點的假字組成, 后者由19 個含0 到2 個節點的假字組成。多節點組(M=3.58,SD= 0.90)與少節點組(M= 1.26,SD= 0.65)的節點數差異顯著,df= 1,p< 0.001,χ2= 29.44。為提升實驗的外部效度, 真假字材料都以仿手寫字體呈現。使用Photoshop CC 2018 將所有真假字制作為150 磅大小的白色字, 放置于邊長130 像素的黑色正方形中心。本實驗的真假字樣例見圖1。

圖1 實驗1 的實驗材料示意圖
實驗程序采用Psychtoolbox 編寫, 呈現于17吋CRT 屏幕上, 分辨率設為1024×768, 刷新率為100 Hz。實驗分為預備實驗和正式實驗兩個階段。在預備實驗階段, 主試通過展示指導語向被試說明實驗的要求和任務。預備實驗流程與正式實驗一致,如圖2 所示, 并要求被試進行20 個試次的練習以熟悉實驗流程。實驗中首先在屏幕中央呈現一個注視點, 短暫空屏后出現一個刺激字。該字可能是真字也可能是假字, 隨后加以掩蔽。掩蔽消失后, 要求被試又快又準確地判斷剛才的刺激字是真字還是假字, 并按下相應的按鍵。

圖2 實驗1 字判別任務示意圖
本實驗中假字組的設置只用于控制被試的反應傾向, 因此只對真字組的正確率, 以及真字組內正確試次和錯誤試次的反應時加以分析。本文所有實驗報告的F1和F2分別是基于被試和基于項目的分析結果。
2.5.1 正確率
正確率的整體平均值為63%, 標準差為29%。正確率隨呈現時間的變化趨勢如圖3a 所示。重復測量方差分析發現, 節點數量的主效應顯著,F1(1,25) = 9.65,p= 0.005,, 差異的95% CI =[?5%, ?1%];F2(1, 18) = 4.56,p= 0.047,,差異的95% CI = [?5%, ?1%], 多節點字的正確率(M= 57%,SD= 35%)顯著高于少節點字(M= 55%,SD= 34%)。刺激呈現時間的主效應顯著,F1(1, 25) =113.29,p< 0.001,;F2(3.37, 60.70) =501.33,p< 0.001,, 隨呈現時間增長, 正確率顯著提高。

圖3 (a)正確率隨呈現時間變化的趨勢圖 (b)反應時隨呈現時間變化的趨勢圖
基于被試的分析發現兩因素間交互作用邊緣顯著5由于被試在40 ms 及以上的呈現時長下方能做出有效真假字判斷(正確率高于隨機水平50%), 故獨立分析了40 至60 ms 的試次, 兩因素間交互作用為:F1 (2, 50) = 4.72, p = 0.013, =.16; F2 (2, 36) = 2.48, p = 0.098, = 0.12。,F1(5, 125) = 1.998,p= 0.083,;F2(5,90) = 1.12,p= 0.355。進一步分析發現: 當刺激呈現時間為40 ms 時, 被試在真字少節點(M= 71%,SD= 21%)條件下的正確率顯著低于真字多節點(M= 78%,SD= 21%)條件,t(25) = ?3.51,p= 0.002,Cohen’sd= 0.69, 差異的95% CI = [?11%, ?3%]。在呈現時間為50 ms 的條件下, 少節點字(M= 85%,SD= 16%)與多節點字(M= 88%,SD= 16%)也存在類似的差異,t(25) = ?2.17,p= 0.040, Cohen’sd=0.41, 差異的95% CI = [?7%, 0%]。
2.5.2 反應時
反應時的整體平均值為 908 ms, 標準差為218 ms。不同呈現時間條件下的反應時見圖3b。重復測量方差分析發現, 節點數量的主效應不顯著,F1(1, 25) = 0.19,p= 0.663;F2(1, 18) = 0.08,p=0.785。刺激呈現時間的主效應顯著6本文中所有不滿足Mauchly 球形檢驗的重復測量方差分析結果均采用Greenhouse-Geisser 方法校正。,F1(1.64, 40.97) =7.55,p= 0.003,;F2(5, 90) = 4.01,p=0.003, 隨呈現時間增長, 反應時顯著減少。
基于被試的分析發現兩因素間交互作用顯著,F1(3.75, 93.66) = 3.52,p= 0.012,;F2(5,90) = 0.74,p= 0.599。進一步分析發現: 當刺激呈現時間為40 ms 時, 被試在真字少節點(M= 876 ms,SD= 160 ms)條件下的反應時顯著高于真字多節點(M= 806 ms,SD= 144 ms)條件,t(25) = 3.67,p=0.001, Cohen’sd= 0.73, 差異的95% CI = [31 ms,110 ms]。在呈現時間為50 ms 的條件下, 少節點字(M= 841 ms,SD= 138 ms)與多節點字(M= 787 ms,SD= 135 ms)也存在類似的差異,t(25) = 2.36,p= 0.026,Cohen’sd= 0.61, 差異的95% CI = [5 ms, 105 ms]。
本實驗的結果表明, 節點數量多的字具有識別優勢, 表現為更高的正確率和更短的反應時。該效應在刺激呈現時間為40 ms 和50 ms 時顯著。當刺激呈現時間少于30 ms 時, 節點數量并未出現上述效應。此時被試對真字的判斷正確率也低于隨機水平, 說明被試傾向于在無法辨認真假字時做出“假字”的判斷。當刺激呈現時間達到60 ms 時, 被試可以對整字做充分表征, 此時節點數量對整字識別的影響不明顯。
綜上所述, 在視覺系統能充分獲取和分析節點信息的前提下, 節點數量越多, 為筆畫拆解過程提供的信息越豐富, 計算系統可以同時利用的有效信息越多, 提高了整字識別的績效。可見, 本實驗驗證了人的漢字識別過程具有貝葉斯產生式模型所預測的節點數量效應。
本實驗的目的在于檢驗節點復雜度效應, 即連接更多筆畫的節點在筆畫分離過程中能提供更豐富的信息量。
29 位浙江大學學生(10 男, 19 女)參與正式實驗,年齡范圍18 至26 歲(M= 21.14,SD= 2.18)。所有被試第一語言均為漢語, 視力或者矯正視力正常。
實驗采用2 (掩蓋復雜節點和掩蓋簡單節點)×2 (掩蓋第1 節點和掩蓋第5 節點)×4 (呈現時間:60 ms、70 ms、80 ms、90 ms)三因素被試內設計。160 個刺激在4 種呈現時間下分別出現一次, 每個被試共完成640 個試次。刺激的呈現順序完全隨機。因變量為字判別任務的正確率和反應時。
為進一步確認節點在漢字識別中的作用, 本實驗使用單個節點被掩蓋的合體字作為實驗材料。合體字的單個部件可以視為一個獨體字, 節點通過干擾部件內的筆畫表征, 進而影響部件以及合體字整字的識別。實驗分為練習階段和正式實驗階段, 練習階段的刺激是5 個真字和5 個假字, 正式實驗的刺激使用另外的80 個真字和80 個假字。
由于筆順位置不同的筆畫在整字識別中具有不同的權重(Giovanni, 1994; 閆國利 等, 2013), 掩蓋不同位置的節點對整字識別的影響, 可能會受節點所在筆畫的筆順位置干擾。因此, 本實驗將在控制節點順序的前提下驗證節點復雜度效應。節點順序為一個漢字按照標準筆順書寫時節點依次產生的順序。
定義節點的復雜度為構成該節點的筆畫數量。本實驗中, 由兩個筆畫形成的節點稱為簡單節點,例如“下”中橫與豎的交點。有3 或4 個筆畫形成的節點稱為復雜節點, 例如“木”中橫、豎、撇、捺的交點。正式實驗材料分為真字組和假字組, 真字組分別包含20 個第1 節點為簡單節點(M= 2.00,SD=0)和第1 節點為復雜節點(M= 3.60,SD= 0.50)的真字, 兩類字中第1 節點的復雜度差異顯著,df= 1,p<0.001,χ2= 34.82; 20 個第5 節點是簡單節點(M=2.00,SD= 0)和20 個第5 節點是復雜節點(M= 3.45,SD= 0.51)的真字, 其節點復雜度差異也顯著,df=1,p< 0.001,χ2= 34.71)。分別掩蓋真字的第1 節點和第5 節點, 以分離不同節點順序的效應。假字組對應真字也分為4 類, 每個假字由對應的真字替換一個部件制得, 且替換的部件不含被掩蓋的節點。真字4 類字組在節點數、筆畫數、部件數、整字構型和字頻上均加以匹配(見表1), 呈現材料均使用手寫字體。本實驗所使用字樣如圖4 所示。

表1 實驗2 材料的各種屬性

圖4 實驗2 的實驗材料示意圖
實驗裝置與實驗1 相同。由于實驗1 中刺激呈現時間達到40 ms 時節點數量才會對被試判斷產生影響, 并且本實驗的材料是更為復雜的合體字, 因此刺激的呈現時間改為60 ms 至90 ms, 其他條件與實驗1 一致。
本實驗對真字組的正確率, 以及真字組內正確試次和錯誤試次的反應時加以分析。
3.5.1 正確率
正確率的整體平均值為79%, 標準差為21%。分別掩蓋第1 和第5 節點時, 字判別任務正確率隨呈現時間的變化趨勢如圖5 所示。重復測量方差分析發現, 節點復雜度主效應顯著7本實驗中項目分析不顯著, 可能是由于沒有控制部件的筆畫數、頻率、結合律等無關變量。實驗3 對上述因素加以平衡后,觀察到了F2 上的顯著差異。,F1(1, 28) = 6.93,p= 0.014,, 差異的95% CI = [?4%, ?1%];F2(1, 19) = 0.73,p= 0.404。掩蓋復雜節點的正確率(M= 81%,SD= 21%)顯著低于掩蓋簡單節點的正確率(M= 83%,SD= 22%)。呈現時間的主效應顯著,F1(2.22, 62.14) = 8.06,p= 0.001,;F2(3, 57) =7.69,p< 0.001,, 隨呈現時間增長, 正確率顯著提高。節點順序的主效應不顯著,F1(1, 28) =1.74,p= 0.197;F2(1, 19) = 0.32,p= 0.580。

圖5 (A)掩蓋第1 節點時正確率隨呈現時間變化的趨勢圖; (B)掩蓋第5 節點時正確率隨呈現時間變化的趨勢圖
復雜度和節點順序之間的交互作用顯著,F1(1,28) = 11.56,p= 0.002,;F2(1, 19) = 2.49,p= 0.131。其余的交互作用均不顯著: 復雜度和呈現時間之間的交互作用,F1(2.29, 64.18) = 1.34,p=0.266;F2(3, 57) = 1.32,p= 0.277。節點順序和呈現時間之間的交互作用,F1(3, 84) = 0.16,p= 0.926;F2(3, 57) = 0.10,p= 0.961。三因素之間的交互作用,F1(3, 84) = 0.93,p= 0.430;F2(3, 57) = 0.57,p=0.636。
簡單效應分析表明, 對于順序第5 的節點, 掩蓋復雜節點的正確率(M= 79%,SD= 18%)顯著低于掩蓋簡單節點(M= 84%,SD= 21%),t(116) =?5.22,p< 0.001, Cohen’sd= 0.48, 差異的95% CI =[?7%, ?3%]。對于順序第1 的節點, 掩蓋復雜節點的正確率(M=83%,SD= 19%)與掩蓋簡單節點 (M=82%,SD= 19%)無顯著差異,t(116) = 0.57,p=0.572。
3.5.2 反應時
反應時的整體平均值為929 ms, 標準差為210 ms。分別掩蓋不同位置節點時的反應時見圖6。重復測量方差分析發現, 節點順序和呈現時間之間的交互作用顯著,F1(3, 84) = 4.14,p= 0.009,;F2(3, 57) = 0.16,p= 0.020,。其余的主效應和交互作用均不顯著: 節點復雜度的主效應,F1(1,28) = 0.35,p= 0.558;F2(1, 19) = 0.33,p= 0.575。呈現時間的主效應,F1(2.45, 68.56) = 2.27,p=0.100;F2(3, 57) = 2.70,p= 0.054。節點順序的主效應,F1(1, 28) = 0.34,p= 0.566;F2(1, 19) = 0.08,p=0.780。復雜度和節點順序之間的交互作用,F1(1,28) = 0.85,p= 0.366;F2(1, 19) = 0.16,p= 0.693。復雜度和呈現時間之間的交互作用,F1(3, 84) = 0.36,p= 0.786;F2(3, 57) = 0.52,p= 0.668。三因素之間的交互作用,F1(3, 84) = 1.05,p= 0.376;F2(3, 57) =1.45,p= 0.239。

圖6 (A)掩蓋第1 節點時反應時隨呈現時間變化的趨勢圖, (B)掩蓋第5 節點時反應時隨呈現時間變化的趨勢圖
本實驗發現, 掩蓋復雜節點比簡單節點對整字識別產生的干擾更大, 即識別正確率更低。該效應在掩蓋順序靠后的節點時更為顯著。說明高復雜度的節點為筆畫拆解過程提供了更為豐富的信息。掩蓋處于更大的筆畫空間中的復雜節點, 窮舉出的筆畫組合方式會多于簡單節點, 更多的計算量將損害整字的識別績效。這為貝葉斯產生式模型所預測的節點復雜度效應提供了初步證據。
節點復雜度效應在第1 節點上比較弱, 可能存在兩方面原因: 一是部件的特性削弱了節點復雜度的影響。合體字的第1 節點通常位于部首上, 部首具有多為形旁、構字能力較強、筆畫相對其他部件更少等特性, 其在整字識別中的權重較低, 掩蓋此處的節點對整字識別的干擾有限。二是節點的產生方式影響了節點的復雜度。節點由筆畫交叉或相接所產生, 在筆畫數量一定的前提下, 筆畫交叉所產生的節點區域(如“十”字的節點), 相比筆畫相交但不穿過的區域(如“廠”字的節點), 前者潛在的筆畫組合方式更多, 掩蓋該類節點會對筆畫拆解和整字識別產生更大干擾。
本實驗目的是進一步檢驗節點復雜度效應。由于聲旁和形旁在合體字識別中的作用具有特異性(Lee et al., 2006), 且節點產生方式可能會影響節點復雜程度, 因此本實驗將部件類型和節點產生方式作為兩個自變量進行操縱。
26 位浙江大學學生(10 男, 19 女)參與正式實驗,年齡范圍18 至25 歲(M= 21.50,SD= 2.02)。所有被試第一語言均為漢語, 視力或者矯正視力正常。
實驗采用2 (掩蓋復雜節點和掩蓋簡單節點)× 2 (掩蓋聲旁上的節點和掩蓋形旁上的節點) ×2 (節點由筆畫交叉所產生和節點由筆畫相接但不穿過所產生)三因素被試內設計。240 個刺激在60 ms 呈現時間下均出現一次, 每個被試共完成240 個試次。刺激的呈現順序完全隨機。因變量為字判別任務的正確率和反應時。
本實驗以單個節點被掩蓋的合體字作為實驗材料。實驗分為練習階段和正式實驗階段, 練習階段的刺激是5 個真字和5 個假字, 正式實驗的刺激使用另外的120 個真字和120 個假字。
簡單節點和復雜節點的定義同實驗2。正式實驗材料包含120 個真字刺激和120 個假字刺激。真字均為左形右聲結構的形聲字(符合實驗要求的左聲右形漢字數量稀少, 故不采用), 分為8 組, 每組15 個目標刺激。假字組對應真字也分為8 組, 每個假字由對應的真字替換一個部件制得, 且替換的部件不含被掩蓋的節點。8 組真字在筆畫數、字頻、部件數、形旁筆畫數、形旁頻率、形旁結合律、聲旁筆畫數、聲旁頻率和聲旁結合律上均加以匹配(見表2), 真假字材料均使用手寫字體。本實驗所使用字樣如圖7 所示。

表2 實驗3 材料的各種屬性

圖7 實驗3 的實驗材料示意圖
實驗裝置與實驗2 相同。由于實驗2 中刺激呈現時間達到60 ms 時已可觀察到節點復雜度效應,因此本實驗中刺激的呈現時間均采用60 ms, 其他條件與實驗2 一致。
本實驗對真字組的正確率, 以及真字組內正確試次和錯誤試次的反應時加以分析。
4.5.1 正確率
數據的整體平均值為72%, 標準差為18%。字判別任務正確率如圖8 所示。方差分析發現, 節點復雜度的主效應顯著,F1(1, 200) = 8.32,p= 0.004,;F2(1, 112) = 5.69,p= 0.019,,掩蓋復雜節點的正確率(M= 68%,SD= 19%)顯著低于掩蓋簡單節點的正確率(M= 76%,SD= 16%)。部件類型的主效應不顯著,F1(1, 200) = 0.01,p=0.911;F2(1, 112) = 0.02,p= 0.902。節點產生方式的主效應不顯著,F1(1, 200) = 1.70,p= 0.193;F2(1,112) = 1.42,p= 0.236。

圖8 字判別任務的正確率
基于被試的分析發現, 復雜度和節點產生方式的交互作用顯著8鑒于節點附近筆畫識別機制的研究剛起步, 在部件和筆畫層次的常規控制變量之外, 可能存在未經控制的與節點產生方式有關的未知變量, 致使項目分析未能顯著。將來的工作應尋找影響筆畫拆分的關鍵因素。,F1(1, 200) = 3.87,p= 0.050,;F2(1, 112) = 1.96,p= 0.165,。復雜度和部件類型之間的交互作用不顯著,F1(1, 200) =0.01,p= 0.908;F2(1, 112) = 0.00,p= 1.000。部件類型和節點產生方式之間的交互作用不顯著,F1(1,200) = 0.08,p= 0.092;F2(1, 112) = 1.42,p= 0.236。三因素之間的交互作用亦不顯著,F1(1, 200) = 3.24,p= 0.073;F2(1, 112) = 1.326,p= 0.252。
進一步分析表明, 對于筆畫相接所產生的節點,掩蓋復雜節點的正確率(M= 68%,SD= 18%)顯著低于掩蓋簡單節點(M= 80%,SD= 16%),t(102) =?3.67,p< 0.001, Cohen’sd= 0.73, 差異的95% CI =[?19%, ?6%]。對于筆畫交叉產生的節點, 掩蓋復雜節點的正確率(M= 69%,SD= 19%)與掩蓋簡單節點(M= 72%,SD= 16%)無顯著差異,t(102) = ?0.89,p= 0.378。
4.5.2 反應時
數據的整體平均值為1240 ms, 標準差為386 ms。字判別任務反應時見圖9。方差分析未發現任何主效應(節點復雜度,F1(1, 200) = 0.17,p= 0.678;F2(1, 112) = 0.93,p= 0.338。部件類型,F1(1, 112) =0.21,p= 0.651;F2(1, 112) = 0.86,p= 0.357。節點產生方式,F1(1, 200) = 0.40,p= 0.527;F2(1, 112) =1.45,p= 0.231)。

圖9 字判別任務的反應時
未發現任何交互作用(節點復雜度和部件類型之間的交互作用不顯著,F1(1, 200) = 0.01,p=0.909;F2(1, 112) = 0.18,p= 0.676。節點復雜度和節點產生方式的交互作用不顯著,F1(1, 200) = 0.06,p= 0.804;F2(1, 112) = 0.52,p= 0.474。部件類型和節點產生方式的交互作用不顯著,F1(1, 200) = 0.85,p= 0.356;F2(1, 112) = 3.13,p= 0.08。三因素之間的交互作用亦不顯著,F1(1, 200) = 0.10,p= 0.751;F2(1, 112) = 0.75,p= 0.390)。
從差異方向上看, 反應時模式與正確率是基本一致的(正確率高的反應時短), 不存在反應時?正確率權衡。
本實驗發現掩蓋復雜節點比簡單節點對整字識別產生的干擾更大, 即識別正確率更低。該效應在掩蓋筆畫相接但不穿過所產生的節點時更為顯著。
節點復雜度和節點產生方式存在交互作用。當掩蓋筆畫交叉產生的節點時, 簡單和復雜節點的正確率均較低, 可能是交叉這一幾何形式擴充了潛在的筆畫組合方案, 增加了掩蓋簡單節點時認知計算的難度。該交互作用的項目分析結果并不顯著, 表明可能存在未經控制的與節點產生方式有關的未知變量, 提示下一步研究可探尋筆畫拆分的關鍵影響因素; 節點復雜度和部件類型不存在交互作用,可能是由于實驗材料均為左形右聲的形聲字, 掩蓋形旁和聲旁節點分別意味著干擾順序在前和在后筆畫的表征, 即筆畫順序效應和聲旁優勢效應相互抵消。以往研究為此提供了佐證: 相比形旁, 形聲字的聲旁在整字識別中的作用更為明顯; 而相比順序靠后的筆畫, 順序在前的筆畫對整字識別更為重要(閆國利 等, 2013)。因此, 兩種因素相平衡后, 節點復雜度在聲旁和形旁上的影響沒有明顯差異。
本實驗通過更加嚴格的實驗控制, 進一步說明高復雜度的節點提供了更為豐富的筆畫拆解信息,掩蓋處于更大的筆畫空間中的復雜節點會顯著增加認知過程的計算難度。可見, 人的漢字識別過程具有貝葉斯產生式模型所預測的節點復雜度效應。
本研究基于字符識別的貝葉斯規劃學習模型,認為漢字字形識別是一個產生式的反向推理過程,提出并驗證了節點數效應和節點復雜度效應的預測。三個實驗說明節點提供給貝葉斯推斷過程的信息量越多, 整字越容易識別。以上結果為漢字字形識別產生式過程提供了證據, 表明對節點的加工是識別過程的基礎。
本研究的結果表明, 筆畫表征的獲得依賴于節點提供的信息量增益。實驗1 發現, 整字包含的節點數量越多, 識別績效越好, 從數量的角度表明節點為筆畫分割提供了引導信息。實驗2、3 發現, 掩蓋的節點越復雜, 整字識別績效越差, 從性質的角度表明不同類型的節點提供的引導信息存在差異。漢字字形是二維平面中線條的集合, 獲得筆畫表征需要經歷從線條中分離、抽取的過程, 且不存在唯一解。因此, 節點為獲得恰當合理的筆畫表征提供了自下而上的筆畫分離線索。
節點為筆畫分割過程提供的引導信息, 本質上可能是節點蘊含的筆畫運動信息, 即有關該節點和鄰近筆畫是如何由漢字書寫所“產生”的。筆畫是由自左向右、自上而下兩條運動規則產生的單向線段。沒有線段交錯的部分, 筆畫的產生方式幾乎是確定的。只有在線段交錯的節點處, 筆畫在不違背產生規則的前提下具有多種可能的運動方向。因此分割線段的重點是在節點處, 此處的筆畫運動信息最為豐富。這與經成分分析理論認為筆畫曲折、交接的地方具有更多的非偶然性特征相一致(Huang& Wang, 1992)。筆畫運動信息經由漢字書寫訓練習得, 先前大量研究發現書寫能力與閱讀能力存在正相關關系(朱朝霞 等, 2019)。認知神經科學的證據表明, 兩者共享左側梭狀回和左側額下回等神經網絡, 閱讀過程中書寫相關的運動功能區也會激活。行為學研究也發現, 漢字書寫中的運動規劃能夠促進漢字的長時動作記憶的形成(Tan et al., 2005), 人們可以在書寫漢字的過程中學習到筆畫運動方向的知識, 該類知識會自上而下影響對筆畫的識別(Tse & Cavanagh, 2000)。因此, 節點蘊含的筆畫運動信息是視覺系統能從靜態整字圖像中拆分出筆畫組合的重要線索之一。
就漢字加工的時間進程而言, 節點的表征與分析可能是漢字識別的初始環節。實驗1 發現, 在刺激呈現時間較短(小于40 ms)時, 節點信息尚未充分提取, 即多節點字和少節點字的識別績效未表現出差別, 整字識別的正確率并未超出隨機水平(50%)。呈現時間達到40 ms 后, 節點獲得較好表征, 整字識別正確率開始超過隨機水平。可見, 整字能被有效識別時對應的刺激呈現時長與節點數量效應出現時的呈現時長一致。因此, 節點可能是整字識別刺激輸入后較早獲得的基礎特征, 利用節點信息后才能執行筆畫分離過程, 從而有效識別整字。
本研究支持筆畫分割以并行加工的方式進行。實驗1 發現識別多節點字的識別績效更好, 表明節點越多, 視覺系統可以同時利用的節點也越多。節點多帶來的信息量增益可以在不消耗更多時間的前提下使識別的后驗概率更快達到閾值, 從而表現出更好的整字識別績效。這種并行加工的特性, 高效利用了節點提供的筆畫分割信息, 從而更容易找到包容所有節點的整字產生方式。這符合前人發現的視覺系統可以對單一刺激維度的多個項目做并行加工的特性(Cave & Wolfe, 1990; Treisman &Gelade, 1980; Treisman, 1982)。該特性使視覺系統在整字范圍內搜索和提取線段交錯點, 進而利用冗余節點提供的信息促進整字識別。圖形識別的相關研究也支持冗余信息量的促進效應: 中等復雜度的圖形因其具有相對更高的冗余度, 識別速度比簡單圖形更快(Lockhead & Pomerantz, 1991)。
本研究發現, 節點是視覺系統加工漢字刺激的重要特征, 掩蓋節點會對合體字的識別產生干擾。先前曾有漢字節點的相關研究發現, 掩蓋節點后整字識別的正確率降低, 反應時增加, 提示漢字節點可能是類似物體輪廓線交點的關鍵特征(駱非凡,2020)。然而該研究未涉及節點的信息量內涵。拼音文字相關研究的結果與之類似: 有實驗采用掩蔽啟動范式, 發現包含筆畫節點特征的啟動刺激會促進被試對英文字母的命名(Petit & Grainger, 2002);另有實驗發現, 去除英文字母中線段的節點比掩蓋線段中間部分對字母命名造成的干擾更大(Lanthier et al., 2009)。一些研究認為, 圖像中輪廓線條的節點不單在字符識別中起作用, 對客體識別均有重要意義(Dehaene et al., 2005; Dehaene, 2009)。例如, 掩蓋物體輪廓線的交點比掩蓋輪廓線的中點對識別的干擾更大(Biederman, 1987), 保留輪廓線交點的圖形命名正確率更高(Szwed et al., 2011)。以上證據表明, 節點在客體識別中廣泛發揮作用, 這意味著節點可能是客體識別的一種通用特征。
節點在字符識別中的作用可能來源于視覺系統早期已具備的客體識別機制。神經回路回收假設(Neuronal recycling hypothesis)認為, 在進化早期,人類的文字閱讀能力并不存在先天的專門功能區,而是重塑功能較為適合的、但原本用于其他功能的腦區, 使之適應文字閱讀這一新功能(Dehaene et al.,2005)。節點之所以在字符識別中起重要作用, 是源于人類對物體的識別依賴于節點。該假說獲得了實證研究的支持: 有研究分別以掩蓋和保留線段節點的字母、物體作為實驗材料, 發現被試觀看時保留節點的材料時梭狀回激活程度更高(Szwed et al.,2011); 另有研究發現, 恒河猴顳下皮層的部分神經元會對含有線段節點的圖形產生明顯的響應(Brincat & Connor, 2004)。此外, 從文字符號產生的歷史看, 大多數文明使用的文字符號均是線條的排布組合(Changizi et al., 2006)。這些文字系統以這一形式誕生, 可能是視覺系統已經具備了編碼這些圖形的能力, 因此選擇這些圖形來創造文字系統。總之, 漢字識別中的節點特征加工機制可能源于客體識別的相應機制。
本研究驗證了節點數量效應和節點復雜度效應, 其結果僅為產生式識別過程的早期階段提供了證據。識別系統后續會利用先驗的筆畫關系知識,從多種筆畫拆分方案中推斷哪一種最可能產生當前的輸入字。根據貝葉斯規劃學習模型的計算特性預測, 上述識別過程還會表現出筆畫概率自主學習效應和高頻筆畫組合優勢效應。
筆畫概率自主學習效應即實現概率推斷的前提是識別系統具備筆畫概率自主學習模塊, 筆畫關系概率知識可以通過對字符樣例的統計學習自主掌握。一些研究為上述預測提供了支持: 有實驗發現整字中同一筆畫所占的比例可以作為正字法知識通過內隱學習獲得(王菲, 2015); 另有研究在高強度練習和正確反饋條件下, 發現在完成筆畫維度特征分類任務時內隱學習有效(侯偉康, 奏啟庚,1996)。以上結果說明存在專門學習筆畫相關概率的認知模塊。
高頻筆畫組合優勢效應是指由于高頻率的筆畫組合具有較高的先驗概率, 識別系統面對含有高頻筆畫組合的字有計算優勢。已有大量研究支持漢字家族的促進效應, 形旁構字能力大的漢字更容易被辨認(張積家, 姜敏敏, 2008; Su & Weekes, 2007),特別是促進高頻字的識別, 同時抑制低頻字的識別(錢怡 等, 2015)。上述結果說明高頻的筆畫組合具有促進效應。可見, 現有研究一定程度為產生式識別過程的后期階段提供了佐證。
本研究也表明, 合體字的字形識別建立在獨體字識別的產生式過程之上, 筆畫是合體字加工的層次之一。一些研究認為部件是合體字識別的基本單元, 其作用主要表現在部件數、部件頻率、部件位置、部件類型等維度(韓布新, 1998; 張積家, 姜敏敏, 2008; Chen & Yeh, 2017)。實驗2 和3 發現掩蓋合體字中復雜節點比掩蓋簡單節點對整字識別產生的干擾更大, 說明節點在合體字識別中同樣發揮作用, 經節點拆分出的筆畫也是合體字識別所需的表征單元。上述結果支持筆畫和部件均是合體字加工單元的理論, 且符合大多數經典模型(羅艷琳 等,2008; 彭聃齡, 王春茂, 1997; 閆國利 等, 2013;Taft & Zhu, 1997)。近期有研究發現, 部件間具有層級關系(張瑞, 2017), 合體字的識別可能是先依據獨體字識別的產生式過程識別出淺層級的部件, 然后以同樣的過程識別出深層級的部件(沈模衛 等,1997, 1998)。本研究主要關注筆畫拆分過程, 未能闡釋部件如何參與識別過程, 未來可以依托產生式思想展開探索, 以建立系統的漢字字形識別模型。
作為模擬人類認知過程的計算模型, 字形識別產生式過程反映了人類智能擁有組成性、因果關系和自學習三種特性(Lake et al., 2015), 分別對應于:(1)計算主體對漢字的表征具有層級結構。筆畫構成了整字, 整字可以由節點拆解為筆畫; (2)筆畫之間存在因果聯系。兩個連續筆畫之間具有共同出現的概率和具備特定空間關系的概率, 前一筆畫不僅規定了后一筆畫可能是什么, 也規定了后一筆畫可能的空間位置, 后一筆是前一筆的“果”; (3)計算主體可以從字符中學習到筆畫關系的概率分布, 并根據觀察到的新樣本更新已有先驗。這三種特性使人類可以實現基于少量樣本的學習, 大幅壓縮計算空間,從而表現出人類智能相對于當前人工智能的優越性(唐寧 等, 2018)。
本研究發現漢字包含的節點數量越多, 整字越容易識別, 且被掩蓋的節點越復雜, 對整字識別的干擾越大。說明視覺系統以并行加工方式按照線段節點分離筆畫, 筆畫表征的獲得依賴于節點提供的筆畫分離信息, 信息越豐富整字識別績效越好。研究增進了對漢字字形識別早期視覺過程的認識, 為字形識別產生式過程提供了證據。