陳 飛 張 昊 王士元 彭 剛,3
1香港理工大學中文及雙語學系 香港 九龍 2上海交通大學外國語學院 上海 200240 3中國科學院深圳先進技術研究院 廣東 深圳 518055
提要 為了探討元音內部的固有共振峰信息對元音感知的影響,文章采用范疇感知研究范式中的辨認和區分測試,考察普通話母語者對于普通話單元音之間(/i/-/a/)、前響雙元音和單元音之間(/ai/-/a/)以及后響雙元音和單元音之間(/ia/-/a/)的刺激連續統感知情況。結果表明:當不同元音之間(單元音與單元音)內部的共振峰曲線在走向上處于相對穩態時,其感知的范疇化程度較低;相反,當不同元音之間(復合元音與單元音)內部的共振峰曲線在走向上存在著相對動態變化時,其感知的范疇化程度則會顯著提高。結合文獻中有關其他音位范疇化感知的現有研究,文章還進一步總結了影響音位感知范疇化程度的多種內部和外部因素,并提出了在行為學和腦電研究中衡量音位感知范疇化程度高低的客觀量化指標。
范疇化是認知科學研究中的一個焦點,是指大腦通過感知器官對實物和現象的突出特征進行遴選和歸納,并利用認知符號系統加以分門別類,將紛繁復雜的外部刺激轉化為范疇化的信息。范疇化感知(categorical perception, CP)現象廣泛地存在于人們感知外部世界的多種模態,視覺上的范疇化感知現象已被眾多學者所論述,比如基于視覺感知對不同顏色(Bornstein et al.1976)或者對面部表情(etcoff & Magee 1992)的分類。在聽覺領域,人們同樣傾向于將無限多樣的語音信號歸納為有限的類別,將連續的語音變化感知為離散的音位范疇(王士元和彭剛 2007)。有研究證明,剛出生不久的嬰兒就能對一些語音對立表現出范疇化知覺(eimas et al.1971; Werker & Tees 1984),并且這種言語范疇性知覺會隨著兒童年齡的增長、母語語言經驗的豐富而逐漸完善和成熟(席潔等 2009;Chen et al.2017),從而幫助人們準確理解語音信號所傳達的信息,提升日常言語交際的效率。
言語感知的范疇性體現為人類對連續物理屬性的非連續性感知,語音刺激連續統被感知為離散的、數量有限的語音范疇,即音位;聽話者對范疇間(between category)語音差異比對范疇內(within category)語音差異的感知敏感得多。對語音范疇化感知的研究最早可追溯到二十世紀五十年代,Liberman et al.(1957)通過修改英語濁塞音/b/、/d/、/g/后接元音/e/時在F2維度上共振峰過渡音征(formant transition)(吳宗濟和林茂燦 2014:140)的起始位置,等步長合成出從/b/經/d/并最終到/g/的語音連續統,并首次提出了包括辨認任務(identification task)和區分任務(discrimination task)的研究語音范疇感知的行為學研究范式。另外,他們將語音范疇化感知的主要特點概括如下:1)在辨認實驗中,辨認曲線在不同語音范疇的邊界位置附近有陡峭的上升或下降;2)在區分實驗中,區分正確率曲線有一個突起的峰值;3)辨認曲線的邊界位置與區分曲線的峰值位置相對應,即“峰界對應”。如果滿足了這三個標準,則說明語音感知是范疇性的;反之,則屬于連續型感知(continuous perception)類型,也就意味著兩個語音間沒有明確的感知邊界。Liberman et al.(1957)的研究為語音范疇化感知研究奠定了重要的方法論及理論基礎。其后,從辨認實驗和區分實驗兩種心理語音學任務模式出發,探討語音范疇表征的心理機制,成為語音范疇化知覺實驗研究的經典范式。
語音中的輔音感知呈現出了非常典型的范疇化感知特征(Liberman et al.1957;Liberman et al.1961;Miller & eimas 1977)。然而,以共振峰(formant)為主要聲學線索的元音感知是否為范疇感知,在學界一直還沒有定論。Fry et al.(1962)最早運用范疇感知實驗范式,探討了英語單元音/i/、/ε/、//的聽覺感知,通過改變英語元音的F1、F2這兩條共振峰,等步長合成由元音/i/經/ε/并最終到//的包括13個語音刺激的連續統,相鄰兩個語音刺激間有等量的共振峰參數差異。感知結果顯示,元音辨認曲線的陡峭程度并不如濁塞音/b/、/d/、/g/那么高,從一個元音范疇到另一個元音范疇的轉變更像是漸變而非突變;在區分實驗中,被試對各個元音刺激音對的區分正確率普遍較高,而且沒有表現出顯著的區分峰值,因而也就缺乏所謂的“峰界對應”。Fry et al.(1962)將元音的這種感知類型定義為“連續感知”,以同塞音的“范疇感知”相區別,并且認為元、輔音在感知模式上存在差異的主要原因在于各元音和輔音在發音時的連續性程度不同,這種觀點后來得到了Liberman et al.(1967)所提出的“肌動理論”(motor theory)的支持。
然而,有一些學者后來發現單元音的感知也具有類似范疇性感知的特點,如Studdert-Kennedy(1976)報道的一項研究表明,對“輔元輔”音節結構(CVC)中的單元音和相應的孤立單元音(V)音節分別作辨認和區分測試,發現CVC音節結構中的單元音感知的范疇性特點相對而言更為明顯。還有一些學者直接比較孤立單元音感知和在外部語境影響下的單元音感知的不同,認為語境中單元音感知的范疇化程度更高(Repp et al.1979; Healy & Repp 1982)。另外,Pisoni(1975)指出,元音感知在某些特定的任務模式(如ABX區分設計)或語境因素影響下會呈現出某些范疇化感知的特點,但這源于特定區分任務或語境阻礙了區分實驗中對聽覺聲學信息的檢索,使得范疇內刺激對的區分正確率下降。Cowan & Morse(1986)認為對范疇內和范疇間語音刺激對的區分并非僅僅分別依賴聽覺記憶(auditory memory)或語音記憶(phonetic memory)那么簡單,并且重點探討了區分實驗設計中的元音次序效應(vowel order effect)的影響。除了從上述語境、區分任務設計等因素探討元音范疇化感知問題以外,還有一些學者從共時層面著手,探討母語經驗對元音感知范疇化程度的影響(Stevens et al.1969;Zhang et al.2016)??傊?,雖然在特定外在因素(如受語境影響或者在特定的區分任務)的影響之下,母語者對單元音感知呈現出一定的類似于范疇化感知的模式(categorical-like perception),但是參照Liberman et al.(1957)歸納的音位感知范疇化的基本特征,我們發現:這種感知結果的范疇性特征并不是完全充足。后人(Hallé et al.2004)進一步把這種新的感知類型定義為“類范疇型感知”(quasi-categorical perception)。
目前有關普通話元音的感知研究相對比較薄弱,研究成果也比較少。Cheung(2004)對漢語普通話中具有鮮明特色的兩個舌尖單元音//、//進行了范疇化感知研究。實驗結果顯示 F3 是普通話的兩個舌尖單元音//、//聽辨中最為重要的感知線索,對舌尖單元音的辨認和區分需要操控 F3 才能實現,F2 在兩個舌尖元音的聽辨中只起輔助作用。Cheung(2004)認為,母語者對于普通話舌尖單元音的感知也是介于“范疇感知”和“連續感知”之間的第三種感知類型,即“類范疇型感知”。最近,相關學者(劉掌才等 2016)對普通話中的一級元音感知進行了探索,他們不再去論證普通話單元音的感知是否是“范疇化”感知的問題,而是分析辨認邊界位置得出了各相鄰單元音的聽感分界,并在此基礎上大致勾畫出了普通話基礎元音的聽感格局,通過與其聲學格局的對比,發現了它們在空間分布上的一致性關系。
總之,以往元音感知的研究大都關注于受外部因素影響下(如語境因素、區分實驗設計或者聽者的語言經驗),對單元音感知在屬性上是 “范疇型”“類范疇型”或是“連續型”的鑒別,而針對元音內部的固有共振峰信息對于元音感知范疇化程度高低的影響,卻鮮有學者關注。一般而言,單元音的共振峰的走向隨著時間改變并不會發生太大的變化,我們稱之為穩態特征(steady-state property),而復合元音的前幾條共振峰的走向則會發生漸變或者突變,我們稱之為動態屬性(dynamic property)。元音內部的固有共振峰屬性對感知結果的影響,反映的是一種普遍性的感知模式,即對元音共振峰相對穩態vs.相對動態的感知模式,探討這類問題對于進一步了解人類的普遍認知和感知機制具有重要的理論意義。然而,目前有關元音感知的研究均著眼于共振峰處于穩態的單元音感知,且相關研究結果均表明穩態單元音感知的范疇化程度偏低。雖然有研究者(Nearey 1989)已經提出過這樣的假設:元音的穩態特征,如單元音中的穩態共振峰是元音聽辨的重要聲學線索,另外一些元音固有的動態屬性,比如復合元音中共振峰的動態改變也可能會對元音感知產生重要影響。但是,到目前為止尚未有實證研究去探討有關復合元音的范疇化感知問題,并與單元音之間的感知范疇化程度高低進行對比。
范疇化感知考察的是不同音位之間的感知情況,不同單元音之間的共振峰曲線在其走向上相對而言是一致的、穩態的;而復合元音與單元音之間在其共振峰曲線的走向上相對而言是不一致的、動態的。本研究采用范疇感知研究的經典行為學范式,通過探討普通話中單元音之間(/i/-/a/)、前響雙元音和單元音之間(/ai/-/a/)、后響雙元音和單元音之間(/ia/-/a/)的范疇化感知的表現,對比不同類別元音內部共振峰信息的穩態與動態屬性的差異在元音聽感上的差異表現,從而探究元音內部共振峰曲線在走向上的相對穩態(單元音之間)和相對動態變化(復合元音與單元音)對于元音感知的影響。我們提出這樣的實驗假設:單元音之間的感知范疇化程度不足(文獻已證明),而復合元音與單元音在共振峰走向上的相對動態變化模式會使得其感知的范疇化程度得到提高。更進一步,我們綜合其他音位感知的相關研究成果,探討音位本身所固有的內部頻率信息會如何影響音位感知范疇化程度的高低。
本研究所招募的被試是來自某研究院的17名在讀碩士研究生(9男8女),平均年齡為23.32歲(標準差=2.37)。所有被試均為普通話母語者,且來自北方方言區,視聽能力正常,非語言學、心理學專業學生, 無閱讀、聽力障礙與口咽部疾病,均沒有接受過正規音樂訓練。被試均為自愿參與,實驗前簽署了知情同意書,在安靜的語音實驗室中完成實驗任務,并得到一份禮品作為報酬。
當我們發復合元音時,口腔和舌頭從一個元音滑到另一個元音的位置上去,兩個(或三個)元音成分的分量往往不相等,其中有一個往往特別顯著,被稱為韻腹。由于普通話的復合元音屬于假性復合元音(吳宗濟和林茂燦 2014),對于其二合元音而言,按他們在元音成分分量上的差別又可以分為前響二合元音和后響二合元音。其中前響二合元音的韻腹在前、韻尾在后,如普通話中的/ai/、/ei/、/ao/、/ou/;后響二合元音的韻頭在前、韻腹在后,如普通話中的/ia/、/ie/、/ua/、/uo/、/ye/。從元音的共振峰模式上看,后響二合元音的后一元音成分(韻腹部分)普遍存在著較長穩定段;然而,對于前響二合元音的共振峰模式存在爭議,王萍(2008)通過大樣本分析了52位北京人的發音語料,歸納了普通話前響二合元音的兩種主要類型:一種是韻腹部分先有較長的共振峰穩定段,后面緊接著斜率較大的韻尾過渡段;另外一種是韻腹部分共振峰先會有緩慢變化的過程,后面再連接斜率較大的過渡段。在本實驗中,我們將選取前響二合元音中的前一種共振峰模式作為參照,以保持前響、后響二合元音在共振峰模式上的相對統一。
我們將選取普通話元音系統中的單元音/i/、/a/以及前響二合元音/ai/、后響二合元音/ia/作為語音材料。由于/i/、/a/均屬于普通話頂點元音,且其組合的兩個前響和后響二合元音在普通話音節或者音節成分中的出現頻率很高,從而在一定程度上排除了發音頻次等自上而下的加工信息對于感知結果的影響。在本實驗中,這些單元音和復合元音均將獨立作為普通話零聲母音節的感知材料,且負載聲調統一為高平調(即普通話音節“衣、啊、哀、鴨”),以排除輔音聲母、韻尾、聲調等其他因素對元音感知結果的影響。另外,石鋒(1983)指出在自然發音時,漢語音節內部在時長上存在著補償調節作用,以保證各個音節的發音時長不至于相差太大。因此,本實驗中的單元音音節和雙元音音節在總時長上是保持一致的(見下頁圖1)。此外,曹劍芬和楊順安(1984)通過聲學測量得出:普通話中所有二合元音韻腹與韻尾、韻腹和韻頭的時長比值的平均值約為6∶4;而吳燕萍(2008)的研究進一步表明,當二合元音中的韻腹由低元音/a/來充當時,韻腹部分/a/所占時長比例會顯著變高,最高時可達7∶3。因此,本研究中將二合元音中(/ai/、/ia/)的韻腹和韻尾、韻腹和韻頭的時長比例統一定為一個適中值2∶1,如下頁圖1所示(圖中11號刺激均為典型的單元音/a/)。
由于元音的前三條共振峰是其聽辨的最重要物理線索(Ladefoged & Broadbent 1957;Liberman et al.1967),因此我們修改了元音的F1、F2、F3的值,共合成了三套語音刺激連續統:/i/-/a/單元音間的刺激連續統、/ai/-/a/前響雙元音和單元音的刺激連續統、/ia/-/a/后響雙元音和單元音的刺激連續統(見下頁圖1)。三套刺激連續統中的各個元音刺激都是借助Praat軟件下(Boersma & Weenink 2009)Akustyk程序包里的 “Create Continuum”命令來實現(Plichta 2012),除操控變量F1、F2、F3外,其他聲學參數(F4、F5、基頻值、音強等)均保持一致,以排除這些變量的影響,共合成了從/i/到/a/、從/ai/到/a/、從/ia/到/a/的三套連續統。所有語音刺激的音強均為72 dB, 音長均統一為270ms。F1、F2、F3維度分別以63Hz、73Hz、70Hz為一個步長,每套刺激連續統下均合成了11個語音刺激。其中,三套刺激連續統中的11號刺激均為典型的單元音/a/;/i/-/a/連續統中的1號刺激是典型的單元音/i/;/ai/-/a/連續統中的1號刺激是典型的前響雙元音/ai/;/ia/-/a/連續統中的1號刺激是典型的后響雙元音/ia/。這些典型的單元音和雙元音刺激的語音頻譜圖如下頁圖2所示(圖中紅色虛線為共振峰曲線,各圖中從下至上的三條分別為F1、F2、F3),在聽感上均比較自然。

圖 1 /i/-/a/組、/ai/-/a/組、/ia/-/a/組的刺激連續統

圖2單元音/i/、/a/和雙元音/ai/、/ia/的頻譜圖
實驗通過e-prime軟件實現,利用筆記本電腦呈現語音刺激和探測界面,實驗采用范疇感知經典行為學范式,包括辨認實驗和區分實驗,每位被試均需參與并完成這兩部分測試。正式實驗開始前有練習環節,確保被試理解實驗任務并熟悉按鍵。
辨認測試:每次呈現一個語音刺激后,就要求被試根據所聽到的刺激音,盡量迅速地按鍵反應。按照刺激連續統的不同分為三個辨認單元:如果判斷為/a/,按鍵盤上的數字1鍵;如果判斷為/i/、/ai/或者/ia/,則按數字2鍵。每個語音刺激重復10次,以隨機順序呈現,每個被試共計需完成330個辨認任務(11個刺激×10次重復×3個單元)。三個辨認單元以亂序形式在被試之間實現。在完成一定量的辨認任務后,被試會有足夠的休息時間。每個被試完成整個辨認測試共需要25分鐘左右。
區分測試:采取AX區分任務模式,由兩個屬于同一連續統的語音刺激組合成一個刺激對的形式呈現。刺激對的內部時間間隔(ISI)為500ms,每個連續統下均包含了29個區分刺激對,即18個間隔為2個步長的不同刺激對(9個順序刺激對:1-3,2-4,……,8-10, 9-11等和9個逆序刺激對:3-1, 4-2,……,10-8, 11-9等)與11個相同刺激對(1-1, 2-2,……,10-10,11-11)。要求被試盡快判斷其所聽到的一對刺激是相同還是不同:若相同,按“V”鍵;不同則按“N”鍵。按照刺激連續統的不同分為三個區分單元,每個刺激對重復7次,以隨機順序呈現,每個被試共需完成609個區分任務(29個刺激對×7次重復×3個單元)。三個區分單元之間的順序在被試之間實現亂序。在完成一定量的區分任務后,被試會有足夠的休息時間。每個被試完成整個區分測試共需大約45分鐘。
計算出共17位被試的感知數據,包括辨認邊界位置、辨認邊界寬度以及區分正確率(包括范疇內和范疇間區分正確率)。
辨認邊界位置與邊界寬度:邊界位置是指兩個辨認函數的曲線在辨認率達到50%處(即兩條曲線的交點處)所對應的刺激序號值;邊界寬度是指辨認率為25%與75%間的線性距離, 這個數值由概率分析中的均值與標準差決定(Peng et al.2010)。邊界寬度越窄,表明在邊界附近從一個音位范疇到另一個音位范疇變化的速率越快。本實驗中邊界位置與邊界寬度均采用Probit分析擬合(Finney 1971)得到。
區分正確率:采用了Xu et al.(2006)提出的計算公式。我們把所有的區分刺激對重新劃分為九組,每組中均包括四種類型的刺激對形式,即AA、BB、AB、BA,比如2-4組包含了2-2、4-4、2-4和4-2這四種刺激對。相鄰的組會包含重疊的AA或者BB刺激(比如4-4刺激對同時存在于2-4組和4-6組中)。對于每組的區分正確率P值的計算方法為:
P=P(‘S’/S)×P(S)+P(‘D’/D)×P(D)
式中,P(‘S’/S)代表了被試在聽到相同刺激對后,做出“相同”判斷的百分比;P(‘D’/D)代表了被試在聽到不同刺激對后,做出“不同”判斷的百分比。P(S)代表在每組內相同刺激對占所有刺激對的百分比,P(D)代表在每組內不同刺激對占所有刺激對的百分比。在本實驗中,P(S)和P(D)均為50%。
范疇內與范疇間區分正確率:基于每一個被試的具體辨認邊界位置,我們又進一步把區分測試中九組的區分正確率二分為范疇內和范疇間區分正確率(具體方法參看Chen et al.2017)。比如對于某一個被試而言,其辨認邊界位置為5.8,那么跨過該邊界位置的兩組區分組(4-6組和5-7組)的區分正確率平均值即為該被試的范疇間區分正確率,其余七組的區分正確率的平均值即為該被試的范疇內區分正確率。
三套刺激連續統下(/i/-/a/組、/ai/-/a/組、/ia/-/a/組)的平均辨認和區分曲線如下頁圖3所示,可以直觀地看到,對于單元音/i/-/a/組的刺激連續統,辨認曲線在交點附近的變化相對較為平緩,區分曲線雖然整體正確率較高,但是有較大的波動和起伏,并且沒有在辨認邊界附近呈現明顯的凸起峰值;而對于雙元音與單元音/ai/-/a/組以及/ia/-/a/組的刺激連續統,辨認曲線在交點附近呈現相對陡峭的上升或下降,且區分曲線在邊界位置附近有一個明顯凸起的區分峰值。

圖 3 三套連續統的辨認、區分曲線圖
通過概率分析得到的所有被試的辨認邊界位置和邊界寬度的平均值以及標準差如表1所示:
表1 三套連續統下的邊界位置與邊界寬度

刺激連續統邊界位置邊界寬度平均值標準差平均值標準差/i/-/a/6.141.461.910.91/ai/-/a/7.201.011.320.45/ia/-/a/5.980.991.310.54
單因素重復測量方差分析的結果表明:/i/-/a/、/ai/-/a/、/ia/-/a/三組刺激連續統的邊界位置主效應顯著,F(2,32)=5.52, p < 0.01, ηp2=0.26。進一步的Tukey多重比較發現,/ai/-/a/組的邊界位置(7.20)相對于/ia/-/a/組的邊界位置(5.98)發生了明顯后移(p<0.01)。另外,/i/-/a/、/ai/-/a/、/ia/-/a/三組刺激連續統的邊界寬度主效應顯著,F(2,32)=5.94,p<0.01,ηp2=0.27。這三組刺激連續統的邊界寬度箱線圖如圖4 (圖中盒子中的粗黑線代表中位數)所示。Tukey多重比較結果顯示,其中/ai/-/a/組的邊界寬度(1.32)和/ia/-/a/組的邊界寬度(1.31)相對于單元音組/i/-/a/(1.91)都明顯更窄(ps<0.05),這說明在邊界位置附近,雙元音與單元音組的辨認曲線的變化速率更快,因此范疇化特點更強。

圖 4 三套連續統下的邊界寬度箱線圖
被試對于感知/i/-/a/、/ai/-/a/、/ia/-/a/三組刺激連續統的范疇內和范疇間區分正確率如圖5所示。我們進行了3(三套刺激連續統)× 2(范疇內與范疇間兩種區分類別)兩因素重復測量方差分析,選用格林豪斯-蓋斯爾檢驗矯正結果(Greenhouse-Geisser correction)。統計結果表明,不同的刺激連續統具有主效應,F(2,32) =59.16,p<0.001,ηp2=0.79;區分類別也具有主效應,F(1,16)=36.89,p<0.001,ηp2=0.69;另外,刺激連續統與區分類別具有顯著的交互效應,F(2,32)=19.75,p<0.001,ηp2=0.55。

圖 5 三套連續統下的范疇內與范疇間區分正確率
鑒于交互效應的產生,我們又分別對/i/-/a/、/ai/-/a/、/ia/-/a/三組刺激連續統下的范疇內與范疇間的區分正確率進行了簡單主效應(simple main effect)分析。在單元音/i/-/a/組的連續統中,范疇內區分正確率(81.67%)和范疇間區分正確率(83.56%)沒有顯著差異,F(1,16)=0.53, p=0.48。然而,在前響雙元音與單元音/ai/-/a/組的連續統中,其范疇間的區分正確率(73.94%)要明顯高于范疇內的區分正確率(57.01%),F(1,16)=74.09, p<0.001;對于后響雙元音與單元音/ia/-/a/組的連續統,其范疇間的區分正確率(71.55%)也要明顯高于范疇內的區分正確率(61.14%),F(1,16)=37.21,p<0.001。
為了探討元音內部共振峰信息的相對穩態和動態變化對于元音感知的影響,我們考察了普通話母語者對于單元音之間(/i/-/a/組)、前響雙元音和單元音之間(/ai/-/a/組)、后響雙元音和單元音之間(/ia/-/a/組)的辨認和區分測試表現,這些前響、后響復合元音的內部共振峰的大小和走向在韻尾、韻頭部分都存在著動態的變化。依據Liberman et al.(1957)提出的語音范疇化感知的基本特征,我們發現,普通話單元音之間(/i/-/a/組)感知的范疇化程度較低,具體體現為:/i/-/a/組在辨認測試中的邊界寬度較寬,即邊界位置附近辨認曲線的變化相對比較緩慢,并沒有呈現陡升或陡降的特點;其次,/i/-/a/組的區分正確率曲線的波動和起伏較大,并且范疇內和范疇間的區分正確率無顯著差異。相比較而言,普通話雙元音與單元音之間(/ai/-/a/組、/ia/-/a/組)感知的范疇化程度較高,具體體現為:/ai/-/a/組和/ia/-/a/組的辨認邊界寬度都更窄,即邊界位置附近辨認曲線的變化呈現出了陡升或陡降的特點;其次,/ai/-/a/組和/ia/-/a/組的區分正確率曲線都在邊界位置附近存在一個明顯凸起的峰值,且同等聲學差異下的范疇間的區分正確率要顯著高于范疇內的區分正確率。因此,普通話雙元音和單元音之間的感知表現出了典型的范疇化感知的特征,雙元音與單元音之間共振峰信息在曲線走向上的相對動態變化使得感知的范疇化程度有了顯著的提高。
本實驗研究結果表明,當不同元音之間(單元音與單元音)內部的共振峰走向處于相對穩態時,其感知的范疇化程度較低;相反,當不同元音之間(雙元音與單元音)內部的共振峰走向相對而言存在著顯著的動態變化時,其感知的范疇化程度會得到顯著地提高,表現出了典型的范疇化感知特點。另外需要注意的是,本研究中單元音組中的相鄰刺激之間的共振峰平均大小差異,實際上是大于雙元音與單元音組相鄰刺激的共振峰平均大小差異的(見圖1)。因此,共振峰信息在走向上的相對動態變化而非共振峰的大小差異,才是影響感知結果的關鍵決定性因素。元音之間內部共振峰在走向上的相對變化與否,會對其感知的范疇化程度的高低產生非常重要的影響。
與此類似,基頻信息F0才是決定聲調的最重要的內部物理因素,相關文獻中有關聲調感知屬于范疇型感知類型的判斷,均來自不同調形(基頻走向)的聲調刺激對。一系列研究證明了普通話母語者對于陰平和陽平、陰平和去聲、陽平和去聲、上聲和去聲之間的聲調感知呈現出行為學上的范疇化感知特征(Wang 1976; Xu et al.2006; Peng et al.2010; 榮蓉2013; Chen et al.2017)。學界在后來的研究中發現了其他漢語方言聲調(Francis et al.2003; 高云峰 2004)、藏語聲調(孔江平 1995)感知的范疇化現象。另外,借助于事件相關電位(event-related potential, eRP, 如Xi et al.2010; Zheng et al.2012; Zhang et al.2012)以及功能性磁共振成像(functional MRI, fMRI,如Zhang et al.2011)等技術,相關研究進一步揭示了普通話陰平和陽平、陽平和去聲之間聲調范疇化感知的大腦生理基礎和神經機制。Wang(1967)進一步指出,聲調中的曲折特征(contour feature)屬于一種動態屬性。然而,在有關平調之間或者其他調形相似的聲調感知研究卻得出了不一樣的結論:平調之間的感知類型是連續型的(Abramson 1979; Francis et al.2003),甚至于調型相似的聲調對之間的感知在區分曲線上也沒有呈現出典型的范疇性特點(王韞佳和李美京 2010;王韞佳和覃夕航 2015)。雖然后來有些學者在其研究中發現了廣州話和東海話中平調之間的感知(金健 2010)或者相似調形聲調的感知(陰平和上聲,該實驗中“上聲”被設計為“低平調”)(榮蓉和石鋒 2013)呈現出了范疇型或類范疇型的特征,但值得注意的是,他們都把目標聲調置于負載句或是有意義的詞語中,并不是經典范疇感知實驗范式中的孤立音節感知,所以對目標聲調的感知結果必定受到了前后語境的影響,語境中的基頻信息的參照作用可能使得目標聲調的感知更加清晰。因此,通過對比、總結可以發現,在沒有語境因素參與的孤立音節單字調感知的條件下,導致聲調感知的范疇型與連續型不同結果產生的原因很可能在于:前者使用的聲調對材料包括了聲調之間調形的相對改變,而后者使用的聲調對的調形相似。因此,二種不同感知結果可能是由于使用的聲調材料在“基頻模式”或者“基頻走向”上的差異所引起的。
綜上所述,音位之間的范疇化感知的相關研究結果表明,當音位內部起決定性作用的頻率信息在走向上處于相對穩態時(如聲調間調形的相對一致、單元音共振峰的相對穩態特征),其不同音位之間感知的范疇化程度較低;相反,當音位內部起決定性作用的頻率信息在走向上處于相對動態變化時(如塞音的過渡音征變化、曲折調在基頻走向上的相對改變、復合元音共振峰的動態變化),其不同音位之間感知的范疇化程度則會較高。另外,除了頻率外,音位的內部時長因素也會對其感知范疇化程度的高低產生影響,比如Pisoni(1973)的一項研究對比了在/i/-/I/ 刺激時長的長(300ms)和短(50ms)兩種條件下元音刺激連續統的聽辨結果,發現在元音時長較短時,承載刺激對間聲學差異的聽覺信息(auditory information)的呈現時間會相應變短,使得區分范疇內刺激對差異所主要依賴的聽覺記憶(auditory memory)變得模糊,進而造成范疇內刺激音對區分正確率的下降;而區分范疇間刺激音對所主要依賴的語音記憶(phonetic memory)相對穩定,因此范疇間刺激對的區分正確率不會因時長變短而發生顯著變化,從而范疇間刺激對的區分峰值相對而言會也更為顯著,因此時長較短的元音感知的范疇化程度更高。另外,Gerrits & Schouten(2004)認為在連續語流中,由于元音發音時長縮短,元音感知線索呈現時間隨之縮短,聲譜編碼更為復雜,使得元音的感知更具范疇性特征。當然,關于音位內部時長因素及其與頻率因素的交互作用對音位感知范疇化程度的影響,還需要更多的研究去進一步探討和論證。
有學者(劉掌才等 2016)非常明確地指出,無論是作為音段音位的元、輔音,還是作為超音段音位的聲調,一個音位本身就應該是一個范疇,該音位的所有自由變體和條件變體即為范疇的成員。語音的聽覺格局和語音的聲學特征的確應該存在一定的對應性,特定的音位在發音人的語言系統中能夠區別意義,在某種意義上它們就應該是范疇化感知的。如此說來,對語言中的聲調、輔音,甚至是元音的感知在本質上都應屬于“范疇化感知”類型,只不過人們對不同音位感知的范疇化程度有高有低,各種內部、外部因素均會直接或者間接影響到音位感知的范疇化程度的高低。
在上文的一系列討論中已經指出,音位內部的相關時、頻信息,音位外部的語言環境、實驗方法和聽者的語言經驗(跨語言或者跨方言的差異,見Peng et al.2010)都會對音位的范疇化感知產生重要的影響,甚至于失樂癥者(Jiang et al.2012)、自閉癥譜系障礙患者(Chen et al. 2016; Wang et al.2017)等特殊人群對其母語中音位的范疇化感知也都存在著不同程度的缺陷。因此,音位的范疇化感知特征不僅由其物理屬性決定,同樣受制于聽辨人的生理和心理屬性,是由不同的內部、外部因素有機地組合在一起而形成的一個心理上的感知范疇,是一個極其復雜的“多維的感知場”。我們認為,以往的傳統研究中將語音的感知類型截然劃分為“范疇感知”“連續感知”或者“類范疇化感知”,并不能滿足言語感知的實際,在典型的連續型和典型的范疇型感知之間還存在著非常多的中間狀態。感知結果本身就是一個范疇化程度由低到高的連續統,由于Liberman et al.(1957)所提出的范疇化標準只是對感知類型二分的定性分析,因此我們需要在該標準的指導下,發掘在各類不同因素影響下衡量范疇化程度高低的具體量化指標。
音位感知范疇化程度高低的量化研究是近年來范疇感知研究中的新進展,音位感知的范疇化程度越高,表明對不同類別音位的區分度越高。那么,哪些感知參數可以用來客觀衡量音位感知范疇化程度的高低呢?首先,辨認測試中的邊界位置的作用主要在于劃分不同音位類別在聽感上的分界。如本文中的/ai/-/a/組的邊界位置相對于/ia/-/a/組明顯靠后,是由于/ai/-/a/組內部共振峰發生變化的位置在時長后1/3的韻尾部分,而/ia/-/a/組內部共振峰發生變化的位置是在前1/3的韻頭部分。另外,有研究指出,相對于非母語者,成人母語被試的母語經驗并不會改變其音位感知的邊界位置(Peng et al.2010;Xu et al.2006);并且兒童隨著語言經驗的增多,其音位感知的邊界位置也不會發生變化(Chen et al.2017)。因此,我們認為辨認邊界位置并不能作為衡量音位感知范疇化程度高低的有效指標。而對于音位感知范疇化程度的高低,可以使用辨認測試中辨認曲線的斜率(Xu et al.2006)或辨認邊界寬度(Peng et al.2010)等參數來量化體現。邊界寬度(辨認率為25%與75%間的線性距離)著重考察的是邊界位置附近的辨認變化速率,而辨認曲線的斜率則受到了整條辨認曲線的影響。由于Liberman et al.(1957)所提出來的有關衡量范疇化感知的標準中,強調辨認曲線是在不同范疇的“邊界附近”有陡峭的上升或下降,因此,我們認為辨認邊界寬度比辨認曲線的斜率更適合作為衡量感知范疇化程度高低的有效客觀指標。另外,在區分測試中,Liberman et al.(1957)強調了在邊界位置附近區分正確率的顯著提高,其實也就意味著“范疇間區分正確率”的重要性。在本實驗中,雖然/i/-/a/組的整體區分正確率相比于其他兩組均偏高,這主要是因為/i/-/a/組中區分刺激對之間在物理(共振峰)參數上差異較大;但是由于/i/-/a/組的區分曲線并沒有在邊界附近出現一個明顯凸起的區分峰值,且范疇間區分正確率并沒有高于范疇內區分正確率,因此其感知的范疇化程度仍然較低;而/ai/-/a/組和/ia/-/a/組的范疇間區分正確率要遠高于其范疇內區分正確率,其感知的范疇化程度較高。因此,在范疇感知行為測試中,辨認邊界寬度越窄、范疇間區分正確率相比于范疇內區分正確率越高,也意味著音位感知的范疇化程度越高;反之,則音位感知的范疇化程度越低。
另外,由于范疇感知的行為測試受限于被試的注意力、認知水平、記憶力等因素,很多年齡偏小的嬰幼兒被試或者患有各類特殊認知障礙的人士并不能有效完成辨認、區分等行為測試。隨著認知神經科學的發展,借助于腦電技術,可以在被試不需要主動注意力的前提下,采集其對不同音位刺激感知的腦電信號,實現對嬰幼兒或者特殊障礙人士分析其范疇化感知能力的可能性。腦電中的eRP是一種特殊的腦誘發電位,是大腦對特定的刺激或事件做出反應的神經電生理體現。Xi et al.(2010)證明在不需要主動注意力的條件下,范疇間音位偏差比范疇內音位偏差能夠引發更明顯的腦電波成分,這說明屬于不同范疇的音位刺激在大腦皮層已經有了生理表征上的顯著差異。且相關研究結果表明,事件相關電位中的失匹配性反應波(Mismatch Responses,MMR)從正向波(Positive Mismatch Response,P-MMR)向負向波(Mismatch Negativity, MMN)的轉換,一方面反映出聲音刺激在物理屬性上的差異由小到大的變化,另一方面可以反映出聽者對刺激差異在感知區分能力上由弱到強的變化(Lee et al.2012)。一般而言,對于不同音位感知的范疇化程度越高,這種失匹配性反應波會傾向于負向波(MMN),并且這種失匹配性負波的幅值會更負,潛伏期會提前;而對于音位感知范疇化程度偏低的聽者而言,這種失匹配性反應波會傾向于正向波(P-MMR)。因此,聽者對于隸屬不同范疇的音位刺激的偏差感知可能在失匹配性反應波的極向、幅值甚至潛伏期上存在差異,這些腦電成分也可以作為衡量音位感知范疇化程度高低的神經生理指標。
本研究考察了元音內在的固有共振峰信息對于元音感知范疇化程度的影響,當不同元音之間(單元音與單元音)內部的共振峰信息在走向上處于相對穩態時,其感知的范疇化程度較低;相反,當不同元音之間(雙元音與單元音)內部的共振峰信息在走向上存在動態變化時,其感知的范疇化程度會得到顯著地提高。結合以往研究中關于聲調范疇化感知的相關結論,我們認為音位之間內部的頻率信息(基頻或者共振峰)在走向上的相對穩態或動態變化會對感知結果產生重要的影響。由于音位感知是受到多種內部、外部因素影響下而形成的一個復雜的感知范疇,我們主張拋棄以往研究中對感知結果“范疇型”或“連續型”的粗略劃分,而應該重點比較受到某種或某些變量影響下的音位感知范疇化程度高低的量化差異。我們還指出,在經典范疇化感知行為測試中所得到的辨認邊界寬度、范疇間與范疇內區分正確率可以作為描寫范疇化程度高低的客觀行為學指標,而事件相關電位中失匹配性反應波在極向、幅值甚至潛伏期上的差異也可以作為衡量音位感知范疇化程度高低的神經生理指標。未來有關音位范疇化感知的研究應該走向定量化、科學化,而本文所總結和提出的有關音位感知范疇化程度的各類影響因素及其衡量指標具有重要的參考和指導意義。