胡公博




摘 要: 根據標記理論,同一語法參數(parameter)內不同選值(value)之間的關系并不是均等的,這種不對稱不僅體現在語言結構中,而且見于語言使用頻率上。Clements (2005)在跨語言對比音系的基礎上提出了十四對區別特征值的標記關系,得到了全球部分語言的語料統計數據支持,然而其信度需要更多的語種驗證。本文在分析漢語語音系統結構的基礎上,利用漢語口語語料庫,對Clements提出的每一對標記關系予以檢驗。研究表明,漢語的音位構成及語料中漢語音位的頻率分布支持Clements標記關系中的十三對,區別特征值的不對等性在漢語中得到充分體現。
關鍵詞: 標記理論 區別特征 語料庫
1.引言
作為語言類型學的核心理論,標記理論指出,同一語法參數內的不同選值間存在系統性的不對稱,也就是說,選值的標記性(markedness)有強弱之分。標記性的強弱有三個指標:蘊含共性、行為潛勢和使用頻率。比如在元音的鼻音性這個參數上有兩個選值:一個元音要么是鼻腔音(即[+鼻音性]),要么是口腔音(即[-鼻音性])。跨語言對比發現一個語言普遍性:一個語言若有鼻腔元音,那么就有口腔元音;但是一個語言若有口腔元音,卻不一定有鼻腔元音(Croft,2003:57)。這一語言共性(稱“蘊含共性”)表明口腔音和鼻腔音地位是不對等的,我們說口腔音的標記性弱于鼻腔音,這一標記關系記作:口腔音<鼻腔音。同時,在世界語言的音位系統中,口腔元音數目幾乎總是大于鼻腔元音,即口腔元音行為潛勢大于鼻腔元音。此外,經統計,在一個含1000個元音的法語文本樣本中,口腔元音頻率高于鼻腔元音,達83.7% (Greenberg,1966)。以上兩點進一步表明口腔音的標記性較弱。
之所以蘊含共性、行為潛勢、使用頻率被稱為標記性的指標,是因為人們提出的標記關系不一定能滿足所有指標。一個被提出的標記關系滿足的指標越多,就越可靠。Clements (2005)在蘊含共性基礎上,根據跨語音位系統對比而提出14個區別特征的標記關系,它們的信度需要接受行為潛勢和使用頻率的檢驗。部分標記關系已得到Greenberg (2005)考察諸種世界語言語料給出的頻率方面的實證支持,然而涉及的語種數目有限,統計方法亦有不足。因此,本研究旨在透過分析漢語音位系統和漢語語料,檢驗Clements的標記關系,并對統計分析頻率的方法作出改善。以類型學視角審視漢語音系的研究多數局限于漢語方言音系系統的結構對比,以得出方言共性(Zee & Lee,2007;時秀娟,2007;葉曉鋒,2011),筆者則結合語料庫進行實證研究。
2.文獻綜述
2.1語言結構中的標記性
判斷14個區別特征的標記關系時,Clements采用的標準是:如果不是所有語言都有A值音位而所有語言都有B值音位,那么B標記性弱于A。事實上,如果兩個值滿足這一指標,那么必然滿足蘊含共性的指標:當所有語言都有B值音位時,有A值音位的語言當然都會有B值音位。根據上述標準,Clements提出如下14個強標記性特征值:
來源: Clements 2005
Greenberg (2005:21) 指出,在世界語言音位系統中,弱標記值音位數目不會少于強標記值音位,即前者行為潛勢不會小于后者。如Ferguson (1963)發現,在各語言中,口腔元音數幾乎總是大于鼻腔元音數,也就是說口腔元音內部對音位有更多的區分,這表明:口腔音<鼻腔音。Clements根據行為潛勢方面的跨語共性提出三個強標記性特征值:
2.2語言使用中的標記性
判定標記性的標準——蘊含共性、行為潛勢——都是語言結構方面的標準。Greenberg (2005:15)提出了一個語言使用方面的標準:弱標記值音位在語言真實使用中有更高的使用頻率。因為頻率是語言使用的重要方面,Greenberg的頻率標準使語言結構與語言使用兩者橋接起來,使標記理論與語言學中的使用模型兼容。使用模型認為,語言使用決定語言結構(Bybee,2006;Bybee & Hopper,2001)。
為支持他的論斷,Greenberg以世界諸種語言的語料為實證證據。比如驗證元音長和短的標記關系時,他搜集了冰島語、梵語、捷克語、匈牙利語、芬蘭語、Karok語六種語言的書面語語料,各語料含1000個元音音位;然后他親自人手統計長元音和短元音在語料中的出現頻次,再轉成百分率。所得結果如下:
來源: Greenberg 2005:20
Greenberg的論證方法不無欠缺。一是語料不夠大,只含1000個音位。二是語料都是書面語而非口語。兩種語體有多方面差異(Brown & Yule,1983:15-17),而口語更能反映語言的使用情況(Croft,2003:112)。三是統計所得頻率差異的顯著性并未進行統計學檢驗。四是考察的語言太少,在地理距離和譜系親疏上不夠離散,難以代表世界上的所有語言。Haspelmath (2005)指,分析更多世界語言樣本的實證研究要有待開展。因此,筆者承繼這樣的實證研究,考察漢語語料,驗證Clements提出的14個標記關系 ,并試圖改良數據統計和分析的方法。
3.研究方法
3.1漢語音位
在對漢語各個音位進行頻率統計前需要確定漢語音位包括哪些。筆者大體上認同Duanmu(2007:24)提出的漢語音位系統,視以下為漢語輔音和元音音位:
漢語輔音音位
漢語單元音音位(不考慮/?鬢/)
3.2數據收集
Da (2004)采用一個包含193,504,018漢字頻次的漢語語料編制了漢語字頻表。該語料雖然足夠大,涵蓋主題多樣,虛構類和非虛構類文本比例較均衡,但全為書面語,所以本研究不予以使用。筆者使用的是Tseng (2004,參見本文附錄1) 根據臺灣普通話口語詞頻表所編制的漢語音節頻率表(不考慮音調)。口語詞頻表技術細節如下:
[……]根據中央研究院現代漢語對話語音語料庫內容所計算出的詞集及詞頻統計。詞頻表包含詞項、詞類、詞頻以及音節頻率等相關統計數據,可以作為在臺灣使用的現代漢語口語常用詞的參考依據。現代漢語對話語音語料庫[……]總計有85個對話,170名發音人,共約42個小時的對話內容。錄制時間為2001至2003年,發音人當時年齡為14至 63歲。聲檔內容經過文字轉寫后,先以中央研究院詞庫小組的自動斷詞系統進行斷詞與詞類標記,最后結果再經過人工檢查詞類,破音字與拼音轉寫,總共有 16,683個詞項,405,435個詞次,607,016個音節。
(Tseng,2004)
3.3 數據處理
Tseng的數據是以電子形式儲存在一個Excel文件中的,筆者以微軟Excel為工具對數據加以操作。因數據中的音節原以拼音形式記寫,首先將拼音轉寫成音位形式,轉寫法則參考Duanmu (2002:319-329)。然后,頻率統計的目標音位所在的音節用Excel的數據分割功能進行篩選、合并。這個過程需要十分細致,確保包含目標音位的音節都被篩選到,不包含目標音位的音節都被篩掉。最后,篩選出來的音節的總數用Excel的求和功能計算,得出的總值即為目標音位的頻率。由于數據由機器而非人手處理,效率和準確度更高。
除/n/和/?耷/外,所有漢語音位只出現在節首:/n/在節首和韻尾都有出現,/?耷/只在韻尾出現。筆者認為統計音位頻率時要區分節首音位和韻尾音位,因為同一音位在不同位置有不同的音系特性,如節首/n/不帶音拍,韻尾/n/卻帶。Bybee (2001:88)指出,傳統認為兩個不同位置上的同一音位可視為兩個不同的音位。因此,為確保所得頻率的可比性,研究只統計節首音位,不統計韻尾/n/和韻尾/?耷/。元音方面,只考慮單元音,因為雙元音音質不守恒。高元音/i,u,y/的統計既包括底層結構中后跟另一元音前的音位,又包括后不跟另一元音的音位,如統計/u/時,/tu/中的/u/和/tuo/中的/u/都考慮在內。
4.結果與討論
先看[±響音性]這個參數上兩個特征值的標記關系。如下表所示,[-響音性]的輔音在Tseng的語料中使用頻率為336,164,占輔音總頻率的65.03%,而[+響音性]的輔音使用頻率為180,787,僅占總頻率34.97%。卡方檢驗表明兩者頻率的差異是極其顯著的(p<.0001)。[-響音性]頻率與[+響音性]頻率的比率為1.86。行為潛勢方面,漢語有14個音位是[-響音性],而只有七個音位是[+響音性],所以[-響音性]行為潛勢大于[+響音性]。并且如果逐一細看每個發音部位上兩種音的音位數對比,則[-響音性]行為潛勢總是大于[+響音性]。[-響音性]音位數與[+響音性]音位數的比率為2.00。結論是,在使用頻率和行為潛勢兩個標記性指標上,漢語的數據都表明[-響音性]標記性弱于[+響音性],這與Clements的判斷吻合。
[-響音性]音位與[+響音性]音位的頻率比較
再看[±展喉性]的標記關系。[+展喉性]有兩種解讀:呼氣聲和送氣。呼氣聲可與常態聲對立,區分出兩類元音。送氣和不送氣的區分只與阻音尤其是塞音有關。漢語音位系統沒有任何呼氣聲元音,只有常態聲元音,這說明常態聲,即[-展喉性]標記性較弱。塞音方面,漢語中送氣塞音和不送氣塞音數量等同:
因此,單憑行為潛勢無法判斷送氣與不送氣的標記關系。然而,比較兩者的使用頻率卻能清楚地看出來:
不送氣塞音頻率顯著高于送氣塞音(p<.0001),這表明不送氣,即[-展喉性]標記性較弱。此標記關系貫穿上表中每一對音位:/p/高頻于/p■/,/t/高頻于/t■/,等等。
以下為14對區別特征值頻率(百分比)與音位數的比較:
從上表可看出,除尖音一行外,其余數據都與Clements的標記關系一致。各行頻率差異都是顯著的,標記性更弱的特征所占頻率基本上都超過60%。每對特征值中頻率較大的幾乎都是負值,這與Greenberg (2005:15)的觀點一致。
5.結語
Clements單憑音位系統跨語對比提出了14個區別特征標記關系,筆者給出的漢語結構方面和語料方面的證據,有力支持其中的13個。除[±前部性]和[±后]這兩個特征外,得到確認的標記性較弱的特征值都是負值。唯一不被漢語數據支持的標記關系是[-尖音性] < [+尖音性],這有待進一步考察世界其他語言的音系結構和語料。跨語言驗證是一項大工程,需前赴后繼,逐步拼湊出世界語言的總體面貌;筆者研究漢語,是這工程的其中一環,未來需要以類型學視野分析世界上更多語言的樣本。
參考文獻:
[1]Brown,Gillian & Yule,George.Discourse Analysis [M].Cambridge: Cambridge University Press,1983.
[2]Bybee,Joan L.& Hopper,Paul.Introduction to frequency and the emergence of linguistic structure[A]. In Joan Bybee,Paul Hopper (eds.),Frequency and The Emergence of Linguistic Structure[C]. Amsterdam/Philadelphia: John Benjamins Publishing Company,2001.
[3]Bybee,Joan L.Frequency of Use and the Organization of Language[M]. Oxford: Oxford University Press,2006.
[4]Clements,George N.The role of features in speech sound inventories[A]. In Eric Raimy & Charles Cairns (eds.),Contemporary Views on Architecture and Representations in Phonological Theory[C]. Cambridge MA: MIT Press,2005.
[5]Croft,William.Typology and Universals,2nd edition [M].Cambridge: Cambridge University Press,2003.
[6]Crothers,John.Typology and universals of vowel systems [A]. In Joseph H. Greenberg, Charles A. Ferguson & Edith Moravcsik (eds.), Universals of Human Language, Vol.2 [C].Stanford: Stanford University Press,1978: 93-152.
[7]Da,Jun.(2004) A corpus-based study of character and bigram frequencies in Chinese e-texts and its implications for Chinese language instruction[A]. In Zhang Pu,Tianwei Xie and Juan Xu (eds.),The Studies on the Theory and Methodology of the Digitized Chinese Teaching to Foreigners: Proceedings of the 4th International Conference on New Technologies in Teaching and Learning Chinese[C]. Beijing: The Tsinghua University Press,501-511.
[8]Duanmu, San. The Phonology of Standard Modern Chinese,2nd edition[M]. Oxford: Oxford University Press,2007.
[9]Ferguson,Charles A. Assumptions about nasals: a sample study in phonological universals[A]. In J.H.Greenberg (ed.),Universals of Language[C]. Cambridge MA: MIT Press, 1963:53-60.
[10]Greenberg,Joseph H. Synchronic and diachronic universals in phonology[J]. Language ,1966,42:508-17.
[11]Greenberg,Joseph H.Language Universals: with Special Reference to Feature Hierarchies,reprinted edition[M]. Berlin: Mouton de Gruyter,2005.
[12]Haspelmath,Martin.Preface to the reprinted edition [A].Language Universals:with Special Reference to Feature Hierarchies,reprinted edition[M]. By Joseph H.Greenberg.Berlin: Mouton de Gruyter.vii-xvii ,2005.
[13]Tseng,Shu-Chuan.Processing Spoken Mandarin Corpora[J]. Traitement automatique des langues.Special issue: Spoken corpus processing ,2004:45,89-108.
[14]Zee,Eric & Lee,Wai-Sum.Vowel typology in Chinese [J]. Saarbrücken: ICPhS XVI,2007:1429-1432.
[15]時秀娟.現代漢語方言元音格局的類型分析[J].南開語言學,2007(1): 70-77.
[16]葉曉鋒.漢語方言語音的類型學研究.博士學位論文[D].復旦大學,2011.