張金光
北京大學 中國語言文學系,北京 100871
傳統觀點認為語音是離散的線性的序列,是由最小語音單位(音素或音段)按照時間順序排列組合而成的。然而發音音系學(Articulatory Phonology)卻認為言語信號是連續的非線性的語音聚合群,是由交叉重疊的發音器官姿勢(音姿)協同變化產生的[1]。
到底語音是如何產生的?能不能建立模型,模擬語音的產生過程?研究者們做過哪些嘗試?成功和失敗的原因是什么?本文嘗試梳理各種有較大影響的語言發音模型的文獻資料,概括已有的研究成果,探索這些問題的答案。
很早以前,人們就對語言發音的原理產生了濃厚的興趣,并嘗試利用機械手段模擬語言發音過程。在中國,唐朝小說家張鷟所著的《朝野僉載》卷六,有木和尚說話化緣的記載:將作大匠楊務廉,甚有巧思,常于沁州市內刻木作僧,手執一椀,自能行乞,椀中錢滿,關鍵忽發,自然作聲云“布施”,市人競觀,欲其作聲,施者日盈數千矣。在外國,18世紀80年代匈牙利人Wolfgang von Kempelen發明了一個講話機,用風箱模仿肺,用笛子模仿聲帶,用管子模仿口腔,不僅能產生一些元音和輔音,而且能發出完整的詞和短語[2]。第一個基于電子技術的廣為人知的語言發音模型是1939年在紐約世界博覽會上展出的Voder,這個模型用脈沖發生器作為濁音聲源,用噪聲發生器作為清音聲源,用濾波器產生共鳴效果。
語言發音模型的理論基礎是言語產生的聲學理論。根據Stevens的觀點,聲門把氣流通道分成了上下兩部分,對于大多數語音的產生過程而言,聲門以下的系統提供了氣流能量,喉部和聲門以上的結構對氣流進行調制,產生可以聽到的聲音[3]?!?br>