曹洪林,孔江平
(1.北京大學 中文系,北京 100871;2.中國政法大學 證據科學教育部重點實驗室,北京 100088)
共振峰是聲紋鑒定中最重要的特征之一,它能夠提供很多發音人的個性特征。目前,對于共振峰的利用,鑒定人員經常從定量和定性兩個角度進行分析。定量分析共振峰頻率的方法有很多,其中最為經典的還是測量元音(穩定段)共振峰中心頻率值的方法。McDougall[1-2]提出了一種定量分析共振峰動態特性的新方法,即對復合元音和響音的共振峰進行多項式擬合,引入判別式對共振峰和擬合系數進行判別分析;李敬陽等[3]利用類似的方法,對漢語普通話復合元音共振峰的動態特性進行了定量分析研究,而在此之前許多有關音節內和音節間共振峰動態特性的研究一直停留在定性比較層面(有時候也會結合測量元音共振峰最低點和最高點的頻率值進行分析)。最近,Nolan與Grigoras[4]提出了第三種測量共振峰頻率的方法,即長時共振峰分布測量法(Long-Term Formant Distribution,縮寫為LTF)。與前兩種定量分析方法不同,該方法不是分析具體的目標元音,而是提取一整段語音中的全部元音信息進行分析,得出每條共振峰的整體分布情況,該分布特征不僅可以概括發音人聲道的整體共鳴特點,還能反映出發音人一定的發音習慣,可以用于區分不同發音人。該方法已在德國聯邦調查局(BKA)的語音分析實驗室得到廣泛應用[5]。Jessen與 Becker[6]以及 Jessen[7]研究發現,LTF方法有很多優點:分析高效省時、不同鑒定人員之間測量同一語料的一致性較高、LTF數值(如LTF2和LTF3的均值,另見[5])與發音人的身高呈負相關關系以及LTF數值在不同語言之間的差異性較小等。Becker等[8-9]還發現,LTF的均值和帶寬參數可以應用到說話人自動識別系統中,并能有效地提高識別率。Moos[10-11]則對71位德語男性發音人的LTF分布進行了測量分析,建立了一個較有價值的參考數據庫,同時發現朗讀時的LTF數值要比自然說話時的稍高。
上述有關LTF方法的研究主要是針對英語和德語等語言的男性發音人展開的,迄今未見有關漢語的研究。本文將以漢語普通話為對象,介紹并分析LTF方法在聲紋鑒定中的應用。
20位男性發音人,年齡在19~36歲之間(均值27.9,方差4.8),20位女性發音人,年齡在21~30歲之間(均值23.2,方差2.4),所有發音人均能說比較標準的普通話,錄音時身體健康,無嗓音疾病、感冒等癥狀。
錄音材料分為兩個部分,一部分是普通話的4個單元音[a]、[i]、[u]和[?],另一部分是長篇語料《北風和太陽》。
在北京大學語言學專業錄音室中,使用SONY ECM-44B領夾式麥克風錄音,采樣頻率為22kHz,精度為16位。在錄音過程中,首先讓發音人熟悉語料,并朗讀一遍,然后再使用正常的語速和音量將語料自然說出,盡量避免使用朗讀的方式。發單元音時,要求發音人持續發音3s以上,兩部分錄音材料均錄制兩遍。

圖1 使用WaveSurfer軟件提取一段元音的共振峰。其中,自下往上的紅線、綠線、藍線和黃線分別表示F1、F2、F3和F4的數據
使用WaveSurfer[12]軟件進行切音、提取共振峰數據,提取過程見圖1。具體設置如下:哈明窗,LPC系數:12,共振峰數量:4,截止采樣頻率:10kHz(其中,部分男聲采用8kHz,部分女聲采用11kHz)①視在何種設置下能夠將大部分元音的F1~F4自動準確地提取出來而定。由于一般情況下女性的聲道比男性的聲道短,共振峰頻率整體偏高,故在此處針對女聲的截止采樣頻率會高一些。。提取單元音的共振峰時,選擇中間1~2s的穩定段進行測量,取兩次發音的平均值進行分析。針對長篇語料,選擇第二次錄音進行分析,為了獲得清晰準確的共振峰結構,筆者只對語料中共振峰結構明顯的元音、邊音[l]、語流中間濁化的[x]等濁音進行了分析,而將原始語料中的無聲段、呼吸聲、清輔音、鼻音以及共振峰結構不明顯的元音部分剪切掉,保存為新的wav文件作為分析對象。語料剪切前后的時長信息見表1。當自動提取的共振峰數據不正確時,采用手動調整加以修正。

表1 篇章《北風和太陽》剪切前后時長對比
使用Matlab程序對分析得到的各條共振峰(F1~F4)數據進行統計分析,做出直方圖(分箱間隔為25Hz),并用Fourier 6階擬合函數進行曲線擬合。
5位男性發音人和5位女性發音人的長時共振峰分布情況見圖2。圖中的藍色部分是第1至4條共振峰(F1~F4)每個頻率段的累積直方圖,圖中從左至右的黃色、紅色、綠色和紫色4條曲線分別是對F1~F4直方圖中的頻數(達到一定頻率范圍的次數)進行擬合得到的曲線,該擬合曲線清晰地反映了各條共振峰的整體分布情況。由于語料中存在不同的元音,其共振峰結構不同,擬合曲線之間存在重疊現象。每條共振峰分布曲線的峰值基本上代表了該共振峰分布的眾數(即出現次數最多的頻率段。例外情況見圖2中 M5和 Fe5的 LTF4)。
比較圖2中5位男性發音人(M1~M5)的數據,可以發現他們LTF1-LTF4分布曲線的峰值均不相同。比如,M1 的 LTF3 峰值為 2437Hz(眾數 2475Hz),M3的LTF3峰值卻相對較高為2656Hz(眾數 2650Hz);M2的 LTF4峰值為 3517Hz(眾數 3525Hz),比 M4的LTF4 峰值(3817Hz,眾數 3800Hz)要低 300Hz。 同時,各條曲線的形狀也有很大差異,有的出現單峰,有的出現雙峰或3個峰。比如,M1的LTF4表現為雙峰,而M4的LTF4則為單峰,M1的LTF2有3個強度(對應的縱軸數值,即出現次數)較低的峰,而M4的LTF2則有兩個比較強的尖峰。
整體而言,LTF1的分布范圍最小,也最為集中,均有比較突出的“尖峰”(leptokurtic)出現;LTF2 的分布則較為分散,少有比較突出的“尖峰”出現,常常表現出比較“扁平”(platykurtic)的特點;LTF3 的分布范圍也比較大,但與LTF2不同,LTF3常常出現“尖峰”,強度常略小于LTF1;LTF4與 LTF3的情況比較類似。
不同人LTF分布的峰度(kurtosis)存在較大差異,當某條共振峰的變化范圍較大時,其LTF的分布形狀就比較扁平,相反,有些人的高次共振峰比較穩定,變化較小,其分布形狀多會出現“尖峰”。從圖2中10位發音人的LTF分布可知,分布曲線接近對稱分布的較少(如Fe2的LTF3),多數都是非對稱性分布,其斜度(skewness)參數之間也有較大差異。當LTF的峰值(眾數)較大,高頻數據出現數量多于低頻數據時,曲線往往向高頻方向傾斜(如M4的LTF4、Fe5的LTF3),相反,曲線就會偏向低頻方向 (如M4的LTF3、Fe4的LTF3)。圖2中男性、女性發音人LTF1-LTF4的分布情況類似。不同的是,相比之下,女性發音人LTF1-LTF4的峰值數據和分布范圍均有明顯的提高。這與女性發音人的聲道長度一般比男性發音人的短,女聲的共振峰頻率更高等特點是相吻合的。

圖2 5位男性發音人(M1~M5)和5位女性發音人(Fe1~Fe5)的LTF1-LTF4分布(圖中的黃線、紅線、綠線和紫線分別表示F1、F2、F3和F4的長時分布情況)

圖3 20位男性發音人(1~20)與20位女性發音人(21~40)LTF均值、中位數與眾數比較
圖3顯示的是40位發音人LTF分布數值的均值、中位數和眾數(如前文所述,該參數多數情況下與LTF擬合曲線的“峰值”相對應)。由于LTF1-LTF4均非對稱性分布,上述3個參數值并不重合,三者越接近,其對應的LTF分布(或其中的一部分)就越接近對稱性分布,比較圖2中發音人Fe2、Fe3的LTF3分布情況與圖3中對應女性發音人(22、23,黑色圓圈內)LTF3的3個參數的重合情況。整體觀察可知,圖3中LTF的均值和中位數比較接近(重合性較好),而眾數與前兩者的差異較大(重合性較差),這種差異性的存在正說明了不同發音人LTF分布的獨特性。
圖4顯示的是兩位男性發音人兩次說長篇語料的LTF分布情況。很明顯,在M13的兩次發音中,F3和F4比較穩定,對應LTF3和LTF4均出現單個比較突出的“尖峰”,而M11的LTF3和LTF4的變化范圍則更大一些,在曲線形狀上也一致表現的比較“扁平”,出現多個不太突出的 “小峰”。兩人兩次發音LTF1-LTF4的均值、中位數、眾數和標準差見表2。由圖4和表2可以看出,同一人相同狀態下發音的LTF分布變化較小,較為接近。

圖4 兩位男性發音人兩次發音的LTF分布情況

表2 兩位男性發音人兩次發音LTF1-LTF4的均值(m1)、中位數(m2)、眾數(m3)和標準差(sd)
顧名思義,長時共振峰分布是對一段語料中全部元音的各條共振峰(F1~F4)的所有數值分別進行平均,查看其整體的分布情況。從圖3顯示的結果來看,發音人LTF1-LTF4相鄰共振峰之間的距離比較平均,如20位男性發音人LTF1-LTF4均值參數的平均值分別為 524Hz、1436 Hz、2523 Hz及 3600 Hz, 與成年男性理想狀態下簡單均勻聲管模型的央元音的共振峰結構相似(第n條共振峰的頻率為500*(2n-1)Hz,參考[13])。圖5比較了20位男性發音人的LTF均值、中位數和眾數3個參數的平均值在聲學元音圖中的位置,可以看出,LTF1-LTF2的均值、中位數和眾數均位于元音三角形內部,分布在比較中間的位置,與央元音[?]比較接近,與[?]的 F1 和 F2 相比,LTF1 稍低,LTF2稍高。眾所周知,不同元音的共振峰結構不同,發元音[i]時,前腔面積小、后腔面積大,[i]的F1最低、F2最高,發元音[a]時,前腔面積大、后腔面積小,[a]的F1與F2最為接近。在連續語流中,如果時長足夠長,語料中出現大量的單元音、復元音時(不同元音的出現概率相近),盡管有的元音能夠達到其目標值,有的不能,但總體平均后的結果都應該是一個類似央元音的“音”,其前腔、后腔的面積相當,聲道形狀應該與自然狀態下發[?]時的聲道形狀類似。

圖5 LTF在聲學元音圖中的位置(基于20位男性發音人的平均數據)
在聲紋鑒定中,任何長時特征的利用,都有幾個共同的問題需要加以明確,LTF方法也不例外。第一,要合理利用該特征,最少需要多長的語料?Catalina推薦的時長標準是不少于10s[14],需要注意的是,Catalina提到的時長是原始語料的長度,其中包含了輔音等非元音的成分。Moos研究認為,根據共振峰和說話狀態的不同,對于只包含元音的語料,比較合理的時長下限是5~8s左右,作者同時還強調,在不同人之間,該標準會發生變化[10]。盡管本文語料的長度在9~18s左右(見表1),能夠滿足Moos的標準要求,但鑒于兩項研究的語種不同,應該對基于漢語普通話的時長標準做進一步的分析。第二,是否與文本內容有關?本文與Moos研究的朗讀語料(德語)均為《北風和太陽》的寓言故事,內容都是固定的(與文本有關)。盡管Nolan與Grigoras在提出LTF方法的時候,曾將案件的樣本語音拆分成兩部分(將樣本K分為兩半:K1與K2)進行分析[4],發現原始樣本與拆分后的前后兩部分的LTF1-LTF4有很好的一致性,但作者并未交代前后兩部分的內容是否一致,即使不一致,也只有單個人的數據,若要增加可信度,則需要進行更多發音人的測試。可以設想當一段語料足夠長,其中出現各個元音的概率相當時(與文本無關),LTF分布應該會趨于穩定,當然這還需要作進一步的研究。第三,是否與語言/方言有關?LTF分布主要反映了發音人聲道的整體共鳴特性,如果語料足夠長,同一人說不同語言/方言時,由于其LTF反映的是同一人的整體聲道特性,這些被體現出來的聲道特性之間的差異性應該不大。當然,不同語言/方言之間音系結構上的差別有可能會成為較大的影響因素。如果LTF在不同語言/方言之間的差異性足夠小的話,那么由一種語言/方言得到的LTF數據便可以推廣利用到另外一種語言/方言中去,這便為實踐中不同語言之間、方言與普通話之間的語音比對提供了新的途徑。Jessen與Becker[6]的研究已經發現,LTF在德語、俄語和阿爾巴尼亞語之間的差異性較小。有必要針對漢語普通話與方言及其他語言之間LTF的差異性展開進一步的研究。
在實際辦案中大多數案件語料都是電話 (或手機)錄音,由于電話信道的帶寬限制(300~3400Hz左右),多數情況下只能顯示前3條共振峰(在錄音質量較差的情況下,有時只能顯示兩條共振峰)。從圖2-圖4中也能看出多數F4的數值超過此范圍,不能或不能完全顯示出來(可以導致F4的提取不準確),因此,實踐中可以測量前3條共振峰的長時分布特征 (LTF1-LTF3)。但是對于一些由性能較好的錄音設備(如安全機關使用的部分專業監聽設備或部分民事案件中當事人使用的錄音筆)錄制的采樣頻率較高的語料,可以測量到LTF4。當然該方法也可以用來進行普通語音學的研究,測量的共振峰數量可視研究目的而定。
由于F3、F4高次共振峰的穩定性最強,個體差異性最大,在鑒定中更有價值,因此LTF3與LTF4的數值及分布特征應該能更好地體現發音人之間的個性差異。至于哪條共振峰分布特征的價值更高,則需要進行更深入的研究。當然,在鑒定中比較明智的做法是對LTF1-LTF3/4進行綜合分析,而不是只看某條共振峰的分布特征。
如上文所述,使用LTF方法的前提是被研究語料的錄音質量較好,能夠反映出比較清晰的共振峰結構,在此基礎上對各條共振峰的分布進行統計分析,才能夠顯示出共振峰整體分布的情況。由此得到的LTF分布不僅在峰數和形狀(峰度、斜度)上能夠較好地體現出發音人的個性特征,而且還能提供各條共振峰整體分布的多維數據,如均值、中位數、眾數、標準差等,這些數據為研究發音人的聲道特性提供了新的素材。正如Jessen對該方法的評價:“此方法的優點是使用相對高效省時,適用范圍廣,甚至連鑒定專家自己都不會講的語言都能夠適用(因為該方法無需對元音的音系范疇進行辨別和切分,僅需要具備較好的普通聲學語音學的知識即可);缺點是,由于該方法集中了所有的元音信息,與分析單個元音相比,對結果進行解釋變得更加困難。對不同的元音進行集中分析,很可能會忽略一些更有價值的個性特征。[7]”的確如此,由于LTF只是一個靜態特征,因此在聲紋鑒定中不應該單獨使用它,而是要結合其他特征進行綜合分析,特別是要與單元音的共振峰頻率、音節內及音節間共振峰的動態特征結合起來一起使用。
本文對20位男性發音人和20位女性發音人的普通話語料進行了研究,通過對其元音部分共振峰頻率的統計分析,得出了第1至4條共振峰(F1-F4)的長時分布情況(LTF1-LTF4),發現相比男性發音人而言,女性發音人的LTF數據和分布范圍均有明顯的提高,這與女性發音人的聲道長度較短、共振峰頻率較高等特征是相吻合的。利用LTF分布的均值、中位數、眾數(相當于峰值)、峰數和形狀(峰度和斜度)等參數可以較好地區分不同發音人。
通過比較LTF均值分布與央元音[?]的共振峰的關系發現,相鄰LTF均值分布之間的距離比較平均,LTF1-LTF4均值的整體分布結構與央元音的共振峰結構類似。由此可以推測,在連續語流中,如果語料的時長足夠長,其所有元音平均后的結果都應該是一個類似央元音的“音”。
盡管LTF方法可以用來區分個人,但不可否認的是,LTF分布只是一個靜態參數,鑒定中不宜單獨使用,而應該與其他動態特征結合起來做綜合分析。本文僅對LTF分布特征做了概括性的介紹,今后有必要對LTF分布特征與時長、文本內容及語言的關系等問題進行進一步的探討。
致謝
感謝Michael Jessen對LTF方法在BKA實驗室中使用情況的介紹,感謝王英利、李英浩、董理對本文初稿提出的很有價值的修改意見。
[1]McDougall K.Speaker-specific formant dynamics:an experiment on Australian English/ai/[J].International Journal of Speech, Language and the Law, 2004,11(1):103-130.
[2]McDougall K.Dynamic features of speech and the characterization of speakers:towards a new approach using formant frequencies[J].International Journal of Speech,Language and the Law, 2006, 13(1): 89-126.
[3]李敬陽,王莉,崔杰,等.發音人漢語普通話復合元音共振峰動態特征分析[A].第一屆全國聲像資料檢驗鑒定技術交流會論文選[C].北京:中國人民公安大學出版社,2011:612-615.
[4]Nolan F,Grigoras C.A case for formant analysis in forensic speaker identification[J].International Journal of Speech,Language and the Law, 2005,12(2):143-173.
[5]Jessen M.The forensic phonetician forensic speaker identification by experts.In: Coulthard M, Johnson A.(eds)[M].The RoutledgeHandbook of Forensic Linguistics, 2010:378-394.
[6]Jessen M,Becker T.Long-term formant distribution as a forensic-phonetic feature[J].The Journal of the Acoustical Society of America, 2010,(128):2378.
[7]Jessen M.法庭語音學[J].曹洪林,王英利.譯.證據科學,2010,(6):712-738.
[8]Becker T,Jessen M,Grigoras C.Forensic Speaker Verification Using Formant Features and Gaussian Mixture Models[M].In proceeding of Interspeech, Brisbane, 2008:1505-1508.
[9]Becker T,Jessen M,Grigoras C.Speaker Verification Based on Formants Using Gaussian Mixture Models[C].In proceeding of NAG/DAGA International Conference on Acoustics,Rotterdam,2009.
[10]Moos A.Long-Term Formant Distribution (LTF) based on German spontaneous and read speech[C].In proceeding of IAFPA, Lausanne, 2008:5-6.
[11]Moos A.Forensische Sprechererkennung mit der Messmethode LTF (long-term formant distribution)[D].MA thesis,Universit?t des Saarlandes.2008.
[12]The WaveSurfer software[CP].http://www.speech.kth.se/wavesurfer/,2007-11-20/2011-12-31.
[13]Ladefoged, P.Elements of Acoustic Phonetics, 2nd ed[M].Chicago: University of Chicago Press, 1996.
[14]Catalina Forensic Audio Toolbox[K].http://www.forensicav.ro/download/CatalinaManual3h.pdf,2007-11-20/2011-12-31.