趙擎華,楊俊杰
(1.山西大學語言科學研究所,山西 太原030006;2.山西警察學院,山西 太原 030401)
目前,司法訴訟領域涉及到方言性偽裝語音的話者識別案件逐漸增加。犯罪嫌疑人或被告人在違法犯罪或侵害他人合法權益時與在采集語音樣本時故意分別使用漢語方言和普通話,以達到偽裝真實身份的目的,導致在進行司法話者識別時只能在漢語方言與普通話語音之間進行比對。我國漢語方言復雜多樣,普通話普及率也日益提高,研究漢語方言與普通話之間的語言性偽裝語音的話者識別問題至關重要。
20世紀30年代至今,司法話者識別技術雖已經歷了近九十年的發展歷程,形成了聲學語音學識別、全自動話者識別及半自動話者識別等識別方法,但依靠“聽覺-聲學-語音識別”由專家進行綜合判別的聲學語音學識別方法,因其結論準確性及可解釋性為各國法庭普遍采信,成為國內外司法話者識別專家普遍采用的方法。該方法一般是以檢材和錄音樣本中的相同音段作為比對對象。對于漢語方言與普通話之間的話者識別研究,已有的研究成果也主要是基于兩者間的相同音段。比如:公安部物證鑒定中心國家“九五”課題報告[1]、《山西方言與普通話進行司法話者識別可用特征音段研究》[2]等。然而,漢語方言,即使是官話與普通話的語音系統也存在一定的差異,在進行漢語方言和普通話之間的話者識別時,時常面臨可提取的相同音段數量不足的困境。因此,如何充分挖掘不同音段的語音特征并充分利用有限的相同音段來進行話者識別,成為漢語方言與普通話之間話者識別的重要方向。
元音聲學空間是根據元音的共振峰數據建立的一種展現元音相對關系的抽象空間。國內外眾多學者研究發現,元音聲學空間與生理和感知空間都有一定的對應關系。JOOS[3]、DELATTRE[4]、鮑懷翹等[5]研究發現,發音時共鳴腔最低的共振峰(第一共振峰,簡稱為“F1”)反映發音人舌位的高低,一般來說數值越高,則舌位越低。共鳴腔次低的共振峰(第二共振峰,簡稱為“F2”)反映舌位的前后,一般來說數值越高,則舌位越靠前。此外,F2也反映了圓唇的特征,圓唇會降低F2的數值。賴福吉[6]從感知聲學角度使用“元音高低”“元音前后”術語描寫元音,同樣認為F1大致與感知的元音高度相關,F2與感知的元音前后相關。同時也有研究表明,盡管不同的人所發同一個元音共振峰的頻率不同,但是每個人所發的各個元音在元音聲學空間上的相對位置基本上是穩定的,總體層級關系、對應關系不會顛倒[7-9]。因此,有理由相信,把某個說話人的方言元音放到由某個普通話元音構建的元音聲學圖中時,如果是同一說話人的方言與普通話語音,則兩者的各個元音間的相對位置應該符合同一人的空間關系,若不符合這一關系,則說明方言與普通話語音有可能來自不同的說話人。
針對司法話者識別中元音聲學空間的應用研究,NOLAN等[10]通過比對檢材與樣本(同種語言的語音)中相同元音的元音聲學空間分布范圍,有效排除了犯罪嫌疑人的嫌疑。GURSKI[11]通過分析英法雙語之間的相同元音在元音聲學空間中的重疊程度,論證了通過元音聲學空間實現跨語言語音比較的可行性。以上研究僅考察了相同元音的空間分布范圍,并未關注不同元音的空間相互分布關系,同時也未充分利用元音聲學空間的整體特征和度量方法。為此,本文將以元音為比對對象,將漢語方言和普通話語音中的元音疊置于同一元音聲學空間中,通過考察相同元音之間的相似度、不同元音之間的位置關系以及相同音位元音鼻化的一致性,來進行漢語方言與普通話之間的話者識別探究。
1.1.1 設備
北京陽宸IV-12計算機語音工作站(V10.5);聯想Y7000筆記本電腦;羅技H111耳麥。
1.1.2 參數設置
11 kHz采樣率,16位,單聲道。男性帶寬一般設置為300 Hz,具體依據個體基頻進行調整,帶寬調整范圍為300~500 Hz,但需保證同一個體參數的一致性。
山西汾城方言屬于中原官話汾河片,與普通話對比,兩者之間相同元音與不同元音的數量都較多,適宜作為驗證語言。同時,汾城方言中基本不含獨立的鼻化元音,適合檢驗個體在非鼻音語境中口元音的鼻化現象。此外,元音聲學空間的準確性對元音的聽辨要求較高,汾城方言是本文兩位作者的母語,有天然的聽辨優勢。選擇母語進行跨語言比較也符合國際司法語音和聲學協會的工作守則(IAFPA Code of Practice 2020)[12]對從業人員的建議。
1.2.1 發音人
10位男性發音人的年齡為17~19歲,并且所有發音人都來自山西汾城方言片村莊,自小說汾城方言,現就讀于同一所農村高中,且均能說比較標準的普通話。錄音時身體健康,無嗓音疾病。
1.2.2 語料文本
錄音文本分為普通話文本和方言文本,每種文本又分為詞語和長句兩個部分。語料覆蓋普通話和山西汾城方言中所有的韻母。其中,普通話韻母音系參考《現代漢語》[13],汾城方言韻母音系綜合參考多位學者的研究[14-16]。
1.2.3聲樣錄制
在安靜的室內環境中,10位發音人分別錄制3次普通話和方言語音。選擇其中1次普通話語音作為“檢材”聲樣,3次方言語音全部作為“樣本”聲樣。
1.2.4 元音提取與標注
方言和普通話聲樣的元音均選擇音系層面的口元音(oral vowel),取自單元音韻母和真性復合元音(即兩個目標元音在語圖上各自有較長的穩定段)[17]。其中,真性復合元音中的兩個目標元音根據其實際音值分別標注。
由于語音環境和語速的改變都會導致元音不到位(vowel undershoot)[18],在語流中會出現大量的音位變體。如使用語言學研究中常用的“寬式標音”(broad transcription)則不能反映出音位變化,故應使用系統嚴式標音法(systematic narrow transcription),即采用音位變體標音法(allophonic transcription)來標注元音。嚴式標音法通過增加附加符號來表示音位變體(allophonic)與正則元音之間的變化,可以包含更多的語音細節。使用嚴式音標標音時,堅持“一符一音、一音一符”的原則,即兩個元音在聽感上能夠清晰區分出高度和前后有所不同,便標注為兩個不同的元音,不能使用同一個元音符號來表示。
將方言和普通話聲樣的元音放在同一個聲學空間坐標系中,從元音空間輪廓、相同元音的相似度、不同元音的位置關系及非鼻音語境中元音的鼻化現象四個維度來比對兩者的元音聲學空間特征。
以“F1”為縱軸、“F2”為橫軸,出于對感知因素的考量,刻度關系調整為巴克標度(Bark Scale),赫茲與巴克的轉換公式如下[19]:

其中:B為其振峰的巴克值,Bark;f為其振峰的頻率值,Hz。
(1)元音空間輪廓的標注規則。元音空間輪廓可以非常直觀地展示元音的整體分布范圍和空間大小。用線段將兩種語音中的邊緣元音連接起來以勾勒出元音空間的輪廓。其中,邊緣元音選擇發音人方言和普通話語音之間的相同元音或鄰近元音,使輪廓具有可比性。方言和普通話的空間輪廓使用不同顏色加以區分。
(2)相同元音的標注規則。方言和普通話聲樣中的相同元音根據元音位置的相似度標注異同。元音的相似度通過元音空間距離、F1的差異范圍、F2的差異范圍、F2-F1的差異范圍四個量化指標來度量。當相同元音對的四個度量指標都在閾值內時,使用綠色的虛線橢圓標注該元音對,否則使用紅色虛線橢圓標注。
在二維元音空間中,元音可以看作歐式平面中的一個點,這樣普通話元音(F2普,F1普)與方言元音(F2方,F1方)之間的距離D可以通過兩點的歐氏距離來計算,計算公式如下:

其中:D為普通話元音與方言元音之間的歐氏距離,Hz;F1普、F2普、F1方、F2方分別為普通話元音和方言元音的第一、第二共振峰,Hz。
兩個元音之間的F1差異、F2差異、F2-F1差異可通過以下公式計算:

其中:diff為普通話元音和方言元音之間的差異值;V普、V方分別為普通話元音和方言元音的共振峰頻率值,Hz;Vmax為V普、V方兩者之間的最大值,Hz。
本文統計分析了10位說話人的普通話和方言中共120對相同元音的相似度,其空間距離等4個量化指標的閾值范圍分別如圖1、圖2所示。圖1中,95%范圍以內的元音空間距離閾值為64.5Hz,圖2中,F1差異閾值為4.6%,F2差異閾值為5.1%,F2-F1差異閾值為10.8%。

圖1 相同元音距離閾值范圍

圖2 F1差異、F2差異、F2-F1差異閾值范圍
(3)不同元音的標注規則。個體相鄰元音及音位變體之間具有明確的穩定位置關系,根據位置關系標注“不同元音”的異同。考慮鼻化元音與口元音的位置關系非常復雜且尚存在爭議,在考察元音位置關系時,只關注口元音與口元音或鼻化元音與鼻化元音的位置關系。不同元音的位置關系通過箭頭線段來標注,符合元音高低前后層級關系和位置關系的元音對使用綠色箭頭線段表示;相反,位置錯位甚至顛倒的元音對則使用紅色箭頭線段表示。為避免同一個元音既考察相似度,又考察位置關系,致使同一個特征重復計數,因此只有兩個元音在方言和普通話聲樣中都無法找到相同元音時,才比較位置關系。
(4)非鼻音語境中元音的鼻化現象的標注規則。方言和普通話聲樣中相同音位的元音鼻化情況一致時,根據相似度或位置關系規則標注;當元音鼻化現象不一致時用紅色虛線方框標注。
根據標注規則,將每位發音人普通話聲樣與各自的3遍方言聲樣進行比對,繪制10位發音人共30組元音空間圖來考察說話人內(intra-speaker)差異;將每位發音人的普通話聲樣與其他9位發音人的1遍方言聲樣進行比對,總共繪制90組元音空間圖來考察說話人間(inter-speaker)差異。
10位發音人的普通話聲樣與各自的方言聲樣進行比對,都顯示出高度相似性。10位發音人的元音聲學空間圖如圖3所示,限于篇幅,每位發音人只列一組空間圖。從相同發音人的元音聲學空間圖中可以直觀看到,普通話和方言分開觀察時,元音的系統性和層級性都非常清晰;將方言和普通話中的元音放到同一個元音聲學空間圖中整體來看時,兩者之間的元音混合在一起依然是整齊的系統,且空間輪廓高度相似;從局部來看,相同元音對的位置基本固定,不同元音對的位置關系以及相同音位的口元音鼻化現象也相當一致。10位發音人個體內的具體統計結果如表1所示。

表1 10位發音人個體內的差異統計

圖3 相同發音人的元音聲學空間圖
10位發音人的普通話聲樣分別與除自身外的其他9位發音人的方言聲樣進行比對,都顯示出較高的差異性。篇幅所限,只列出發音人男1的普通話聲樣和與其他9位發音人的方言聲樣的元音聲學空間圖,具體如圖4所示。

圖4 不同發音人的元音空間圖
由不同發音人的元音聲學空間圖可以直觀看出,普通話和方言分開觀察,各自元音的系統性和層級性都非常清晰。然而將方言和普通話的元音放到同一個元音空間圖中整體來看,兩者之間的元音混合在一起后,其層級性、系統性變得疊合紛亂,各自的空間輪廓也有明顯差異;從局部來看,相同元音對的位置游離范圍大,不同元音對的位置關系以及相同音位的口元音鼻化現象不一致甚至相互矛盾。發音人男1與其他9位發音人個體間的差異統計結果如表2所示。

表2 發音人男1與其他9位發音人個體間的差異統計結果
實驗結果表明,每個說話人的元音聲學空間都比較穩定,且不同說話人之間又各有區別。使用元音空間法進行方言和普通話間的話者識別時,說話人的個體變異遠小于說話人的人間差異,同一說話人表現出顯著一致性,不同說話人表現出顯著差異性。同時,也使得可比音段數量都比較充足,其中10位相同發音人的比對音段數量最小為13,最大為19,平均數量為16.3;不同發音人的比對音段數量最小為11,最大為15,平均數量為12.8。
使用嚴式音標標注元音可避免將不同音位變體歸為同一個音位,可使相同元音的游離范圍更加集中。從上文可知,使用嚴式音標標注元音時,元音空間距離、F1的差異范圍、F2的差異范圍、F2-F1的差異范圍這四個量化指標的差異閾值都較小,這樣有利于提高判別相同元音相似度的準確度。
邊緣元音可以很好地體現說話人發音的“極限范圍”,邊緣元音的位置是說話人生理特征的聲學體現,其間接描述了口腔,尤其是下頜和舌頭在發音時的運動區域。10位發音人的方言和普通話分別放置于同一個元音聲學空間圖中,非常清晰地顯示了元音間的系統性和層級性。前后元音分開來看,元音分布情況都有較好的可比性。具體可以看到:
(1)前元音/i/、/e/、/ε/、/?/、/a/隨著元音高度由高到低,F1顯著增加,同時F2依次減小;其中/i/F1最小,F2最大,/a/F1最大、F2最小。因此,元音圖左邊線基本是由左向右傾斜的。
(2)后元音/u/、/o/、/?/、/ɑ/隨著元音高度由高到低,F1顯著增加,同時F2依次增大;其中/u/F1、F2最小,/ɑ/F1、F2最大。因此,元音圖右邊線基本是由右向左傾斜的。
(3)低元音/a/、/A/、/ɑ/在元音圖上并非只是元音前后的區別,元音高度也逐漸升高。因此,低元音的連線基本是由左低向右高傾斜的。
同一說話人的方言和普通話的邊緣元音交替連接形成的元音空間輪廓符合上述系統性和層級性;然而,由不同說話人的方言和普通話的邊緣元音交替連接形成的元音空間輪廓,其連線的傾斜方向、元音的高低前后層級都變得錯亂,具體如圖5、圖6所示。

圖5 男1普通話與男1方言邊緣元音空間輪廓

圖6 男1普通話與男9方言邊緣元音空間輪廓
我國漢語方言豐富,各漢語方言與普通話的語音系統均存在不同程度的差異。即使官話與普通話的語音系統相對接近,在進行漢語方言和普通話間的話者識別時,也時常提取不到足夠多的相同元音,難以滿足鑒定需要。實驗發現,兩者之間不同元音的位置關系具有重要的區分價值,可作為話者識別的有力依據。
如圖7所示,男1普通話聲樣和男9方言聲樣之間,相同元音只有/i/、/y/、/?/3對(其中2對相似),顯然只通過3對相同元音不足以得到認定結論。但通過考察不同元音的位置關系,可找到9對可供比對的不同元音,這樣總比對數量達到12,可以滿足認定要求。在圖8中,男8普通話聲樣與男6方言聲樣中,雖然相同元音數量達到5對,且4對相同元音都高度相似,僅/u/的F1差別較大。即便如此,也需要謹慎得出是同一說話人的認定結論。通過考察9對不同元音的位置關系,其中8對都顯示明顯的位置錯位。這樣總共14個元音對中顯示有9處差異,明顯不可將兩個聲樣認定為來自同一說話人。

圖7 男1普通話與男9方言元音空間圖

圖8 男8普通話與男6方言元音空間圖
由于鼻化元音的成因較為復雜,鼻化元音與口元音在聲學上沒有清晰的比對規律,實踐中很少將兩者視為可比對的音段。在以往的研究中,已發現鼻化現象存在個體差異,雖然某一方言點的多數人把某一韻母發成口元音,但該方言點的某些個體所發的卻是鼻化韻母[20]。為挖掘個體鼻化現象的利用價值,如上文已介紹,本文所選的聲樣在音系學上都屬于非鼻音語境中的口元音,聲樣中排除了受語言因素影響形成的鼻元音和鼻化元音。如果音系學上的口元音在語音學上測得的是鼻化元音,則多是由說話人發音習慣和生理因素所致。說話人的這種鼻化現象在正常交流時不能輕易通過自然手段改變,具有較強的穩定性。實驗結果表明,非鼻音語境中元音的鼻化現象的一致性可作為區分不同說話人的有力特征。在普通話和漢語方言中的相同音位,對于同一個說話人,普通話聲樣中的口元音發生鼻化,對應的方言聲樣中的口元音也會發生鼻化。如果一種語音發生鼻化,另一種仍保持口元音,則不符合個體的生理特征,兩個語音可懷疑來自不同的說話人。如圖9所示,普通話聲樣和方言聲樣來自不同的說話人,其中,普通話聲樣中的中低元音/ε/、/?/、/a/、/A/、/?/都發生鼻化,而方言聲樣中相同的音位都是口元音。

圖9 男3普通話與男6方言元音空間圖
元音聲學空間可以呈現不同元音在空間內的距離、層次及變體,能把個體元音在共振峰聲學參量上的相似和差異以圖形方式清晰表達出來,結果具有很強的直觀性。同時,說話人語音在元音聲學空間中的元音空間輪廓、元音相似度、元音位置關系以及鼻化現象差異性四個指標上,表現出較好的個體穩定性和人間的差異性。此外,通過元音聲學空間實現了漢語方言和普通話之間不同元音的特征比對,驗證了兩者間的不同元音也具有良好的區分價值。