鄭琳琳 ,孫 蒙 ,張雄偉 ,潘志欣
(1.陸軍工程大學(xué),江蘇 南京 210007;2.海軍工程大學(xué),湖北 武漢 430000)
語(yǔ)音是人們?nèi)粘=涣髦械囊环N最直接、最有效和最常用的傳遞信息方式。由于說(shuō)話人發(fā)音器官的生理差異和后天成長(zhǎng)環(huán)境形成的行為差異,每個(gè)人的語(yǔ)音都帶有強(qiáng)烈的個(gè)性特征,能夠像虹膜、指紋、人臉等生物認(rèn)證技術(shù)一樣,成為身份驗(yàn)證的重要手段,稱為聲紋識(shí)別技術(shù)。聲紋技術(shù)因其具有經(jīng)濟(jì)、可靠、交互自然等優(yōu)勢(shì)而備受關(guān)注,具有重要研究意義和廣泛應(yīng)用前景[1]。
雖然每個(gè)說(shuō)話人的語(yǔ)音有自己的個(gè)性特征,但是語(yǔ)音也是可以被模仿和偽裝的。目前,市面上流行的各類變聲器及變聲軟件可以對(duì)說(shuō)話人的語(yǔ)音進(jìn)行個(gè)性化改變,致使人耳甚至部分聲紋識(shí)別技術(shù)產(chǎn)品很難識(shí)別出說(shuō)話人的身份[2]。犯罪分子利用特定手段來(lái)偽裝自己的語(yǔ)音不被辨識(shí)出來(lái),實(shí)施電話詐騙、恐嚇、綁架勒索等相關(guān)新聞報(bào)道也是數(shù)見(jiàn)不鮮。軍事上,某些組織成員通過(guò)使用全新的電話號(hào)碼和語(yǔ)音偽裝的方式來(lái)逃脫政府監(jiān)控的識(shí)別[3]。隨著智能語(yǔ)音交互技術(shù)被廣泛應(yīng)用到商業(yè)活動(dòng)和軍事應(yīng)用中,人們對(duì)信息安全的要求也越來(lái)越高。然而,語(yǔ)音偽裝嚴(yán)重影響聲紋識(shí)別效果,使犯罪分子有機(jī)可乘。
語(yǔ)音偽裝(Voice Disguise)是指對(duì)于正常語(yǔ)音的任何改變、扭曲或者偏離[4]。它涵蓋了故意偽裝和非故意偽裝兩種形式。網(wǎng)絡(luò)空間安全領(lǐng)域更多關(guān)注的是故意偽裝,即“以掩蓋真實(shí)身份為目的,有意識(shí)地改變聲音,使其模糊、畸變、扭曲的發(fā)音方式”[5]。偽裝語(yǔ)音的相關(guān)研究工作最早可追溯至20 世紀(jì)六十年代初期的法庭說(shuō)話人辨認(rèn),至今已有50 多年的研究歷史[6]。近年來(lái),語(yǔ)音信號(hào)處理和互聯(lián)網(wǎng)技術(shù)的進(jìn)步,以及語(yǔ)音數(shù)據(jù)獲取和共享的更加便捷,有力地推動(dòng)了語(yǔ)音偽裝技術(shù)的發(fā)展[7]。特別是基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的語(yǔ)音合成技術(shù)[8]能夠生成特定說(shuō)話人的語(yǔ)音樣本,對(duì)聲紋識(shí)別接口的用戶構(gòu)成了嚴(yán)重的隱私威脅[9]。因此,語(yǔ)音偽裝受到學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注,諸多國(guó)內(nèi)外學(xué)者開(kāi)展了與語(yǔ)音偽裝相關(guān)的研究。日本東京國(guó)立資訊研究所、法國(guó)國(guó)家信息與自動(dòng)化研究所以及美國(guó)伊利諾理工大學(xué)等開(kāi)展了語(yǔ)音偽裝方式的研究,進(jìn)一步提高了偽裝語(yǔ)音的匿名化程度;中國(guó)刑警學(xué)院和多地公安部門針對(duì)偽裝語(yǔ)音變聲規(guī)律及其對(duì)自動(dòng)說(shuō)話人確認(rèn)系統(tǒng)(Automatic Speaker Verification,ASV)的影響展開(kāi)了相關(guān)工作;清華大學(xué)、南京郵電大學(xué)以及中山大學(xué)等在偽裝語(yǔ)音防御對(duì)策方面做了相關(guān)研究,并相繼取得了一些研究成果。
本文在簡(jiǎn)要梳理語(yǔ)音偽裝的典型模型和基本方法的基礎(chǔ)上,介紹了語(yǔ)音偽裝的威脅量化評(píng)估方法,歸納了語(yǔ)音偽裝的防御對(duì)策,并總結(jié)了目前語(yǔ)音偽裝防御對(duì)策研究中仍存在的問(wèn)題和挑戰(zhàn),對(duì)未來(lái)的發(fā)展方向作出了展望。
語(yǔ)音的個(gè)性特征通常包括音色、音調(diào)、韻律特征和說(shuō)話風(fēng)格等方面,主要受到聲道譜信息、共振峰頻率和基音頻率等參數(shù)的影響。語(yǔ)音偽裝就是通過(guò)改變說(shuō)話人的語(yǔ)音個(gè)性特征,故意隱藏或偽造說(shuō)話人的身份。根據(jù)偽裝方式的不同,語(yǔ)音偽裝可以分為兩種類型:人為偽裝和電子偽裝[10]。深入了解語(yǔ)音偽裝的基本方法能夠更好地防御偽裝語(yǔ)音帶來(lái)的安全威脅。
人為偽裝是說(shuō)話人借助本身的技能實(shí)施的語(yǔ)音偽裝,大致可分為兩種情況,一是刻意模仿某人的聲音,如冒充領(lǐng)導(dǎo);還有一種是故意改變自己原有的發(fā)音習(xí)慣,如捏鼻、咬物等,來(lái)偽裝自己的聲音不被辨識(shí)出來(lái)。人為偽裝的具體偽裝類型主要有調(diào)音、改變音素、改變韻律及變形等方式[2]。在調(diào)音偽裝中,有改變音調(diào)、緊喉音、吸氣音及耳語(yǔ)偽裝等;改變音素偽裝主要有使用方言、變更方言、鼻音化和模仿說(shuō)話等;改變韻律的偽裝有語(yǔ)調(diào)的改變,重音位置的調(diào)整,音段的拉長(zhǎng)和縮短以及言語(yǔ)節(jié)奏的變化等方式;而變形主要指依靠外力阻礙正常的發(fā)音,如捏鼻子、捂嘴、咬物以及嚼物等。
人為偽裝雖然能達(dá)到一定的偽裝說(shuō)話人身份的目的,但偽裝效果受制于說(shuō)話人自身的偽裝能力。張翠玲等[11]研究了 10 種刑偵情況下的偽裝形式,發(fā)現(xiàn)不同說(shuō)話人受自身的調(diào)音能力和發(fā)音習(xí)慣的影響,偽裝水平差異是普遍存在的,沒(méi)有偽裝經(jīng)驗(yàn)的人偽裝后更容易暴露身份。即使是專業(yè)的模仿者,也是模仿目標(biāo)說(shuō)話人的某些特定特征,如方言、韻律或者說(shuō)話風(fēng)格等[12],雖然改變了人耳的聽(tīng)覺(jué)感受,但是對(duì)自動(dòng)說(shuō)話人確認(rèn)系統(tǒng)的欺騙干擾作用并不是特別明顯。
電子偽裝是指采用電子設(shè)備或語(yǔ)音處理軟件對(duì)說(shuō)話人的原始語(yǔ)音進(jìn)行的變聲偽裝。與人為偽裝相比,電子偽裝使用電子設(shè)備及內(nèi)置算法對(duì)語(yǔ)音時(shí)域或頻域特性進(jìn)行變形,得到的偽裝語(yǔ)音要更加自然。隨著深度學(xué)習(xí)技術(shù)的不斷進(jìn)步,可用于語(yǔ)音偽裝的模型也越來(lái)越多,產(chǎn)生的偽裝語(yǔ)音能更有效地隱藏說(shuō)話人身份。因此,電子偽裝以其高質(zhì)量的偽裝效果和便捷的實(shí)現(xiàn)方式,得到了越來(lái)越廣泛的應(yīng)用。目前成熟的電子偽裝技術(shù)主要分為三類:基于基頻線性變換的電子偽裝、基于頻譜非線性變換的電子偽裝以及使用復(fù)雜轉(zhuǎn)換函數(shù)的語(yǔ)音轉(zhuǎn)換。
1.2.1 基于基頻線性變換的電子偽裝
語(yǔ)音基音頻率(Fundamental Frequency),簡(jiǎn)稱基頻,是指發(fā)濁音時(shí)聲帶振動(dòng)所引起的周期性振動(dòng)頻率,它反映了語(yǔ)音激勵(lì)源的重要特征。語(yǔ)音學(xué)中,人類心理對(duì)語(yǔ)音基音頻率的感知量可以用音調(diào)(Pitch)來(lái)描述。基于基頻線性變換的電子偽裝主要是通過(guò)簡(jiǎn)單地修改基音頻率來(lái)達(dá)到修改音調(diào)的目的。提高音調(diào),語(yǔ)音變得尖銳;降低音調(diào),語(yǔ)音變得低沉[13]。根據(jù)偽裝作用域不同,基于基頻線性變換的電子偽裝可以分為頻域偽裝和時(shí)域偽裝。
(1)頻域基頻線性變換偽裝
頻域基頻線性變換偽裝是指通過(guò)直接在語(yǔ)音頻域內(nèi)拉伸或壓縮頻譜來(lái)改變基音頻率,從而提高或降低音調(diào)的偽裝方式,該方式可以改變語(yǔ)音的音調(diào)而保持語(yǔ)音節(jié)奏不變。其偽裝步驟示意圖如圖1所示。

圖1 頻域偽裝示意圖
首先對(duì)語(yǔ)音信號(hào)分幀,然后對(duì)每一幀語(yǔ)言信號(hào)進(jìn)行短時(shí)快速傅里葉變換(Short-Time Fourier Transform,STFT),得到語(yǔ)音信號(hào)頻域分析結(jié)果。對(duì)每一幀信號(hào)進(jìn)行頻譜的壓縮伸展變換,同時(shí)利用插值法[14]對(duì)幅度譜進(jìn)行相應(yīng)處理。將變換后的頻譜進(jìn)行快速傅里葉逆變換(Inverse Fast Fourier Transform,IFFT),即可得到頻域偽裝的語(yǔ)音信號(hào)。
頻域基頻線性變換電子偽裝可以在很大偽裝程度范圍內(nèi)對(duì)語(yǔ)音進(jìn)行變形偽裝,同時(shí)保持語(yǔ)音的自然度和可懂度。但是,利用基于頻域的電子偽裝方法對(duì)語(yǔ)音進(jìn)行升調(diào)偽裝時(shí),頻譜擴(kuò)展,會(huì)造成語(yǔ)音高頻部分缺失,偽裝語(yǔ)音音頻質(zhì)量略顯不足。
(2)時(shí)域基頻線性變換偽裝
時(shí)域基頻線性變換偽裝一般通過(guò)調(diào)整采樣率和采用基音同步疊加(Pitch-Synchronous Overlap and Add Method,PSOLA)[15]相結(jié)合的方法來(lái)實(shí)現(xiàn),這種偽裝方式既改變了語(yǔ)音的音調(diào),又改變了語(yǔ)速。調(diào)整采樣率能夠改變語(yǔ)音信號(hào)的基音頻率從而改變音調(diào)。但是語(yǔ)音信號(hào)時(shí)頻結(jié)構(gòu)之間的約束性使得信號(hào)的時(shí)域特性和頻域特性緊密相關(guān),只利用調(diào)整采樣率生成的偽裝語(yǔ)音往往聽(tīng)起來(lái)不自然,需要結(jié)合PSOLA 對(duì)語(yǔ)音進(jìn)行進(jìn)一步處理。PSOLA 可以在誤差最小準(zhǔn)則下丟棄或重復(fù)部分語(yǔ)音幀,使偽裝之后的語(yǔ)音與原來(lái)語(yǔ)音的頻譜有著基本相同的包絡(luò),PSOLA 工作原理如圖2 所示。

圖2 基音同步疊加
由于時(shí)域基頻線性變換偽裝方法同時(shí)改變了語(yǔ)音音調(diào)和語(yǔ)速,因此,要保證偽裝語(yǔ)音的自然度和可懂度,偽裝程度的變化范圍會(huì)受到限制,進(jìn)而制約了偽裝效果,故該方法在實(shí)際應(yīng)用中有一定局限。
1.2.2 基于頻譜非線性變換的電子偽裝
基于頻譜非線性變換的電子偽裝方法是基于聲道歸一化(Vocal Tract Length Normalization,VTLN)技術(shù)實(shí)現(xiàn)的。人們認(rèn)為,對(duì)于同樣內(nèi)容的語(yǔ)音,說(shuō)話人聲道長(zhǎng)度的變化導(dǎo)致了語(yǔ)音波形的變化。VTLN可以通過(guò)翹曲函數(shù)(Warping Function)調(diào)整頻譜的頻率軸,來(lái)改變共振峰的位置和帶寬,從而隱藏聲道長(zhǎng)度的個(gè)性特征[16]。從理論上講,任何從定義域[0,π]到值域[0,π]的映射函數(shù)都可以作為 VTLN中的翹曲函數(shù),前提是翹曲函數(shù)需要保持偽裝后語(yǔ)音的自然度和可懂度。
基于頻譜非線性變換的電子偽裝方法主要分為 6 個(gè)步驟:音調(diào)標(biāo)記、幀分割、FFT、VTLN、IFFT 和PSOLA。音調(diào)標(biāo)記和幀分割的目的是將語(yǔ)音信號(hào)分割成與語(yǔ)音基音頻率所決定的濁音偽周期性相匹配的幀,從而使輸出的偽裝語(yǔ)音具有最佳的音質(zhì)。VTLN 是頻率彎折偽裝中的關(guān)鍵步驟,它使用頻率翹曲函數(shù)來(lái)修改每一幀的頻譜。常用的翹曲函數(shù)包括對(duì)稱分段線性函數(shù)、冪函數(shù)、二次函數(shù)及雙線性函數(shù)等[17]。
為了抵御去匿名化攻擊(De-anonymization Attacks),提高偽裝語(yǔ)音的偽裝效果,基于頻譜非線性變換的電子偽裝方法的研究經(jīng)歷了從單幀變換到音段變換、從單一方法到多方法融合的過(guò)程,偽裝質(zhì)量不斷提升。目前,基于頻譜非線性變換的電子偽裝方法研究主要集中在魯棒性的頻譜參數(shù)偽裝變換函數(shù)方面。文獻(xiàn)[17]提出了分段VTLN 的方法,這種方法的翹曲函數(shù)參數(shù)是可變的,隨著時(shí)間的推移將頻率軸向不同的方向變形。文獻(xiàn)[18]通過(guò)隨機(jī)選取翹曲函數(shù)參數(shù)、復(fù)合多種翹曲函數(shù)等方法來(lái)提高語(yǔ)音偽裝機(jī)制的魯棒性。
研究顯示,基于頻譜非線性變換的電子偽裝方法能夠最大程度地保持語(yǔ)音自然度,且魯棒性能較好,但是其在偽裝語(yǔ)音質(zhì)量方面略顯不足,還需結(jié)合其他方法以獲得進(jìn)一步提升。
1.2.3 基于語(yǔ)音轉(zhuǎn)換的電子偽裝
語(yǔ)音轉(zhuǎn)換(Voice Conversion,VC)是指在保持說(shuō)話內(nèi)容信息不變的情況下,將一個(gè)人的聲音特征通過(guò)修改變換,使其聽(tīng)起來(lái)像另一個(gè)人的聲音。基于語(yǔ)音轉(zhuǎn)換的電子偽裝方法就是利用語(yǔ)音轉(zhuǎn)換技術(shù)來(lái)隱藏源說(shuō)話人身份信息,其原理如圖3 所示。與基頻變換偽裝方法和頻譜變換偽裝方法相比,基于語(yǔ)音轉(zhuǎn)換的電子偽裝方法需要目標(biāo)說(shuō)話人信息,偽裝轉(zhuǎn)換模型更加復(fù)雜。

圖3 基于語(yǔ)音轉(zhuǎn)換的電子偽裝方法原理圖
基于語(yǔ)音轉(zhuǎn)換的偽裝方法核心思想是說(shuō)話人的身份信息在整個(gè)說(shuō)話過(guò)程中是靜態(tài)的,而內(nèi)容信息是動(dòng)態(tài)的[19]。該方法可以基于神經(jīng)網(wǎng)絡(luò)變換,使用說(shuō)話人編碼器和內(nèi)容編碼器來(lái)分離身份信息和內(nèi)容信息,對(duì)身份信息進(jìn)行匿名化處理,然后再利用語(yǔ)音合成模型生成偽裝語(yǔ)音[20]。這樣,源說(shuō)話人身份信息被壓制,取而代之的是一種匿名的偽身份信息。
隨著神經(jīng)網(wǎng)絡(luò)模型的不斷改進(jìn)和發(fā)展,結(jié)合不同語(yǔ)音特征采用不同的網(wǎng)絡(luò)轉(zhuǎn)換模型的偽裝方法不斷提出。文獻(xiàn)[21]提出了利用目前最先進(jìn)的說(shuō)話人身份特征x-vector[22]和神經(jīng)波形模型相結(jié)合的偽裝方法。該方法使用基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)(Automatic Speech Recognition,ASR)以音素后驗(yàn)圖(Phoneme Posteriorgram,PPG)[23]的形式捕獲語(yǔ)言信息,并使用預(yù)先訓(xùn)練的x-vector 系統(tǒng)對(duì)說(shuō)話人身份進(jìn)行編碼,然后通過(guò)多個(gè)隨機(jī)x-vector 組合派生出匿名的偽說(shuō)話人身份。在給定 PPG 和偽裝的x-vector 的情況下,通過(guò)神經(jīng)聲學(xué)和波形模型[24]來(lái)生成偽裝語(yǔ)音。實(shí)驗(yàn)結(jié)果表明,該方法能在保持偽裝語(yǔ)音高質(zhì)量的同時(shí),有效地隱藏說(shuō)話人身份。
基于語(yǔ)音轉(zhuǎn)換的電子偽裝方法的本質(zhì)是參數(shù)的多元回歸模型,通過(guò)添加網(wǎng)絡(luò)層數(shù)、高維特征序列和訓(xùn)練數(shù)據(jù)量等多種手段可以有效提升偽裝語(yǔ)音的質(zhì)量。隨著參數(shù)的增多,偽裝轉(zhuǎn)換模型的表示能力會(huì)不斷增強(qiáng)。但當(dāng)訓(xùn)練數(shù)據(jù)不充分時(shí),就會(huì)發(fā)生過(guò)擬合現(xiàn)象,導(dǎo)致性能急速下降。同時(shí),目標(biāo)說(shuō)話人語(yǔ)音信息的依賴也成為制約此類方法偽裝效果的一個(gè)重要因素。
語(yǔ)音偽裝研究的主要目的是增大說(shuō)話人身份識(shí)別系統(tǒng)的辨識(shí)難度,同時(shí)保持偽裝語(yǔ)音的可懂度及算法的低復(fù)雜度。由此可知,如果想要對(duì)語(yǔ)音偽裝方法進(jìn)行威脅量化評(píng)估,可以利用說(shuō)話人識(shí)別系統(tǒng)的性能指標(biāo)來(lái)實(shí)現(xiàn):利用某種語(yǔ)音偽裝方法對(duì)待測(cè)語(yǔ)音進(jìn)行偽裝處理,然后利用說(shuō)話人識(shí)別系統(tǒng)進(jìn)行身份識(shí)別,說(shuō)話人識(shí)別系統(tǒng)性能下降越明顯,說(shuō)明該語(yǔ)音偽裝方法威脅越大。目前,語(yǔ)音偽裝方法的威脅評(píng)估測(cè)試主要有主觀和客觀兩種手段。
主觀評(píng)估就是以人為主體,通過(guò)人的主觀感受來(lái)對(duì)語(yǔ)音進(jìn)行測(cè)試。由于語(yǔ)音偽裝最直接的目的是改變?nèi)硕穆?tīng)覺(jué)感受,因而主觀評(píng)估是最基本的評(píng)估 方法。檢測(cè) 錯(cuò)誤率(Detection Error Rate,DER)是語(yǔ)音偽裝的主觀威脅量化評(píng)估的常用標(biāo)準(zhǔn)之一。這種測(cè)試方法使用若干組語(yǔ)音對(duì)進(jìn)行測(cè)試,每對(duì)語(yǔ)音有50%的概率來(lái)自同一個(gè)說(shuō)話人。測(cè)評(píng)人需要判斷所聽(tīng)到的每對(duì)語(yǔ)音是否來(lái)自同一個(gè)說(shuō)話人,全體測(cè)評(píng)人判斷錯(cuò)誤的百分比就是DER 得分,包含虛警(False Alarm)和 誤 識(shí)(False Rejection)。
主觀評(píng)估是建立在人的感覺(jué)的基礎(chǔ)上,測(cè)試結(jié)果可能因人而異。為了盡可能減小個(gè)體差異的影響,主觀評(píng)估的方案設(shè)計(jì)必須要周密,參加測(cè)試的測(cè)評(píng)人要足夠多,測(cè)試環(huán)境應(yīng)該盡量保持相同,所測(cè)語(yǔ)音音頻也要足夠豐富。測(cè)試語(yǔ)音必須仔細(xì)地選擇發(fā)音,以保證所選樣本具有代表性,同時(shí)還要保證能夠覆蓋所有類型的語(yǔ)音。例如,有的語(yǔ)音偽裝方法在濁音的處理上比較好,但偽裝后的清音則太模糊;而有的語(yǔ)音偽裝方法在低頻段的性能較好,甚至?xí)苯訉⒏哳l段丟棄。所以,在選擇測(cè)試樣本時(shí),不僅要包含男聲、女聲,同時(shí)還應(yīng)該選擇不同年齡段的語(yǔ)音。
通過(guò)以上對(duì)主觀評(píng)估方法的簡(jiǎn)單介紹可以看出,主觀評(píng)估雖然是語(yǔ)音偽裝威脅量化評(píng)估最基本的方法,但它的缺點(diǎn)也很明顯:靈活性差、費(fèi)時(shí)費(fèi)力以及可重復(fù)性差等。針對(duì)主觀評(píng)估方法的不足,基于主觀測(cè)度的客觀評(píng)估方法被提出。
目前,說(shuō)話人身份偽裝效果的主要客觀衡量指標(biāo)是自動(dòng)說(shuō)話人確認(rèn)系統(tǒng)的等錯(cuò)誤率(Equal Error Rate,EER)。在自動(dòng)說(shuō)話人確認(rèn)系統(tǒng)中,系統(tǒng)可能把偽裝者誤認(rèn)為目標(biāo)說(shuō)話人而錯(cuò)誤地接受,為錯(cuò)誤接受率(False Acceptance Rate,F(xiàn)AR);也可能把目標(biāo)說(shuō)話人誤認(rèn)為偽裝者而錯(cuò)誤地拒絕,為錯(cuò)誤拒識(shí)率(False Rejection Rate,F(xiàn)RR)。兩個(gè) 指標(biāo) 對(duì) 應(yīng)的 公式如下[25]:

FAR 和FRR 是兩個(gè)矛盾的參量指標(biāo),一個(gè)指標(biāo)降低會(huì)導(dǎo)致另一參量上升。自動(dòng)說(shuō)話人確認(rèn)系統(tǒng)的性能指標(biāo)用 EER 來(lái)表示,它是 FAR 和 FRR 相等時(shí)系統(tǒng)的性能,代表了 FAR 和 FRR 的一個(gè)平衡點(diǎn)。當(dāng)利用EER 評(píng)估偽裝效果時(shí),EER 的數(shù)值越大,說(shuō)明自動(dòng)說(shuō)話人確認(rèn)系統(tǒng)的識(shí)別效果越差,同時(shí)也說(shuō)明了語(yǔ)音偽裝造成的威脅越大,偽裝效果越好。
語(yǔ)音偽裝防御系統(tǒng)具有的先驗(yàn)知識(shí)的不同,造成了語(yǔ)音偽裝防御效果的很大差別。根據(jù)語(yǔ)音偽裝防御系統(tǒng)對(duì)語(yǔ)音偽裝方式及其參數(shù)的知情程度,可以將語(yǔ)音偽裝防御場(chǎng)景分為三種類型:
(1)黑盒系統(tǒng)。語(yǔ)音偽裝防御系統(tǒng)完全不知道測(cè)試語(yǔ)音經(jīng)過(guò)了語(yǔ)音偽裝處理。
(2)白盒系統(tǒng)。語(yǔ)音偽裝防御系統(tǒng)知道測(cè)試語(yǔ)音采用的完整偽裝策略,包括偽裝處理方法和確切參數(shù)值。
(3)灰盒系統(tǒng)。在以上兩種極端情況之間,可以定義第三種語(yǔ)音偽裝防御系統(tǒng),該系統(tǒng)知道測(cè)試語(yǔ)音采用的部分偽裝策略。例如,灰盒系統(tǒng)知道語(yǔ)音偽裝方法,但不知道它的參數(shù)值。這種防御場(chǎng)景可能更實(shí)際,因?yàn)檎Z(yǔ)音偽裝處理方法可能是開(kāi)源的,但偽裝者使用的具體參數(shù)策略則不太容易獲取到。
語(yǔ)音偽裝技術(shù)的出現(xiàn)給說(shuō)話人識(shí)別系統(tǒng)帶來(lái)很大的困難,實(shí)驗(yàn)發(fā)現(xiàn),不采取偽裝防御策略,利用當(dāng)前最先進(jìn)的基于x-vector 的自動(dòng)說(shuō)話人確認(rèn)模型對(duì)電子偽裝后的語(yǔ)音進(jìn)行識(shí)別,EER 高達(dá)30%以上,幾乎無(wú)法辨認(rèn)出偽裝者的身份。但是,采用了語(yǔ)音偽裝防御策略的說(shuō)話人識(shí)別系統(tǒng)EER明顯降低,白盒語(yǔ)音偽裝防御系統(tǒng)的EER 可以降至3.9%[26]。
隨著智能語(yǔ)音交互應(yīng)用的不斷發(fā)展,語(yǔ)音代表個(gè)人身份特征的場(chǎng)景日益廣泛,急需有效的語(yǔ)音偽裝防御對(duì)策的出現(xiàn)。本節(jié)將概括目前已有的語(yǔ)音偽裝判別策略,并分別介紹針對(duì)人為偽裝語(yǔ)音和電子偽裝語(yǔ)音的身份辨識(shí)對(duì)策。
在進(jìn)行說(shuō)話人身份鑒定之前,有效判斷待測(cè)語(yǔ)音是否經(jīng)過(guò)偽裝以及經(jīng)過(guò)何種類型的偽裝,是后續(xù)選擇合適說(shuō)話人身份辨識(shí)系統(tǒng)的前提,可有效提高聲紋識(shí)別的識(shí)別率。
語(yǔ)音偽裝判別的研究主要基于語(yǔ)音偽裝能夠?qū)σ糍|(zhì)和部分語(yǔ)音特征產(chǎn)生一些重要的影響。研究人員在仔細(xì)分析了偽裝語(yǔ)音的生成原理后發(fā)現(xiàn),語(yǔ)音偽裝過(guò)程可能會(huì)導(dǎo)致生成的偽裝語(yǔ)音與自然語(yǔ)音在某些語(yǔ)音特征方面存在差異,因此可以利用這些不一致性構(gòu)建檢測(cè)特征。例如,文獻(xiàn)[27]提出了MGDCC(Modified Group Delay Cepstral Coefficients) 特征,它同時(shí)綜合了語(yǔ)音頻譜中的幅度和相位信息;文獻(xiàn)[28]根據(jù)偽裝語(yǔ)音與正常語(yǔ)音基音周期之間的差異,利用PP(Pitch Pattern)特征進(jìn)行語(yǔ)音偽裝鑒定。
目前,關(guān)于語(yǔ)音偽裝鑒定方法的研究已經(jīng)取得了不錯(cuò)的成果,采用圖4 所示的特征參數(shù)與分類器相結(jié)合的方法能達(dá)到較高的檢出率。HUANG J W 等[29-31]提出了利用 MFCC 作為聲學(xué)特征,采用 SVM 分類器從真實(shí)語(yǔ)音中檢出電子偽裝語(yǔ)音的算法。采用交叉?zhèn)窝b法和交叉語(yǔ)料庫(kù)對(duì)算法進(jìn)行測(cè)試,偽裝語(yǔ)音的檢出率均可達(dá)到 90%以上。李燕萍等[32]在前人工作的基礎(chǔ)上提出了一種SVM 分類器結(jié)合高斯混合模型(Gaussian Mixture Model,GMM)均值組合特征參數(shù)的電子語(yǔ)音偽裝鑒定方法,通過(guò)GMM 模型對(duì)電子偽裝語(yǔ)音建模,將其均值矢量構(gòu)成組合特征向量作為SVM 分類器訓(xùn)練和鑒別的特征參數(shù)。實(shí)驗(yàn)結(jié)果證明,這種方法對(duì)于電子偽裝語(yǔ)音的鑒定率達(dá)到90%。

圖4 電子偽裝鑒定原理框圖
為了提高對(duì)低失真語(yǔ)音的檢測(cè),一些機(jī)器學(xué)習(xí)及深度學(xué)習(xí)模型也被應(yīng)用到語(yǔ)音偽裝判別工作中。文獻(xiàn)[33]利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)來(lái)識(shí)別檢測(cè)電子偽裝語(yǔ)音信息,準(zhǔn)確率高于95%。文獻(xiàn)[34]提出了一種基于稠密卷積網(wǎng)絡(luò)的偽語(yǔ)音檢測(cè)方法,通過(guò)對(duì)核約簡(jiǎn)的優(yōu)化和對(duì)瓶頸層的利用,達(dá)到了較高的計(jì)算效率,對(duì)數(shù)據(jù)庫(kù)內(nèi)部和跨數(shù)據(jù)庫(kù)的平均準(zhǔn)確率為96.45%,優(yōu)于目前已有的方法。
當(dāng)前關(guān)于語(yǔ)音偽裝鑒定算法的研究主要集中于降低特征參數(shù)維度及計(jì)算復(fù)雜性、提高跨庫(kù)交叉檢出率、減輕對(duì)后續(xù)聲紋識(shí)別系統(tǒng)的冗余影響等方面。
由于人為偽裝的偽裝效果受到偽裝者自身偽裝能力的影響,即使是專業(yè)的模仿者,也僅僅是模仿目標(biāo)說(shuō)話人的部分特征。因此,人為偽裝的防御主要集中在研究偽裝過(guò)程中不變的語(yǔ)音特征參數(shù)。
為了探求人為偽裝與語(yǔ)音特征參數(shù)之間的關(guān)系,研究人員針對(duì)不同的偽裝方法及不同的語(yǔ)音特征參數(shù)做了相關(guān)研究。例如,文獻(xiàn)[35]分析了咬物偽裝對(duì)元音共振峰的影響,并詳細(xì)描述了共振峰的比例變化;文獻(xiàn)[36]研究了改變音調(diào)及捏鼻子等非電子語(yǔ)音偽裝對(duì)語(yǔ)音基音頻率的影響;而文獻(xiàn)[37]研究了耳語(yǔ)偽裝對(duì)基音頻率、語(yǔ)音強(qiáng)度及音質(zhì)的影響。研究發(fā)現(xiàn),說(shuō)話人識(shí)別中常用的特征參數(shù)會(huì)受到人為偽裝的干擾,一定程度影響ASV 系統(tǒng)的識(shí)別效果。
清華大學(xué)信息技術(shù)研究院語(yǔ)音和語(yǔ)言技術(shù)中心(CSLT)王東在研究中發(fā)現(xiàn),人與人對(duì)話中無(wú)處不在的瑣碎事件,如咳嗽、大笑、“喂”等,雖然時(shí)長(zhǎng)較短且不清晰,但在偽裝語(yǔ)音身份鑒定的情況下是非常有價(jià)值的。因?yàn)樗鼈冚^少受到人為故意改變,所以可以用來(lái)從偽裝語(yǔ)音中識(shí)別說(shuō)話人身份[38]。實(shí)驗(yàn)發(fā)現(xiàn),利用瑣碎事件對(duì)人為偽裝進(jìn)行聲紋識(shí)別,識(shí)別效果有了很大改進(jìn)[39]。
對(duì)于電子偽裝語(yǔ)音的身份辨識(shí)主要考慮兩種思路:一種是將偽裝語(yǔ)音還原得到正常語(yǔ)音,然后利用目前發(fā)展成熟的 i-vector 或 x-vector 等自動(dòng)說(shuō)話人確認(rèn)系統(tǒng)進(jìn)行識(shí)別;另一種是設(shè)計(jì)偽裝語(yǔ)音特征補(bǔ)償算法,對(duì)現(xiàn)有的自動(dòng)說(shuō)話人確認(rèn)系統(tǒng)進(jìn)行改進(jìn)。
3.3.1 電子偽裝語(yǔ)音的還原
電子偽裝語(yǔ)音的還原是指通過(guò)一定的算法來(lái)消除語(yǔ)音中的電子偽裝特征,生成更為接近原始音頻的語(yǔ)音。電子偽裝語(yǔ)音還原最直接的方法是推導(dǎo)出變聲算法的逆運(yùn)算,然后根據(jù)逆運(yùn)算算法處理偽裝語(yǔ)音,從而得到原始正常語(yǔ)音。然而這種方法受到偽裝算法的封閉性和多樣性制約,很難得到推廣。但是原始語(yǔ)音轉(zhuǎn)換為電子偽裝語(yǔ)音的過(guò)程存在一定的變化規(guī)律,因此可以通過(guò)統(tǒng)計(jì)對(duì)比原始語(yǔ)音與電子偽裝語(yǔ)音之間的聲紋偏差特征,為電子偽裝語(yǔ)音的還原提供依據(jù)。目前,偽裝語(yǔ)音還原算法可分為基于特征變化規(guī)律的傳統(tǒng)還原方法以及基于深度學(xué)習(xí)技術(shù)的還原方法[40]。
(1)基于特征變化規(guī)律的還原方法
南京郵電大學(xué)林樂(lè)[41]根據(jù)電子偽裝語(yǔ)音的變聲規(guī)律,利用語(yǔ)音信號(hào)重采樣技術(shù)和基音同步疊加方法實(shí)現(xiàn)了電子偽裝語(yǔ)音的還原。該方法首先采用重采樣技術(shù)將電子偽裝語(yǔ)音的基音頻率調(diào)整至與正常語(yǔ)音相接近的程度,然后利用PSOLA 的方法在保持基音頻率相對(duì)穩(wěn)定的情況下,將語(yǔ)音時(shí)長(zhǎng)調(diào)整至正常水平。
實(shí)驗(yàn)發(fā)現(xiàn),利用這種方法還原后的電子偽裝語(yǔ)音雖然丟失了部分語(yǔ)音細(xì)節(jié),但仍然保留了用于辨認(rèn)說(shuō)話人身份的信息(主要集中在低頻部分),因此可以通過(guò)還原處理后的電子偽裝語(yǔ)音識(shí)別出該語(yǔ)音的說(shuō)話人。
(2)基于深度學(xué)習(xí)技術(shù)的還原方法
隨著深度學(xué)習(xí)技術(shù)的廣泛應(yīng)用,華東政法大學(xué)王永全提出了一種基于擴(kuò)大的因果卷積神經(jīng)網(wǎng)絡(luò)(Dilated Casual Convolution Neural Network,DC-CNN)的電子偽裝語(yǔ)音還原模型[42]。該還原模型具有非線性映射性、擴(kuò)展性、多適應(yīng)性與條件性、并發(fā)性等明顯特點(diǎn),能有效削減語(yǔ)音中的電子偽裝特征。將還原語(yǔ)音與原始語(yǔ)音進(jìn)行聲紋特征比對(duì)、LPC數(shù)據(jù)分析和語(yǔ)音同一性的人耳測(cè)聽(tīng)辨識(shí),結(jié)果表明,還原語(yǔ)音與原始語(yǔ)音的聲紋特征十分吻合,且實(shí)現(xiàn)了高質(zhì)量的共振峰波形復(fù)原,鋼琴曲和英文語(yǔ)音的共振峰參數(shù)總體還原擬合率分別達(dá)到79.03%和79.06%,遠(yuǎn)超電子偽裝語(yǔ)音與原始語(yǔ)音35%的相似比例,較好地實(shí)現(xiàn)了電子偽裝的鋼琴曲和英文語(yǔ)音的還原。
3.3.2 自動(dòng)說(shuō)話人確認(rèn)系統(tǒng)補(bǔ)償策略
(1)基于DTW 模型補(bǔ)償?shù)淖R(shí)別方法
南京郵電大學(xué)陶定元[43]提出了基于DTW 模型補(bǔ)償?shù)碾娮觽窝b語(yǔ)音說(shuō)話人識(shí)別方法,如圖5 所示。該方法提取語(yǔ)音的梅爾倒譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC)作為特征參數(shù),通過(guò)動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)模型進(jìn)行偽裝程度鑒定,再利用矢量量化(Vector Quantization,VQ)模型進(jìn)行說(shuō)話人識(shí)別,從而設(shè)計(jì)了DTW 與VQ 相結(jié)合的電子偽裝語(yǔ)音說(shuō)話人識(shí)別系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)一定程度上緩解了VQ 說(shuō)話人識(shí)別系統(tǒng)對(duì)電子偽裝語(yǔ)音識(shí)別率過(guò)低的問(wèn)題,識(shí)別效果得到了明顯改善。
(2)利用基頻比補(bǔ)償特征參數(shù)的識(shí)別方法

圖5 基于DTW 模型補(bǔ)償?shù)膫窝b語(yǔ)音說(shuō)話人識(shí)別框圖
針對(duì)基于基頻線性變換的電子偽裝語(yǔ)音,文獻(xiàn)[44]提出用基頻比來(lái)估計(jì)偽裝程度,進(jìn)而還原語(yǔ)音特征參數(shù)的抗偽裝攻擊的說(shuō)話人識(shí)別系統(tǒng),其原理框圖如圖6 所示。該方法根據(jù)待測(cè)語(yǔ)音與注冊(cè)語(yǔ)音的基頻比估計(jì)偽裝程度,利用估計(jì)出的偽裝程度修正待測(cè)語(yǔ)音的 MFCC,從而得到還原后的 MFCC 特征。將提出的方法作為特征還原工具應(yīng)用于GMMUBM 說(shuō)話人識(shí)別系統(tǒng)的前端,可提高電子偽裝語(yǔ)音偽裝者的識(shí)別準(zhǔn)確率,EER 僅為 3%~4%,明顯優(yōu)于未經(jīng)還原的MFCC 特征的40%。
雖然關(guān)于偽裝語(yǔ)音防御對(duì)策研究經(jīng)過(guò)了幾十年的發(fā)展,但是目前仍然存在一些問(wèn)題和挑戰(zhàn),歸納起來(lái)有以下幾個(gè)方面:
(1)對(duì)于偽裝語(yǔ)音的語(yǔ)料質(zhì)量要求過(guò)于苛刻。研究發(fā)現(xiàn),當(dāng)偽裝語(yǔ)音含有噪聲或者偽裝語(yǔ)音由多種偽裝方式組合生成時(shí),利用現(xiàn)有防御對(duì)策得到的說(shuō)話人識(shí)別EER 明顯增大,這說(shuō)明當(dāng)前存在的語(yǔ)音偽裝防御對(duì)策在應(yīng)對(duì)復(fù)雜情況下的偽裝語(yǔ)音語(yǔ)料時(shí)失效。偽裝語(yǔ)音的說(shuō)話人身份鑒定技術(shù)真正應(yīng)用到實(shí)際中時(shí),通常情況下不可避免地受到各種噪聲的污染,很難直接獲取高質(zhì)量的偽裝語(yǔ)音。由于錄音環(huán)境及偽裝手段未知,噪聲及其統(tǒng)計(jì)特性都難以獲取,給偽裝語(yǔ)音的研究帶來(lái)了新的問(wèn)題。

圖6 利用基頻比補(bǔ)償特征參數(shù)的電子偽裝語(yǔ)音說(shuō)話人識(shí)別框圖
(2)偽裝語(yǔ)音還原算法的研究還有待發(fā)展。雖然目前偽裝語(yǔ)音還原算法取得了一定發(fā)展和改善,但是與原始正常語(yǔ)音相比還是存在一定差距。例如,基于基頻線性變換的電子偽裝語(yǔ)音的高頻部分會(huì)存在缺失,目前的還原算法側(cè)重于還原人耳聽(tīng)覺(jué)系統(tǒng)敏感的低頻部分,對(duì)高頻部分的還原質(zhì)量不高,會(huì)引入一些不必要的噪聲,因此還需進(jìn)一步提升還原語(yǔ)音與原始語(yǔ)音的相似度。另外,當(dāng)前現(xiàn)有的還原方法過(guò)于依賴先驗(yàn)知識(shí),只針對(duì)特定的偽裝方式,這顯然不符合實(shí)際要求。
(3)偽裝語(yǔ)音防御策略通用性不強(qiáng)。當(dāng)前偽裝語(yǔ)音防御策略的相關(guān)研究針對(duì)的偽裝語(yǔ)音偽裝方式都比較單一,但現(xiàn)實(shí)應(yīng)用中,偽裝軟件種類繁多,偽裝手段不盡相同,偽裝者可能會(huì)將人為偽裝方法和電子偽裝方法結(jié)合運(yùn)用。因此,需要提出一個(gè)具體的、穩(wěn)健的、普遍的解決方案,即使不知道語(yǔ)音偽裝方法,依然能夠有效鑒別偽裝語(yǔ)音的說(shuō)話人身份。
目前語(yǔ)音偽裝防御策略還存在很多問(wèn)題和挑戰(zhàn),語(yǔ)音偽裝的相關(guān)研究也一直是語(yǔ)音信號(hào)處理領(lǐng)域以及網(wǎng)絡(luò)空間安全領(lǐng)域的熱點(diǎn)問(wèn)題。本文認(rèn)為,未來(lái)偽裝語(yǔ)音身份鑒定相關(guān)研究也必將著力解決當(dāng)前偽裝語(yǔ)音中存在的現(xiàn)實(shí)問(wèn)題,朝著下述方向不斷發(fā)展:
(1)普適的偽裝語(yǔ)音防御方法
目前偽裝語(yǔ)音的身份鑒定容易受到偽裝方式的影響,未來(lái)的研究方向必定是研究具有通用性、高效性的偽裝身份鑒定方式,提升偽裝語(yǔ)音身份鑒定效果。針對(duì)由人為偽裝和電子偽裝結(jié)合產(chǎn)生的偽裝語(yǔ)音,可以考慮在進(jìn)行電子偽裝語(yǔ)音鑒定前消除非電子偽裝方式的影響;對(duì)于復(fù)雜多變的電子偽裝語(yǔ)音還原方法,可以試圖尋找一個(gè)通用的非線性還原函數(shù),通過(guò)調(diào)節(jié)還原函數(shù)的參數(shù),來(lái)逼近偽裝函數(shù)的反函數(shù),從而實(shí)現(xiàn)電子偽裝語(yǔ)音的還原,為偽裝語(yǔ)音身份識(shí)別奠定基礎(chǔ)。
(2)魯棒的偽裝語(yǔ)音防御方法
偽裝語(yǔ)音的研究最終將會(huì)真正運(yùn)用到實(shí)際,而真實(shí)情況下,偽裝語(yǔ)音噪聲信號(hào)混雜,語(yǔ)言也會(huì)出現(xiàn)各種各樣的情況。針對(duì)目前偽裝語(yǔ)音防御策略在真實(shí)含噪數(shù)據(jù)集上效果不理想問(wèn)題,下一步的研究可以結(jié)合當(dāng)前發(fā)展比較成熟的語(yǔ)音信號(hào)預(yù)處理和語(yǔ)音增強(qiáng)技術(shù),在不損失待測(cè)語(yǔ)音音質(zhì)的條件下有效去除噪聲,然后再進(jìn)行語(yǔ)音偽裝判別及偽裝語(yǔ)音身份鑒別,這將會(huì)是另一個(gè)提高偽裝語(yǔ)音防御系統(tǒng)性能的重要方式。
(3)可靠的偽裝語(yǔ)音防御方法
偽裝語(yǔ)音的防御對(duì)策研究的最終目標(biāo)是要保證識(shí)別結(jié)果準(zhǔn)確。近年來(lái),神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)的發(fā)展使得語(yǔ)音增強(qiáng)、語(yǔ)音合成以及說(shuō)話人識(shí)別等相關(guān)技術(shù)取得了較大進(jìn)展。未來(lái)可以嘗試采用這些先進(jìn)技術(shù)相結(jié)合,選取更加優(yōu)秀的匹配方法來(lái)提高偽裝語(yǔ)音身份鑒定準(zhǔn)確度。另外,有效地提高訓(xùn)練鑒定速度和系統(tǒng)的穩(wěn)定性是可靠的偽裝語(yǔ)音防御模型的必備條件,這也將是以后的研究重點(diǎn)之一。
聲紋識(shí)別技術(shù)的普及給人們的生活帶來(lái)了極大的便利,同時(shí)人們對(duì)于信息安全有著越來(lái)越高的需求和期望。然而,語(yǔ)音偽裝技術(shù)的出現(xiàn)給聲紋認(rèn)證產(chǎn)品帶來(lái)了極大挑戰(zhàn)。本文概括了常用的語(yǔ)音偽裝方法,介紹了偽裝語(yǔ)音的威脅量化評(píng)估指標(biāo),討論了語(yǔ)音偽裝防御對(duì)策目前存在的問(wèn)題并給出研究方向。未來(lái)的偽裝語(yǔ)音防御對(duì)策會(huì)朝著普適性、魯棒性、可靠性方向發(fā)展,同時(shí),抗偽裝的說(shuō)話人識(shí)別技術(shù)的發(fā)展也必將進(jìn)一步推動(dòng)聲紋識(shí)別技術(shù)的落地應(yīng)用和發(fā)展。