龍 華,瞿于荃,段 熒
1(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650000)
2(昆明理工大學(xué) 云南計(jì)算機(jī)國(guó)家重點(diǎn)實(shí)驗(yàn)室,昆明 650000)
硬件設(shè)施的更新迭代加速模式識(shí)別這一大領(lǐng)域的發(fā)展,圖像,文本,語(yǔ)音領(lǐng)域的技術(shù)得到突飛猛進(jìn)的進(jìn)展.作為信號(hào)處理和語(yǔ)音處理領(lǐng)域一個(gè)重要分支,許多聲紋研究者開始觸碰說(shuō)話人識(shí)別這一領(lǐng)域.文本相關(guān)方向的說(shuō)話人識(shí)別已初出茅廬,得到了大多數(shù)群眾的認(rèn)可和使用,并且有關(guān)文本相關(guān)的具體技術(shù)也已商業(yè)落地,比如小度,Siri,Ok google等.它們的出現(xiàn)使得人們的生活更加便利和暢通,人們漸漸離不開說(shuō)話人識(shí)別技術(shù)的廣泛應(yīng)用,說(shuō)話人識(shí)別技術(shù)也正在便捷人們的生活.而作為另一個(gè)方面的文本無(wú)關(guān)的說(shuō)話人識(shí)別有仍許多挑戰(zhàn)未解決,盡管已在有關(guān)技術(shù)在公安機(jī)關(guān)實(shí)現(xiàn)運(yùn)用并落地,正在進(jìn)行著追捕漏網(wǎng)犯罪嫌疑人的聲紋識(shí)別工作,但面對(duì)復(fù)雜環(huán)境下,傳統(tǒng)基于統(tǒng)計(jì)的說(shuō)話人模型全局變異空間的魯棒性有待商榷.如今的文本無(wú)關(guān)的說(shuō)話人識(shí)別正面臨著噪聲干擾,多收集信道以及短語(yǔ)音等等的挑戰(zhàn).短語(yǔ)音問(wèn)題[1]一直是讓研究員犯難的問(wèn)題之一,由于現(xiàn)實(shí)環(huán)境中,從目標(biāo)說(shuō)話人端收集語(yǔ)音信息較難,說(shuō)話人也不可能對(duì)著收集設(shè)備一直注冊(cè)幾十秒甚至是幾分鐘的時(shí)間,而對(duì)于一個(gè)生物識(shí)別技術(shù)的考驗(yàn)之一,便是便捷性,時(shí)效性.相較我們熟悉的虹膜以及人臉識(shí)別等這類的身份識(shí)別技術(shù),雖然說(shuō)話人識(shí)別有著自身的優(yōu)點(diǎn),但短語(yǔ)音似乎是現(xiàn)階段基于文本無(wú)關(guān)的說(shuō)話人識(shí)別最需要解決的阻礙的其中之一,這也成為說(shuō)話人識(shí)別一系列技術(shù)能夠商用的關(guān)鍵步驟.
針對(duì)短語(yǔ)音這一重要難點(diǎn)問(wèn)題,研究人員早在二十一世紀(jì)的初期就展開了探索.高斯混合模型的提出代替了矢量量化[2]方法,但因?yàn)橛?xùn)練每一個(gè)說(shuō)話人的高斯模型都需要大量的目標(biāo)說(shuō)話人語(yǔ)料去擬合,這無(wú)疑增大了訓(xùn)練說(shuō)話人模型的難度.通用背景模型[3]的提出解決了這一問(wèn)題,用一個(gè)通用數(shù)據(jù)集預(yù)訓(xùn)練通用說(shuō)話人模型,隨后只需要相對(duì)少量的樣本即可適應(yīng)得到每一個(gè)目標(biāo)說(shuō)話人模型.隨后的因子分析方法將說(shuō)話人模型分別按照說(shuō)話人身份差異空間和信道差異空間分別建模,但需要估計(jì)和計(jì)算的量過(guò)于偏大.2011年,Kenny P等人將說(shuō)話人差異空間和信道差異空間共同建模,提出全局變異空間的概念,從中提取出固定維度的說(shuō)話人embedding向量,i-vector[4].可以說(shuō),i-vector的出現(xiàn)將基于統(tǒng)計(jì)模型下的說(shuō)話人識(shí)別技術(shù)推向了高潮,而高性能的i-vector也成為近十年來(lái)許多世界級(jí)說(shuō)話人識(shí)別挑戰(zhàn)賽上的基線系統(tǒng).i-vector雖然簡(jiǎn)單并且計(jì)算量小,但在面對(duì)不同注冊(cè)和測(cè)試時(shí)長(zhǎng)下,也出現(xiàn)了在短語(yǔ)音條件下識(shí)別性能急劇下降的情況,說(shuō)明說(shuō)話人信息的不足直接導(dǎo)致了對(duì)語(yǔ)音后驗(yàn)概率估計(jì)的不足,針對(duì)這一點(diǎn),王錚[5]等人利用加入歷史測(cè)試語(yǔ)音信息和通用背景模型的參數(shù)信息增強(qiáng)說(shuō)話人信息,孫念[6]等人提出了多特征的聲學(xué)特征增強(qiáng)i-vector的方法,周萍[7]等人提出基于伽馬通倒譜系數(shù)的特征融合方法,但是從聲學(xué)特征的融合來(lái)說(shuō),只能改善短語(yǔ)音環(huán)境下的說(shuō)話人識(shí)別性能,對(duì)于不同時(shí)長(zhǎng)和環(huán)境不匹配的魯棒性來(lái)說(shuō),并不能從根本消除短語(yǔ)音所帶來(lái)的影響.
深度學(xué)習(xí)中各式各樣的網(wǎng)絡(luò)層出不窮,語(yǔ)音識(shí)別最早掀起深度學(xué)習(xí)的浪潮,深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用讓識(shí)別率得到的提升.學(xué)者們將目光放在了說(shuō)話人識(shí)別上面,google最早應(yīng)用的基于深度神經(jīng)網(wǎng)絡(luò)框架下的說(shuō)話人識(shí)別[8]成為第一個(gè)純正使用深度學(xué)習(xí)并且完全拋開傳統(tǒng)說(shuō)話人框架的模型.初次嘗試深度學(xué)習(xí)讓研究人員嘗到了大量語(yǔ)料庫(kù)堆疊下的甜頭,各式各樣的深度框架隨即應(yīng)用在說(shuō)話人識(shí)別上,至此說(shuō)話人識(shí)別技術(shù)由此進(jìn)入一個(gè)嶄新的時(shí)期.結(jié)合深度學(xué)習(xí),王昕[9]等人提出利用DNN輸入帶噪語(yǔ)音增強(qiáng)i-vector魯棒性.另外,人們利用深度學(xué)習(xí)可以拋去傳統(tǒng)的物理聲學(xué)特征,將深度神經(jīng)網(wǎng)絡(luò)看作是一個(gè)提取器,比如酆勇[10]等人提出從高斯伯努利受限玻爾茲曼機(jī)中提取說(shuō)話人非線性特征,田垚[11]等人提出基于深度神經(jīng)網(wǎng)絡(luò)的瓶頸特征的提取,突破傳統(tǒng)聲學(xué)特征的束縛.模型結(jié)構(gòu)上,各式各樣層出不窮.2018年,Amirsina[12]等人提出的3D-CNN網(wǎng)絡(luò)首次提出說(shuō)話人話語(yǔ)級(jí)特征這一概念并將CNN代替DNN作為說(shuō)話人模型,同年,snyder[13]等人利用時(shí)延神經(jīng)網(wǎng)絡(luò)對(duì)幀級(jí)信息進(jìn)行整合成為話語(yǔ)級(jí)信息,提取embedding向量x-vector,成為近幾年短語(yǔ)音說(shuō)話人識(shí)別技術(shù)上的熱點(diǎn).
本文針對(duì)短語(yǔ)音環(huán)境下,說(shuō)話人時(shí)域信息較少導(dǎo)致說(shuō)話人識(shí)別性能不足的問(wèn)題,提出一種利用核函數(shù)關(guān)聯(lián)分析方法融合說(shuō)話人嵌入向量的算法,旨在融合深層次說(shuō)話人嵌入特征,以此增強(qiáng)短語(yǔ)音環(huán)境下說(shuō)話身份信息,由此提高說(shuō)話人識(shí)別等誤差率和最小檢測(cè)代價(jià).
聯(lián)合因子分析對(duì)一段語(yǔ)音中包含的信息進(jìn)行了分析:說(shuō)話人的信息大部分都蘊(yùn)含在每個(gè)人的高斯均值超向量?jī)?nèi),而利用全局變異空間的方法建模對(duì)每個(gè)人的高斯均值超矢量做出了很好的表達(dá):每個(gè)人語(yǔ)音中所蘊(yùn)含的信息可以被兩部分表示,分別是話者自身固有表達(dá)自身身份的信息以及才收集話者語(yǔ)音時(shí)不同采集設(shè)備帶來(lái)的信道和環(huán)境噪聲兩部分組成,具體的表示:
M=m+Tω
(1)
上式中,T是代表全局變異空間的變換矩陣,即T矩陣,而M作為某個(gè)說(shuō)話人一句語(yǔ)音中的高斯均值超矢量被分解為一個(gè)與特定說(shuō)話人和信道無(wú)關(guān)的通用背景模型均值超矢量m以及在T矩陣上進(jìn)行投影所得到一個(gè)固定低維向量,我們稱之為全局變異空間因子向量ω,該向量是包含了整段語(yǔ)音中說(shuō)話人和信道信息,而這就是身份向量i-vector.i-vector模型技術(shù)的重點(diǎn)就是全局變異空間矩陣的估計(jì)和i-vector的提取.
全局變異空間矩陣的估計(jì)方面,首先需要提取鮑姆威爾琦(Baum-welch,BW)統(tǒng)計(jì)量,接著在E步計(jì)算全局變異空間隱變量因子的后驗(yàn)分布,M步最大化T矩陣,經(jīng)過(guò)迭代多次直至停止,最后得到全局變異空間矩陣.而上述的基礎(chǔ)條件是我們已經(jīng)用一個(gè)無(wú)關(guān)背景的數(shù)據(jù)集訓(xùn)練好了通用背景模型的情況下.給定第s個(gè)說(shuō)話人的第h句話語(yǔ),有若干幀{Y1,Y2,Y3,…}所組成,那么對(duì)于每一個(gè)高斯分量c,我們需要計(jì)算它的零階,一階BW的統(tǒng)計(jì)量如下:
(2)
(3)
其中mc是第c個(gè)高斯混合模型的分量所對(duì)應(yīng)的均值矢量,對(duì)于t時(shí)刻,γt(c)的意思則是在t時(shí)刻Yt語(yǔ)音分布落入第c個(gè)高斯模型狀態(tài)的后驗(yàn)概率,如下式計(jì)算:
(4)

E步:對(duì)于第s位話者的第h句話語(yǔ)有:它的身份向量i-vector的表示記作ωs,h,并令l(s)=I+TTΣ-1Nh(s)T,則:
(5)
(6)
M步:接著我們需要更新參數(shù)矩陣和最大化似然函數(shù)值,參數(shù)矩陣如下:
(7)
(8)
這里為T矩陣迭代便捷,φ,φ是推導(dǎo)得出的更新步驟的結(jié)論,記高斯混合度為c=1,2,…,C,提取的特征參數(shù)維度f(wàn)=1,2,…,P,令i=(c-1)P+f,式(9)所需要估計(jì)的矩陣,按照行來(lái)進(jìn)行估計(jì),Ti表示T的第i行,φi表示φ的第i行,則說(shuō)話人全局變異空間矩陣T的更新公式如下:
(9)
訓(xùn)練完T矩陣后,通過(guò)測(cè)試集和注冊(cè)集語(yǔ)音,我們就可以利用式(5)得到每個(gè)說(shuō)話人對(duì)應(yīng)的身份向量i-vector.從2.1節(jié)所示,話者的身份向量i-vector的提取與T全局變異矩陣的訓(xùn)練有著密不可分的關(guān)系,倘若我們進(jìn)行注冊(cè)和測(cè)試的話語(yǔ)能夠?yàn)槲覀兲峁┏渥愕摩胻(c),那么全局變異矩陣的充足訓(xùn)練會(huì)讓我們所提取的i-vector在表征話者身份方面有著較好的詮釋.在短語(yǔ)音下的說(shuō)話人識(shí)別,從根本上來(lái)說(shuō)就是{Y1,Y2,Y3,…,Yt}的減少,繼而滿足不了零階和一階BW統(tǒng)計(jì)量,而語(yǔ)音數(shù)據(jù)量過(guò)少勢(shì)必造成統(tǒng)計(jì)量估計(jì)的偏差.對(duì)于GMM-UBM以及i-vector等基于語(yǔ)音概率分布進(jìn)行建模的統(tǒng)計(jì)模型來(lái)講,短語(yǔ)音缺少信息量的前提下使得對(duì)語(yǔ)音分布存在的偏差,繼而生成的說(shuō)話人身份向量在統(tǒng)計(jì)上變得并不準(zhǔn)確,這似乎也成為i-vector不可逾越的最大弊端.
使用一個(gè)較為低維的向量去包含一個(gè)具有身份的對(duì)象這就是嵌入(Embedding)技術(shù)的初衷所在.在說(shuō)話人識(shí)別中,這里的對(duì)象指的是說(shuō)話人的語(yǔ)音.嵌入向量能夠表達(dá)對(duì)應(yīng)對(duì)象的某些特征,也可以說(shuō)將對(duì)象進(jìn)行了稠密地濃縮,將其特性包含在了一個(gè)向量之中.說(shuō)話人識(shí)別深受影響,Snyder等人提出使用時(shí)延神經(jīng)網(wǎng)絡(luò)[14](Time Delay Neural Networks,TDNN)提取說(shuō)話人語(yǔ)音的embeddings 特征,這就是x-vector的由來(lái).架構(gòu)如圖1所示,將語(yǔ)音處理后分塊輸入至5層的時(shí)滯神經(jīng)網(wǎng)絡(luò),之后是一個(gè)統(tǒng)計(jì)池化層,它的目的是將幀級(jí)(frame level)特征整合至話語(yǔ)級(jí)(uttenarence level)特征上,具體是計(jì)算幀級(jí)特征的均值以及標(biāo)準(zhǔn)差.緊接著的使用兩層全連接層充當(dāng)嵌入層用于對(duì)話語(yǔ)級(jí)語(yǔ)音進(jìn)行抽取embedding向量,網(wǎng)絡(luò)最后一層為softmax層用于對(duì)訓(xùn)練集的分類,輸出的神經(jīng)元個(gè)數(shù)和訓(xùn)練網(wǎng)絡(luò)中說(shuō)話人數(shù).由于TDNN 可以看作是一個(gè)一維的卷積,利用其時(shí)滯的優(yōu)點(diǎn)可以捕捉任何時(shí)段的信息,這也讓x-vector 在短語(yǔ)音上表現(xiàn)上優(yōu)于i-vector.

圖1 基于時(shí)滯神經(jīng)網(wǎng)絡(luò)的x-vector提取圖
基于全局變異空間模型所提取的說(shuō)話人向量i-vector和基于時(shí)滯神經(jīng)網(wǎng)絡(luò)所提取的x-vector,雖然一個(gè)基于統(tǒng)計(jì)模型一個(gè)基于深度框架,但從某種意義上來(lái)講,i-vector說(shuō)話人向量和x-vector向量都屬于embedding嵌入技術(shù)的一種,我們也叫它們嵌入向量[15].原因在于它們將可變長(zhǎng)度的說(shuō)話人語(yǔ)音映射成為固定維度的說(shuō)話人嵌入向量來(lái)表征.將原始語(yǔ)音從時(shí)域變換為頻域后進(jìn)行簡(jiǎn)單處理,后得到說(shuō)話人淺層聲學(xué)特征如梅爾頻率倒譜系數(shù)等,經(jīng)過(guò)訓(xùn)練全局變異空間模型和時(shí)滯神經(jīng)網(wǎng)絡(luò)后,通過(guò)注冊(cè)和測(cè)試集抽取得到i-vector,x-vector這類深層說(shuō)話人特征.在這兩個(gè)分別獨(dú)立進(jìn)行識(shí)別得說(shuō)話人系統(tǒng)里面,無(wú)獨(dú)有偶,被提取出來(lái)的i-vector和x-vector也可以單獨(dú)代表該說(shuō)話人進(jìn)行下一步的相似度判別分析,例如余弦距離等.
作為生物識(shí)別的其中之一,對(duì)于說(shuō)話人識(shí)別的前沿技術(shù)許多都是從人臉識(shí)別的技術(shù)上總結(jié)而來(lái)的,比如概率線性判別分析(Probabilistic Linear Discriminant Analysis,PLDA)[16],最新的Facenet[17]以及三元組損失[18]等.核典型關(guān)聯(lián)分析(Kernel Canonical Correlation Analysis,KCCA)[19]也是在人臉識(shí)別多視圖學(xué)習(xí)中較為常用得一種.對(duì)于一維向量之間的相似度關(guān)聯(lián)關(guān)系來(lái)說(shuō),皮爾遜相關(guān)系數(shù)可以很好的解決這一問(wèn)題,而面對(duì)兩組隨機(jī)變量時(shí),尋找兩者的線性投影的最大程度上的相關(guān),這就是典型關(guān)聯(lián)分析.它是一種將高維變量降維至一維的方法,從而分析其一維情況下的線性關(guān)聯(lián)關(guān)系的方法,而KCCA則通過(guò)核函數(shù)將兩組樣本投影至高維空間上進(jìn)行分析,從而減少降維所帶來(lái)的信息量損失.
基于KCCA的說(shuō)話人嵌入向量融合方法,旨在學(xué)習(xí)i-vector和x-vector兩種說(shuō)話人深層次嵌入向量之中的非線性關(guān)聯(lián)關(guān)系.本文提出利用核典型關(guān)聯(lián)分析方法分析抽取得到的說(shuō)話人嵌入向量之中得非線性特征信息,學(xué)習(xí)全局變異空間模型中i-vector和時(shí)滯神經(jīng)網(wǎng)絡(luò)下的x-vector的非線性映射關(guān)系,從中提取經(jīng)過(guò)非線性映射所得到得投影向量a和b,以此增強(qiáng)說(shuō)話人識(shí)別在短語(yǔ)音下的信息不足問(wèn)題.
首先,在訓(xùn)練階段,經(jīng)由訓(xùn)練集我們訓(xùn)練好全局變異空間和時(shí)滯神經(jīng)網(wǎng)絡(luò).將注冊(cè)和測(cè)試集階段將每一個(gè)人每句話的i-vector和x-vector提取出來(lái),假設(shè)說(shuō)話人的i-vector為I=(i1,…,in),x-vector為X=(x1,…,xs),這里將多者進(jìn)行截取的操作,最終的維度為p維,則KCCA將數(shù)據(jù)通過(guò)兩個(gè)非線性φ,η映射至一個(gè)高維特征空間F上,由下式表示:
(10)
其中φ(I),η(X)∈F空間,設(shè)核函數(shù)為ki和kx,則令:
(11)
KCCA的目標(biāo)與典型關(guān)聯(lián)分析類似,只不過(guò)是在高維空間里去尋找投影方向上得αφ,βη在相關(guān)性最大下式:
(12)
其中,向量αφ是存在于i-vector向量所映射在的高維空間之中,αφ存在于φ(I)=(φ1(i),…,φp(i)所表示的高緯度空間之中,則存在N維的向量ζ使得αφ=φ(I)ζ,并且βη也存在于η(X)=(η1(x),…,ηp(x)之中,故存在N維向量ψ讓?duì)娄?η(X)ψ,于是可以到的:
(13)
我們將KCCA轉(zhuǎn)為約束問(wèn)題,則約束條件為:
(14)
則我們的優(yōu)化目標(biāo)則僅剩下式(13)中的分子項(xiàng),用拉格朗日乘子法來(lái)求解分子項(xiàng)的最優(yōu)化問(wèn)題,如下式子:
(15)
其中,λ1和λ2為拉格朗日乘子,若令λ1=λ2,分別對(duì)式(15)中ξ和ψ求導(dǎo),然后令其等式等于0,即可解出ξ,ψ,接著可得到I,X之間的非線性投影向量組為:
(16)
至此,利用KCCA獲得i-vector與x-vector非線性相關(guān)的特征向量a和b后,即仿射向量,兩者的維度都為p×1,將其二者結(jié)合,即得到新的說(shuō)話人向量,稱為k-xi向量.綜上,基于KCCA的說(shuō)話人嵌入向量融合方法步驟如圖2所示.

圖2 基于KCCA的說(shuō)話人嵌入向量方法流程圖
實(shí)驗(yàn)語(yǔ)料庫(kù)為L(zhǎng)ibrispeech英文名著讀物語(yǔ)料庫(kù),和aidatatang中文普通話語(yǔ)料庫(kù)以及實(shí)驗(yàn)室自建普通話語(yǔ)料庫(kù)所組成的混合語(yǔ)料庫(kù),語(yǔ)料庫(kù)總?cè)藬?shù)為975人,將其分為開發(fā)集,訓(xùn)練集,注冊(cè)集以及測(cè)試集.注冊(cè)集設(shè)置為100人,測(cè)試集人數(shù)與注冊(cè)集保持相一致.開發(fā)集設(shè)置100人,目的是對(duì)可調(diào)參數(shù)進(jìn)行實(shí)驗(yàn),選取最優(yōu)應(yīng)用至注冊(cè)和測(cè)試集內(nèi),其余人數(shù)全部歸為訓(xùn)練集之中.語(yǔ)音預(yù)處理方面,采樣率統(tǒng)一為16Khz,預(yù)加重系數(shù)0.9375,對(duì)信號(hào)分幀處理幀長(zhǎng)設(shè)置為25毫秒,幀移為10毫秒,對(duì)信號(hào)加窗類型為漢明窗,使用基于譜熵的話音檢測(cè)來(lái)除去靜音段語(yǔ)音,原因主要是語(yǔ)料庫(kù)種大多說(shuō)話人語(yǔ)音采集場(chǎng)景接近場(chǎng)景下,實(shí)驗(yàn)在驗(yàn)證短語(yǔ)音下說(shuō)話人嵌入向量識(shí)別性上盡量避免其余的干擾信息.而在后端處理上,采用LDA對(duì)說(shuō)話人嵌入向量進(jìn)行降維處理,信道補(bǔ)償和相似度打分采用概率線性判別分析的方法.
本文基線系統(tǒng)分別設(shè)置為基于全局變異空間所提取的i-vector向量,基于深度神經(jīng)網(wǎng)絡(luò)提取的d-vector向量和基于時(shí)滯神經(jīng)網(wǎng)絡(luò)提取的x-vector這3種說(shuō)話人embedding向量.評(píng)價(jià)指標(biāo)方面:本次實(shí)驗(yàn)選取最為常用的誤差率(Equal Error Rate,EER)和NIST SRE 2010說(shuō)話人挑戰(zhàn)賽所提出最小檢測(cè)代價(jià)(Minimum Detection Cost Function,minDCF).
實(shí)驗(yàn)對(duì)比模型方面,選擇3種說(shuō)話人識(shí)別框架和一種分?jǐn)?shù)融合方法.分別是基于全局變異空間的i-vector,基于深度神經(jīng)網(wǎng)絡(luò)的d-vector和基于時(shí)滯神經(jīng)網(wǎng)絡(luò)的x-vector 3種說(shuō)話人嵌入模型以及將i-vector與x-vector說(shuō)話人向量在相似度判決后的最后得分進(jìn)行加權(quán)平均的方法.全局變異空間模型方面設(shè)置,輸入特征為20維梅爾倒譜系數(shù),一階差分以及二階差分系數(shù)的拼接組合,全局變異空間矩陣維度為600.深度神經(jīng)網(wǎng)絡(luò)方面,取24維Filterbank作為輸入特征,深度網(wǎng)絡(luò)為四層全連接,后兩層設(shè)置dropout,系數(shù)為0.5,末端為softmax層,輸出節(jié)點(diǎn)數(shù)是訓(xùn)練集人員的個(gè)數(shù).從最后一層全連接層提取嵌入向量,即為d-vector說(shuō)話人向量.時(shí)滯神經(jīng)網(wǎng)絡(luò)方面,網(wǎng)絡(luò)節(jié)點(diǎn)與文獻(xiàn)[13]保持一致,輸入特征為24維Fbank特征,網(wǎng)絡(luò)訓(xùn)練優(yōu)化器采用Adam,我們?cè)趯?shí)驗(yàn)之中也發(fā)現(xiàn)了在語(yǔ)料庫(kù)有限的情況下Adam優(yōu)化器在e輪次上比SGD優(yōu)化器收斂速度更迅速許多,網(wǎng)絡(luò)最后端為softmax分類器,輸出節(jié)點(diǎn)與訓(xùn)練集人保持一致.在x-vector框架的全連接層第一層提取出說(shuō)話人嵌入向量x-vector,全連接第一層輸出節(jié)點(diǎn)為512.
完成準(zhǔn)備工作后,使用基線系統(tǒng)與k-xi向量進(jìn)行說(shuō)話人識(shí)別性能的比較情況,以研究從全局變異空間模型和時(shí)滯神經(jīng)網(wǎng)絡(luò)中所獲取的互補(bǔ)信息并以此增強(qiáng)說(shuō)話人身份信息的有效性.
首先,在建立的開發(fā)集上對(duì)KCCA以及核函數(shù)等超參數(shù)和多選項(xiàng)進(jìn)行了測(cè)試實(shí)驗(yàn)選擇,選取最優(yōu)以便進(jìn)一步的使用,3種核函數(shù)分別是:線性核函數(shù),多項(xiàng)式核函數(shù)以及高斯核函數(shù).首先是線性核函數(shù)并沒(méi)有專門需要設(shè)置的參數(shù),而對(duì)于多項(xiàng)式核函數(shù)超參數(shù)為d以及高斯核函數(shù)中σ值采用交叉驗(yàn)證的方法進(jìn)行驗(yàn)證來(lái)確定超參值.
從圖3,圖4中可確定σ,d,的值分別為0.5,5.確定好參數(shù)后,進(jìn)行下一步核函數(shù)的選擇工作,從圖5中可看出,高斯核函數(shù)表現(xiàn)最優(yōu),這也印證了在核函數(shù)的選擇上,對(duì)于特征參數(shù)緯度較大的工作來(lái)說(shuō),高斯核函數(shù)較為合適,且多項(xiàng)式核函數(shù)的d為高階時(shí).參數(shù)過(guò)多容易造成計(jì)算量的增加,故本文采用σ值為0.5的高斯核函數(shù)對(duì)說(shuō)話人嵌入向量進(jìn)行下一步的處理工作.

圖3 不同σ值下高斯核函數(shù)對(duì)說(shuō)話人識(shí)別的等誤差率

圖4 各d值下多項(xiàng)式核函數(shù)對(duì)說(shuō)話人識(shí)別的等誤差率

圖5 不同核函數(shù)對(duì)說(shuō)話人識(shí)別性能的影響
表1和表2報(bào)告了本研究中使用的不同說(shuō)話人識(shí)別嵌入向量在不同測(cè)試語(yǔ)音下的性能指標(biāo).首先看來(lái),在全時(shí)長(zhǎng)測(cè)試語(yǔ)音下,4種嵌入向量之中比較,基于分?jǐn)?shù)融合方法的等誤差率在五者中較低,而minDCF上面,融合方法同為最低.這說(shuō)明在全時(shí)長(zhǎng)注冊(cè)和測(cè)試的情況下,基于全局變異空間的i-vector和時(shí)滯神經(jīng)網(wǎng)絡(luò)的x-vector在分?jǐn)?shù)上的融合已經(jīng)能達(dá)到較好的性能.刨去分?jǐn)?shù)融合的方法,令人眼前一亮的是i-vector在全時(shí)長(zhǎng)測(cè)試語(yǔ)音下的EER上表現(xiàn)最優(yōu),相比之下的基于時(shí)滯神經(jīng)網(wǎng)絡(luò)的x-vector并沒(méi)有像文獻(xiàn)[20]所指出的那樣性能比i-vector好,原因可能是在以下3點(diǎn):預(yù)處理階段本次實(shí)驗(yàn)未對(duì)時(shí)滯神經(jīng)網(wǎng)絡(luò)的輸入特征進(jìn)行3秒窗口內(nèi)的歸一化操作,分?jǐn)?shù)判決打分階段未使用分?jǐn)?shù)歸一化的操作在去除混語(yǔ)料庫(kù)下的多信道影響,以及未添加噪音和回響去增強(qiáng)x-vector的魯棒性所導(dǎo)致.而k-xi嵌入向量在全時(shí)長(zhǎng)的表現(xiàn),相較于x-vector時(shí)提升了等誤差率,相較于i-vector反而變成冗余部分,并且在面對(duì)同為融合思想下的分?jǐn)?shù)融合法,在全時(shí)長(zhǎng)下并未凸顯出自身學(xué)習(xí)雙方非線性相關(guān)的優(yōu)勢(shì)所在.好在10秒測(cè)試語(yǔ)音長(zhǎng)度下,本文所提出的k-xi嵌入向量相比i-vector,d-vector,x-vector以及分?jǐn)?shù)融合在等誤差率方面降低了17.02%,19.49%,1.34%,0.96%;minDCF方面相比i-vector和d-vector和分?jǐn)?shù)融合下降了14.67%,7.24%,1.54%,相比x-vector反而上升了3.12%.在測(cè)試語(yǔ)音長(zhǎng)度為5秒時(shí),k-xi嵌入向量在等誤差率方面,對(duì)比前四者分別下降了14.84%,20.45%,1.95%,0.98%;minDCF方面相比i-vector和d-vector同比下降3.79%,6.58%,且與x-vector和融合算法保持一致.在極短測(cè)試語(yǔ)音2秒條件下,等誤差率上k-xi向量比i-vector,d-vector和x-vector和融合方法下降了17.01%,21.21%,5.05%,4.54%;minDCF方面同比下降了5.62%,7.68%,2.33%,4.55%.

表1 不同測(cè)試語(yǔ)音長(zhǎng)度下說(shuō)話人嵌入向量的等誤差率

表2 不同測(cè)試語(yǔ)音長(zhǎng)度下說(shuō)話人嵌入向量的最小權(quán)衡代價(jià)
隨著測(cè)試時(shí)間的縮短,k-xi向量在等誤差率和minDCF上相比其他四者有了很大程度上的降低,尤其在測(cè)試語(yǔ)音3秒的情況下,降低幅度較大,這也反映了短語(yǔ)音下基于全局變異空間對(duì)于語(yǔ)音概率估計(jì)不足的問(wèn)題隨著時(shí)長(zhǎng)的縮短開始明顯起來(lái),這個(gè)弊端與第2節(jié)中所分析的基本一致.而基于DNN的d-vector在提供同層之間的關(guān)聯(lián)信息的方面上,而在上下層的信息關(guān)聯(lián)方面,相對(duì)于x-vector有些欠缺.x-vector是當(dāng)前3種基線系統(tǒng)內(nèi),短語(yǔ)音下表現(xiàn)較優(yōu)秀的說(shuō)話人嵌入向量,但語(yǔ)音特征在輸入層被分塊的操作雖然加快模型的運(yùn)算速度,但此舉更加壓縮了說(shuō)話人的信息,并不能在上下文關(guān)系上給予充足的信息共享.視線轉(zhuǎn)向后端分?jǐn)?shù)融合的方法,雖然在全時(shí)長(zhǎng)測(cè)試語(yǔ)音的環(huán)境下,融合分?jǐn)?shù)的方法增強(qiáng)了說(shuō)話人在后端的判別能力,其表現(xiàn)在五種方法下表現(xiàn)較優(yōu),但隨著測(cè)試時(shí)長(zhǎng)的縮短,融合方法的魯棒性欠佳的缺點(diǎn)也顯露出來(lái),分?jǐn)?shù)融合的策略欠缺些許考慮,且統(tǒng)計(jì)模型下的i-vector在短語(yǔ)音測(cè)試下性能的波動(dòng)致使融合分?jǐn)?shù)會(huì)受到一方的影響而不得不進(jìn)行折中的判決,等誤差率的提高趨于緩慢,在最小權(quán)衡代價(jià)方面也會(huì)出現(xiàn)時(shí)而高于x-vector的表現(xiàn),表明分?jǐn)?shù)融合的方法并不穩(wěn)定.參考兩者的得分綜合判斷的操作,則必會(huì)受到兩者系統(tǒng)不同程度上的影響.
由此可見,k-xi在4種說(shuō)話人嵌入向量和一種分?jǐn)?shù)融合方法下表現(xiàn)出較好的識(shí)別性能和魯棒性需求.實(shí)驗(yàn)也證明了本文基于KCCA融合基于全局變異空間模型i-vector和時(shí)滯神經(jīng)網(wǎng)絡(luò)的x-vector提取出新的說(shuō)話人嵌入向量k-xi的有效性.
t分布隨機(jī)鄰近嵌入(t-distributed stochastic neighbor embedding,t-SNE)[21]是一種可以將高維信息降維并可視化的技術(shù).我們使用t-SNE對(duì)4種說(shuō)話人嵌入向量降維至平面,并進(jìn)行可視化操作.從測(cè)試集中隨機(jī)抽取注冊(cè)集5名說(shuō)話人,每人5句2至5秒不等的語(yǔ)音,同時(shí)提取4種說(shuō)話人嵌入向量并降維至二維投影至平面分析,所得到t-SNE可視化圖如圖6所示,t-SNE展示了說(shuō)話人身份向量的分布情況.在圖6(a)中i-vector所表達(dá)說(shuō)話人的方式過(guò)于緊湊,以至于5名說(shuō)話人的嵌入向量都擁擠在一起,過(guò)多注意類內(nèi)之間的距離,而忽略了類間之間的距離.圖6(b)和圖6(c)所表示的d-vector和x-vector都是依靠模型中最尾端的softmax進(jìn)行分類,所以從圖中可以看出,d-vector和x-vector這類判別式分類模型與i-vector不同的點(diǎn)在于,d-vector與x-vector更加注重在于類間之間的差異,而對(duì)每個(gè)說(shuō)話人的內(nèi)部差異卻沒(méi)有一個(gè)很好的表達(dá),導(dǎo)致每個(gè)說(shuō)話人自身之間的表達(dá)缺少了聚合點(diǎn).從圖6(d)中可以看出,k-xi嵌入向量結(jié)合了i-vector與x-vector的特征,更好的從類內(nèi)聚合和類間距離兩種方式上表達(dá)了說(shuō)話人身份向量.

圖6 各個(gè)說(shuō)話人嵌入向量的t-SNE可視化圖
最后,我們將本文算法與文獻(xiàn)[6],文獻(xiàn)[7],文獻(xiàn)[9],文獻(xiàn)[12]在不同測(cè)試時(shí)長(zhǎng)下對(duì)等誤差率進(jìn)行比較.如圖7所示.本文所提出的k-xi向量相對(duì)于文獻(xiàn)[6],文獻(xiàn)[7],文獻(xiàn)[9],文獻(xiàn)[12]在測(cè)試時(shí)間為10秒時(shí),等誤差率相比下降17.82%,14.81%,16.34%,11.27%;測(cè)試時(shí)長(zhǎng)為5秒時(shí),等誤差率相比下降13.51%,16.69%,13.51%,10.43%;當(dāng)測(cè)試時(shí)長(zhǎng)降至2秒時(shí),等誤差率同比下降了15.76%,17.0%,10.24%,9.43%.文獻(xiàn)[6]與文獻(xiàn)[7]都是基于多特征的說(shuō)話人識(shí)別技術(shù),雖然增加聲學(xué)特征的維數(shù)是一種在輸入層面對(duì)說(shuō)話人信息增強(qiáng)的傳統(tǒng)技術(shù),維數(shù)的增加會(huì)造成計(jì)算量的冗余,如果像文獻(xiàn)[6]所述的使用PCA進(jìn)行降維,也會(huì)造成原始信息的缺失.文獻(xiàn)[9]的方法從嵌入層出發(fā),將加噪i-vector和純凈i-vector輸入進(jìn)DNN網(wǎng)絡(luò)學(xué)習(xí)非線性關(guān)系,但主動(dòng)的加噪操作也會(huì)造成最終的i-vector存在帶噪的成分,從而干擾識(shí)別的判定.與此同時(shí),我們?cè)谘芯堪l(fā)現(xiàn)本文所抽取的向量k-xi也存在些許的不足之處需要改進(jìn)的空間,在時(shí)效性上相比上述幾種文獻(xiàn)有些許差距.總體來(lái)講,針對(duì)短語(yǔ)音條件下所提出基于KCCA的說(shuō)話人嵌入向量提取的算法,經(jīng)過(guò)短測(cè)試語(yǔ)音條件的測(cè)試,證明了聯(lián)合i-vector與x-vector所提取出的說(shuō)話人向量k-xi算法的有效性.

圖7 基于KCCA的說(shuō)話人嵌入向量方法流程圖
針對(duì)短語(yǔ)音環(huán)境下,本文提出一種基于核典型關(guān)聯(lián)分析的短語(yǔ)音說(shuō)話人嵌入向量的方法.該方法首先需要分別訓(xùn)練全局變異空間和時(shí)滯神經(jīng)網(wǎng)絡(luò)模型,在注冊(cè)和測(cè)試階段從中提取i-vector和x-vector嵌入向量,經(jīng)過(guò)KCCA將兩者變換至高維空間分析其非線性關(guān)聯(lián)特征,最終提取出融合后的說(shuō)話人向量k-xi.該向量也是從嵌入層出發(fā),通過(guò)KCCA學(xué)習(xí)i-vector向量與x-vector向量非線性特性,以此增強(qiáng)由于短語(yǔ)音環(huán)境下的說(shuō)話人信息不足的問(wèn)題.上述實(shí)驗(yàn)驗(yàn)證了本文所提出的方法有效降低短語(yǔ)音環(huán)境下說(shuō)話人識(shí)別的等誤差率和最小權(quán)衡代價(jià),具有可行性和有效性.在未來(lái)的工作中,主要研究分為兩部分展開:一是向極短語(yǔ)音(1秒,0.5秒)條件下探索,二是針對(duì)基于核典型關(guān)聯(lián)分析的短語(yǔ)音說(shuō)話人嵌入向量方法的時(shí)效性加以優(yōu)化.