涂中文,趙艷明,宋金寶
(1.中國傳媒大學(xué) 播音主持藝術(shù)學(xué)院,北京 100024;2.中國傳媒大學(xué) 信息工程學(xué)院,北京 100024)
基于自動編碼器的語音音色客觀評價
涂中文1,趙艷明2,宋金寶2
(1.中國傳媒大學(xué) 播音主持藝術(shù)學(xué)院,北京 100024;2.中國傳媒大學(xué) 信息工程學(xué)院,北京 100024)
本文詳細(xì)介紹了嗓音識別和深度學(xué)習(xí)的基本原理,然后闡述了怎樣將深度學(xué)習(xí)理論應(yīng)用于嗓音質(zhì)量識別分析的研究中,從基于深度學(xué)習(xí)的語音特征參數(shù)提取和神經(jīng)網(wǎng)絡(luò)模型建模兩方面入手,首先提取不同的音頻特征參數(shù),然后構(gòu)建以稀疏編碼器為核心的堆棧式自動編碼器,“封頂”softmax分類器以構(gòu)成完整的深度學(xué)習(xí)網(wǎng)絡(luò),最后測試了不同特征參數(shù)、不同的網(wǎng)絡(luò)層數(shù)和網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)對于實(shí)驗(yàn)準(zhǔn)確率的影響。
語音音色;客觀評價;自動編碼器
說話人的嗓音質(zhì)量識別包含在說話人識別之內(nèi)。說話人識別又稱聲紋識別,是對說話人產(chǎn)生的語音信號進(jìn)行分析處理,提取說話人的個性特征,從而對說話人進(jìn)行辨認(rèn)或確認(rèn),是人的一種身份認(rèn)證形式。說話人的嗓音質(zhì)量信息也蘊(yùn)含在這些個性特征中,專業(yè)上可以將人的嗓音特質(zhì)劃分16對,如厚與薄、干與潤等。在播音類藝考這樣對嗓音質(zhì)量有嚴(yán)格要求的場合下,對嗓音質(zhì)量的分析與選拔具有廣闊的應(yīng)用需求市場。作為近年來發(fā)展迅速的一種神經(jīng)網(wǎng)絡(luò)模型,深度學(xué)習(xí)模擬人類大腦的學(xué)習(xí)方式,對海量數(shù)據(jù)量具有超強(qiáng)的建模能力,并且對于不完全信息具有良好的魯棒性,廣泛應(yīng)用于多分類模式識別,在圖像、語音識別等領(lǐng)域取得了驚人的效果。
由于現(xiàn)今尚未出版系統(tǒng)、嚴(yán)謹(jǐn)、明確的音質(zhì)評價客觀評價體系,所以本實(shí)驗(yàn)采用國內(nèi)主流的林達(dá)悃老師的主觀評價理論[1]。在該理論中,音質(zhì)主觀評價的結(jié)果受到四個方面因素的影響:①主觀評價用語的統(tǒng)一性、明確性;②評價人的評價素質(zhì)保證;③評價素材的代表性;④傳輸系統(tǒng)聲學(xué)特性的規(guī)范化。
主觀評價用語的統(tǒng)一性、明確性。音質(zhì)主觀評價用語主要有兩大類:藝術(shù)語言和音樂。本實(shí)驗(yàn)研究的嗓音質(zhì)量就是針對藝術(shù)語言質(zhì)量的分析。藝術(shù)語言采用兩級評價標(biāo)準(zhǔn),即音質(zhì)良好用語/音質(zhì)不足用語,包含:通/不通,有彈性/木,集中/散(以上3對為必要條件),亮/暗,窄、扁、橫/空,柔/硬,剛/硬,圓/鼻音、悶、喉音、卡、擠,實(shí)/空、飄,(缺)/沙、啞,純、凈/濁,(缺)/炸,潤/干,(缺)/抖,親切、有力度/字音分裂,共16對。
在本研究中,評價用語沿用上述16對標(biāo)準(zhǔn)用語,評價者均為業(yè)界較為認(rèn)可的專家,評價素材產(chǎn)出于經(jīng)過選拔的、具備專業(yè)素質(zhì)的專業(yè)人員,樣本生產(chǎn)環(huán)境為標(biāo)準(zhǔn)配置的無噪錄音室,滿足主觀評價體系的四點(diǎn)要求。
圖1給出了說話人嗓音質(zhì)量識別系統(tǒng)框圖,和語音識別系統(tǒng)一樣,建立和應(yīng)用這一系統(tǒng)可以分為兩個階段,即訓(xùn)練階段和識別階段。在訓(xùn)練階段,系統(tǒng)每種嗓音特質(zhì)的說話人說出若干訓(xùn)練語句,系統(tǒng)據(jù)此建立每種嗓音特質(zhì)的模板或模型參量參考集。而在識別階段,待識別嗓音特質(zhì)語音中導(dǎo)出的參量與訓(xùn)練中的參考參量或模板進(jìn)行比較,并且根據(jù)一定的相似性進(jìn)行判斷。

圖1 嗓音質(zhì)量識別系統(tǒng)框圖
說話人的嗓音質(zhì)量信息包含在說話人的被識別的信息內(nèi),對嗓音的分析屬于說話人識別的分支,所以對說話人的識別研究在理論和操作上同樣適用于對嗓音的分析。說話人識別的研究最早開始于20世紀(jì)30年代,早期的工作主要集中在人耳聽辨實(shí)驗(yàn)和探討聽音識別的可能性方面。隨著研究手段和工具的改進(jìn),研究工作不再僅僅局限于單純的人耳聽辨。1962年,Bell實(shí)驗(yàn)室的研究通過可見的語譜圖進(jìn)行人工說話人識別,并將語譜圖稱為聲紋(Voiceprint),意思是同指紋類似。美國法院在1966年第一次采用了此方法進(jìn)行取證。20世紀(jì)60年早期的說話人研究中,幾乎所有的工作都使用語音時頻能量分析。之后,隨著計(jì)算機(jī)技術(shù)和電子技術(shù)的發(fā)展,使通過機(jī)器自動識別人的語音成為可能。Bell實(shí)驗(yàn)室的S.Pruzansky提出了基于統(tǒng)計(jì)方差分析和模式匹配的說話人識別方法,其間的工作主要集中在各種識別參數(shù)的提取、選擇和實(shí)驗(yàn)上,并將倒譜和線性預(yù)測法分析等方法應(yīng)用于說話人識別,從而引起了信號處理領(lǐng)域許多學(xué)者的注意,形成了聲紋識別研究的一個高潮。
隨著計(jì)算機(jī)技術(shù)的發(fā)展,七十年代起開始自動說話人識別相關(guān)領(lǐng)域的研究。70年代中期B.S.Atal研究了LPC稀疏、自相關(guān)系數(shù)、聲道的沖激響應(yīng)、聲道的面積函數(shù)及倒譜系數(shù)等不同的特征參數(shù)在自動說話人識別中的有效性,并通過實(shí)驗(yàn)指出倒譜系數(shù)是較為有效的語音特征。從此,說話人識別的方法和技術(shù)在近幾十年來得到了更加迅速的發(fā)展。識別模型從單模板模型發(fā)展到多模板模型,從模板模型發(fā)展到矢量量化模型、高斯混合模型、隱馬爾科夫模型,再到人工神經(jīng)網(wǎng)絡(luò);識別環(huán)境從無噪聲環(huán)境下對少數(shù)說話人的識別發(fā)展到復(fù)雜環(huán)境下對大量說話人識別:所采用的識別技術(shù)從僅涉及動態(tài)規(guī)劃發(fā)展到涉及統(tǒng)計(jì)信號處理、矢量量化與編碼、莫不系統(tǒng)理論與方法、最優(yōu)估計(jì)理論、人工神經(jīng)網(wǎng)絡(luò)、灰色系統(tǒng)分析等多學(xué)科領(lǐng)域。
如今,說話人識別技術(shù)已逐漸走向?qū)嶋H應(yīng)用。AT&T應(yīng)用說話人識別技術(shù)研制出了智慧卡(smart card),已用于自動提款機(jī)。歐洲電信聯(lián)盟在電信與金融結(jié)合領(lǐng)域應(yīng)用說話人識別技術(shù),于1998年完成了CAVE(Caller Verification in Banking and Telecommunication)計(jì)劃,并于同年又啟動了PICASSO(Pioneering Call Authentication for Secure Operation)計(jì)劃,在電信網(wǎng)上完成了說話人識別。
3.1 堆棧式稀疏自動編碼器原理[5]
如果給定一個神經(jīng)網(wǎng)絡(luò),假設(shè)其輸入與輸出是相同的,然后訓(xùn)練調(diào)整其參數(shù),得到每一層的權(quán)重。輸入的幾種不同表示(每一層代表一種表示),這些表示就是特征(representation)。自動編碼器就是一種盡可能復(fù)原輸入信號的神經(jīng)網(wǎng)絡(luò),為此,自動編碼器就必須捕捉到可以代表原信息的主要成分。
自動編碼器的訓(xùn)練過程可分為以下3個步驟:
(1)輸入無標(biāo)簽數(shù)據(jù),采用非監(jiān)督學(xué)習(xí)方式學(xué)習(xí)特征。
(2)通過編碼器產(chǎn)生特征訓(xùn)練下一層,逐層訓(xùn)練。
(3)輸入有標(biāo)簽數(shù)據(jù),采用監(jiān)督學(xué)習(xí)方式微調(diào)。
3.2 堆棧式稀疏自動編碼器建模分析
本研究中,采用樣本的MFCC[5]及其一階差分參數(shù)、LPC以及這兩者的結(jié)合作為網(wǎng)絡(luò)的輸入,構(gòu)建的堆棧式自動編碼器根據(jù)原理可以分為以下4個模塊。
(1)輸入數(shù)據(jù)的向量化處理
對樣本提取特征后,得到的是一個個excel文件,訓(xùn)練網(wǎng)絡(luò)時需要將數(shù)據(jù)集打包成向量形式的矩陣,包括數(shù)據(jù)Datafeature×samples矩陣和標(biāo)簽Label向量。其中Data的每一列表示一個樣本,即將原來一個excel數(shù)據(jù)表降維reshape成一個列向量,需要注明的是,原數(shù)據(jù)的打包方式不影響后續(xù)模型訓(xùn)練過程中深層特征的提取。Label矩陣實(shí)質(zhì)上是一個列向量,樣本的標(biāo)簽用阿拉伯?dāng)?shù)字從0開始表示。
(2)稀疏自動編碼器
每層隱藏層均為稀疏自動編碼器,采用逐層貪婪[4]訓(xùn)練法來訓(xùn)練每層自動編碼器,訓(xùn)練方法是用梯度下降法對目標(biāo)損失函數(shù)(Cost-Function)求導(dǎo),使之局部收斂到最小值,在這個過程中不斷更新當(dāng)前層的權(quán)值W2、b2和前一層的權(quán)值W1、b1,并由W1生成當(dāng)前層的激勵值a2,即更深層的特征,作為下一隱藏層的輸入z3。此梯度下降法采用反向傳播算法(back-propagation,BP)來計(jì)算每一步梯度,即對W和b的導(dǎo)函數(shù),見式7-13。
目標(biāo)損失函數(shù)定義為J(W,b),由3部分組成:均方差項(xiàng)Jcost,權(quán)重衰減項(xiàng)Jweight和稀疏性懲罰項(xiàng)Jsparse:
J(W,b)=Jcost+λJweight+βJsparse
(1)

(2)
(3)
(4)
其中λ是權(quán)重衰減參數(shù),β是控制稀疏性懲罰因子的權(quán)重。
梯度下降法中,對W和b進(jìn)行更新:
(5)
(6)
其中α是學(xué)習(xí)速率,且:


(7)


(8)


(9)
對于輸出層,即nl層,沒有稀疏性限制,有:
(10)
對于隱藏層,即l=nl-1,nl-2,……,2層,有:

(11)
最終,
(12)
(13)
在本實(shí)驗(yàn)中,每次下一層都作為輸出層來對待,所以當(dāng)前層更新權(quán)重參考的殘差來源于第nl層,參考式10,上一層更新權(quán)重參考的殘差來源于當(dāng)前層,認(rèn)為是第nl-1層,參考式11。圖2為兩層隱藏層權(quán)重W和b的更新示意圖。

圖2 W,b更新流程圖
(3)softmax分類器
當(dāng)所有層的自動編碼器都預(yù)訓(xùn)練完備后,需要封頂一個分類器,并輸入有標(biāo)簽數(shù)據(jù)來訓(xùn)練這個分類器,達(dá)到分類識別的作用。假設(shè)共有k中分類標(biāo)簽,樣本集構(gòu)成為
(14)
與稀疏自動編碼器一樣,采用梯度下降法計(jì)算分類器代價函數(shù)的梯度,然后更新分類器的權(quán)重。記輸入x的每一種分類結(jié)果y=j,j=1,2,……k的概率為p(y(i)=j|x(i);θ),有

(15)
softmax分類器的代價函數(shù)J(θ)與自動編碼器的代價函數(shù)不同,它僅由兩部分組成:判斷正確的概率Jcost(θ),權(quán)重衰減項(xiàng)Jweight(θ)
J(θ)=Jcost(θ)+Jweight(θ)
(16)
(17)
(18)


(19)
θj每次迭代更新為:
θj=θj-α▽θjJ(θ)(j=1,…,k)
(20)
(4)微調(diào)(fine-tuning)
在本實(shí)驗(yàn)中,所采用的微調(diào)方式是將所有隱藏層和分類器看成一個整體進(jìn)行更新。其糅合了稀疏性自動編碼器與softmax分類器更新方式的特點(diǎn),也是采取BP算法進(jìn)行權(quán)重更新,此時系統(tǒng)整體的error是softmax分類器的損失函數(shù),所以從后向前推,所以除softmax分類器層外,每一層自動編碼器的殘差error都是來自后一層,即滿足
(21)

(22)
本實(shí)驗(yàn)中,實(shí)驗(yàn)樣本為2686個不帶標(biāo)簽的音頻樣本和672個標(biāo)簽為由“厚”到“薄”劃分6個等級的有標(biāo)簽樣本,672個有標(biāo)簽樣本中400個樣本用于訓(xùn)練,272個樣本用于測試。選擇MFCC、LPC以及二者的結(jié)合作為神經(jīng)網(wǎng)絡(luò)的輸入;隱藏層的節(jié)點(diǎn)數(shù)在200~800范圍內(nèi);隱藏層層數(shù)范圍在2~4層。以下是改變某一變量時測試準(zhǔn)確率的變化情況,具體數(shù)據(jù)參見附錄。
4.1 音頻特征參數(shù)對實(shí)驗(yàn)準(zhǔn)確率的影響

(a)2層隱藏層下不同特征參數(shù)的準(zhǔn)確率分布圖

(b)3層隱藏層下不同特征參數(shù)的準(zhǔn)確率分布圖

(c)4層隱藏層下不同特征參數(shù)的準(zhǔn)確率分布圖圖3 不同隱藏下不同特征參數(shù)的準(zhǔn)確率分布圖
圖3中的3張圖分別是2層隱藏層、3層隱藏層和4層隱藏層的結(jié)構(gòu)下,以MFCC參數(shù)、LPC參數(shù)以及兩者結(jié)合作為輸入時,測試準(zhǔn)確率的分布情況。總體來說,以LPC參數(shù)作為輸入時,識別準(zhǔn)確率最高在59%左右,但MFCC參數(shù)作為輸入時,識別準(zhǔn)確率最高達(dá)到88.8%,識別能力顯著提高。另外,以MFCC&LPC參數(shù)作為輸入時,其識別準(zhǔn)確率相較于MFCC又有微小的提升,這從側(cè)面也反應(yīng)出在這種高準(zhǔn)確率下,MFCC參數(shù)對實(shí)驗(yàn)準(zhǔn)確率的貢獻(xiàn)遠(yuǎn)高于LPC參數(shù)對實(shí)驗(yàn)準(zhǔn)確率的貢獻(xiàn)。
4.2 網(wǎng)絡(luò)層數(shù)對實(shí)驗(yàn)準(zhǔn)確率的影響

(a)MFCC參數(shù)下,不同隱藏層層數(shù)時的準(zhǔn)確率分布圖

(b)MFCC&LPC參數(shù)下,不同隱藏層層數(shù)時的準(zhǔn)確率分布圖圖4 不同特征參數(shù)下不同隱藏層層數(shù)時的準(zhǔn)確率分布圖
以上2張圖片分別是以MFCC參數(shù)和MFCC參數(shù)與LPC參數(shù)相結(jié)合作為輸入時,2層隱藏層、3層隱藏層和4層隱藏層結(jié)構(gòu)下識別準(zhǔn)確率的對比。當(dāng)輸入為MFCC參數(shù)時,3層隱藏層的網(wǎng)絡(luò)結(jié)構(gòu)能達(dá)到最高的識別率(注意MFCC此時還有上升的趨勢),接近89%,2層隱藏層的網(wǎng)絡(luò)結(jié)構(gòu)的準(zhǔn)確率稍低,4層隱藏層的網(wǎng)絡(luò)結(jié)構(gòu)識別準(zhǔn)確率最低。但當(dāng)輸入為MFCC&LPC時,僅2層網(wǎng)絡(luò)層就可以達(dá)到很好的識別效果,識別準(zhǔn)確率有91%,3、4層隱藏層的網(wǎng)絡(luò)結(jié)構(gòu)時的準(zhǔn)確率都只有88%左右。由此說明最優(yōu)的網(wǎng)絡(luò)層數(shù)受到輸入?yún)?shù)選擇的影響,且網(wǎng)絡(luò)層數(shù)并非越多越好,在某一范圍內(nèi)其作用效果最佳,低于或高于這個范圍,其會阻礙實(shí)驗(yàn)準(zhǔn)確率的提高。
4.3 網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)對實(shí)驗(yàn)準(zhǔn)確率的影響

圖5 3層隱藏層下不同特征參數(shù)時的準(zhǔn)確率分布圖
上圖反映了網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)對識別準(zhǔn)確率的影響狀況:不管是LPC參數(shù)、MFCC參數(shù)還是兩者結(jié)合,隨著隱藏層節(jié)點(diǎn)數(shù)的增加,識別準(zhǔn)確率隨之增加;當(dāng)隱藏層節(jié)點(diǎn)數(shù)達(dá)到一定值時,識別準(zhǔn)確率不再增加,持平或發(fā)生微小的抖動。
以上各組實(shí)驗(yàn)說明,在較少的有標(biāo)簽樣本情況下,構(gòu)建堆棧式自動編碼器+softmax分類器的深度神經(jīng)網(wǎng)絡(luò),選擇MFCC&LPC特征參數(shù)為輸入,采取兩層隱藏層,隱藏層節(jié)點(diǎn)數(shù)在450左右時,對嗓音分析的準(zhǔn)確率可以達(dá)到91%,實(shí)現(xiàn)較好的分類效果。
5.1 總結(jié)
深度學(xué)習(xí)是當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域的一個熱門研究課題,在圖像、語音處理等多個方面具有很強(qiáng)的應(yīng)用價值[3]。而自動編碼器在標(biāo)簽樣本數(shù)據(jù)量不足的情況下,通過輸入無標(biāo)簽數(shù)據(jù)預(yù)訓(xùn)練網(wǎng)絡(luò),初步提取網(wǎng)絡(luò)參數(shù),再通過有標(biāo)簽數(shù)據(jù)進(jìn)行微調(diào),可以很好的克服這個限制。嗓音也可以作為一個人的身份特征信息,特別在對人嗓音條件有嚴(yán)格要求的場合下,基于深度學(xué)習(xí)的嗓音分析的模型的建立,可以有效地節(jié)省人力資源,并保證相當(dāng)高的準(zhǔn)確率。
本文主要以深度學(xué)習(xí)理論為基礎(chǔ),以語音特征提取和堆棧式稀疏自動編碼器建模為切入點(diǎn),以MATLAB為實(shí)驗(yàn)平臺,較為系統(tǒng)地研究了深度學(xué)習(xí)在嗓音分析中的具體問題。實(shí)驗(yàn)結(jié)果證明,深度學(xué)習(xí)在嗓音分析研究上具有準(zhǔn)確性和可靠性,堆棧式稀疏性自動編碼器在少量有標(biāo)簽數(shù)據(jù)的限制下也能達(dá)到很好的分析效果。
5.2 展望
盡管本實(shí)驗(yàn)整體上符合目標(biāo)預(yù)期,但在實(shí)驗(yàn)結(jié)果分析中,我們發(fā)現(xiàn)一個出乎意料的規(guī)律,就是在測試網(wǎng)絡(luò)層數(shù)對識別準(zhǔn)確率的影響時,不管輸入是什么特征參數(shù),在準(zhǔn)確率最大值附近都有一個偏大的抖動,隨后識別準(zhǔn)確率會隨著隱藏層節(jié)點(diǎn)數(shù)的增加恢復(fù)上升至一個平穩(wěn)值。在將來,我們希望對這一特殊現(xiàn)象作具體研究與分析。
此外,本實(shí)驗(yàn)僅對一組聲音特性做研究,后期應(yīng)當(dāng)廣泛采集標(biāo)簽樣本,系統(tǒng)完整地測試稀疏自動編碼器對不同聲音特性的識別準(zhǔn)確率的作用效果。
[1]林悃達(dá).錄音中的監(jiān)聽與審聽——關(guān)于音質(zhì)主觀評價的若干問題[J].廣播電視信息,1995.
[2]余建潮,張瑞林.基于MFCC和LPCC的說話人識別[J].計(jì)算機(jī)工程與設(shè)計(jì),2009.
[3]余凱,賈磊,陳雨強(qiáng),徐偉.深度學(xué)習(xí)的昨天、今天和明天[J].計(jì)算機(jī)研究與發(fā)展,2013.
[4]YoshuaBengio,PascalLamblin,DanPopovici,HughLarochelle.GreedyLayer-WiseTrainingofDeepNetworks[J].NIPS,2007.
[5]BengioY.LearningDeepArchitecturesforAI[J].FoundationsandTrendsinMachineLearning,2009.
(責(zé)任編輯:宋金寶)
Objective Evaluation of Speech Timbre Based on Auto Encoder
TU Zhong-wen1,ZHAO Yan-ming2,SONG Jin-bao2
(1.School of Presentation Arts,Communication University of China,Beijing 100024,China;2.School of Information Engineering,Communication University of China,Beijing 100024,China)
This paper would first introduce the basic principles of voice recognition and Deep Learning in detail,then set forth how to put the theory of DL into use of voice quality recognition.Starting with extraction of the feature of audio signal,we then set up stacked auto encoder with sparse coding as the core and softmax classification as top.Finally,we take the different features as input and change the number of hidden layers and hidden unites to observe their impacts on validating accuracy.
speech timbre;objective evaluation;auto encoder
2017-04-05
涂中文(1979-),男(漢族),山東濟(jì)寧人,中國傳媒大學(xué)播音主持藝術(shù)學(xué)院高級工程師.E-mail:bytuzhongwen@cuc.edu.cn
TP391.4
A
1673-4793(2017)04-0008-06