基于GMMi—vector的說話人識別研究

2018-10-31 10:31:54王致垚

中國新技術新產品 2018年16期

王致垚

摘要：語音識別技術飛速發展，在現實生活中扮演著越來越重要的角色，語音識別簡單來說就是讓計算機理解人的語音，它有兩大研究領域：語種識別和說話人識別。說話人識別是指計算機能夠識別出語音來自那個說話人，在身份驗證等眾多領域有很廣泛的應用。本文著重探究哪種細微聲音對說話人識別的效果好，這些細微聲音有“嗯”“嘖嘖”“清嗓子”“清鼻子”等，最后進行人機大戰，得出機器的準確率普遍比較高的結論。

關鍵詞：語音識別;說話人識別;高斯混合模型;深度學習

中圖分類號：TP391 文獻標志碼：A

0 前言

隨著移動互聯網的興起，手機APP的廣泛應用以及移動電子商務的需求，人們對安全保密系統的要求也越來越高。除了傳統的密碼輸入方式外，基于生物特征的身份認證（如指紋、虹膜、掌紋以及人臉等）成為目前最主要的研究方向。在這其中，語音信號是用于個人身份辨識和確認的一種有效的生物特征，其技術在生物識別中占有重要地位。

語音信號處理是用數字信息技術處理語音，可以分為語音合成、語音識別、語音編程和說話人識別。說話人識別是指從語音信號中提取說話人的特征，并對說話人進行識別的研究領域。說話人識別實際上是一個模型識別問題。而基于Kaldi的GMM i-vector說話人識別系統則是其中比較新穎的技術。本文探討的是利用i-vector說話人識別系統來處理一些比較特殊的問題。

1 說話人識別研究的目的及意義

信息輸入方式的變化，也是由于生物識別技術的發展。說話人識別技術能夠更加快捷便利的確定說話人的身份，能夠應用于說話人核對，（例如語音類別身份證）電子設備，信息系統的安全工作，刑偵技術的人員追蹤，公安、軍事、機密的防護等眾多領域、將會在電腦、手機、汽車、電子鎖等電子產品上有眾多應用

說話人識別也叫做聲紋識別，屬于生物識別技術的一種。相對于傳統認證，具有安全、保密、不易偽裝、不會遺忘或丟失，方便等優點。比起其他的生物識別技術，說話人識別更有廉價、簡潔輕便、應用廣泛、易于操作和接受等優點。

2 說話人識別發展概述

1876年貝爾（Bell）發明了電話。1952年Davis等人在貝爾實驗室研制出第一個10個英語字母的語音識別設備。1956年Cooley和Tukey提出了離散傅里葉變換的快速算法（FFT算法）。20世紀80年代，人們應用非線性技術提出了梅爾頻率倒譜系數（MFCC），MFCC是最實用的語音特征參數。在20世紀90年代后期，高斯混合模型（GMM，在HMM的基礎上被提出）被應用到了說話人識別，GMM成了現在說話人識別的基礎。21世紀后，人們在高斯混合模型的基礎上提出了高斯混合模型—通用背景模型（GMM—UBM），克服了外部環境的干擾。GMM—UBM成為目前說話人識別領域最為經典的建模方法。

1997年，IBM 將ViaVoice應用于商業。2011年iPhone手機上出現了Siri語音助手服務，語音識別技術在生活中普及開來。現在幾乎身邊的電子設備如手機、電腦、iPad都會具備語音識別功能。

3 說話人識別的研究方法

3.1 說話人識別的基本流程

說話人識別實際上是一個模型識別類型，其基本原理是將識別目標說話人形成的特征模型與訓練好的特征模型進行匹配。根據匹配的距離或概率近似度來判斷說話者是訓練模型中的哪個人（說話人辨認），或是否是被申明的人（說話人確認）。

3.1.1 預處理

預處理指令可以使輸入的語音信號在不同的執行環境中方便被修改或翻譯。大致分為預加重、分幀加窗和端點檢測。

3.1.2 特征提取

特征提取是在音頻中提取能夠代表說話人語音特征的信息，消除無用的信息。從而有利于后續的特征比較，提取的特征能夠直接辨別說話人身份，充分體現不同語音間的差異。

3.1.3 訓練過程：訓練模型、模型參數儲存

根據提取的特征參數建立說話人的模型，建立訓練過程的模型。建立模型的方法分為模板匹配法和概率統計模型法。并將模型進行儲存，作為識別過程中的匹配模板。

3.1.4 測試過程：匹配得分，決策判斷

將待測試的語音文件的特征參量與已建立的模型庫進行對比、匹配和識別，計算出來得分，查看相似性的最大值，根據相似性匹配說話人。

值得一提的是，如果被測試的音頻文件不屬于已知的說話人模型。（閉集情況）系統不能隨意抽取相似得分的最大值，因為這樣會將陌生說話人誤判為模型庫中的某一說話人。應當確定一個適當大小的閾值，判斷測試語音是否屬于已經建立模型的說話人。若測試得分低于閾值則系統判斷測試音頻不屬于任何一個說話人模型。

3.2 說話人識別的傳統方法

在提取特征之后，要進行模型訓練。在模型匹配方面，大體分為模板匹配法和概率統計模型法。

可是在實際應用中，常常會受到周邊噪聲的干擾，對基于GMM的說話人識別系統要求便有所增加，因此要訓練準確的高斯混合模型需要很多語音數據，而每一個訓練說話人的語音又不夠，因此UBM通用背景模型便被提出來了。在眾多語音數據中訓練好一個和說話人特征無關的通用背景模型來模擬實際的外部環境，通過自適應算法來得到目標的說話人模型。

4 細微聲音識別實驗

4.1 實驗原理

說話人識別是一類典型的模式識別類型，包括說話人模型訓練和測試語音打分判決兩個階段。

訓練階段：對每個使用系統的說話人預留充足的語音;對預留語音提取聲學特征;根據提取的聲學特征訓練得到說話人模型;將每個說話人模型存入說話人模型庫中。

測試階段：系統獲取待測試識別的語音;與訓練階段相同，提取測試語音的聲學特征;將測試語音的聲學特征與說話人模型庫進行比對，根據預先定義的相似性準則，在說話人模型上進行打分判別;最終得到測試語音的說話人身份。

本實驗基于Kaldi的GMM i-vector說話人識別系統主要由4個步驟組成：數據列表準備（scp文件）、特征提取（MFCC提取特征及vad）、模型訓練（UBM、T-matrix訓練和i-vector提取）、打分判決（Cosine、LDA、PLDA），其流程如圖1所示。

4.2 實驗過程及結果分析

實驗測試中，首先采集了網站上20人的細微聲音判別記錄見表1，同一種細微聲音中，讓測試人員去聽該聲音是否是同一個人發出的，每個人聽3組同種細微聲音，最后提交表單，得到該20人的測試記錄錯誤率。由于網站上會對每個測試者選擇的音頻有記錄，然后將測試的音頻全部取出來，同種細微聲音的音頻放在一起，然后利用圖1所示的i-vector模型對細微聲音進行判別，從而得出機器對該細微聲音的錯誤率，其結果見表2。

從實驗結果來看，4種細微聲音中，“嗯”的識別錯誤率最低，也就是“嗯”相對其他3種，其識別效果更好;另外從人機測試結果來看，細微聲音中對“嗯”“嘖嘖”“清嗓子”的識別準確率，機器明顯優于人類，然而對“清鼻子”的識別準確率，人類優于機器，由于不同測試者清鼻子變化多樣，人類可以根據語境及背景聲音是否一致來判斷是否為同一個人發出來的，而機器不可以這樣判斷，這個實驗結果也是在合理范圍內的。

結語

說話人識別是語音識別的熱點之一。本文首先介紹了說話人識別研究的目的和意義以及發展概述。重點研究了基于Kaldi的GMM i-vector說話人識別系統，對說話人識別系統的工作過程及其工作原理進行了深刻的闡述，并著重探究了4種細微聲音的識別，通過人機測試的對比，得出了機器的識別效果明顯比人類的識別正確率要高的結果。由于本實驗探討的是在特殊情況下的說話人識別（嗯、嘖嘖、清嗓子、清鼻子），因此探討了基于i-vector說話人識別系統在各種極端情況下的工作情況。或許以后說話人識別不再需要說出一大段文字，而是直接發出幾種聲音就可以實現識別。

參考文獻

[1]談建慧.基于深度學習的語音識別研究[D].廣西：桂林電子科技大學，2016.

[2]陳強.基于GMM的說話人識別系統研究與實現[D].湖北：武漢理工大學，2010.

[3]周利鋒.人工神經網絡的概念[J].醫學信息（上旬刊），1998（11）：8-10.

[4]馬平.基于i-vector的穩健說話人識別研究[D].新疆：新疆大學，2016.