999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

說話人辨認系統的研究與實現

2021-02-28 02:37:44陳奕成殳國華匡政睿余玟錚沈澤宇
電氣自動化 2021年6期
關鍵詞:信號模型

陳奕成, 殳國華, 匡政睿, 余玟錚, 沈澤宇

(上海交通大學 電子信息與電氣工程學院,上海 200240)

0 引 言

隨著信息技術不斷發展,微信、QQ等手機APP和計算機應用中包含了越來越多的個人和財產信息,一旦賬號被盜取,后果不堪設想。因此人們越來越注重個人信息和財產安全問題。然而,傳統的密碼識別方式存在被遺忘或泄露等風險,具有一定安全隱患。因此,生物特征識別技術逐漸興起,從指紋識別到人臉、聲紋識別,該技術已經越來越多地滲透到日常生活中。

聲紋是攜帶語音信息的聲波頻譜[1]。一方面,聲紋具有唯一性,任何兩個人的聲紋都有或多或少的差異;另一方面,聲紋采集方便,只需要一個錄音裝置就可以得到聲紋識別所需要的數據。因此聲紋識別技術具有廣闊的應用前景和較高的市場價值。目前該技術已作為社保中的身份認證手段[2],并應用在了金融安全領域[3]中。

聲紋識別分為說話人辨認和說話人確認[4]。前者指根據一段語音來辨別屬于哪位說話人,屬于N選1的識別方法;后者指根據一段語音來確認這段語音是否是聲稱的某人所說,屬于1對1的識別方法。說話人辨認又分為文本相關和文本無關。文本相關要求所有說話人的訓練語音和測試語音采用一樣的文本內容,而文本無關則沒有此要求。本文研究的是說話人辨認系統,即在一個閉集的說話人集合中進行文本無關的說話人辨認。

1 總體設計思路

本文所實現的系統框圖如圖1所示。

圖1 說話人辨認系統框圖

在說話人辨認系統模型的建立過程中,首先需要在系統中進行聲紋錄入,利用計算機麥克風為每個說話人錄入10段時長約5 s的語音,加入訓練語音庫,并對每一段語音進行預處理,接下來提取其梅爾頻率倒譜系數(MFCC)特征矩陣,建立說話人聲紋的高斯混合模型,加入到聲紋模型庫中。在測試過程中,說話人需錄制一段長約5 s的測試語音,經過預處理、特性提取后得到待測語音特征矩陣,與之前建立好的聲紋模型庫進行匹配打分,根據匹配不同說話人模型得到的最大似然分數,選取最大值,從而確定說話人身份。

2 軟件算法設計

系統軟件算法包括了語音信號預處理、聲紋特征提取和聲紋模型建立與匹配三個部分。

2.1 語音信號預處理

語音信號是由人類聲帶振動或嘴唇發出的聲音或氣音,在工程上可建模為一個時間域上連續的波形函數。語音信號預處理流程如圖2所示。下面對預處理的步驟作詳細介紹。

圖2 語音信號預處理流程

2.1.1 語音檢測和降噪

麥克風采集的語音不能直接用于特征提取,因為語音中會有說話人或長或短的停頓,而且錄音環境中難免有噪聲干擾,給聲紋特征模型帶來污染。因此,在建模和識別語音信號前,需要先進行語音端點檢測(EPD)[5]和降噪處理[6]。

語音端點檢測采用時域的方法,主要根據能量大小進行檢測,通過設定閾值來判斷語音的有效部分。語音降噪算法采用頻譜相減法,它假設噪聲是加性噪聲,即直接加在語音上的,只要將其減去就可以得到干凈語音。頻譜相減法不僅降噪效果好,而且計算量小,易于實時實現。

2.1.2 語音信號采樣和預加重

為了將連續的語音信號變為離散的數字信號,需要對信號進行采樣,等間隔地取出連續信號上的點。

一般來說,人類正常說話聲音基頻在50~500 Hz范圍內,高于800 Hz的部分,信號功率會以6 dB/倍頻程跌落[7]。為了減少語音信號高頻部分信息的損失,需要對其進行預加重,該過程可以通過一個高通濾波器來實現。高通濾波器的傳遞函數為:

H(z)=1-μz-1

(1)

式中:μ為預加重系數,可以取0.9~1之間的值,一般取0.96。如果時刻n的采樣值為x(n),那么完成預加重之后的信號為:

y(n)=x(n)-μx(n-1)

(2)

2.1.3 分幀和加窗

數字語音信號是隨時間變化的離散函數,在短時間內可以認為基本不隨時間變化,具有短時平穩性,因此可以將語音信號分為若干小片段進行處理,其中每個小片段叫作幀。在音頻處理中,一幀的時長約為10~30 ms。為了使幀與幀之間平穩過渡,兩幀之間會有部分重疊,一般重疊部分與幀長之間的比值取0~0.5。分幀后需要對每一幀進行加窗操作,加窗的作用是使每一幀開始和結束的時候漸變到0,可以提高后期傅里葉變換結果頻譜的分辨率。本文選用漢明窗。

2.2 聲紋特征的提取

聲紋特征提取是聲紋識別過程中的核心環節。目前已有的研究包括線性預測系數(LPC)、線性預測倒譜系數(LPCC)和梅爾倒譜系數(MFCC)[8],本文采用MFCC提取聲紋特征矩陣。

2.2.1 MFCC

梅爾倒譜分析是基于聲音頻率的非線性梅爾刻度的對數能量頻譜的線性變換。梅爾倒譜的頻帶是在梅爾刻度上等距劃分的,它比正常的對數倒頻譜中的頻帶更能模擬人類的聽覺系統。MFCC的提取流程如圖3所示。

圖3 MFCC提取流程

具體分為以下幾個步驟進行:

(1) 傅里葉變換。首先要對每一幀進行N點快速傅里葉變換(FFT)轉換為線性頻譜X(k),k=1,2,…,N-1。在聲紋識別應用中,可以忽略FFT結果的相位信息,只取幅度|X(k)|進行接下來的步驟。

(2) 梅爾濾波器濾波。梅爾濾波器是一系列(M個)三角帶通濾波器Hm(k),其中心頻率為f(m),m=1,2,…,M。對每一幀信號加上M個三角濾波器之后,可以將這一幀信號由線性頻率轉換到梅爾頻率上,通常M取30左右。梅爾頻率和線性頻率的映射關系為:

(3)

式中:fMEL為梅爾頻率;fLIN為線性頻率。根據上述關系可以得到三角濾波器的傳遞函數為:

(4)

將M個此函數加在經過N點FFT變換后的每幀信號上,然后將每個三角濾波器的結果累加起來,最終得到M個值,記為S1,S2,…,SM。

(3) 倒譜分析。由于人的聽覺在動態范圍內呈現對數壓縮,因此需要把每一幀的M個對數濾波器頻譜值log10(Sm)利用離散余弦變換(DCT)轉換為L個倒譜系數。DCT變換函數為:

(5)

經過DCT變換得到L個特征值,這L個特征值即為MFCC特征向量,一般來說L取12,當n=0時,c0代表的是一幀語音信號的平均對數能量,通常把c0和L個系數值一起組成一個13維的向量MFCC。假設一個語音信號由T幀組成,那么最終得到的一段語音的MFCC是一個T×(L+1)的二維矩陣。

2.2.2 高階MFCC

(6)

2.3 聲紋模型的建立與匹配

提取出聲紋特征矩陣后,需要對其進行訓練建立模型。目前機器學習領域在聲紋識別方面已有很多研究,常用建模方法有支持向量機(SVM)[9]、高斯混合模型(GMM)[10]和卷積神經網絡(CNN)[11]等。對于閉集說話人辨認系統來說,使用GMM即可得到很好的識別效果。

1) GMM原理

高斯概率密度函數即正態分布。自然界事物大多并不遵循正態分布,但是將多個正態分布函數按一定權重混合起來,可以精確地表示一個事物。高斯概率密度函數表達式為:

(7)

式中:μ為期望值,決定了曲線位置;σ為標準差;決定了分布的幅度。

(8)

(9)

2) EM算法

GMM三個參數(權重、均值和協方差)的選擇需要用期望最大化(EM)算法進行優化。

該算法采用K-means的方法生成高斯混合模型各項參數的初始值,并將期望值作為已知量,根據最大似然估計得到該分布的參數,假設這個參數比原先的參數更能表達真實分布,即得到一組更好的參數。再通過這個參數確定的分布求隱含變量的期望,再求最大值,得到另一組更好的參數,這樣迭代下去,直至收斂。

設樣本集X=x1,x2,…,xN,p(xi|θ)為概率密度函數,表示抽到xi的概率,θ為待求參數。因此同時抽到N個樣本的概率就是它們各自概率的乘積。

(10)

對上述似然函數求對數logL(θ)得到:

(11)

式中:z為模型中的隱變量;p(x(i),z(i)|θ)為變換后的概率密度函數。在EM算法中此函數取:

Qi(z(i))=p(x(i),z(i)|θ)

(12)

式中:p(z(i)|x(i),θ)為隱變量z對應的隱分布。

似然函數最大化得到新的參數值為:

(13)

(14)

(15)

(16)

3) 匹配打分

(17)

式中:P(λj|X)為X與每個說話人模型的后驗概率,概率最高者即為預測的說話人。

3 試驗過程與結果分析

試驗的測試環境為基于Windows操作系統的計算機,其中CPU為Intel Corei71.8 GHz,內存為16 GB。語音庫中共采集30位說話人(20名男性,10名女性)數據。每人通過計算機麥克風錄制10段語音,每段平均時長約為5 s,語音內容為隨機中文語句。

在本地主機進行試驗時,根據不同訓練語音長度來測試識別準確率。本文分為以下五種情況進行試驗:訓練語音5句,測試語音1句;訓練語音6句,測試語音1句;訓練語音7句,測試語音1句;訓練語音8句,測試語音1句;訓練語音9句,測試語音1句。測試結果如表1所示。

由表1試驗結果可以看出,當訓練語句減少為7句(總時長35 s)時可以達到30/30的識別準確率,并且所用時間是所有試驗中最短的。因此本系統最少可以使用7句語音進行模型訓練,即可以保證識別準確率的條件下識別速度最快。

表1 不同訓練語音長度情況下識別結果

4 結束語

本文利用Python在Windows操作系統搭建了一個利用高斯混合模型識別梅爾倒譜系數的具有降噪功能的說話人辨認系統,包括了語音信號預處理、聲紋特征提取和聲紋模型建立與匹配等過程。語音庫中共采集30位說話人數據,每人通過計算機麥克風錄制10段語音,其中最少5句用于訓練,1句用于測試。經過試驗,此系統在閉集說話人測試集中可以達到30/30的識別準確率。相比于傳統說話人識別系統,該系統增加了降噪功能,應用場景更加廣泛,并且訓練語音長度最短僅需要35 s即可達到30/30的識別效果,具有識別速度快、識別精度高的特點,為未來的生物特征識別技術提供了新思路。

猜你喜歡
信號模型
一半模型
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權M-估計的漸近分布
孩子停止長個的信號
3D打印中的模型分割與打包
基于LabVIEW的力加載信號采集與PID控制
一種基于極大似然估計的信號盲抽取算法
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产第八页| 午夜毛片免费看| 亚洲无码高清免费视频亚洲| 亚洲综合极品香蕉久久网| 一级高清毛片免费a级高清毛片| 日韩在线播放欧美字幕| 99中文字幕亚洲一区二区| 亚洲伦理一区二区| 国产在线专区| 在线观看免费AV网| 青草视频网站在线观看| 国产91色| 成人亚洲视频| 福利一区三区| 亚洲精选无码久久久| 国产午夜一级毛片| 首页亚洲国产丝袜长腿综合| 国产精品视频公开费视频| 性欧美久久| 99久久精品免费看国产免费软件| 国产成人禁片在线观看| 久久香蕉国产线看观看精品蕉| 午夜在线不卡| 国产区在线观看视频| 國產尤物AV尤物在線觀看| 91在线高清视频| 日韩精品少妇无码受不了| 精品乱码久久久久久久| 2022精品国偷自产免费观看| 久久国产精品无码hdav| 亚洲欧美日韩中文字幕一区二区三区| 亚洲AV永久无码精品古装片| 亚洲综合激情另类专区| 色综合成人| 青青草原国产av福利网站| 极品私人尤物在线精品首页| 亚洲视频无码| 国产特级毛片| 天堂在线视频精品| 动漫精品中文字幕无码| 欧美一区二区啪啪| 在线国产91| 亚洲国产欧美自拍| 高清免费毛片| 亚洲伦理一区二区| 97超级碰碰碰碰精品| 中日韩欧亚无码视频| 熟妇无码人妻| 538国产视频| 国产人成在线视频| 亚洲免费福利视频| 欧美翘臀一区二区三区| 亚洲综合专区| 国产在线视频自拍| 呦系列视频一区二区三区| 免费观看精品视频999| 大香网伊人久久综合网2020| 成人在线不卡| 日韩精品一区二区三区大桥未久| 亚洲区欧美区| 国内自拍久第一页| 四虎影视8848永久精品| 99久久精品久久久久久婷婷| 在线观看热码亚洲av每日更新| 黄色福利在线| 福利在线不卡| 国产SUV精品一区二区6| 色婷婷在线播放| 亚洲成在线观看| 免费人成在线观看成人片| 色窝窝免费一区二区三区| 国产系列在线| 国产午夜精品鲁丝片| 国产欧美专区在线观看| 精品久久高清| 久久99国产综合精品女同| WWW丫丫国产成人精品| 国产91精品调教在线播放| 欧美人在线一区二区三区| 91亚瑟视频| 国产一级片网址| 国内精品久久九九国产精品|