999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于計算聽覺場景分析的說話人轉換檢測

2018-03-02 09:23:30楊登舟夏善紅
計算機工程 2018年2期
關鍵詞:檢測模型

楊登舟,劉 加,夏善紅

(1.中國科學院電子學研究所,北京 100190; 2.中國科學院大學,北京 100049;3.清華大學 電子工程系,北京 100084)

0 概述

隨著電子通信和計算機技術的快速發展,大量的語音數據被存儲,如何快速地建立語音檢索是亟需解決的問題。說話人轉換檢測(Speaker Change Detection,SCD),也稱說話人分割[1],是語音信號處理中的一項實用技術,從一段語音中將不同說話人說話的時刻檢測出來,將語音分割出滿足要求的片段,可以很方便地建立索引,為信息的進一步處理提供便利[2-3]。

語音切分類問題可以抽象成模型判別問題,用特定長度的窗(定長窗或者變長窗)掃描整段語音,當窗內左右兩部分的語音之間的差異達到某個閾值,認為在窗左半部分和右半部分發生了明顯的改變,有理由懷疑此處語音的聲源發生了變化[4]。在說話人轉換檢測的研究中,窗左右兩側語音之間的差異度量方式主要有模型差異、參數差異以及模型和參數相結合[5-6]這三大類。在基于模型的方法中,從訓練數據中挑選出不同的發聲源,訓練出各自的模型,同時訓練出所有聲源的全局模型,通過分析全局模型和個體模型的不同之處,得到模型間轉化關系或者找到可區分的模型差異,常用的模型包括通用背景模型(Universal Background Model,UBM)、樣本說話人模型(Sample Speaker Model,SSM)、隱馬爾科夫模型(Hidden Markov Model,HMM)?;趨档姆椒?使用較多的特征主要包括時域短時能量、過零率、頻域的子帶能量、倒譜特征、線性預測系數等。通常使用差異度量準則有貝葉斯信息準則(Bayesian Information Criterion,BIC)、廣義似然比(Generalized Likelihood Ratio,GLR)、KL散度(Kullback-Leibler divergence)、歸一化交叉似然比(Normalized Cross Likelihood Ratio,NCLR)等。

在說話人識別問題中,由于事先可以獲取訓練數據,可以事先訓練出多個不同的說話人模型,在判決階段只要將一段語音的特征和所有參考模型做比較,和哪一個更近就判別成哪個,在閉集測試中,性能較好[7]。而說話人轉換檢測比說話人識別難度大,主要難點在于對一段語音做切分任務,并不會提供該語音中所包含的說話人的訓練語料,因此不能準確獲取到說話人的模型,特別是在短時說話人迅速轉變的對話口語語音中完成穩定說話人建模難度更大,需要挖掘短時說話人差異區分性大、能全面描述說話人發聲特性的特征。計算聽覺場景分析(Computational Auditory Scene Analysis,CASA)[8]根據聽覺生理學和聽覺心理學的研究成果,利用計算機模擬人耳耳蝸的聽覺處理機制來處理接收到的語音信息,該理論能夠較好地解決諸如同信道語音分離問題,充分利用語音的周期性和短時連續性2個重要的線索來區分不同的聲源。

本文提出一種基于聽覺場景分析的說話人轉換檢測方法,將語音分割成相鄰的若干語音子段,提取伽馬音能量倒譜系數特征,在貝葉斯信息準則的判決下得到初始說話人轉換點,最后利用濁音的基頻特征對漏檢和錯檢的轉換點進行后處理,以達到較好的檢測結果。

1 計算聽覺場景分析

人每天在各種復雜的聲學環境中傾聽語音,提取需要的信息,可以從周圍嘈雜的多人說話環境中鎖定自己感興趣的聲源對象,只要信噪比合適,人耳可以將目標聲源的聲音從背景語音中完全分離出來,并且做得非常出色,取決于人類具有聽覺場景分析(Auditory Scene Analysis,ASA)[9]的能力。

人耳的耳蝸基底膜就好像是一個初級的頻率分析器,可以將聲音中的各種頻率在基底膜上的位置進行編碼。當基底膜上下振動,其柯蒂氏器(Corti)也隨之產生相同的振動模式,并促使毛細胞纖毛發生彎曲形變,毛細胞去極化并在其頂部產生耳蝸電位,該電位會引起毛細胞底部神經纖維的應激反應,釋放出化學物質,引導神經末梢興奮,傳輸至中樞神經。人耳除了具有頻率分析特性,對聲波強度的編碼也非常高效,通過神經單元興奮后發放神經沖動的數量來確定強度。

1.1 Gammatone濾波器組模型模擬耳蝸的頻率分析

聽覺場景分析中將原始語音信號拆分成多個子帶信號的過程是通過Gammatone濾波器組[10]來實現的。Gammatone濾波器組是由一系列不同帶寬不同中心頻率的帶通濾波器組成,Gammatone濾波器的沖激響應為:

gc(t)=

(1)

其中,τ是濾波器的階數,φ是初始相位,B(fc)是濾波器組的帶寬,fc是中心頻率。當τ=4時和人耳聽覺濾波器非常吻合。濾波器的帶寬由中心頻率對應的等價直角帶寬(Equivalent Rectangular Bandwidth,ERB)確定:

ERB(f)=24.7×(4.37f/1 000+1)

(2)

B(f)=1.019×ERB(f)

(3)

線性頻率f和“ERB-rate”尺度頻率FERB的換算關系為:

FERB(f)=21.4×lg(0.004 37f+1)

(4)

將線性頻率80 Hz~5 000 Hz轉化為“ERB-rate”尺度頻率,并在“ERB-rate”尺度下均勻取出128個,生成子帶數C=128的Gammatone濾波器組。將原始語音信號s(t)通過濾波器組濾波,輸出C個子帶信號uc(t):

uc(t)=s(t)×gc(t),c=1,2,…,C

(5)

1.2 毛細胞觸發模型模擬耳蝸的強度分析

原始語音信號s(t)經過Gammatone濾波器濾波后得到uc(t),c=1,2,…,C(為表述方便,下文將省略子帶下標c,并不影響理解)。將u(t)經過Meddis毛細胞模型[11],可以得到描述聽覺神經觸發概率的信號v(t)。毛細胞觸發概率的計算過程通過以下4個方程完成:

(6)

(7)

(8)

(9)

在式(6)~式(9)中,g、r、l、h、A、B、x、y是模型常數,q(t)、c(t)、w(t)是中間變量,在毛細胞傳導模型中有具體意義,聽覺末梢發放概率v(t)=h·c(t)。

2 區分性特征提取

2.1 伽馬通能量倒譜系數

在語音識別、說話人識別和語種識別中都可以見到梅爾頻率倒譜系數(Mel-frequency Cepstral Coefficients,MFCC)[12]發揮的重要作用。梅爾頻率倒譜系數是將語音幀的快速傅里葉變換(Fast Fourier Transformation,FFT)頻譜通過相互交疊且中心頻率沿梅爾頻率線性分布的24個三角濾波器組,對三角頻窗內的能量計算對數,對數譜計算離散余弦變換(Discrete Cosine Transform,DCT)得到梅爾頻率倒譜系數。伽馬通頻率倒譜系數[13]借鑒了梅爾頻率倒譜系數特征提取的原理。MFCC中對能量求對數得到倒譜,在GFCC中變成了計算響度壓縮,本文建立了一個介于GFCC和MFCC之間的特征,伽馬通能量倒譜系數(Gammatone Energy Cepstral Coefficients,GECC),它和GFCC的提取不同之處如圖1所示,GECC僅在于利用響度和能量的差異。

圖1 特征提取流程

對毛細胞觸發模型的輸出v(t)進行100 Hz降采樣,得到分幀信號w(m),m=1,2,…,M,M是幀數。各幀能量記為Gc(m),對Gc(m),c=1,2,…,C計算M階的離散余弦變換來降低M個子帶間的數據相關性,取前D維的數據,得到GECC特征:

m=1,2,…,2M,k=0,1,…,D-1

(10)

2.2 音高

從人的發音結構和語音的形成過程,可以把語音信號等效成激勵-濾波器模型,聲門產生激勵,聲門激勵滿足準周期性就可以產生有固定諧波結構的語音信號,這類語音稱之為濁音[14];將不具有周期性且與噪聲類似的聲門激勵生成的語音信號稱為清音。聲帶、嘴唇、口腔的作用可以等效成聲道濾波器響應。聲道濾波器反映的主要是語義信息(音素,詞匯),說話人的特性主要取決于聲門激勵。濁音的基頻在聽覺的感受就表現在音高上,每個人的音高略有不同,分布在50 Hz~500 Hz的范圍內,男性的音高比女性要低,成人的音高比小孩的要低。音高的差異可以作為說話人區分的一個重要特征。

對應某個特定子帶c、時間幀m內的毛細胞觸發輸出v(t)的自相關:

vc(mN/2-k-τ)×h2(k+N/2)

(11)

(12)

通常人類的基音范圍在80 Hz ~500 Hz,對應的延時區間是τ∈[2 ms,12.5 ms],通過搜索最大值得到音高Pm:

(13)

對檢測的音高序列做平滑處理,得到連續的基音軌跡。

3 說話人轉換檢測系統

本文基于聽覺場景分析的說話人轉換檢測由聽覺外圍處理、特征提取、轉換點判決3個部分組成,如圖2所示。聽覺外圍處理將語音信號經由伽馬通濾波器組濾波,再用Meddis毛細胞觸發模型得到聽覺神經末梢的發放概率。對發放概率按幀能量檢測對應幀是濁音、清音還是靜音,各幀的屬性標記以后,得到濁音的連續片段,稱為子段,記為S。對所有相鄰的子段對(Si,Si+1)進行貝葉斯信息準則判決,得到分割初步判決結果。經過貝葉斯信息準則判決后,已經得到一定數量的說話人轉換點,區間驗證的作用是試圖利用音高信息,對可疑的轉化點進行剔除,并嘗試找回已經被遺漏的轉化點。

圖2 基于聽覺場景分析說話人轉換檢測系統

3.1 清濁音檢測

對毛細胞觸發模型的輸出v(t)進行短時分幀,并計算在各子帶內每幀的能量圖E(c,m)。沿時間軸方向對子帶能量進行能量規整:

(14)

c=1,2,…,C,m=1,2,…,M

(15)

其中,th0為低能量判決門限,th1為高能量判決門限。

首先檢測濁音,在頻率小于950 Hz的低頻區(中心頻率離950 Hz最近的子帶記為Cs),濁音一定會有能量中心,而清音或者背景噪聲在此區域內的能量與濁音的諧波能量相比,幾乎可以忽略不計[15]。按以下約束對各幀進行標記:

c=1,2,…,Cs,m=1,2,…,M-1

(16)

其中,V表示濁音,X表示未定。標記為V的所有幀記為集合setV,標記為X的所有幀記為集合setX。

清音在高頻區(頻率大于950 Hz)雖然沒有能量中心,但和靜音相比有明顯的能量分布,在setX中各幀按照以下約束進行標記:

c=Cs…C,m∈setX

(17)

其中,U表示清音,S表示靜音,清音幀的集合記為setU,靜音幀的集合記為setS。

3.2 分割初判決

對分幀信號標記濁音、清音、靜音以后,可以得到語音的連續片段,稱為子段,記為S,Si={x1,x2,…,xMi},xj是第j幀的特征矢量,Mi是第i段的幀數。說話人A說了一串語音,該段語音中包含若干A的子段,然后轉變成B的若干子段。屬于同一說話人的子段之間相似度較高,而不同說話人之間的相似度較低。對完整語音按照說話人不同進行分割,就可以通過檢驗相鄰的子段對(Si,Si+1),對以下2種假設做出判決:

(18)

這是模型選擇問題,如果p(H0)>p(H1),則假設H0成立,反之亦然。對子段的特征訓練單高斯模型,Si~N(μi,Σi),Si+1~N(μi+1,Σi+1),Si∪Si+1~N(μ,Σ),單高斯模型對特征進行似然度打分:

(19)

(20)

(21)

此時判決結果可以表示為:

(22)

貝葉斯信息準則(BIC)在模型選擇問題上具有較好的性能,并有廣泛的應用[16],貝葉斯信息準則滿足:

(23)

其中,D是GECC特征維度,λ是調節因子,一般設為1即可。

對所有相鄰的子段對(Si,Si+1)進行貝葉斯信息準則判決,得到分割初步判決結果。

3.3 區間驗證

經過貝葉斯信息準則判決后,已經得到一定數量的說話人轉換點,區間驗證的作用是試圖利用音高信息,對可疑的轉化點進行剔除,并嘗試找回已經被遺漏的轉化點。

根據貝葉斯信息準則判決產生的相鄰轉換點之間的時間幀區間內存在的子段個數N,采用不同的處理策略。

當N=1時,兩相鄰轉換點之間有一個孤立子段,此時判斷孤立子段兩側轉換點之間的時間間隔是否足夠小,如果小于1 s且孤立子段的音高和左右兩側有一邊比較吻合,就剔除掉吻合度較低的那一側的轉化點。當15時,從距離兩側轉換點最近的子段開始,逐步向中間的子段逼近描繪基音軌跡,哪一側軌跡吻合度高就先向中間過渡一個子段,繼續逼近,直到兩邊匯合,如果最后匯合處兩側的基音軌跡存在明顯跳變,就在匯合處補充一個轉化點。

4 實驗設置與數據分析

測試數據庫選用conTIMIT數據集[17],一共包含55條語音波形文件,統計語音時長3 675 s,有效分割點數1 071個,平均每個說話人段長3.29 s,最短1.14 s,最長11.75 s,標準差1.75 s。語音采樣頻率為16 000 Hz,實驗中語音分幀幀長20 ms,幀移10 ms,GFCC特征選擇23維基本特征加一階差分特征,MFCC特征選擇13維基本特征加一階差分特征。

對說話人轉化檢測的性能評價,用等錯率和F1值。當虛警率(False Alarm Rate,FAR)和漏報率(Miss Detection Rate,MDR)相等時,得到等錯率(Equal Error Rate,EER):

(24)

(25)

(26)

用召回率(Recall)和準確率(Precision)計算F1值:

(27)

(28)

(29)

其中,FA是轉換點虛報個數,MD是未檢測出的轉換點個數,GT是實際的轉換點個數,GD是正確檢測出的轉換點個數。

在數據集上用貝葉斯信息準則作為距離準則得到說話人轉換點,并和加權距離度量(Weighted Distance Measure,WDM)[18]準則檢測的性能做對比。表1給出濁音子段、清音子段、語音子段(包含濁音和清音)的段長統計信息。分別計算分割邊界轉換點的漏報率-虛警率曲線,如圖3~圖5所示,對應的等錯率結果如表2所示。單獨計算濁音子段,BIC和WDM兩種方法的轉換點與檢測點都是非常差的,80%的子段段長落在0.1 s~0.5 s范圍內,造成BIC失效。在同樣極短時間的條件下,清音子段的表現比濁音好得多。把相鄰濁音和清音連接成語音子段,段長平均達到1.34 s,與說話人識別的最低2 s的要求已經比較接近,GECC特征在BIC準則下達到最好檢測效果,等錯率降到26.8%。

表1 濁音、清音、語音段長統計 s

圖3 濁音子段(V-S)虛警率和漏報率曲線

圖4 清音子段(U-S)虛警率和漏報率曲線

圖5 語音子段(UV-S)虛警率和漏報率曲線

表2 不同特征、不同子段類別切分等錯率 %

濁音子段的音高特征在說話剛開始時會出現跳高音陡降至穩態基頻區的過程,在說話結束時幾乎都會發生從穩態基頻降頻的收尾效應,但在同一個說話人語音內跳躍幅度比較平穩,在區間驗證的過程中利用這一信息,既可以剔除掉一些虛警轉換點,也可以找回一些已經漏掉的轉換點,從表3可以看到最終的等錯率可以下降到23.2%,相應的F1值為70.0%。

表3 結合音高補償后的檢測性能 %

5 結束語

在基于聽覺場景分析的說話人轉變檢測中,由于伽馬通濾波器和毛細胞模型對人耳聽覺系統的模擬,可以將語音信號按照人的聽覺感知對各個頻帶進行精細劃分,得到準確的清音和濁音信息以及穩健的基頻軌跡。基于此,本文一種提出基于聽覺場景分析的說話人轉換檢測方法。將語音分割成相鄰的若干語音子段(包含清音、濁音、極短靜音),提取伽馬通能量倒譜系數特征,在貝葉斯信息準則的判決下得到初始說話人轉換點,最后利用濁音的基頻特征對漏檢和錯檢的轉換點進行后處理,最終得到較好的檢測結果。在conTIMIT數據集上的測試結果表明,不做音高檢測,最優性能是選用GECC特征在BIC準則下等錯率達到26.8%,利用音高信息,得到GFCC特征在BIC準則下性能提高到23.2%,GECC和GECC特征的性能優于MFCC,BIC準則優于WDM準則,在短時語音說話人快速轉變的口語對話環境中,即使無法訓練說話人模型,也可以達到一定的檢測準確性。

[1] BAZYAR M,SUDIRMAN R.A New Speaker Change Detection Method in a Speaker Identification System for Two-speakers Segmentation[C]//Proceedings of 2014 ACM Symposium on Computer Applications and Industrial Electronics.New York,USA:ACM Press,2014:141-145.

[2] MALEQAONKAR A S,ARIYAEEINIA A M.Efficient Speaker Change Detection Using Adapted Gaussian Mixture Models[J].IEEE Transactions on Audio,Speech,and Language Processing,2007,15(6):1859-1869.

[3] ZAHID S,HUSSAIN F,RASHID M,et al.Optimized Audio Classification and Segmentation Algorithm by Using Ensemble Methods[J].Mathematical Problems in Engineering,2015(11):209-214.

[4] 鄭繼明,張 萍.改進的BIC說話人分割算法[J].計算機工程,2010,36(17):240-242.

[5] KOTTI M,BENETOS E,KOTROPOULOS C.Computa-tionally Efficient and Robust BIC-based Speaker Segmenta-tion[J].IEEE Transactions on Audio,Speech,and Language Processing,2008,16(5):920-933.

[6] YANG J,HE Q,LI Y,et al.Speaker Change Detection Based on Mean Shift[J].Journal of Computers,2013,8(3):638-644.

[7] WU Z,EVANS N,KINNUNEN T,et al.Spoofing and Countermeasures for Speaker Verification:A Survey[J].Speech Communication,2015,66(1):130-153.

[8] 張學良,劉文舉,李 鵬,等.改進諧波組織規則的單通道濁語音分離系統[J].聲學學報,2011,36(1):88-96.

[9] CUSACK R,DECKS J,AIKMAN G,et al.Effects of Location,Frequency Region,and Time Course of Selective Attention on Auditory Scene Analysis[J].Journal of Experimental Psychology:Human Perception and Performance,2004,30(4):643-656.

[10] MAKA T.Change Point Determination in Audio Data Using Auditory Features[J].International Journal of Electronics and Telecommunications,2015,61(2):185-190.

[11] MEDDIS R.Simulation of Mechanical to Neural Transduction in the Auditory Receptor[J].The Journal of the Acoustical Society of America,1986,79(3):702-711.

[12] LI L.Performance Analysis of Objective Speech Quality Measures in Mel Domain[J].Journal of Software Engineering,2015,9(2):350-361.

[13] KAUR G,SINGH D,RANI P.Robust Speaker Recognition Biometric System a Detailed Review[J].Emerging Research in Management & Technology,2015,4(5):281-288.

[14] 王 民,任雪妮,孫 潔.一種高效的基音檢測與評估算法[J].計算機工程與應用,2014,50(14):126-132.

[15] 胡 瑛,陳 寧.基于小波變換的清濁音分類及基音周期檢測算法[J].電子與信息學報,2008,30(2):353-356.

[16] CHEN S,GOPALAKRISHNAN P.Speaker,Environment and Channel Change Detection and Clustering via the Bayesian Information Criterion[C]//Proceedings of Broadcast News Transcription and Understanding Workshop.San Francisco,USA:Morgan Kaufmann Publishers,1998:127-132.

[17] SEO J S.Speaker Change Detection Based on a Graph-partitioning Criterion[J].The Journal of the Acoustical Society of Korea,2011,30(2):80-85.

[18] KWON S,NARAYANAN S S.Speaker Change Detection Using a New Weighted Distance Measure[C]//Pro-ceedings of the 7th International Conference on Spoken Language Processing.Washington D.C.,USA:IEEE Press,2002:2537-2540.

猜你喜歡
檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 国产哺乳奶水91在线播放| 欧美激情网址| 任我操在线视频| 欧美不卡二区| 尤物亚洲最大AV无码网站| 一区二区自拍| 伊人久久综在合线亚洲2019| 日韩无码视频播放| 老司国产精品视频91| 欧美在线一二区| 国产精品香蕉在线观看不卡| 天天躁夜夜躁狠狠躁图片| 黑人巨大精品欧美一区二区区| 2020国产免费久久精品99| 亚洲av日韩av制服丝袜| 久久精品国产亚洲麻豆| 91最新精品视频发布页| 久久亚洲国产一区二区| 亚洲精品无码AⅤ片青青在线观看| 日韩欧美国产精品| 19国产精品麻豆免费观看| 成年人国产视频| 色综合久久88| 国产青榴视频在线观看网站| 亚洲午夜天堂| 国产爽爽视频| 日韩人妻精品一区| 欧美日韩免费| 国模在线视频一区二区三区| 色偷偷综合网| 国产成人免费高清AⅤ| 国产在线精彩视频论坛| 九九九久久国产精品| 丁香六月激情综合| 91人妻日韩人妻无码专区精品| 一本色道久久88综合日韩精品| 欧美亚洲另类在线观看| 国产 在线视频无码| 高清无码不卡视频| 亚洲第一黄色网址| www.av男人.com| 国产96在线 | 动漫精品啪啪一区二区三区| 欧美国产视频| 国产地址二永久伊甸园| 四虎在线观看视频高清无码| 日韩不卡高清视频| 国产高清色视频免费看的网址| 中国毛片网| 少妇人妻无码首页| 国产靠逼视频| 国产va欧美va在线观看| 久久久久国产一级毛片高清板| 国产门事件在线| 日本成人不卡视频| 中国黄色一级视频| 五月婷婷欧美| 亚洲伦理一区二区| 婷婷五月在线| 在线国产欧美| 国产成人av一区二区三区| 天堂网国产| 久久无码高潮喷水| 国产欧美日韩视频一区二区三区| 欧美伊人色综合久久天天| 怡红院美国分院一区二区| 伊人激情综合网| 久久久久久久久18禁秘| 成人亚洲天堂| 精品一区二区久久久久网站| 亚洲欧美成人影院| 香蕉eeww99国产在线观看| 国产不卡一级毛片视频| 91久久夜色精品| 国产不卡一级毛片视频| 久久大香伊蕉在人线观看热2| 亚洲欧美在线综合图区| 色老二精品视频在线观看| 激情影院内射美女| 中文字幕永久视频| 国产91透明丝袜美腿在线| 97人人模人人爽人人喊小说|