999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種改進的有監督訓練的TV語種識別方法

2016-11-09 01:11:32張翼飛騰瀟琦
計算機應用與軟件 2016年9期
關鍵詞:監督特征效果

張翼飛 騰瀟琦

1(上海大學機電工程與自動化學院 上海 200072)2(訊飛智元信息科技有限公司 安徽 合肥 230088)3(北京市互聯網信息辦公室 北京 100062)

?

一種改進的有監督訓練的TV語種識別方法

張翼飛1,2騰瀟琦3

1(上海大學機電工程與自動化學院上海 200072)2(訊飛智元信息科技有限公司安徽 合肥 230088)3(北京市互聯網信息辦公室北京 100062)

傳統的GMM-TV(Gaussian Mixture Model-Total Variability,又稱為i-vector)系統得益于它良好的識別效果以及優秀的識別效率,在語種識別LID(language identification)中得到廣泛應用,然而載荷矩陣T的訓練過程是無監督的,使得它的分類空間并沒有得到最好的優化。已有的有監督TV(Supervised-TV,S-TV)算法,通過在均值超矢量上拼接一個帶有標簽信息的向量,使得T矩陣的訓練過程變成一個有監督的過程,但是效果增長較弱,同時帶來了載荷矩陣自由度問題。提出一種改進的有監督訓練方法,在目標函數中引入正則化項來解決自由度的問題,同時大大提升它的分類效果。該方法在NIST LRE09的30s數據集實驗中得到了很好的效果,等錯誤率EER(Equal Error Rate)從5.40%下降到4.96%,融合系統的EER達到了3.86%。

語種識別TV系統有監督訓練載荷矩陣

0 引 言

語種識別LID是通過對給定的一段語音信號分析處理,識別其所屬語言的種類。它往往作為語音識別和其他相關應用的一個前端處理技術,是在語音識別基礎上發展起來的[1]。隨著全球化趨勢和國際互聯網的發展,人們更加迫切地希望可以突破語言的障礙進行交流,因而對于語種識別技術的需求也與日俱增,比如音頻和視頻信息檢索、自動機器翻譯、電話自動轉接、多語種語音識別和智能監測等。不僅如此,語種識別還廣泛應用于軍事、國家安全和各個信息產業領域,具有極為重要的應用價值和前景。

目前主流的LID方法有很多,但國際主流的方法都是以GMM-TV[2-4]為基礎的,這主要得益于GMM-TV系統優秀的識別效率和良好的識別效果。然而傳統的T矩陣的訓練是無監督的過程,這就使得它的分類空間并沒有得到最好的優化。2014年李明提出了一種有監督的TV系統S-TV[5]。該方法在原TV系統的基礎上,在均值超矢量上拼接了一個帶標簽的語種標識向量,使得T矩陣的訓練過程融入了監督信息,以此來增加T矩陣的區分性。實驗結果表明,該方法在傳統的TV系統基線上有一定的提升。

然而S-TV系統在迭代過程中T和W的方差不斷地在增大,尤其在迭代了5次以后,方差的增大幅度在10倍以上,遠遠超過了傳統TV系統中T矩陣方差的增長速度。而我們需要的是盡量收斂的T矩陣,于是本文對S-TV做了小小的改進,通過增加正則化項來抑制T和W矩陣的增長幅度,使得識別效果得到了很大的提升。在NIST LRE09數據集上,此方法取得了較好的效果。

1 傳統TV系統

給定混合度為C的UBM模型λ,C個分量λc={wc,uc,Σc}。假設一條語音有L幀,它的特征序列為{x1,x2,…,xL},并且每個特征xi的維度為D,根據文獻[4]:

z=(I+TtΣ-1NT)-1TtΣ-1Ny

(1)

其中z就是i-vector,維度為K。Σ為CD×CD維的協方差對角陣。N是一個CD×CD維的對角陣,并且由C個子塊NcI構成,Nc為D×D維的對角陣,且所有元素都相同,它的值由下式確定:

(2)

其中,P(c|xt,λ)為xt在λc上的占有率。y是均值超矢量,它由C個分量構成:

(3)

于是y可以通過CD×K維的矩陣T映射到K維的空間上:

y→Tz

(4)

在通過式(1)得到i-vector之后,經過LDA并計算cosine距離即可實現分類。

2 有監督的TV系統

為了讓i-vector具有更好的區分性,文獻[5]中的有監督TV在基線TV的均值超矢量后面加上了一個語種標識向量,語種標識向量的維度M等于語種的類別數。假設第j條語音的語種標識向量為Lj=(Lj1,Lj2,…,LjM)T,則有:

(5)

如圖1所示,將M維的L拼接在CD維的均值超矢量后面,構成一條(CD+M)維的超矢量,同樣在T矩陣下方拼接一個M×K的W矩陣,構成一個(CD+M)×K的矩陣。這樣超矢量就代入了監督信息,并且參與了T矩陣的訓練,使最后得到的i-vector的區分性更強。

圖1 S-TV結構圖

類似于傳統TV系統,假設zj服從于標準正態分布,則有:

P(zj)=N(0,I)

(6)

(7)

(8)

結合式(7)、式(8),通過簡化操作得到優化函數,可以看出,EM算法的目標在于最小化J:

(9)

(10)

(11)

在M步驟,通過最小化上述函數J后可得W和T的更新公式:

(12)

(13)

式中,Tc是T矩陣在第c個高斯上的分量,ycj是yj在第c個高斯上的分量。

經過幾次EM迭代后,T和W矩陣的參數會得到很好的修正。后面的提取i-vector階段,利用修正的矩陣,采用傳統的TV方法進行i-vector估計即可。

3 改進的有監督TV系統

(14)

則最終的更新公式變為:

(15)

(16)

實驗證明,加入正則化項后,成功抑制住了W和T矩陣過大的增長趨勢,并且使得Supervised-TV的效果有了很大的提升。

4 實 驗

4.1數據和參數

圖2 LID測試流程

本次實驗選用了NIST LRE09的30s數據集合,該集合有24個語種。特征選用了PLP-SDC特征[6]和PNCC-SDC特征[7,8],UBM的維度為512,i-vector維度為300。在開發集上,對S-TV的一些參數進行了調優,正則化項系數λ的值取1000,初始的W矩陣為隨機生成,并且它的值服從均值為0,方差為1×10-6的高斯分布。后端采用LDA+cosine距離的組合,LDA矩陣的維度為300×23。整個測試系統如圖2所示。

4.2實驗結果與結論

首先看正則化項對優化函數J的影響。目標函數采用式(9),特征為PLP-SDC特征,我們取出迭代5次中的每一代結果,分別統計出相同的6條語音的目標函數J之和放在表1中。

表1 目標函數

從表1可以看出,帶正則化項后的S-TV對目標函數J的優化更好,理論上會得到更好的結果。實驗結果證明了我們的猜想,表2展示了正則化項對實驗結果的影響。

表2 不同配置下的S-TV系統結果

對比表2各項,正則化項對S-TV的提升很明顯,特別是在使用PNCC-SDC特征時。表3對比了基線和S-TV的單系統效果(S-TV系統均是帶正則化項的),圖3是它們的DET曲線。

表3 各單系統結果

圖3 單系統的DET曲線

從以上結果可以得出結論,單系統中,PNCC-SDC特征整體上優于PLP-SDC特征,并且在使用PNCC-SDC特征時,S-TV令基線系統的EER從5.40%下降到4.96%,效果相對提升達到了8.15%。

表4展示了各種融合系統的效果,可以看出,融合系統的效果有很顯著的提升,說明PNCC-SDC特征和 PLP-SDC特征以及S-TV和TV的互補性都較強。當四個單系統融合時,EER達到了3.86%的最小值。

表4 融合系統結果

在效率方面,文獻[5]給出了TV和S-TV的時間復雜度,分別為O(K3+K2C+KCD)和O(K3+K2C+K(CD+M))。在一般情況下,M<

表5 改進S-TV與傳統TV的效率對比

5 結 語

本文在GMM-TV系統以及已有的有監督訓練的TV系統下,提出了一種改進的有監督訓練TV系統,在原本訓練T矩陣的基礎上給訓練數據增加標識向量來增加T空間的區分性,同時在目標函數中引入正則化項,來控制空間訓練的自由度。實驗結果表明,此方法在不影響效率的情況下有效地提高了語種識別的效果,在NIST LRE09數據集合上,所提出的融合系統相比基線系統提升非常明顯。本文方法為模型域層面的改進,可以用于國際主流的Bottleneck特征[9]中。

[1] 付強.基于高斯混合模型的語種識別的研究[D].中國科學技術大學,2009.

[2] 郭武.復雜信道下的說話人識別[D].中國科學技術大學,2007.

[3] Dehak N,Kenny P,Dehak R,et al.Front-End Factor Analysis for Speaker Verification[J].Audio Speech & Language Processing IEEE Transactions on,2011,19(4):788-798.

[4] Kenny P.Joint factor analysis of speaker and session variability:Theory and algorithm[R].Technical report CRIM-06/08-13,CRIM,2006.

[5] Li ming,Shrikanth Narayanan.Simplified Supervised I-vector Modeling with Application to Robust and Efficient Language Identification and Speaker Verification[J].Computer Speech & Language,2014,28(4):940-958.

[6] Kohler M A,Kennedy M.Language identification using shifted delta cepstra[C]//Circuits and Systems,2002.MWSCAS-2002.The 2002 45th Midwest Symposium on.IEEE,2002:III-69-72.

[7] Kim C,Stern R M.Feature extraction for robust speech recognition using a power-law nonlinearity and power-bias subtraction[J].Interspeech,2009:28-31.

[8] Kim C,Stern R M.Power-Normalized Cepstral Coefficients (PNCC) for robust speech recognition[C]//2012 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2012,22(10):4101-4104.

[9] Jiang Bing,Song yan,Wei si,et al.Deep Bottleneck Features for Spoken Language Identification[J].PLOS ONE,2014,9(7):e100795.

AN IMPROVED LANGUAGE IDENTIFICATION METHOD USING SUPERVISED TOTAL VARIABILITY

Zhang Yifei1,2Teng Xiaoqi3

1(School of Mechatronics Engineering and Automation,Shanghai University,Shanghai 200072,China)2(IflytekIntelligentSystemCo.,Ltd,Hefei230088,Anhui,China)3(TheOfficeofInternetInformation,Beijing100062,China)

Traditional GMM-TV (Gaussian mixture model-total variability) system is benefited from its good recognition effect and excellent recognition efficiency, and has been widely used in language identification (LID). However the training process of load matrix T is unsupervised, this leads to its classification space not being optimised the best. Existing supervised-TV (S-TV) algorithm, through stitching a vector with tag information on mean super vector, makes the training process of T matrix become a supervised process, but it only achieves a little performance gain while introduces the problem of load matrix’s freedom. In this paper we propose an improved S-TV method which puts a regularisation item into the objective function for solving the freedom problem and meanwhile greatly improves its classification effect. The improved system achieves excellent effect in the experiment on 30s dataset of NIST LRE2009, the equal error rate (EER) reduces to 4.96% from 5.40% and the fusion system’s EER has even reached 3.86%.

Language identificationTV systemSupervised trainingLoad matrix

2015-05-20。北京市科委項目(Z141100006014002)。張翼飛,碩士生,主研領域:聲紋語種識別。騰瀟琦,碩士生。

TP3

A

10.3969/j.issn.1000-386x.2016.09.038

猜你喜歡
監督特征效果
按摩效果確有理論依據
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
迅速制造慢門虛化效果
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
抓住特征巧觀察
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
主站蜘蛛池模板: 国产流白浆视频| 国产精品毛片一区| 日本午夜精品一本在线观看 | 国产9191精品免费观看| 久久青青草原亚洲av无码| 国产女人在线| 婷婷色中文| 最新国语自产精品视频在| 欧美在线视频不卡第一页| 国产丝袜无码一区二区视频| a毛片免费观看| 国产精品一区二区国产主播| 91精品免费高清在线| 国产精品不卡片视频免费观看| 91久久大香线蕉| 亚洲品质国产精品无码| 欧美日韩在线成人| 色男人的天堂久久综合| 美女无遮挡拍拍拍免费视频| 国产成人免费观看在线视频| 粉嫩国产白浆在线观看| 精品一区二区三区四区五区| 国产在线八区| 国产在线观看91精品| 午夜精品国产自在| 精品少妇人妻av无码久久| 国产精品页| 波多野结衣的av一区二区三区| 久久九九热视频| 91在线播放国产| 91网站国产| 91精品情国产情侣高潮对白蜜| 婷婷六月在线| 午夜少妇精品视频小电影| 亚州AV秘 一区二区三区| 日韩无码黄色| 欧美一区二区三区国产精品| 91免费国产在线观看尤物| 欧美色伊人| 亚洲国产清纯| 中文字幕av无码不卡免费| 国产成人精品高清不卡在线 | 这里只有精品免费视频| 久久精品女人天堂aaa| 伊人激情久久综合中文字幕| 精品无码专区亚洲| 国产免费人成视频网| 国产导航在线| 日韩天堂视频| 2021精品国产自在现线看| 久久夜色精品| 欧美成人免费| 国产精品自在在线午夜| 精品五夜婷香蕉国产线看观看| 九九热精品视频在线| 欧美α片免费观看| 亚洲精品欧美日本中文字幕| 亚洲一区毛片| 视频二区亚洲精品| 国产精品思思热在线| 成人午夜久久| 免费A级毛片无码免费视频| 99久久精品国产自免费| 欧美精品1区| 国产农村妇女精品一二区| 国产亚洲精品91| 人妻丰满熟妇AV无码区| 一级香蕉视频在线观看| 午夜精品久久久久久久99热下载 | 久久国产精品影院| 国产日产欧美精品| 免费人成在线观看视频色| 亚洲成年人片| 国产一区二区影院| 久久久四虎成人永久免费网站| 91精品在线视频观看| 欧洲一区二区三区无码| 免费无码又爽又黄又刺激网站| 热久久这里是精品6免费观看| 91精品啪在线观看国产91| 亚洲色图欧美在线| 伊人久久久久久久|