999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BLSTM-CTC的語音特征的音素識別研究

2022-07-23 15:51:30吳丹丹夏秀渝
現代計算機 2022年10期
關鍵詞:特征信號實驗

吳丹丹,夏秀渝

(四川大學電子信息學院,成都 610065)

0 引言

音素作為自然語言體系中的最小單位,可以構成更復雜的字、詞或者句子,根據此特性可以將它應用于關鍵詞的識別和語音識別。音素相比于其它字詞單元來說,其規模較小、更易訓練,對訓練設備的要求更低。音素識別可以用在關鍵詞識別之中,通過音素先判斷該語音流中是否可能存在該詞,通過對音素的定位快速判斷該詞可能出現的位置,進而快速地找到關鍵詞。除此之外也可以應用于語音識別中,通過識別出的音素來構建字詞,可以和目前的語音識別方法進行融合從而提高識別性能。

總而言之,音素識別因其自身的規模小、泛型高的特點,可以應用在許多場合。所以音素識別的研究價值和應用領域還是值得研究者們花大量精力去探索。

傳統的語音識別模型大部分都是利用高斯混合-隱馬爾科夫模型(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM),該系統性能的提升隨著應用需求的加大受到了限制;隨著深度學習的興起,深層神經網絡與隱馬爾可夫的結合(Deep Neural Network-Hidden Markov Model,DNN-HMM)相比于傳統的系統模型,其性能上有了很大的提升;針對深層神經網絡無法解決序列上下文的問題,研究者們提出了循環神經網絡(Recurrent Neural Network,RNN);但由于循環神經網絡會存在梯度消失問題,長短時記憶網絡(Long Short-Term Memory,LSTM)以及雙向長短時記憶網絡(Bi-directional Long Short-Term Memory,BLSTM)也隨之被提出。之前的語音識別系統的過程是將聲學模型和語言模型分開訓練,并且在訓練過程中會出現音頻與標簽的對齊問題,為了解決這一問題,研究人員提出了端到端模型。相比于目前興起的注意力機制(attention)、時序聯接機制(Connectionist Temporal Classification,CTC),其規模更小,對數據量和網絡訓練設備的要求更低。語音識別是將提供給系統的音頻數據經過一系列的處理之后,得到人們能明白的語言文本,即將語音翻譯為文字。音素識別的過程與之大體相同,只是最后翻譯得到的文本為音素,因此語音識別的技術也可以用于音素識別。

傳統語音識別的關鍵技術大概分為三個部分:①語音信息的提取及處理;②聲學建模;③語言模型的建立。本文搭建的系統為端到端模型,因此沒有第三個語言模型的搭建。本文結合雙向長短時記憶網絡(BLSTM)和時序聯接機制(CTC)搭建音素識別系統,在系統建立的過程中,先后分別加入DNN網絡優化網絡。除此之外,在特征數據處理方面主要利用基于幅度信息和相位信息對音頻數據提取特征,然后對數據進行規范化處理,最后對比實驗效果。

1 語音特征

語音特征在語音識別系統中占據著很重要的地位,因此對語音特征的研究一直也是語音識別的熱門方向之一,不同的語音特征可能有不同的效果,對網絡模型的契合度可能也有所不同。所以在進行語音特征的選取和改進實驗時,需要對所研究的內容和語音有一定的了解分析。

1.1 特征提取

目前常用的語音特征參數為梅爾倒譜系數(Mel Frequency Cepstral Coeffificients,MFCC),該特征在語音研究的各個領域都很流行。本文所采用的基于幅度的頻譜根倒譜系數(Magni?tudebased Spectral Root Cepstral Coeffificients,MSRCC)和基于相位的頻譜根倒譜系數(Phase?based Spectral Root Cepstral Coeffificients,PSRCC)。與MFCC相比,這一組特征主要使用了冪律非線性技術,其可以將比較低的幅度信號的響應歸于零,而不像MFCC趨近于負無窮,除此之外還提取到了相位特征,對幅度特征補充了語音信息,綜合發現該組特征具有較好的分類效果。該組特征提取的原理如圖1所示。

圖1 MSRCC和PSRCC特征原理圖

通過圖1可以看出,MSRCC與MFCC特征的主要不同是梅爾譜能量逆變換取次方得到次方,離散余弦變換(DCT)將個實數系數通過逆變換得到q個實數獨立的倒譜系數,即可以獲得語音信號的主要信息,如公式(1)所示:

梅爾譜如公式(2)所示:

其中,()代表時域信號()的點DFT,H ()代表Mel濾波器的頻率響應。

PSRCC特征是利用時域信號的短時傅里葉變換的相位信息,與MSRCC特征不同的是將MSRCC特征中的能量系數用相位系數代替,如公式(3)所示:

梅爾頻率相位如公式(4)所示:

1.2 動態語音特征

動態語音特征如對特征參數取一階差分或二階差分,其對神經網絡的識別性能有不小的提升,一階差分或者二階差分在現實生活中有實際的物理意義,即速度和加速度,計算方式很簡單。所以本文也研究語音特征的動態性。

一階差分就是離散函數中連續相鄰兩項之差,原理如公式(5)所示:

其中()為原始信號,Δ()為一階差分信號。物理意義就是當前語音幀與前一幀之間的關系,體現幀與幀(相鄰兩幀)之間的聯系;在一階差分的基礎上,提取二階差分,原理如公式(6)所示:

其中Δ()為一階差分信號,Δ()為二階差分信號。二階差分表示的是一階差分與一階差分之間的關系,即前一階差分與后一階差分之間的關系,體現到幀上就是相鄰三幀之間的動態關系。

1.3 特征向量歸一化

數據規范化是數據處理常用的一種技術,目前常用的規范化方法有最大值-最小值規范化、零均值規范化、小數定標規范化,本文采用零均值規范化,規范的方式如公式(7)所示:

其中,,std,'依次代表原始數據、原始數據的均值、原始數據的方差及規范后的數據。該過程可以將提取的語音特征數據統一尺度,有利于之后網絡模型參數的調節,加快訓練和網絡的收斂。

2 模型構建

聲學建模是本文搭建的音素識別系統的一個重要分支,其系統的構建極大地影響著識別性能,本文主要是結合雙向長短時記憶網絡(BLSTM)和聯接時序分類(CTC),該模型的構建簡化了音素識別的過程且能更好地利用時序上下文的信息。

2.1 雙向長短時記憶網絡(BLSTM)

RNN利用序列信號的上下文信息,將過去的輸入和現在的輸入一起映射到現在的輸出,從而改善網絡的性能,一定程度上提升音素識別系統的性能,但是循環神經網絡由于誤差信號在后向計算時存在梯度爆炸和梯度消失的問題,導致RNN很難較好地處理長期依賴的序列信號。LSTM的提出較好地解決了循環神經網絡中的問題,LSTM網絡引入門的概念來控制網絡的輸入與輸出,優化了網絡模型。LSTM網絡的結構如圖2所示。LSTM網絡有三個門,輸入門、忘記門和輸出門;通過門來控制和維護單元狀態。,,,分別代表遺忘門、輸入門、輸出門和cell狀態。

圖2 LSTM單元結構圖

LSTM的工作原理如下:

(1)忘記門決定從細胞單元中遺忘的東西,過程可由公式(8)表示,其中是激活函數,h 是隱藏值向量,代表各個部分的偏移量,是權重。

(2)輸入門控制哪些信息可以輸入到輸入門中,這一過程由兩個部分共同決定,一部分通過激活函數,另一部分通過tanh層得到一個新的候選值向量,如公式(9)和公式(10)所示:

(3)更新單元狀態,C 變為C ,把原來的單元狀態與f 相乘,丟棄無用的信息,隨后將更新的狀態C 與輸入信號i 相卷積之后與之相加,據此可以得到新的候選向量,如公式(11)所示:

(4)計算輸出信號的大小,輸出值依賴于cell單元各個部分的狀態,且是經過過濾的值,先通過激活函數得到輸出信號部分,之后再將cell單元通過tanh層,最后將這兩個值相乘得到我們需要的有用的輸出信號信息,如公式(12)和公式(13)所示:

由以上可知,LSTM網絡可以很好地解決循環卷積網絡的梯度消失和爆炸的問題,但它只考慮了當前時刻和過去時刻信號的信息,未能利用將來時刻的信號,沒有很好地處理長期依賴的信號。BLSTM針對這一問題提出雙向傳遞的概念,通過前向傳播和后向傳播,使網絡能夠充分利用輸入信號各個時刻的值來訓練調節網絡,更好地學習模仿信號的特點。BLSTM網絡結構如圖3所示。此網絡利用兩個單向的LSTM網絡疊加在一起,可以較好地應用序列信號過去和未來時刻的信息,即上下文信息來優化網絡的結構。

圖3 BLSTM網絡結構圖

2.2 聯接時序分類(CTC)

在端到端模型被提出之前,音素識別系統的建立大部分都是將語音按音素切分好,然后再分幀打標簽,這個過程十分繁瑣,而且誤差也受切分音素的操作誤差影響,費時費力。CTC目標函數的提出極大地簡化了音素識別系統的步驟,使整個網絡不再需要語言模型,標簽可以不需要按幀對齊,系統可以輸入整句語音直接識別出整句話的音素,這對語音研究帶來了里程碑式的影響。CTC目標函數的工作原理是在網絡模型的預測過程中加入空白標簽來使輸入序列和輸出序列對齊,然后在最后階段刪除重復的字符和空白標簽來得到準確的輸出信號。

其中,為所有標簽個數(CTC網絡輸出層節點個數),CTC目標函數學習得到的長度為的標注序列,是由63個音素和blank構成的,那么整個序列的概率為:

對于給定的目標序列,由于其他標注的重復性存在以及blank插入的位置不同,與存在多對一的關系,所以可以把上述關系重寫如下:

其中,是→的映射,表示的逆過程。映射函數先將重復相鄰的標簽合并,然后再去除空標簽,最后確定,CTC目標函數如公式(17)所示:

CTC目標函數最后的輸出表示轉換概率,該網絡在連續的時間里除去了映射重復的標簽,這樣使得網絡變得更加復雜,所以將空白結尾的對齊和標簽結尾的對齊分開,CTC目標函數的最佳結果就是找到概率最大的輸出序列,由公式(18)表示:

其中為T幀輸入序列的后驗概率最大的輸出標簽序列。

3 實驗

3.1 實驗數據

本文是采用TIMIT語音數據集進行實驗評估。該數據集來自美國8個主要方言地區的630位說話者,說話者大部分為白人男性,每個說話人講10個句子,TIMIT庫主要設計了三種類型的句子:①SA-方言句子,該句子體現了不同地區方言的差別,該句子不適合音素識別;②SX-音素緊湊的句子,由MIT設計,里面的句子音素分布平衡;③SI-音素發散的句子,目的是增加句子類型和音素文本多樣性。因本實驗為完成連續語音的音素識別,所以舍棄SA-方言句子,利用訓練集中的所有SX和SI句子,總計5040句。測試集使用測試數據集中的200條句子,即每個區域隨機選取25句。

3.2 實驗評測標準

本文使用訓練和測試網絡分開的原則,先將模型完全訓練之后再進行測試。評價指標采用CTC損失函數(CTC-loss)和音素標簽識別錯誤率(LER)。

3.2.1 CTC損失函數

CTC損失函數是衡量CTC網絡是否優良的一個常用指標,用來表示在給定當前的參數下的網絡模型和理想模型的差距,將此用來調整網絡模型的參數,從而調整網絡。CTC損失函數的表示如公式(19)所示:

其中P (|)是輸入序列為時輸出為序列的概率,為訓練集。()為給定輸入序列時輸出序列的每個樣本概率之和,但在實際中,輸出的標簽概率并不是相互獨立的。本文主要是利用雙向長短時記憶網絡和CTC網絡組合構建網絡模型,所以在整個系統中并沒有用到語言模型或者字典,在網絡中利用空白標簽將音素與音素分開,從而計算音素的錯誤率,然后利用網絡中構造的音素字典對其解碼獲得與之相對應的音素。

3.2.2 音素標簽識別錯誤率

本文基于音素進行網絡建模,所以選取音素標簽的錯誤率(Label Error Rate,LER)用作網絡準確度的評價指標,音素錯誤率的計算原則如公式(20)所示:

其中,,分別為插入,替換,刪除的音素的個數,代表輸出序列的音素個數。

3.3 實驗結果分析

3.3.1 不同特征參數的實驗對比

語音特征參數的提取方式的不同會較大地影響識別性能。第一組實驗將對比不同特征參數對音素識別系統性能的影響。

從表1可以看出,基于MFCC特征的音素識別率和基于MSRCC特征的音素識別率兩者較好,MSRCC特征最高,識別準確率可以達到80%,相比于MFCC高出3%,基于PSRCC特征的效果最差;且在訓練過程中,基于MSRCC特征的損失最小,相比于其它兩種特征,其更能擬合理想模型,訓練的效果更好;對于PSRCC特征其效果不是很理想,可能對于連續的語音來說其相位信息不能完全表征信號,所以其效果不如另兩種特征,但如果能與提取過程相似的MSRCC特征結合可能會有不一樣的效果。總而言之,從表1可以發現,基于MSRCC特征的效果各方面考慮來看均優于基于MFCC特征。

表1 基于不同特征參數的實驗結果

3.3.2 基于MSRCC特征的動態性

語音特征的動態性也極大地影響著識別系統的好壞,對于特征的維數的探究也是研究音素識別系統的一個重要方面,接下來將從MSRCC特征的不同維數考察該特征的優劣。

從表2可以看出,MSRCC特征加二階差分的效果最好,可以達到86%的識別準確率,一階差分與其相比低了1%,靜態特征低了6%,更高階的差分相加的識別效果也不如二階動態特征,說明動態特征的取值也需要適當的選擇。特征的動態性也是影響識別性能的因素之一。靜態的特征不能反映不同時刻之間的相關性,將其取差分可以將特征的動態性融入到需要送入的數據中,更有利于序列信號的訓練。相比于傳統的MFCC特征來說,音素識別率的準確率提高了很多。

表2 基于MSRCC不同維數的實驗結果

3.3.3 基于MSRCC與不同特征參數的融合

從表3可以看出MSRCC特征結合PSRCC特征實驗效果最好,測試集的識別率可以達到83%,其次是結合MFCC特征,識別率可以達到81%,相比結合相位特征低了2%,但總的來說都比單獨使用MSRCC特征效果好,但缺點是結合其它特征訓練的代價上升了,它與理想模型的差距更大了,所以在選擇特征時需要考慮實際環境和需求,如果準確率要求高的環境,則可以使用融合特征;如果要求損失小且速度快,則可以選擇性能較好的單一特征。

表3 基于MSRCC與不同特征參數的融合實驗結果

3.3.4 針對不同聲學模型的實驗

本組實驗主要研究了幾種常用網絡模型的對音素識別系統性能的影響,實驗中語音特征參數采用靜態MSRCC特征。

從表4可以看出,相比傳統模型DNNHMM,RNN-CTC的訓練錯誤率和測試錯誤率分別降低了7%和13%,說明模型的優化可以很好地改善系統性能。在后三組實驗中可以發現,BLSTM-CTC的實驗性能最好,訓練錯誤率和測試錯誤率分別為2%和20%,相比于其它兩組實驗效果都有一定的改善,驗證了BLSTM在一定的環境下能提升LSTM和RNN的性能。

表4 基于不同網絡模型的實驗結果

4 結語

本文主要研究了語音特征參數和BLSTMCTC的音素識別系統性能,采用最新的語音特征參數MSRCC和PSRCC進行了一系列實驗研究,表明這兩種參數具有較好的分類功能,PSRCC參數的提出可以利用語音信號的相位信息,之前語音的相關研究都忽略了相位信息,但是在本文中使用PSRCC特征參數結合MSRCC特征具有較好的性能,音素識別聲學網絡模型的建立也十分關鍵,本文使用了BLSTM網絡和CTC網絡的結合,該模型簡化之前復雜的識別系統的構建,不需要對語音流做切分和標簽對齊工作,大大地節約了識別系統構建的時間。該實驗也存在不足,只選取了一個語音數據集,在數據集的選用上可以使用多種數據集,除此之外,對MSRCC特征還可以進一步改進,可以嘗試考慮把特征提取過程中的Mel濾波器換成gammatone濾波器;網絡模型也還可以嘗試利用融合卷積神經網絡等。目前新提出了一些端到端的編碼解碼網絡,新的端到端網絡與BLSTM結合也是值得探索的方向,接下來我們會從以上幾點出發,開展進一步深入的研究實驗。

猜你喜歡
特征信號實驗
記一次有趣的實驗
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
抓住特征巧觀察
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 久久99国产综合精品1| 久久精品国产精品国产一区| 精品欧美一区二区三区久久久| 色色中文字幕| 91免费在线看| 一本色道久久88综合日韩精品| 国产一级特黄aa级特黄裸毛片| 国产乱人视频免费观看| 白浆免费视频国产精品视频| 国产毛片久久国产| 精品综合久久久久久97| 久久视精品| 国产精品女主播| 亚洲系列中文字幕一区二区| 99re在线视频观看| 日本一本在线视频| 国产精品白浆在线播放| 999精品视频在线| 99久久免费精品特色大片| 99久久精品视香蕉蕉| 亚洲综合激情另类专区| 国产草草影院18成年视频| 在线看免费无码av天堂的| 熟妇丰满人妻| 国产欧美日韩专区发布| 国产无遮挡猛进猛出免费软件| 欧美在线三级| 欧美日韩国产成人在线观看| 丰满人妻久久中文字幕| 啊嗯不日本网站| 亚洲人成网站观看在线观看| 国产视频欧美| 五月婷婷综合网| 67194亚洲无码| 亚洲天堂.com| 亚洲丝袜中文字幕| 国产97视频在线观看| 色成人亚洲| 114级毛片免费观看| 狠狠综合久久| 国产成人精品优优av| 国产免费久久精品44| 亚洲精品人成网线在线 | 亚洲综合中文字幕国产精品欧美| 午夜一区二区三区| 国产全黄a一级毛片| 视频二区国产精品职场同事| 日韩无码黄色| 久久频这里精品99香蕉久网址| 国产午夜精品鲁丝片| 2024av在线无码中文最新| 99无码中文字幕视频| 亚洲成在人线av品善网好看| 夜夜拍夜夜爽| 在线欧美一区| 久久情精品国产品免费| 狠狠色噜噜狠狠狠狠色综合久| 中国精品久久| 亚洲三级a| 国模在线视频一区二区三区| 国产成人永久免费视频| 国产精品视频白浆免费视频| 日韩麻豆小视频| 三级欧美在线| 国产精品污视频| 99热这里只有精品2| 久久a级片| 色偷偷一区二区三区| 国产精品短篇二区| 亚洲精品欧美重口| 91区国产福利在线观看午夜| 免费aa毛片| 国产青榴视频| 亚洲AⅤ综合在线欧美一区| 美女免费黄网站| 无码视频国产精品一区二区| 欧洲亚洲一区| 日韩欧美一区在线观看| 日本三级欧美三级| 毛片视频网址| 无码精品福利一区二区三区| 72种姿势欧美久久久久大黄蕉|