999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RNN的桂柳方言語音識別系統(tǒng)研究

2019-12-13 01:08:30楊波
現(xiàn)代計算機 2019年31期
關鍵詞:模型

楊波

(武警廣西總隊參謀部,南寧530031)

0 引言

語音識別是指將語音自動轉(zhuǎn)換為文字的過程。在實際應用中,語音識別通常與自然語言理解、自然語言生成及語音合成等技術相結合,提供一個基于語音的自然流暢的人機交互系統(tǒng)。語音識別技術的研究始于20世紀50年代初期,迄今為止已有六十多年的歷史。1952年,貝爾實驗室研制了世界上第一個能識別十個英文數(shù)字的識別系統(tǒng)。20世紀80年代,基于馬爾科夫的建模方法推動了語音識別技術的蓬勃發(fā)展。近十年來,語音識別的發(fā)展又取得了長足的進步,國內(nèi)外許多科研機構研發(fā)出了各自的語音識別系統(tǒng),如微軟、科大訊飛、捷通華聲等。2011年,微軟的俞棟等人將深度神經(jīng)網(wǎng)絡成功應用于語音識別任務中,在公共數(shù)據(jù)上詞錯誤率相對降低了30%。

桂柳話是廣西地區(qū)方言文化,系屬西南官話的一種,是廣西壯族自治區(qū)通行最廣的漢語方言。作為面向東盟的前沿與窗口,廣西已先后成功承辦了16屆中國東盟博覽會,通過深化東盟國際合作,精耕細作加速融入“一帶一路”建設。在廣西加快建設中國-東盟信息港大數(shù)據(jù)中心的形勢下,語音識別等人工智能技術的研究應用,必將為新型智慧城市創(chuàng)新、網(wǎng)絡視聽產(chǎn)業(yè)基地建設等打下良好基礎。

1 RNN的概念及應用

循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Networks,RNN)因其循環(huán)遞歸處理歷史數(shù)據(jù)和對歷史記憶進行建模的特殊特性,適用于處理時間、空間序列上有強關聯(lián)的信息。循環(huán)神經(jīng)網(wǎng)絡是深度學習中的一個重要分支,近年來循環(huán)神經(jīng)網(wǎng)絡模型相關的研究發(fā)展迅速。其中的成功案例包括手寫字體識別、語音識別、自然語言處理和基于計算機視覺等序列問題。從生物神經(jīng)學角度看循環(huán)神經(jīng)網(wǎng)絡,可以認為其是對生物神經(jīng)系統(tǒng)環(huán)式鏈接的簡單模擬,而這種環(huán)式鏈接在新大腦皮質(zhì)中是普遍存在的。這也從側(cè)面反映人類學習是一個動態(tài)變化的過程,因而對神經(jīng)元的模擬在生物工程上有著重要的意義。

循環(huán)神經(jīng)網(wǎng)絡模型通過用于描述動態(tài)的序列數(shù)據(jù),隨著時間的變化而動態(tài)調(diào)整自身的網(wǎng)絡狀態(tài),并不斷循環(huán)傳遞,還可以接受廣泛的序列信息結構作為輸入。不同于前饋神經(jīng)網(wǎng)絡(例如ANN、DNN、CNN等),循環(huán)神經(jīng)網(wǎng)絡模型更加重視網(wǎng)絡中的反饋作用。由于存在著當前狀態(tài)與過去狀態(tài)或者與未來狀態(tài)的鏈接,循環(huán)神經(jīng)網(wǎng)絡模型可以具有一定的記憶功能。普通的深度神經(jīng)網(wǎng)絡是從左到右逐層傳遞的,其網(wǎng)絡的神經(jīng)元數(shù)據(jù)不斷向前傳遞直到輸出,所在層(當前層)的神經(jīng)元之間并沒有連接關系;而循環(huán)神經(jīng)網(wǎng)絡不同于前饋式的神經(jīng)網(wǎng)絡,其引入了定向循環(huán)機制,神經(jīng)元之間互相依賴、互相連接,因此能夠處理前后關聯(lián)的序列數(shù)據(jù)。

序列數(shù)據(jù)也可以被稱為“序列信號”,而序列信號幾乎無處不在,只要有先后關聯(lián)關系或者時間關系的信號數(shù)據(jù),都可以被認為是序列數(shù)據(jù)。在我們生活的時間和空間里,身邊所發(fā)生的所有變化都可以使用序列數(shù)據(jù)來表示。如路由器根據(jù)訪問網(wǎng)絡的地址信息不斷地調(diào)整自身所攜帶的信息;淘寶會根據(jù)用戶點擊商品的順序,推測出其可能購買的商品,進而推薦相應的商品廣告等,都是應用序列數(shù)據(jù)的例子。正是因為序列數(shù)據(jù)無處不在,與我們的日常生活息息相關,所以對序列數(shù)據(jù)建模顯得十分重要。循環(huán)神經(jīng)網(wǎng)絡模型在語音識別中有著重要的應用,如使用雙向循環(huán)神經(jīng)網(wǎng)絡模型輸入音頻數(shù)據(jù),可以快速預測其對應的詞組,其準確率可達到90%以上。另外,使用雙向循環(huán)神經(jīng)網(wǎng)絡模型實現(xiàn)單通道音樂的人聲分離,實驗結果表明該雙向循環(huán)神經(jīng)網(wǎng)絡模型能夠正確地從單通道的歌曲中分離出人聲和背景音樂,該技術可以應用在手機麥克風中,在嘈雜環(huán)境下過濾掉背景噪聲并提取出音頻信號中的原聲。

2.1 桂柳話語音特點

桂柳話通行于廣西壯族自治區(qū)五十六個縣市的縣城及圩鎮(zhèn)地區(qū),細分又有桂林話、柳州話、郴州話、荔浦話、平樂話等,其間有一些差別,桂林話受湖南話的影響比較多,而柳州話受廣東話、壯話的影響比較多。桂柳話主意系統(tǒng)排列為:聲母19個,韻母37個,聲調(diào)有4個,外加一個入聲調(diào),共五個。此外,桂柳方言沒有明顯的輕聲和變調(diào)。桂柳話一般沒有漢語拼音的卷舌音zh(之),ch(吃),sh(師),r(日),分別以 z(資),c(此),s(斯),y(一)代替;er(而)等音節(jié)以 e(俄)代替,明顯特征是有鼻化韻、夾雜入聲(喉塞音)塞音尾(廣泛流行于其它地區(qū)的沒有入聲韻尾)。桂柳話存在大量合音現(xiàn)象,即將兩個甚至多個音節(jié)快速連讀合成一個音節(jié)。此現(xiàn)象使用頻率較高,廣泛存在于代詞、副詞以及語氣詞等常用詞匯中。一般來說,合音詞聲母取自合音上字,韻母取自合音詞下字,聲調(diào)來源于上字或者下字。就發(fā)音而言,桂柳話與普通話的音調(diào)關系∶第一聲(陰

2 語音識別系統(tǒng)設計

2.2 語音識別框架

自動語音識別(Automatic Speech Recognition,ASR)是人工智能的重要入口,是一種讓機器通過識別和理解,把人類的語音信號轉(zhuǎn)變?yōu)橄鄳谋镜募夹g過程。早在20世紀90年代初期,就已經(jīng)出現(xiàn)眾多語音識別領域的研究人員試圖利用人工神經(jīng)網(wǎng)絡ANN進行自動語音識別方面的研究,可是大部分效果并不理想,原因主要有:語音數(shù)據(jù)有限、神經(jīng)網(wǎng)絡容易過擬合、計算資源有限等。而與此同時,基于概率論的技術在語音識別領域得到蓬勃發(fā)展,例如高斯混合模型(Gaussian Mixture Model,GMM)、隱馬爾科夫模型(Hidden Markov Model,HMM)等。語音識別技術已經(jīng)出現(xiàn)了20多年,為何近年來才成為人工智能的主流技術呢?這要得益于深度學習技術,將語音識別領域的準確率提高到足以應用于實際環(huán)境中。自動語音識別技術提煉優(yōu)化為一個框架結構,該模型主要分為編碼(Encoder)和解碼(Decoder)階段,如圖 1所示。平)在方言里一般仍是第一聲,第二聲(陽平)一般是第三聲,第三聲(上聲)一般是第四聲,第四聲(去聲)一般是第二聲,沒有明顯的輕聲,說話時幾乎字字重讀,連語氣詞也有相當確定的聲調(diào)。

圖1 語音識別系統(tǒng)框架

其中,編碼是將音頻數(shù)據(jù)作為輸入,轉(zhuǎn)換成音頻向量數(shù)據(jù);特征提取是通過算法或者音頻特征算法提取音頻向量,提取后的特征為“聲紋”,例如使用快速傅立葉變換(Fast Fourier Transform,F(xiàn)FT)對音頻數(shù)據(jù)進行時域和頻域間的轉(zhuǎn)換;訓練是從聲紋數(shù)據(jù)和字典中學習固定特征,用于生成聲學模型(Acoustic Model)和語言模型(Language Model),聲學模型用于識別語音向量,一般可以使用GMM或者循環(huán)神經(jīng)網(wǎng)絡等方法來識別向量,用HMM或者CTC來對齊輸出的結果,語言模型是根據(jù)語法、語義規(guī)則對聲學模型調(diào)整輸出的結果,例如修改與調(diào)整不符合邏輯規(guī)則的詞語;在語音識別領域中,大部分模型并不是以單詞作為基本單位,而是以音素作為基本的語音識別單位,音素是語音中最小的單位,依據(jù)音節(jié)里的發(fā)音動作來分析,一個動作構成一個音素,音素分為元音和輔音兩大類,英語輔音和元音在語言中的作用就相當于漢語中的聲母和韻母;解碼是將訓練好的聲學模型和語言模型進行組合,輸入新的聲紋特征,最終輸出其對應的文本文字。

使用深度學習技術進行語音識別,可以實現(xiàn)一個簡單的聲學模型,從簡單的音頻數(shù)據(jù)開始,對其特征提取得到“聲紋”,通過循環(huán)神經(jīng)網(wǎng)絡模型實現(xiàn)一個聲學模型,最后解碼輸出該音頻數(shù)據(jù)所對應的文本文字。不同的人會有不同的語速,說話方式和行為也會不一樣。例如,一個人可能會帶有疑問地說出“HEEEEEELLO?”,而另外一個人則可能很開心地說出“HELLOOOOOOOOOOO!”,這樣對應同一個單詞會產(chǎn)生不同長度的聲音文件。而語音識別的任務就是把上面兩個聲音文件都正確地識別為“HELLO”。把各種不同長度的音頻文件自動對齊到一個固定長度的文本是一件很困難的事情,循環(huán)神經(jīng)網(wǎng)絡幫我們很好地解決了這一難題,它能在特征提取階段或是輸出階段對音素進行對齊操作。

2.3 基于RNN的聲學模型

聲學模型承載著聲學特征與建模單元之間的映射關系。在訓練聲學模型之前需要選取建模單元,建模單元可以是音素、章節(jié)、詞語等,其單元粒度依次增加。若采用詞語作為建模單元,每個詞語的長度不等,從而導致聲學建模缺少靈活性;此外,由于詞語的粒度較大,很難充分訓練基于詞語的模型,因此一般不采用詞語作為建模單元。相比之下,詞語中包含的音素是確定且有限的,利用大量的訓練數(shù)據(jù)可以充分訓練基于音素的模型,因此目前大多數(shù)聲學模型一般采用音素作為建模單元。語音中存在協(xié)同發(fā)音的現(xiàn)象,即音素是上下文相關的,故一般采用三音素進行聲學建模。由于三音素的數(shù)量龐大,若訓練數(shù)據(jù)有限,那么部分音素可能會存在訓練不充分的問題,為了解決此問題,我們采用決策樹對三音素進行聚類以減少三音素的數(shù)目。

基于深度神經(jīng)網(wǎng)絡的聲學模型是指用深度神經(jīng)網(wǎng)絡模型替換高斯混合模型,深度神經(jīng)網(wǎng)絡模型可以是深度循環(huán)神經(jīng)網(wǎng)絡和深度卷積網(wǎng)絡等。該模型的建模單元為聚類后的三音素狀態(tài),模型如圖2所示。圖中,神經(jīng)網(wǎng)絡用來估計觀察特征(語音特征)的觀測概率和語音信號的動態(tài)變化(即狀態(tài)間的轉(zhuǎn)移概率)。Sn代表音素狀態(tài);hM代表第M個隱層。與基于高斯混合模型的聲學模型相比,這種基于深度神經(jīng)網(wǎng)絡的聲學模型具有兩方面的優(yōu)勢:一是深度神經(jīng)網(wǎng)絡能利用語音特征的上下文信息;二是深度神經(jīng)網(wǎng)絡能學習非線性的更高層次特征表達。所以,基于深度神經(jīng)網(wǎng)絡的聲學模型性能顯著超越高斯混合模型的聲學模型,成為當前主流的聲學建模技術。

圖2 基于RNN的聲學模型

循環(huán)神經(jīng)網(wǎng)絡模型擁有記憶功能,用于影響未來時間序列的輸出。首先把音頻分成每份20ms長的音頻塊,即對應音頻上的一幀數(shù)據(jù)。假設以每秒16000次的采樣頻率,那么一個20ms的音頻對應320個采樣數(shù)據(jù)。雖然只有短短的20ms,但即使較短的音頻片段也是由不同頻率的聲音交織而成,其中包括低音、中音和高音。為了使得音頻數(shù)據(jù)更加容易地被循環(huán)神經(jīng)網(wǎng)絡處理,我們把一段連續(xù)的音頻聲波分解成很多段短暫的音頻采樣片段,例如剛才所說的20ms為間隔對音頻進行切片采樣。深度神經(jīng)網(wǎng)絡的輸入是以20ms為單位的一幀,每一幀作為一個時間序列,使用音頻文件經(jīng)過聲學模型的前饋計算,可以得到每一幀音頻對應的漢字。循環(huán)神經(jīng)網(wǎng)絡模型使用3層的GRU網(wǎng)絡模型,部分代碼如下:

Def gru_model(input_dim=161,output_dim=29,recur_layers=3,nodes=1024):

#RNN層

For I in range(recur_layers):

#GRU層

Output=GRU(nodes,activation=‘relu’,kernel_initializer=initialization,Return_sequences=True,name=‘rnn_{}’.format(i+1)(output)

#輸出層(Softmax)

Time_dense=TimeDistributed(Dense(output_dim))(output)

2.4 系統(tǒng)識別訓練

構建語音識別框架、準備語音數(shù)據(jù)、提取語音特征、建立聲學模型之后,就要對聲學模型進行訓練了。語音識別聲學模型的訓練屬于監(jiān)督學習,需要知道每一幀對應的label標簽才能進行有效的訓練。在傳統(tǒng)的語音識別聲學模型中,在對語音模型進行訓練之前,往往要求語音與文本進行嚴格的對齊操作,但它實際并不是一種嚴格的對齊方式,而是一種較為寬松的對齊方式。本文設計的語音識別系統(tǒng),則是讓深度神經(jīng)網(wǎng)絡自己去學習對齊的方式,從而引入了連接時序分類(Connectionist Temporal Classification,CTC),CTC 層通過計算,使得輸入與輸出對應起來,減少了大量的標注時間,并使得聲學模型能夠做到端到端的有效訓練。CTC借用了HMM中的向前向后算法來計算可能路徑,向前因子α和向后因子β定義為:

向前向后算法通過動態(tài)規(guī)劃的思想來解決,其針對一個當前標簽u的全部路徑累加,被分解為以u為前綴的全部路徑的迭代累加,該迭代通過遞歸計算向前向后因子求得。經(jīng)過高強度訓練的聲學模型,便可應用于系統(tǒng)測試。語音識別系統(tǒng)測試界面如圖3所示。

圖3 系統(tǒng)測試界面

3 結語

我國地大物博、人口眾多,屬于多民族國家,各地的方言也是多種多樣,研究基于地方方言的語音識別系統(tǒng)具有重要的現(xiàn)實意義。本文在深入分析研究語音識別技術及桂柳方言音頻特征的基礎上,利用RNN的深入學習技術,構建完整的桂柳方言語音識別系統(tǒng)。測試結果表明,通過特征提取及模型訓練,該系統(tǒng)在室內(nèi)環(huán)境中對桂柳語音樣本測試的識別率可達92.7%,可以有效地在實際生活中桂柳方言對話場景進行應用,使人工智能技術能真正地服務于社會。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數(shù)模型及應用
p150Glued在帕金森病模型中的表達及分布
函數(shù)模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 不卡午夜视频| 精品久久久久久久久久久| 三上悠亚一区二区| 久久情精品国产品免费| 69综合网| 日韩在线成年视频人网站观看| 免费人成在线观看视频色| 99视频在线观看免费| 久久99精品久久久久久不卡| 综合社区亚洲熟妇p| 国产69囗曝护士吞精在线视频| 国产成人午夜福利免费无码r| 久久无码av一区二区三区| 少妇露出福利视频| 国产视频一二三区| 精品国产91爱| 中文字幕不卡免费高清视频| 亚洲美女一区二区三区| 欧美亚洲国产一区| 色婷婷成人| 丁香婷婷久久| 日韩人妻无码制服丝袜视频| 爽爽影院十八禁在线观看| 日韩精品少妇无码受不了| 在线欧美a| 综合天天色| 国产97公开成人免费视频| 欧美综合一区二区三区| 精品自拍视频在线观看| 香蕉蕉亚亚洲aav综合| 重口调教一区二区视频| 久久久久久国产精品mv| 欧美成人一级| 亚洲a级毛片| 国产91成人| 国产精品自拍露脸视频| 三区在线视频| 国产免费a级片| 99久久国产综合精品2023 | 91无码网站| 欧美精品一二三区| 91久久偷偷做嫩草影院| 亚洲天堂成人在线观看| 丁香六月综合网| 国产一级毛片yw| 精品国产成人a在线观看| 在线看片免费人成视久网下载| 免费欧美一级| 亚洲第一成年人网站| 91九色国产porny| 色综合中文字幕| 久久精品国产电影| 国产激情无码一区二区APP | 亚洲精品色AV无码看| 91久久夜色精品国产网站| 欧美一级高清视频在线播放| www精品久久| 青青网在线国产| 在线欧美a| 中文字幕在线看视频一区二区三区| 国产精品手机在线播放| 91精品国产综合久久香蕉922| 国产尹人香蕉综合在线电影 | 一区二区三区成人| 国产精品13页| 中日无码在线观看| 国产午夜不卡| 免费在线色| a毛片免费在线观看| 色噜噜狠狠狠综合曰曰曰| 91福利片| 亚洲人成在线精品| 亚洲午夜片| 国产精品乱偷免费视频| 亚洲无码A视频在线| 强乱中文字幕在线播放不卡| 国产欧美精品午夜在线播放| 67194亚洲无码| 午夜视频免费一区二区在线看| 国产手机在线小视频免费观看| 国产欧美日韩91| 视频二区中文无码|