999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語音識別實現方法

2021-01-05 19:38:39李姝儀李云潔蔣昊軒郭宗昱吳可欣劉博
科技風 2021年35期
關鍵詞:深度學習

李姝儀 李云潔 蔣昊軒 郭宗昱 吳可欣 劉博

摘?要:語音識別(Automatic Speech Recognition,ASR)是人工智能領域里一個重要的研究方向。對于如何實現語音識別,將語音序列轉化為文本序列,簡單來說就是確定問題,選擇一個模型之后再訓練它。隨著開源社區的不斷擴大,加速了語音識別領域的研究進程,一些語音識別開源工具例如CMUSphinx、Julius、HTK、CMUSphinx、ISIP等也陸續興起,被研究者們廣泛運用。本文首先將介紹目前可以開發語音識別的工具CMUSphinx,Kaldi以及深度學習平臺;然后簡述CMUSphinx開源工具的實現流程;其次講述運用Kaldi的語音識別實踐過程;最后總結在語音識別實現中的一些問題以及未來的研究方向。

關鍵詞:語音識別;CMUSphinx;Kaldi;深度學習

1 語音識別工具

1.1 CMUSphinx

CMUSphinx——一種Carnegun大學開發的所有研究語音信息識別技術系統。2000年,Sphinx小組在幾個語音識別器組件中一直在做開源幾個器組件的工作。包括聲音解碼器和模型還有程序、資源有聲學模型訓練軟件、語言模型和字典編輯軟件。

1.2 Kaldi

相較于早期開發的語音識別相關的開源工具包HTK,CMUSphinx等,Kaldi存在著自己的特性,例如代碼容易閱讀和理解;大量的線性代數支持利于其在不同線性代數庫之間切換;盡可能通用的算法實現,避免使用只為特定任務服務的代碼;有著非常完整的語音識別系統訓練腳本;擁有繁榮的開源社區、開放的代碼許可。這些優勢都大大降低了kaldi作為語音識別工具包的門檻,也使得kaldi吸引了大批的用戶,成為語音識別工具包中的佼佼者。

1.3 深度學習平臺

近年來,由于深度學習的應用,使得語音識別技術也更加先進。一系列算法、技術的應用,也使得語音識別系統的建立并不局限于某個平臺。當下受到廣泛運用的深度學習框架有TensorFlow(Google首先開發并使用),PyTorch(Facebook首先開發并使用),CNTK(Microsoft首先開發并使用),MXNet(Amazon等使用)[1]。

通用深度學習框架的內核語言多為C++,前端接口語言多支持Python,這樣的語言搭配使用方法讓框架的運用既靈活又不失效率。相較于kaldi這樣術業有專攻的平臺,深度學習方法較多地作用于聲學模型和語言模型部分(或者端對端模型),并且還能拓展應用于多種任務。

2 CMUSphinx實現細節

Sphinx是中國用于識別套件的領先語音識別工具包之一,有多種用于管理的工具和能用來建造語音應用系統程序。卡耐基-梅隆的斯芬克斯包含許多不同的任務和應用的開發包。選擇有時是很難的。以下是每個開發套件的目的:

Pocketsphinx—C語言開發輕量級語音識別引擎的輕量級識別器庫;

Sphinxtrain—聲學模型訓練工具;

Sphinxbase—Pocketsphinx和Sphinxtrain所需的支持庫;

Sphinx4—用Java編寫的可調節識別器。

(型號包括聲學模型,語言模型以及拼音字典)

聲學的特征都被聲學模型所包含。其中n-gram是模型里最常用的,有限狀態語言模型以及字令統計都被包含而且定義語音序列是通過有限的狀態自動機(有時重量)來進行。如果想要高精度,模型的搜索空間限制必須非常成功。意思是它能比較好的推斷出下面的一個詞。語言模型通常限制注意到包括了的詞語。對于這個問題,屬于名稱識別,模型可以包含小塊,比如單詞以及音素。需要注意的是,這個開發里面的搜索空間是很差的,其識別精度會低于前面的語言學習模型(基于單詞)[2]。

字典包含單詞至音素的映射,映射一般都不太有效果。不過字典并非是唯一一種把單詞映射到電話的方法。我們也能通過機器學習算法來學習其他可能復雜一些的功能。

3 Kaldi語音識別實現基本流程

3.1 數據準備

在準備訓練數據時,我們需要完成選擇訓練數據和將數據整理成工具可以支持的格式這兩個任務。關于構建符合Kaldi腳本規范的數據資源文件,包括數據文件夾data和語音文件夾data/lang中。

3.1.1 基本數據

通常會將數據分為訓練數據、開發數據和測試數據三個子集,分別用train、dev和test表示[3]。當kaldi使用thchs30(由清華大學語音與語言技術中心出版的開放式中文語音數據庫)進行訓練操作時,Thchs30經過初步處理后會得到四種文本文件,可以直接打開查看(比如訓練集則放在data/train下)。而且utt2spk和spk2utt這兩個文件是kaldi處理時必須存在的。需要注意的是對于不同數據源或任務,可能需要另外準備一些文件。

3.1.2 語言資料

語言資料方面kaldi需要將文件存放于data/dict下,其余數據整理詳情可參考文獻[1]。當用于語音識別實驗訓練的數據都準備齊全后,就需要Kaldi對這些數據進行處理。

3.2 語音信號特征提取

經過預處理的信號,已經是有一定純度的音頻信號,對于任何物體的識別或者是語音的識別,從機器識別的方向看,要抓住事物唯一的特征。[4]所以語音識別在進入聲學模型訓練之前是要對語音的特征進行提取,一段語音信號用特征值來表示,因為有很多的特征值,就用特征向量來表示。提取特征值最常用的是MFCC(梅爾頻率倒譜系數)[5]。

接下來敘述MFCC的一般過程,第一步、將實際頻率于Mel頻率通過公式,第二步、在得到Mel頻率之后進行傅里葉變換,通過傅里葉變換的目的是看到信號能量的具體分布。第三步、利用帶有Mel尺度的三角濾波器過濾信號,第四步、因為過濾的信號是離散的數據,所以通過反離散余弦變換就得到了我們需要的MFCC[6],公式如下:

3.3 聲學模型訓練過程

3.3.1 獲得語料集的音頻集和對應的文字集

可以通過提供更精確的對齊,發音(句子)級別的起止數據時間,但這不是我們必須的。

3.3.2 將獲得的文字集格式化

Kaldi需要各種格式。訓練過程將使用每個句子的開始和結束時間、每個句子的說話人ID以及文本集中使用的所有單詞和音素。

3.3.3 從音頻文件提取聲學特征

MFCC或者PLP被傳統教學方法進行廣泛使用。對于NN方法有所差異。

3.3.4 單音素訓練

單個音素訓練不使用當前音素之前或之后的上下文信息,而三個音素使用當前音素、前一音素和后一音素。

3.3.5 基于GMM/HMM的框架

(1)將音頻根據聲學模型對齊。聲學模型的參數在聲學訓練時獲得,然而,這個發展過程我們可以通過使用訓練和對齊的循環系統進行管理優化。這也稱為維特比(維特比)訓練(包括前后向和期望最大化密集型計算過程)。通過對齊音頻和文本,可以使用其他訓練算法來改進和細化參數化模型。所以,每一個學生訓練方法步驟會跟隨自己一個對齊步驟。

(2)訓練三音素模型。單音素模型僅表示單個音素的參數,但音素隨上下文而變化。三音素模型使用上下文前后的音素來顯示音素的變化。

并不是所有的單音素組合都存在于提供的文字集中,總共有3個可能的三音素,但是通過訓練集所包含的是一個企業有限的子集,并且可以出現的三音素進行組合方式也要有一定的次數以方便學生訓練,音素決策樹方法會將我們這些三音素聚類成更小的集合。

(3)根據聲學模型重新對齊音頻以及重新訓練三音素模型。重復上述步驟1和2,并添加額外和更精細的三音素模型訓練,通常包括增量訓練、lda mllt和sat。對齊算法主要包括學生說話人對齊和FMLLR。

(4)訓練算法。增量算法計算特征的一階和二階導數,或動態參數,以補充MFCC特征。

LDA-MLLT(Linear Discriminant Analysis-Maximum Likelihood Linear Transform),LDA根據降維特征向量建立HMM狀態。MLLT根據LDA降維后的特征空間獲得每一個說話人的唯一變換。MLLT實際上是說話人的歸一化。

Sat(speaker adaptive training)。Sat還使噪音正常化。

(5)對齊算法。實際的對齊進行操作是一樣的,不同文集使用情況不同的聲學分析模型。

3.4 解碼實現——維比特算法

維比特算是經過一個T*S的矩陣實現的,T是幀數,S是HMM狀態總數。按幀遍歷聲學特征,每一幀的每個狀態,把前一幀的累積狀態和這一這一幀的狀態累加,選擇這一幀代價最低的當成這一幀的最佳路徑。Kaldi的解碼器大多基于維比特算法,kald的解碼器有很多例如Simple Decoder,Fast Decoder,這些都是以庫的形式存在,在需要的時候選擇合適的解碼器[7]。

4 總結

Kaldi至今仍然是很強大的語音識別工具,由于代碼是開源的,所以如今它在Github上也很活躍。Kaldi是由GMM-HMM模型發展起來的,雖有眾多優勢,但也存在著一些弊端,比如在聲音嘈雜的環境下的語音識別,語音識別遷移功能的欠缺,以及此模型層次較淺以至于不能捕捉數據間的深層特性。所以,隨著人工智能的發展出現了基于DNN—HMM的模型算法。

GMM—HMM是基于概率統計的方法,來得到參數模型的,這也就意味著原始數據需要的特別龐大,原始數據的多少,與最后識別的準確性是正相關的。HMM—GMM不能學習深層的非線性變換特征,而DNN—HMM可以。在如今語音識別領域又出現了端對端的語音識別,后一種的模型會將前一種的缺點加以改進,使得語音識別更加的簡便,高效。雖然如今各種工具應接不暇,但是如果我們能善假于物,明了其中的原理,也能夠提高語音識別技術研發的效率。

參考文獻:

[1]湯志遠,李藍天,王東,蔡云麟,石穎,鄭方.語音識別基本法[M].電子工業出版社,2021.

[2]csdn.語音識別基礎篇(一)-CMU Sphinx基本簡介[EB/OL].https://blog.csdn.net/itas109/article/details/78568591,2017-11-18/2021/8/28.

[3]陳果果,都家宇,那興宇,張俊博.Kaldi語音識別實戰[M].電子工業出版社,2020.

[4]王凱,馬明棟.基于Kaldi的語音識別[J].計算機技術與發展,2021,31(01):13-17.

[5]章武峰.基于Kaldi的中文語音識別研究[D].華中師范大學,2020.

[6]楊勝捷,朱灝耘,馮天祥,陳宇.基于Kaldi的語音識別算法[J].電腦知識與技術,2019,15(02):163-166.

[7]朱春山.基于Kaldi的語音識別的研究[D].南京郵電大學,2018.

基金項目:空中交通管理學院創新創業實踐基地,項目名稱:基于深度學習的無線電陸空通話語音識別軟件研究與開發(項目編號:202010059083)

作者簡介:李姝儀(2000—?),女,漢族,云南人,本科,研究方向:語音識別;李云潔(1998—?),男,漢族,云南人,本科,研究方向:語音識別;蔣昊軒(2001—?),男,漢族,四川人,本科,研究方向:語音識別;郭宗昱(2000—?),女,漢族,湖南人,本科,研究方向:語音識別;吳可欣(2000—?),女,漢族,湖北人,本科,研究方向:語音識別。

*通訊作者:劉博(1985—?),男,漢族,陜西人,碩士,中級,研究方向:空中交通管理、機器學習。

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 在线观看国产精品一区| 国产一区免费在线观看| 欧美国产综合视频| 欧美成人精品高清在线下载| 国产成人精品一区二区三区| 精品少妇人妻av无码久久| 国产精品 欧美激情 在线播放| 91欧洲国产日韩在线人成| 91亚洲精选| 国产欧美日韩综合在线第一| 国产性精品| 亚洲综合中文字幕国产精品欧美 | 久久精品亚洲中文字幕乱码| 欧美黄色网站在线看| 最新国语自产精品视频在| 五月婷婷综合网| 色偷偷av男人的天堂不卡| 久青草免费在线视频| 日韩东京热无码人妻| 在线无码av一区二区三区| 国产理论最新国产精品视频| 毛片一级在线| 国产伦精品一区二区三区视频优播 | 青青草原国产| 一本一本大道香蕉久在线播放| 国产一区二区三区免费观看| 亚洲成肉网| 国产精品永久久久久| 欧美黄网在线| 性视频一区| 欧美区在线播放| 美女视频黄又黄又免费高清| 免费在线色| 99精品福利视频| 久久香蕉欧美精品| 日韩二区三区无| 热思思久久免费视频| 亚洲美女一区| 亚洲精品午夜无码电影网| 国产视频欧美| 激情無極限的亚洲一区免费| 午夜高清国产拍精品| 国产精品99久久久| 亚洲欧洲日韩久久狠狠爱| 国产麻豆精品在线观看| 91精品啪在线观看国产60岁| 国产麻豆精品手机在线观看| 3p叠罗汉国产精品久久| 国产成人综合日韩精品无码首页| 亚洲第一黄色网址| 3344在线观看无码| 亚洲欧美一区二区三区蜜芽| 国产精品女主播| 亚洲日韩在线满18点击进入| 日韩色图区| 伊人久久久久久久久久| 欧美日本视频在线观看| 91在线播放免费不卡无毒| www中文字幕在线观看| 在线国产毛片手机小视频| 999在线免费视频| 无遮挡一级毛片呦女视频| 在线观看免费国产| 亚洲三级网站| 日韩在线观看网站| A级全黄试看30分钟小视频| 欧美a在线视频| 凹凸国产熟女精品视频| 在线观看热码亚洲av每日更新| 久久国产精品波多野结衣| 小说区 亚洲 自拍 另类| 亚洲综合国产一区二区三区| 伊人中文网| 欧美福利在线观看| 1级黄色毛片| 亚洲国产成人综合精品2020 | 亚洲中文字幕精品| 美女国产在线| 青青草国产在线视频| 亚洲成aⅴ人在线观看| 欧美一级在线看| 67194亚洲无码|