999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語音識別技術的發(fā)展及應用

2019-11-28 13:40:32于曉明
計算機時代 2019年11期
關鍵詞:特征提取

于曉明

摘 ?要: 人類生活中,語言是必不可少的信息傳達媒介,作為模式識別技術之一的語音識別技術獨有其發(fā)展的亮點。文章對語音識別的發(fā)展歷程進行了總結,從語音識別的原理出發(fā),在端點檢測、特征提取等方面介紹了語音識別模型的建構。例舉了語音識別技術的應用,探討了語音識別的技術突破和發(fā)展前景。

關鍵詞: 語音識別; 語音信號; 預處理; 特征提取

中圖分類號:TP393 ? ? ? ? ?文獻標志碼:A ? ? 文章編號:1006-8228(2019)11-28-04

Abstract: Language is an indispensable medium of information transmission in human life. Speech recognition technology, as one of the pattern recognition technologies, has its own bright spot. This paper summarizes the development process of speech recognition, and starting from the principle of speech recognition, introduces the construction of speech recognition model in the aspects of endpoint detection and feature extraction and so on. The application of speech recognition technology is described, and the technological breakthroughs and development prospects of speech recognition are discussed.

Key words: speech recognition; speech signal; preprocessing; feature extraction

0 引言

語言最初是人類所特有的交流工具,但隨著科技的不斷進步,人類如今不只局限于人與人的交流,并開始逐漸向人與機器的交流方向發(fā)展,即通過語言的溝通讓機器能像人類一樣聽懂對方所傳達的信息。如今的語音識別技術正是此方向突破的關鍵,信息領域和自動化領域的專業(yè)研究人員不斷進行這方面的研究,機器自動的語言識別,使機器能為人類所用增加人們的生產(chǎn)生活效率,推動人類歷史的發(fā)展進步。語音識別技術是涉及模式識別、人工智能的多領域研究學科,是人類與機器之間聯(lián)系的關鍵。

1 語音識別的發(fā)展歷程

語音識別技術最初的興起是在20世紀50年代,此時我國的語音識別技術也開始出現(xiàn),國外當時只是在貝爾實驗室里進行關于識別英文數(shù)字的簡單發(fā)音裝置的研究,而后帶來了小詞匯量和單個詞語的識別,在進入20世紀70年代,才有了語音識別實質(zhì)性的進展,出現(xiàn)了逐漸成為主流的隱式馬爾科夫模型技術(HMM)[1],并且從傳統(tǒng)的目標匹配方式向基于統(tǒng)計的數(shù)學化方向有很大的進展。進入20世紀80年代,語音識別技術繼續(xù)深入發(fā)展,人工神經(jīng)網(wǎng)絡進入模式識別的范疇,出現(xiàn)了利用人工神經(jīng)網(wǎng)絡[1,2]進行語音識別問題的處理思路,研究不只是在簡單詞語數(shù)字的識別上,有了連續(xù)語音的識別和基于大量詞語的識別[3]。我國在此時期執(zhí)行863計劃,語音識別技術的研究與國外同步發(fā)展,這是語音識別技術的一個過渡階段。20世紀90年代之后,語音識別技術逐漸進入飽和階段,基于語音識別的產(chǎn)品開始進入人們的生產(chǎn)生活,隨著時代的不斷遷移,基于BP神經(jīng)網(wǎng)絡的優(yōu)點,大量的語音識別都基于此進行識別系統(tǒng)產(chǎn)品的設計。

2 語音識別構建模型

語音識別技術的過程包括語音信號的預處理、特征提取、模式匹配和判決三個方面。首先由系統(tǒng)接收語音輸入,經(jīng)過信號的預處理和特征提取,得到目標信息的語音數(shù)據(jù)形成語音信息模式庫,再進行輸入的語音信號和模式庫的模式匹配得到兩者信息匹配的結果。(如圖1)

2.1 語音信號的預處理

2.1.1 語音信號預加重

在如今十分成熟的A/D轉換操作之后,最初獲取的語音信號中語音信息被多種噪聲影響且高頻信號部分不明顯,因而要事先對于語音信號進行預加重,預加重的實現(xiàn)結果是提高目標信號和噪聲信號的對比度,便于能很好地對于語音信號進行濾波,目前廣泛使用的是一階濾波器來實現(xiàn)預加重。

其中,z是語音信號,H為預加重后的信號,μ為一階濾波器的參數(shù)。

2.1.2 加窗分幀

在預加重處理的信號之后,為得到語音信號的分析頻譜,要將語音信號分成多個窗口,這樣就把一段持續(xù)的語音信號分成多段信號,為了保持每段信號連接的平滑性,在斷接點處設置交疊的部分,便于不同分幀之間的平滑移動。對于加窗處理,常使用漢明窗,漢明窗的通頻特性好,在信號的分區(qū)截取中保證了連續(xù)性平滑性,減小了分析頻譜的泄露。

2.1.3 端點檢測

端點檢測在整個語音識別過程中是十分關鍵的,在一段語音信息中有正常的語音信息,有間斷信息,有無聲信息,端點檢測就是保證將三者能很好地區(qū)分出來,排除無聲信息等摻雜的信號,選取所需要的正常的語音信息。目前端點檢測的研究具有多樣化且處于發(fā)展的黃金時期,有基于語音信號的時域特性的能量大小、平均過零率、能量變化率等,基于頻域特性的頻譜變化、譜熵的測定。下面主要通過語言信息的譜熵來進行簡要的介紹。首先取某點Xi的概率表示為P{Xi},則在點Xi的熵定義為:

通過設置一個邊界范圍,在此范圍之內(nèi)的數(shù)據(jù)即為正常的語音信號,若超出這一范圍則將其他噪音信號去除掉,通過選擇熵函數(shù)實現(xiàn)了端點檢測的操作。

2.2 語音信號的特征提取

應用模式識別技術,只有將所測試信息的信號特征提取出來,才能供實驗的研究分析。語音信號的特征提取歷史悠久,其算法的實現(xiàn)已經(jīng)有多種形式[4]針對特定的倒譜特征,本文將介紹兩個經(jīng)典的LPCC[5]和MFCC[6-7]參數(shù)來進行語音信號的特征提取。通過傅里葉變換譜經(jīng)對數(shù)運算再取傅里葉反變換即可得到信號的倒譜,LPCC既能實現(xiàn)它的預測功能,又能提供進行聲道模型參數(shù)的提取過程,在LPCC分析過程中首先將語音信號視作全極點形式,在LPC基礎上進行運算:

2.3 模式匹配和判決

如今模式匹配的聲學模型技術得到許多研究者關注,深度學習在模式匹配的研究[8,9]模式匹配方式有了很大的改進,模式匹配包括聲學模型和語言模型。聲學模型是將獲取語言信息的發(fā)音標準與模式庫中的發(fā)音標準進行匹配而設計的模型,它通過矢量量化的分析將不同發(fā)音模板提取出來,常用的就是HMM聲學模型,在此基礎上[10]引入了狀態(tài)段長,對于不同語音段的劃分提高了原始基本識別的性能,神經(jīng)網(wǎng)絡的引入也給模式匹配環(huán)節(jié)帶來了性能的進步。語言模型是針對不同語言的語法結構進行上下文分析確定詞義,在統(tǒng)計方面的語言模型的建立,將一系列相同的語法規(guī)則集中起來就在一定程度上減少了系統(tǒng)的識別時間。識別結果就是將事先測試的語音信息進行預處理和特征提取,與模式庫的聲學模型進行不同程度的匹配,通過統(tǒng)計識別信號的正確數(shù)量得到識別率,基于相同的識別率可以通過識別時間的比較進行算法優(yōu)良性能的判決。

3 語音識別應用

語音識別技術的應用十分廣泛,從孤立詞的識別到關鍵詞的識別,最后根據(jù)說話人連續(xù)的語言的識別,如許多社交軟件都實現(xiàn)了從開始的鍵盤輸入到語音識別輸入,語音輸入技術的突破給人們的生活帶來了很大的便利,圖2介紹了一部分基于語音識別的應用網(wǎng)絡,為未來的語音識別網(wǎng)絡提供可視化模型。

⑴ 語音助手。語音識別作為機器與人交流的媒介,在語音助手方向有很大的可操作性,目前已存在語言的自動識別功能的小型機器人(例天貓精靈、小度),在網(wǎng)絡銷售中即可購買,事先通過內(nèi)部下載的程序進行機器人和手機的聯(lián)合配對,針對使用者的語言進行開關電視、播放音樂、設置鬧鐘等操作,這是最終全面實現(xiàn)智能家居[11-12]的一個發(fā)展趨勢。智能家居是將語音識別系統(tǒng)嵌入家庭使用設備中,使家用設備系統(tǒng)網(wǎng)絡一體化,這種操作能極大的豐富人們的生活;車載語音助手[13]如今也有了明顯的發(fā)展,利用語音傳輸進行音樂播放、導航配置的控制,在一定程度上改善了駕駛人的駕駛環(huán)境。

⑵ 身份確認。如今在科技高速發(fā)展的時代,人類身份的確認尤為重要,除了在生物體特征識別之外,語音識別也能達到其期望的效果[14]。身份的確定基于說話人聲道的不同,發(fā)出聲音頻率的不同進行不同的區(qū)分,解決了如今身份密碼的缺憾,密碼作為保護信息的一種途徑容易被破解且固定不可遷移,從現(xiàn)在技術高超的譯碼技術能枚舉破解固定的密碼,但基于人物語音的不同,發(fā)音習慣的差異對于身份的確認十分有益處。在門禁系統(tǒng)中,人物可以事先將自己的語言信息存儲在系統(tǒng)模塊庫中,當涉及具體的人物識別的時候,將采集的語言數(shù)據(jù)和存儲數(shù)據(jù)進行識別對比得到說話人的身份;語音識別的身份確認在公安系統(tǒng)的案件偵查中也有很大的效用,將語音識別與身份證信息的結合也是出彩的操作,語音輸入加上生物體特征識別技術的配合就將得到多重身份保證。

4 語音識別的技術突破及發(fā)展前景

4.1 技術突破

語音識別有了歷史性的進展,但是仍存在一些技術上的不足。語音識別過程中的噪聲處理仍然是一個很難突破的難題,在上例的天貓精靈就有此方面的缺陷,超過一定的距離機器就很難識別使用者的語言,甚至是停止工作不進行識別工作,不僅有距離上的影響,當面臨于嘈雜的環(huán)境中,系統(tǒng)也很難辨析出講話人的語言。在身份識別中也存在一定的缺陷,單從聲音信息來說,當今處于互聯(lián)網(wǎng)時代,圖像聲音的處理軟件十分發(fā)達,信息有被復制和融合的可能性,這就對于身份的確認很容易造成誤差,在此部分未被突破前只有與生物識別技術相結合才能進一步保證識別信息的準確性。

4.2 發(fā)展前景

語音識別技術在未來是十分熱門的領域,許多企業(yè)家將加大對于語音識別的資金投入,首先基于其原理進行適當?shù)恼雇?其次從應用領域進行可視化的分析,目前全球中有大部分的聽覺受限的人員,每人都擁有人工耳蝸是不經(jīng)濟的也是不現(xiàn)實的,但是語音識別技術將有十分優(yōu)勢方面,若配合語音識別系統(tǒng),將對此問題有很大的幫助,將說話方的語言通過語音識別技術顯示給聽力受限的人群,作為一個類似于輔助助聽器的應用軟件,不僅有效而且經(jīng)濟;再次是技術層面,將噪音從獲取的語音信息中完全過濾,使機器像人群一樣不受限于嘈雜的環(huán)境,對于生活中嵌入的應用是很有發(fā)展價值的。

參考文獻(References):

[1] 袁翔.基于HMM和DNN的語音識別算法研究與實現(xiàn)[D].江西理工大學,2017.

[2] 戚龍,趙丹.基于BP神經(jīng)網(wǎng)絡的非特定人語音識別算法[J].科學技術與工程,2017.17(31):277-282

[3] 劉加.漢語大詞匯量連續(xù)語音識別系統(tǒng)研究進展[J].電子學報,2000.1:85-91

[4] 惠博.語音識別特征提取算法的研究及實現(xiàn)[D].西北大學,2008.

[5] 張文克.融合LPCC和MFCC特征參數(shù)的語音識別技術的研究[D].湘潭大學,2016.

[6] 田莎莎,唐菀,佘緯.改進MFCC參數(shù)在非特定人語音識別中的研究[J].科技通報,2013.29(3):139-142,146

[7] 袁正午,肖旺輝.改進的混合MFCC語音識別算法研究[J].計算機工程與應用,2009.45(33):108-110

[8] 戴禮榮,張仕良,黃智穎.基于深度學習的語音識別技術現(xiàn)狀與展望[J].數(shù)據(jù)采集與處理,2017.32(2):221-231

[9] 侯一民,周慧瓊,王政一.深度學習在語音識別中的研究進展綜述[J].計算機應用研究,2017.34(8):2241-2246

[10] 袁里馳.基于改進的隱馬爾科夫模型的語音識別方法[J].中南大學學報(自然科學版),2008.39(6):1303-1308

[11] 王愛蕓.語音識別技術在智能家居中的應用[J].軟件,2015.36(7):104-107

[12] 徐子豪,張騰飛.基于語音識別和無線傳感網(wǎng)絡的智能家居系統(tǒng)設計[J].計算機測量與控制,2012.20(01):180-182

[13] 茍鵬程,宗群.車載語音識別及控制系統(tǒng)的設計與實現(xiàn)[J].計算機應用與軟件,2017.34(5):129-134

[14] 陳大為.基于HMM的說話人識別改進研究及應用[D].浙江大學,2002.

[15] 倪崇嘉,劉文舉,徐波.漢語大詞匯量連續(xù)語音識別系統(tǒng)研究進展[J].中文信息學報,2009.23(1):112-123,128

[16] 于俊婷,劉伍穎,易綿竹,李雪,李娜.國內(nèi)語音識別研究綜述[J].計算機光盤軟件與應用,2014.17(10):76-78

[17] 詹新明,黃南山,楊燦.語音識別技術研究進展[J].現(xiàn)代計算機(專業(yè)版),2008.9:43-45,50

[18] 柯登峰,徐波.互聯(lián)網(wǎng)時代語音識別基本問題[J].中國科學:信息科學,2013.43(12):1578-1597

[19] 金學驥,葉秀清,顧偉康.預加重與MMSE結合的語音增強方法[J].傳感技術學報,2005.2:300-302,306

猜你喜歡
特征提取
特征提取和最小二乘支持向量機的水下目標識別
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DNN的低資源語音識別特征提取技術
自動化學報(2017年7期)2017-04-18 13:41:09
Bagging RCSP腦電特征提取算法
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于DSP的直線特征提取算法
基于改進WLD的紋理特征提取方法
計算機工程(2015年4期)2015-07-05 08:28:02
淺析零件圖像的特征提取和識別方法
機電信息(2015年3期)2015-02-27 15:54:46
基于CATIA的橡皮囊成形零件的特征提取
主站蜘蛛池模板: 亚洲精品男人天堂| 亚洲AⅤ无码国产精品| 亚洲天堂色色人体| 欧洲极品无码一区二区三区| 亚洲最新网址| 久久综合五月婷婷| 啪啪永久免费av| 国产成人免费手机在线观看视频 | 国产精品污污在线观看网站| 成人自拍视频在线观看| 精品人妻一区二区三区蜜桃AⅤ | 欧美亚洲日韩中文| 精品超清无码视频在线观看| 色妞www精品视频一级下载| 欧美日韩va| 国外欧美一区另类中文字幕| 国产欧美在线| 欧美日韩v| 成人日韩精品| 成年人午夜免费视频| 老熟妇喷水一区二区三区| 亚洲另类第一页| 国产啪在线91| 综合网天天| 欧美天堂在线| 国产欧美精品一区二区| 操操操综合网| 欧美在线综合视频| 欧美A级V片在线观看| 亚洲第一精品福利| 中文字幕人妻av一区二区| 91精品国产无线乱码在线| 激情在线网| 欧美精品v欧洲精品| 一区二区三区四区在线| 91视频区| 国产日韩欧美一区二区三区在线| 91口爆吞精国产对白第三集| 99久久性生片| 国产精品无码久久久久久| 一级成人a做片免费| 亚洲精品大秀视频| 国产成人一级| 在线播放真实国产乱子伦| 国产麻豆aⅴ精品无码| 超薄丝袜足j国产在线视频| 国产成人精品午夜视频'| 91av国产在线| 欧美午夜视频在线| 在线视频亚洲色图| 激情爆乳一区二区| 国产永久在线观看| 国产一区二区精品高清在线观看| 久久夜色精品国产嚕嚕亚洲av| 永久免费精品视频| 亚洲无线国产观看| 婷婷亚洲视频| 91精品aⅴ无码中文字字幕蜜桃| 亚洲伊人电影| 2021最新国产精品网站| 久久a级片| 日韩少妇激情一区二区| 亚洲高清中文字幕| 国产免费久久精品99re丫丫一| 日韩av高清无码一区二区三区| 国产精品hd在线播放| 97se亚洲| 18黑白丝水手服自慰喷水网站| 日韩精品少妇无码受不了| 22sihu国产精品视频影视资讯| 日韩一级二级三级| 人妻中文久热无码丝袜| 精品偷拍一区二区| 99久久精品免费看国产电影| 色欲色欲久久综合网| 国产成人调教在线视频| 99re热精品视频国产免费| 无码丝袜人妻| 亚洲人成色在线观看| 亚洲第一网站男人都懂| 亚洲性一区| 五月天丁香婷婷综合久久|