999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

有關語音識別技術的研究

2010-04-12 00:00:00李宏梅伍小芹
現代電子技術 2010年8期

摘 要:語音識別是將音頻數據轉換成文本或者其他形式的計算機可以處理的信息。這里簡單介紹語音識別技術的發展歷史和現狀,闡述了典型語音識別系統的基本原理,對語音識別的基本方法和識別過程進行深入分析,探討語音識別技術發展過程中的難點問題,給出了相應對策。

關鍵詞:語音識別; 音頻數據;典型的語音識別系統; 特征參數

中圖分類號:TP391.42文獻標識碼:A

文章編號:1004-373X(2010)08-0138-03

Research on Speech Recognition Technology

LI Hong-mei, WU Xiao-qin

(Hainan University, Haikou 570228, China)

Abstract:The speech recognition is a technology which transfers the audio datainto the text or other information form convenient to be disposed bycomputer.The history and situation of development of the speech recognition technology is introduced. The principle of a typical speech recognition system is elaborated.The difficulties existing during the development of the speech recognition technologyare discussed and the solutions are given. The method and process of the speech recognition are analysed.

Keywords:speech recognition; audio data; typical speech recognition system; characteristic parameter

0 引 言

語言是人類獲取信息的主要來源之一,是人類與外界交流信息最方便、最有效、最自然的工具,隨著計算機技術的快速發展,語音技術的研究也越來越受到重視。人類對語音的研究主要包括語音編碼、語音合成、語音識別和說話人辨識等幾個方面。

語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支,設計到語言學、生理學、心理學、計算機科學以及信號處理等學科。語音識別的目的是為了使機器能夠準確地聽出人的語音及其內容,以便控制其他設備來滿足人類的各種需要,它是發展人機有聲通信和新一代智能計算機的重要組成部分。

1 概 述

語音識別[1-2]研究工作可以追溯到20世紀50年代ATT貝爾實驗室的Audry系統,它是第一個可以識別英文數字的語音識別系統。但真正取得實質性進展,并將其作為一個重要的課題開展研究則是在20世紀60年代末70年代初。這是因為計算機的發展為語音識別的實現提供了硬件和軟件的可能,更重要的是語言信號線性預測編碼(LPC)技術和動態時間規整(DTW)技術的提出,有效地解決了語言信號的特征和不等長匹配問題。

實驗室語音識別研究的巨大突破產生于20世紀80代末。人們終于在實驗室突破了大詞匯量、連續語音和非特定人這三大障礙,第一次把這三個特征都集成在一個系統中,比較典型的是卡耐基美隆大學的Sphinx系統。

20世紀90年代前期,許多著名的大公司如IBM、蘋果、ATT和NTT都對語音識別系統的實用化研究投以巨資。我國的語音識別研究的起步比先進國家晚一點,但是進步很快,成果突出。

2 語音識別系統原理

語音識別系統大體上可以劃分為:孤立語音和連續語音識別系統、大詞匯量和小詞匯量語音識別系統、特定人和非特定人語音識別系統。

不同的語音識別系統,盡管設計和實現細節不同,但所采用的基本技術是相似的。一個典型的語音識別系統基本原理框圖如圖1所示。

圖1 典型的語音識別系統基本原理框圖

從圖1可看出,語音識別系統包括預處理、特征提取、模型的訓練和匹配、后處理等幾個部分。下面分別介紹這幾個部分。

2.1 預處理

預處理對輸入的原始語音信號進行處理,濾除其中不必要的信息及噪聲等,并進行語音信號的端點檢測,即判定語音有效范圍的開始和結束位置,并進行語音分幀和預加重處理等工作[3]。

2.2 特征參數提取技術

特征提取負責計算語音聲學參數,提取出反映信號特征的關鍵特征參數。特征參數的提取是關系到語音識別系統性能好壞的一個關鍵技術,合理地選擇特征參數不僅對系統的識別率有很大的提高,同時對系統的實時性能也至關重要[4]。

特征提取的目的是對原始語音信號進行處理,計算語音信號對應的特征參數,主要包括以下幾個步驟:

(1) 采樣與量化。

首先將模擬語音信號s(t)以采樣周期T采樣,將其離散化為S(n)。采樣周期的選取應根據模擬語音信號的帶寬(根據奈奎斯特采樣定理確定),以避免信號的頻域混疊失真。對離散后的語音信號進行量化處理過程中會帶來一定的量化噪聲和失真。

(2) 預加重處理。

對輸入的原始語音信號進行預加重,其目的是為了對語音的高頻部分進行加重,增加語音的高頻分辨率。一般通過一個傳遞函數為H(z)=1-αz-1的濾波器對其加以濾波。其中:α為預加重系數且0.9<α<1.0。設n時刻的語音采樣值為x(n),經過預加重處理后的結果為:

y(n)=x(n)-αx(n-1), 0.9<α<1.0

(3) 分幀與加窗。

語音具有短時平穩的特點,通過對語音進行分幀操作后,可以提取其短時特性,從而便于模型的建立。然后將每幀信號用某種窗相乘,以減少幀起始和結束處的信號不連續性。常用的加窗函數有漢明窗和漢寧窗。

(4) 特征參數計算。

實踐證明有效的特征參數有線性預測編碼(LPC)系數,線性預測編碼倒譜(LPCC)系數和Mel頻率倒譜系數(MFCC)。

2.3 聲學模型與模式匹配

語音識別系統的第二級是建立聲學模型與模型匹配。首先通過學習算法,將訓練語音的特征通過學習過程形成聲學模型。聲學模型是語音識別系統中最底層的模型并且也是識別系統最關鍵的一部分。聲學模型的目的是提供一種有效的方法計算語音的特征矢量系列與每個發音模板的距離。因為發音在每個時刻都受到其前后發音的影響,為了模仿自然連續語音中的協同發音的作用和鑒別這些協同發音,通常要使用復雜的聲學模型。聲學模型單元的大小(字發音模型、半發音模型或音素模型)對語音訓練數據量大小、系統識別率、以及靈活性有較大的影響。對于大詞匯量語音識別系統,通常識別單元小,則計算量也小,所需的模型存儲量也小,但帶來的問題是對應語音段的定位和分割較困難,識別模型規則也變得復雜。通常大的識別單元在模型中應包括協同發音(指的是一個音受前后相鄰音的影響而發生變化,從發聲機理上看就是人的發聲器官在一個音轉向另一個音時其特性只能漸變,從而使得后一個音的頻譜與其他條件下的頻譜產生差異),這有利于提高系統的識別率,但要求的訓練數據相對增加。近幾十年比較成功的識別方法有:動態時間規整(DTW)技術、隱式馬爾可夫模型(HMM)、人工神經網絡(ANN)。

(1) 動態時間規整(DTW)技術[5,6]。

由于在訓練或識別過程中,即使同一個人發同一個音時,不僅其持續時間長度會隨機地改變,而且各音素的相對時長也是隨機變化的。因此在匹配時如果只對特征向量系列進行線性時間規整,其中的音素就有可能對不準。20世紀60年代日本學者板倉提出了動態時間規整算法。算法的思想就是把未知量均勻地伸長或縮短,直到它與參考模式的長度一致時為止。在時間規整過程中,未知單詞的時間軸要不均勻地扭曲或彎折,以便使其特征與模型特征對正,DTW的具體實現方法是采用動態規劃技術(DP),方法簡單有效,對小詞表孤立詞別系統非常有效。

(2) 隱式馬爾可夫模型(HMM)[7]。

隱式馬爾可夫模型(HMM)是20世紀80年代引入語音識別的理論,其出現使自然語音識別系統取得了實質性的突破。HMM方法現已成為語音識別的主流技術,目前大多數成功的連續語音識別系統都是采用這種方法。HMM是對語音信號的時間系列結構建立統計模型,將其看作一個數學上的雙重隨機過程,一個是用具有有限狀態的Markov鏈來模擬語言信號統計特征變化的隱含的隨機過程,前者通過后者表現出來,但前者的具體參數(如狀態數)是不可觀測的。

人的言語過程實際上就是一個雙重隨機過程,語音信號本身是一個可觀測的時變系列,是由大腦根據語法知識和言語需要(不可觀測的狀態)發出的音素的參數流。HMM合理地模仿了這一過程,很好地描述了語音信號的整體非平穩性和局部平穩性。

(3) 人工神經網絡(ANN)[2]。

ANN是采用大量的簡單處理單元廣泛地連接起來構成的一種復雜的信息處理網絡,其中處理單元及其相互連接模式借鑒人腦神經元的結構及連接機制設計的。這種網絡具有與人腦相似的學習記憶能力,知識概括和輸入信息特征抽取能力。其本質上是一個自適應非線性動力學系統,模擬了人類神經元活動的原理,具有自適應性、并行性、魯棒性、容錯性和學習特性。目前語音識別神經網絡主要有多層感知器網,Kohonen自主織神經網和預測神經網。

基于人工神經網絡語音識別系統具有很大的發展空間,但普遍存在訓練,識別時間過長的缺點,目前許多學者正致力于利用神經網絡同傳統方法相互結合的語音識別系統的研究并取得一定進展。

2.4 后處理[1-2]

在中、大詞匯量的語音識別系統特征中后處理顯得特別重要,當分類發生錯誤時,可以根據語音學模型,語法結構,語義學進行判斷糾正。特別是一些同音字則必須要通過上下文結構才能確定詞義,語音學理論包括發音學、音律學、語義結構,語言的數學描述模型等有關方面。把語言模型應用于語音識別要解決的幾種結構,如何把它和模式識別器結合找出一種有效的識別算法。

語言模型主要分為規則模型和統計模型兩種,目前比較成功的語言模型通常是采用統計語法的。統計語言模型是用概率統計的方法來揭示語言單位內在的統計規律,其中N-Gram簡單有效,被廣泛使用。N-Gram模型基于這樣一種假設:第N個詞的出現只與前面N-1個詞相關,而與其任何詞都不相關,整句的概率就是各個詞出現概率的乘積。這些概率可以通過直接從語料中統計N個詞同時出現的次數得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

3 語音識別系統面臨的問題

雖然語音識別的研究工作已有60多年,語音識別產品層出不窮,但與語音識別的最終目標還有一定的距離,各方面的困難依然存在,主要表現在:

(1) 環境影響問題。這是各種語音識別系統普遍存在的頑健性如何提高的共性問題,包括環境噪聲影響、說話人距離和位置變化的影響以及說話人心理和生理變化的影響等[1-2]。有效解決這些難題實際上是各種語音識別技術共同面臨的艱巨任務。克服環境噪聲影響問題的方法通常有:譜減法消噪技術、環境歸正技術、噪聲建模技術、識別模型修正技術等;克服說話人距離和位置變化的影響可采用多話筒跟蹤拾音技術。對于克服說話人心理和生理變化引起的語言變異造成的影響,以引入模仿人類語音聽覺感知機理的人工智能技術對模式識別部分進行增強和改進的方法較有效。

(2) 語音識別系統的適應性差。全世界有近百種官方語言,每種語言有多達幾十種方言,同種語言的不同方言在語音上相差懸殊,這樣,隨著語言環境的改變,系統性能會變得很差。

(3) 端點檢測。研究表明,即使在安靜的環境下,語音識別系統一半以上的錯誤來自端點檢測器。提高端點檢測技術的關鍵在于尋找穩定的語音參數[7]。

(4) 詞與詞的特征空間混疊。語音識別的常規方法是利用語音信號的短時平穩特性將語音時域采樣信號分為若干幀,計算出每一幀的相應特征矢量,從而得到該幀語音的一個特征矢量序列。

但從這些矢量的空間分布來看,很多不同詞語的矢量序列在特征空間存在混疊現象。克服這個問題的主要思路是,首先應當基本準確地找出該發音者發音的大致短時周期,并盡量使用合理的特征,同時充分利用特征序列的時序特征[7]。

4 結 語

這里通過對語音識別技術的學習和研究,意識到語音識別技術在人類生活和工作等各方面的重要性。但是由于語音識別技術還面臨著很多困難,所以研究者最先大都是在實驗室即環境很安靜的情況下進行的,而且是選取某一種語言(比如英語)對某一或者某幾個國家的學生或者某一特定職業的人進行實驗,有些還專門對孩子進行實驗[8](因為孩子的發音和成年人是有很大區別的)等。那么以后人類是否可以研究出一種語音識別系統能夠適用于世界上各種語言各種各樣的人,是值得思考的。

另一方面如何將語音識別技術應用到人們生活的各個方面。比如學習方面,學習外語的時候老師不可能糾正每個學生的發音,而有一個系統可幫助糾正;娛樂方面,開始學唱歌時,不需要別人的點評唱的如何,而有一個評分的系統可以幫助打分,并糾正哪里唱的跑調了。還有國家的普通的話測試需要有一個系統可以幫助測試,考生自己就可以給自己大概的估分了。

參考文獻

[1]唐堯. 基于DSP平臺的語音識別算法的研究與實現[D]. 南京: 南京航空航天大學, 2007.

[2]周茉. 基于HMM和ANN得漢語數字語音識別算法[D]. 武漢: 華中師范大學, 2006.

[3]梁芳泉, 張雪英. 一種抗噪語音識別算法的DSP實現[J]. 電腦開發與應用, 2006, 19(4): 12-14.

[4]HACKER C, CINCAREK T, GRUHN R, et al. Pronunciation feature extraction[C]//Pattern Recognition. 27 DAGM Symposium. Berlin: Springer, 2005:141148.

[5]王倩, 吳國平, 陳琳. 特定人語音識別算法-DTW算法[J]. 軟件導刊, 2005(20): 48-50.

[6]呂軍, 曹效英. 基于語音識別的漢語發音自動評分系統的設計與實現[J]. 計算機工程與設計, 2007, 28(5): 1232-1235.

[7]李錦, 何培宇. 一種改進的基于小波去噪HMM非特定人語音識別算法[J]. 四川大學學報: 自然科學版, 2007, 44(1): 69-72.

[8]HACKERC, CINCAREKT, MAIER, A, et al.Boosting of prosodic and pronunciation features to detect mispronunciations of non-native children[C].\\ IEEE International Conference on Acoustics, Speech and Signal Processing, 2007.

[9]FRANCO H, NEUMEYER L, DIGALAKIS V, et al.Combination of machine scores for automatic grading of pronunciation quality[J]. Speech Communication, 2000, 30(2-3): 121-130.

[10]HU Rile, ZONG Cheng-qing. An approach to automatic acquisition of translation templates based on phrase struc-trure extraction and alignment[J]. IEEE Trans. on Audio, Speech, and Language Processing. 2006, 14(5): 1656-1663.

[11]WITT S M, Young Steve J. Language learning based on non-native speech recognition[J]. Eurospeech, 1997:633636.

[12]WITT S M, YOUNG S J. Phone-level pronunciationscoring and assessment for interative language learning[J]. Speech Comm., 2000, 30:95108.

主站蜘蛛池模板: 亚洲天堂网站在线| 国产精品久久久久久搜索 | 成人午夜视频免费看欧美| 热re99久久精品国99热| 亚洲开心婷婷中文字幕| 国产成人精品免费av| 99成人在线观看| 国产日韩欧美在线视频免费观看| 免费一级α片在线观看| 亚洲一道AV无码午夜福利| 欧美不卡视频在线| 亚洲天堂网在线视频| 欧美精品高清| 久久公开视频| 97超爽成人免费视频在线播放| 久久青草精品一区二区三区 | 成色7777精品在线| 日本爱爱精品一区二区| 亚洲中文字幕无码爆乳| 一区二区理伦视频| 久久国产香蕉| 免费a级毛片视频| 欧美一级片在线| 精品国产99久久| 一本久道久久综合多人| 黄片在线永久| 欧美视频在线观看第一页| 亚洲色图欧美一区| 五月天在线网站| 亚洲第一成网站| 国产人成乱码视频免费观看| 国产一区二区三区夜色| 日韩a级毛片| 欧美在线精品一区二区三区| 国内精品久久久久久久久久影视| 国产成人乱无码视频| 国产精品亚洲片在线va| 国产精品综合久久久| 亚洲日本中文综合在线| 激情综合婷婷丁香五月尤物 | 国产欧美日韩va另类在线播放| a天堂视频| 无码中文字幕精品推荐| www.亚洲一区二区三区| 亚洲国产欧美国产综合久久| 久久无码av一区二区三区| 久久人与动人物A级毛片| 无码日韩精品91超碰| www.youjizz.com久久| 欧美日韩午夜视频在线观看| 91网址在线播放| 91丝袜在线观看| 青青久久91| 欧美自拍另类欧美综合图区| 午夜国产不卡在线观看视频| 久久性妇女精品免费| 欧美日本二区| 久久久久青草线综合超碰| 婷婷色中文| 精品人妻一区无码视频| 色噜噜狠狠狠综合曰曰曰| 欧美a级完整在线观看| 狠狠色噜噜狠狠狠狠色综合久| 亚洲天堂成人在线观看| 久久人搡人人玩人妻精品| 国产亚洲成AⅤ人片在线观看| 婷婷伊人五月| 亚洲综合狠狠| 国产手机在线小视频免费观看| 亚洲中文在线视频| 亚洲无码视频一区二区三区 | 国产一级毛片网站| 亚洲一级毛片免费观看| 国产精品嫩草影院av| 日韩无码视频专区| 日韩欧美中文字幕在线韩免费| 国产流白浆视频| 国产SUV精品一区二区6| 国产精品尤物铁牛tv| 国外欧美一区另类中文字幕| 国产成人亚洲无吗淙合青草| 日本免费精品|