許小春
聊城職業技術學院 山東聊城 252000
智能語音識別技術是語音信號處理領域的一項主要技術,成為信息技術中人類與機器接口方面的關鍵技術之一。智能語音識別技術可以讓機器通過識別、理解,把聲音信號轉化為相應的文本或命令,讓機器能夠聽懂人類的語言,從而做出正確的操作。智能語音識別技術,涉及模式識別、物理聲學、信號處理、計算機科學、心理學和語言學等多個學科,不同的智能語音識別系統的具體實現程序不同,但它們采用的基本技術卻是相似的,主要包括特征提取技術、語音信號建模技術和模型訓練技術三個基本技術。
近年來,現代科學技術呈現出高速發展的態勢,特別是人工智能技術得到了前所未有的發展,該技術讓人類充分體驗到了現代科學技術帶來的便利優勢。隨著便利優勢的體現,人們開始了對更高生活質量的追求,為了使生活和工作更加便利,智能語音識別技術得到了迅速發展。近年來,智能語音識別技術在人類生活和工作中已經應用得越來越廣泛,但是仍然存在許多不易解決的問題,比如計算效率問題、環境問題等。智能語音識別技術是人機交互研究的重要基礎,對人工智能的發展有著重要的理論和應用價值。
智能語音識別技術在未來將會是一個熱門的領域,國家和企業對智能語音識別技術給予大量資金支持。智能語音技術中的智能語音助手,核心在于人類通過語音信息來實現與機器的交互,讓智能語音助手幫忙完成人類指派的任務。基于智能語音識別的人機交互有著很大的發展潛力,所以很多企業都看好這個方向,對人類生活質量的進一步提高有著很大的實用價值。
智能語音識別的理論技術主要包括如下三方面內容:特征提取技術(語音信號的表示)、語音信號建模(語音識別單元的選取)及模型訓練技術。人類語音的多變性和復雜性使得智能語音識別理論技術的研究面臨著巨大的挑戰。

圖1 智能語音識別流程圖
特征參數提取技術主要是從人類語音信號中提取出相關的參數,來描述人類說話的目的。人類語音信號中含有各種信息,語音信號特征提取是語音信號處理的前提,可以提取出對智能語音識別有用的信息,它可以對語音信號進行分析和處理,去除無關緊要的語言信息,通過提取語音信號本質特征的參數來識別語音信號的主要信息。
LPCC基于聲道模型,它是目前進行語音信號分析最流行的分析技術之一。線性預測技術LPC用線性預測法分析出語音信號相鄰樣值之間的關系,從而得到一組語音信號模型參數。這組語音信號模型參數可以較精確地表征出語音信號頻譜幅度。
在識別建模階段主要用的是模式匹配法。語音信號建模單元有單詞、音節和音素三種。音節單元主要應用于中小詞匯的智能語音識別系統,不適合大詞匯的智能語音識別系統。它主要應用于漢語的智能語音識別,不適合英語的智能語音識別,主要原因在于漢語是單音節結構的語言,而英語卻是多音節結構的語言。對于中大詞匯量漢語智能語音識別系統來說,以音節為識別單元基本是可行的。音素是語音中最小的基本單位,是人類能區別每個單詞的基礎。在應用中把聲母和韻母組合得不一樣而構成細化聲母,這樣雖然增加了模型數目,卻可以提高易混淆音節的區分力。
模型訓練是指按照一定的準則,在大量已知的模式中獲取可以表征該模式的本質特征模型參數,使未知的模式與模型庫中的某一個模型獲得最佳的匹配,從而提高聲學模型的準確率。智能語音識別所應用的模型訓練技術主要有基于GMM-HMM語音識別聲學模型訓練方法和人工神經元網絡(ANN)模型法。GMM-HMM訓練法主要是針對GMM中均值與方差參數進行了調整,語音識別核心在于聲學模型,聲學模型核心在于GMM參數訓練。人工神經元網絡(ANN)模型法對應狀態的發射概率也是同樣原理。
人類對智能語音識別的研究最早可追溯到20世紀50年代,Davis等人在1952年研制了世界上第一個能識別數字發音的實驗系統,雖然只能識別固定的某個人說的英文數字,這次的研究卻正式開啟了智能語音識別的歷史進程。
從技術方向來看,智能語音識別發展至今可以大體分為三個發展階段。

圖2 發展歷程圖
20世紀50至70年代,智能語音識別主要集中在單個詞和小詞匯量識別方面,使用的方法主要有模式匹配方法、動態規劃算法和動態因素跟蹤法等。以上方法有很大的局限性,比如,模式匹配方法方法對解決單個詞識別是有效的,但對于大詞匯量的智能語音識別卻無能為力。Davis等人在1952年研制的能識別數字的智能語音識別系統,主要依靠度量每個英文數字的元音音段的共振峰。英國的Denes等在1960年研究出了第一個計算機智能語音識別系統,同樣也存在一定的局限性。
20世紀70年代后,小詞匯智能語音識別技術越來越成熟。到了80年代,人類就研制出了連續的智能語音識別系統,并且還提出了將神經網絡技術引入智能語音識別技術的想法,智能語音識別技術在這個時期得到很大的發展。混合高斯模型被應用到智能語音識別技術中,大大提升了智能語音識別的效果,但智能語音識別的準確率還是很難達到90%以上。
20世紀90年代以后,人類對智能語音識別的研究得到了突飛猛進的發展。隨著深度學習,智能語音識別的精度得到了大幅度的提升,準確率達到90%以上。人機語音交互成為智能語音識別研究的焦點,包括口語的識別、口語對話和多語種的語音同聲翻譯等。技術取得了突破的同時,人類還依托智能語音識別系統生產出大量的與此相關的產品,如天貓精靈、語音遙控器等。
智能語音識別技術主要解決了讓機器聽懂人類說話的難題,它的應用十分廣泛,目前主要應用在工業、智能家居、車聯網、通信、醫療、電子產品等領域。智能語音識別技術在軍事、航空領域也得到了突破發展。

圖3 主要應用領域
人機交互這種溝通方式應用到家居中,能夠為居民帶來便利,特別是老人和小孩。現在的智能家居系統大多都可以對接語音識別功能,如智能燈、空調、窗簾、電視、門窗、安防與監控等都可以植入語音控制,智能語音識別技術還可應用于智能微波爐、電飯煲、掃地機器人等其他領域。
傳統的控制電視交互方式有遙控器、手機APP、鍵盤鼠標等,隨著用戶對電視操控越來越復雜,傳統的交互方式已經不能滿足用戶的要求。但是隨著智能語音識別系統的加入,電視可以根據用戶的語音做出快速響應,這樣可以讓智能電視的操控性得到大大提高。智能電視主要是通過安裝適配的智能語音識別軟件,智能語音識別軟件連接到互聯網并向客戶端發送接收到的語音識別信號,通過客戶端返回對應的指令,實現對智能電視的操作。智能電視操作系統能夠滿足用戶多樣化功能的需求,比如,用戶可以說“換臺”等直接找到自己想要看的電視節目。
傳統的車載終端系統需要駕駛員駕車的同時進行手動操作,增加了駕駛員分心的風險。駕駛員在駕車的同時操作電子設備導致目光偏離了前方,這是造成交通事故的原因之一。隨著智能語音識別技術融入車聯網中,很大程度上減輕了駕駛人員眼睛和手的操作壓力,特別是在駕駛員負荷駕駛環境下,減少了交通事故的發生,提高了駕駛的安全性。目前,我國已經具備車載語音終端系統的開發技術,特別是基于小詞匯量的智能語音識別技術已經很成熟。該系統可以實現駕駛員車輛指令、語音撥號、語音導航目的地輸入、車載個人娛樂等功能。比如,在汽車上可以安裝聲控免提電話,當駕駛員想要撥打電話時,駕駛員只需要說出相應的電話號碼,智能語音識別系統就可以根據識別結果自動撥打出相應的電話。基于車輛內部環境溫度,智能語音識別率相對較高,這種人機交互方式,不僅可以讓駕駛員的手和眼睛得到解放,還可以極大地提升駕駛員的駕駛體驗。
隨著醫院臨床業務總量不斷增長,醫務工作人員需要將大量精力用在書寫檢查報告、病程記錄、門診病歷等病人信息上面,這些必要的工作占用醫務人員大量的工作時間。智能語音識別技術引入醫療系統后,醫務人員可以用語音錄入代替手寫或者鍵盤輸入,極大地提高了醫務人員書寫病歷記錄等病人信息的效率,降低了醫務人員的工作強度,降低了醫療系統日常的運作成本,突破了傳統醫療信息記錄模式的局限。比如,在門診上,醫生可以將患者的病狀口述下來,錄制成語音檔案,智能語音識別系統可以將醫生口述的語音轉換成準確度高的初步文件,通過電腦再進行快速的核對和編輯,不需要醫生將病人狀況逐字逐句地輸入電腦,就能輕松地把病人情況轉換成電子病例檔案。隨著智能語音識別技術在臨床上的應用,醫務人員大大節約了寶貴時間,縮短病人無效的等待時間,間接地提高醫院救治病人的能力。
智能語音識別技術在軍事領域也有著極為重要的應用價值。目前,部分智能語音識別技術專門針對軍事活動而進行研發,并在識別精度、響應時間、環境影響等方面進一步精細化。在軍事指揮和控制自動化方面,智能語音識別技術已經得到廣泛應用。在軍事指揮模擬訓練中,為了增強模擬訓練的實戰效果,語言是最自然、最符合實際的信息載體。將智能語音識別技術引入軍事模擬訓練系統,該技術可充分改善人機交互的通信界面,更真實地體現出軍人的協同訓練。在控制自動化方面,工作人員將智能語音識別技術用于航空飛機的飛行控制,飛行員可以利用語音輸入來完成傳統的手動操作控制。這樣不僅提高了航空作戰效率,還減輕了航空飛行員的操作壓力。
智能語音識別技術雖然有了歷史性的進展,但依舊存在著一些技術上的不足。智能語音識別技術存在無法區分各地方言,無法對環境中的噪聲過濾等問題,這些導致智能語音識別技術進入了一個發展瓶頸期,在技術發展上受到了一定的限制性。
智能語音識別對人機之間的距離有一定的要求,超過一定的距離時,機器將很難識別出講話人的語言,甚至會停止工作不再進行智能語音識別工作。比如,用天貓精靈控制家電的時候,講話人和天貓精靈之間的距離超出5~8米時,天貓精靈將不做出反應。
智能語音識別系統的適應性比較差,有很強的環境依賴性。語言識別系統只能在比較安靜的環境下,才能得到高精準度的語言識別。在嘈雜的環境中,人類會下意識地提高音量、變慢語速、改變音調等,這些變化會導致音調及共振峰的變化,智能語音識別系統將很難識別出講話人的語言。
人類的語音信號有著很大的抽象性、適應性,由于講話人發音過程中音調、音量、重音和發音速度的不同,會導致講話人的意思不同。人類可以根據已有的語言背景來對說話者的意思進行分析,但是機器卻不具備這樣的能力。不同的說話人由于性別、情緒、環境、年齡等因素,相同內容的發音存在著很大的差異,智能語音識別系統的適應性遠不如人類,比如,一些智能語音識別系統不能對幼兒的語言進行識別。
不同的地方,總會有一些特殊的方言詞語或者奇異的發音,這對于人類來說并不是什么大問題,還會讓人類感受到異國風情,但是對智能語音識別系統來說,這卻是大難題。口音是各地語言中普遍存在的現象,人類發音極其不規則,比如,在一些方言中,不能很清楚地區分“z”和“zh”“c”和“ch”“s”和“sh”“n”和“l”、前鼻音和后鼻音等,同一個字,音調也不一樣。目前,這些問題是智能語音識別技術的一條難以跨越的鴻溝。
智能語音識別技術涉及多個專業領域,急需有一套標準化的工作系統,從而實現各領域的分工和協作,促進社會經濟的進一步發展。隨著互聯網的快速發展、企業資金的大量投入和國家政策的支持,作為人機交互最為重要的接口之一,智能語音識別技術將會吸引更多研究人員去研究,智能語音識別技術將會很快走出瓶頸期,得到一個質的發展。