王順利 付嘉銘 洪強
摘 要 目標聲音識別逐漸將會在實際的日常生活中得以應用。在實驗室環境下,對目標聲音識別系統大多數識別性能也達到了一定的要求,但在實際噪聲環境下的識別系統效果將大大降低。因此,在抗噪聲語音識別的研究目標是非常重要的。研究發現,人耳具有良好的抗噪聲能力,因此基于語音識別技術的聽覺系統是一個很有前途的研究課題。
關鍵詞 語音識別技術 聽覺系統 仿生學 智能 機器人
中圖分類號:TN912.34 文獻標識碼:A
1語音識別技術
1.1語音識別技術簡介
語音識別技術主要分為兩類,一是語音意義的識別,一種是目標聲識別。第一個被稱為語音識別,它是根據聲音的成詞特點對聲音進一步分析,主要應用在人工智能,人機對話和快速輸入等領域。通過訪問聲音的特征,從目標語音中進行提取,該項技術可以區分多目標語音的種類,確定目標,主要用于戰場目標識別領域,海上偵察系統,預警系統,軍事聲納識別,車輛聲音識別,火車預警系統,動物個體的語音識別和家庭安全系統等。
科技研究人員通過對語音信號處理技術進行深入的研究,結果發現:人的聽覺系統的聲音配合具有獨特的優勢,它能準確地提取目標的聲音特征,準確地辨別聲音的方向和內容分類,所以基于仿生聽覺系統的目標聲識別技術備受現代前沿科技的關注。針對目標聲音識別系統的研究工作成為了現代語音識別技術研究的一個熱門方向,不少科技研究人員正在積極探索先進可行的仿生學理論,特征提取技術和語音識別技術。
1.2語音識別技術的研究現狀
語音識別技術主要是通過對監測數據的聲音特性分析,得到聲音特性的樣本文件。語音識別技術是一種非接觸技術,用戶可以很自然地接受。但語音識別技術和其他行為識別技術具有共同的缺點,即輸入樣本的變化太大,所以很難完成一些精確的匹配,聲音也會伴隨著速度,音質的變化而影響到信號的采集和結果的比較。
在語音識別中,語音識別是最早也是比較成熟的領域。隨著越來越多的應用需求,識別聲音并不局限于語音識別,人們開始深入研究目標識別技術的非語音識別,該項技術已經參照了成熟的語音識別技術的一部分,但由于各自的應用環境和實際的音頻特征之間的差異,該技術還存在一些差異。
1.3語音識別技術的實際應用
在民用方面,目標聲音識別系統可以應用于門禁系統,網絡安全,認證,智能機器人,動物語音識別,電子商務和智能交通等領域。在智能交通領域,利用來自車輛識別模型的運動音頻信號,可以實現交通信息的智能化管理。在智能機器人領域,機器人目標聲音識別系統可以作為機器人的耳朵,通過環境聲音識別并確定聲音的方位,然后再反應外界的聲音,因此可以將其當作家庭自動化服務系統和安全系統。在動物的語音識別領域,可以根據害蟲聲特征來區分害蟲種類,根據不同的害蟲采取不同的措施。在網絡應用領域,在關于各種在線服務支持的語音識別技術新項目開發中,可以提高網絡的服務質量,給人們的生活帶來方便。現在,美國,德國和日本都開了電話銀行,語音代替原來的密碼和使用印章,簡化了工作服務流程,提高工作效率。
在軍事上,目標聲音識別技術來自于第二次世界大戰,在探測敵人的炮火和潛艇時,起著重要的識別和定位作用。但由于計算機技術,信號處理技術,光電檢測和雷達檢測技術快速的發展,使聲探測技術發展得十分緩慢。直到現代的戰爭,研發了使用于戰爭中的三維信息,全方位定向,反欺詐、欺騙、干擾和反偵察、監視,在隱身與反隱身的現代戰爭中為國家的國防事業做出了不可磨滅的杰出貢獻。通過電,磁,光學和雷達探測技術和主動檢測技術來完成偵察任務已經不能滿足現代戰爭的需求。在武裝直升機技術成熟的當代,隱形轟炸機和其他高科技武器都有了反射功率,抗電磁干擾,反輻射的功能,特別是快速發展的數字技術和計算機技術,迫使各國為了實現對目標的定位跟蹤和噪聲識別而重新開始研究被動聲探測技術,關注聲檢測技術。在未來戰爭中,武器裝備發展的一個重要趨勢是智能化、小型化,一個重要的特點是具備目標識別的能力,并根據不同的對象使用不同的攻擊方法。
2聽覺系統
為了設計一個更精確的目標聲音識別系統,越來越多的學者開始深入研究仿生學領域。通過研究發現,人類的聽覺系統在聲音的物理方面具有獨特的優勢,聲音特征可以準確提取目標識別中聲音的方向,種類和含量,而且還可以提高抗噪聲能力,所以基于人基于語音識別技術的聽覺系統已經成為目前的研究熱點。
人類聽覺仿生學是模仿人耳的聽覺系統和生理功能,并通過建立數學模型,根據數學分析原理得到的聽覺系統。它涉及聲學,生理學,信號處理,模式識別和人工智能等學科,是一個跨學科研究領域的綜合應用。該技術已在軍事,交通,銀行,醫療治療的許多方面取得了重要應用,是人類實現智能生命的重要研究課題之一。
人類聽覺系統的處理能力大大超過目前的聲音信號處理水平。從人類聽覺系統的心理和生理特點視角,許多研究人員對接聽過程中的語音識別進行深入的研究。目前,許多學者提出了不同的聽覺模型,這些模型大多是一些基于語音識別和語音質量評價系統的聽覺模型,模擬人耳聽覺功能的生理結構,這些應用處理方法大大提高了系統的性能。
參考文獻
[1] 甄斌,吳璽宏,劉志敏,遲惠生.語音識別和說話人識別中各倒譜分量的相對重要性[J]. 北京大學學報(自然科學版). 2001(03).
[2] 趙力,鄒采榮,吳鎮揚.漢語連續語音識別中語音處理和語言處理統合方法的研究[J]. 聲學學報. 2001(01).