劉敏
計算機語音識別系統的架構設計
劉敏
山東勝軟科技股份有限公司,山東 東營 257000
近些年,隨著計算機技術的普及,計算機產品已成為人們工作生活中不可或缺的產品,在這樣的形式下需要提升計算機平臺媒體的便捷性。現階段語音識別系統是最好的轉變選擇。語音識別系統的主要原理是計算機設備使用自己的語音識別和理解系統將語音信號轉換成文本文件或以命令的形式輸出。計算機語音識別系統的主要任務是提取語音信息和識別語音信號的含義。經過幾十年的研究和開發,目前的語音識別技術在計算機軟硬件的指導下取得了很好的成果。如果研究人員和設計者設計出一種能夠在單片機上實現語音識別的系統,這將具有重要意義。因此,相關人員應使用VC++過程模擬來開發一個小詞匯量、獨立的單詞識別系統,并建立一個更完善的計算機語音識別系統。
計算機;語音識別系統;架構設計
從計算機的發明到現在的普及,在操作計算機時一直是在使用鍵盤,但是在現實的世界中還有一種物質可以將計算機與人們進行聯系,這就是聲音。合理利用聲音構建起人與計算機間的聯系就是計算機語音識別技術。簡單地說,計算機語音識別技術是計算機傾聽人類語言的一種工程。當人們對著計算機說話時,計算機語音識別系統會將其理解成“語言”,并將其輸入內部系統,利用相關程序將語音信息轉化為文本形式。在識別過程中,計算機根據語音識別模型將存儲在計算機中的語音模板的特征與輸入語音信號進行比較,并根據一定的搜索和匹配策略找到一系列與輸入語音匹配的最佳模板。然后,根據模板的定義,可以參考表格給出計算機的識別結果。顯然,這個優化結果直接關系特征選擇、語音模型質量和模板精度[1]。
通過多年的研究與努力,語音識別技術也得到了非常大的發展。語音識別已經由研發階段發展到實際使用階段。在試驗階段語音識別信號最好的情況下使用者連續進行朗讀,信號的識別率可達到90%以上。因此語音識別技術也從試驗階段轉換到實際應用階段,實現了商業化。通過相關學者的研究已有兩大聽寫設備,即IBM ViaVoice和Dragon Dictation。語音識別技術也從一開始的小眾化發展到現在的大眾化。語音識別系統在進行語音識別時可以校對語言并糾正錯誤信息,在此基礎上保證語音識別的速度與質量。因此,為了充分發揮語音識別技術的應用優勢,確保該系統能夠克服不同環境和口音造成的識別偏差,相關研究人員應進行進一步研究,以克服這些問題,并在此基礎上確保語音識別系統能夠更好地應用于實際生產和生活[1]。從現階段來看,現有的語音識別系統在識別特殊單詞方面發揮了很好的作用,特別是在電話查詢、電話交換和數字字符串設置方面。接收這些任務后,系統不僅可以自動接收和存儲信息,還可以實現實際數據與實驗室數據的一致性,確保100%的識別率。但是可以限制語音識別系統的因素也相對較多,因此相關的技術人員還應對此項技術進行進一步的研發與優化[2]。
計算機語音識別系統中用戶界面模塊的主菜單主要包括運行過程中的識別程序,并且可以選擇要在工具欄中顯示的波形原始圖或波形處理圖。此模塊中的狀態欄包括一個消息對話框和一個狀態顯示,并監控系統中的軟件。
語音識別系統中語音信號采集模塊的主要任務是將聽到的聲音記錄到系統中,然后用MGI功能記錄聽到的聲音,最后得到帶有MGI功能的指令和消息。錄音過程中的聲音輸入通過麥克風完成,并存儲在定制模板中,該模板可用作WAV文件[3]。
每一段語音信號都具有一定的代表性但不是很穩定,因此無法對有爭端的語音進行識別與處理。當出現此情況時可以將其切割成長度不等的語音信號,在滿足相關信號處理條件下可以運用相關的公式進行計算并對信號進行處理[4]。目前,最常用的參數是:平衡振幅、短期能量和電流預測系統。在實際處理中,可以首先將輸入語音波形轉換成另一組離散參數向量。然后提取語音特征,主要是獲取能夠通過語音產生的波形反映語音特征的主要信息,排除一些不相關的語音信息。最典型的方案是收集樣本信號。首先,不同的時間間隔可以通過開窗來分開,然后可以在此基礎上設置時間間隔[5],最常見的設定間隔為1~50 ms,最后可以在不同的間隔幀上提取不同的特征矢量。在這其中較簡單的特征分為短時能量和過零率兩種,但其頻率特征相對是比較穩定的。LPC分析是其中比較典型的特征,可以直接反映共振峰值的性質。
特征庫中的一些相關參數可以分為兩類:一類是音頻文件、語音揚聲器名稱和語音內容等:一類是信號處理后產生的相關聲音內容的語音特征參數。兩者都設置了相應的誤差范圍。
模塊識別模塊可以收集用戶發出的聲音并監控其終端,最終提取其特征。提取的聲音應與模板一致,并且可以用作識別的最終結果。匹配的主要方式是矢量可變距離。矢量量化是指特征值中的參數來構造相應的特征值,它們之間的加權距離可以在匹配過程中計算出來。匹配后獲得的加權距離越小,兩者之間的距離越近。如果匹配在誤差范圍內就是成功;如果匹配在誤差范圍外則不成功,可以根據系統中的動力學產生的誤差來確定它是否是預期模板[6]。
在科技的帶動下,計算機語音識別系統也在不斷完善與更新,其良好的特征也完美地呈現在人們面前。計算機語音識別系統的特征主要體現在從認識到語音識別技術的發展趨勢,并逐漸滿足社會發展的需要,利用獨有的特點與專業性技術來解決不同領域中遇到的問題。此外,可以看出計算機語言識別系統使用范圍非常廣泛,可被利用到不同的領域中。如將其應用到通信領域中,應將大量的與通信領域相關的詞匯利用專業的語音識別系統進行輸入。這樣既可以提升語音識別系統的清晰性,又可以提升其定位功能的準確性,充分發揮計算機語音識別系統的作用。計算機語音識別系統也在計算機技術的發展中取得了突破性進展,并逐漸擴展到日常工作和生活中。集成不同的語言可以共享相關的任務。更令人驚訝的是,計算機語音識別系統能夠收集、總結和分析大量詞匯信息,從而突破了多語言的限制。
通過近些年來對計算機語音識別系統的進一步研究,利用VC++技術可以構建起一個更加完善的語音識別系統,并在模擬后實現對系統的調試。在現代移植技術的輔助下實現了將系統移植到單片機上,有效地提升了計算機語音識別系統的處理效果,達到最初的處理與控制目的。
[1]郭洪榮. 計算機語音識別技術的應用分析[J]. 黑龍江科技信息,2012(31):96.
[2]高忠生,高紅琴. 計算機語音識別系統的架構設計[J]. 信息記錄材料,2013,14(3):50-53.
[3]高翔. 計算機語音錄入系統中準確性問題的研究[J].自動化與儀器儀表,2015(2):103-104.
[4]茍鵬程. 基于Android的語音識別設計及應用[D]. 天津:天津大學,2017.
[5]李剛. 智能語音識別技術的架構與設計[J]. 電腦知識與技術,2018(18):175-177.
[6]王青偉,馬鐲,崔琳,等. 語音識別領域計算機程序或算法專利申請審查[J]. 電聲技術,2012,36(S1):50-52.
Architecture Design of Computer Speech Recognition System
Liu Min
Shandong Victorysoft Co., Ltd., Shandong Dongying 257000
In recent years, with the popularization of computer technology, computer products have become an indispensable product in people’s work and life. In this form, the convenience of the computer platform media needs to be improved. It can be said that the current stage of speech recognition system is the best choice for transformation. The main principle of the speech recognition system is that the computer device uses its own speech recognition and understanding system to convert the speech signal into a text file or output in the form of a command. The main task of the computer speech recognition system is to extract speech information and recognize the meaning of the speech signal. After decades of research and development, the current speech recognition technology has achieved high results under the guidance of computer hardware and software. It would be important if researchers and designers design a system that can implement speech recognition on a micro controller. Therefore, relevant personnel should use VC++process simulation to develop a small vocabulary and independent word recognition system, and establish a more complete computer speech recognition system.
computer; speech recognition system; architecture design
TN912.34
A