滕海坤 李倫彬 王詩瑩 黑河學院計算機與信息工程學院
智能化的深度開發和研究,使其與語言識別的整合更加緊密,機器學習模型構建也顯得更加重要。隨著信息化技術的優化與發展,智能化研究的語音識別已經成為可能,對深度學習的語音識別方法研究也顯得更加重要。
現階段隨著科學技術的發展促使人工智能語音識別技術廣泛普及,成為廣大人民日常生活中不可缺失的一部分[1]。這種語音識別技術主要接受到語言輸入信號后,通過計算機把語言信號轉換成對應的文字技術。由于人工智能語音識別技術廣泛被應用到人們常用的電子產品當中,極大的提升人們生活效率,這項技術的開發給人們生活帶來了巨大改變。并且語音識別技術還可以在計算器轉換語音信號輸入時獲取并立即執行獲得的指令。但由于國內現階段人工智能語音技術剛處于發展階段,擁有一些缺點,正在逐步發展并完善提供給人們更優質的服務。
噪聲干擾目前還未有人找到有效解決方法,由于在收集語音信號過程中有噪音干擾,導致語音識別系統無法有效識別接受到的信號,甚至無法識別語音信號。
端點檢測技術在語音識別信號過程當中占據著舉足輕重的位置,但端點檢測器技術有待提升,因為端點檢測器在沒有噪音并且非常安靜的環境下,出現的語音識別失誤大多來自檢測器。可以看出如果想大幅度提升語音識別技術,必須加大對端點檢測技術的研發與改進,而提升端點檢測技術的本質就是穩定性更高的語音參數[2]。
語音拾取在語音識別方法中具有端點檢測與采樣兩個非常重要的環節。在進行端點檢測環節時,主要是用來收集在外界環境干擾下的語音樣本,也就是擁有噪音的環境下,這種方法具有可以分辨出噪音下的語音樣本,通過縮減通信帶寬、設備能耗并壓縮語音編碼的實際的速率,來確保加強語音識別率的功效,并且這種識別方法也被人們叫作語音活動檢測,或語音邊界檢測。在這一語音收集識別過程中主要利用語音活動檢測器來達到語音收集并識別方法功能[3]。
我國現階段對于端點檢測方法還有兩個非常重要的問題無法有效解決,第一個問題是收集語音信息后的前后沿剪切問題,這一問題主要表現在語音檢測整體過程中的頭尾與實際人聲之間擁有時間差的問題,無法完全同步,為此,對于語音波形的開頭和結尾都會人為進行刪減,結果會導致翻譯文字與實際語音波形兩者間擁有出入;第二個問題是外界環境中存在的噪音問題,現階段的問題是如何精確有效的區分出接受到的信號源中的噪音,為此提升語音參數的穩定性是最為有效的解決方法,找尋穩定性強的以此來準確提取語音特征。
采樣環節作為語音拾取過程中的初試環節,其本質就是收集語音樣本,再把收集到的語音樣本通過轉換器進行轉換。在這一過程中,為有效避免由于頻率低導致低頻發生失真現象,為此應在采用聲卡進行收集信號過程中,確保整體過程中采用的頻率是最高錄制頻率的兩倍或兩倍以上。
模擬訓練和語音識別判斷主要包括三方面內容:
1.要想更好的完成語音識別工作,可以多進行模擬訓練,訓練的過程可以對照已有的識別方法進行。訓練的主要目的是獲得語音參數,將其作為模板保存和其他模板一起用于建立參考模板庫,之后的語音識別可以以此為標準。
2.將識別樣本按照參考模板的標準進行挑選,挑選出與模板最為接近的樣本,將其作為識別字。對比方法有以語音特征訓練的提取結果為標準進行篩選。識別時,主要以待識別字的向量序列進行區分,可以輸入訓練特征與語音信號來獲得,接著要將得到的序列與模板進行對比[4]。
3. 提高語音系統對特征的識別。語音識別系統中往往需要對聲學模型進行分析和處理,進行這一步驟的前提是將語音信號中所包含的信息進行量化,并從中提取出特征用于代表語音信號本省,由此可見,在整個語音識別系統中最為關鍵的環節就是提取語音信號特征。通過在圖像識別中使用深度學習方法,發現其對于圖像識別有很大幫助,之后在語音識別系統中使用,也效果顯著。與傳統方法不同,深度學習通過其獨特的訓練方式能夠讓神經網絡具有更佳的初始權值和偏重,避免了訓練過程中神經網絡局部最優解情況的發生。深度神經網絡更為貼近原始音素數據的本質特征,使數據更易于區分,優化語音識別系統,讓語音識別系統更為精確。
在信息技術與智能化技術不斷發展完善的今天,深度學習的語音識別方法也得到了優化,本文對基于人工智能的深度學習語音識別方法進行研究,旨在為相關技術人員與相關工作領域研究提供助力。