長江大學電子信息學院 陳 瑞 鄭恭明
自2011年起第一款智能語音助手Siri的驚艷亮相,已走過十年歷史,現如今各種形形色色的語音助手已占據各大主流手機品牌市場。據Strategy Analytics的報告,2018年在全球出售的手機中,半數以上已經配備了語音助手,預計在2023年后,智能手機的語音助手基本能夠實現全覆蓋。
在傳統的語音識別技術中,混合高斯模型和隱馬爾可夫模型(GMM-HMM)曾占據了近三十年的發展歷史。GMM-HMM模型本質上只是一種淺層學習網絡的建模,其建模能力有限,無法準確的識別語音內部復雜的結構,因此它的識別率較低。隨著深度學習的不斷發展,混合高斯模型已逐漸被深度神經網絡(DNN)所替代。DNN-HMM聲學模型利用DNN神經網絡極強的表現學習能力,配合HMM模型的建模能力,在大多數的語音識別任務上都能勝任GMM-HMM模型。
通過深度神經網絡,機器可以對人類發出的語音指令進行思考并分析,進一步提升人工智能科技進步。本文就深度神經網絡的基礎上,對智能語音助手應用進行分析。
隨著智能手機的不斷創新,語音助手也隨之發展的更加智能,與人類的交流也不再像過去那種單一的交流方式。現如今的語音助手甚至能夠與人類進行更深層次的交流,這主要歸因于自動語音識別技術(ASR)與自然語言處理技術(NLP)。
語音識別起源于上世紀五十年代,當時只能識別特定的簡單的單詞,隨著各國對語音識別技術發展的重視,識別能力水平越來越高。上世紀六十年代,隨著第三次科技革命的開始,計算機技術的快速發展也進一步推動了語音識別能力的發展。但當時由于技術比較先進,普通大眾尚無法感受到語音識別的魅力。隨著現時代網絡的普及,語音識別也逐漸應用于各種社交軟件工具中。起初的語音助手識別的算法只能完成語音指令發出的任務,且錯誤率較高。而隨著與深度神經網絡的結合后,語音助手能夠完成的不僅僅只是簡單的任務,甚至可以實現家居智能化,思考人類發出的指令并通過算法模仿人類大腦所思考的回答。
自然語言處理技術(NLP)指的是機器在讀取語音指令時,能夠“聽懂”人類語言,通過算法進行分析、計算等系列操作,做出相應的響應并反饋用戶所期望的結果。語音處理技術主要包含以下兩個部分:自然語言理解(NLU)和自然語言生成(NLG)。其中NLU為語音識別技術的核心,其主要功能是如何去理解語音指令,以及各種文本分類等;NLG主要側重于如何將理解后的語音文本組織表達,將其形成完整的句子回答用戶。
自動語音識別技術(ASR)是目前多數語音助手都具備的技術,其本質是將人類發出的語音指令轉化為文本形式或者可以理解的指令,從而達到人與機器交流的目的。語音識別技術主要包含以下幾個單元:特征提取、模式匹配、以及參考模式庫。當語音輸入時,我們對此語音預處理進而提取特征。根據提取的特征與模式庫的特征進行比較,從而找出最優的匹配模板。如圖1所示。
圖1 自動語音技術的工作方式
深度神經網絡(DNN)是深度學習的一種方式,是由大量的神經元通過算法合成的一個自適應系統,通過對人類大腦的模仿,使其算法具有人性化并具備人類特有的思考能力。深度神經網絡能夠為復雜的非線性系統提供強大的抽象層次,從而提高模型所具備的能力。
神經網絡起源于上世紀四十年代,起初的神經網絡在工程方面應用十分廣泛。但隨著科技的不斷進步,神經網絡在算法方面的弊端不斷顯現,直接導致神經網絡的發展中斷。針對這一現象,美國科學家通過非線性系統的優化再一次發展了神經網絡。2011年,微軟初步將深度神經網絡運用在語音識別上,語音識別技術迎來了突破性的進展。此外,深度神經網絡需要通過大量的數據進行監督運算,這會導致訓練時間過長且極大的消耗資源,這阻礙深度神經網絡的發展。但是,不足也是動力,隨著科技的不斷發展,深度學習將愈加完善。未來的深度神經網絡不僅僅只是應用于語音系統上,它對機器人、醫療、多媒體及室內智能家居同樣大有裨益。
深度神經網絡也叫做多隱含層感知機,可以理解為具有很多隱藏層的神經網絡。DNN內部神經網絡主要分為三種類型,一般來說第一層為輸入層,中間層為隱藏層,最后一層為輸出層。相鄰層與層之間節點都是全連接的,其中輸入層為原始的樣本數據,輸出層為最終的計算結果。整個網絡采用無監督的預訓練方式來生成初始權重,且在最后一層的隱含層和輸出層之間構成Softmax函數,再通過誤差反向傳播的方法調整整個網絡的參數。其結構如圖2所示。
圖2 深度神經網絡
傳統的語音助手技術主要以完成指令下達的任務為目標,而現如今深度神經網絡的運用,使得智能助手可以模擬人類的神經元活動機制,通過算法進行思考并做出回答。而語音助手的一大難點就是在外界噪音情況下如何降噪并將純凈的語音信息保留。通過深度神經網絡的強大建模能力對大量數據進行試驗,得出結果發現深度神經網絡對噪聲的過濾性更強,通過底層網絡將外界影響噪聲過濾,把純凈的噪聲進行保留。因此,深度神經網絡在語音識別的語音助手應用中,更加自主化及高效。
深度神經網絡通過大量處理好的數據對語音助手進行訓練,但由于訓練的參數過多且網絡模型過于復雜,因此深度神經網絡存在過擬合及局部最優的局限性。故選取合適的自動的停止訓練標準,使機器在合適的訓練程度上,降低深度神經網絡的局限性。對語音助手的模型訓練是為了更好的掌握對所需語音特征值的識別結果,不斷循環訓練以更好的加強識別效果。在此基礎上,需要對此模型進行擴大更新,拓寬語音助手識別的區域,更好的提升語音助手識別內容的準確率。
雖然離第一代產品出來已有十年,但是在語音識別方面,當前研究人員也遇到了技術發展的瓶頸。盡管大多數手機都安裝了語音助手,也做到了人與語音助手的交流,但是手機的語音助手終歸是機器,能做到的也只是完成一些簡單的交流及任務。若是一些復雜任務及專業語言,語音助手則很難達到相應的預期結果。對于復雜模型訓練,專業名詞導入以及降噪處理,語音助手仍有一條很長的路要走。
當前的語音助手所提取的關鍵詞都是依靠有限的模型進行訓練所識別的詞匯,這種提取方式很大程度上受到模型的限制,耗費大量時間且關鍵詞提取不精確。深度神經網絡可以對此進行優化,深度神經網絡不但可以自動特征提取,而且可以根據大數據分析提取更為精確的關鍵詞,從而實現語音助手更加智能化的一項新挑戰。
深度神經網絡在語音助手識別技術發展中帶來了巨大貢獻的同時,也有較多不足,需要不斷的創新及進步。例如在深度神經網絡進行大數據分析時,它并不能夠對不同性別同一問題給出不同的結果,以及不同年齡對同一問題的理解深度。對此,語音識別模型訓練需要更加完善更加智能。深度神經網絡的技術為語音助手技術更好的發展提供了方向,在以后的智能識別中將做出更大的進步。
當前的語音助手還處于發展初期階段,我們需要對其進行更多訓練,更多的在設備上應用,這樣才能更好的提升語音助手識別技術。在科學技術飛速發展的今天,語音助手需要跟上時代進步的步伐,在人們的日常常生活中提供更優質的服務。因此,為了提高人們的日常生活水平,加強深度神經網絡在語音助手技術的模型訓練刻不容緩。未來,深度神經網絡技術的語音助手將不斷完善,語音助手并非只有手機及音箱單一的出路,在客廳及輔助人工智能駕駛領域,語音助手的優點將更加閃耀。