金豪圣
(國網浙江省電力有限公司信息通信分公司,浙江杭州 310000)
近幾年,隨著智能機器人技術的不斷發展,人們將各種不同的信息輸入到智能機器人中。當前,大部分的語音處理軟件都是在收到聲音之后,利用云計算服務或者語言分析引擎或者模型來尋找與聲音相符合的詞語。并且通過用戶接口查詢一個或者更多的詞匯,使用戶能夠確定智能機器人語音是否正確,如果用戶確定語音是對的,就直接輸出;如果用戶確定語音是錯的,就把正確的語音輸入到語言分析引擎中,以便對話音分析機制進行再訓練。但是,該系統的不足之處在于,它必須時刻向使用者提問,從而對語言分析模式進行修正,因此造成使用者的不便。目前提出的基于深度前編碼卷積網絡的校準方法,首先構建語音序列模型,通過該模型判斷語音序列長度敏感度。然后使用深度卷積神經網絡構建語音校準模型,并對音頻頻譜特征進行分析和前編碼處理。最后通過提取深層特征緩解建模壓力,實現對語音的精準校準[1]。提出的一種多尺度前向注意力模型的校準方法,首先建立正向注意力模型,通過計算不同時間點的注意力分數,使模型得到最優解。然后根據該模型將多尺度正向注意力與多層次語音相結合,并將所得的多層次目標矢量進行融合,解決了注意力分數異常情況,從而實現了語音的校準[2]。然而,目前使用的校準方法容易受到用戶多樣性意圖和多樣任務執行的適應性影響,導致語音校準結果不精準。為此,提出了基于深度學習的智能機器人語音自動校準系統,實現用戶多樣性意圖和多樣任務執行之間的松散耦合。
為了解決智能機器人語音信號的采集要求采用了模數變換,以提高采樣效率,一般采用150 kHz 以上的頻率,實現語音自動校準[3-4]。A/D 轉換電路的校準是智能機器人語音轉換的重要環節,它可以從電路中獲取原始的語音信號,從而提高系統自動糾錯語音的準確性[5]。A/D 轉換使用多核頻振蕩器集成了智能A/D 取樣結果,該過程所需的采樣芯片由I2C 總線提供15 V 的輸出電壓。一般情況下,采用4路15 比特A/D 電路轉換器進行并聯和串行控制,以保證A/D 變換電路輸入電壓穩定[6]。在設計語音精度數據采集電源時,采用115 V 的數字信號處理(DSP)板對電容進行濾波處理。通過模擬信號發射范圍進行同步采樣,由此完成語音自動校準引擎A/D 電路的設計。
使用一種緊湊型嵌入式音頻接收器,該接收器結構如圖1 所示。

圖1 音頻接收器結構
由圖1 可知,音頻接收器結構主要是由后箱、主板、前蓋、USB 組成,其中后箱的中間部分是一個底部箱,底部箱的開口前面設有一個容納底部箱的空間,底部箱的前面設有一個卡邊,該卡邊包含一個固定盤,并且在固定盤的第一個螺絲孔上設有一個固定片[7];固定片與主板連接,該主板置于底部盒體的容納空間,并與該底部箱體的背面固定相連,該USB插口固定在該主板的前端;前蓋設置在后箱的前面,在前蓋的上、下各有一個螺絲孔,在蓋子上也有一個正方形的階梯孔,這個階梯孔由一個前階梯孔和一個后面階梯孔組成[8];前蓋通過第一螺孔、第二螺孔以及后箱體被緊固;USB 前端被封入背景臺階孔中,可用作頂板支承[9]。
基于深度學習的智能機器人語音自動校準流程設計如下所示:
步驟1:通過對歷史語音資料的語音識別,將其轉化為拼音語句的文本數據集,并通過修正語句中的文本數據集獲得正確的語句文本樣本集[10]。
步驟2:采用深度學習建立校正模型,校正模型建立的詳細步驟如下所示:
1)校正模型輸入部分的構建
將所有拼音按照字母順序依次排列,形成拼音詞典。利用拼音詞典對步驟1 中的拼音語句文本數據集xp進行編碼處理,由此得到輸入校正模型的部分內容。對于所得的輸入內容中每個樣本都具有一個n維的稀疏矩陣,利用word2vec 對輸入樣本進行詞嵌入訓練處理,得到訓練后的矩陣[11]。
對于輸入的樣本文字位置,使用正弦和余弦函數進行編碼處理,公式為:
式(1)中,w表示文字位置;n表示維度。在獲取位置編碼后,將位置編碼和嵌入矩陣依次疊加,得到輸入樣本集合[12]。將得到的輸入樣本集合輸入到注意力模型中,該模型可表示為:
式(2)中,q表示查詢矩陣;c表示密鑰矩陣;u表示價值矩陣;dc表示注意力維度;cT表示密鑰矩陣的轉置[13]。將注意力模型輸入到前饋神經網絡中進行訓練,基于深度學習的前饋神經網絡結構如圖2所示。

圖2 基于深度學習的前饋神經網絡結構
由圖2 可知,通過該結構的訓練結果能夠得到一個特征矩陣,由此完成校正模型輸入部分的構建。
2)校正模型輸出部分的構建
將拼音語句文本數據集xp作為輸入樣本集,經過編碼處理步驟獲取漢字詞典[14]。利用該詞典對語句文本樣本集xc進行編碼處理,并將處理后的結果進行詞嵌入訓練,得到有位置編碼的標簽嵌入矩陣[15]。在該部分需要使用兩個注意力模型,將這兩個模型堆疊后輸入到前饋神經網絡中,并將該網絡的輸出作為sottmax函數的輸入值,由此得到一個概率。選擇概率最大的為預測結果,通過與詞典對比,能夠得到相應的文字,完成校正模型輸出部分的構建;
步驟3:對所選語句的樣本進行編碼,得到所需的樣本;通過對輸入的樣本采用字嵌入的方法獲得標記的嵌入矩陣;輸入的是一個輸入的樣本集,而輸出的是一個嵌入的矩陣;通過訓練步驟2 得到的修正模型,得到一個已修正的模型[16]。
步驟4:采用了基于輸入模型的數據處理方式,對待糾正的語音進行了矢量化,并將其輸入到經過訓練的修正模型中,得到了相應的修正文本,由此獲取智能機器人語音自動校準結果。
為了驗證基于深度學習的智能機器人語音自動校準系統設計合理性,進行了如下實驗。
通過語音識別技術,實現了多源音頻的匹配,實驗環境設置為:
1)配置PXI-6713 語音播放通道,系統以15 MHz以下的頻率自動采集音頻;
2)采用VPP 標準設備,對語音進行識別,在整個校準過程中,語音識別精度不小于5 位;
3)由于語音信號的輸入頻段很寬,所以在語音采集時,必須采用五個信道進行同步和異步輸入;
4)在低功率工作方式下,A/D 轉換率在150 kHz以上,總線傳送的解析度必須達到10 位[17-19]。
實驗平臺設計如圖3 所示。

圖3 實驗平臺
由圖3 可知,這項任務是操控一個微型的智能機器人,它能通過接收語音到處走動。智能機器人利用ARM 微控制器與話筒同步進行語音采集與識別,并依據識別結果對其進行控制。
對智能機器人下達的語音指令是:1)后退1.5 m,將垃圾扔進垃圾箱內;2)向前行駛2 m,清掃桌子底下的灰塵。獲取語音指令后,對音頻數據進行參數化整理,如圖4 所示。
由圖4 可知,語音指令下達后出現的振幅有可能是噪聲,但不對整個音頻產生影響。
分別使用基于深度前編碼卷積網絡的校準系統、多尺度前向注意力模型的校準系統和基于深度學習的智能機器人語音自動校準系統進行對比分析,兩種指令下音頻顯示結果如圖5-6 所示。

圖5 指令1下音頻顯示結果
由圖5 可知,使用基于深度前編碼卷積網絡的校準系統與圖4(a)振幅波動情況不一致,其波動范圍為12~18 dB;使用多尺度前向注意力模型的校準系統與圖4(a)振幅波動情況不一致,其波動范圍為5~25 dB;使用基于深度學習的智能機器人語音自動校準系統與圖4(a)振幅波動情況一致,其波動范圍為9~22 dB。
由圖6 可知,使用基于深度前編碼卷積網絡的校準系統、多尺度前向注意力模型的校準系統與圖4(b)振幅波動情況不一致,波動范圍分別為11~19 dB、14~16 dB;使用基于深度學習的智能機器人語音自動校準系統與圖4(b)振幅波動情況一致,其波動范圍為7~21 dB。

圖6 指令2下音頻顯示結果
通過上述分析結果可知,使用基于深度學習的智能機器人語音自動校準系統能夠精準校準語音。
該文提出的基于深度學習的智能機器人語音自動校準系統,利用深度學習法訓練音頻樣本,解決了由于語音識別過程復雜,使用傳統的校準方法難以發現發音差異性的問題。實驗結果表明,該系統的設計是合理的,具有較高的可靠性。在后期,從均衡網絡計算復雜性的角度考慮,改進了校準結果的準確性。