周紅鍇



摘? 要: 由于孤立詞語音自動識別技術具有操作簡便,方便日常生活的特點,因此該文設計基于單片機控制的孤立詞語音自動識別系統。系統采用型號為SH86270主控單片機接收由SH69P848AM芯片控制的語音識別電路輸出結果,通過A/D轉換器得到離散數字語音信號,將孤立詞語音信號轉換為電信號,再經A/D轉換器轉換為數字信號后輸入系統進行預處理。采用動態時間規整算法獲取距離最短語音信息,得到孤立詞語音識別結果。實驗結果表明,該系統具有較好的聲學相似性,可有效識別出測試的孤立詞語音信號與標準信號的最小距離,識別率和濾除干擾率均很高,識別時間短,識別效果顯著。
關鍵詞: 孤立詞語音識別; 系統設計; 電路設計; 語音信號獲取; 信號轉換; 信號預處理
中圖分類號: TN876?34; TU855? ? ? ? ? ? ? ? ? 文獻標識碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)18?0064?03
Abstract: As the isolated?word speech recognition technology has the characteristics of easy for operation and convenient for daily life, an isolated?word speech recognition system based on SCM (single chip microcomputer) control is designed. In the system, the SH86270 SCM is used to receive the output results of speech recognition circuit controlled by SH69P848AM chip, the discrete digital speech signal is obtained by A/D converter, and the isolated?word speech signal is converted into the electrical signal and then is converted into digital signal by A/D converter for inputting into the system for preprocessing. The speech information with the shortest distance is obtained by means of the dynamic time warping algorithm to gain the results of the isolated?word speech recognition. The experimental results show that the system has better acoustic similarity, can effectively recognize the minimum distance between the tested isolated?word speech signal and the standard signal, has high recognition rate, high interference filtering rate, short recognition time, and remarkable recognition effect.
Keywords: isolatedword speech recognition; system design; circuit design; speech acquisition; signal conversion; signal preprocessing
0? 引? 言
語音識別功能正慢慢地走進人們的生活[1],語音識別技術中的孤立詞語音識別技術已應用到多種領域當中,孤立詞語音識別技術在智能建筑、車庫開啟等方面較為常見,比如密碼鎖的開啟、電視語音換臺、圖書館語音搜索圖書、手機導航語音查找等[2],這些功能的廣泛應用使孤立詞語音識別技術更加貼近人們的生活,尤其對殘疾人或是老年人的生活有很大幫助。但孤立詞語音自動識別技術的算法相對繁瑣,給研究人員帶來了工作難度。因此,該文設計基于單片機控制的孤立詞語音自動識別系統。該系統的主控單片機選擇Sinowealth公司生產的SH86270型號單片機,同時選擇該公司SH69P848AM型號的芯片完成語音識別過程,該芯片內部集成優化過的孤立詞語音識別算法,可促進語音自動識別任務的高效完成。
1? 孤立詞語音自動識別系統設計
1.1? 硬件電路設計
主控制器電路和語音識別電路共同構成硬件電路,采用SH86270主控單片機控制SH69P848AM芯片,SH69P848AM芯片控制語音識別電路,同時控制語音識別電路,輸出結果也由SH86270主控單片機處理,該單片機利用總線進行監控[3]。
1.1.1? 控制器電路
將SH86270主控單片機看成一個控制器,采用精簡指令集計算機結構,在該結構內設置256 KB FLASH,SH86270主控單片機由于自身的高性能和低能耗在語音自動識別系統中具有很大的優勢,且可將其看成是一種8位微處理器。
1.1.2? SH69P848AM語音識別電路
SH69P848AM芯片集成語音識別處理器、濾波電路、A/D轉換器、聲音輸出接口等[4],將SH69P848AM芯片的迷你磁盤設置為高電平,SPIS為低電平,SDI,SDO等都是SPI總線的引腳,中斷端口為INTB,發現識別結果與MP3數據不一致后,中斷端口會發生中斷[5]。此時,主控單片機接收到中斷信號后處理該中斷信號。
1) 濾波電路
濾波電路負責過濾掉語音輸入時存在的噪聲,當上截頻為3 380 Hz、下截頻為58 Hz時,傳遞到多單片機系統的數據錯誤率很低,單片機計算的繁雜程度被大幅度降低[6]。為了排除數字信號的干擾,后置濾波通常會通過巴特沃斯濾波電路,實現語音的準確回放[7]。
2) A/D和D/A轉換
該系統以ADl674作為A/D轉換芯片,D/A轉換需要通過選擇DA5651A作為電流輸出性轉換器,并外接一個轉換電路,得到模擬電壓的輸出[8]。SH86270主控單片機存在一個P0口,將該P0口當成D/A轉換器的數據傳遞口,P2.3口會接收到SH86270主控單片機發出的輸入寄存選擇信號CS,且當P2.3口輸出低電平時,向SH86270主控單片機傳達模擬轉換命令,使該單片機完成模擬轉換。
1.2? 系統軟件設計
1.2.1? 孤立詞語音識別的基本原理
語音信號被A/D轉換器轉換為數字信號,看成系統輸入[9]。系統對其進行抗混疊濾波、分幀、加窗等預處理,預處理后開始端點檢測、特征提取等,完成后開始訓練和識別處理。訓練過程中某語音單元會被多次重復[10],系統選擇多個特征信號,組成標準信息庫;語音信息全部錄入到系統中,系統將提取的特征信息與標準信息庫中的特征信息進行對比,選擇最相似的語音信息即為識別結果。
1.2.2? 語音識別算法
時間規整和距離測度計算相融合的動態時間規整算法(Dynamic Time Warping)即為DTW算法。標準信息匹配過程中,對彎折斜率存在一定限制,使外部的格點相應的幀匹配距離無需計算[11]。當對格點進行計算時,每一列格點的匹配計算只需要用到前一列的4個網格,對于產生的幀匹配距離矩陣以及累積距離矩陣均無需保留。以上算法可以降低DTW算法的繁雜程度,減少對存儲空間的要求,使計算更加高效。當將動態彎折分為三部分時,分別設置為(1,[ma]),([ma]+1,[mb]),([mb]+1,P),式中:
假設[ma]和[mb]的取值均為相近的整數,因此獲取Q和P相應長度的限制條件為:
當[ma]和[mb]的取值并不符合以上條件時,則可判定[ma]和[mb]取值的差距較大,動態彎折匹配無法實現。此時,x軸上的語音幀只需與y軸上[ymin,ymax]的語音幀相對比,則ymin和ymax為:
2? 實驗分析
2.1? 孤立詞語音識別結果
實驗選取含有350個孤立詞的小系統詞表,采用文中系統對孤立詞表進行語音識別,識別前需訓練所有待識別的孤立詞,設置參加訓練人數為15人,未參加訓練人數為12人,采用文中系統對孤立詞語音信號進行識別。訓練孤立詞與未訓練孤立詞的部分語音識別結果如圖1所示。
由圖1可知,采用本文系統識別經過訓練的孤立詞語音信號時,識別率均超過95%,未經訓練的孤立詞語音信號的識別率最高僅為86.58%;采用文中系統識別多人訓練的孤立詞語音信號時,識別時間最高為0.57 s,但未經訓練的信號識別時間最高達到0.78 s。顯然,經過訓練的孤立詞樣本不僅識別率高,且識別時間短。因此,該文系統可識別出經過訓練的孤立詞樣本和未經過訓練的孤立詞樣本,但針對于經過訓練的孤立詞樣本,其語音識別效果更好。
在實際的孤立詞語音識別過程中,針對未經訓練的孤立詞樣本識別率低且用時多的問題,可通過增大樣本數增加識別率,縮短識別時間。
2.2? 孤立詞識別效果
選取PC機錄制的語音信號,且設定采樣頻率為7 600 kHz,量化存儲為7 bit,語音信號為PCM格式且單聲道。通常語音信號的平穩幀長為12~32 ms,為了降低計算的繁雜性,文中系統選用的幀長P和幀移Q的語音點分別為256和128。
指定一人讀取數字“1~5”,將該語音錄制下來,作為測試的孤立詞語音信號,采用文中系統識別測試的孤立詞語音信號與標準信號間的距離,如表1所示。
表1中,行為測試的孤立詞語音信號,列為標準信號。由該表可知,測試的孤立詞語音信號中的“1~5”與標準信號中的“1~5”中每一個對應的數字均存在最小距離,而且表格形成對角線方向的距離值最小,由此可知,該文系統具有較好的聲學相似性,識別效果更為明顯。
以上面的錄制數字實驗為依據,指定一人發出“開機”“關機”“東方衛視”“中央五套”“音量降低”5個孤立詞的發音,將該組發音作為測試的孤立詞語音信號,采用文中系統識別測試的孤立詞語音信號與標準信號間的距離,如表2所示。
由表2可知,與錄制數字孤立詞語音識別實驗一樣,本文系統有效地識別了表格所形成對角線方向的距離值最小。因此文中系統的識別效果明顯。
2.3? 孤立詞識別性能
為了驗證文中系統在孤立詞識別性能方面的優勢,分別采用HMM非特定人孤立詞語音識別系統、基于ZCPA和DHMM的孤立詞語音識別系統,以及文中系統對上文實驗中的5個孤立詞的發音進行識別,比較3個系統的識別性能,如表3所示。
由表3可知,采用HMM非特定人孤立詞語音識別系統、基于ZCPA和DHMM的孤立詞語音識別系統以及文中系統識別實驗中的5個孤立詞時,文中系統無論在識別率、識別時間,還是濾除干擾率方面都表現出了良好的優勢。
3? 結? 論
孤立詞語音自動識別技術不僅使日?;顒痈鼮楸憬?,而且使生活設備更加現代化。該文系統通過單機片控制整個孤立詞語音自動識別系統,結合語音信號預處理、端點檢測、特征提取等技術,完成孤立詞語音自動識別過程。結果表明,文中系統無論在孤立詞的語音識別率、識別時間,還是濾除干擾率方面效果明顯,因此文中設計系統具有廣闊的發展前景。
參考文獻
[1] 侯一民,李永平.基于卷積神經網絡的孤立詞語音識別[J].計算機工程與設計,2019,40(6):1751?1756.
[2] 許良鳳,劉泳海,胡敏,等.語譜圖改進完全局部二值模式的語音情感識別[J].電子測量與儀器學報,2018,32(5):25?32.
[3] 李璨,王讓定,嚴迪群.基于卷積神經網絡的翻錄語音檢測算法[J].計算機應用,2018,38(1):79?83.
[4] 李云紅,梁思程,賈凱莉,等.一種改進的DNN?HMM的語音識別方法[J].應用聲學,2019,38(3):371?377.
[5] 姜芃旭,傅洪亮,陶華偉,等.一種基于卷積神經網絡特征表征的語音情感識別方法[J].電子器件,2019,42(4):998?1001.
[6] 劉明珠,李曉琴,陳洪恒.基于支持向量機的語音情感識別算法研究[J].哈爾濱理工大學學報,2019,24(4):118?126.
[7] 韓燕燕,程衛軍.基于北斗系統的語音通信終端設計與實現[J].電視技術,2017,41(z4):167?171.
[8] 陳哲懷,鄭文露,游永彬,等.標簽同步解碼算法及其在語音識別中的應用[J].計算機學報,2019,42(7):1511?1523.
[9] 張曉冰,楊啟亮,邢建春,等.面向軟件模糊自適應的語音式任務目標識別與結構化轉換[J].計算機工程,2018,44(4):59?65.
[10] 潘瑋,汪靜瑩,劉天俐,等.基于語音的抑郁癥識別[J].科學通報,2018,63(20):2081?2092.
[11] 艾斯卡爾·肉孜,王東,李藍天,等.說話人識別中的分數域語速歸一化[J].清華大學學報(自然科學版),2018,58(4):337?341.