朱可財 陶博翔 柯楠凱





摘要:語音識別技術可以使發音學習軟件具有發音反饋功能,幫助學習者及時糾正錯誤發音,從而使學習者避免因多次重復而形成錯誤的發音習慣。本文介紹利用人工智能、語音識別技術開發出具有發音跟讀、發音評價、發音糾正等功能的方言發音訓練系統,旨在實現各地方言發音學習的智能化、普及化和便攜化,在一定程度上提高方言學習者發音水平。
關鍵字:方言學習;語音識別;人工智能
1?項目背景
國人走南闖北,方言學習有利于加強各地人文交往,但方言發音成為大家方言學習中的一個難題,究其原因,主要在于以下 3 個方面:
(1)各地方言在發音方法上有很大的差異。在非母語環境下長大,在學習方言時會犯許多自己很難察覺的發音錯誤,如果在開始學習時不及時糾正往往形成等很不標準的方言。
(2)缺乏合格的方言教學老師。即便是在大中城市的中小學,也缺乏發音標準同時能準確指導口語發音的方言教學老師。一般多媒體教學,只能單方面進行傳授,教師很少能夠針對學生的特定情況進行互動方言教學,因而也起不到很有效的作用。
(3)缺少練習方言口語的時間和環境。語言是一種交流的方式,最重要的是多發音多練習,但是在傳統的方言學習中,人們往往花費大量時間在方言讀寫上,而在口語發音上缺少時間上的保證和練習的機會。當前市場上的方言學習軟件,大多側重方言讀、寫等能力的提高。僅有的一些口語發音學習軟件功能比較單一,只能進行簡單的發音跟讀等操作,缺少對學習者發音的有效反饋,訓練效果不夠理想。
2 項目實現內容
基于語音識別技術的方言學習系統的主要功能是以動畫、聲音、圖片和文 字的形式實現方言的發音學習和訓練,能夠實現對學習者發音的有效反饋,指導和糾正學習者不斷訓練、提高方言發音水平,并提供友好、直觀和簡介的操作界面。根據需求分析,確定系統的功能主要包括:
(1)發音示范。發音示范是指在進行發音學習時,首先播放標準的發音口型動畫視頻或標準的發音聲音,同時配合發音口型結構圖和介紹文字等使學習者對本發音有正確 認識,能夠全面的了解發音的要點,口型及舌位的運動特點等。
(2)發音跟讀。發音跟讀是學習者進行口語發音的主要練習途徑,系統首先播放正確的發音動畫或發音聲音,然后提示學習者進行跟讀;學習者依照提示跟讀此發音,同時系統錄制學習者發音至手機內存以便后續處理。
(3)發音對比。系統首先播放標準發音的口型動畫視頻或聲音,然后播放已錄制的學習者發音。發音對比功能主要是通過對標準參考發音和學習者發音進行對比,使得使用者對發音和標準音之間的差距有直接的了解。
(4)發音評分。發音評分是系統的核心功能之一,主要利用語音識別技術及相關的發音評分算法,對學習者的發音結果有一個定量的評價,準確可靠的發音評分能夠使得學習者對自己的發音成績有準確的認識,進而不斷改進發音,提高自己的發音水平。
(5)發音結果的圖像顯示。發音結果的圖像顯示主要是以圖像的形式反饋對比學習者發音與標準發音。系統采用發音共振峰對比圖來反映標準發音和學習者發音共振峰的不同,根據共振峰與發音口型舌位的關系,參考圖在一定程度上也反映了學習者發音與標準發音的發音口型和舌位的運動特點。
通過對系統的功能需求進行分析,最終確定系統的核心應包括以下幾大模塊:語音錄制模塊、語音及視頻播放模塊、基于AP 的發音評分模塊、發音共振峰的圖像顯示模塊。
2.1評分模塊設計
系統評分模塊采用基于 AP 的發音評分技術,模塊包括評分參數生成部分和發音評分部分,負責評分參數的自適應生成及對學習者發音的正確評分,兩者工作流程圖如圖所示。
首先,分別對測試發音和標準參考發音進行預處理。預處理包括對發音的預加重、分幀加窗,端點檢測等過程。測試發音和標準發音經預處理后,再進行特征提取和模式匹配計算,系統應用MFCC 特征參數和 DTW 動態時間規整的方法。經過上述處理后,可以得到測試發音和標準參考發音的幀平均匹配距離。
2.2 反饋模塊設計
發音共振峰的圖像顯示模塊主要負責以圖形化的形式描繪標準參考發音和學習者發音隨時間的共振峰變化情況,從而定性的反映兩者在發音口型上的差異。經過預處理、FFT 變換、共振峰提取等過程的處理,系統得到了學習者發音和標準參考發音的共振峰信息。為了將此共振峰信息以圖形化的方式在移動終端上顯示,系統利用Android 圖表引擎 AchartEngine。AchartEngine 是一個針對Android程序開發的開源圖表生成類庫,支持折線圖、柱狀圖、餅狀圖等,利用此類庫系統能夠顯示發音共振峰對比圖。
3 關鍵技術
3.1語音識別方法
項目根據模式匹配技術原理,先將已知語音信號的特征矢量作為模板存入模板庫,經過特征提取,將輸入待測語音的特征矢量與模板庫中的參考模板進行相似度比較,最終得出識別結果。語音識別主要過程包括:預處理,特征提取,模式匹配等。圖是基于模式匹配原理的自動語音識別系統的原理框圖。
3.2 語音信息化特征提取
對語音信號進行預處理后,還需要對信號進行特征提取。特征提取部分負責計算和提取反映信號特征的關鍵參數,通過少量的參數來有效的描述語音信號,以便進行后續處理。對信號進行特征提取,不僅突出了模式匹配的數據特征,提高了系統的識別率,而且對信息進行了壓縮,降低了系統的儲存量和運算量。
3.3基于自適應參數的評分機制
在基于單參考模板的評分方法中,進行評分運算時,評分參數a和b需要結合專家經驗評分結果來確定。已有的發音評分系統都是通過系統仿真和測試等方法,針對某個特定的計算機或硬件平臺不斷調試修改,來確定a和b的值,系統一旦完成,a和b的值無法更改。這種方法有一定的局限性,就是確定的評分參數往往只適合所測試的平臺系統,一旦所用的平臺或語音采集外設等更換,評分參數就會變得不再準確,評分結果也不再可靠。考慮到Android手機的硬件差異比較大,這種方法對于系統的應用和普及是很不利的。
為了解決上述評分方法中評分參數固定的局限性,本文提出了一種基于自適應參數 (adaptive parameter,AP)的評分方法,旨在實現系統的平臺自適應,提升系統的兼容性, 提高評分機制的可靠度和準確性。 基于AP的評分方法是對于基于單參考模板評分方法的改進,這里定義基于AP的評分算法為:
其中 x 和 y 為自適應參數。進行評分運算時的參數x和y不是確定的,而是可以隨計算機或 硬件設備的不同而自適應變化的。自適應參數x和y是通過系統的自適應訓練而生成的,具體的計算流程如圖所示。
系統在進行發音評分之前,有單獨的評分參數生成模塊來生成自適應參數。在評分參數生成模塊中,學習者針對若干個語音進行發音,同時專家對學習者的發音進行經驗評分。這 樣,對于每個發音來說,MFCC 幀匹配距離和相應的專家評分會一一對應。設所有訓練發音 的 MFCC 幀平均匹配距離的集合為 A={d1,d2,...di,...dn},對應的專家評分集合為 B={s1,s2,... si,...sn}。由此便得到了幀匹配距離和專家評分的 n 對數據,并且它們滿足如下關系:
為了求出參數 x和 y,可以采用最小二乘曲線擬合的方法得到 x和y的最佳值,理論上樣本空間越大,得到的擬合函數也越精確。但是由于評分參數生成模塊是在Android手機平臺上實現的,系統對計算的實時性要求較高,對于參數的精確度要求相對來說不高。為了盡量簡化評分參數生成的過程,降低計算量,系統選取5個語音樣本來訓練,并從中選取最合適3個樣本來進行計算,這樣就能夠快速的計算出參數x和y的估計值,從而進行評分運算。
由于評分參數生成模塊和發音評分模塊位于同一手機設備上,發音評分的運算參數是在進行發音學習前根據專家打分訓練生成的,產生的評分參數反應了當前系統硬件平臺的特性,評分成績與專家經驗評分有很高的相似度。因此,基于AP的方法具有很強的自適應性、較高的準確度和可靠性,同時大大提高了系統的兼容性。
4結語
本系統實現了基于移動端,利用相關人工智能、語音識別技術開發出一套具有發音跟讀、發音評價、發音糾正等多功能的方言發音訓練系統,旨在實現各地方言發音學習的智能化、普及化和便攜化。經測試,本系統發音評分準確度較高,發音糾正有效率達到 80%,能在一定程度上提高方言學習者發音水平。
[參考文獻]
[1]黃威,石佳影.基于深度神經網絡的語音識別研究[J].現代計算機,2016,(7).20-25.
[2]邢安昊,張鵬遠,潘接林,等.基于SVD的DNN裁剪方法和重訓練[J].清華大學學報(自然科學版),2016,(7).772-776.doi:10.16511/j.cnki.qhdxxb.2016.21.043.
[3]莫媛媛,郭劍毅,余正濤,等.基于深層神經網絡(DNN)的漢-越雙語詞語對齊方法[J].山東大學學報(理學版),2016,(1).77-83.doi:10.6040/j.issn.1671-9352.3.2014.289.
[4]張池.移動端環境感知系統中深度神經網絡的應用[D].電子科技大學,2017.1-102.
[5]王振宇.嵌入式平臺下語音識別技術的研究[D].貴州大學,2017.1-76.
[6]弓彥婷.基于聲譜圖顯著性檢測的音頻識別[D].合肥工業大學,2015.1-54.
[7]郭勝強.基于深度學習的跨領域語音識別研究[D].重慶郵電大學,2017.
[8]趙天坤.基于深度神經網絡的音樂信息檢索[D].北京郵電大學,2015.1-70.
本文為2020年浙江省大學生新苗計劃創新項目(項目編號: 2020R454004)研究成果之一,2019年浙江工商職業技術學院大學生創新項目(項目編號: 0020603708)研究成果之一
浙江工商職業技術學院?朱可財,陶博翔,柯楠凱