朱可財 陶博翔 柯楠凱





摘要:語音識別技術可以使發(fā)音學習軟件具有發(fā)音反饋功能,幫助學習者及時糾正錯誤發(fā)音,從而使學習者避免因多次重復而形成錯誤的發(fā)音習慣。本文介紹利用人工智能、語音識別技術開發(fā)出具有發(fā)音跟讀、發(fā)音評價、發(fā)音糾正等功能的方言發(fā)音訓練系統(tǒng),旨在實現(xiàn)各地方言發(fā)音學習的智能化、普及化和便攜化,在一定程度上提高方言學習者發(fā)音水平。
關鍵字:方言學習;語音識別;人工智能
1?項目背景
國人走南闖北,方言學習有利于加強各地人文交往,但方言發(fā)音成為大家方言學習中的一個難題,究其原因,主要在于以下 3 個方面:
(1)各地方言在發(fā)音方法上有很大的差異。在非母語環(huán)境下長大,在學習方言時會犯許多自己很難察覺的發(fā)音錯誤,如果在開始學習時不及時糾正往往形成等很不標準的方言。
(2)缺乏合格的方言教學老師。即便是在大中城市的中小學,也缺乏發(fā)音標準同時能準確指導口語發(fā)音的方言教學老師。一般多媒體教學,只能單方面進行傳授,教師很少能夠針對學生的特定情況進行互動方言教學,因而也起不到很有效的作用。
(3)缺少練習方言口語的時間和環(huán)境。語言是一種交流的方式,最重要的是多發(fā)音多練習,但是在傳統(tǒng)的方言學習中,人們往往花費大量時間在方言讀寫上,而在口語發(fā)音上缺少時間上的保證和練習的機會。當前市場上的方言學習軟件,大多側重方言讀、寫等能力的提高。僅有的一些口語發(fā)音學習軟件功能比較單一,只能進行簡單的發(fā)音跟讀等操作,缺少對學習者發(fā)音的有效反饋,訓練效果不夠理想。
2 項目實現(xiàn)內容
基于語音識別技術的方言學習系統(tǒng)的主要功能是以動畫、聲音、圖片和文 字的形式實現(xiàn)方言的發(fā)音學習和訓練,能夠實現(xiàn)對學習者發(fā)音的有效反饋,指導和糾正學習者不斷訓練、提高方言發(fā)音水平,并提供友好、直觀和簡介的操作界面。根據(jù)需求分析,確定系統(tǒng)的功能主要包括:
(1)發(fā)音示范。發(fā)音示范是指在進行發(fā)音學習時,首先播放標準的發(fā)音口型動畫視頻或標準的發(fā)音聲音,同時配合發(fā)音口型結構圖和介紹文字等使學習者對本發(fā)音有正確 認識,能夠全面的了解發(fā)音的要點,口型及舌位的運動特點等。
(2)發(fā)音跟讀。發(fā)音跟讀是學習者進行口語發(fā)音的主要練習途徑,系統(tǒng)首先播放正確的發(fā)音動畫或發(fā)音聲音,然后提示學習者進行跟讀;學習者依照提示跟讀此發(fā)音,同時系統(tǒng)錄制學習者發(fā)音至手機內存以便后續(xù)處理。
(3)發(fā)音對比。系統(tǒng)首先播放標準發(fā)音的口型動畫視頻或聲音,然后播放已錄制的學習者發(fā)音。發(fā)音對比功能主要是通過對標準參考發(fā)音和學習者發(fā)音進行對比,使得使用者對發(fā)音和標準音之間的差距有直接的了解。
(4)發(fā)音評分。發(fā)音評分是系統(tǒng)的核心功能之一,主要利用語音識別技術及相關的發(fā)音評分算法,對學習者的發(fā)音結果有一個定量的評價,準確可靠的發(fā)音評分能夠使得學習者對自己的發(fā)音成績有準確的認識,進而不斷改進發(fā)音,提高自己的發(fā)音水平。
(5)發(fā)音結果的圖像顯示。發(fā)音結果的圖像顯示主要是以圖像的形式反饋對比學習者發(fā)音與標準發(fā)音。系統(tǒng)采用發(fā)音共振峰對比圖來反映標準發(fā)音和學習者發(fā)音共振峰的不同,根據(jù)共振峰與發(fā)音口型舌位的關系,參考圖在一定程度上也反映了學習者發(fā)音與標準發(fā)音的發(fā)音口型和舌位的運動特點。
通過對系統(tǒng)的功能需求進行分析,最終確定系統(tǒng)的核心應包括以下幾大模塊:語音錄制模塊、語音及視頻播放模塊、基于AP 的發(fā)音評分模塊、發(fā)音共振峰的圖像顯示模塊。
2.1評分模塊設計
系統(tǒng)評分模塊采用基于 AP 的發(fā)音評分技術,模塊包括評分參數(shù)生成部分和發(fā)音評分部分,負責評分參數(shù)的自適應生成及對學習者發(fā)音的正確評分,兩者工作流程圖如圖所示。
首先,分別對測試發(fā)音和標準參考發(fā)音進行預處理。預處理包括對發(fā)音的預加重、分幀加窗,端點檢測等過程。測試發(fā)音和標準發(fā)音經預處理后,再進行特征提取和模式匹配計算,系統(tǒng)應用MFCC 特征參數(shù)和 DTW 動態(tài)時間規(guī)整的方法。經過上述處理后,可以得到測試發(fā)音和標準參考發(fā)音的幀平均匹配距離。
2.2 反饋模塊設計
發(fā)音共振峰的圖像顯示模塊主要負責以圖形化的形式描繪標準參考發(fā)音和學習者發(fā)音隨時間的共振峰變化情況,從而定性的反映兩者在發(fā)音口型上的差異。經過預處理、FFT 變換、共振峰提取等過程的處理,系統(tǒng)得到了學習者發(fā)音和標準參考發(fā)音的共振峰信息。為了將此共振峰信息以圖形化的方式在移動終端上顯示,系統(tǒng)利用Android 圖表引擎 AchartEngine。AchartEngine 是一個針對Android程序開發(fā)的開源圖表生成類庫,支持折線圖、柱狀圖、餅狀圖等,利用此類庫系統(tǒng)能夠顯示發(fā)音共振峰對比圖。
3 關鍵技術
3.1語音識別方法
項目根據(jù)模式匹配技術原理,先將已知語音信號的特征矢量作為模板存入模板庫,經過特征提取,將輸入待測語音的特征矢量與模板庫中的參考模板進行相似度比較,最終得出識別結果。語音識別主要過程包括:預處理,特征提取,模式匹配等。圖是基于模式匹配原理的自動語音識別系統(tǒng)的原理框圖。
3.2 語音信息化特征提取
對語音信號進行預處理后,還需要對信號進行特征提取。特征提取部分負責計算和提取反映信號特征的關鍵參數(shù),通過少量的參數(shù)來有效的描述語音信號,以便進行后續(xù)處理。對信號進行特征提取,不僅突出了模式匹配的數(shù)據(jù)特征,提高了系統(tǒng)的識別率,而且對信息進行了壓縮,降低了系統(tǒng)的儲存量和運算量。
3.3基于自適應參數(shù)的評分機制
在基于單參考模板的評分方法中,進行評分運算時,評分參數(shù)a和b需要結合專家經驗評分結果來確定。已有的發(fā)音評分系統(tǒng)都是通過系統(tǒng)仿真和測試等方法,針對某個特定的計算機或硬件平臺不斷調試修改,來確定a和b的值,系統(tǒng)一旦完成,a和b的值無法更改。這種方法有一定的局限性,就是確定的評分參數(shù)往往只適合所測試的平臺系統(tǒng),一旦所用的平臺或語音采集外設等更換,評分參數(shù)就會變得不再準確,評分結果也不再可靠??紤]到Android手機的硬件差異比較大,這種方法對于系統(tǒng)的應用和普及是很不利的。
為了解決上述評分方法中評分參數(shù)固定的局限性,本文提出了一種基于自適應參數(shù) (adaptive parameter,AP)的評分方法,旨在實現(xiàn)系統(tǒng)的平臺自適應,提升系統(tǒng)的兼容性, 提高評分機制的可靠度和準確性。 基于AP的評分方法是對于基于單參考模板評分方法的改進,這里定義基于AP的評分算法為:
其中 x 和 y 為自適應參數(shù)。進行評分運算時的參數(shù)x和y不是確定的,而是可以隨計算機或 硬件設備的不同而自適應變化的。自適應參數(shù)x和y是通過系統(tǒng)的自適應訓練而生成的,具體的計算流程如圖所示。
系統(tǒng)在進行發(fā)音評分之前,有單獨的評分參數(shù)生成模塊來生成自適應參數(shù)。在評分參數(shù)生成模塊中,學習者針對若干個語音進行發(fā)音,同時專家對學習者的發(fā)音進行經驗評分。這 樣,對于每個發(fā)音來說,MFCC 幀匹配距離和相應的專家評分會一一對應。設所有訓練發(fā)音 的 MFCC 幀平均匹配距離的集合為 A={d1,d2,...di,...dn},對應的專家評分集合為 B={s1,s2,... si,...sn}。由此便得到了幀匹配距離和專家評分的 n 對數(shù)據(jù),并且它們滿足如下關系:
為了求出參數(shù) x和 y,可以采用最小二乘曲線擬合的方法得到 x和y的最佳值,理論上樣本空間越大,得到的擬合函數(shù)也越精確。但是由于評分參數(shù)生成模塊是在Android手機平臺上實現(xiàn)的,系統(tǒng)對計算的實時性要求較高,對于參數(shù)的精確度要求相對來說不高。為了盡量簡化評分參數(shù)生成的過程,降低計算量,系統(tǒng)選取5個語音樣本來訓練,并從中選取最合適3個樣本來進行計算,這樣就能夠快速的計算出參數(shù)x和y的估計值,從而進行評分運算。
由于評分參數(shù)生成模塊和發(fā)音評分模塊位于同一手機設備上,發(fā)音評分的運算參數(shù)是在進行發(fā)音學習前根據(jù)專家打分訓練生成的,產生的評分參數(shù)反應了當前系統(tǒng)硬件平臺的特性,評分成績與專家經驗評分有很高的相似度。因此,基于AP的方法具有很強的自適應性、較高的準確度和可靠性,同時大大提高了系統(tǒng)的兼容性。
4結語
本系統(tǒng)實現(xiàn)了基于移動端,利用相關人工智能、語音識別技術開發(fā)出一套具有發(fā)音跟讀、發(fā)音評價、發(fā)音糾正等多功能的方言發(fā)音訓練系統(tǒng),旨在實現(xiàn)各地方言發(fā)音學習的智能化、普及化和便攜化。經測試,本系統(tǒng)發(fā)音評分準確度較高,發(fā)音糾正有效率達到 80%,能在一定程度上提高方言學習者發(fā)音水平。
[參考文獻]
[1]黃威,石佳影.基于深度神經網絡的語音識別研究[J].現(xiàn)代計算機,2016,(7).20-25.
[2]邢安昊,張鵬遠,潘接林,等.基于SVD的DNN裁剪方法和重訓練[J].清華大學學報(自然科學版),2016,(7).772-776.doi:10.16511/j.cnki.qhdxxb.2016.21.043.
[3]莫媛媛,郭劍毅,余正濤,等.基于深層神經網絡(DNN)的漢-越雙語詞語對齊方法[J].山東大學學報(理學版),2016,(1).77-83.doi:10.6040/j.issn.1671-9352.3.2014.289.
[4]張池.移動端環(huán)境感知系統(tǒng)中深度神經網絡的應用[D].電子科技大學,2017.1-102.
[5]王振宇.嵌入式平臺下語音識別技術的研究[D].貴州大學,2017.1-76.
[6]弓彥婷.基于聲譜圖顯著性檢測的音頻識別[D].合肥工業(yè)大學,2015.1-54.
[7]郭勝強.基于深度學習的跨領域語音識別研究[D].重慶郵電大學,2017.
[8]趙天坤.基于深度神經網絡的音樂信息檢索[D].北京郵電大學,2015.1-70.
本文為2020年浙江省大學生新苗計劃創(chuàng)新項目(項目編號: 2020R454004)研究成果之一,2019年浙江工商職業(yè)技術學院大學生創(chuàng)新項目(項目編號: 0020603708)研究成果之一
浙江工商職業(yè)技術學院?朱可財,陶博翔,柯楠凱