【摘要】文章針對現在我國俄語教學中發音教學的不足,提出使用自動語音分析技術輔助俄語發音學習,設計了一個具有示范、評分反饋功能的俄語單詞發音學習輔助系統。文章詳細的描述了系統功能、基本框架,給出了系統實現中的關鍵技術。最后,使用VC 6.0實現了一個演示系統,并進行了簡單測試。
【關鍵詞】自動語音分析;俄語發音;MFCC;計算機輔助教學
【中圖分類號】G420 【文獻標識碼】B 【論文編號】1009—8097(2010)07—0091—03
引言
隨著國際交流的不斷發展,人們已經越來越多地意識到外語學習和使用的重要性。非母語語言的教學已經成為當前教育教學領域的一個熱點。俄語作為世界上最豐富的語言之一,由于歷史及地理原因在我國受到的關注程度遠遠超越了除英語以外的其他語種。
語言作為一個交流工具,能夠正確標準的發音是現代語言教學與學習的一個重要目標。在發音學習中,有效的反饋是必不可少的一個重要環節。在傳統的課堂教學中教師是一個有效的反饋源,然而由于課堂時間和教師資源都是有限的,不能保證每個學生的發音都能得到有效的反饋。另外,語言的發音學習是需要反復訓練的,這也是傳統課堂教學方式所不能提供的。在發音習時,學生需要一個“教師”隨時隨地的對自己的發音進行有效的反饋和指導。
計算機輔助語言學習(CALL,Computer-Aided Language Learning)技術[1]的興起和發展為語言發音教學提供了新的途徑。CALL是指在一定的語言學和心理學的理論基礎上,利用計算機和信息技術輔助外語學習。結合自動語音分析技術的CALL可以用來進行輔助發音學習,學習者可以隨時隨地的得到即時的有效反饋,根據反饋信息及時調整改進自己的發音,有效的彌補了傳統課堂語言教學中發音反饋的不足。
俄語和漢語屬于不同的語系,它們發音習慣有著很大的不同。目前我國對基于語音處理技術的發音學習的研究主要集中在英語教學[2][3]和對外漢語教學[4][5]中,對于俄語發音的研究尚未見于文獻。本文采用自動語音分析技術,設計了一個具有示范、評分功能的俄語單詞發音學習系統。
一 系統介紹
1 基本功能
本文設計的基于自動語音分析技術的俄語單詞發音輔助學習系統包括了示范和評分反饋兩個主要功能:
(1)示范。系統顯示當前單詞、音標、中文意思及標準發音,學習者可以反復的收聽系統中存儲單詞的標準發音;
(2)評分反饋。學習者可以跟讀,將自己的發音和系統的中標準發音比較,系統自動給出評分反饋,并給出標準發音和學習者發音的波譜圖對比。
2 系統框架
根據系統的基本功能,系統的基本框架設計如圖1所示:
系統預先在數據庫中存儲單詞的標準發音,并提取其特征,本文使用MFCC(Mel頻率倒譜系數)作為語音特征。系統獲取學習者語音后,首先將其和數據庫中標準語音在時間上對齊,然后提取特征并計算和數據庫中標準發音的相似度,最后將相似度映射為學習者較易理解和接受的等級評分。
3 與其他系統的不同
本文設計的系統和其他文獻中提到的基于語音分析技術的發音學習系統[2][3][4][7]的不同主要體現在以下幾個方面:
(1)本系統使用的技術不是語音識別技術,并不識別學習者發音的含義,而是采用語音分析技術,分析判斷學習者發音和系統存儲的標準語音的相似度給出評分反饋;
(2)本系統的設計旨在指導學習者學習俄語單詞的發音,是屬于語音分析技術中的孤立詞分析,孤立詞分析技術相對于整句的分析的技術較為成熟,這增加了系統的可行性;
(3)本系統數據庫使用標準語音數據庫,并沒有進行語料庫的訓練,直接根據相似度評價打分,降低了系統的復雜性,這是因為本系統僅僅面向于俄語單詞發音的輔助學習。
二 系統關鍵技術
1 端點檢測
端點檢測是指在有背景音的情況下,找出實際語音的開始點和結束點,是語音分析領域的一個基本問題。在孤立詞的分析識別中,尤為重要,正確的端點檢測不僅是正確語音分析的必要前提,同時也能提高系統的運行速度。
本系統旨在指導學習者學習俄語單詞發音,因此屬于孤立詞語音分析。這種情況下,單詞的起始和結束位置較為明顯,因此本文使用較為簡單的音量法和過零率檢測方法進行端點的檢測。音量檢測為主,過零率檢測為輔,過零率的引入能有效的消除對氣音的誤判。
2 特征選取
特征的選擇和提取是語音分析系統的一個重要部分,特征選取的合適與否將直接影響到整個系統的性能。在語音分析輔助俄語發音系統中,語音特征的選取還體現著評分的意圖和側重,這是因為所選取的特征將被用來比較作為評分依據。
在語音分析領域,常用的特征主要有短時幀平均能量、幅度、短時幀過零率,LPCC(線性預測倒譜系數)和MFCC(Mel到譜系數)等。其中MFCC考慮了人耳的聽覺特性,具有良好的識別特性和抗噪特性,能較好的體現語音的內容,因而本文選擇其作為語音特征。MFCC參數的提取流程過程如圖2所示:
3 MFCC計算流程
首先對系統捕獲的原始語音信號S(n)進行預加重、分幀、加窗等預處理,得到每個語音幀的時域信號X(n)。然后對X(n)實施DFT(離散傅里葉變換)得到線性頻譜X(k)。接著計算X(k)的能量譜,使用一組Mel尺度的三角形濾波器在頻域對能量譜進行帶通濾波。求取每個濾波器組輸出的對數能量S(m),對S(m)進行DCT(離散余弦變換)最終得到MFCC參數。
4 評分算法(相似度度量)
發音水平的衡量評分方法是俄語發音學習系統中使用到的另一項關鍵技術,不合理的評分算法會對發音給出錯誤的評分,對學習者造成誤導。發音水平的計算機評分結果要可靠,要求盡可能的和現實專家(老師)對發音的評分保持一致。
現有評估發音質量的主要方法有:段分類評分、段時長評分等、HMM對數似然度評分和對數后驗概率評分。它們的原理都是以標準發音為模板,通過計算學習者發音和這些模板之間相似度進行的。本文中系統是對單詞發音的孤立詞語音分析,因此段分類評分和段時長評分不適用本系統。以往的研究結果[3][8]表明,對數后驗概率評分具有最好的健壯性,因此本文選取其作為俄語發音學習系統的評分算法。
下面對后驗概率評分算法進行簡單的介紹【9】。
對于音素 ,給出與其相關的第i段語音的每一幀 ,計算 基于幀的后驗概率得:
其中, 為給定音素q下觀測到的 的概率分布,在分母上, 為音素q的先驗概率,M為當前語料中與文本無關的音素總數。
音素 在第i段語音每一幀下的后驗概率取對數,然后逐幀累加,就可以得到音素 在第i段語音下的對數后驗概率得分:
其中 表示音素 所對應的第i段語音的起始時間。整個單詞的后驗概率打分,定義為單詞或句子中所有音素段的對數后驗概率按音素長度歸一化后的平均值,為:
其中,N為單詞的總音素數, 為第i個音素持續的幀數。
對數后驗概率評分具有很好健壯性,受學習者個體說話特征或聲音通道的變化影響較小,它能更好的反映學習者的發音與標準發音之間相似度,因此,它是目前使用最普遍的一種發音測度方法。
使用對數后驗概率評分得到的分數不夠直觀,不便于學習者理解和接受,因此需要將該得分映射為一個概略的得分。系統將對數后驗概率得分映射到A、B、C、D、E五個等級。為了鼓勵學習者學習,評分最高的(和標準語音相似度)的35%都映射為等級A(非常標準),同時為了督促學習者更好的掌握標準語音,評分最低后35%都被映射為等級E(非常不標準,建議學習重讀)。當用戶發音得分等級為D或E時,提示用戶發音不合格,建議跟隨標準發音重新學習。
三 系統實現
我們使用VC6.0實現了一個簡單的基于語音分析的俄語單詞發音學習演示系統,實現了文中提出的基本功能,系統界面截圖為圖3所示。
系統界面主要分為兩個部分,左邊部分為單詞區,顯示的是系統內有標準發音的單詞列表(本演示系統使用的標準發音取自高等教育出版社出版的《大學俄語簡明教程》隨書攜帶的MP3)。單擊左邊窗口的單詞,系統將會讀出標準發音。
系統界面的右邊半部分為信息顯示區。當學習者選擇開啟跟讀學習模式時,在標準發音結束3秒鐘內,學習者跟讀,系統比較學習者發音和標準發音給出評分。系統同時給出了標準發音和學習者發音的波譜圖對比,直觀的顯示了學習者發音和標準發音的不同。
我們在小規模小范圍的情況下對本演示系統進行了測試,測試結果顯示本系統對俄語單詞學習具有一定的指導意義,并能夠幫助學習者提高俄語單詞發音的準確性。
目前實現的僅僅是一個小規模的演示系統,要將系統應用于實際教學中,需要對系統注冊單詞的規模及對學習者友好交互性設計等方面加以改進。
四 結束語
隨著計算機和語音處理技術的不斷發展,利用自動語音分析技術對學習者在學習非母語時進行發音指導成為計算機輔助教學一個熱點問題。它能夠有效的解決外語學習課堂上教師和時間資源的有限性,作為反饋源隨時隨地對學習者發音進行指導。
本文利用自動語音分析技術對俄語單詞發音學習進行指導,設計并實現了一個小規模演示系統。本文工作是語音分析技術和俄語教學的一個有效契合點,對語音技術和俄語教學的進一步結合發展具有較強的參考意義。
參考文獻
[1] Mark Warschauera and Deborah Healya. Computers and language learning: an overview[J].Language Teaching,2009,(12):57-71.
[2] 黃驍勇.語音識別技術在英語發音學習中的應用研究[D].南京:東南大學,2007.
[3] 趙博.語音識別應用于計算機輔助語言學習的研究[D].上海:上海交通大學,2009.
[4] 施偉,謝湘.一種基于語音識別的漢語發音評價系統[A].中國計算技術與語言問題研究——第七屆中文信息處理國際會議論文集[C].北京:電子工業出版社,2007: 621-625.
[5] 呂軍,曹效英.基于語音識別的漢語發音自動評分系統的設計與實現[J].計算機工程與技術,2007,28(5):1232-1235.
[6] 李璐.語音識別的拼音學習中發音識別和評分模塊的系統設計[J].黑龍江科技信息,2010,(1):5-5.
[7] France,H.,Neumeyer,L.,Kim,Y.,Ronen,0.,1997.automatic pronunciation scoring for language instruction[A].
Proceedings of ICASSP’97[C].Munich,Germany,April 1997.
[8] 高國棟.語音接口在漢語學習寓教于樂系統中的應用[D].北京:北京交通大學,2009.