【摘要】深度學習的語音識別技術具備學習、聯想、對比、推理和概括的能力,并且能夠逼近任意的非線性函數、并行化處理信息、容錯能力強等優點。基于深度學習的小學生英語口語能力評價系統理論研究,將深度學習的基本原理與語音信號處理基礎理論的研究結合起來,為評測中小學生英語語音發音提供了新的理論依據。
【關鍵詞】深度學習;英語口語;理論研究
1.研究背景
2016年5月12日,北京教育委員會、中國青少年研究會共同下發了《中國少年兒童英語學習狀況調查白皮書》(下稱《白皮書》)。白皮書公布的一項調查顯示,在隨機抽取的11775名少年中,有59.4%在小學階段就開始接受英語教育;32.8%的未在小學階段學習英語。從《白皮書》的數據我們可以看到兒童英語學習在我國有著低齡化、普遍化和社會化的趨勢。在這種趨勢中,怎樣去規范少年兒童,尤其是中小學生的英語語音發音方式,提高他們的英語語音發音質量,實現我國《義務教育英語課程標準(2017年版)》在中小學階段英語標準的要求,為之后有效的口語交際打下夯實的基礎,將是中小學階段英語學習中一個不可或缺的重要環節。但是由于英語和中文發音特點的差異性、師資的良莠不齊、國內英語學習環境的缺乏以及傳統課堂受時間和地點的制約等種種因素都造成了英語教學和學習的一大堆難題。
隨著社會信息化不斷發展以及計算機技術的普及,越來越多的國內外學者開始進行基于語音識別技術(Automatic Speech Recognition,ASR)的計算機輔助語言學習的研究。利用計算機軟件和硬件開展英語教學,可以有效提高學生的學習效率,幫助學生掌握正確的發音技巧和方法,給學習者營造一個相對專業而輕松的語言學習環境。語音識別技術經歷了動態時間規整算法(Dynammic Time Warping,DTW)到隱馬爾科夫模型(Hidden Markov Model,HMM),再到傳統的人工神經網絡(Artificial Neural Networks,ANN或NN)[1],技術在不斷取得新的發展與進步但同時也進入到了一個瓶頸期。這種瓶頸期的出現,一方面是由于技術的原因,另一方面則是英語語言發音特點和以及語音、語言能力評價指標的設定原因。英語發音通常使用“后部發聲方法”,這與中文慣用的“前部發聲方法”有所不同,需要后部口腔發力,但是這個部位空間相對狹小,舌根運動幅度受到較大限制,這使得英語發音不清晰,不同音之間區別不大。此外,英語發音中還有連讀、弱讀、失去爆破、語調語境等語音現象的存在。我們會發現,由于技術、評判參數與語言特點的不完全融合,有些英語口語水平高的學習者在語音識別系統中的得分不高反低。因此,無論是在技術方面還是在對參數的設定上面,語音識別技術都還有進一步完善的空間。
近年來,隨著大數據、云計算技術的發展,語音識別技術進入了一個新的識別技術領域---深度學習(Deep Learning)。較傳統的語音識別技術,深度學習的語音識別技術具備學習、聯想、對比、推理和概括的能力,并且能夠逼近任意的非線性函數、并行化處理信息、容錯能力強等優點。
2.國內外研究現狀及發展動態分析
2.1國外研究現狀
上世紀五十年代,AT&T貝爾實驗室研發出了一套語音識別系統,到了九十年代之后又產生了SPHINX系統。一直以來,國外都在摸索語音識別技術和口語自動化評估技術。L.Neumeyer (1996)開發了一套語音交互式語言學習系統VILTS,根據SRI語音識別系統Decipher(tm)生成的語音內容來評估用戶發音準確性。[2]系統一共包含四個評估維度:HMM相似性、發音準確性、語音片循環和語速。之后,再根據評估結果對比來給出一個評測分數。H.Franco(1997)重新改進了上述系統,他使用基于HMM的后驗概率提高了系統評測客觀性和正確率。到新世紀之后,隨著信息技術不斷進步,語音識別技術也有很大的改進,NVIDIA公司研發了一套新型計算機處理器,該處理器采用了并行計算結構,大大減少了深度神經網絡語音工作量,利用巨量語音數據庫提升了識別準確性,極大的推動了語音識別技術的發展。比較有代表性的是美國學者Li Deng(2012)等將多條件隨機場應用到了語音識別系統當中;利用深度神經網絡技術改進了馬爾科夫模型運行概率,在此基礎上建模形成了DHH=HMM系統。同傳統GMM-HMM相比效果更顯著,這也是當前語言識別技術發展的最新成果。[3]
在評估方面。從整句提升到了音素層面。SM.Witt(2000)從因素層面開展學習效果評估,這樣做的好處就是能夠及時發現學習者的錯誤發音,對學習者的發音與標準發音差異進行評估,找出其中存在的根本性差異。采用基于相似性的GOP(Goodness of Pronunciation)方法,根據事前設置的平均目標值來統計各個因素參數,并設置閾值進行認定。
總之,國外對于語音和口語評估的研究已經相當深入,除了上述提到的外,還涉及到重音檢測、語音錯誤檢測、韻律等方面。
2.2國內研究現狀
國內的研究雖然起步較晚,但是近幾年來發展很快,研究水平也取得了很大的進步。蘇鵬飛(2006)提出了“英語口語評估算法研究”[4],該研究采用SPHINX-4自動語音識別系統,對英語口語連讀部分和易混淆音部分進行評估算法,直接把英語口語的評估深入到具體語法領域。陳一寧(2009)對英語口語學習中的語音識別技術進行了改良與發展,采用HMM技術建立語音識別模型,生成語音Viterbi解碼,利用后驗概率識別發音效果,最后對照專家數據庫糾正發音錯誤,并建立了融整合解碼、評分與糾錯于一體的語音評價系統。這種技術已在上海交大與SHARP株式會社共同推進的“世博英語口語學習”項目中普及。
2013年,百度成立了深度學習研究院,這極大的拓展了深度學習研發領域。2014年底,百度首席技術官吳恩達發布了新技術深度語音識別(Deep Speech),之后語音助手也面世。百度宣布DNN(Deep Neurual Network)將會在百度語音助手中應用,這就是深度學習在語音服務上的實踐,他們采用基于DNN的模型代替原有的基于高斯混合(Gaussian Mixture Models,GMM)的模型對共有語音與服務后臺進行升級,升級后將識別范圍允許的次錯率降低了10%,優于谷歌Speech AP、Wit.AI、微軟Bing Speech[5]。除此之外,深度語音識別開始也逐漸運用在英語學習和教學中。張爽等在原有的單因子和三銀子模型上添加韻律因素,構建了韻律模型方法,從而改進發音質量評價性能;蘇鵬飛通過對連讀和易混淆音兩個英語口語重要特征構建評價模型來研究英語口語中的評估算法;李靖等(2008)在語音發音模型中引入了高斯混合模型和全局背景模型(UBM)算法,建立了一套全新的英語發音評價程序。實踐表明,在采集到的語音數據庫當中,這種算法相似性達到0.7,大大高于其他評分程序[6]。
總之,隨著科技公司紛紛開展相關研究,以及技術不斷進步,深度學習與語音識別捆綁日益緊密,這也是未來社會發展趨勢和方向,具有廣闊的應用前景。
3.已有現狀評述
首先,目前我國人工智能技術正在飛速發展,語音識別也將會走向更廣闊的應用空間。深度學習作為一種現代智能技術,為語音識別提供了高準確度、高速度的計算模式和方法,為智能語音交互創造了新的機遇。
其次,國內外有關深度學習技術在英語音識別技術上的研究還處于起步和不斷完善的階段,主要體現在:對英語語種特點的把控度不高,這就造成了在進行語音識別研究時,對英語語音單個因素識別技術的研究多,而忽略了英語口語能力的評測并非是單個發音因素的整合體;對評價參數精準度的分析不透,現有的研究參數相對單一,不夠合理;研究對象的籠統化忽略了群體之間由于生理和心理特征造成的發音差異。
因此,基于深度學習的中小學生英語語音與口語能力評價系統研究是針對中小學生采取深度學習神經網絡技術建立語音識別模型,采用以語塊為最小的英語口語評價單位,對他們的英語語音發音質量進行監控與評價從而提高英語語音、口語教學效率的研究。它可以大大提高語言信息處理能力,提升用戶獲取信息的效率,讓學習者有更好的用戶體驗。
4.研究意義
4.1理論意義
第一,本研究將會在參考大量文獻資料的基礎上,通過對中小學生英語語音和口語現狀進行調查,發現問題,分析問題,提出以語塊為最小評價單位的多參量英語語音評價體系,一定程度上揭示了中小學生英語語音發音的特殊性和規律性,豐富了英語語音教學理論。
第二,本研究將會基于深度學習的視角對語音識別做出更為細化的研究,將深度學習的基本原理與語音信號處理基礎理論的研究結合起來,為評測中小學生英語語音發音提供了新的方法。
4.2實踐意義
第一,本研究將會幫助中小學生注意英語口語表達過程中出現的英語語音現象,例如連讀、失去爆破等,并及時更正英語語音發音錯誤,避免錯誤經多次重復而成為習慣,為學生提供更高效、更有趣的語言學習環境,從而極大提高了中小學生英語學習效率,充分調動起學生學習英語的積極性,將獲得很大社會效益和市場價值。
第二,本研究將會幫助英語教育者甚至家長提供一個簡便、高效的英語語音發音質量和英語口語能力的測評平臺,讓中小學英語教師和家長對學生的英語語音學習和口語能力的提高有一個科學、全面的認識,促進學生在中小學階段的英語學習。研究結果還可以運用在中小學生語音、口語能力測試中。
參考文獻:
[1]張瑞.英語語音合理性優化識別建模仿真研究[J].計算機仿真,2017,34(2):289-292.
[2]梁穎紅,曹軍.文本語塊識別典型方法的比較與分析[J].計算機技術與發展,2008,18(11):76-79.
[3]趙丹,鐘楠.在線連續交互式英語語音智能識別系統設計[J].現代電子技術,2017,40(15):137-140.
[4]肖紅英.大學生預制語塊識別能力與閱讀理解水平的關聯性研究[D].贛南師范學院,2011.
[5]戴禮榮,張仕良,黃智穎.基于深度學習的語音識別技術現狀與展望[J].數據采集與處理,2017,32(2):221-231.
[6]單敏.深度學習視閾下的英語發音質量和語音識別探微[J].湖北函授大學學報,2017,30(20):174-175.
基金項目:文章系2019年湖南省自然科學基金青年基金項目《基于深度學習的小學生英語口語能力評價系統研究》(編號2019JJ50679)結題成果。
作者簡介:胡薇,女1982年7月出生,漢族,湖南益陽,長沙師范學院,碩士,副教授,研究方向:小學英語教學和教師教育。