鄭瑞珺
(四川外國語大學國際關系學院,重慶 400031)
英語口語是英語國家人民普遍應用的口頭交流語言形式。英語發音的準確和流利決定了英語口語的效果,目前有很多英語發音校準方式。文獻[1]中設計了一種改進動態特征參數的話者語音識別校準系統,該系統容易被語音環境干擾,對英語發音的識別準確性低;文獻[2]中設計的嵌入式實時英語語音識別系統,缺乏虛擬語言學習環境以及學生和教師間的交互溝通,存在校準準確率低、學生學習英語發音效果差的弊端;文獻[3]中設計的倫敦英語口語語料庫發音校準系統,只能校準倫敦口語發音,局限性大。根據以上的問題,設計基于虛擬現實(Virtual Reality,VR)的英語發音校準仿真系統,提升英語發音校準準確性,提高學生的英語發音水平。
基于VR的英語發音校準仿真系統的總體結構用圖1 描述。采用Client/Server 體系結構構建VR 的發音校準仿真系統,系統主要由客戶端和服務器端模塊構成,用戶在互動界面、獲取用戶命令、與用戶進行互動都通過客戶端模塊完成[4];服務器端模塊用于收集用戶命令同時對命令響應、防止虛擬場景異常運行、有效處理虛擬仿真場景業務[5]。基于TCP/IP 協議的JavaSocket通信技術支撐系統客戶端模塊和服務器端模塊間的信息通信[6]。

圖1 系統總體結構
由圖1 可見,客戶端模塊包含:
(1)用戶登錄模塊。實現用戶登錄操作,將虛擬仿真形象提供給用戶挑選,讓用戶成為虛擬人物加入虛擬環境練習英語發音[7]。
(2)環境設計模塊。教師端可操作該模塊[8],教師設計英語對話環境的時間、地點、人物等內容,這些功能由服務器端的環境庫處理模塊實現。
(3)環境選擇模塊。用戶想加入的環境在環境列表挑選,私人方式和共享方式組成了加入方式[9]。環境中除用戶的人物外,其他全部為虛擬人物為私人方式,此方式可讓學生在一個安全的環境學習和校正英語發音。環境中除用戶的人物與虛擬人物還有其他用戶的人物,具有共享特征,可讓不同用戶分享英語發音知識[10]。
(4)環境顯示模塊。用戶進行英語發音學習的環境通過虛擬現實建模語言(Virtual Reality Modeling Language,VRML)的瀏覽器解釋產生。
(5)用戶互動模塊。輸入、輸出接口通過本模塊提供給用戶[11]。本模塊擁有圖形化的瀏覽器界面與多媒體交互界面,虛擬環境里的場景、道具、模擬人物和用戶的人物通過以上2 個界面傳遞給用戶。用戶進行英語發音學習的模式分為觀看、試驗和向導3 種。
由圖1 可見,服務器端模塊包含:
(1)整體處理模塊。該模塊可對數據庫后臺進行處理,如處理系統后臺的資料庫、場景庫、用戶庫等。客戶端模塊獲取的指令與腳本通過此模塊解析,整體處理模塊控制服務器端每個模塊間的通信,并發送環境虛擬現實建模語言(Virtual Reality Modeling Language,VRML)文件[12]。
(2)環境庫處理模塊。對建成的環境素材實施管理。素材使用3DMAX 等建模工具構建,構建后通過VRML文件存儲為VRML格式文件[13]。
(3)VRML場景構建模塊。采用環境庫處理模塊獲取用戶挑選的英語發音學習場景素材,將素材放在合適的控制節點,構建用戶英語發音學習的VRML場景。
(4)虛擬人物處理模塊。虛擬人物的創建、注銷和基礎動作掌控通過此模塊實現,外界刺激時虛擬人物發出相對動作。
(5)環境處理模塊。環境里每個要素的邏輯關系、時間關系、空間關系的準確性和統一性通過此模塊完成[14]。
(6)互動處理模塊。系統傳輸的用戶控制命令通過此模塊獲取,事件采用VRML提供的檢測器節點發生[15]。人物的狀態變化和動作變化通過虛擬人物處理模塊和環境處理模塊完成,實現用戶和場景及虛擬人物的互動。
基于VR的英語發音校準仿真系統進行英語發音校準的流程用圖2 描述。

圖2 發音校準流程
由圖2 可知,發音校準的具體流程:首先識別用戶的登錄身份,如果是教師則進入環境設計模塊;如果是學生則進入環境選擇模塊;如果是非法用戶則將用戶信息輸出并結束運行。學生選擇環境后根據自己的意愿選擇想要練習英語發音的人物和參與方式,如果選擇環境里的旁觀學習模塊,則學生以旁觀的形式觀看虛擬人物之間的英語對話;如果選擇私人環境里的實驗學習模塊,則學生選擇對話里的一個人物與其他虛擬人物對話;如果選擇私人環境里的向導學習模塊,則學生學習英語發音時會由一個虛擬人物指導英語發音;如果選擇共享環境,則讓學生選擇對話的虛擬人物或其他用戶虛擬人物;對話完成后如果不想繼續對話則結束對話,如果想繼續對話則重新選擇英語發音人物和參與方式;用戶每次發送英語發音時實施發音校準,由虛擬人物提示的方式將發音校準信息發送給用戶。
系統將后驗概率算法引入英語發音識別系統,對英語音素段強制對齊切分,采用因素后驗概率驗證本文算法的準確度。后驗概率是系統在接收音素片段后,其接收的片段內容信息與發送片段信息的完整概率,與信息似然度成正比。當音素后驗概率為1 時,則證明算法能夠準確判斷算法具有較高準確性,強制對齊切分后的英語音素段后驗概率
式中:qi為i時刻的給定音素;qj為j時刻的給定音素,j=1,2,…,M;yj為時刻的觀察量;P(qi)為其概率分布;M為總音素的數目。假設在i時刻到j時刻之間,所有音素模型出現的概率均相等,即P(qj)=P(qi),則切分后的英語音素段的后驗概率
因為P(qi)=P(qj),所以
但僅僅依靠判斷音素來對學生英語發音進行分析的方法存在單一性,效果并不精準。本文設計的系統在進行語音識別的過程中,會受到各種因素的影響造成英語語音識別不準確。如果嚴格按照對數似然度進行英語發音識別,其效果并不能達到最優。
本文對上述情況進行了改進,由于音素對數似然度的范圍為-∞~+∞,過大的范圍造成了英語語音識別的不穩定性,為此,采用最終置信度來判斷輸出數據的真實性。最終置信度是指在置信數據樣本區間內的音素信息是否真實,也用于驗證語音矯正系統數據輸出的可信度,對數似然度最終置信度值
式中:PLLRrank1(ot)為針對音素模型ER 的對數似然度值;PLLRrankER(ot)為所測語音段與音素模型分別求取PLLR(ot)中排名第1 的PLLR(ot)值;RankER為觀測序列ot與音素模型ER 的PLLR(ot)值在因素模型中的排名;α為常數,與音素排名和音素模型的PLLR(ot)值有關。如果存在一個參數的值,使得其函數值達到最大的話,那么這個值就是最為“合理”的參數值。本文α取值為0.09。觀測序列與音素模型ER 的Confc為1,其他情況下小于1。通過式(3),使每一個音素模型的置信度值限定在[0,1]之間,可通過為每個音素設定門限值,對語音矯正系統輸出數據進行辨別,通過音素最終置信度的值來確定每個英單詞所涉及的元音音素和輔音音素的發音是否準確。
系統對數據進行填充處理和屬性規劃后可采用滅錯計算校準發音,對英語發音語言進行規范化處理
式中:W、b分別為英語發音的震動音頻和震動的波峰極值;P、qj分別為震動的波谷極值和音頻的有效周期律;A、NG分別為聲音在介質中傳播的振幅和英語發音的規范振幅;M、Q分別為音頻總時長和發音期間的震動時長。當A固定,音頻總時長大于震動時長時,英語發音的振動音頻達到最大極值。音調與響度逐漸趨于固定時,音準也逐漸趨于穩定。英語發音語音通過以上方式實施規范處理后實施口語數據填充。口語數據填充量是系統中的口語數據在外界信號干擾下出現離散現象,系統需要對離散數據進行補償,還原初始的口語數據量,口語數據填充量
式中:βi離散值越大,反映變量值越分散,發音越不穩定;ω′、D分別為填充最大化的權值函數差和兩個音頻節點之間的跳數;音頻里節點x和節點y之間的最短路線為λxy。
屬性規劃在填充處理數據后實施,填充過程為
式中,Sx、m分別為評定音頻的標準和恒定音頻固定周期的參量。滅錯校準運算對屬性實施標定:
式中:Bij、R分別為相對音頻的匹配系數和進階音頻擁有的高程權值;當R 越大,AT和U-1越小時,V 越大,擁有高的校準率結果。量度音符通過音頻的固定斜動性AT完成,使用音頻屬性的合集熵U-1對音頻校準,音頻滅錯校準最大值為V,通過音頻滅錯校準值來判斷英語發音的準確性,由V 值的變化確定學生發音的校準率變化情況。
使用本文系統和嵌入式實時英語發音校準系統校準某校2020 級1、2 班共30 名學生的英語發音,對兩種系統的魯棒性實施對比,結果顯示如圖3 所示,分析該圖可得,本文系統的魯棒性比嵌入式實時英語發音校準系統平均高0.2。可知,本文系統魯棒性高,系統穩定性強。基于上述公式的計算,本文系統對英語語音發音校準準確率為95.36%,使用該系統對英語語音發音的流利度與正確性進行校準的準確率較高,效果較好。

圖3 兩種系統的魯棒性對比
實驗利用spss13.0 軟件統計使用本文系統校準英語發音的實驗班(1 班)和采用嵌入式實時英語發音校準系統校準英語發音的對照班(2 班)的英語考試成績,兩個班級的人數都是15 人,統計結果見表1。

表1 最高與最低分數對比
結果顯示,實驗班各項考試的最高分數都在96 分以上,英語對話的最高分數為98 分,而對照班各項考試的最高分數在72 分以上,短篇口語的最高分數是74 分;實驗班各項考試的最低分數都在84 分以上,而對照班各項考試的最低分數在40 分以上;數據結果說明,使用本文系統校準英語發音的實驗班成績明顯高于對照班,本文系統能夠顯著提高學生的英語發音能力。
教師對采用本文系統和嵌入式實時英語發音校準系統學習的實驗班和對照班學生英語發音學習效果進行評價,評價結果如圖4 所示。

圖4 教師評價結果
圖4 結果顯示,教師認為采用本文系統進行英語口語發音校準后的實驗班學生的自信心、發音流利度以及語法正確性等指標的評分都達到90 分以上,而對照班的各項指標評分都低于60 分,說明本文系統的能夠多方位提升學生英語發音的學習效果,教師滿意度高。
實驗對本文系統和嵌入式實時英語發音校準系統的實際使用情況進行問卷調查,問卷調查內容是試驗學生對兩個系統的滿意度打分情況。本文系統明顯比嵌入式實時英語發音校準系統好,能顯著提高學生學習英語發音的積極性,具有較高的滿意度。
本文設計的基于VR 的英語發音校準仿真系統,并通過實驗仿真對本文系統英語發音校準的準確率、學生學習效果和老師評價效果進行了全面檢測分析。實驗結果顯示,本文系統對英語語音發音校準準確率高達95.36%,系統的魯棒性比嵌入式實時英語發音校準系統平均高0.2;實驗班考試最高成績平均都在92 分以上,并且教師認為本文系統能夠多方位提升學生英語發音的學習效果。實驗結果說明,本文系統具有較高的英語發音校準率,顯著提高學生的英語學習能力,達到了學生和教師的期待效果。