【摘要】文中以近些年自動語音識別技術在大學非英語專業音素教改中的融入為研究基礎,通過分析目前大學非英語專業因素教改中存在的問題,探討大學非英語專業因素教改中自動語音識別技術的應用優勢并引入案例嘗試分析如何提升自動語音識別技術在大學非英語專業音素教改中應用的有效性等。
【關鍵詞】大學非英語專業 音素教改 自動語音識別技術 融合
【中圖分類號】G64 【文獻標識碼】A 【文章編號】2095-3089(2018)08-0094-02
一、大學非英語專業因素教改中存在的問題
目前,絕大多數高校在非英語專業英語教學的過程中,并沒有關于朗讀質量的及時有效反饋源,如此也導致學習者發音中的錯誤無法被及時糾正。大學非英語專業音素教改的傳統應用手段基本可將文字與語音融合為一體,從語音習得入手,糾正學習者錯誤發音,規范學習者音素應用方式等。此種教學方式的確卓有成效,但是按照新時期大學非英語專業音素教改的要求,顯然是不夠的。
語音作為語言習得的重要物質基礎,利于學習者更為便捷的捕捉語言信息并掌握語言技巧。基于語言教學中語音教學的重要性作用,在大學非英語專業的音素教改中,就需要將其視為獨立的部分進行針對性的分析,繼而結合大學非英語專業語言習得要求、標準等,著手相關方案或者措施的設計。在此過程中,為提升大學非英語專業學生語言習得的主動性和積極性,建議嘗試在大學非英語專業音素教改中融合自動語音識別技術,以此來提升語音教改向每個學習者提供及時反饋需求及個體練習等的服務性。
二、大學非英語專業因素教改中自動語音識別技術的應用優勢
盡管計算機輔助語言學習技術可幫助增加大學非英語專業音素教改的成效,但是如果計算機輔助語言學習技術選擇及應用不當,或者忽視學生實際學情,依然無法保障大學非英語專業音素教改成效。
但是自動語音識別技術(ASR)可以讓計算機通過“聽”不同人連續的和階段性的說出的語音,在電腦中“寫”出所說內容的方式,與人工判斷比較,自動語音識別技術不僅能完成聲音向文字的轉換,按照使用需求,自動語音識別技術可依照系統用戶情況分為特定和特定人的識別系統,按照系統詞匯量可分為大詞、中詞、小詞的匯量系統,按照輸入語音發音方式可分為自然發音的口語式和朗讀式兩種,按照輸入語音方言背景可分為方言語音、方言背景普通話、普通話三類識別系統,按照輸入語音情感狀態可分為情感語音識別系統及中性系統,借助以上功能優勢,自動語音識別技術一方面可清晰的辨識出不同方言影響下非英語專業習得者發音的不夠標準化所引發的問題,幫助語言習得者和教師及時糾正及檢測語言習得給定的音素發音錯誤。
另一方面,自動語音識別技術能便捷使用,具有強大數據分析能力及計算能力,能對學習者一對一自主分析性功能,在語音識別技術輔助下可實時檢測學習者發音錯誤并提供糾正意見,能輔助學生及教師獲得反映發音質量的指標,不依賴固定或者特定地點和時間的跨平臺自動語音識別技術,因此,作為計算機輔助語言學習技術中的佼佼者,則以其可及時、實時總結學生弱點,推薦針對性強化訓練方案等優勢勝出。
三、大學非英語專業音素教改中自動語音識別技術的應用思路
鑒于國人在英語朗讀和發音時容易出現的不標準、不規范錯誤,在大學非英語專業音素教改中引入自動語音識別技術時,建議按照大學非英語專業音素教改要求以及音素應用規則,有選擇的使用自動語音識別技術及載體,進行實驗數據錄制和分析,系統衡量指標并建設基本音素檢錯系統等。具體設計及應用的思路如下:
第一步,實驗數據的錄制及分析。
考慮到大學非英語專業音素教改中自動語音識別技術的應用方式多樣,自動語音識別技術所依賴的載體也多種多樣,因此,以下以嵌入式設備如智能手機作為自動語音識別技術應用的載體,實驗語音數據錄入使用自帶麥克風的PDA。朗讀文本選擇英語900句作為語料,錄制每人20句,實驗人隨機抽選大學非英語專業學生45人。年齡集中在20-25歲之間。
在明確錄制要求和對象之后,按照英語專家所設定的朗讀數據語素正確發音標準及標注,定義音素發音情況為三類,如漏讀、錯讀、正確。在系統衡量指標并建設基本音素檢錯系統之前,以簡化模型為目標,增讀暫時忽視,標注統計結果如下:
專家1音素發音標注結果中正確17468、錯讀519、漏讀402;
專家2音素發音標注結果中正確17202、錯讀713、漏讀474。
第二步,確定系統衡量指標。
按照衡量系統總體性能進行兩大重要指標的界定,即準確率和召回率,以專家1標注結果為標準,計算準確率和召回率分別為59%和69%。公式為:
召回率=系統檢測出的錯誤數量/測試集中的音素數量?鄢100%
針對計算結果進行分析可得,正確發音在所選語料中占大多數,兩位專家標注的結果類似,漏讀和錯讀的比率類似,這意味著大學非英語專業學生英語發音時容易漏讀音素而不是音素發音錯誤。
第三步,建立基本音素檢錯系統。
大學非英語專業音素教改中自動語音識別技術的應用到此階段,需要使用音素發音自動檢錯技術來輔助大學非英語專業音素教改的實踐應用。判斷工作流程為,按照音素序列自動切分朗讀句子,所切分的為每個音素對應的語音小片段,之后進行小片段發音質量的判斷,此處可引入音素發音質量COP輔助構建系統。在實踐應用中,音素切分網絡可直接使用朗讀文本對應的音素序列作為切分網絡,在聲學模型選擇方面,建議使用目前自動語音識別中慣常使用的HMM模型,發音數據則選擇標準英文發音數據,升學特征參數選擇MEL頻率倒數系數MFCC,音素識別列表方面按照常見的競爭子集。
按照以上的操作方式,在部分音素競爭子集的選擇階段,需要依照語音學和聲學經驗,客觀規律中每個音素模型間的相似度和距離,統計人工標注中容易混淆的音素對。部分音素競爭子集可對應如下:
(1)aa,對應ae、ax、eh;(2)ao,對應ax、er、eh;(3)aw,對應ao、oo、uw;(4)ch,對應sh、t;(5)eh,對應ih、ax、el、ey;(6)s,對應z。
第四步,使用獨立閾值提升錯讀檢測性能。
按照上述三個步驟進行基本英文發音檢錯系統的描述,之后結果顯示所有音素的判斷閾值均一致。但是在研究結果中也充分體現出不同音素錯讀和正確讀出的COP分布情況大相徑庭。以“ey”和“ax”為例,兩者錯讀和正確讀出的區分相差度甚至二倍出現。基于此,進行獨立閾值的優化時,可將所有訓練數據里的COP值以音素為歸類和升序排序依據,歸類所得形成N個棧VI,用VI[J]代表音素i的第i個樣本是否為錯誤發音,可取值0或者1,之后將最佳獨立閾值訓練過程抽象成數學問題,即從頂部開始,每個棧全出個ai數據繼而求出最優化ai構成的B維向量。按照以上思路進行計算時,可在初始化階段將樣本個數設置為0,得到的最多錯誤樣本個數設定為E[m],那么可得最佳ain=0。在逐步進行向量計算后,最終得到第i個棧中的第ain個樣本對應COP值為最終訓練所得到與因素對應的檢錯門限。
第五步,檢測改進因素對齊網絡實現漏讀。
上文分析可得大學非英語專業學生在朗讀英語時會出現漏讀一個或者多個因素,建議假定發音人按照句子里的因素排列順序能完整朗讀整個例句,在因素切分之前可檢測出發音人漏讀音素,放棄音素邊界的劃分,并以此作為提升系統應用性能的切入點。
在檢測后可限定因素對齊網絡,比如搭建起識別網絡,網絡主路徑可依照單詞中每個因素的排列順序來依次連接,每個因素均可跳過去,如此一旦出現某個因素漏讀,此識別網絡就可自動識別漏讀,并得強制劃分出可匹配漏讀情況的小段語音數據。在識別器及自動識別技術應用靈敏度較高的情況下此種設計才能確保有效。但是識別網絡需要被限制,不能所有音素都能輕易被跳過。否則就會失去檢驗和應用的初衷。
參考文獻:
[1]劉琳.基于自動語音識別技術的計算機輔助語音培訓軟件在大學非英語專業音素教學中成效性的實證研究[D].山東大學,2012.
[2]胥文華.基于自動語音識別的在線軟件對中國大學生音素學習的有效性研究[D].湖南大學,2010.
[3]崔昆.高校英語語音教學中多媒體技術的運用分析[J]. 科技展望,2016,26(08):214-215.