摘 要: 外語教學資源開發水平的高低直接影響到外語教學的效率和效果。對目前外語視聽教學資源開發中存在的問題進行了分析;對語音自動斷句技術及其在外語視聽教學資源開發中的應用進行了研究和探討;結合作者研發的FLAVS(V3.2)系統,給出了實現語音斷句的基本思路以及視聽資源的同步整合方法。
關鍵詞: 語音斷句; 外語教學; 視聽教學; 教學資源; 同步整合
中圖分類號:TP319 文獻標志碼:A 文章編號:1006-8228(2014)06-04-04
0 引言
外語教學具有很強的實踐性,要獲得好的教學效果,學生須經常進行反復的視聽訓練,訓練元素可以是單句、段落或意群。然而,無論是傳統的錄音/錄像帶,還是當前的數字化音像制品,要迅速精確地選定訓練元素(如:句段),單靠人工操作是一件很困難的事情。
此外,有效的視聽訓練不僅需要生動的音視頻資源,還需要內容豐富的文本資源(如中外文字幕、生詞注釋、句段講解、背景知識等),以及經科學整合而形成的一個聲(像)文一體、同步可控、操作便捷的語言訓練環境。
總之,實現句段的精準定位和視聽資源的科學整合,是有效改善視聽教學的兩個重要條件。語音自動斷句則是實現這兩個重要條件的關鍵技術,是高效率地進行復讀、跟讀、聽抄、會話等多種語言訓練的技術基礎。
1 外語教學資源概述
“教學資源已成為影響課程教學質量的一個制約因素,教學資源建設不僅需要媒體資源的數量,更需質量[1]。”外語教學資源是實施外語教學的重要元素,特別是視聽資源,它在整個語言學習過程中起著至關重要的作用。豐富生動的高質量音視頻資源,可為學生提供一個最真實,最具趣味性的語言環境,通過視、聽、說、讀等全方位的綜合訓練,使各種語言感官同時受到刺激,進而取得良好的教學效果。
1.1 外語教學資源的類型
從廣義角度來說,教學資源是實施教學所需的包括人力資源、教材資源、環境設備資源、教學信息資源等在內的各種軟件和硬件資源,比如:教學場地、教學設備、教育制度、師資、教法、教材、課件、參考資料等。
本文所說的外語教學資源,主要指教學課件、教學素材及教學平臺等軟件資源,從媒介形式上分,有音頻、視頻和文本等。
⑴ 音頻資源
語言本身是通過聲音來傳遞的,因此音頻資源是外語教學中普遍使用的、最基本的教學資源。傳統的音頻資源是以錄音帶為載體的模擬信息,目前已不能滿足現代外語教學的需要;而現代的音頻資源則是以光盤、磁盤或網絡為載體的數字化信息,它在外語教學中越來越表現出明顯優勢和不可替代性。
⑵ 視頻資源
視頻是聲像一體的教學資源(如電影、教學片等),它在外語教學中是不可或缺的。認知心理學的研究結果表明,人的一生中所掌握的信息有94%是通過視覺和聽覺獲得的, 其中88%通過視覺,12%通過聽覺[2]。可見,如果能夠充分利用視頻資源進行生動、形象的外語教學,使各語言感官同時受到刺激,學生會有身臨其境的感覺,學習效率和教學效果將得到明顯提高。
⑶ 文本資源
文本(如字幕、生詞注釋、句段講解及背景知識等)探討最基本的外語視聽教學資源,它能精準地表達語言本意,可描述任何語法現象和語篇細節,這是音像資源所不及的。盡管有越來越多新型的教學媒體和資源產生,但文字資源始終占有重要地位,是其他資源無法替代的。一九八一年三月十六日,被美國媒體稱為“打破寂靜的日子”的首部字幕電視劇播出,從此,失聰及聽覺有障礙的觀眾便可以通過字幕來欣賞電視節目了[3]。這充分表明,字幕就是一種很好的教學資源,具有較強的學習功效。充分發揮文本資源的優勢,將其與音視頻資源進行有機結合,可使外語教學獲得良好的效果。
1.2 教學資源的開發現狀
目前,隨著網絡與多媒體技術的發展,人們可通過多種途徑輕易獲得各式各樣的外語視聽素材,如:錄音、錄像、講座、教學片及相關文本素材。但由于多種因素的制約,這些素材還遠未發揮出其應有的作用,還存在著如下幾個問題。
⑴ 自動化程度低
學好外語要靠大量反復的聽、說、讀、寫訓練。這有賴于操作簡單、自動化程度高的視聽資源的支持。學生要反復進行某一句段的訓練時,希望視聽環境能提供迅速精準的句段定位功能,只需輕點一下鼠標即可如愿,以利于實現強化訓練。然而,經筆者進行大量的調查統計發現,目前97%以上的教學資源不具備這些功能,自動化程度極低。比如,音視頻文件一般都未進行句段標識和斷句處理,直接導致句段查找與精確定位的困難,以及學習效率的低下。分析其原因,主要是目前能夠提供自動斷句功能的軟件很少,只有Aboboo、RepeatPlayer、EditLrc等為數不多的幾個,且自動斷句及資源整合功能大多較弱;而手工斷句的工作量大,開發效率低,極大影響了外語教師對教學資源開發的熱情。
⑵ 整合度差
外語視聽教學資源涉及到音頻、視頻、文本等多種形式和多項元素。各元素須經過科學整合才能形成一套完備實用的教學資源或教學系統。并且,“一個好的視聽教學系統,必須考慮對上述教學元素的同步控制,使其在視音頻信息流動的同時自動定位或展示其他教學元素。這樣,受訓者隨時都能受到多角度、全方位的訓練,也能極大提高訓練效率和教學效果[4]。”然而,目前相當一部分視聽素材都是從網上下載的,缺乏科學整合,音視頻與文本素材相互脫節、雜亂無序、系統化程度較低,如直接使用,則難以收到良好的教學效果。
造成外語教學資源整合度差的原因主要有:①資源類型較復雜,既有文本又有音視頻,整合難度大;②資源的開發整合技術較復雜,涉及計算機、多媒體、網絡及教育技術等,較適用的開發平臺不多。
⑶ 通用性不強
目前,很多外語視聽教學資源的開發都是外語教師自發進行的,既沒有明確的標準,又缺乏技術人員的支持,開發工作不少還停留在較初級階段;開發的資源不具有較強的規范性、適應性和共享性,難以進行交流和推廣,重復開發現象比較普遍。
2 語音自動斷句技術
語音自動斷句是開發具有較高自動化程度的外語視聽教學資源的關鍵技術。采用該技術可對音視頻資源進行語音句段的自動分割,有利于提高外語視聽教學資源的整合水平。下面介紹語音斷句的概念、基本算法以及自動斷句的實現方法。
2.1 語音斷句的概念
語音斷句,就是對數字音視頻素材的語音信號以句段為單位進行切分處理。語音斷句是通過形成一組句段標識數據而實現的對音視頻文件進行的邏輯分割。這組標識數據用來標識一整段音頻(或視頻)中每個句段的起止位置,進而在程序的控制下,實現播放句段的靈活選擇。
語音自動斷句,實質上就是通過程序設計的方法來自動獲得各句段的標識數據。這有利于學習者和課件制作者能夠專注他們的教學活動。
語音自動斷句是進行視聽資源整合的基礎,其自動化程度,直接關系到外語視聽教學的訓練效率、訓練強度和學習效果,也決定著相關教學課件的開發水平。
2.2 語音斷句的相關算法
目前,語音斷句技術所涉及的主要算法有:基于隱形馬爾科夫模型(HMM)方法、基于動態時間伸縮(DTW)方法、基于小波變換(wavelet transform)方法,以及基于粒計算(granular computing)方法等。
由于音視頻樣本中聲音信號的復雜性,盡管語音斷句的研究工作已有較長歷史,并取得了很大成績,但仍面臨許多困難,如:算法的適應性較差、強背景噪音下分段困難、一些能量較低的爆破音和鼻音難以判斷等。要克服這些困難,需對現有方法進行詳細研究和比較,再輔以其他手段并施加一定的人工干預(比如,人工判斷背景噪音等情況并設置相關語音參數)。
筆者在編程實踐中,自動斷句的語音參數主要采用背景噪音、句間停頓、最短句長、允許雜音數等四個。通過改變它們的設定值,可靈活尋找句間停頓,并收集斷點信息,能有效提高斷句的精度。這四個參數的意義如下(如圖1所示)。
⑴ 背景噪音:小于該值的樣本算做靜音,設定值越大,切分出的句段越多。
⑵ 句間停頓:大于該值的停頓才算句段,設定值越大,切分出的句段越少。
⑶ 最短句長:大于該值的非靜音采樣才被認定為句段,設定值越大,切分出的句段越少。
⑷ 允許雜音數:句間停頓允許存在的雜音數,設定值越大,切分出的句段越多。
2.3 自動斷句的實現方法
考慮到語言訓練重復性強的特點以及與其他資源整合的需求,我們采用將音視頻中的句段起止時間記錄于媒體播放器外掛文件的方法,來實現邏輯上的語音斷句。外掛文件有多種,我們開發的FLAVS針對的是lrc文件。
⑴ lrc文件的作用與結構
對于lrc文件,經常聽音樂的朋友一定不陌生,它記錄的是音視頻文件中各句段的起始時間和同步歌詞(或字幕),其作用就是為自動斷句程序提供斷點數據,為視聽資源的整合提供同步數據。基于此,我們就可以設計程序,通過外掛文件來控制音視頻文件的播放進度,進而實現語音自動斷句。
外掛文件的文件名一般與相應的音視頻文件相同,其擴展名則決定于外掛文件的類型,如lrc外掛文件的擴展名為“.lrc”。lrc外掛文件的結構如下:
上述文件中的前4行是通用信息,不是我們關注的重點。第5行以后的內容是文件的主體,每行都由“時間”和“文本”這兩個字段組成。其中,[ ]中的內容是時間字段,表示當前句段的開始時間,格式為“HH:MM:SS.mmm”,若時間小于60分鐘,則表示為“MM:SS.mmm”;[ ]后的內容是文本字段,是本句段的同步顯示文本,可設置歌詞(或中外文字幕)、生詞注釋、句段注解等。
⑵ 斷句的實現
實現語音自動斷句需做兩個方面的工作:一是準確采集音視頻樣本中各句段的時間軸(即時間字段)數據,并將其寫入lrc文件;二是根據時間軸,來控制播放指針的啟停位置。這里的關鍵是如何準確采集時間軸數據。
為此,我們在FLAVS早期版本的基礎上,為其增加了語音自動斷句功能,形成了FLAVS(v3.2)。程序中對時間字段的采集主要采用上述基于語音參數的斷句算法,并設置了“背景噪音”、“時間停頓”、“最短句長”和“允許雜音數”等4個調節鈕(如圖2所示)。當各參數值調節到滿意效果時,程序自動對音視頻樣本中各句段的起止時間進行采集,并寫入一個與音視頻文件同名的lrc文件中,進而可實現語音自動斷句。
下面是使用FLAVS(v3.2版)進行語音斷句的操作過程:
① 先通過“打開”按鈕打開要斷句的音視頻文件(如The_Sound_of_Music.avi);
② 再通過“斷句”按鈕進入斷句參數調整窗口,來調節“背景噪音”、“句間停頓”、“最短句長”、“允許雜音數”等參數(見圖2);
③ 最后按“保存”按鈕即可自動生成一個與音視頻文件同名的包含時間字段的句段切分文件The_Sound_of_Music.lrc,并將句段切分情況顯示于句段編輯面板中,如圖3所示。
從位于圖3下半部的句段編輯控制板中可以看出,經FLAVS(v3.2)的斷句處理后,影片《The Sound of Music》的所有句段已全部被自動切分。之后,學習者只需輕輕點擊句段編輯控制板中的某個句段,播放指針便會迅速準確地自動指向該句段的開始,以利于反復進行視聽訓練。
3 視聽資源的同步整合
前面我們對視聽資源之一的音視頻樣本進行了斷句處理,為句段的快速選擇和精準定位提供了必要條件。然而,要全面有效地提升學生的外語實踐能力,僅有音視頻資源是不夠的,還需擴展和提供中外文字幕、生詞注釋、句段注解、背景知識等文本資源,并實現聲文資源的同步聯動,使之形成一個句段選擇精準、聲(像)文一體、融合度高的資源結構體。
3.1 何謂同步整合
所謂“同步”,是指音視頻資源與相關文本資源(如字幕、生詞注釋、句段講解、背景知識等)在播放與展示時間上的吻合,即:在音視頻文件的播放過程中,相應的文字信息以句段時長為切換節點而進行的同時展示。
所謂“同步整合”,則是指對視聽教學中需要同時展示的相關資源所進行的同步設置和有機融合,實現對音視頻資源與文本資源的聯動和靈活控制。
“混合性、整合性、技術性是屏性媒介具備的重要的視覺特質”[5],在傳統的音像作品中,有的嵌入了歌詞或字幕,這勉強也算是一種同步整合,但不是真正意義的整合。真正的資源整合,是各種資源的表現方式不是呆板的、固定的,而是既相互關聯又靈活可控的。這種靈活可控性(以字幕為例,其他資源類同)主要表現在:字幕的出現時機和文種變化,應由學習者根據學習進度來自主選擇,自由控制。
此外,在外語視聽訓練的不同階段,字幕及文種變化,對學習效果的影響是確定的。調查統計表明:在訓練的初始階段,外文字幕的同步展示有助于“聽清”,即聽清楚每個句段的正確發音;在訓練的中級階段,中文字幕的同步展示有助于“聽懂”,即聽懂每個句段的真正含義;在訓練的高級階段,字幕的隱藏有助于“聽熟”,即聽說能力的加強、鞏固和熟練。
3.2 同步整合方法
視聽資源的同步整合需在自動斷句的基礎上,通過程序設計的方法進行。
⑴ 程序設計思想
同步整合的實質是以lrc文件中的每個句段為單位,將各文本字段寫入相應的時間字段之后,并控制其內容(如字幕、生詞注釋、句段注解等)跟隨音視頻的播放進度,在時間軸指示的節點上得到同步展示。
FLAVS(v3.2)系統就是依照上述設計思想而開發的。該系統具有整合效率高、性能穩定、資源靈活、操作簡單等特點,既適于音頻文件,又適于視頻文件,還可將外文字幕、中文字幕以及句段注解等內容分類錄入。
由于lrc文件是很多播放器共同知識的外掛文件,所以采用這種思想整合的視聽資源具有很強的規范性和通用性。
⑵ 同步整合的具體實現
在完成斷句的基礎上進行視聽資源的同步整合,其主要任務有兩個:一是向lrc文件布局各句段的文本字段;二是控制相關資源的同步展示。后一項任務完全由程序自動完成,只有前一項任務需要人工干預和手工錄入。
具有資源整合功能的軟件有Aboboo、EditLrc、EnMp3Player及FLAVS(v3.2)等,建議優先選擇FLAVS(v3.2)。
使用FLAVS(v3.2)進行資源的同步整合,可在如圖4所示的聽抄窗口中進行,以句段為單元將各類文本分別輸入相應文本框,待所有句段都輸入完畢,按“確認退出”按鈕保存。
實現視聽資源同步整合的前一項任務,還可不通過純手工的方法完成。該方法不需要專門的軟件,而是使用任何一種普通文本編輯器(如Windows系統自帶的“記事本”)直接對lrc文件進行編輯,將需要同步的字幕、生詞注釋、句段注解等文本資料錄至相應的時間字段后。使用該方法,要注意“|”和“^”這兩個字符的使用,因為FLAVS(v3.2)使用這兩個特殊字符對lrc文件進行了兼容性擴展,其中“|”用于分割外文字幕和中文字幕,“^”用于分割中文字幕和注解。比如,圖4中的句段內容在lrc文件中表示為:
4 結束語
對于外語教學,其實踐性強的特點決定了受訓者只有進行多角度、全方位、不間斷的語言訓練才能提高訓練效率和學習效果。這在客觀上要求外語教學必須有內容豐富、通用性強、整合性好、自動化程度高、訓練效果明顯的視聽資源作支撐。而語音自動斷句技術,則是進行外語視聽教學資源同步整合的基礎,也決定著數字化外語教學課件的開發質量。盡管外語教學資源建設還存在著語義識別困難、語音背景噪音復雜等多種問題,但隨著計算機、多媒體等技術的不斷發展和進步,相信這些問題會逐步得到解決。
參考文獻:
[1] 王涵等.教學資源建設在課堂教學中應用探析[J].科技文匯,2009.3:126-127
[2] 成榮榮.運用網絡、多媒體手段完善英語課堂教學[J].現代情報,2006.9:198-199
[3] 戴勁.影視字幕與外語教學[J].外語電化教學,2005.6(3):18-22
[4] 張增良.外語視聽教學系統的開發與應用[J].現代教育技術,2008.11:69-72
[5] 王志強.屏性視覺媒介的自身特質及其倫理價值反思[J].現代遠距離教育,2013.6:69-73