張 亮
(江蘇聯合職業技術學院泰興分院(江蘇省泰興中等專業學校),江蘇 泰州 225400)
人機交互領域,尤其是基于語音的交互領域,是一個新興的領域,幾乎每天都在不斷發展。目前,語音和教學資源的交互正在從多個方向融合。
隨著語音控制系統的加入,智能手機、平板電腦和電視等以屏幕為先的設備功能正在得到增強。目前語音交互主要用在個人和家庭使用領域,未來也將在教育中得到應用。通過利用交互方式的優勢,真正集成的語音加屏幕系統可以改變教師和學生的體驗[1]。
語音是一種高效的輸入方式,它允許用戶根據自己的條件快速向系統發出命令。交互教學是一種高效的教學輸出方式,它允許系統同時顯示大量信息,通過體驗加強認知,減少用戶記憶負擔。從邏輯上講,將語音和交互組合成一個系統將會提升教育教學優勢,發揮教學資源的特色[2]。
文本到語音的合成以自然和人性化的方式自定義用戶交互,使用語音合成技術,實時將任何文本轉換為語音。在此應用方式中,只需將文本內容(即相應教學資源文字)嵌入功能程序模塊,軟件通過語音合成軟件進行識讀,與傳統配音不同的是,傳統配音一般采用人工配音,而現在是機器通過編程軟件進行配音,配音的方式由軟件提供。
從語音到語音交互識別是允許人與使用實時語音識別的任何系統之間進行對話的最新技術。這種交互方式簡單、靈活、有趣,其語音交互質量取決于語音數據庫建設及交互中說話人的語音質量。如果交互中說話人的語音不標準,會產生與預料結果不一致的效果,同時,如果語音數據庫不強大,其語音交互質量和結果也會不盡如人意。
從語音到文本的語音轉錄是將兩個或更多人之間的對話音頻轉換為格式化文本,并使用語音和說話人識別技術按時間順序分隔短語。這種應用,首先是將說話人的說話內容進行錄音,再進行語音識別,最后產生文本內容。這種應用比較適用于會議記錄,但其質量也取決于說話人的說話質量和軟件的識別技術質量。
從語音到用戶身份認證識別是一種智能認證技術,它允許用戶基于語音和面部生物特征進行身份驗證,它是一種最簡單、最有效的身份驗證形式,以自然、安全、快速和靈活的方式執行。這種技術主要是通過識別操作者的語音特征,從而實施下一步操作。在教學資源建設中,有助于快速認證及打開軟件。
從特定代碼語音實現語音喚醒,就是在系統軟件中內置語音喚醒特定代碼,任何操作者都可以通過此特定代碼打開軟件。如前面所述,屏幕的打開,就可以采用特定代碼語音交互識別技術。這種技術與用戶身份認證語音識別不同,語音身份識別需區分語音的吻合度,而特定代碼只要操作者語音文字與特定代碼一致即可打開。
從語音朗讀到即時翻譯是在語音識別、語音錄音、語音文字技術后,通過內置翻譯軟件,對所述語音文字進行翻譯。這是語音技術的拓展應用,在教學資源建設中,可以適當應用。
語音交互教學資源的開發基礎主要指語音交互開發的軟件、實施語音交互的載體、交互語音集成系統及開發者。從人工智能及交互技術的發展來看,手機是最適宜的載體;而語音交互開發軟件,可以是各類手機軟件開發工具;交互語音集成系統,可以采用各類大公司語音系統,筆者推薦采用百度語音實施開發;開發者必須具有較強的手機軟件編程能力,并熟知百度語音的接口技術及應用技術。
語音交互教學資源開發路徑,從教學資源設計立項開始,進而交互語音創意構思,實施屏幕設計及功能設計,最后測試運行,安裝使用。例如在視頻配音的教學資源設計中,采用文字轉語音的交互語意構思,在屏幕設計中增加視頻播放區及文字顯示區,在功能設計中,采用后臺百度語音調用文字發音,采用計時器實時控制分段語音播放進度,在測試運行合格后,安裝使用,推廣輻射。
為方便更多教師開展語音交互教學資源開發,推薦使用AppInventor軟件,這是一款語音交互教學資源低代碼構建的利器。
在其人工智能模塊中,有百度語音識別、百度語音合成、百度語音喚醒3個組件(見圖1)。其中百度語音喚醒可使用百度語音開放平臺,實現語音喚醒。百度語音合成需提供相關接口參數,如APPID值等,而在合成模式、發音人等可以多種選擇。在教學資源構建時,可以通過后臺設置或操作者選擇實施變更。

圖1 人工智能組件
本例開發,主要功能是通過點擊圖片,進行詩歌語音播放,現簡單介紹其開發方法。先設計教學,準備好素材(圖片、文字);設計界面布局,如圖2所示;設計編程,本例采用百度語音合成;模擬測試,發現普通女聲發音較快,將其速度調整為3(見圖3),最后打包下載。

圖2 界面設計

圖3 百度語音參數設置
低代碼編程程序如圖4所示,在代碼編程中,要注意語句的分隔,例如在作者 “李白” 前后分別加上 “.” 號,讓機器語音識讀時自動語句分隔。

圖4 低代碼編程
本例只是一個簡單的開發示例,如需增加其他古詩和圖片,編程設計時更換圖片名稱,詩詞隨同變更的方式,就可以完成一個教學資源的設計和開發。簡單構建,就是一圖一詩歌,簡單遞增設計及編程;相對復雜設計及開發可采用數據庫的方式構建,將文字、圖片名稱制作為數據庫,編程中需采用文件識讀器等技術,如果采用英語單詞,則會英語發音[3];可利用網絡技術,將資源上傳至網絡,直接調用即可。