張石清
[摘要]為了解決目前e-Learning教學系統中的情感交流匱乏問題,提出一種新的基于語音情感識別技術的e-Learning系統模型。語音作為人類最重要的交流媒介之一,不僅攜帶著大量的文字符號信息,還包含了人類豐富的情感信息。利用語音情感識別技術獲取和識別學習者的學習情感狀態,從而實現e-Learning教學系統的智能化和人性化。本文對該系統的關鍵技術作了詳細闡述。
[關鍵詞]e-Learning;語音;情感識別
[中圖分類號]G40—057
[文獻標識碼]A
[論文編號]1009—8097(2009)13—0224—02
引言
e-Learning也叫數字化學習,是通過因特網或其他數字化媒體進行學習與教學的活動。當前,隨著信息技術的快速發展,e-Learning已經在教育、教學等領域得到了廣泛應用,并產生了深刻影響。然而,在當前的e-Learning環境下,由于師生在物理空間上的分離,導致師生之間缺少必要的情感交流和反饋。而按照教育心理學的觀點,一個真正人性化的教學系統,不僅應當是有智能的,而且還應當有情感的。因此,如何在e-Learning系統中測量出學習者學習時的認知和情感,構建具有情感交互能力的和諧學習系統,已經成為現代遠程教育中一個新的熱點研究課題。
近年來,以語音情感識別為核心的情感計算技術的研究發展,已經成功應用于人工智能、智能人機交互等領域。這使得在e-Learning系統中,也可以利用情感計算技術,跟蹤學習者的情感狀態,提供個性化服務,以及根據學習者情感體驗的變化及時調整教學策略。為此,本文利用語音情感識別技術,以e-Learning應用為背景,設計一種基于語音情感識別技術的新型e-Learning教學系統。
一基于語音情感識別的e-Learning系統模型
師生情感交流是教學環節中的一項重要內容,它有助于學生消極情緒向積極情緒的遷移。在學習過程中,學習者的言語中不僅包含了文字符號信息,同時也包含了豐富的感情和情緒等信息。例如,當學習者對學習內容能夠理解和接受時,往往情緒高漲,言語比較歡快;反之,情緒低落,言語比較低沉喪氣。可見,學習者不同情感的表現是一種重要的教學反饋信息。利用這種反饋信息,我們可以有效調整教學策略,更好地服務自主學習。因此,在傳統e-Learning系統的基礎上,本文通過增加一個語音情感識別技術模塊,設計出一種基于語音情感識別技術的智能化e-Learning系統模型,如圖1所示。

該系統模型以語音情感識別技術為核心,及時捕捉和識別學習者的情感狀態,并根據學習者特定的情感狀態作出相應的情感激勵或補償策略。該模型主要有五部分組成:
●接口:除了傳統e-Learning系統中的人機接口外,新增加一個情感語音輸入接口模塊,專門負責收集學習者的情感化的語音信息。
●語音情感信息處理算法模塊:通過相關傳感器,對收集到的情感化的語音信息提取能夠區分不同情感類型的語音特征參數,然后利用模式識別分類器識別出學習者的整體情感狀態,并作出適當的學習評價。
●評價模塊;主要收集評價結果,然后轉化為相應的評價參數,同時從學習模型中提取學習記錄。
●教學策略:根據評價參數和學習者模型中的學習記錄,及時調整教學策略,從課程資料庫中選取適合學習者學習的資料提供給學習者,同時也作出相應的情感激勵和補償。
●學習者模型:主要記錄和學習者相關的個人信息、學習背景信息,認知風格信息、情感信息等。
二語音情感識別技術的實現
語音情感識別就是對輸入的學習者的情感化語音信號進行預處理(如降噪)后,分析和提取與學習者情感表達密切相關的語音特征參數,然后采用模式識別分類器分別進行訓練和測試,最后輸出學習者的情感類型,得到識別結果。一個簡單的語音情感識別模型由如下五部分構成,如圖2所示。其中模型中最重要的兩個環節是,特征提取以及分類器的確定。

1語音情感特征參數的提取
提取何種有效的語音情感特征參數是語音情感識別技術研究中最關鍵的問題之一,情感特征的優劣直接影響到情感最終識別結果的好壞。心理學和韻律學的研究已經表明,語音信號中的情感主要通過語音中的韻律特征表現出來的。例如,當一個人發怒的時候,講話的速率會變快,音量會變大,音調會變高,而一個人悲傷的時候講話的語速會變慢,音量會變小,音調會變低,這些都是可以很直觀的感受到的變化。目前,研究者進行語音情感識別的研究普遍采用了常見的基音頻率(簡稱基頻)、振幅、語速等韻律特征。原因是這些韻律特征能夠反映說話人的部分情感信息,較大程度上能區分不同的情感,而且容易提取和使用。但是,近年來的研究表明語音信號中的音質特征也包含情感信息,體現了不同類型情感的發音方式的區別,如生氣和高興發音時由于喉嚨的位置不同而引起的喘氣和沙啞等方面的不同。本文提取的語音特征參數類型包含了韻律特征和音質特征。表1列出了這些提取的語音特征與四種常見的情感類型(生氣、歡快、沮喪、厭惡)之間的關系。
2分類器的選擇
語音情感識別本質上是一個模式識別問題。目前,各種模式識別方法,如人工神經網絡、最近鄰法和支持向量機等不同的單一分類器,都被應用于語音情感識別,取得了較好的識別效果。已有的研究表明,在不同單一分類器中,建立在統計學習理論中的結構風險最小化原則基礎上的支持向量機能夠取得最好的識別性能。另外,將不同性能的單一分類器構成組合分類器,也能夠進一步提高語音情感識別的性能。
目前,隨著計算機圖像技術和多媒體技術的飛速發展,作為人類情感表達的其他方式,如人臉表情識別、人體運動姿態識別、手勢識別等技術必將得到快速發展,并將在e-Learning系統中發揮重要作用。
三結束語
本文通過在傳統e-Learning系統中增加語音情感識別技術模塊,收集學習者的情感反饋信息,應用于教學策略的調整,為學習者提供個性化的學習環境,提出了一種基于語音情感識別技術的e-Learning教學系統模型。盡管將語音情感識別技術應用于e-Learning系統中,能在很大程度上彌補遠程教育中的情感缺失,但是還存在很多方面的挑戰,例如大規模的自然情感語音數據庫的建設、噪聲背景下的語音情感識別技術的頑健性問題等。