尹鐘 劉麗 陳瑋
摘 要:針對智能科學與技術專業數據挖掘課程中的知識難點,引入智能科學的重要問題——使機器理解人類情感,提出基于情感計算的數據挖掘課程教學案例。筆者利用倫敦瑪麗女王大學研究者建立的情感識別數據集,由淺入深地設計了針對數據預處理、聚類分析、關聯性分析、分類、回歸分析知識點的5個課堂和上機實驗教學案例;規劃了一項基于腦電信號識別情緒狀態的課程作業,培養學生的綜合知識運用能力和團隊協作能力。這些教學案例引導學生分析與人類情緒密切相關的認知數據,形象展示不同數據分析算法的功能特點,在提高教學效果的同時幫助學生了解智能人機交互技術的前沿動態。
關鍵詞:數據挖掘;情感計算;智能科學技術
0 引 言
隨著信息科學和計算機技術的進步,數據的存儲規模和傳輸速度不斷提高。為了使這些歷史信息更好地為各行各業服務,數據挖掘(data mining)技術發揮了重要作用,其旨在發現隱藏在表層數據信息中的內在規律和知識。數據挖掘課程是智能科學與技術本科專業的特色課程之一。該課程指導學生在實踐中理解機器學習原理,運用所學的統計學和模式識別算法分析數據,為學生從事相關工作或繼續深造提供必要的知識基礎[1]。
值得指出的是,數據挖掘課程中涉及的具體案例,多與該學科起源領域——商務、金融、顧客關系管理——密切相關[2],而工科專業學生對上述問題的重要性缺乏直觀感受。因此,筆者期望通過智能人機交互技術中的前沿問題——情感計算(affective computing)[3]——設計基于智能、認知科學交叉的數據挖掘教學案例,幫助學生循序漸進地掌握不同數據挖掘方法的原理。
智能人機交互技術的研究重點之一是提高機器(計算機)理解人類意圖的效率和精度。由于語言、表情形成的人類指令通常伴隨著情緒信息,情感計算的目的是賦予機器理解此類人特有心理活動的能力。而數據挖掘技術通過分析來自人的認知狀態數據,利用算法實現對人情感狀態的評估。筆者在以往研究工作[4]的啟發下,于數據挖掘課程教學中引入情感計算問題,將部分基礎內容用以設計教學案例。通過以智能科學發展的前沿動態為背景,這些案例很好地調動了學生的學習積極性。
1 情感計算數據集概述
為了直觀展示不同數據挖掘方法分析人類情緒信息的功能特點,筆者采用倫敦瑪麗女王大學研究者建立的DEAP數據集作為設計教學案例的基礎[5]。該數據集于互聯網上公開可用,其收集了32名志愿者對40條音樂視頻的情緒反饋,共計32×40=1 280條樣例。為了便于學生理解,教學案例部分僅使用志愿者對視頻的主觀評價信息。其中,每名志愿者對每條視頻分別給出 “覺醒(arousal)”和“效價(valence)”水平2個分數,分數值為1—9之間的實數。覺醒水平區分視頻誘發冷靜(1分)或興奮(9分)的情緒,而效價水平則判別情緒的消極(1分)或積極(9分)程度。如圖1所示,覺醒和效價水平可構成一個2維坐標平面,描述了喜悅、舒適、沮喪、憤怒4種不同情緒。
2 教學案例設計
以DEAP數據集為基礎,筆者設計了3個課堂教學案例和2個上機實驗案例(見表1)。這些案例不僅涵蓋了數據挖掘問題的主要任務,同時能系統解析覺醒、效價數據的分布特性和潛在規律。
表1 基于情感計算的教學案例及對應數據挖掘任務案例序號 案例類型 案例內容 數據挖掘方法
1 課堂教學 覺醒、效價得分的標準化和歸一化 數據預處理
2 課堂教學 情緒類別的無監督學習 聚類分析
3 課堂教學 不同志愿者覺醒、效價得分的相關性計算 關聯性分析
4 上機實驗 特定志愿者情緒類別判定 分類
5 上機實驗 特定志愿者覺醒、效價得分估計 回歸分析
2.1 課堂教學案例
課堂教學案例圍繞數據預處理、聚類分析和關聯性分析3個知識點進行設計。
案例1:覺醒、效價得分的標準化和歸一化
該案例旨在向學生強調預處理是數據挖掘任務的首要環節。針對DEAP數據集,不同志愿者對相同音樂視頻的主觀評分存在個性化差異。為了消除上述差異,引導學生學習兩項數據預處理方法:①0-1標準化;②最大—最小歸一化。
方法①將每名志愿者的覺醒、效價得分線性映射至均值為0、標準差為1的兩個數組,而方法②利用線性映射將數據規范至最小、最大值分別為0、1的兩個數組。方法①、②的過程和結果可通過MATLAB軟件在課堂上為學生演示。以方法①為例:先分別計算每名志愿者覺醒、效價評分的均值和標準差;再將得分數據減去均值后除以標準差即可獲得標準化后的數據。接下來,使用“plot”指令在相同坐標平面上繪制標準化前、后的數據,向學生直觀展示標準化對數據值域的影響。最后,向學生講解MATLAB中標準化函數的參數設置和使用方法。
案例2:情緒類別的無監督學習
該案例先引導學生思考如何利用標準化后的評分數據,在缺乏先驗知識的條件下獲得每名志愿者評分對應的情感類型;繼而向學生引入無監督學習方法的定義及相應的數據聚類算法。案例可基于經典聚類算法——K均值聚類——向學生展示評分數據的聚類流程和結果。
首先,先逐一分析算法的每個步驟,再由圖2繪制1名志愿者對40條音樂視頻評分的散點圖和K均值聚類結果。依據此圖分析聚類算法如何評價類內相似度與類間分散度,最后引入數據點隸屬于特定聚類的判定條件。為了更好地展示案例中K均值聚類算法與情感計算問題的聯系,引導學生觀察發現圖1中覺醒—效價平面上的4種情緒可分別與圖2中的4個聚類一一對應。
案例3:不同志愿者覺醒、效價得分的相關性計算
不同志愿者對相同音樂視頻評分的差異體現了情緒數據的個性化特質。本案例向學生提出疑問——志愿者們的個性是否存在相互關聯?繼而引入數據挖掘中關聯性分析的概念和方法,并基于線性相關性系數講解該知識點。endprint
首先,向學生講解線性相關系數的計算公式。再以志愿者#1的效價數據為例,尋找與其評分值正相關度最高的另一位志愿者。課堂上,可逐一分配每名學生計算志愿者#1與另一位編號不重復志愿者數據的線性相關系數,匯總后可得志愿者#26與志愿者#1效價正相關性最高。最后,利用圖3向學生可視化志愿者#1、#26效價評分的分布情況。學生可發現兩組數據的變化趨勢存在一定相似性,即這兩位志愿者由相同音樂視頻引發的情緒存在關聯性。
2.2 上機實驗案例
上機實驗案例圍繞分類、回歸分析兩個知識點設計,并利用MATLAB軟件幫助學生深入理解經典有監督機器學習方法的機理,同時鞏固前3個案例中的教學內容。
案例4:特定志愿者情緒類別判定
該案例需與課堂教學中講解的有監督學習、分類、訓練集、測試集、線性可分等概念緊密聯系,引導學生使用開源工具箱實現分類器的訓練、測試。以支持向量機方法為例,學生首先選擇一名志愿者的評分數據,并依照課堂教學案例1中的內容對其標準化。下一步,學生利用案例2中的聚類算法和聚類解釋方法,獲得若干離散的情緒類別。從中選擇“沮喪”“喜悅”情緒對應的數據樣例構建訓練集。接下來,指導學生設定合適的正則化參數和線性核函數,繪制如圖4所示的喜悅—沮喪情緒分類器訓練結果。此圖形象展示了分類邊界、分類面、支持向量3個重要概念。以此為例,學生依次引入“平和”“憤怒”情緒數據,設計不同的分類器,并利用另一名志愿者的評分數據測試分類器性能。
案例5:特定志愿者覺醒、效價得分估計
由于音樂視頻按照固定時間順序呈現,可將志愿者對每條視頻的覺醒、效價評分看作兩個時間序列。在此基礎上,本案例引導學生先依據一名志愿者的評分數據建立回歸模型,再利用另一志愿者的數據驗證模型性能。案例3中志愿者#1、#26的評分數據相關性最高,可將其分別作為訓練、測試集。圖5中,筆者采用超限學習機方法對志愿者#1效價評分數據進行訓練。該圖引導學生發現模型輸出與訓練目標并非完全相同,從而幫助學生進一步深入理解過擬合、正則化、均方誤差等回歸建模問題中的重要概念。以此為例,學生可繪制超限學習機對志愿者#26效價、覺醒評分的估計結果作為實驗報告內容。
3 課程作業題目設計
通過系統學習上述5個案例,學生可全面掌握關于數據預處理、聚類分析、關聯性分析、分類、回歸分析的相關概念和備選算法。為了進一步鞏固學生對數據挖掘知識的綜合運用能力,筆者基于DEAP數據集的生理數據部分設計了一項課程作業,作為評價學生平時成績的依據。課程作業按每組2~3位學生于教學進程的最后2周內完成。
課程作業題目:基于腦電信號特征識別每條音樂視頻誘發的情緒狀態
志愿者在觀看每條音樂視頻的同時,其一分鐘的腦電圖信號被同步記錄于DEAP數據集。課程作業要求學生依據相關腦電特征完成覺醒、效價水平的二類分類任務。為了保證課程作業進度,腦電特征提取環節由教師完成。學生在課程作業中需要完成的任務包括:
(1)腦電特征的預處理。采用0-1標準化或最大—最小歸一化方法實現。
(2)目標情緒類別確定。通過K均值聚類分析覺醒、效價評分實現。
(3)特征選擇。利用線性相關性系數確定與目標類別最相關的腦電特征。
(4)覺醒、效價水平二類分類。以選擇的腦電特征為輸入,以聚類獲得的目標類別為輸出,基于支持向量機方法設計分類器識別覺醒、效價的高、低兩種狀態。
該課程作業串行連接了不同數據挖掘知識點,小組中每名學生可分工完成其中的一個或多個子任務,培養綜合知識運用能力和團隊協作能力。
4 結 語
筆者通過引入情感計算問題補充完善了現有的教學案例類型,幫助智能專業學生更好地理解數據挖掘技術在人機交互等領域發揮的重要作用。通過利用開放的互聯網數據庫資源,筆者設計了5個由淺入深的課堂教學、上機實驗案例和一項綜合課堂作業。這些案例涵蓋了數據挖掘的所有主要任務,循序漸進地引導學生掌握數據挖掘技術的知識結構,調動了學生的學習積極性和興趣。在此基礎上,筆者在課后指導學生參與相關創新訓練項目,相關研究成果已在2017年舉行的20屆國際自動控制聯合會世界大會上宣讀。未來工作中,筆者期望結合自身研究特長,進一步引入前沿的人機交互問題于智能科學與技術專業相關課程的教學中,豐富教學案例,提高教學效果。
參考文獻:
[1] 蔣盛益, 李霞, 鄭琪. 研究性學習和研究性教學的實證研究: 以數據挖掘課程為例[J]. 計算機教育, 2014(24): 97-101.
[2] 譚征, 孫紅霞, 王立宏, 等. 基于實例的本科數據挖掘課程教學探索[J]. 計算機教育, 2013(9): 67-70.
[3] Kim J, Andre E. Emotion recognition based on physiological changes in music listening[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008(30):2067-2083.
[4] Yin Z, Zhao M, Wang Y, et al. Recognition of emotions using multimodal physiological signals and an ensemble deep learning model[J]. Computer Methods and Programs in Biomedicine, 2017(3): 93-110.
[5] Koelstra S, Muehl C, Soleymani M, et al. DEAP: A database for emotion analysis using physiological signals[J]. IEEE Transaction Affective Computing, 2012(3): 18-31.
(編輯:彭遠紅)endprint