吉祥 仝小敏 戴永恒



摘要:視頻情感識別是計算機視覺的研究熱點,由于認識到人類本身才是情感產(chǎn)生的源頭,近來,利用人類自身的大腦響應等生理特征對視頻所包含的情感進行識別,即隱性情感識別成為研究重點。然而,目前利用腦電圖信號對音樂視頻愉悅度的識別率仍不能令人滿意,原因在于未能從大量的腦電圖數(shù)據(jù)中獲取到有效的分類特征。為了進一步提高識別準確率,在DEAP數(shù)據(jù)庫中,不采用傳統(tǒng)的腦電圖時域和頻域特征,而是利用數(shù)據(jù)標準化以及特征選擇方法從腦電圖時間序列信號中直接提取有效特征,從而提取到腦電圖信號中具有較高分類能力的特征,并將得到的腦電圖特征用于音樂視頻分類實驗中,結(jié)果表明,相對于傳統(tǒng)方法,可以大大提高腦電圖信號對音樂視頻愉悅度識別率。
關(guān)鍵詞:視頻情感分類;腦電圖特征;視頻愉悅度
中圖分類號:TP391
文獻標識碼:A
0 引言
視頻情感識別是為了識別視頻中包含的積極、消極等情感,按照不同的情感類型將視頻進行分類,視頻情感識別在視頻推薦、視頻分類、廣告設計等領(lǐng)域有重要的研究價值,人類作為情感產(chǎn)生的本源,研究者期望利用被試(即參與實驗的志愿者)觀看視頻時自身的大腦響應等生理特征對視頻的情感進行分類,該研究方向稱為視頻的隱性情感標注[1],近來成為研究的熱點,情感識別涉及情感類別定義、大腦響應等生理特征采集實驗設計、數(shù)據(jù)采集、處理、特征提取、視頻分類等內(nèi)容,屬于新興的交叉學科。作為視頻情感識別的一個指標[213],視頻愉悅度被用來評價視頻的積極和消極程度,視頻愉悅度識別算法研究近年來受到研究者的關(guān)注,例如,文獻[4]采集了32個被試觀看40個音樂視頻時的腦電圖信號[5],為后續(xù)研究者提供了數(shù)據(jù)庫DEAP,對視頻愉悅度進行了初步的探索,文獻[6J對DEAP數(shù)據(jù)庫中的腦電圖信號分別提取了時域特征和頻域特征,分別利用這兩類特征對音樂視頻的愉悅度進行了分類,得到了較好的分類準確率,時域特征和頻域特征分別為70.84%和69.82%。
然而,目前腦電圖特征的分類準確率還有待提高,大量腦電圖時間序列中蘊含著潛在的分類信息,這些信息需要利用合理的數(shù)據(jù)處理方式提取出來,從而大大提高現(xiàn)有的分類準確率。因此,本文沒有像文獻[4][6]那樣,提取腦電圖信號的時域和頻域特征,而是直接中大量的腦電圖時間序列中提取特征,通過數(shù)據(jù)標準化和特征選擇方法,得到了分類準確率更高的特征。
本文方法旨在直接從腦電圖信號中提取更有效特征,首先,在DEAP數(shù)據(jù)庫中,針對每個被試每個腦電圖通道所對應的40個視頻的數(shù)據(jù)按列標準化,使得腦電圖數(shù)據(jù)范圍一致,利于后續(xù)處理;其次,采用mRMR特征選擇方法對每個被試的每個腦電圖通道的時間序列數(shù)據(jù)直接進行特征選擇,從而挖掘出時間序列中潛藏的具有較強情感分類能力的特征;最后,針對每個被試的每個腦電圖通道,利用選擇得到的特征對40個視頻進行視頻愉悅度分類,得到40個視頻的愉悅度分類準確率,將每個腦電圖通道的分類準確率進行平均作為該被試對40個視頻的最后分類準確率。實驗結(jié)果表明,相對于傳統(tǒng)的提取腦電圖信號的時域和頻域特征,直接從腦電圖時間序列中提取特征可以挖掘出更有效的分類特征,從而大大提高音樂視頻愉悅度的分類準確率。
1 DEAP數(shù)據(jù)庫
DEAP數(shù)據(jù)庫中[4],32位被試分別觀看了40段音樂電視視頻,其中包括16位男士,16位女士,這些被試的健康水平都符合測試的要求,沒有精神病史及腦神經(jīng)損傷,測試前具備良好的精神狀態(tài),聽力和視力均正常。實驗時每個被試都被告知了實驗注意事項,實驗過程保持環(huán)境安靜和不被打擾,確保被試可以注意力集中的進行實驗。每段音樂電視的時長為60秒,這40段音樂視頻通過情感標注和評估網(wǎng)站獲取。在被試觀看音樂電視的同時,采集被試的32通道腦電圖信號,采用的是符合國際標準的32導電極腦電圖,最后得到每個被試的40段音樂視頻的生理信號,信號組成為40x32x8064,表示每個被試的40段音樂視頻x32個生理信號采集通道x8064長度的采集信號。8064表示每個采集通道在60秒時長內(nèi)的響應信號向量,采集實驗如圖1所示。
每個被試在觀看每個視頻的時候?qū)λ^看的視頻進行愉悅度標注,從而得到每個被試對每個視頻的愉悅度標注結(jié)果,標注時愉悅度等級為1到9,級別越低說明視頻越消極,級別越高說明視頻越積極,被試根據(jù)視頻內(nèi)容進行評級,最后得到每個被試對40個視頻的愉悅度標注結(jié)果。這些標注結(jié)果被分為兩個類別,一類是小于等于5的被定為愉悅度低的類別,視頻標簽被置為-1,第二類是大于5的被定為愉悅度高的類別,視頻標簽被置為1。本文將對視頻愉悅度進行二分類研究,提高腦電圖信號在音樂視頻愉悅度二分類問題中的準確率。
2 大腦特征選擇
特征選擇是為了從數(shù)據(jù)中選取能夠有效區(qū)分不同愉悅度視頻的特征,但是目前的數(shù)據(jù)處理方法得到的腦電圖特征分類準確率還有待提高,原因在于現(xiàn)有腦電圖時域和頻域信號的分類能力有限,數(shù)據(jù)中隱藏的辨識特征沒有得到的挖據(jù),有效特征產(chǎn)生了丟失,其實,腦電圖時間序列中包含人類識別視頻情感的特征,蘊藏著豐富的情感分類特征,因此,相對于傳統(tǒng)的時域和頻域特征,本文直接對腦電圖信號進行預處理和特征提取,避免有效分類特征的丟失,從而挖掘出腦電圖中包含的更有效的情感分類特征。
對于每個被試的每個腦電圖采集通道,對其觀看40視頻的腦電圖初始信號Data進行標準化,將數(shù)據(jù)范圍調(diào)整一致,便于后續(xù)特征選擇方法進行處理。其中Data= 40×8064,40表示每個被試觀看的40個音樂視頻,8064為1分鐘內(nèi)每個通道采集的數(shù)據(jù)長度,對Data按列進行數(shù)據(jù)標準化處理,公式如下:
其中,j表示Data的第j列數(shù)據(jù),μ(Data(j))表示Data第j列數(shù)據(jù)的平均值,δ(Data(j))表示Data第j列數(shù)據(jù)的標準差。
對于單個被試的每個腦電圖通道數(shù)據(jù),我們分別利用mRMR特征選擇方法進行特征選擇,選擇出每個通道最有區(qū)分能力的特征。mRMR特征算法目的是為了選取與分類最相關(guān)的特征,同時特征之間的冗余度最小,符合腦電圖信號特征提取的需求,mRMR定義了如下兩個函數(shù)實現(xiàn)最大相關(guān)和最小冗余[7][8][9]:
3 音樂視頻愉悅度分類
對每個被試的每個腦電圖通道,利用mRMR特征選擇算法對每個通道的腦電圖信號進行特征選擇,然后將每個通道提取的腦電圖特征用于該被試的40個視頻的愉悅度分類,得到每個被試每個腦電圖通道數(shù)據(jù)對40個視頻的愉悅度分類準確率,最后計算每個被試40個通道的平均分類準確率作為該被試對40個視頻的分類準確率。
和文獻[6]中一樣,實驗中我們采用4折交叉驗證,即將40個視頻的腦電圖數(shù)據(jù)分為4份,每次采用3份作為訓練集,剩余l(xiāng)份作為測試集,采用SVM[10]作為分類器,重復4次,保證每份數(shù)據(jù)都被測試過,將4次測試結(jié)果進行平均,得到該被試的某個通道對40個視頻的分類準確率。4本文算法
5 實驗結(jié)果
本文實驗數(shù)據(jù)共有32個被試(Sl至S32表示1到32個參加腦電圖測試實驗的志愿者)的腦電圖信號,每個被試觀看40個音樂視頻,腦電圖采集通道個數(shù)為32,每個被試觀看每個視頻時產(chǎn)生32×8064數(shù)據(jù),32表示每個被試擁有32個腦電圖采集通道,8064為1分鐘內(nèi)每個通道采集的數(shù)據(jù)長度,針對每個被試觀看40個視頻時采集的每個通道的腦電圖信號,按列進行數(shù)據(jù)標準化,然后利用mRMR算法對標準化后的數(shù)據(jù)進行特征選擇,得到每個被試每個通道針對40個視頻的腦電圖特征,利用每個通道的腦電圖特征對40個視頻進行分類,然后計算32個通道的平均分類準確率,作為該被試對40個音樂視頻的分類準確率。實驗結(jié)果如表1所示。其中,Sl到S32表示第1個被試到第32個被試。
傳統(tǒng)方法對DEAP數(shù)據(jù)庫中的腦電圖信號,提取腦電圖信號的6種時域特征(均值、標準差、原始信號的一階、二階差分平均絕對值、標準化信號的一階、二階差分平均絕對值),頻域特征(對腦電圖信號進行快速傅里葉變換后,得到五個頻帶的傅里葉變換,對于每個頻帶,以每一個腦電信號上的平均能量作為特征)。
傳統(tǒng)方法中時域和頻域特征在32個被試中的分類準確率如表1所示,采用時域特征時32名被試的平均分類準確率達到了70.84%,被試最高分類準確率為82.5%,采用頻域特征的平均分類準確率為69.82%,被試最高分類準確率為85%。相對于傳統(tǒng)方法,本文算法的32個被試平均分類準確率為86.2%,比傳統(tǒng)的時域特征提高了15.36%,比傳統(tǒng)的頻域特征提高了16.38%,本文方法被試最高分類準確率為91.9%,比傳統(tǒng)的時域特征被試最高分類準確率提高了9.4%,比傳統(tǒng)的頻域特征被試最高分類準確率提高了6.9%,由此可見,本文算法實驗結(jié)果遠高于傳統(tǒng)算法的準確率,可知,有效的數(shù)據(jù)處理方法可以充分獲取數(shù)據(jù)中的識別能力強的特征,從而大幅提高識別準確率。
6 結(jié)語
使計算機具有人類的情感識別能力一直人工智能領(lǐng)域的熱點和難點,近來,很多研究者探索將人類觀看視頻時大腦的響應用于訓練計算機對視頻情感的識別,為了提高基于腦電圖信號對視頻情感的識別能力,提出了一個基于腦電圖的音樂視頻愉悅度識別算法,相對于傳統(tǒng)提取腦電圖中的頻域和時域特征,直接從腦電圖時間序列信號中提取特征,采用數(shù)據(jù)標準化和mRMR特征選擇方法,挖掘到了更具分辨能力的特征,從而得到了更高的音樂視頻愉悅度分類準確率。由此可知,合理的數(shù)據(jù)處理方式能夠挖掘數(shù)據(jù)中潛藏的信息,從而得到的更好的效果,從而為人類生理特征用于視頻情感識別提供了有效的解決方法。
參考文獻
[1]
PANTIC M,VINCIARELLI A.Implicit human-centered taggingESocial Sciencesl [J]. IEEE Signal Processing Magazine,IEEE, 2009, 26(6):173-180.
[2] ARIFIN S,CHEUNG P Y K.A novel probahilistic approach t。modeling the pleasure-arousal-dominance content of the vide。based on "working memory" [C]. Intemational Conference onSemantic Computing,IEEE, 2007:147-154.
[3] HANJALIC A,XU L Q.Affective video content representationand modeling [J].IEEE Transactions on Multiruedia,IEEE,2005,7(1):l43-154.
[4] KOELSTRA S,MUHL C,SOLEYMANI M,et a/.Deap:a databasefor emotion analysis; using physiological signals [J].IEEE Trans-actions on Aifective Computing,IEEE,2012,3(1):18-31.
[5]
WANC S,ZHU Y,WU G,et al.Hyhrid video eruotional taggingusing users' EEG and video content [J]. Multimedia Tools andApplications, Springer, 2014, 72(2):1257-1283.
[6]黃檸檬,基于腦電圖的情緒識別[D].廣州:華南理工大學,2016.
[7] PENC H,LONG F,DINC C.Feature Selection Based on Mutu-al Information: Criteria of Max-Depenclency, Max- Relevance,and Min-Redundancy [J]. IEEE Transactions on Pattem Analy-sis and Machine and Intelligence,2005,27(8):1226-1238.
[8] FAN X B,LI X.Minirruzing Prohing Cost with mRMR FeatureSelection in Network Monitoring [J]. IEEE Comruunications Let-ters, 2017, PP(99):1-1.
[9] 11 B Q,ZHENC L.L,F(xiàn)ENC K Y,et at.Prediction of Linear B—Cell Epitopes with ruRMR Feature Selection and Analysis [J].Current Bioinformatics, 2016, 11(1):22-31.
[10] VAN GESTEL T,SUYKENS J A K,LANCKRIET C,et al.Mul-ticlass LS -SVMs: moderated outputs and coding -decodingschemes EJl.Neural Processing Letters,Kluwer Academic Puh-lishers,2002,15(1):45-58.