關鍵詞:情感識別;視覺語言模型;情境感知;多模態融合
中圖分類號:TP391.41 文獻標志碼:A 文章編號:1001-3695(2025)07-007-1972-06
doi:10.19734/j.issn.1001-3695.2024.12.0497
Abstract:Context-based recognition of human emotions in images has becomean increasingly popular task in recentyears, withaplication value in manyfields.Most existing methodsonly encode thehuman subjectandthe background separately,extracting isolatedfeaturesforsimple interaction,lackinganefectivefeaturefusionmechanismbetweenthesubjectandthecontextualbackground.Aimedtoaddresstheisueoftheinteractionbetweencomplexbackgroundsandthehumansubject,thispaperproposedanewnetwork forhumanemotionrecognitioninimages basedontext-imagecontrastivefusion.Firstly,itdesigned promptwords toextracttextualdescriptionsoftheemotionalstatebetweenthecontextualbackgroundandthetargethumansubjectbyfullyutilizedtheextensivesocialcontext informationandreasoningcapabilitiesof largevisual-language models.Secondly,it proposedatext-imagecontrastivefusionmodule,which fusedthecroppedtargethumansubjectimagefeatureswithhe textdescriptionfeaturesobtainedbasedonthepromptwordsthrough thismodule.Finaly,thefusionalgorithmintroduceda contrastive lossfunction tounifytherepresentationof imageencodingand text encoding,allowing for more accuratecaptureof efectiveemotionalexpresions during fusion.Experimentalresultsshowthat thenetorkcanlearnmoreefectiveemotioalfeature representations,and the network achieves superior results on the EMOTIC dataset with an mAP of 37.30% . The proposed methodbetterintegratesthefeaturesof thehumansubjectandthebackgroundintheimage,therebyimprovingtheaccuracyof human emotion recognition in images.
Key words:emotion recognition;vision-language model;context awareness;multimodal fusion
0 引言
人物情感識別系統已經應用到醫療健康、智慧教育、人機交互等領域,潛移默化地影響著人們的生活,情感識別在真實場景中面臨著復雜多變的情況,如何根據情境線索識別人物情感具有重要意義。現有的大部分情感識別研究工作集中在基于人物面部表情特征[2],往往忽略了圖像背景等其他線索;且圖像中僅包含簡單的頭部姿態、光照等變化,與真實場景之間存在一定差距。在真實場景中,人類的情緒表達依賴于多種模式,包括社交關系、肢體動作、周圍環境等[3],要理解人物情感,就不能脫離人物所處情境。
情境感知情感識別(context-awareemotionrecognition,CAER)[4]近年來越來越受關注[56],這是一項復雜的任務,需要從多種上下文線索中感知情緒。近年來研究者們進行了一些探索,Kosti等人構建了一個無約束自然場景中的任務情感圖像數據集,并提出了一個雙分支情感識別CNN基線網絡,裁剪目標人物區域輸入一個分支,整張圖像輸入另一個分支,但這樣會導致非常粗糙的特征。Zhang等人[8使用區域提議網絡提取圖片中的元素,使用這些元素構建情感圖,并基于圖神經網絡推斷情感關系,然而這種方法只能處理構圖簡單的圖像,且丟失了整體圖像的語義。Mittal等人[9分別從圖像中提取面部、姿態、背景、深度等信息,考慮多種情境解釋來識別情感。Yang等人[1通過構建數據集的上下文字典進行因果建模,以去除上下文偏差引起的場景與情感的虛假相關性。Bose等人[11從圖像標題中提取語義信息,作為圖像特征的補充。綜合來說,這些方法都是在建立不同的上下文結構,然而受限于數據集規模以及情感的模糊性,這些方法的效果仍有待提高。如何引入更廣泛的上下文信息,更好地結合人物與場景進行情感預測,是情境感知情感識別任務中需要解決的問題。
圖片中人物所處場景多種多樣,且可能存在復雜的干擾信息,已有的方法僅僅將圖片切分為不同部分,難以捕捉到上下文背景中的情感表達。本文使用視覺語言大模型來處理這種復雜性,不僅可以提取主要的情感表達信息,還能夠去除干擾信號。此外已有的方法在融合主體與上下文特征時只進行簡單拼接或基于注意力機制融合,這類淺層交互方法難以構建出主體與上下文之間的情感特征表示,本文提出了圖文對比融合的方法進行深度交互。總的來說,本文提出了一種基于圖文對比融合的圖像人物情感識別網絡,具體包括:
a)在情感上下文建模部分,針對現有方法中對情感上下文信息挖掘不足的局限性,對大模型應用于本文任務進行了探索,編寫提示詞指示具有視覺語言能力的大模型從圖片中尋找能描述目標人物的情感狀態的相關線索,將圖片信息轉換為抽象文本描述。充分利用大模型中廣泛的社會背景知識,構建出上下文的情感文本描述,同時過濾無關的雜亂背景。
b)在特征提取部分,從圖像中裁剪出人物部分,其余部分丟棄,使用Transformer編碼器[12]分別從圖像和上下文的情感文本描述中提取特征向量。
c)在特征融合部分,提出了一種新的圖文對比融合算法,采用對比損失與BCEWithLogitsLoss損失相結合的方法,統一學習目標人物主體與上下文的情感文本描述的聯合語義表示,使得模型同時關注分類任務與特征表示任務,抽取更有效的情感表征。
總體網絡架構
本文提出的網絡整體框架如圖1所示。從圖中可以看出,本文算法分為三個主要階段:情感上下文建模階段、特征提取階段與特征融合階段。在情感上下文建模階段,主要進行數據的預處理,一方面使用紅框標識出圖像中的目標人物,設計提示詞(prompt),令VLMs基于上下文背景生成與圖片中目標人物情感狀態相關的文本描述,另一方面從原圖中裁剪出目標人物主體。在特征提取階段,對于生成的文本描述和從原圖中裁剪出的目標人物主體圖像,分別使用深度網絡來提取特征。在特征融合階段,設計了一個圖文模態融合模塊對特征信息進行深度融合,并引入了對比損失來優化網絡。
1.1情感上下文建模
近年來隨著大型語言模型(LLM)的成功,學界興起了開發基于語言增強的視覺模型的熱潮,這類模型在開放視覺理解方面具有強大的能力[13]。研究者們已經將VLMs應用到多種視覺語言任務中,例如視覺問答[14]和圖像到文本檢索[15],在情感識別任務中已用于面部表情識別[16],Xenos等人[17]進行了初步探索,但缺乏有效的融合機制。LLaVA是目前最先進的開源視覺語言模型[18],它根據視覺輸人和文本指令生成文本描述,本文使用LLaVA-1.513B版本。本文使用紅色方框標識出圖像中的目標人物(見電子版),設計了一個prompt指示
LLaVA基于圖片中的多種上下文模式描述人物最可能的情感狀態,如圖2所示,prompt指示的情感狀態包括以下四個部分:
a)面部表情:面部表情是情緒的主要指標。微笑可以暗示快樂,皺眉可能表明憤怒或困惑,睜大眼睛可以表示驚訝,皺眉可能意味著悲傷或失望。
b)姿勢和動作:肢體語言可以傳達很多關于一個人的情緒狀態。一個直立的姿勢可能意味著自信或警覺,而無精打采可能表明疲勞或沮喪。交叉雙臂可能是一種防御或不適的跡象。
c)與人或物的互動:一個人如何與周圍環境和其他人互動可以反映情緒狀態。積極參與活動可能表明感興趣或興奮,而回避他人可能意味著不感興趣。
d)環境或社交場景:整體環境營造的氛圍可以影響或反映一個人的情緒。在一些社交場景如聚會或慶祝中,人們往往表現出更積極的情感。
實際場景是十分復雜的,例如可能會出現由于遮擋、模糊等導致人臉或身體姿勢不可見的情況,當某些模式缺失時,可以從其他模式的線索推斷情感。圖2prompt中的class_name}代表數據集中所有類別的名稱列表,在prompt中提供情感類別列表可以幫助模型更清晰地理解數據集,生成與本文任務更相關的文本。為圖片生成文本描述的目的是利用大模型中編碼的廣泛的社會背景知識和大模型強大的推理能力[13],以構建出融入了與情感表達相關的社會和文化背景因素且包含目標人物情感狀態與背景信息的情感上下文。
從樣例中可以看出,LLaVA生成了與圖片主題、圖中可能發生的事件以及人物與場景的交互相關的文本描述。模型識別出了婚禮場景、小女孩對蛋糕的渴望以及它們與小女孩情感的關系,這種高度抽象的結構化的語義是只抽取孤立視覺特征的情感識別模型所不能做到的,而大模型生成的文本描述構建了人物與所處場景的交互關系,可以為情感識別提供這些更廣泛更豐富的語義信息。
1.2 特征提取
1.2.1 文本特征提取
本文采用了Long-CLIP[19]模型的文本編碼器來對文本數據進行特征提取,其網絡結構如圖3所示。Long-CLIP是最新開源的模型,其能夠處理更長的文本以及更強的泛化能力。本文采用了Long-CLIP模型的預訓練權重,這些權重在大規模的圖像和文本數據集上進行了預訓練,使得編碼器能夠學習到豐富的、跨模態的語言表示。在實驗中,輸入文本經過分詞處理并加入可學習[EOS]token后,將預處理后的文本輸入Long-CLIP的文本編碼器,通過嵌入層將它們轉換為一系列高維向量。隨后,這些向量經過多層Transformer編碼器的處理,所有token被映射為一系列 M 維的特征向量。這些向量捕捉了文本的深層次語義特征。取出句子的[EOS]token對應的隱藏狀態作為整個句子的特征表示,該向量編碼了整個輸入文本的語義信息。通過這種方式,能夠將文本數據轉換為一種豐富的、可用于下游任務的數值表示,為后續的情感識別任務提供了強大的特征支持。
1. 2. 2 圖像特征提取
由于圖像的整體性語義信息已經轉移到文本當中,對于最終的情感識別任務來說,圖像中大部分信息是冗余的,甚至是干擾性的,所以本算法只保留目標人物主體圖像,全局特征信息由文本中與情感相關的抽象語義提供,避免了繁雜的細節。本算法采用 ViT[12] 網絡提取目標人物主體圖像的特征,ViT是一種基于Transformer架構的視覺主干模型,其結構如圖4所示。
在本文算法中,首先將圖片中的識別目標裁剪出來并重塑為 H×H 的尺寸,然后將圖像分割成多個小塊,即通過一個卷積神經網絡層將圖像token化,并自動學習位置編碼(patchandpositionembedding),最后將每個小塊展平為圖像向量送人12層的Transformer編碼器進行處理。這些編碼后的特征向量捕捉了圖像中的視覺信息,為情感識別提供了豐富的特征。與傳統的卷積神經網絡(CNN)相比,ViT能夠更有效地捕捉圖像中的長距離依賴關系,這對于理解復雜的情感表達尤為重要。
1.3基于對比損失的特征融合
1.3.1對比特征融合模塊
由于圖像人物情感識別任務的復雜性與情感模式的高度抽象性,且模型需要關注圖像的所有信息,視覺上相似的圖像特征卻可能與完全不同的情感關聯,反之同理,即網絡提取的特征與高維情感表示的不一致[20],導致模型難以識別背景信息對人物情感的影響模式。為解決這個問題,本文設計了一個新的圖文對比融合模塊。圖像人物情感識別中已有的方法通常只是將主體特征與上下文背景特征進行拼接和加權,對比融合模塊引入了對比學習輔助特征融合的機制,利用對比學習強大的特征表示能力[2來學習主體特征與上下文背景特征之間的語義關聯,對比損失函數使得模型能夠動態調整兩個部分的貢獻,將它們編碼為統一和更有效的特征表示。相比于其他特征融合方式,圖文對比融合方法更適合用于圖像人物情感識別任務,實現了更深層的特征融合。其結構如圖5所示。
該模塊首先通過兩個全連接層作為聯合表示頭,將M維的文本特征向量和 N 維圖像特征向量分別通過各自的全連接層映射到相同的維度,這一步驟旨在將這兩種模態的特征映射到一個共享的特征空間中。文本特征向量和圖像特征向量在求和后輸入到一個融合網絡中,該網絡由兩個全連接層、批量歸一化層組成,并使用GELU激活函數,融合特征在激活之后,圖像特征向量經過線性映射后的特征殘差連接。這一融合網絡的主要作用是整合融合的特征,并自適應地提取特征,最終的特征通過全連接層映射到情感類別上。
該模塊的核心是統一表示頭,將利用大模型從圖像中提取的文本特征構造為圖像的正樣本,一個batch中與圖像不對應的其他文本特征則為負樣本,統一表示頭將圖像和文本特征映射到共享空間并進行融合,通過對比損失來優化特征映射層,學習文本與圖像的統一表示,對比損失函數如式(1)所示。
其中: N 是批次中的樣本數量; xi 是第 χi 個樣本的圖像特征向量 σyi 是第 i 個樣本的文本特征向量; sin(xi,yj) 表示 xi 與 yj 之間的余弦相似度,用于衡量兩個特征向量之間的相似程度;損失函數 Lctr 計算的即是一個批次中,圖像與本文特征向量兩兩計算的余弦相似度之和的平均值; τ 為可學習的溫度參數,通過實驗調優,用于自適應調整相似度分布的平滑度。將語義相似的特征在特征空間中拉近,而語義不相似的特征則相互遠離,同時融合圖像與文本中的互補特征,整個過程彌補了網絡提取的特征與高維情感表示的差距。本文使用 t-SNE[22] 降維可視化了幾類圖像和文本特征向量與融合后的特征向量的空間分布情況,如圖6所示。融合之前文本特征與圖像特征交錯分布,融合后同類數據分布更加有分辨性,更好地反映了情感空間中數據的局部臨近關系。
1.3.2優化策略
此外,本文研究的是一個多標簽分類任務,每個樣本都有一個或多個標簽,因此通過BCEWithLogitsLoss損失計算與真實值的損失,它結合了sigmoid層和二元交叉熵(binarycrossentropy,BCE)損失。在多標簽分類中,每個樣本可能屬于多個類別,因此每個類別都有一個獨立的二元交叉熵損失。將每一個類別的損失相加作為總損失,從而將多分類問題轉換為二分類問題,其計算公式可以表示為
其中: σ(x) 是sigmoid函數; pi 表示樣本被預測為正例的概率;
yi 表示樣本的真實標簽。
不同的任務其反向傳播的梯度不同,對模型參數更新的影響不同,為了組合多任務優化訓練模型,本算法嘗試了兩種組合策略:第一種是使用動態權重平均(dynamicweightaverage,DWA)[23],DWA是一種在多任務學習中用于自適應調整任務權重的方法,它通過計算每個任務損失的變化率來自動調整任務的重要性,從而幫助模型更好地平衡不同任務之間的學習進度;第二種是定義了一個總損失函數,直接對不同任務的損失權重作調整,手動尋找經驗參數,其表示如式(3)所示。
其中 :Lcrs 代表BCEWithLogitsLoss損失,用于優化輸出預測; Lctr 代表對比損失,用于優化特征向量間的對齊; α 為平衡參數,用于調整對比損失與分類損失之間的相對重要性。在反向傳播過程中,文本和圖像特征向量后的全連接層會接收到來自對比損失和分類損失的梯度,從而實現梯度的雙重累積。這種設計使得模型不僅能夠關注于分類任務,還能夠關注到特征表示的學習,從而有效地學習到人物主體與上下文背景特征的統一表示。
2.2實驗設置及訓練細節
實驗基于PyTorch深度學習框架實現。大模型生成文本描述的最大token數設置為200提取的文本與圖像特征向量的維度 M 設為768,對于訓練,使用AdamW優化器,學習率設為1E-4,batchsize設為128,損失函數為用于多標簽分類的BCEWithLogitsLoss和對比損失,平衡參數設為0.7,訓練輪次為130輪。由于EMOTIC數據集較小,本算法模型后端使用了較大的全連接層,為防止過擬合,在全連接層后添加了dropout,概率為 0.6
2.3 實驗結果與分析
為了說明算法的有效性,本實驗選取了多種不同的典型算法進行比較,包括結合背景的多種語境解釋來識別情感的EmotiCon9網絡、基于關系區域分析和標簽關系建模的RRLA[24]網絡、基于情感圖推理的 CAG[8] 網絡以及融合圖像標題信息的 MCF[11] 網絡,這些網絡都是場景情感識別任務中的代表性方法,實驗將本文算法與這些方法在EMOTIC數據集上的各類別AP與mAP進行比較,AP是對不同閥值下計算出的一系列精度和召回率的綜合度量,mAP是所有類別AP的平均值,實驗結果如表1所示。
2 實驗及結果分析
2.1 數據集
本文選用了EMOTIC[5]數據集作為實驗的基礎,這是一個在自然環境條件下收集的大規模人物情感識別數據集。EMOTIC數據集由23571張圖像組成,共包含34320個經過詳細注釋的人物實例,每個人物都根據其顯而易見的情緒狀態進行了精確標注。該數據集的一個顯著特點是它涵蓋了26種不同的情感類別,每張圖像中的人物可能表現出其中的一個或多個情感狀態,這為情感識別任務提供了豐富的標簽信息。此外,數據集中還為每個人物提供了精確的邊界框標注,這有助于模型更準確地定位和識別圖像中的人物。
表1中列出了各個算法的每個類別上的AP精度以及mAP ,并突出顯示了最優的結果。可以看出,本文算法在絕大多數類別上的精度優于CAG和RRLA,在近三分之二的類別上精度超過EmotiCon,在所有類別的平均 mAP 上,本文算法達到了 37.30% ,相比于CAG、RRLA和MCF分別提高了8.88、4.89和7.76百分點(由于Bose等人論文中并沒有給出每個類別的AP,所以這里只使用mAP來對比),相比于當前mAP最優的算法EmotiCon也有2.02百分點的提升。對單個類別進一步分析可以看到,相較于其他方法,本模型性能在大多數涉及與環境互動的情感類別上5\~8百分點的提升。例如Affec-tion(愛),愛在人際關系和社會互動中扮演著核心角色,通常與親密、溫暖和對他人的關懷相關;Disapproval(不贊成),涉及對某人或某事的不同意或不認可;Surprise(驚訝),驚訝是一種復雜的情感,可以是積極的也可以是消極的,通常與意外的事件或信息相關。這說明模型更好地提取出了數據的上下文信息,人物主體特征與上下文背景特征進行了有效的組織和融合。
但模型同時也存在一些局限,例如在Anticipation和Peace類別上的性能低于已有方法,對于一些極端困難的情感類別如Aversion和Embarrassment,并未看到顯著的效果,對比學習可能無法捕捉到一些情感類別的細微差異,這受限于大模型生成的文本質量以及對比損失的細粒度控制,這是后續工作的重點。
在表2當中,本實驗對比了使用DWA[24]與自定義的多任務平衡損失公式使用不同的平衡參數對模型性能的影響。
從表中可以看出,本文的平衡公式多數情況下較DWA有一定提升,且使用不同的平衡參數對模型性能的波動較小,這一定程度上說明了模型的魯棒性,無須進行煩瑣的超參數搜索,只需給出大致范圍就能獲得較好的性能。
圖7中展示了不同方法在實例樣本上的識別結果,圖像中方框標注的即為識別目標,使用者可以框定圖中人物作為目標。GroundTruth列出了樣本的真實標簽,是要識別的結果,后三列為不同方法的識別結果,CAG效果較差,而本文方法與EmotiCon效果接近,在某些類上有差異。這種情感識別系統可以用于非接觸式的醫療健康監測、學生學習情況反饋等。
2.4 消融實驗
為了進一步驗證本文算法在圖像人物情感識別任務上的有效性,通過消融實驗評估了本文方法在不同條件下的性能。實驗結果如表3\~5所示。
相較于只從圖像中抽取特征,根據圖像生成文本描述和圖像來進行訓練的模型性能總體性能更優,將圖像中人物主體裁剪出來進行融合性能優于與全圖融合,只對圖像和文本簡單相加的融合方式就分別有2.40和4.05百分點的提升,證明了將圖像信息轉移到文本結構之中比只使用圖像提取出了更好的上下文信息,且只保留人物主體與文本進行融合的做法去除了信息冗余,幫助模型找到了關鍵特征。在加人對比融合模塊之后,文本描述 + 整張圖像提升2.27百分點,文本描述 + 裁剪主體提升3.01百分點,性能均有較大提升,這說明對比損失對于上下文文本特征與主體圖像特征的融合產生了關鍵的增益,學習到了更好的用于情感分類的特征表示。
3結束語
本文提出了一個基于圖文對比融合的圖像人物情感識別網絡,借助視覺語言大模型來抽取圖像的人物關系、自然背景、人與環境的交互等信息,構建上下文語義,最后通過圖文對比融合模塊將兩個分支抽取到的特征進行融合。本文提出的研究方法在非受控圖像人物情感識別任務上準確率有一定提升,但關于如何挖掘大模型能力以更好的適配本任務,對比融合方法的深層次作用機制等問題,仍有待研究。
參考文獻:
[1]Guo Runfang,Guo Hongfei,Wang Liwen,et al.Development and application of emotion recognition technology—asystematic literaturereview[J].BMCPsychology,2024,12(1):95.
[2]Canal FZ,MullrTR,Matias JC,et al.A survey on facial emotion recognition techniques:a state-of-the-art literaturereview[J].InformationSciences,2022,582:593-617.
[3]Greenaway K H,Kalokerinos E K,Williams L A. Context is everything (in emotion research)[J]. Social and Personality Psychology Compass,2018,12(6) :e12393.
[4]Lee J,Kim S,Kim S,et al. Context-aware emotion recognition networks[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ: IEEE Press,2019:10142-10151.
[5]Ruan Shulan,Zhang Kun,Wang Yijun,et al.Context-aware generationbased net for multi-label visual emotion recognition[C]//Proc of IEEE International Conference on Multimedia and Expo.Piscataway,NJ: IEEEPress,2020:1-6.
[6]Hoang M H,Kim S H,Yang HJ,et al.Context-aware emotion recognition based on visual relationship detection[J]. IEEE Access,2021, 9:90465-90474.
[7]Kosti R,Alvarez JM,Recasens A,etal.Context based emotion recognition using EMOTIC dataset[J]. IEEE Trans on Pattern Analysis andMachine Intelligence,2020,42(11):2755-2766.
[8]Zhang Minghui,Liang Yumeng,Ma Huadong. Context-aware affective graphreasoning for emotion recognition[C]//Proc of IEEE International Conference on Multimedia and Expo.Piscataway,NJ:IEEE Press,2019:151-156.
[9]Mittal T,Guhan P,Bhattacharya U,et al.EmotiCon:context-aware multimodal emotion recognition using Frege'sprinciple[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2020:14222-14231.
[10]YangDingkang,Chen Zhaoyu,Wang Yuzheng,et al.Context deconfounded emotion recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2023:19005-19015.
[11]Bose D,Hebbar R,Somandepalli K,et al.Contextually-rich human affect perception using multimodal scene information[C]//Proc of IEEEInternational Conference on Acoustics,Speechand Signal Processing.Piscataway,NJ:IEEEPress,2O23:1-5.
[12]DosovitskiyA,BeyerL,Kolesnikov A,et al.An image is worth 16×16 (20號 words:Transformers for image recognition at scale[EB/OL].(2021- 06-03)[2024-12-08]. http://doi.org/10. 48550/arXiv.2010. 11929.
[13]LiChunyuan,Gan Zhe,YangZhengyuan,etal.Multimodal foundation models:from specialists to general-purpose assstants[J].Foundationsand Trends@ in Computer Graphicsand Vision,2024,16 (1-2) :1-214.
[14] Li Junnan,Li Dongxu,Savarese S,et al.BLIP-2: bootstrapping language-image pre-training with frozen image encoders and large language models[C]//Proc of International Conference on Machine Learning.Cambridge,MA:PMLR,2023:19730-19742.
[15]Luo Ziyang,Zhao Pu,Xu Can,etal.LexLIP:lexicon-bottlenecked language-image pre-training for large-scale image-text sparse retrieval [C]//Proc of IEEE/CVF International Conference on ComputerVision.Piscataway,NJ:IEEE Press,2023:11172-11183.
[16]Zhao Zengqun,Patras I. Prompting visual-language models for dynamic facial expression recognition[EB/OL].(2024-11-26)[2024-12-08]. https://doi.org/10.48550/arXiv.2308.13382.
[17]Xenos A,Foteinopoulou NM,Ntinou 1,et al.VLLMs provide better context for emotion understanding through common sense reasoning [EB/OL].(2024-04-10)[2024-12-08].https://doi.org/10. 48550/arXiv.2404.07078.
[18]Liu Haotian,Li Chunyuan,Wu Qingyang,et al.Visual instruction tuning[C]//Proc of the 37th International Conference on Neural Information Processing Systems.Red Hook,NY: Curran Associates Inc., 2023: 34892-34916.
[19]Zhang Beichen,Zhang Pan,Dong Xiaoyi,et al.Long-CLIP:unlocking thelong-text capability of CLIP[C]//Proc of European Conference on Computer Vision. Cham :Springer,2024 :310-325.
[20] Zhao Sicheng,Jia Guoli,Yang Jufeng,et al.Emotion recognition from multiple modalities: fundamentalsand methodologies[J].IEEE SignalProcessingMagazine,2021,38(6) :59-73.
[21]Radford A,KimJW,Hallacy C,et al.Learning transferable visual models from natural language supervision[C]//Proc of International Conference on Machine Learning.Cambridge,MA:PMLR,2021: 8748-8763.
[22]Van der Maaten L,Hinton G.Visualizing data using t-SNE[J]. Journal ofMachine LearningResearch,2008,9(11) :2579-2605.
[23]Liu Shikun,JohnsE,DavisonAJ.End-to-end multi-task learning with attention[C]//Proc of IEEE/CVF Conference on Computer Vision andPattern Recognition.Piscataway,NJ: IEEE Press,2019:1871- 1880.
[24]Li Weixin,DongXuan,Wang Yunhong.Human emotion recognition withrelational region-level analysis[J].IEEE Trans on Affective Computing,2023,14(1) :650-663.