摘要:針對多模態融合效果不佳,不能充分挖掘特定時間段,多視角關鍵情感信息的問題,提出了一種基于多視角的時序多模態情感分類模型,用于提取特定時間段,多視角下的關鍵情感信息。首先,對文本標題及文本內容兩種視角下的數據進行低維空間詞嵌入和序列表達,提取不同視角的多模態時序特征,對圖片截取,水平鏡像兩種視角下的數據進行特征提取;其次,采用循環神經網絡構建多模態數據的時序序列交互特征,增大互信息;最后,基于對比學習進行聯合訓練,完成情感分類。該模型在兩個多模態情感分類基準數據集Yelp和Mutli-Zol上評估,準確度分別為73.92%、69.15%。綜合實驗表明,多視角的特定時間段多模態語句序列可提升模型性能。
關鍵詞:情感分類;多模態;多視角;時序特征;對比學習
中圖分類號:TP391文獻標志碼:A
文章編號:1001-3695(2023)01-017-0102-05
doi:10.19734/j.issn.1001-3695.2022.06.0298
Temporal multimodal sentiment classification based on multi-view learning
Tao Quanhuia,An Junxiua,Dai Yuruia,Chen Hongsonga,Huang Pingb
(a.School of Software Engineering,b.School of Management Chengdu University of Information Technology,Chengdu 610225,China)
Abstract:Aiming at the problem that the multi-modal fusion effect is not good,and the key emotional information from specific time periods and multiple perspectives cannot be fully mined,this paper proposed a time-series multi-modal emotional classification model based on multiple perspectives to extract
key information from multiple perspectives in a specific time period.
Firstly,it performed low-dimensional spatial word embedding and sequence expression on the data from the two perspectives of text title and text content,extracted multi-modal time series features from different perspectives,and performed feature extraction on the data from two perspectives of image interception and horizontal mirroring.Secondly,it used the recurrent neural network to construct the time series interaction features of multi-modal data to increase mutual information.Finally,joint training was performed based on contrastive learning to complete sentiment classification.The model was evaluated on two multi-modal sentiment classification benchmark datasets Yelp and Mutli-Zol,with accuracies of 73.92% and 69.15%,respectively.Comprehensive experiments show that multi-view multi-modal sentence sequences in specific time periods can improve model performance.
Key words:sentiment classification;multimodality;multiview;temporal features;contrastive learning
0引言
隨著科技的發展,YouTube、Instagram、Twitter、Facebook等眾多社交媒體平臺的巨大增長,數據包含的信息越來越豐富,單個視角已不能全面描述數據特征,因此,需要從不同的視角來獲得更全面的多模態數據(文本+圖像)特征。目前已有大量學者開始對多模態情感分類進行研究,但是基于多視角學習,如何有效地融合多模態信息(文本、圖片信息等多視角模態信息)進行情感分類是一個急需解決的問題。
多模態信息豐富,形式多樣。其中文本信息存在歧義同時語義信息和上下文語句緊密相關,圖像雖然能通過表情、肢體動作、情景等直觀形式表達情感相關的信息,但是圖像難以獲得語義信息,傳達信息比較片面,圖文結合這種多模態數據可以更加直觀地體現用戶的情感態度。例如從表情的角度來說,當說話人呈現一個傷心難過的表情時,大部分情況下他說話的文本與面部表情是保持一致的,所以文本和圖像其實可以很好地互補,以增加情感分類的準確度。然而,如何有效地結合多模態信息并使其充分相互補充融合,則是一項重要任務。文獻[1]考慮在時序和空間上對齊不同模態的數據特征來進行情感分類。文獻[2,3]考慮在相同時間段內不同數據模態的內容對齊性,進行情感分類。Mai等人[4]考慮的是多模態數據語義差異進行對比學習進行情感分類。雖然多模態數據可用于情感分類,但是文獻[5]認為納入所有可用信息有利于提高情感分類性能,但并非所有信息都發揮有效作用,為了更好地解決這個問題,其提出了一種新的融合方法,通過關注圖文融合中多視角的特定時間段上下文語句信息,可更好地提升分類的效果。其次,在多模態情感分類中,跨語境的模態之間的對齊性[6]是非常重要的。通過對文本特征與圖像特征嵌入位置信息,使得獲取的時間序列信息更全面,文本的每個分詞位置和對應圖像特征進行配對,最終得到圖像的長度和文本的長度一樣,進而提取融合后的特定時間段序列信息,從而進行情感分類。
在實踐案例中,如動物圖像分類、情感文本分類等,數據特征通常來自多個特征源,每一個特征源對應于一個視角(view),也稱為多視角數據特征。例如從一張圖像中提取不同顏色通道的特征,從一張圖像的不同區域提取不同的位置特征,將圖像進行截取,提取不同的屬性特征。多視角學習主要是對多模態數據的每一個視角進行建模,然后聯合不同視角的數據以提高模型學習性能[7]。多視角問題的處理辦法通常是將不同視角的數據合成單視角問題來解決,但是這種方法不能充分結合多視角特征數據之間的互補性與一致性,簡單地合并反而會增加數據的冗余,降低模型性能。相反,對多模態數據進行多視角特征提取,提取出多個不同維度的多模態特征生成多視角數據,可增大數據交互信息,提升模型準確率。
綜上所述,本文提出了一種基于多視角學習的時序多模態情感分類模型,從不同維度的特征來生成多視角數據。在Yelp[8]和Mutli-Zol[9]兩個多模態情感分類數據集上評估了提出方法。評估表明,在各種輸入形式(即文本、圖像)的組合上,獲得了較好的性能。
1相關工作
1.1多模態情感分類
情感分類主要分為單模態情感分類以及多模態情感分類。在單模態情感分類中,文獻[10~12]提出基于統計的方法,提取單模態文本中主要的情感詞進行文本分類。但是,傳統的單模態數據形式單一、表達內容片面,不能全面地預測情感。隨著新媒體時代的快速發展,用戶產生的數據量越來越龐大且形式多樣性。一個相對較新的領域,多模態情感分類被廣泛關注。
多模態情感分類融合模型大體分為特征層融合和深度學習方法融合兩類,早期的一些基于特征層融合的工作[13]通過混合不同模態的數據信息進而分類,解決了句子層面的多模態情感分析。Davidov等人[14]使用Twitter標簽和笑臉作為情感標簽,以加強情感學習,提出了一個新的超視覺化的情感分類模型。然而,基于特征工程的方法工作量大,消耗了大量的時間和精力,特征選擇可能會導致特征偏差等問題。深度學習融合方法可以解決特征工程的缺點,其方法可以被進一步歸為特征級融合方法、決策級融合方法和混合融合方法三個子類。相比之下,混合融合模型靈活地融合了多模態的信息,而且在融合階段沒有特定的融合邊界。例如,Hu等人[15]利用了深度神經網絡來提取文本特征和圖像特征,連接層被用來融合這兩種類型的特征,從視覺和文本信息中預測用戶的潛在情緒。此外,Gallo等人[16]通過一維卷積層、最大集合層和完全連接層對文本進行編碼,提取的文本特征用來增強圖像的信息,然后用CNN對情感進行分類。Xu等人[17]提出了一個共同記憶網絡模型來挖掘圖像和文本之間的關系,文本引導視覺記憶網絡和圖像引導文本記憶網絡,以利用視覺和文字信息相互促進,相對而言,能充分利用圖像的語義信息來引導文本中的情感詞,以進行多模態情感分類。文獻[18]考慮到了目標語篇及其鄰近語篇之間的相關信息、目標語料及其相鄰語料之間的相關信息,采用了一個新的多模態注意網絡來挖掘語境信息。
1.2多視角學習
多視角學習在深度學習領域中應用廣泛。例如多視角聚類[19]、多視角分類[20]、多任務多視角學習[21]等任務。在傳統的機器學習中,普遍的研究方法都是基于單視角數據的,但是隨著深度學習的快速發展,數據的形式以及數據特征更具多樣化,圖像、文本等不同類型的數據相結合組成的多視角數據,越來越多地應用在深度學習中。多視角數據有著更豐富的信息。例如,在商品評論以及時事熱點評論中,不僅有文本,還有配圖等,并且文本中有標題、內容、評論等不同視角數據。對于圖像來說,圖像的不同區域,例如圖像背景、圖像的中心區域、圖像位置(圖像平移、水平鏡像)等不同視角下的數據,多視角學習需要結合不同模態、不同視角下的數據來完成情感分類,單視角不能全面地概括整體事物特征,在多視角學習中,每個獨立的視角數據都含有一些其他視角數據中所不包含的信息,使得多視角學習算法能夠利用這些互補信息更好地描述問題。多視角學習已有大量的研究成果[22],現有方法主要用特征融合以及分類器融合,結合不同視角數據的互補信息,提升模型性能。從矩陣的分解和重構的角度,實現多個視角的信息融合,但需要預先給出相似矩陣,并且沒有充分結合多視角學習方法。
綜上所述,目前方法通常提取單一特征來進行多模態特征融合,多視角特征可以挖掘更多的上下文信息以及數據之間的互信息,融合后特征的類別增加。然而,多視角特征通常含有更多的噪聲。因此,不同模態數據特征之間的相互作用以及不同視角的數據之間,如何有效地減少噪聲并廣泛地挖掘多視角特征之間的相互作用,是亟待解決的問題。
基于以上的分析,與現有工作之間的根本區別在于,本文方法更多地關注多模態融合多視角數據,重點提取特定時序語境信息進行情感分類,目前工作是嘗試使用多模態注意塊(結合多視角時序挖掘重點語句)進行情感分類的工作,該框架利用跨模態和多視角的時序語句進行情感分類。
2多視角時序多模態情感分類模型
圖1為多視角時序多模態情感分類模型結構,模型結構由以下三部分組成:
a)不同視角的數據特征層。本文首先對文本標題以及文本內容兩視角數據進行特征提取;然后數據低維度嵌入,序列表達;其次基于不用視角對圖片數據截取以及水平鏡像等不同視角操作提取數據特征,實現單模態多視角特征提取,得到單模態數據增強特征。
b)時間序列交互特征層。采用循環神經網絡構建多模態信息(文本+圖像)的時序序列交互特征,增大多模態數據的互信息。
c)特征對比學習層。通過原始數據與數據增強后多視角特征數據進行對比學習,進而完成多模態情感分類任務。
2.1不同視角的數據特征層
2.1.1多視角文本數據特征
對于文本數據,給定含有n個單詞的文本T={t1,t2,…,tn}。為了遍歷獲取文本標題及內容兩個視角下富含情感的單詞,首先,本文使用基于雙向編碼器表示技術BERT(bidirectional encoder representations from transformers)生成單詞編碼,并能獲取其上下文信息,例如給定一個句子,使用BERT模型提取后的特征TOS∈Euclid Math TwoRApN×b,其中,S代表句子,N代表句子長度,b為BERT的掩碼數大小,O為原始文本特征。其次,為了保證序列攜帶時間信息,并將其輸入序列通過一個一維的時間卷積層。然后使用mean pooling計算情感向量平均特征,使用max pooling計算情感向量的極端特征,得到的文本情感數據表征為TPemo={tp1,tp2,…,tpn},其中,p代表經過mean pooling和max pooling操作。得到富有情感信息的文本;最后,進行特征匯聚,得到包含情感的多視角文本特征數據。
2.1.2多視角圖像數據特征
1) 多視角圖像數據特征為構建不同視角的圖像數據特征,豐富數據之間的互信息。本文對圖像數據進行多視角特征提取,包括區域劃分、圖像水平鏡像、圖像平移等操作。實驗數據集中的每個樣本X={x1,x2,…,xn}都是一個長度為L的時間序列數據,可以將數據分為文本(T)、圖像(V),圖片數據為V={v1,v2,…,vn}。為了聚焦含情感信息區域,對圖像背景占比面積大、信息含量低、數據噪聲多的區域進行截取,從原始1 024×256的圖像數據中切分出256 × 256大小的信息區如圖2所示,得到數據為Vc={Vc1,Vc2,…,Vcn}。
其次對圖像數據進行鏡像、平移等幾何變換,在增加數據的多樣性的同時也可提升模型的魯棒性,其具體做法為水平鏡像:將圖像左右部分進行對換,原圖像坐標為(x0,y0),變換后圖像坐標為(x1,y1),原圖像的高度為h,寬度為w,如式(1)所示。
圖像平移處理能保留圖像基本數據特征,又擴充了實驗數據,對此,本實驗將數據進行位置平移,即上下、左右改變數據位置。設圖像像素點的坐標為(x,y),平移量為Δx、Δy,那么平移后的像素點坐標為(x′,y′),平移處理的計算如式(2)所示。
通過圖形數據增強得到最終不同視角的數據為Vcd={Vcd1,Vcd2,…,Vcdn},其中d代表圖像視角數量。
2)圖像局部特征提取圖像全局區域特征與局部區域信息含量存在差別。為了充分挖掘圖像信息,本文使用Faster R-CNN提取局部特征VOo,VGG模型提取圖像全局特征VOg,其中O代表原始特征,g代表局部特征,然后將兩種特征相加,送入到全連接層和ReLU激活函數減少梯度消失問題,得到圖像全局特征IOo、局部特征IGg。
IOo=ReLU(Wo(VOo)+Bo)(3)
IOg=ReLU(Wg(VOg)+Bg)(4)
其中:Wo、Bo、Wg、Bg分別為不同特征下的權重和偏置矩陣。
2.2時間序列交互特征層
對于數據樣本,經過視覺模態增強處理和文本模態嵌入提取情感信息,分別得到了其不同視角下的特征表達,分別為Vcd、Tpemo,將這兩個特征拼接起來形成最終實驗樣本Xi={xit:1≤t≤ni,xtt∈Euclid Math TwoRApdix},i∈{T,V}。
xi=Vcd+TPemo(5)
序列交互模塊是通過建模數據序列特征間的交互作用進而提取特征向量,其主要采用循環神經網絡構建多模態特征的方法進行序列交互。循環神經網絡中最經典的一種結構為長短期記憶網絡(long short-term memory,LSTM),主要分為輸入門、遺忘門和輸出門三個部分。輸入門控制每個時刻的輸入數據信息,遺忘門控制傳遞到下一時刻的數據信息,輸出門控制每個時刻輸出的數據信息,具體操作過程如下:
ft=δ(wf·[ht-1,xt]+bf)(6)
it=δ(wi·[ht-1,xt]+bi)(7)
c⌒t=tanh(wc·[ht-1,xt]+bc)(8)
ct=ft·ct-1+it·c⌒t(9)
ot=δ(wo·[ht-1,xt]+bo)(10)
ht=ot·tanh(ct)(11)
其中:ht-1是t-1時刻的隱式狀態表達式;xt為t時刻的輸入;wf、wi、wc、wo、bf、bi、bc、bo為可訓練的參數矩陣和向量。ht-1用于下一個時刻可能分的類別。
2.3特征對比學習層
本節基于對比學習思想,將多視角數據與原始數據集{vi1,vi2}Ni=1進行對比學習,最大化挖掘數據的差異。為對比數據差異,增加模型的準確率,將原始數據以及多視角數據進行實驗對比,發現對比學習的損失優于基于傳統的文本分類方法,以及多視角的數據越多,可以捕獲的數據特征也更全面和準確。對比學習的損失公式為
lv1,v2contrast=-∑(v11,v12,…,vk+12)[loghθ({v11,v12})∑k+1j=1hθ({v11,vj2})](12)
3實驗與分析
本文通過實驗評估了模型在Yelp和Multi-ZOL兩個數據集上的實驗效果。由于Yelp為英文文本,Multi-ZOL為中文文本,在預處理上中文文本需要多加一個步驟,即使用自然語言處理工具包進行分詞操作;然后同英文文本一樣,送入BERT進行嵌入詞向量表示,采用BertTokenizer將上下文轉換為程序可以處理的id表示;最終,通過雙向的LSTM獲得文本的上下文依賴關系。實驗比較了多視角的特定時間段的多模態數據對于情感分類的影響,驗證了多視角數據的時序特征,可豐富數據之間的互信息,不同模態數據特征融合可更全面獲取數據中的情感數據,提升情感分類模型準確率。
3.1數據集
實驗中兩個數據集都被隨機分為訓練集、測試集和驗證集,分割比分別為8:1:1。其中,Yelp是10個大都市地區209 393家企業的餐廳和食品的評論數據,數據包含餐飲業務、食品評論、照片等。為了使模型有更好的準確率,本文只使用餐飲的評論及照片數據。一共有44 305條評論和233 569張圖片,每條評論情感標注的分數為1~5,數據樣例如表1所示,評級星在1星(最差)~5星(最好)。每個評級類別的評論數量為不平等的,數據分布情況圖3所示,可以發現數據大多數的評價都是4星和5星。
Multi-ZOL是對手機的評論信息??偣? 288條,每條評論信息包含文本以及圖片,且評論包含性能配置、性價比、電池壽命、外觀、相機性能六個方面、截圖性能,每條評論的每個方面的分數為1~10,但是可以看到情感標簽為7和9的評論樣本數為0,標簽1、3、5的標簽數量很少。為了和Yelp數據集的五分類標簽一致,在Multi-ZOL中執行情感分類標簽任務時模型標簽數量設置為五分類,數據集的情感標簽分布以及數據詳細信息及示例分別如圖4和表2所示。
3.2對比模型
本文實驗與一些多模態情感分類的基線方法對比。這些方法中數據模態有文本、圖像以及音頻。本文主要與使用圖文相融合的數據方法進行比較,但是為了模型的泛化性,同樣也對比分類其他模態融合效果,當然也包括三模態融合,基線方法簡述如下:
a)ALBEF[23]。圖像、文本對比學習,使用單模態圖像編碼器和文本編碼器,使圖像特征和文本特征相一致。
b)ViLT[24]。用預訓練的ViT來初始化交互的transformer,用交互層來處理視覺特征,進行分類任務。
c)CMA-CLIP[25]。用兩種類型的跨模態注意力,序列級注意力和跨模態注意力,兩種注意力方式有效融合信息。
d)Raw CLIP[26]。將text decoder從文本中提取的語義特征和image decoder從圖像中提取的語義特征進行匹配訓練。
e)MMIM[27]。結合多模態情感分析和相互信息,以防止任務相關信息的丟失。
f)(multimodal transformer,MulT)多模態變換器[28]。
MuIT使用定向成對交叉模式注意力跨不同時間步長的多模式序列之間的交互,并潛在地將一個模態轉換為另一個模態。
3.3實驗設置及評價指標
本實驗使用Python 3.7編寫,使用的深度學習框架為PyTorch 1.2.0,采用的實驗超參數配置如表3所示。其中不同模態的數據參數配置不同,例如在文本中,為了充分獲取句子的全部信息,本文設置句子的最大長度為125個字符,對圖像維度進行統計發現(256,256,3)所包含的信息量最大、數據噪聲少、無多余背景信息等。文本模態的批量大小為128,圖片為三通道數據形式,批量大小為256。針對學習率以及批量大小,經多次實驗發現,當學習率為0.05,文本批量大小為128和圖像批量大小為256時,模型的性能表現最好。在文本與圖像對齊的情況下,批量大小的取值越大模型的效果較差,適當的大小能提取更精確的特征,說明圖文信息融合緊密,更利于模型學習多視角信息,提升性能。對于多模態分類任務,與文獻[25]保持一致,實驗選取ReLU為激活函數,加權平均的F1值(weighted average F1)為綜合評價標準,數值越大代表性能越好。
3.4實驗結果與分析
表4顯示了在Yelp和Multi-ZOL上評估本文模型的實驗結果與其他模型accuracy和macro-F1的比較結果。本文提出的多模態情感分類算法結果均優于經典的算法,從表4可以看出,本文模型使用雙模態數據(文本和圖像)取得了最好的結果,其中在Yelp上效果優于Multi-ZOL的結果。在Yelp中不同模態融合數據中,各模型性能差異較大,說明英文文本更利于模型學習,中文的歧義性會影響模型性能。
從實驗結果可知,在兩個數據集上與其他模型進行對比分析,Raw-CLIP和CMA-CLIP在兩種數據集上的分類性能都較差,這說明盡管對比學習特征能讓模型更好地自主學習特征,但是依然存在缺陷,仍需要人工提取特征。ALBEF、VilT、MMIM和MulT的性能相對較優,但是在兩個數據集中,本文所提利用多視角學習的時序多模態特征結果均是最高,都優于對比方法。本文模型將單模態擴展到多模態,并引入了多視角數據信息以及進行對比學習,更好地挖掘數據之間的互信息。由于本文模型可以更全面地反映說話者的情緒狀態,并且可以通過文本和圖像模態之間的序列交互來捕捉更多的情感特征,所以它在評估指標上的表現都得到了顯著的提升。在兩個公共數據集上的實驗結果也說明本文方法在其他多模態數據集上有不錯的泛化性,充分驗證了本文基于多視角學習的時序多模態情感分類模型的有效性。
3.5消融實驗
表4結果表明,本文模型是多視角時序多模態情感分類的最佳模型,并且實驗中發現ALBEF、MMIM、MuIT的實驗評分次之,在Yelp中不同模態融合數據中,各模型性能差異較大。為了進一步驗證多視角、多模態的有效性,將表4Yelp中排名前4的模型,進行進一步實驗對比分析,驗證本文模型在多模態數據集上的提升,在單模態數據集上分別進行了對比實驗,驗證多模態融合效果;其次,與原數據進行對比學習,驗證不同視角的數據可提升模型的準確度,以評估模型有效性??梢园l現,與多模態相比,單模態文本數據與單模態圖像數據,準確率均有一定幅度的下降,這說明多模態可增大數據的互信息,能有效提升模型的性能;另外本文提出的模型準確率依然最高73.92%,說明多視角信息可幫助模型識別多模態間的相關性,提升性能。充分驗證了本文模型的多視角時序多模態信息能提升模型性能,與ALBEF、MMIM、MulT模型進一步實驗對比結果如表5所示。
3.6實例分析
為了體現多視角以及多模態的重要性以及本文模型的泛化性,證明不同實驗參數的性能,在兩種實驗數據集上進行隨機選取超參數樣例測試,分別可視化對比了兩個超參數在兩個數據集上的實驗效果,進行了一系列的超參數實驗,以分析兩個超參數的敏感性。詳細結果如圖5(a)學習率在{0.005,0.01,0.05,0.1,0.5,1},圖5(b)批量大小{16,32,64,128,256,512}。圖5顯示了超參數敏感性分析的結果。從圖5中可以看出,本文模型對批量大小的敏感性很小。對學習率很敏感,并且從準確率結果容易得知在引入多模態圖像數據信息后,多視角數據可以更全面地挖掘圖像信息,獲取更多的數據特征。通過以上實例分析,本文模型能有效結合多模態信息,不同超參數對模型影響較大,說明參數的大小影響數據的對齊性,以及數據之間的互信息影響較大,后續研究中更多的關注數據信息,能準確地對評分等級進行分類。
4結束語
本文對多視角的時序多模態數據進行情感分類。首先,對文本數據的標題以及主體評論內容兩個視角數據進行特征提取、低維度嵌入,對圖片數據截取、鏡像、平移等不同視角下進行特征提取操作;其次為了使多模態數據序列攜帶時間信息,將序列進行一維卷積獲取位置編碼信息,增加位置嵌入;最后,通過循環神經網絡構建多模態信息的時序序列交互特征,促進視覺信息與文本信息對齊。并且多視角數據與原數據進行對比學習,在多模態情感分類數據集上實驗驗證表明,本文對多模態融合中多視角數據進行提取與原數據對比,特定時間下的多視角可以提升情感分類任務性能,并且模型有一定的泛化性,可用于其他不同類型的多模態組合數據。未來,將對數據進行多指標挖掘以獲得更加準確的情感分類。
參考文獻:
[1]Wu Yang,Lin Zijie,Zhao Yanyan,et al.A text-centered shared-private framework via cross-modal prediction for multimodal sentiment analysis[C]//Proc of Findings of the Association for Computational Linguistics:ACL-IJCNLP.2021:4730-4738.
[2]Yu Wenmeng,Xu Hua,Yuan Ziqi,et al.Learning modality-specific representations with self-supervised multi-task learning for multimodal sentiment analysis[C]//Proc of AAAI Conference on Artificial Intelligence.2021:10790-10797.
[3]楊楊.適應開放環境的多模態學習技術[D].南京:南京大學,2019.(Yangyang.Multi-modal learning techniques for open environment[D].Nanjing:Nanjing University,2019.)
[4]Mai Sijie,Hu Haifeng,Xing Songlong.Modality to modality translation:an adversarial representation learning and graph fusion network for multimodal fusion[C]//Proc of AAAI Conference on Artificial Intelligence.2020:164-172.
[5]Lyu Chenyang,Foster J,Graham Y.Improving document-level sentiment analysis with user and product context[C]//Proc of the 28th International Conference on Computational Linguistics.2020:6724-6729.
[6]Rogers R.A critical discourse analysis of literate identities across contexts:alignment and conflict[M]//An Introduction to Critical Discourse Analysis in Education.2004:28.
[7]Zhao Jing,Xie Xijiong,Xu Xin,et al.Multi-view learning overview:recent progress and new challenges[J].Information Fusion,2017,38:43-54.
[8]Zhang Yongfeng,Lai Guokun,Zhang Min,et al.Explicit factor models for explainable recommendation based on phrase-level sentiment ana-lysis[C]//Proc of the 37th International ACM SIGIR Conference on Research amp; Development in Information Retrieval.2014:83-92.
[9]Xu Nan,Mao Wenji,Chen Guandan.Multi-interactive memory network for aspect based multimodal sentiment analysis[C]//Proc of the 33rd AAAI Conference on Artificial Intelligence and 31st Innovative Applications of Artificial Intelligence Conference and 9th AAAI Symposium on Educational Advances in Artificial Intelligence.2019:371-378.
[10]Thelwall M,Buckley K,Paltoglou G,et al.Sentiment strength detection in short informal text[J].Journal of the American Society for Information Science and Technology,2010,61(12):2544-2558.
[11]何力,鄭灶賢,項鳳濤,等.基于深度學習的文本分類技術研究進展[J].計算機工程,2021,47(2):1-11.(He Li,Zheng Zhaoxian,Xiang Fengtao,et al.Research progress in text classification technology based on deep learning[J].Computer Engineering,2021,47(2):1-11.)
[12]滕金保,孔韋韋,田喬鑫,等.基于LSTM-Attention與CNN混合模型的文本分類方法[J].計算機工程與應用,2021,57(14):126-133.(Teng Jinbao,Kong Weiwei,Tian Qiaoxin,et al.Text classification method based on the hybrid model of LSTM-Attention and CNN[J].Computer Engineering and Applications,2021,57(14):126-133.)
[13]Rozgic′ V,Ananthakrishnan S,Saleem S,et al.Ensemble of SVM trees for multimodal emotion recognition[C]//Proc of Asia Pacific Signal and Information Processing Association Annual Summit and Confe-rence.2012:1-4.
[14]Davidov D,Tsur O,Rappoport A.Enhanced sentiment learning using twitter hashtags and smileys[C]//Proc of the 23rd International Conference on Computational Linguistics:Posters.2010:241-249.
[15]Hu A,Flaxman S.Multimodal sentiment analysis to explore the structure of emotions[C]//Proc of the 24th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining.2018:350-358.
[16]Gallo I,Calefati A,Nawaz S,et al.Image and encoded text fusion for multi-modal classification[C]//Proc of Conference on Digital Image Computing:Techniques and Applications.2018:1-7.
[17]Xu Nan,Mao Wenji,Chen Guandan.A co-memory network for multimodal sentiment analysis[C]//Proc of the 41st International ACM SIGIR Conference on Research amp; Development in Information Retrieval.2018:929-932.
[18]Kumar A,Vepa J.Gated mechanism for attention based multi modal sentiment analysis[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.2020:4477-4481.
[19]Huang Shudong,Kang Zhao,Tsang I W,et al.Auto-weighted multi-view clustering via kernelized graph learning[J].Pattern Recognition,2019,88:174-184.
[20]Li Jinxing,Zhang B,Lu Guangming,et al.Generative multi-view and multi-feature learning for classification[J].Information Fusion,2019,45:215-226.
[21]Lu Runkun,Liu Jianwei,Lian Siming,et al.Multi-view representation learning in multi-task scene[J].Neural Computing and Applications,2020,32(14):10403-10422.
[22]Ghosal D,Akhtar M S,Chauhan D,et al.Contextual inter-modal attention for multi-modal sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing.2018:3454-3466.
[23]Li Junnan,Selvaraju R,Gotmare A,et al.Align before fuse:vision and language representation learning with momentum distillation[C]//Advances in Neural Information Processing Systems.2021:9694-9705.
[24]Kim W,Son B,Kim I.ViLT:vision-and-language transformer without convolution or region supervision[C]//Proc of the 38th International Conference on Machine Learning.2021:5583-5594.
[25]Liu Huidong,Xu Shaoyuan,Fu Jinmiao,et al.CMA-CLIP:cross-modality attention CLIP for image-text classification[EB/OL].(2021-12-07).https://arxiv.org/abs/2112.03562.
[26]Maragkakis M,Alexiou P,Nakaya T,et al.CLIPSeqTools—a novel bioinformatics CLIP-seq analysis suite[J].RNA,2016,22(1):1-9.
[27]Han Wei,Chen Hui,Poria S.Improving multimodal fusion with hie-rarchical mutual information maximization for multimodal sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing.2021:9180-9192.
[28]Tsai Y H H,Bai Shaojie,Liang P P,et al.Multimodal transformer for unaligned multimodal language sequences[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics.2019:6558-6569.
收稿日期:2022-06-22;修回日期:2022-08-16基金項目:國家自然科學基金資助項目(71673032);四川省社會科學高水平團隊基金資助項目(2015Z177)
作者簡介:陶全檜(1995-),女,四川達州人,碩士研究生,主要研究方向為自然語言處理、多模態情感分析、深度學習;安俊秀(1970-),女(通信作者),山西臨汾人,教授,碩導,主要研究方向為大數據、分布式計算(86631589@qq.com);戴宇睿(1998-),男,四川成都人,碩士研究生,主要研究方向為大數據分析、自然語言處理、深度學習;陳宏松(1997-),男,河南信陽人,碩士研究生,主要研究方向為自然語言處理、多模態對話系統;黃萍(1963-),女,四川營山人,教授,主要研究方向為旅游大數據可視化決策研究、旅游管理工程、氣象防災減災與應急管理.