doi:10.19734/j.issn.1001-3695.2024.08.0369
Audio-visual segmentation network with multi-dimensional cross-attention fusion
LiFanfan,Zhang Yuanyuan,Zhang Yonglong,Zhu Junwu? (School of Information Engineering,Yangzhou University,Yangzhou Jiangsu 2251Oo,China)
Abstract:Audio-visual segmentation (AVS)aimsto locateandaccuratelysegmentthesoundingobjects inimagesbasedon both visualandauditoryinformation.Whilemostexistingresearch focusesprimarilyonexploring methods foraudio-visualinformationfusio,thereisinsuicientin-depthexplorationoffine-grinedaudio-visualanalysis,particularlyinaligingcontinuousaudiofeatures withspatialpixel-level information.Therefore,thispaperproposedanaudio-visualsegmentationatention fusion(AVSAF)method basedoncontrastive learning.Firstly,themethodusedmulti-ead crossattentionmechanismand memorytokentoconstructaaudio-visualtokenfusionmodule toreducethelossofmulti-modalinformation.Secondlyitintro ducedcontrastivelearning tominimizethediscrepancybetweenaudioandvisualfeatures,enhancing theiralignment.Aduallayerdecoderwasthenemployedtoaccuratelypredictandsegment thetarget’sposition.Finalyitcarredoutalargeumber of experiments on the S4 and MS3 sub-datasets of the AVSBenge-Object dataset.The J -valueisincreasedby3.O4and4.71 percentage pointsrespectively,and the F valueis increased by 2.4 and3.5percentage points respectively,which fully proves the effectiveness of the proposed method in audio-visual segmentation tasks.
Key words:audio-visual segmentation;multi-modal;contrastive learning;attention mechanism
0引言
人類的感知是多維的,包括視覺、聽覺、觸覺、味覺和嗅覺。其中,視覺和聽覺是日常生活中非常重要的感知方式,兩者的結合幫人類更全面地了解周圍環境。在數據量爆炸性增長以及智能設備廣泛應用的時代下,視聽融合技術得到了廣泛的發展。隨著視聽像素級標簽的引入,Zhou等人[]提出了新的視聽融合任務,稱為視聽分割(audio-visualsegmentation,AVS)。AVS旨在根據視頻和音頻實現對環境中對象和語義信息的準確分割,使得模型預測的像素圖與給定的音頻相匹配。例如,在圖1中,AVS可以識別正在啼哭的嬰兒并分割出對應的像素區域。AVS在多個應用領域具有重要意義,如視頻音頻編輯和安全監控等。
AVS通過結合視頻和音頻數據,從圖像分割的角度挖掘視聽之間的潛在關系,實現對環境中對象和語義信息的精確分割。其中,Zhou等人[1提出一種基于時間像素級視聽交互的編碼器解碼器網絡,實現視聽分割的目標,構建了AVSBench-Object數據集,不僅提高對環境信息處理的理解,還為開發更具智能化的視聽感知系統提供了新的思路和方法。Mao等人[2]提出一種基于對比學習的潛在擴散模型用于音視頻分割,進一步提升了音視頻分割任務的精度,但該模型在融合視覺和聽覺特征時,缺乏對不同模態間細微差別的捕捉。Li等人[3]提出了一種視聽組合的時空依賴關系的融合方法,在捕捉音頻和視覺信號的時間動態變化和空間布局方面表現出了優越性,但在連續音頻特征與空間像素級信息的對齊上存在挑戰。總之,這些研究在視聽分割領域取得了顯著進展,為更智能的多模態感知系統發展奠定了基礎。但是,現有方法仍然面臨著一些挑戰,例如在不同維度下不能充分挖掘音頻和視頻線索之間的細粒度相關性,并且無法有效對齊連續音頻特征與空間像素級信息。
為了解決上述問題,本文提出了一種視聽分割注意力融合方法(audio-visual segmentation attention fusion,AVSAF)。首先,AVSAF模型采用了視/聽覺token融合模塊,與僅依賴簡單特征拼接或加權融合的方法不同,AVSAF通過引入多頭交叉注意機制和記憶token,能夠動態捕捉并交互不同模態之間的關鍵信息。其次,模型通過對比學習策略,利用正負樣本進行對比訓練,實現了連續音頻特征與空間像素級特征的精細對齊。與傳統方法相比,這種對比學習有效解決了多模態信息對齊不精確的問題,提升對細粒度特征的匹配能力。最后,AVSAF引入雙層解碼器結構,相比于傳統的單層解碼器,雙層解碼器通過逐層的特征提取與信息融合,增強了模型的泛化能力和對多模態特征的層次化理解。這種結構設計使得AVSAF在處理復雜的音視頻分割任務時表現出更高的精度與魯棒性。
1相關工作
1.1傳統的視聽融合技術
傳統的視聽融合技術包括視聽對應(audio-visualcorre-spondence,AVC)[4\~6]、視聽事件定位(audio-visual event locali-zation,AVEL)[7-9]、視聽視頻解析(audio-visual video parsing,AVVP)[10,11]、聲源定位(sound source localization,SSL)[12\~15]等。例如,SSL任務是估計聲源在視頻序列中的位置,Chen等人[12]利用挖掘策略和對比學習機制來區分具有挑戰性的圖像片段,提高了在復雜圖像中區分聲源的能力。 Hu 等人[14]從混合聲音中執行類感知的聲音對象定位,最初集中在從單聲道定位中學習健壯的對象表示,解決了從混合聲音中定位不同類別聲音對象的問題。Qian等人[13]在無約束的視頻中定位多個聲源,而不需要兩兩配對的聲音對象注釋。這種方法通過兩階段學習框架和跨模態特征對齊,實現了在無標簽的情況下定位多個聲源,提高了在視頻中的聲源定位能力。但是,大多數研究主要集中在區域級別的利用或圖像分類上,缺乏對像素級信息的捕捉。
1.2 對比學習
對比學習是一種無監督學習方法,通過將相似的數據樣本在特征空間中拉近、不相似的數據樣本推開的方式來學習有效的特征表示。這種方法已經在計算機視覺、自然語言處理和多模態數據處理等多個領域中取得了顯著的進展。近年來,許多研究者提出了各種基于對比學習的方法來解決不同任務中的多模態對齊問題。例如,Oord等人[16]首次提出了對比預測編碼方法(CPC),通過預測未來時刻的特征表示來學習有效的語義表示。這種方法為后續的對比學習研究奠定了基礎。隨后,Chen等人[17]提出了SimCLR方法,這是一種簡單而有效的對比學習框架,通過數據增強和隨機投影等技術進一步提升了模型的性能。在視聽分割任務中,對比學習的引人可以有效減少視覺與聽覺特征之間的差異,從而增強模型對多模態信息的捕捉能力。例如,Mao等人[2將對比學習引人到視聽分割中,提出了一種潛在擴散模型,顯著提升了音視頻分割的精度。這些研究為本文提供了寶貴的啟示,并促使本文在模型方面進行創新。
2方法
本文提出的AVSAF主要包含音視頻編碼器、視/聽覺token融合模塊(audio-visualtokenfusion,VATF)和雙層解碼器三個關鍵模塊,總體框架如圖2所示。其中,音視頻編碼器提取視覺和聽覺特征,視/聽覺token融合模塊利用多頭交叉注意力機制,針對性地學習跨模態信息,生成不同階段的融合特征。然后,通過對比學習對齊融合特征與音頻特征,有效地減小它們在特征空間中的距離。最后,通過雙層解碼器增強融合特征的表達能力,輸出分割結果。
2.1 音視頻編碼器
音視頻編碼器使用VGGish[18]提取音頻特征,通過PVTv2或 ResNet-50 提取視覺特征。具體而言,首先,將音頻重新采樣為 16kHz 的單聲道音頻 ,其中 Ns 與音頻時長相關。然后,利用短時傅里葉變換獲得 Mel 頻譜。隨后將其作為VGGish模型的輸人以提取音頻特征 A∈RT×128 ,其中 T 表示幀數。
對于視覺特征,首先,視頻通過預處理提取幀圖像,將幀圖像表示為 xvisual∈RT×3×H×W ,其中 T 表示幀數。然后,利用視覺骨干網絡(PVTv2或ResNet-50)提取不同階段的視覺特征 V 其可以表示為
V={V1,V2,V3,V4}
其中: i∈{1,2,3,4} H 和 W 分別是幀的
高度和寬度; Ci 表示第 i 階段的通道數。特征提取過程如圖2所示。
2.2視/聽覺token融合模塊
VATF作為AVSAF的關鍵組件,模塊結構如圖3所示,利用三個多頭交叉注意力模塊,在不同的注意力頭中學習來自視覺和聽覺模態的多種信息表示,并使用記憶token動態地選擇最相關的音頻信息。傳統方法[1-3,19]往往無法有效區分不同模態信息的重要性,容易導致特征冗余或信息丟失。而VATF引人記憶token動態存儲關鍵的多模態信息,在訓練過程中,逐漸學習并記憶音視頻特征中的重要信息,從而避免不必要的計算,并有效降低冗余特征的影響。另外,在處理不同任務時能夠有針對性地選擇最相關的模態信息,從而顯著提升信息處理效率和模型表達能力。
給定音頻特征 A 和第 i 階段的視覺特征 Vi 。首先,使用兩個獨立的 1×1 卷積層將它們映射到相同的維度空間 Ci 得到聽覺特征 和視覺特征 νi 。然后,將視覺特征 νi 作為鍵 K 和值 V ,音頻特征
作為查詢
,利用多頭交叉注意力(MHCA)生成具有視覺感知的音頻特征,即
Fiνa=MHCA(νi,a)=concat([Γattn(xv,xa)Γk]k=1h)
其中: ΔWQ,WK,WV 是可訓練的參數矩陣; d=Ci;h 為多頭注意力機制中頭的數量; concat(?) 表示將來自 h 個頭的輸出進行拼接。
其次,為了增強模型的表達能力,引入一組隨機初始化的向量,稱為記憶token。將記憶 和視覺特征 νi 作為MHCA的輸入,生成具有多模態信息的條件token Fitva ,即
Fitva=MHCA(MT,Fiva)
其中: MT 是記憶token, T 為記憶token的數量
接著,視覺特征 νi 充當查詢,利用MHCA模塊將 νi 和條件token ?Fitva 作進一步處理,得到具有視覺和聽覺信息的融合特征。最后,通過 1×1 卷積得到第 i 階段融合特征 Fi ,公式如下:
Fi=conv(MHCA(νi,Fitva))
其中: i={3,4} conv(?) 函數是卷積函數。
2.3 音頻特征對齊
AVSAF通過引入對比學習,在特征空間上捕獲連續音頻與視覺像素級信息之間的細粒度差異與相似性,使模型在訓練過程中能夠區分相似數據的微小差異,并強化跨模態特征的對齊,從而顯著提升視聽分割的準確性,確保分割任務的精度和魯棒性。
對比學習(contrastive learming,CL)[16]面臨的一個主要挑戰是如何構建正樣本和負樣本對,這個過程旨在以無監督的方式學習一個適合特定任務的距離函數。對于AVS任務,
AVSAF目標是學習一個合適的距離函數,使得配對的視頻和聲音數據應該比未配對的數據更接近。具體來說,給定融合特征 Fi,Fi 與對應的音頻特征 xa 的預測分數應該比另一個聲音產生者 的分數高。換句話說,將融合特征 Fi 與對應的音頻特征 xa 作為正樣本,小批量中除 xa 以外的音頻特征
定義為負樣本。在這種情況下,融合特征應該具有足夠的判別力來區分音頻特征。基于上述正/負樣本,得到的對比損失為
最后,將多階段損失函數進行平均,得到最終的對比學習損失函數:
其中: K=2 表示融合特征與音頻特征利用對比學習的次數。
2.4 雙層FPN解碼器
在解碼階段,AVSAF模型使用雙層特征金字塔網絡(fea-turepyramidnetworks,FPN)作為解碼器來生成最終的掩碼。第一層負責融合特征的初步提取,并進行上采樣,生成多尺度的特征表示。其中,將 V1,V2 和 {Fi|i∈{3,4}} 融合后的特征作為輸入, {Si|i∈{1,2,3,4}} 作為輸出,并分別傳遞到 1×1 卷積層,以獲得從粗到細的分割掩碼。第二層采用Panoptic-FPN,具體而言,在第 j 個階段,即 j={2,3,4},S5-j 和最后 S6-j 作為輸入用于解碼過程。解碼的特征被上采樣到下一個階段,最終通過 sigmoid 激活輸出為 M∈RT×H×W 。公式如下:
M=Δ(P1(S1,P2(S2,P3(S3,P4(S4))))).
其中: ?Pi(?) 表示第 i 個階段的Panoptic-FPN解碼器; Si 為第 i 層解碼器的輸出特征; Δ(?) 為sigmoid激活函數。
AVSAF通過雙層特征金字塔結構,分別在不同階段上提取和融合多尺度特征,顯著增強了模型的特征表達能力和多尺度處理能力,提高了目標檢測和分割任務的精度和魯棒性。
2.5 目標函數
損失函數包括分割損失 Lseg 和對比損失 Lcon 兩部分。分割損失是利用交叉熵損失函數將預測的分割圖與真實的標簽進行比較??偰繕撕瘮?L 的計算公式如下:
L=Lseg+λLcon
其中: λ 為平衡因子; BCE(?) 為二進制交叉熵損失函數; M 是預測的分割圖; Y 是真實的分割圖。
3實驗
3.1 評估指標
本文使用 F 分數和Jaccard指數 J 作為評估指標。其中, F 分數綜合考慮了查準率和查全率,用于評估分割結果的輪廓準確性;Jaccard指數 J 用于測量區域相似性,計算預測分割圖和真實分割圖的交集與并集之比。 F 分數和Jaccard指數 J 的公式如下:
其中:precision是準確度;recall是召回率; M 是預測的分割圖; Y
是真實的分割圖。
3.2 數據集和實驗設置
相關實驗在AVSBench-object數據集[1]進行視聽分割,該數據集包含半監督單聲源分割(semi-supervised single soundsourcesegmentation,S4)和全監督多聲源分割(fully-supervisedmultiple sound source segmentation,MS3)兩個子集。S4子集是具有單個目標對象的音頻樣本,包含4932個視頻,其中3452個視頻用于訓練,740個視頻用于驗證,740個視頻用于測試。目標對象涵蓋23個類別,包括人、動物、車輛和樂器等。MS3子集包括424個視頻,其中286個訓練視頻,64個驗證用于視頻,64個視頻用于測試,具有與S4相同的類別。
使用NVIDIAL2OGPU訓練AVSAF模型,批次大小設置為16,S4訓練周期數(epoch)為25,MS3訓練周期為50,記憶token值為150。ResNet-50 和 pyramidvision Transformer(PVT-Δv2 )作為視覺骨干網絡。視覺骨干網絡為PVT-v2時,通道大小C= [64,128,320,512];骨干網絡為ResNet-50時,通道大小
C=[256,512,1 024,2 048] 。對比損失的溫度系數 τ=0.1 ,總損失函數的超參數 λ=1 ,評估指標的 β2 設置為0.3。使用Ad-am優化器,所有視頻幀的大小都統一為 224×224 。
3.3 實驗結果
AVSAF與AVSBench的分割結果如圖4所示,AVSAF能夠準確地分割出鍵盤上的按鍵以及鋼琴鍵(圖4(a)(b)),且成功地分割出正在唱歌的女生(圖4(c))。這表明AVSAF在聲音定位性能方面具有更精準的分割結果。本節從以下兩個方面去評估模型的性能,首先,將AVSAF與聲音定位(SSL)[12,13]、視頻對象分割(VOS)[20,21]和顯著目標檢測(SOD)[22,23]等任務方法作比較,實驗結果如表1所示?;赟SL的方法與AVSAF之間存在顯著的性能差距,這主要是由于SSL中缺乏像素級標簽。此外,由于VOS和SOD是單模態任務,它們僅考慮視覺信息而忽略了音頻信息,這導致AVSAF在AVSBench-object數據集上明顯優于VOS和SOD??傊?,與相關任務方法的比較證實了模型在AVS中的卓越性能。
噪聲,增加了多模態信息對齊的難度,且多聲源情況下的音頻特征更為分散,使得模型難以精準定位各個聲源的發聲對象。
其次,為了充分體現本文方法的可信性,將AVSAF與其他AVS進行了全面比較,其中AVSBench是AVSBench-Object數據集的基線方法。為了確保公平性,采用 ResNet-50 或PVT- ?v2 作為提取視覺特征的骨干網絡。從表1可以看出,在S4數據集上,當使用PVT σ?v2 作為骨干網絡時,AVSAF比AVSBench、AVSC、CCLD和CATR的 J 值分別提高了 3.04.0.49.0.40 和0.38百分點, F 值分別提高 2.4,1.8,0.1 和0.7百分點,這表明AVSAF在單聲源場景中表現出更強的目標分割能力。在MS3數據集上,AVSAF比AVSBench方法的 J 值提高了4.71百分點, F 值提高3.5百分點。但是相比于CATR,AVSAF的性能略低,主要原因是MS3數據集包含更復雜的音頻和背景
最后,基于PVT- σ?v2 骨干網絡的模型在不同迭代次數下的訓練結果曲線如圖5所示,AVSAF相比于AVSBench基線方法 ,Lseg 損失值與 J 值曲線更為平滑。盡管 Lseg 損失值下降程度很接近(圖5(a)),但是整體來看AVSAF方法優于基線方法。隨著epoch增大,J值在AVSAF上具有更高的性能。這些結果表明,AVSAF在視聽分割任務中具備較強的泛化能力和魯棒性。
3.4 消融實驗
本節通過消融實驗驗證AVSAF主要模塊的有效性,所有消融實驗的視覺骨干網絡均采用PVT- σ?v2 。
3.4.1 對比學習消融
表2在沒有對比學習的情況下直接訓練AVSAF。實驗結果表明,在S4子集上,無對比學習的 J 值為 81.11% , F 值為89.8% 。然而,加入對比學習的AVSAF的 J 值提升0.67百分點, F 值提升0.5百分點。在MS3集上,加入對比學習使得 J 值提高2.28百分點, F 值提高1.9百分點,這表明了對比學習在AVSAF框架中的有效性。對比學習的加入使模型更能學習到音頻和視頻特征之間的細微差異和聯系,并準確地區分不同類別的特征。此外,對比學習在編碼器-解碼器框架下效果一般,尤其是在有限的計算配置下,這是由于無法構建足夠大的正樣本和負樣本,并且訓練的數據集有限且分布不全面,無法足夠地學習到獨特的特征。
3.4.2 VATF模塊消融
為了評估VATF模塊的數量對模型性能的影響,改變VATF模塊的個數進行訓練,并將結果顯示在表3中。實驗表明,當VATF的數量為2時,模型性能最佳,一個VATF模塊可能不足以充分融合音頻和視頻特征,而三個VATF模塊可能會導致過度融合,增加模型的復雜性,進而引入噪聲和冗余信息。這表明了所提多維度融合網絡在AVSAF任務中的必要性和有效性。具體來說,在S4數據集上,僅使用一個VATF模塊時, J 的性能從 81.78% 下降到 80.90% , F 值從 90.3% 下降到89.7% ;而使用三個VATF模塊時, J 的性能從81. 78% 下降到81.33% F 值從 90.3% 下降到 90.0% 。同時,在MS3數據集上,使用兩個VATF模塊的AVSAF性能最好。因此,對于視聽分割任務,使用兩個VATF模塊能夠在特征融合方面取得最佳效果。
3.4.3token參數分析
記憶token的數量對模型性能的影響如表4所示,本文對不同記憶token值進行了實驗,其中記憶token數量為{0,100,150,200}。在VLTF中,隨著記憶token數量的增加,初始時 J 指標會上升,當token數量達到150之后 J 指標減少。token數量設置為150時,可獲得最佳性能。這是因為相關的音頻特征在AVSBench-object數據集中受到了一定的限制,記憶token數量的增加在一定范圍內有助于捕捉更多的特征信息,提高模型的表達能力。然而,當token數量過多時,模型可能會引入過多的冗余信息和噪聲,導致特征融合過程中的干擾增加,反而降低了分割效果。因此,設置token數量為150能夠在信息量和特征精度之間達到最佳平衡,獲得最優的分割效果。此外,當token數量為0時,模型性能顯著下降,表明記憶token的引入對于有效捕捉和融合多模態特征至關重要,缺少記憶token會導致信息表達不足,從而影響分割效果。
3.5模型參數和訓練時間分析
模型參數和訓練時間如表5所示,其中包括AVSBench、CATR和AVSAF在使用不同骨干網絡(ResNet-50和PVT- ?v2 )的參數大小和訓練時間。首先,從參數大小角度來看,AVSAF模型參數大小介于AVSBench和CATR之間,既不會因參數過少而犧牲過多性能,也不會因參數過多而給計算資源帶來沉重負擔。其次,在訓練時間方面,AVSAF的訓練時間同樣處于AVSBench和CATR之間。雖然AVSAF的訓練時間比AVS-Bench長,但能獲得更高的準確度。盡管CATR的 J 值和 F 值比AVSAF略高,然而其需要更多的訓練時間。總之,AVSAF模型在追求精度的同時,訓練效率表現良好。盡管相比AVS-Bench,其參數量和訓練時間有所增加,但相比于CATR的大規模參數和超長訓練時間,AVSAF的參數量和訓練時間都更加具有優勢。
4結束語
為了解決視聽分割中視覺和聽覺特征融合效果不佳的問題,本文提出了基于對比學習的視聽分割注意力融合框架。該方法首先使用音視頻編碼器提取視/聽覺特征;其次,利用多個視/聽覺token融合模塊來有效整合像素級的視覺和聽覺特征,不僅提升了特征的表達能力,還加強了跨模態信息的融合;然后,引入對比學習機制進一步增強了視覺和聽覺特征之間的關聯性,使得模型能夠更準確地理解視覺和聽覺信息;隨后,利用雙層FPN解碼器生成特征圖,增強視聽分割任務的魯棒性,提高模型在不同場景中的性能表現;最后,在AVSBench-object數據集上進行了模型對比實驗、消融實驗和參數靈敏性實驗,驗證了AVSAF在視聽分割任務中的有效性和優越性。這些實驗證明了本文框架在處理多模態數據時的準確性,為視聽融合技術的進一步發展提供了有力支持。
在當前的視聽融合模型中,當具有相似聽覺特征的對象同時存在于一個幀圖像中時,可能會導致視頻分割結果的混淆和準確度下降。尤其是在復雜環境中,這種混淆不僅影響模型的分割性能,還可能導致對場景和對象的誤解。為了應對這一挑戰,筆者計劃在未來的研究中可以精細化音頻特征預處理。
參考文獻:
[1]Zhou Jinxing,Wang Jianyuan,Zhang Jiayi,et al. Audio-visual segmentation[C]//Proc of European Conference on Computer Vision. Cham:Springer,2022:386-403.
[2]Mao Yuxin,Zhang Jing,Xiang Mochu,et al.Contrastive conditional latent diffusion for audio-visual segmentation [EB/OL]. (2023-07- 31).https://arxiv.org/abs/2307.16579.
[3]LiKexin,Yang Zongxin,Chen Lei,etal.CATR:combinatorialdependence audio-queried Transformer for audio-visual video segmntation[C]//Proc of the31st ACM International Conference on Multimedia.NewYork:ACMPress,2023:1485-1494.
[4]ArandjelovicR,ZissermanA.Look,listen and learn[C]//Proc of IEEEInternational Conferenceon ComputerVision.Piscataway,NJ: IEEEPress,2017:609-617.
[5]ArandjelovicR,Zisserman A.Objects that sound[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:435-451.
[6]AytarY,Vondrick C,Torralba A. SoundNet:learningsound representations from unlabeled video[EB/OL]. (2016-10-27). https:// arxiv.org/abs/1610.09001.
[7]LinYanbo,LiYJ,WangYF.Dual-modality seq2seq network for audio-visual event localization[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2019:2002-2006.
[8]Lin Yanbo,Wang YF.Audiovisual transformer with instance attentionfor audio-visual event localization[C]//Proc of Asian Conference on Computer Vision.Cham:Springer,2021:274-290.
[9]Duan Bin,Tang Hao,WangWei,et al.Audio-visual event localizationvia recursive fusion by joint co-attention[C]//Proc of IEEE Winter Conference on Applications of Computer Vision. Piscataway, NJ:IEEE Press,2021:4012-4021.
[10]Lin Yanbo,Tseng HY,LeeHY,et al.Exploring cross-video and cross-modality signals for weakly-supervised audio-visual video parsing [C]//Proc of the 35th International Conference on Neural InformationProcessing Systems. New York:ACM Press,2021:11449-11461.
[11]Wu Yu,Yang Yi.Exploring heterogeneous clues for weaklysupervised audio-visual video parsing[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway, NJ:IEEE Press,2021:1326-1335.
[12]ChenHonglie,XieWeidi,AfourasT,etal.Localizingvisual sounds thehard way[C]//Proc of IEEE/CVF Conferenceon ComputerVision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021: 16862-16871.
[13]Qian Rui,Hu Di,Dinkel H,et al. Multiple sound sources localizationfromcoarse tofine[C]//Proc of the16thEuropean Conference on Computer Vision.Cham:Springer,2020:292-308.
[14]Hu Di,QianRui,Jiang Minyue,etal.Discriminativesounding objectslocalizationvia self-supervised audiovisual matching[C]//Proc of the 34th International Conference on Neural Information Processing Systems.New York:ACM Press,2020:10077-10087.
[15]陳國良,徐揚,黃曉琴.基于正四棱錐結構的機器人聲源定位系 統研究[J].計算機應用研究,2019,36(4):1088-1092.(Chen Guoliang,Xu Yang,Huang Xiaoqin. Sound source localization systemfor robot based on rectangular pyramid structure[J].Application Research of Computers,2019,36(4):1088-1092.)
[16]Oord A VD,Li Yazhe,Vinyals O.Representation learning with contrastive predictive coding[EB/OL]. (2019-01-22). https://arxiv. org/abs/1807.03748.
[17]Chen Ting,KornblithS,Norouzi M,et al.A simpleframework for contrastive learning of visual representations[C]//Proc of the 37th International Conference on Machine Learning. New York:ACM Press,2020:1597-1607.
[18]Hershey S,Chaudhuri S,Elis DPW,etal.CNNarchitectures for large-scale audio classification[C]//Proc of IEEEInternational Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ:IEEEPress,2017:131-135.
[19]Liu Chen,LiPP,Qi Xingqun,et al.Audio-visual segmentation by exploring cross-modal mutual semantics[C]//Proc of the 31st ACM International Conference on Multimedia. New York:ACM Press, 2023:7590-7598.
[20]Mahadevan S,Athar A,Osep A,et al.Making a case for 3D convolutions for object segmentation in videos[EB/OL].(2020-08-26). https://arxiv.org/abs/2008.11516.
[21]Duke B,Ahmed A,Wolf C,et al. SSTVOS:sparse spatiotemporal transformers for video object segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway, NJ:IEEE Press,2021:5908-5917.
[22]Mao Yuxin,Zhang Jing,Wan Zhexiong,et al.Generative Transformer for accurate and reliable salient object detection[EB/OL].(2021- 04-20).https://arxiv.org/abs/2104.10127.
[23]Zhang Jing,Xie Jianwen,Barnes N,et al.Learning generative vision Transformerwith energy-based latent space for saliency prediction [C]//Proc of the 35th International Conference on Neural Information Processing Systems.New York:ACM Press,2021:15448-15463.