中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A
Open-world Multidimensional Feature Fusion Scene Graph Generation
GU Feifan1,ZHOU Mengmeng2,SONG Shimiao1,GE Jiashang 1 ,YANG Jie' (1.College of Mechanical and Electrical Engineering,Qingdao University,Qingdao 266o71,China; 2.Qingdao QCIT Technology Co.,Ltd.,Qingdao 266100,China)
Abstract: The open-world scene graph generation task has difficulty in detecting unknown objects and their relationships. To address this issue,a relation-reasoning model based on multidimensional feature fusion (MDFF) is proposed. The proposed model is combined with an open-world object detector to form a two-stage open-world scene graph generation algorithm. First,the pretrained open-world object detector identifies objects in the input images. The MDFF model then performs relationship inference based on the detection results. Comparative experiments are conducted on the VG -150 dataset using traditional methods and the MDFF model. The experimental results indicate that the MDFF model achieves 7% improvement in recall rate for predicate classification tasks. Moreover,the performance improves by 3% in open-world scene graph generation and zero-shot inference tasks. Furthermore,ablation studies have confirmed the effectiveness of different feature dimensions on model performance improvement.
Keywords: scene graph generation; feature fusion; object detection; deep learning
在開放世界環(huán)境中,場景圖生成任務(wù)復(fù)雜,特別是在未知場景和未見物體時(shí),生成準(zhǔn)確且具有高的泛化能力的場景圖成為研究的核心問題[1]。傳統(tǒng)的場景圖生成方法[2-4]依賴于預(yù)定義的有限物體和關(guān)系類別,在處理訓(xùn)練數(shù)據(jù)之外的新穎物體和關(guān)系時(shí)表現(xiàn)不佳。開放世界場景圖生成研究突破了傳統(tǒng)閉集模型的局限性,采用視覺系統(tǒng)動(dòng)態(tài)識別和推理現(xiàn)實(shí)場景中未知的物體與關(guān)系,適應(yīng)真實(shí)環(huán)境的多樣性;通過提升模型對新類別的泛化能力,為自動(dòng)駕駛、機(jī)器人交互等復(fù)雜任務(wù)提供更魯棒的場景理解,推動(dòng)人工智能在開放環(huán)境中的應(yīng)用[5-6]。如VS3(Visual-Semantic Space for Scene graph generation)模型[]利用預(yù)訓(xùn)練的視覺-語義空間進(jìn)行語言監(jiān)督的開放詞匯場景圖生成,提高了對未見目標(biāo)和關(guān)系的泛化能力。基于生成式組合增強(qiáng)的方法,GCA(Generative Compositional Augmentations)[8]通過對場景圖擾動(dòng)生成新的組合數(shù)據(jù),提升了場景圖預(yù)測模型在未見組合上的泛化能力,有效緩解了數(shù)據(jù)長尾問題,增強(qiáng)模型的組合推理能力。Ov-SGTR(Open-vocabulary Scene Graph Transformers)[9]方法通過視覺-概念對齊和保留策略對視覺特征和語義概念有效對齊,增強(qiáng)了模型對未見對象和關(guān)系的泛化能力,實(shí)現(xiàn)完全開放詞匯的場景圖生成。但是,訓(xùn)練數(shù)據(jù)中未出現(xiàn)過新物體間的關(guān)系會導(dǎo)致模型在預(yù)測時(shí)出現(xiàn)不合理謂詞,如交通信號燈(traffic light)-在上面(on)-人(person)。為此,本文提出了一種基于多維度跨模態(tài)融合特征的場景圖生成算法,結(jié)合具備開放世界泛化能力的目標(biāo)檢測器,提升了謂詞預(yù)測的精確度,實(shí)現(xiàn)了開放世界場景圖生成。此外,通過引人場景、謂詞類別及物體定義等多個(gè)維度的先驗(yàn)知識,對物體間謂詞關(guān)系的選擇進(jìn)行約束,能夠有效提高模型在各項(xiàng)任務(wù)中的性能表現(xiàn)。
開放世界場景圖生成算法
1.1 兩階段場景圖生成算法框架結(jié)構(gòu)
參考兩階段場景圖生成算法的范式[1]提出了開放世界目標(biāo)檢測器[11],搭配關(guān)系推理模型的兩階段場景圖生成算法,實(shí)現(xiàn)了開放世界下的關(guān)系推理,兩階段場景圖生成算法的流程見圖1。輸入圖像經(jīng)過預(yù)訓(xùn)練的開放世界目標(biāo)檢測模型(Open World Vision Transformer,Ow-vit)[12]進(jìn)行目標(biāo)檢測確定圖像中的物體類別、錨框坐標(biāo)以及全局的圖像特征;基于多維度特征融合的關(guān)系推理(MultidimensionalFeature Fusion,MDFF)模型根據(jù)目標(biāo)檢測結(jié)果完成關(guān)系推理計(jì)算。

1.2 謂詞先驗(yàn)知識構(gòu)建
引人外部的先驗(yàn)知識可以有助于模型在推理階段排除不合理關(guān)系組合,提高關(guān)系預(yù)測的效率和準(zhǔn)確性。在模型搭建前,對數(shù)據(jù)集中的謂詞文本標(biāo)簽進(jìn)行分類得到謂詞功能類別信息,謂詞聚類結(jié)果見表1。通過
Places365數(shù)據(jù)集[13]中預(yù)訓(xùn)練的場景分類模型對數(shù)據(jù)集中的圖片進(jìn)行預(yù)處理得到對應(yīng)的場景類別標(biāo)簽。建立場景類別 Si 與謂詞的功能屬性 fx 的概率矩陣 Wfxi 關(guān)系式為

其中, Nfxi 表示當(dāng)前場景 Si 下功能屬性 fx 出現(xiàn)的次數(shù), Wfxi 表示從先驗(yàn)知識獲取到的當(dāng)前場景 Si 下10個(gè)謂詞功能類別可能出現(xiàn)的概率。同理,謂詞功能與謂詞類別對應(yīng)關(guān)系的概率矩陣矩陣
為

其中,
表示當(dāng)前謂詞功能屬性 fx 下謂詞 py 出現(xiàn)的次數(shù),
表示從先驗(yàn)知識獲取的當(dāng)前謂詞功能類別下單個(gè)謂詞可能出現(xiàn)的概率。

1.3 MDFF模型
為避免場景圖生成任務(wù)中出現(xiàn)謂詞預(yù)測不合理及謂詞長尾分布,進(jìn)一步提高謂詞分類精度,本文基于Ow-vit開放世界目標(biāo)檢測模型,提出了MDFF模型,模型整體結(jié)構(gòu)如圖2。

首先,目標(biāo)檢測模型Ow-vit的全局特征圖 Vglobal 作為MDFF模型的視覺輸入;場景類別標(biāo)簽、主賓語文本標(biāo)簽以及從wordnet[14]中獲取的物體定義信息作為 MDFF模型的文本輸人。圖像處理部分根據(jù)Ow-vit模型得到的主賓語錨框坐標(biāo),采用RoI-Align方法將全局特征圖切分為主賓語的視覺特征 Vsub 和 Vobj 以及主賓語聯(lián)合視覺特征 Vunion ,通過池化方法對視覺特征統(tǒng)一維度。文本處理部分采用凍結(jié)的預(yù)訓(xùn)練BERT模型的文本編碼層,對輸入的文本向量進(jìn)行編碼并統(tǒng)一維度,得到場景類別文本特征 Tsce 、主賓語文本特征Tlab 以及定義文本特征 Tdef 0
隨后,視覺特征和文本特征進(jìn)行跨模態(tài)融合。具體而言,全局視覺特征中包含圖像的整體信息,因此將場景類別文本特征 Tsce 與全局視覺特征 Vglobal 融合形成場景維度的融合特征 Hsce ,計(jì)算方式為
Hsce=Pooling[F(Vglobal)]+E(Tsce)
其中, F(?) 表示視覺編碼,E(·)表示文本編碼,Pooling表示池化方法。類似的,將主賓語的文本特征 Tlab 以及主賓語的視覺特征 Vsub 和 Vobj 分別相加融合,得到主語維度的融合特征 Hsub 以及賓語維度的融合特征Hobj 。聯(lián)合視覺特征包含了物體之間的關(guān)系語義,因此,定義文本特征 Tdef 與主賓語聯(lián)合視覺特征 Vunion 融合相加得到聯(lián)合維度的融合特征Hunion 。
將融合后的場景、主語、賓語和聯(lián)合特征拼接,并加人位置編碼,輸人Transformer編碼器進(jìn)一步跨模態(tài)特征融合。Transformer編碼器輸出的融合特征隨后解耦為場景維度特征 Hsce′ 和聯(lián)合維度特征 Hunion′ 。其中, Hsce′ 用于謂詞功能類別預(yù)測頭網(wǎng)絡(luò),得到謂詞功能得分 LΔfuc “ Lfuc 詳細(xì)計(jì)算流程見式 (4)~ 式(6),依次得到謂詞功能預(yù)測網(wǎng)絡(luò)層得分
、當(dāng)前場景下謂詞功能的得分 Lpriorf 及綜合計(jì)算得最終謂詞功能得分 Lfuc ,即



式中, PredH 為預(yù)測頭網(wǎng)絡(luò)層; Si 為當(dāng)前圖片所屬場景類別; α 及 β 為均衡兩類得分的超參數(shù),設(shè)為0.5。
聯(lián)合維度特征 Hunion′ 用于謂詞文本類別預(yù)測,得到最終謂詞類別得分 LΠpred 。使用 Hunion′ 計(jì)算謂詞類別得分 Lpred 流程類似。
2 實(shí)驗(yàn)及評估
2.1 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)訓(xùn)練環(huán)境采用Ubuntu20.04,硬件設(shè)備為兩張顯存為 22G 的NVIDIA GeForce RTX 2080 TiGPUs。選擇VG-150數(shù)據(jù)集訓(xùn)練模型、Adam優(yōu)化器為訓(xùn)練過程優(yōu)化器,訓(xùn)練批設(shè)定為8,學(xué)習(xí)率調(diào)度器選擇線性 Warmup 方法逐步增加,再按照 StepLR方法逐步衰減,初始學(xué)習(xí)率設(shè)為0.0001,衰減因子 gamma設(shè)為0.1,步長設(shè)置為30。
視覺語言任務(wù)中,準(zhǔn)確捕捉文本的全局上下文信息對理解圖像與文本的語義關(guān)聯(lián)至關(guān)重要。文本輸入含有大量復(fù)雜定義文本,因此選擇預(yù)訓(xùn)練模型 BERTbase 版本作為MDFF模型中的文本編碼器,全面地學(xué)習(xí)詞語的復(fù)雜語義和句間關(guān)系,在訓(xùn)練過程中 BERTbase 模型的參數(shù)全程凍結(jié)。
2.2 評價(jià)指標(biāo)及結(jié)果
評價(jià)指標(biāo)使用召回率 R@k 衡量模型正確識別正例樣本的能力,k表示最終得分排序中取前 k 個(gè)結(jié)果進(jìn)行計(jì)算。表2展示了MDFF模型與傳統(tǒng)算法在完整VG數(shù)據(jù)集下謂詞分類和場景圖檢測子任務(wù)上的性能對比,其中帶有 ? 的結(jié)果表示其他研究[15在相同實(shí)驗(yàn)條件下的指標(biāo)。實(shí)驗(yàn)結(jié)果表明,MDFF模型在謂詞分類任務(wù)上性能較傳統(tǒng)Transformer架構(gòu)提升了約 7% ,在場景圖檢測任務(wù)中提高了 0.7% 。
此外,為了研究MDFF模型在開放世界設(shè)置下的性能表現(xiàn),將VG數(shù)據(jù)集劃分為 70% 的基礎(chǔ)類和 30% 的新類[16],在開放世界場景圖(Ov-SGG)任務(wù)中訓(xùn)練使用了 70% 的基礎(chǔ)類,評估使用了全部 70% 基礎(chǔ)類與30% 的新類參與;在零樣本場景圖生成(Zso-SGG)任務(wù)中,訓(xùn)練使用了 70% 的基礎(chǔ)類,評估使用了 30% 的新類,實(shí)驗(yàn)結(jié)果見表3。采用召回率 R@k 用于衡量模型正確識別正例樣本的能力。結(jié)果表明,與開放世界場景圖生成算法VS3相比,在謂詞分類任務(wù)中MDFF模型的R@1 0 0"指標(biāo)提升了約 3% 。


采用消融實(shí)驗(yàn)進(jìn)行驗(yàn)證來評價(jià)多維度信息對MDFF模型性能的提升,將3個(gè)維度的信息依次刪除、任意兩兩排列組合,評價(jià)指標(biāo)采用平均召回率 mR(?k 用于衡量模型在不均衡數(shù)據(jù)集上對少見類別的泛化與識別能力,部分實(shí)驗(yàn)結(jié)果如表4。表中, w/o 表示不使用該維度信息,La表示全局維度的融合特征,[b表示聯(lián)合區(qū)域維度的融合特征,Cc]表示單個(gè)物體維度的融合特征。實(shí)驗(yàn)結(jié)果表明,在3種維度信息均不使用的情況下,MDFF模型的平均召回率為 3.2% ,基本喪失了謂詞預(yù)測的能力。使用單維度信息時(shí),聯(lián)合區(qū)域維度[b](w/o[a][c])的特征表現(xiàn)能力最強(qiáng),在去掉該維度信息之后模型性能下降最明顯;使用2個(gè)維度的信息時(shí),使用全局[a]及聯(lián)合區(qū)域維度[b]的特征時(shí)(w/o[c])模型性能最優(yōu),在獲得全局場景融合特征以及聯(lián)合區(qū)域物體定義特征后能夠有效的對謂詞的類別進(jìn)行預(yù)測。

2.3 可視化展示
為驗(yàn)證MDFF模型在開放世界場景下的生成效果,選取了VG數(shù)據(jù)集中圖像以及攝像機(jī)拍攝的真實(shí)場景圖像進(jìn)行實(shí)驗(yàn)分析,部分結(jié)果可視化如圖3。圖3c內(nèi)紅色標(biāo)注的關(guān)系表示MDFF模型相較于傳統(tǒng)模型額外預(yù)測出的物體類別和更細(xì)粒度的關(guān)系信息。實(shí)驗(yàn)結(jié)果表明,MDFF模型能夠識別出訓(xùn)練數(shù)據(jù)集標(biāo)簽之外的物體類別,體現(xiàn)出良好的泛化能力與場景理解性能。

3結(jié)論
本文提出了一種多維度跨模態(tài)特征融合的關(guān)系推理模型MDFF,搭配開放世界目標(biāo)檢測器構(gòu)建了兩階段開放世界場景圖生成算法,實(shí)現(xiàn)了面向開放世界場景圖生成。在關(guān)系推理內(nèi)部引入場景、定義、物體標(biāo)簽等文本信息,與對應(yīng)的視覺特征跨模態(tài)融合形成完備的特征融合框架,通過場景特征限制謂詞功能類別的選擇,通過謂詞功能類別限制謂詞的預(yù)測分類。在VG數(shù)據(jù)集上與傳統(tǒng)模型的對比實(shí)驗(yàn)表明,MDFF模型具備常規(guī)場景圖檢測能力,同時(shí)在開放世界設(shè)置中的實(shí)驗(yàn)表明,MDFF模型能夠預(yù)測訓(xùn)練時(shí)未見物體。通過消融實(shí)驗(yàn)部分驗(yàn)證了各個(gè)維度模型性能的影響,為維度特征的選取提供了參考。
參考文獻(xiàn)
[1]LIH S,ZHUG M, ZHANGL,et al. Scene graph generation: A comprehensive survey[J]. Neurocomputing,2024, 566:127052.
[2]CHANG X J,RENPZ, XUPF,et al. A comprehensive surveyof scene graphs:Generation and aplication[J]. IEEE Trans Pattern Anal Mach Intell,2023,45(1):1-26.
[3] 康慷,楊有,張汝薈,等.無偏差場景圖生成方法綜述[J].伊犁師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,16(3):55--66.
[4] 周浩,羅廷金,崔國恒.結(jié)合對象屬性識別的圖像場景圖生成方法研究[J].計(jì)算機(jī)科學(xué),2024,51(11):205-212.
[5] LI R J,ZHANG S Y,LIN D H,et al. From pixels to graphs: Open-vocabulary scene graph generation with vision-language models[C]//Conference on Computer Vision and Pattern Recognition. Seattle: IEEE,2024:28076-28086.
[6]SONOGASHIRA M, IIYAMA M,KAWANISHI Y.Relationship-aware unknown object detection for open-set scene graph generation[J]. IEEE Access,2024,12:122513-122523.
[7]ZHANG Y,PANYW,YAO T,et al. Learning to generate language-supervised and open-vocabulary scene graph using pre-trained visual-semantic space[C]//Conference on Computer Vision and Patern Recognition. Vancouver: IEEE, 2023:2915-2924.
[8]KNYAZEV B, DE VRIES H,CANGEA C,et al. Generative compositional augmentations for scene graph prediction [C]/International Conference on Computer Vision. Electr Network: IEEE,2021:15807-15817.
[9]CHEN Z,WUJ,LEI Z,et al.Expanding scene graph boundaries: Fullyopen-vocabularyscene graph generation via visual-concept alignment and retention[C]/European Conferenceon Computer Vision.Milan: IEEE,2024:108-124.
[10]YANG JW,LUJS,LEE S,et al. Graph r-cnn for scene graph generation[C]/15th European Conference on Computer Vision. Munich: Computer Vision-Eccv 2018,2018: 690-706.
[11]WANG Z Y,LI Y L,CHEN X,etal. Detecting everything in the open world: Towards universal object detection[C] //Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 11433-11443.
[12]MINDERER M,GRITSENKO A,HOULSBY N. Scaling open-vocabulary object detection [DB/OL].[2025 -03 - 14].https: //doi. org/10. 48550/arXiv. 2306.09683.
[13]ZHOU BL,LAPEDRIZA A,KHOSLA A,et al. Places:A 10 milion image database for scene recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,20l8,40(6):1452-1464.
[14]MILLER G A. Wordnet-a lexical database for english[J]. Commun ACM,1995,38(11):39-41.
[15]TANG K H,NIUYL,HUANGJQ,et al. Unbiased scene graph generation from biased training[C]//Conference on Computer Vision and Pattern Recognition. Electr Network: IEEE,202O: 3713-3722.
[16]HE T,GAO L L,SONG J K,et al. Towards open-vocabulary scene graph generation with prompt-based finetuning [C]//17th European Conference on Computer Vision. Tel Aviv Israel,2022,13688:56-73.
[17]LIN X,DING C X,ZENG J Q,et al. Gps-net:Graph property sensing network for scene graph generation[C]/Conference on Computer Vision and Pattern Recognition. Electr Network: IEEE,202O:3743-3752.
[18]DHINGRA N,RITTER F,KUNZ A,et al. Bgt-net: Bidirectional gru transformer network for scene graph generation [C]//Conference on Computer Vision and Pattern Recognition. Electr Network: IEEE,2021: 2150-2159.
[19]CONG Y R, YANG M Y,ROSENHAHN B. Reltr: Relation transformer for scene graph generation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2O23,45(9):11169-11183.
[20]LIR J,ZHANG S Y,HE X M,et al. Sgtr: End-to-end scene graph generation with transformerC]/Conference on Computer Vision and Pattern Recognition. New Orleans:IEEE,2022:19464-19474.
[21]LIRJ,ZHANG S Y,HE X M. Sgtr plus: End-to-end scene graph generation with transformer[J]. IEEE Trans Pattern Anal Mach Intell,2024,46(4):2191-2205.
[22]XU DF, ZHU Y K,CHOY C B,et al. Scene graph generation by iterative message passing[C]/Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE,20l7: 3097 -3106.
[23]SUHAIL M,MITTAL A,SIDDIQUIE B,et al. Energy-based learning for scene graph generation[C]//Conference on Computer Vision and Pattern Recognition. Electr Network: IEEE,2021:1393l-13940.