






摘要:顯著目標(biāo)檢測作為一個具有廣泛應(yīng)用的研究焦點,其性能經(jīng)歷了從傳統(tǒng)模型到深度學(xué)習(xí)模型的飛躍。近期,圖神經(jīng)網(wǎng)絡(luò)(GNN) 由于能夠高效處理圖數(shù)據(jù)而被應(yīng)用于顯著目標(biāo)檢測領(lǐng)域,引領(lǐng)了該領(lǐng)域的前沿探索。本綜述總結(jié)了該領(lǐng)域的發(fā)展歷程,聚焦于GNN的應(yīng)用進展,通過分類展示其多樣化架構(gòu)及取得的成效,并介紹了主流數(shù)據(jù)集和評價標(biāo)準,為研究與實踐奠定基礎(chǔ)。此外,本文展望了GNN在此領(lǐng)域的潛在發(fā)展空間,旨在激發(fā)新的研究思路與創(chuàng)新技術(shù),指導(dǎo)學(xué)界進一步進步。
關(guān)鍵詞:圖神經(jīng)網(wǎng)絡(luò);顯著目標(biāo)檢測;深度學(xué)習(xí);計算機視覺
中圖分類號:TP18 文獻標(biāo)識碼:A
文章編號:1009-3044(2024)32-0016-04 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID) :
0 引言
受初期靈長目視覺系統(tǒng)行為與神經(jīng)結(jié)構(gòu)的啟發(fā),Litti等人[1]提出了一種視覺注意力機制,開啟了計算機視覺中顯著對象檢測研究的篇章。自1998年起,顯著對象檢測方法可以明確地劃分為兩個階段:傳統(tǒng)策略階段和深度學(xué)習(xí)主導(dǎo)階段。
在傳統(tǒng)方法中,具體細分為以下幾類[2]:
1) 基于塊的檢測模型。通過分析圖像的局部塊或區(qū)域來識別顯著對象,利用對比度、顏色差異和紋理特性等。他們通過引入不受網(wǎng)絡(luò)同質(zhì)性限制的塊級圖卷積網(wǎng)絡(luò)(BM-GCN) ,實現(xiàn)了“分類聚合”的功能,自適應(yīng)學(xué)習(xí)不同類型的鄰居聚合規(guī)則,取得了顯著成果[3]。
2) 基于區(qū)域的檢測模型。關(guān)注較大圖像區(qū)域,利用區(qū)域特征進行顯著性分析,通常借助超像素分割等技術(shù)來加強目標(biāo)與背景的關(guān)聯(lián)理解。比如,Ren 等人[4]的研究,通過區(qū)域檢測模型與深度學(xué)習(xí)檢測網(wǎng)絡(luò)共享卷積特征,實現(xiàn)了近乎實時的檢測速度。
3) 融合外部引導(dǎo)的檢測模型。整合圖像外的信息,例如眼動追蹤、深度線索、物體邊界等,增強內(nèi)部與外部信息的結(jié)合,提高檢測的準確性與魯棒性。Liu等人[5]提出的像素級上下文注意力模型有效融合了局部與全局信息,優(yōu)化了檢測效果。
然而,這些基于塊、區(qū)域及外部引導(dǎo)的傳統(tǒng)模型也暴露了一些共性局限:
1) 全局上下文理解不足。過于集中在局部特征,忽視全局上下文。在復(fù)雜場景或目標(biāo)周圍干擾過多的情況下,檢測效果容易下降。
2) 復(fù)雜背景適應(yīng)力弱。在面對多樣化背景或復(fù)雜場景時,難以有效區(qū)分目標(biāo)與背景。
3) 尺寸與形態(tài)敏感性。對目標(biāo)的尺寸和形狀變化較為敏感,在處理多樣性目標(biāo)時穩(wěn)定性較差。
4) 手工特征依賴。部分依賴于預(yù)設(shè)特征,導(dǎo)致在復(fù)雜環(huán)境中的泛化能力受限。
5) 多模態(tài)處理局限。通常側(cè)重單一感官模式分析,對于圖像、文本等多模態(tài)數(shù)據(jù)的處理能力有限。
深度學(xué)習(xí)的興起為顯著目標(biāo)檢測帶來了革新,盡管初期面臨圖像復(fù)雜性等挑戰(zhàn),但全卷積網(wǎng)絡(luò)(FCN) 的引入標(biāo)志著像素級預(yù)測的新紀元,極大增強了對復(fù)雜場景的理解能力[6]。此后,進階模型如CenterNet通過創(chuàng)新的中心點檢測策略,優(yōu)化了對小且被遮擋物體的檢測精度與效率[7];而DETR(Detection Transformer) 通過摒棄傳統(tǒng)錨框設(shè)計,利用Transformer直接預(yù)測目標(biāo)位置與類別,簡化了檢測框架,同時強化了對重疊目標(biāo)的處理能力,為顯著目標(biāo)檢測提供了更加直觀且簡化的方案[8]。
這一系列深度學(xué)習(xí)模型的演進,不僅豐富了顯著目標(biāo)檢測的理論與實踐,還不斷拓寬了技術(shù)邊界。特別是近年來,圖神經(jīng)網(wǎng)絡(luò)(GNN) [9]作為研究的亮點,憑借其在處理圖結(jié)構(gòu)數(shù)據(jù)中捕獲復(fù)雜關(guān)系和上下文信息的卓越能力,為顯著目標(biāo)檢測開創(chuàng)了新途徑。GNN 通過構(gòu)建像素間的連接,精確定位目標(biāo)的上下文與空間結(jié)構(gòu),尤其在復(fù)雜場景下顯著提升了檢測的準確性和魯棒性,為該領(lǐng)域的發(fā)展注入了新的活力與可能性。
1 圖神經(jīng)網(wǎng)絡(luò)
圖神經(jīng)網(wǎng)絡(luò)(GNN) 是計算機視覺中專為圖數(shù)據(jù)設(shè)計的強大工具,能夠有效分析由節(jié)點和邊構(gòu)成的網(wǎng)絡(luò),捕獲圖像內(nèi)部的復(fù)雜關(guān)系。其核心優(yōu)勢在于通過迭代聚合鄰居節(jié)點的信息來提煉高級特征表示,從而深入洞察全局及局部關(guān)聯(lián)。
主要GNN類型包括:
1) 圖卷積網(wǎng)絡(luò) (GCN)。在圖上應(yīng)用卷積以提取特征,理解局部與全局信息[10]。
2) 圖注意力網(wǎng)絡(luò)。融合注意力機制,動態(tài)聚焦于圖結(jié)構(gòu)中重要的部分,從而增強關(guān)系建模能力[11]。
3) 圖自編碼器。通過無監(jiān)督學(xué)習(xí)方式,通過壓縮和重構(gòu)來學(xué)習(xí)圖數(shù)據(jù)的低維表示,實現(xiàn)降維和特征提取[12]。
4) 圖生成網(wǎng)絡(luò)。用于生成特定結(jié)構(gòu)的圖數(shù)據(jù),適用于圖數(shù)據(jù)創(chuàng)造任務(wù)[13]。
接下來,筆者將介紹圖神經(jīng)網(wǎng)絡(luò)在顯著目標(biāo)檢測中的應(yīng)用,并根據(jù)主要應(yīng)用的網(wǎng)絡(luò)進行分類。
2 基于GNN 的顯著目標(biāo)檢測方法
2.1 基于圖卷積進行顯著目標(biāo)檢測
該部分著重于利用圖卷積的推理能力來建模區(qū)域關(guān)系,以提取顯著目標(biāo)特征[10]。在計算機視覺任務(wù)中,如分類[14]、分割[15]及動作識別[16],對長距離、任意形狀的區(qū)域間關(guān)系進行推理極為關(guān)鍵。盡管傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN) 能夠有效處理局部關(guān)系,但在捕獲全局和遠距離關(guān)聯(lián)時效率較低,通常需要疊加多層來實現(xiàn)。為應(yīng)對這一挑戰(zhàn),DenseASPP[17]整合了多尺度特征以擴大感受野,提高分割效果;同時,CoT引入了創(chuàng)新的Transformer模塊,利用上下文指導(dǎo)動態(tài)注意力學(xué)習(xí),增強了視覺表征能力。此外,由于圖神經(jīng)網(wǎng)絡(luò)(GNN) 能夠有效地把握全局圖像結(jié)構(gòu)與關(guān)系,其通過圖表示學(xué)習(xí)來連接區(qū)域間聯(lián)系,優(yōu)化全局上下文的利用,成為一個有效的解決方案。
2.1.1 圖推理
作為一種有效的解決方案,圖推理近年來在關(guān)系推斷方面受到越來越多的關(guān)注。圖模型如條件隨機場(CRFs) [18]在圖像分割中得到了成功應(yīng)用,而圖卷積網(wǎng)絡(luò)(GCNs) 在半監(jiān)督分類[19]及通過捕捉對象間關(guān)系進行的視頻識別中也展現(xiàn)出強大能力[20]。這些方法依賴于預(yù)訓(xùn)練的檢測器來識別對象。而與之相比,部分研究直接采用GCN進行端到端訓(xùn)練,實現(xiàn)任意形狀的非相鄰遠端區(qū)域間推理,無需獨立的對象檢測或額外的標(biāo)注[21]。這種方法涉及特征的全局聚合與交互空間的映射。通過GCN推理后,將關(guān)系感知特征映射回原空間,從而促進如顯著目標(biāo)檢測等后續(xù)任務(wù)的執(zhí)行[22]。其大致框架如下:
1) 坐標(biāo)到交互空間轉(zhuǎn)換。首先,確立投影函數(shù),將原始特征映射至有利于全局推理的交互空間,特別是針對遠隔和非重疊區(qū)域。
2) 圖卷積推理。在映射后,形成描述節(jié)點特征的圖,捕捉節(jié)點關(guān)系并轉(zhuǎn)化為節(jié)點特征互動。利用圖卷積進行高效分析,優(yōu)于高成本的特征連接或簡單關(guān)系網(wǎng)絡(luò),通過全連通圖結(jié)構(gòu)學(xué)習(xí)節(jié)點間的權(quán)重,保持特征維度的一致性。
3) 反向映射。為了與標(biāo)準CNN框架兼容,最后一步是將推理后的特征反投回原坐標(biāo)空間,以便后續(xù)卷積層利用增強的特征進行決策。反向映射過程與正向映射相似。
2.1.2 關(guān)系推理
該模型的核心包括關(guān)系推理編碼器和多尺度注意力解碼器,旨在克服光學(xué)遙感圖像(RSIs) [23-25]中顯著物體檢測的難題,如復(fù)雜背景和尺度變化,并已取得顯著成果。具體如下:
1) 關(guān)系推理編碼器。面對檢測目標(biāo)的多樣性和尺度變化,模型利用目標(biāo)間的關(guān)系輔助檢測,通過圖結(jié)構(gòu)將對象關(guān)系轉(zhuǎn)化為特征節(jié)點交互,實施關(guān)系推理。借鑒圖模型在視覺任務(wù)中的有效性,編碼器綜合空間與通道維度,分步進行關(guān)系推理,先構(gòu)建空間推理特征,再據(jù)此進行通道關(guān)系推理,深化內(nèi)部關(guān)系理解。
2) 多尺度注意力解碼器。解碼階段融合多級特征圖,旨在恢復(fù)不同尺度的顯著目標(biāo)。利用底層特征的高分辨率和細節(jié)優(yōu)勢,結(jié)合多尺度與注意力機制,一方面應(yīng)對物體尺寸變化,另一方面篩選編碼階段的冗余信息。解碼器設(shè)計了兩種注意力策略:一是直接計算不同視野下的多尺度注意力圖并融合;二是先提取多尺度特征,再逐尺度計算注意力。
盡管成效顯著,該模型仍面臨挑戰(zhàn):完全識別突出物體、有效抑制非顯著高對比度物體,以及妥善處理復(fù)雜陰影,這些問題需要在后續(xù)研究中持續(xù)優(yōu)化。
2.2 基于圖注意網(wǎng)絡(luò)進行顯著目標(biāo)檢測
圖注意力網(wǎng)絡(luò)通過注意力機制聚焦關(guān)鍵節(jié)點,增強特征捕捉能力。例如,DANet利用空間和通道注意力整合局部與全局特征[26],而金字塔注意力網(wǎng)絡(luò)[10]通過多級上下文聚合處理尺度變化,兩者均能促進顯著目標(biāo)檢測。也有研究將幾種圖網(wǎng)絡(luò)融合以提升檢測性能,例如在[27]中創(chuàng)新性地引入了圖交互網(wǎng)絡(luò),結(jié)合圖結(jié)構(gòu)信息和圖卷積特征,提高了在場景中檢測顯著目標(biāo)的性能。另如ST-GCN[28]雖然主要用于動作識別,但其時空建模能力對理解目標(biāo)運動模式和分布同樣寶貴。ST-GCN運用GCN處理時空數(shù)據(jù),不僅捕獲空間關(guān)系和時序動態(tài),還通過節(jié)點表示學(xué)習(xí)區(qū)分圖像或視頻中不同區(qū)域的特征,適應(yīng)不同尺度的特征分析,增強了在顯著目標(biāo)檢測中的位置和形狀識別,以及魯棒性和準確性。
2.3 基于圖自編碼器進行顯著目標(biāo)檢測
圖自編碼器通過學(xué)習(xí)圖數(shù)據(jù)的低維表示,有效壓縮和重構(gòu)特征,在顯著目標(biāo)檢測中捕捉深層結(jié)構(gòu)信息。研究結(jié)合圖卷積網(wǎng)絡(luò)與圖自編碼器,前者用于理解360°視XSoMlHpkC+fd29bFEVlRRA==頻中目標(biāo)的空間上下文,后者則學(xué)習(xí)低維特征以提取關(guān)鍵信息,優(yōu)化檢測效果。而文獻[29]中加入的圖注意力機制,使網(wǎng)絡(luò)能動態(tài)聚焦3D場景中關(guān)鍵區(qū)域,精準捕捉目標(biāo)特征,同時借助自編碼器提煉高級特征表示,增強了從3D數(shù)據(jù)中提取顯著特征的能力,整體提升了復(fù)雜場景下顯著目標(biāo)的檢測性能。這表明圖自編碼器與其他圖模型的融合,可極大促進多場景下顯著目標(biāo)檢測的性能。
2.4 基于圖生成網(wǎng)絡(luò)進行顯著目標(biāo)檢測
圖生成網(wǎng)絡(luò)憑借學(xué)習(xí)圖內(nèi)節(jié)點與邊的互動,革新了顯著目標(biāo)檢測領(lǐng)域,通過圖像生成強調(diào)目標(biāo),以節(jié)點代表像素或區(qū)域,邊定義彼此關(guān)聯(lián)。網(wǎng)絡(luò)設(shè)計圍繞節(jié)點和邊的定義及架構(gòu)搭建,利用生成過程區(qū)分并突出目標(biāo),借助圖結(jié)構(gòu)特征學(xué)習(xí)實現(xiàn)高效數(shù)據(jù)壓縮與高質(zhì)量重構(gòu),深化對目標(biāo)結(jié)構(gòu)特征的理解[13]。
為精確把握目標(biāo)空間分布及上下文,常結(jié)合圖卷積網(wǎng)絡(luò)(GCN) 來強化節(jié)點間聯(lián)系理解。另外,結(jié)合圖注意力機制,可使系統(tǒng)動態(tài)聚焦圖的關(guān)鍵部分,精準定位與描述顯著目標(biāo)。擴展到3D場景,該方法通過自編碼器學(xué)習(xí)高階特征表示,從3D數(shù)據(jù)中提煉顯著特征,增強檢測效果與泛化能力。
總體來說,圖生成網(wǎng)絡(luò)利用圖論優(yōu)勢,在多樣環(huán)境中展現(xiàn)了卓越的顯著目標(biāo)檢測能力,開創(chuàng)了捕捉目標(biāo)特征的新途徑。
3 顯著目標(biāo)檢測數(shù)據(jù)集
3.1 數(shù)據(jù)集合
當(dāng)前的深度學(xué)習(xí)顯著目標(biāo)檢測技術(shù)高度依賴大規(guī)模數(shù)據(jù)集,如DUT-OMRON、DUTS、HKU-IS、ECSSD/ CSSD、SOD 及PASCAL-S 等,用以訓(xùn)練和評估模型。這些數(shù)據(jù)集的特點如下:
1) DUT-OMRON。包含5 168幅圖像,最大邊為400像素,背景復(fù)雜,含有多個顯著對象,標(biāo)注詳盡。
2) DUTS。包含10 553幅訓(xùn)練圖和5 019幅測試圖,源自ImageNet DET與SUN,場景豐富,適用于顯著性檢測。
3) HKU-IS。包含4 447幅圖像,全部帶有像素級顯著對象標(biāo)注,劃分為測試集和訓(xùn)練集。
4) ECSSD/CSSD。分別包含1 000幅和200幅復(fù)雜場景圖,含有像素級標(biāo)注,有助于學(xué)習(xí)顯著性特征。
5) SOD。基于BSD,包含300幅圖像,涵蓋7類對象,專注于顯著邊界。
6) PASCAL-S。源于PASCAL VOC,包含850 幅圖像,具有二進制標(biāo)注,用于評估顯著目標(biāo)檢測性能。
這些數(shù)據(jù)集共同推動了顯著目標(biāo)檢測技術(shù)的發(fā)展,提供了多樣化和復(fù)雜的測試基準。
3.2 評價指標(biāo)
為了評估性能,本節(jié)重點介紹以下廣泛使用的評價指標(biāo):精確率(PR) 、F分數(shù)(F-Measure) 、平均絕對誤差(Mean Absolute Error,MAE) 、S分數(shù)(S-Measure) 、PR 曲線(PR curves) 、E分數(shù)(E-Measure) 。
1) 精確率(PR) 。精確率是輸出位置在給定的真值閾值距離內(nèi)的幀的百分比。在某些場景下,也可以使用最大精確率(MPR) 作為評價指標(biāo)。
2) F-分數(shù)(F-Measure) 。融合準確率與召回率,通過調(diào)和平均取得,反映綜合性能。
3) 平均絕對誤差(MAE) 。表示預(yù)測值和觀測值之間絕對誤差的平均值,通常越小越好。
4) S分數(shù)(S-Measure) 。該指標(biāo)的計算涉及顯著性圖的結(jié)構(gòu)相似性和顯著性圖的區(qū)域相似性。具體形式可能因研究和實現(xiàn)而異。該指標(biāo)的取值范圍通常在0到1之間,其中1表示完美匹配。
5) PR曲線(PR curves) 。即以召回率(Recall) 為橫坐標(biāo),精確率為縱坐標(biāo)繪制而成的曲線,通過調(diào)節(jié)分類閾值,可以得到不同的召回率和精確率,從而得到PR曲線。
6) E分數(shù)(E-Measure) 。綜合考慮了算法生成的顯著性圖與真實顯著性圖之間的結(jié)構(gòu)相似性、亮度一致性和顯著目標(biāo)的區(qū)域相似性。E-measure的計算公式和具體實現(xiàn)可能有一些變化,取決于研究和評估的具體設(shè)置。該指標(biāo)的取值范圍通常在0到1之間,其中1表示完美匹配。
4 總結(jié)
本文回顧了顯著目標(biāo)檢測的演進,包括從早期技術(shù)到近期深度學(xué)習(xí)技術(shù),并著重介紹了圖神經(jīng)網(wǎng)絡(luò)(GNN) 在此領(lǐng)域的應(yīng)用。文章首先概述了GNN的基本構(gòu)成,隨后分類探討了其在顯著目標(biāo)檢測上的研究進展,同時涵蓋了關(guān)鍵數(shù)據(jù)集與評價標(biāo)準。
展望未來,GNN在該領(lǐng)域的潛在研究方向包括:
1) 動態(tài)圖處理。針對視頻數(shù)據(jù),研發(fā)適應(yīng)性強的GNN,實現(xiàn)實時圖分析預(yù)測,提升視頻顯著目標(biāo)檢測的精度。
2) 不完整圖學(xué)習(xí)。研究處理圖數(shù)據(jù)缺失問題的方法,恢復(fù)丟失信息,增強實際場景下的應(yīng)用能力。
3) 不確定性建模。探究GNN在捕捉顯著目標(biāo)不確定性上的潛力,以增強系統(tǒng)的魯棒性和可靠性。
這些方向有望推動顯著目標(biāo)檢測技術(shù)的進一步發(fā)展。
【通聯(lián)編輯:唐一東】