


















摘 要:顯著性物體檢測旨在快速定位圖像中的顯著性目標,可用于目標檢測和識別、關鍵點定位、視覺跟蹤、語義分割等計算機視覺任務中。為梳理顯著性檢測研究的發展脈絡,從方法、應用領域和研究方向等方面分析顯著性檢測的研究現狀和發展趨勢。首先,闡述了顯著性檢測與相關研究的區別和聯系;然后,分析了目前主流的顯著性物體檢測算法的流程、創新點、性能和適用性;接下來,介紹了顯著性檢測領域數據集的發展和演化;最后,展望了顯著性檢測研究的發展趨勢并總結了顯著性檢測的主要應用領域。
關鍵詞:顯著性物體檢測; 視覺注意; 關注點預測; 目標建議; 深度學習; 弱監督學習
中圖分類號:TP391.9 文獻標志碼:A
文章編號:1001-3695(2022)07-003-1941-10
doi:10.19734/j.issn.1001-3695.2021.12.0645
基金項目:國家自然科學基金資助項目(61772244)
作者簡介:李婉蓉(1998-),女,河南安陽人,碩士研究生,主要研究方向為顯著性檢測、計算機視覺;徐丹(1981-),女(通信作者),江蘇徐州人,副教授,碩導,博士,主要研究方向為顯著性檢測、計算機視覺、機器學習(jsjxy_xd@just.edu.cn);史金龍(1976-),男,黑龍江哈爾濱人,教授,碩導,博士,主要研究方向為三維場景重建、計算機視覺;黃樹成(1969-),男,江蘇連云港人,教授,碩導,博士,主要研究方向為目標追蹤、計算機視覺、機器學習.
Review of salient object detection: models, applications and prospects
Li Wanrong, Xu Dan?, Shi Jinlong, Huang Shucheng
(School of Computer Science, Jiangsu University of Science amp; Technology, Zhenjiang Jiangsu 212100, China)
Abstract:Salient object detection (SOD) aims at detecting the significant parts in the images automatically and efficiently, which plays an important role in computer vision tasks such as object detection and recognition, key points location, visual tracking, semantic segmentation and so on. This paper focused on a comprehensive review of salient object detection, which covered the closely related fields, models, datasets, applications and future directions. It introduced the relationship between salient object detection and closely fields at first. Then, it analyzed salient object detection algorithms in terms of flowcharts, ideas, innovations, performance as well as applicability. Thirdly, it introduced the public datasets which improving continuously with the development of the saliency detection models. Finally, it discussed a prospect of future researches and several real application scenes of salient object detection.
Key words:salient object detection; visual attention; eye fixation prediction; object proposal; deep learning; weak supervision learning
0 引言
人類視覺系統在面對復雜場景時具有搜索和定位感興趣目標的能力,可以很容易地注意到圖像中的目標物體而忽略背景。這種視覺注意能力受認知生理和心理的控制,是人類處理視覺信息的重要機制[1]。受人類視覺機制啟發,圖像顯著性可描述為圖像中的組成元素吸引人類視覺注意的能力,顯著性檢測可定義為采用生物學模型或計算模型檢測圖像中最令人感興趣、視覺表現力最強的區域[2,3]。顯著性檢測實例如圖1所示。
顯著性檢測是一項極具挑戰性的計算機視覺任務。首先,顯著性檢測源于人類視覺注意機制,涉及認知心理學、生理學和注意視覺,其內部作用機制尚不明確;其次,面對復雜的場景和多樣化的顯著性物體,人的注意力會因為不同的因素而改變,很難根據一個固定的準則來建模;最后,注意力受語義信息的影響,而圖像的語義信息很難通過簡單的圖像特征來表達。
近年來,顯著性檢測得到了長足的發展。從最初依賴生物模型轉換為以計算模型為主導,進而發展為融合多種顯著性因素的檢測模型以及目前主流的基于深度學習的顯著性檢測算法,其檢測準確率顯著提升。顯著性檢測可快速定位圖像場景中的重要區域,使得后續視覺算法能夠根據區域重要程度分配所需計算資源,緩解海量圖像信息與有限計算資源之間的矛盾。顯著性檢測的應用場景也更加廣泛,可用于目標檢測和識別[4]、關鍵點定位[5]、視覺跟蹤[6]、語義分割[7]、圖像縮略圖[8]、圖像重定向[9]等計算機視覺任務中。顯著性檢測與相關領域的先驗知識相結合可幫助快速檢測實際應用場景中的目標物體,從而為后續處理提供便利。如在無人駕駛的感知系統中,顯著性檢測算法可幫助快速檢測出交通場景中的行人、車輛、交通標志等目標,為無人駕駛車輛提供外部環境和路況信息[10]。
本文將從顯著性檢測與相關視覺任務的關系、顯著性檢測經典算法和主流研究方向、數據集、發展趨勢、應用領域等方面進行闡述。
1 相關領域
根據不同定義和應用場景,視覺注意研究可分為視覺注意點檢測、目標建議和顯著性物體檢測,其主要應用如圖2所示。本文重點關注顯著性物體檢測的研究和進展。
1.1 人眼注意點預測
人眼注意點預測是顯著性檢測相關研究中最早的研究分支,目前仍是該領域的研究熱點之一。與顯著性檢測旨在獲得邊界完整、內部統一的顯著性物體不同,人眼注意點預測是為了預測人在觀察圖像時眼球注意的位置,主要用于人機交互、視線估計、立體視差估計、照片質量評估等領域[11]。
一般認為,Itti等人[1]在1998年提出的中心—周圍模型是最早的基于心理/生理學原理的視覺視注意模型,通過中央周邊差操作提取局部對比度特征,模仿視網膜探測突出目標的生理機制,用于人眼注意點預測。Harel等人[12]提出的基于圖的人眼注意位置估計方法將圖像像素間的空間關系表示為圖模型,并利用馬爾可夫鏈來建模人眼注意圖像的過程。Judd等人[13]綜合利用底層、中層、高層特征和中心先驗假設進行人眼關注點預測,并構建了人眼關注點預測的大型數據集。Borji等人[14]分別在RGB和Lab空間提取圖像塊的局部和全局對比度信息,用對比度和稀有性預測圖像塊的重要程度。近年來,深度學習模型被廣泛應用。Liu等人[15]構建多分辨率卷積神經網絡,以多尺度的人眼注意區域和非注意區域為輸入樣本,訓練卷積神經網絡,進行人眼注意點預測。Shi等人[16]則對視頻中的人眼注意區域預測問題進行研究,采用視頻幀及其光學流作為輸入,訓練循環卷積神經網絡,得到視頻的空間和時間特征。此外,Cornia等人[17]將長短時記憶網絡(LSTM)用于人眼關注點預測,Pan等人[18]則引入生成對抗網絡,通過生成器和判別器的迭代更新使得生成的預測圖逐步逼近真值圖。
人眼注意位置估計只能讓顯著性物體的一小部分被檢測出來,而很多計算機視覺應用需要將整個顯著物體和背景區分開來。顯著物體檢測是由于人眼注意位置估計的研究不能滿足計算機視覺應用的需求而誕生的研究方向。
1.2 目標建議(object proposal)
目標建議與人類自底向上的認知過程相吻合,是一種通用的目標度量方法。目標建議的目的是將給定圖像中的所有可能存在的物體全部檢測出來,并不區分物體的具體類別。
目標建議也是比較具有挑戰性的研究領域,因為不同類別物體,如狗、花和車輛等,其顏色和形狀特性有較大差異,統一建模比較困難。Alexe等人[19]提出一種似物性度量方法,該方法綜合考慮四種圖像線索,包括多尺度顯著性、顏色對比度、邊緣密度以及跨超像素性(邊界完整性),最終通過貝葉斯框架進行融合,得到候選目標區域。該算法的運行速度為4 s/image,其產生的目標建議框可為類別相關的目標檢測提供先驗知識。Cheng等人[20]將符合一定尺度和縱橫比的窗口縮放為8×8大小的圖像塊,利用64維二值化梯度特征(BING)描述圖像塊。該算法能極大地提高目標候選區域檢測的效率,減少耗時,在PASCAL VOC 2007上每幅圖像的處理時間可低至0.005 s(每幅圖像1 000個建議窗口,IoU為0.5)。Jie等人[21]認為似物性不應只考慮圖像底層特征,更應該考慮高層語義信息,并提出一種基于全卷積網絡的目標建議框架以確定目標的位置和邊界。該方法不僅檢測精度高于之前的算法,在噪聲圖像、模糊圖像以及壓縮圖像上也具有較強的魯棒性。
一般情況下,目標建議的輸出是如圖3[20]所示的大量目標建議框,其結果可用于顯著性檢測、弱監督學習和目標跟蹤等領域。如Zhang等人[22]采用Alexe等人[19]的目標建議方法產生候選目標區域,然后與顏色空間分布緊致性產生的顯著圖融合,通過流形排序獲得最終的顯著圖。Zeng等人[23]提出一種自底向上和自上而下自適應線性融合的目標建議方法,并將其應用于弱監督目標檢測中。
2 研究方法
2.1 傳統顯著性物體檢測算法
Itti等人[1]成功地把視覺顯著性從認知心理學和神經學遷移到計算機視覺領域中,使顯著性成為一種可以被計算的內容。Liu等人[24]首次將顯著性檢測問題看做二值分割問題,采用局部特征、區域特征和全局特征表示顯著性物體,訓練條件隨機場,將圖像塊標記為顯著性或非顯著性。 此后,顯著性檢測逐漸脫離生物模型,轉向基于底層特征的計算模型,極大地提高了檢測結果的精度。下面將對基于計算機模型的顯著檢測算法進行分類介紹。
1)基于對比度的顯著性檢測算法
術語“顯著”與前景/背景的對比度有關,基于此產生了直接采用對比度度量的顯著性檢測算法。 如 Cheng 等人[2]提出全局對比度算法HC和RC:HC算法以像素為單位、以像素與圖像中其他像素在Lab空間中的顏色距離為度量,計算全分辨率的顯著圖;為考慮像素空間分布對顯著性的影響,進一步提出RC算法,首先將圖像分割成若干區域,然后以區域為單位計算全局對比度。RC算法的顯著性度量如式(1)所示。
其中:S(rk)為區域rk的顯著值;D(rk,ri)為區域之間的距離;w(ri)為區域ri的權重。
Achanta等人[25]在頻域計算像素對比度以得到像素的顯著值,利用高斯差分濾波器限制頻帶寬度以滿足顯著性區域的要求:最小化低頻截止頻率以高亮較大的顯著性物體;為獲得完整的顯著性區域邊界,保留部分高頻信息;同時為了抑制噪聲,高頻截止頻率不應太大。最終利用式(2)完成顯著值的計算。
其中:Iu為圖像特征均值;Iwhc(x,y)是高斯濾波后的特征值。
上述直接采用對比度度量的算法易于理解和實現,但僅適用于目標和背景單一的圖像。Yang 等人[26]提出基于圖的流形排序的顯著性檢測算法,將超像素作為圖的節點,超像素之間的距離權重作為無向邊,通過流形排序計算各節點與查詢節點的相關性,作為該節點的顯著性度量。為分別考慮背景和前景線索,該算法包括兩個階段:首先選出背景種子(節點),通過流形排序計算各節點與背景節點的相關性*,并以1-*作為節點顯著值;將上一階段獲得的顯著圖進行自適應分割,得到前景節點,同樣通過流形排序計算各節點與前景節點的相關性*,并以*作為節點顯著值,得到最終的顯著圖。該算法采用級聯的方式,將背景和前景顯著性融合在一起,在已有數據集以及本文所提數據集上的性能明顯優于直接采用對比度的顯著性檢測算法。
2)基于特征變換的顯著性檢測算法
人眼可以快速分辨出圖像中的顯著性區域和背景區域,但這一過程是復雜且高度非線性化的。Kim等人[27]提出了一種顏色變換算法HDCT,將低維RGB圖像映射到高維顏色特征空間,使得顯著性區域和背景區域在高維線性可分。具體思路為:首先對原始圖像進行超像素分割,采用已有的顯著性檢測算法獲得初始顯著圖;在此基礎上,構建三元圖,即包括確定的前景區域、確定的背景區域和不確定區域三個部分;將確定前景和背景部分中的超像素映射到高維顏色特征空間,估計最優的顏色特征線性組合;最后,根據估計得到的線性組合進行顯著性檢測。該算法簡單有效,但由于僅在顏色特征空間進行變換,沒有考慮紋理特征、空間分布等因素,對于顯著性物體和背景區域顏色相近的圖像檢測效果不夠理想。
Zhang等人[28]則提出一種基于最小化柵格距離 (MBD)變換的顯著性檢測算法。該算法假設圖像的邊界區域和背景區域具有很高的相似度,計算像素與邊界的顏色距離,以此衡量像素的顯著值。MBD距離代價函數對像素值波動具有很好的魯棒性, 可直接用在原始像素值上,不必經過區域抽象化預處理(如超像素分割)。但是,由于MBD 算法的復雜度很高且計算耗時,為此提出一種FastMBD快速算法,使得處理速度可以達到80 fps。該算法基于邊界假設,因此無法處理顯著性目標位于圖像邊界的情形;同時,該算法度量像素之間的顏色距離,對于前景區域和背景區域對比度較小的情形,也不能很好地高亮顯著性區域。
3)層次顯著性檢測算法
如果圖像中存在尺度較小、對比度較高的區域,則會影響算法檢測出完整的顯著性物體,為解決此類問題,Yan等人[29]提出層次顯著性檢測算法。該算法采用過分割、合并的方式將原始圖像分為尺度由細至粗的三層,然后采用區域局部對比度和中心偏置計算每層的顯著圖,最后通過樹模型融合各層顯著圖形成多層次顯著性檢測算法。該算法的創新之處在于:a)提出新的區域尺度度量方法,不同尺度圖像的生成方式不以簡單的分辨率為度量,而是采用先分割后合并的方法,高層圖像區域由低層圖像相鄰區域合并得到,不同層次之間具有包含關系,符合人類對于物體尺度的認知過程;b)與層次尺度相對應,提出基于樹模型的顯著圖融合方法,該融合方式優于啟發式的融合算法,有助于得到最優的顯著圖。同樣采用多層次的思想,Liu等人[30]提出了基于顯著樹的檢測算法ST,該算法首先綜合考慮全局對比度、空間稀疏性、物體先驗等因素得到初始顯著圖,然后采用顯著值和二叉劃分樹生成顯著樹。
4)融合顯著性檢測算法
為進一步提升算法的魯棒性,出現了綜合考慮多種底層特征和顯著性因素的融合算法。如Jiang等人[31]綜合獨特性(uniqueness)、聚焦程度(focusness)和似物性(objectioness)等顯著性因素提出了UFO算法。崔麗群等人[32]考慮對比度特征、顏色特征、紋理特征、中心先驗和邊緣先驗等顯著性線索,通過元胞自動機融合得到最終的顯著圖。多線索融合有助于檢測出邊緣完整的顯著性目標,在一定程度上提高了算法在復雜場景圖像上的檢測性能,然而其仍是底層圖像特征的啟發式組合[33]。
5)基于學習的顯著性檢測算法
針對此問題,Xia等人[34]在深入研究顯著性物體和非顯著性物體特征的基礎上,提出了基于學習的顯著性檢測方法。首先采用MCG[35]算法產生一系列目標建議框,每個目標建議框用先驗前景、形狀、視覺注意圖等在內的79維特征描述子表示;利用特征描述子在不同圖像上訓練出一系列簡單的線性回歸器;最后,通過線性回歸器預測結果的組合來產生最終的顯著值。Tong等人[36]提出一種基于引導學習的顯著性檢測方法,首先采用先驗知識生成弱顯著圖,將弱顯著圖中的背景區域作為負樣本、顯著性區域作為正樣本,每個樣本提取RGB、CIELab、LBP三種特征,并采用多核融合方式學習得到強分類器。將強分類器用于輸入圖像,獲得強顯著圖,最終的顯著圖由弱顯著圖和強顯著圖加權融合獲得。該算法采用了boosting的學習思想,有效融合了先驗知識產生的弱顯著圖,在傳統顯著性檢測算法中取得了較好的檢測結果。
表1給出了典型的傳統顯著性物體檢測算法在多個數據集上的性能比較[33]數據集上的最優指標加粗表示。其中:Fβ表示最大F-measure值,Fβ越大說明算法性能越好;MAE表示平均絕對誤差,該值越小越好。
2.2 基于深度學習的顯著性檢測算法
上述顯著性檢測算法在簡單場景圖像上取得了較為理想的檢測結果,對于雜亂環境下多樣化目標的檢測則會產生較高的漏檢率和虛警率[38]。如UFO算法[31]在MSRA-B數據集上的F-measure值為0.862,而在DUT-OMRON數據集上的F-measure值僅為0.593。 這是因為算法過度依賴圖像底層特征和先驗假設,導致其無法適應真實圖像中復雜多變的場景。
1)非端到端深度顯著性檢測算法
為了解決上述問題,研究者提出了通過深度學習框架自動提取場景高層特征的方法。早期的基于深度學習的顯著性檢測算法通常融合部分常見的傳統人工特征,在這些特征的基礎上提取有效的深度顯著性特征,進而分辨出圖像中的顯著性區域,也稱為非端到端的方法。He等人[39]提出的SuperCNN方法將輸入圖像分割成不同尺度的超像素,計算每個超像素的對比度序列和顏色分布序列,分別輸入到卷積神經網絡中,學習得到深度層次顯著性特征。其效果明顯優于直接采用圖像塊訓練深度學習網絡的算法,不足之處在于,計算對比度序列和顏色分布序列的過程是二維圖像向一維序列轉換的過程,在此過程中損失了超像素的空間位置信息。為解決這一問題,Xu等人[40]提出對比度立方體結構,將圖像劃分為與超像素對應的N×N個區域,每個區域的全局對比度可表示為N×N×M的立方體,M為特征維度,在計算對比度的同時保留了圖像的空間信息,將該立方體輸入卷積神經網絡,提取高層語義特征,完成顯著性檢測。
Wang等人[41]提出一種基于局部估計和全局搜索的顯著性檢測算法,首先構建局部深度神經網絡DNN-L學習圖像塊的局部特征,獲得像素級的顯著圖,并利用目標建議引入高級語義信息,優化局部顯著圖。在全局搜索階段,采用局部顯著圖和全局對比度特征表示目標區域,構建全局深度學習網絡DNN-G預測每個目標區域的顯著值,最終的區域顯著值為局部和全局顯著值的加權和。Lee等人[42]認為底層特征可以作為高層特征的有效補充,兩者結合的效果優于僅使用高層特征的效果。底層特征的提取以區域為單位,計算區域和圖像中其他區域的特征距離,通過CNN編碼形成底層距離圖(ELD-map),高層特征通過VGG網絡提取,ELD-map和高層特征串聯后輸入全連接神經網絡分類器,得到每個區域的顯著值。非端到端的方法能夠人為預先完成一些任務,降低網絡的設計規模,然而輸入端復雜的數據結構也增加了網絡設計的難度。
2)端到端深度顯著性檢測算法
Long等人[43]將基于端到端、逐像素的全卷積網絡(FCN)應用于語義分割中,取得了優于非端到端CNN算法的結果。顯著性檢測本質上可看做分割問題,許多研究者嘗試將FCN應用于顯著性檢測領域中。端到端的顯著性檢測算法將所有計算步驟都包含于深度網絡中,網絡的輸入和輸出分別是整幅圖像和其對應的顯著圖,這種像素級的操作可有效避免非端到端網絡中全連接層導致的顯著性物體邊界不清晰的問題,是目前主流的顯著性檢測模型。
Li等人[44]提出多尺度全卷積神經網絡MS-FCN,其結構如圖4所示。在VGG網絡[45]前四個池化層后各引入三層卷積層(也稱為skip layers),通過設置每個卷積層的步長,使得四個卷積模塊的輸出尺度相同(均為原圖的1/8分辨率),連同VGG最后的輸出層一起,形成大小相同的5個通道,然后輸入1×1的卷積層,得到1通道輸出,即為所求顯著圖。MS-FCN通過融合VGG網絡不同卷積層的輸出獲得不同尺度的語義特征,利用多尺度特征圖獲取細微的視覺對比進行顯著性推斷。
Liu等人[46]提出的端到端網絡DHSnet 包括編碼(encoder)和解碼(decoder)兩部分,編碼部分在VGG16網絡的基礎上構建全局視角卷積神經網絡,從全局角度出發得到低分辨率的初始顯著圖,該顯著圖能夠有效地捕捉圖像全局特征,但會損失邊緣等細節信息。為此,在解碼部分利用循環卷積層RCL逐步分層地將局部上下文特征融合到編碼階段不同卷積層輸出的特征圖中。這是一種從粗到到細、從全局到局部、逐步求精的顯著性檢測過程,其網絡結構如圖5所示。
Hou 等人[47]發現卷積神經網絡的深層側向輸出能夠提取高層語義信息、更好地定位顯著性物體,而淺層側向輸出則能捕獲更豐富的空間信息。基于此觀察提出DSS(deep supervision with short connections)網絡,在VGG網絡的基礎上采用短連接結構融合不同尺度的側向輸出,并讓深層側向輸出直接對淺層側向輸出產生影響,以充分融合側向輸出特征圖中的豐富顯著性語義。其網絡結構如圖6所示。
為探究多層次多源特征對顯著性算法性能的影響,Wang 等人[48]提出自上而下和自底向上推理過程協作迭代的顯著性檢測模型,自上而下是逐步求精的過程,自底向上的推理則利用自上而下得到的細粒度顯著圖獲得增強的高層顯著性估計,如此迭代協作達到更優的顯著性檢測結果。方正等人[49]針對傳統顯著性檢測模型和基于深度學習的模型各自的優缺點,提出了一個包含 FCN 以及隨機森林的復合顯著性模型。首先利用改進的密集卷積網絡[50]訓練針對顯著性檢測的密集FCN,并選取一種現有的傳統模型用于預測超像素的顯著性值,最后提出一種基于Hadamard 積和像素間顯著值一對一非線性映射的融合算法,得到最終融合結果。
此外,為了幫助檢測出完整的顯著性目標,Su等人[51]嘗試引入顯著性邊緣信息,和顯著性區域信息相結合得到統一的顯著性物體。首先采用ResNet-50網絡[52]獲得輸入圖像的通用特征,在此基礎上構建三個子網絡,分別用于顯著性物體內部區域感知、顯著性物體邊緣定位以及兩者融合時的遷移補償,通過集成膨脹模塊將三者融合在一起,得到最終的顯著圖。出于類似的考慮,Li等人[53]將用于輪廓檢測的深度學習網絡遷移到顯著性檢測中,與顯著性檢測深度網絡結合,以獲得邊界清晰的顯著圖。但由于顯著性機制的差異,區域和邊緣的融合有時無法達到預期結果。同樣是引入邊緣信息,Zhao等人[54]將邊緣信息融合到損失函數中,分別獲得真值圖和顯著圖的邊緣,然后采用交叉熵損失函數指導顯著性物體邊緣的生成。Zhou等人[55]構建輕量級的兩分支解碼器,分別用于檢測顯著性區域和物體邊緣,為了彌補區域和邊緣顯著性生成機制的差異,引入相關網絡,通過交互式學習將兩者有機融合在一起。在實驗階段,分別以VGG和ResNet50為主干網絡,以VGG為主干網絡的情況下,算法可達到50 fps的處理速度。
雖然基于深度學習的顯著性檢測算法明顯優于傳統算法,但在復雜場景中的檢測精度仍需提高。目前,多數端到端深度顯著性檢測算法是FCN的變種,在FCN的訓練中,每個像素的特征向量被獨立地分配一個真值標簽,在訓練和推理過程中,相鄰特征向量之間沒交互和聯系,這種現象稱為特征空間獨立性。正是這種特征之間的獨立性,限制了基于FCN的算法在復雜背景圖像上的性能。為進一步提升算法性能,Chen等人[56]提出一種基于互信息的顯著性檢測優化算法,將顯著性算法產生的初始顯著圖分為前景FG、近似前景AFG以及近似背景ABG三部分,FG和AFG、ABG分別組成訓練的正樣本對和負樣本對,采用互信息建立樣本深度特征之間的距離,通過判別器判斷模糊區域和前景區域的相關程度,以消除不確定區域和邊緣模糊的情況。文中實驗證明,該優化算法可有效提高深度學習顯著性檢測算法的性能。
3)基于GAN的深度顯著性檢測算法
上述基于深度學習的顯著性檢測算法均采用卷積神經網絡。Ji等人[57]將顯著性檢測問題看做圖像風格轉換問題,即將輸入圖像和顯著圖分別看做源域圖像和目標域圖像,采用條件生成對抗網絡(cGAN)進行顯著性檢測,提出cGANw算法。cGAN模型主要包含生成器和判別器兩部分:生成器負責從源域到目標域的圖像轉換工作;判別器則負責分辨生成器生成樣本的真偽,并回傳梯度用于調整生成器當前的參數。
其算法流程如圖7所示,將目標域真值圖作為監督信息,用于指導生成器有目的地生成目標域圖像。判別器用于判定樣本對的真偽,其中,正樣本對為源域圖像(輸入圖像)和目標域條件監督信息(真值圖),負樣本對為源域圖像(輸入圖像)和生成目標域圖像(生成的顯著圖)。cGAN模型的損失函數和目標函數可分別用式(3)和(4)表示。
其中:y表示引入的條件監督信息,這里為真值圖。等號右邊的第一項表示判別器將正樣本對判定為真的概率,第二項表示將生成結果構成的負樣本對判定為假的概率。生成器G的訓練目標為最小化LcGAN,而判別器D的訓練目標則是最大化LcGAN,即:
通過生成器和判別器的博弈,使得生成器產生的顯著圖越來越趨近于真值圖,最終達到顯著性檢測的目的。然而,從表2可以看出,與基于FCN的模型相比,該算法性能相差較多。其主要原因在于,對抗生成網絡的訓練過程中,將生成器和判別器作為一個整體訓練,使用一個損失函數,使得對于生成器和判別器的訓練不夠充分。
在此基礎上,Wu等人[58]從網絡結構、損失函數的設計等方面對基于生成對抗網絡的顯著性檢測模型進行了改進。該模型的訓練包括生成器訓練、判別器訓練和整個生成對抗網絡的訓練三個階段,各訓練階段采用不同的損失函數。在測試階段只需將待測試圖像輸入生成器,即可獲得結果顯著圖。表2的性能對比表明,相較于cGANw模型,改進后的算法性能有了大幅提升。
基于深度學習的顯著性檢測模型的性能較之傳統算法有了明顯改進。然而,基于深度學習的顯著性檢測算法仍然存在一些問題:a)深度學習網絡的不可解釋性,端到端的深度學習模型完全依賴網絡從數據中學習與顯著性檢測相關的特征或映射函數,這導致顯著性檢測算法除了訓練數據和其他視覺任務不同外,網絡結構本身沒有本質差別,在此過程中顯著性線索的作用并不清楚,不利于探索人類視覺機制在顯著性檢測算法中的作用;b)單層的卷積操作只能提取卷積核局部范圍內的語義信息,缺乏全局性語義信息。大部分網絡結構依靠池化操作縮小特征圖尺寸以獲得全局性信息,導致圖像細節信息的損失。以上問題限制了現有顯著性檢測算法在復雜圖像上性能的進一步提升。
2.3 弱監督顯著性檢測算法
基于深度學習的監督算法改進了顯著性檢測的性能,使得復雜圖像中顯著性區域的檢測精度大幅提升。然而,該類算法依賴于大量逐像素標注的數據集,一方面增加了數據收集和標注的成本,另一方面不利于算法在未知圖像上泛化能力的提升?;诖?,一些研究者提出了基于弱監督學習的顯著性檢測算法。
Wang等人[59]提出一種不確切弱監督學習算法WSS(weakly supervised saliency),將圖像級類別標簽作為監督數據,獲得顯著性區域。該算法分為兩個階段。第一階段,將圖像類別標簽作為真值,訓練類別相關的全卷積網絡FCN和類別無關的前景檢測網絡FIN,分類任務可以得到每個類別的響應圖,而FIN關注普適的顯著性區域。將這兩者的輸出相乘,得到掩膜得分圖,再經過GSP(global smooth pooling)將像素級的得分圖聚集為圖像級的類別概率,通過最小化損失函數L(l,s)迭代訓練FCN和FIN,其中,l為圖像類別標簽,s為網絡預測的類別概率。通過不斷訓練,相乘后的掩膜得分圖中,正確類別會繼續保持響應甚至得到增強,不相干類別繼續不響應甚至被抑制,分類任務才得以正確完成。第二階段,以第一階段中FIN的輸出為初始顯著圖,進行優化求精。首先,擴展了第一階段的FIN,增加了反卷積層和跳層,以改進輸出顯著圖的分辨率;其次,采用條件隨機場(CRF)優化FIN輸出的顯著圖;然后,將優化后的顯著圖作為真值指導FIN網絡的訓練,得到新的顯著圖;如此迭代,達到優化求精的目的。
Zeng等人[60]認為單一弱監督信息不足以訓練性能良好的顯著性檢測模型,提出一種多源弱監督顯著性檢測算法,綜合利用圖像級類別標簽、圖片說明、和無標簽數據進行模型訓練。為實現多源弱監督學習,作者構建了三個以DenseNet為主干的深度網絡:a)CNet,以圖像類別標簽為監督信息,以Lc為損失函數,生成各類別相關概率以及粗糙顯著圖Sc;b)PNet,以圖像說明為監督信息,以Lp為損失函數,生成候選單詞的條件概率以及粗糙顯著圖Sp;c)SNet,以無標簽圖像為輸入,利用流形排序算法獲得底層顯著圖,以底層顯著圖為監督信息,利用注意協同損失函數Lac對Sc和Sp迭代求精。文中采用了四種損失函數:a)類別標簽損失函數Lc,用來指導CNet的訓練;b)圖像說明損失函數Lp,用來指導PNet的訓練;c)為了充分利用不同的監督信息,文中引入了注意轉移損失函數Lat,即將CNet產生的顯著圖Sc中的正負樣本作為真值,訓練PNet的顯著圖生成,反之,將PNet產生的顯著圖Sp中的正負樣本作為真值,訓練PNet的顯著圖生成;d)最后,為了生成最終顯著圖,引入注意協同損失函數Lac,將底層顯著圖作為真值,指導CNet和PNet的訓練。網絡總體的損失函數由上述四種損失函數綜合獲得:
在測試階段,僅使用訓練好的SNet進行顯著性檢測,得到顯著圖。該論文提出了一種多源弱監督學習的框架,可以很容易地加入其他弱監督信息,如物體邊框、噪聲顯著圖等。
Zhang等人[61]提出一種基于深度學習的無監督顯著性檢驗算法,其無監督的含義在于沒有使用人工標注的真值圖作為訓練標簽。然而,在訓練過程中用到了傳統顯著性檢測算法生成的顯著圖,筆者認為這是一種訓練標簽不準確的弱監督學習,并不屬于嚴格的無監督學習。用于訓練的顯著圖通常帶有噪聲,文中提出一種新穎的噪聲建模的思想,假設顯著圖中的噪聲符合高斯分布。用于訓練的初始顯著圖y和網絡預測輸出的顯著圖均可由兩部分組成,即y=y′+n,其中,y′由一個潛在的顯著性預測模塊得到,n由噪聲建模模塊獲得。計算和y之間的損失,用來更新顯著性預測模塊和噪聲建模模塊的參數。相應地,損失函數也由兩部分組成:
其中:λ為平衡顯著性預測模塊和噪聲模塊的正則化因子;Θ為顯著性預測模塊的網絡參數;Σ為噪聲模塊的參數。實驗表明該方法性能明顯優于直接采用噪聲標簽進行監督學習的情況,在某些數據集上的性能指標甚至優于強監督深度學習算法。
表2給出了基于深度學習的顯著性物體檢測算法在多個公開數據集上的性能比較。其中:-表示非端到端的顯著性檢測算法;+表示端到端的顯著性檢測算法;*為弱監督學習算法;※為基于生成對抗網絡的顯著性檢測算法。每個數據集上的最優性能指標加粗表示,可見,各數據集上的最優性能均由端到端的深度學習算法獲得。
3 數據集
隨著顯著性檢測算法的發展,顯著性數據集也發生相應的變化,部分公開數據集如表3所示。早期數據集如ASD[25]和MSRA-A[24]帶有明顯的數據選擇偏差,其中的多數圖像僅包含簡單背景和單個顯著性物體。為了更加全面公正地評價顯著性檢測模型,近年來研究人員開始收集相對復雜的數據集,包括DUT-OMRON[26]、ECSSD[29]和PASCAL-S[64]。其中:ECSSD是ASD數據集之后應用最為廣泛的數據集;DUT-OMRON數據集提供顯著性目標矩形框標注、逐像素標注和人眼注意點標注三種真值數據;PASCAL-S源于PASCAL VOC 2010的驗證集,提供全分割真值標注、人眼注意點標注和顯著性物體逐像素標注,用于探索人眼注意點、顯著性檢測和物體分割之間的內在聯系。與之前的數據集相比,這些數據集在圖像數量和圖像標注質量方面得到了改進。然而,數據偏差仍然存在:假設圖像中一定存在顯著性目標,從而拋棄了不包含顯著性物體的圖像;顯著性物體的種類相對固定,多為人、動物、車輛等物體;圖像中的顯著性物體多處于圖像中心位置。這種明顯的設計偏差導致顯著性模型在現有數據集上性能基本飽和,卻無法應用于實際場景。
為進一步縮小和實際場景的差距,數據集HKU-IS[62]、XPIE[34]和DUTS[59]通過收集具有多個顯著物體的大量圖像來修正顯著性先驗假設。 HKU-IS數據集中的圖像至少滿足以下三個條件之一,存在多個不相連的顯著性物體,或至少一個顯著性物體接觸到圖像邊緣,或圖像對比度低于0.7。XPIE數據集從三個數據源自動獲得大量數據,與之前數據集不同的是,XPIE中不僅包含了顯著性圖像(10 000幅),還首次考慮了非顯著性圖像,即不包含顯著性物體的圖像(8 598幅)。DUTS包括來自不同數據源的10 553幅訓練圖像和5 019幅測試圖像,訓練圖像來自ImageNet DET訓練驗證集[65],測試數據來自ImageNet DET測試集和SUN數據集[66]。
ILSO[67]是實例級數據集,標注了一幅圖像中多個顯著性物體的ID號。其中,三分之二的圖像包括多個有遮擋的顯著性物體,另外三分之一的圖像涵蓋了沒有顯著性物體、或只有一個顯著性物體、或有多個無遮擋的顯著性物體三種情況。Fan等人[68]提出了能詳細反映真實世界場景、具有挑戰性的SOC數據集,從是否存在顯著性物體、圖像的數量和類別、顯著性物體的對比度、大小、位置等方面構建全面而平衡的實例級數據集,并提供高質量的顯著性對象標注。ILSO和SOC數據集均提供實例級顯著性物體的逐像素標注以及顯著性物體的邊緣標注,可為基于輪廓的顯著性檢測算法提供數據支持。
4 發展趨勢
顯著性物體檢測的發展趨勢如圖8所示。
1)實例級顯著性物體分割 目前的顯著性檢測算法輸出的顯著圖能夠高亮顯著性區域,而無法區分其中的實例級物體[70],如圖9所示。顯著性檢測與目標建議相結合,可完成實例級的顯著性物體檢測。Li等人[67]提出一種顯著性實例分割算法,可對每個顯著性物體進行標注,并提出實例級顯著性檢測數據集。該算法包括三個步驟:首先,構建多尺度顯著性細化網絡,用來產生顯著圖和顯著物體邊緣圖;在邊緣圖的基礎上得到目標建議框;將顯著圖和目標建議輸入條件隨機場,獲得空間一致的實例級顯著性物體分割結果。
上述方法以有精確真值標注的顯著性數據集為訓練樣本,與此不同,Tian等人[71]提出基于弱監督學習的顯著性實例檢測模型。以圖像級的類別標簽和圖像包含顯著性實例的數量為監督信息,構建顯著性區域檢測子網絡、邊緣檢測子網絡和物體中心檢測子網絡,融合三個子網絡的輸出獲得最終的實例級顯著圖。該方法的優點在于不需要像素級的真值數據,降低了人工標注的工作量,另外,同時考慮類別標簽和圖像中的顯著性物體數量,能夠有效區分同一類物體的不同顯著性實例。在此基礎上,Liu等人[72]進行了更加細致的工作,不僅完成了實例級顯著性物體的檢測和分割,還對不同顯著性實例的重要性進行排序,并在圖像重定向應用中驗證了該算法的有效性和實用性。
2)協同顯著性檢測(co-saliency) 與單幅圖像不同的是,協同顯著性檢測旨在尋找一組相關圖像中共同的顯著性物體或區域,被廣泛應用于視頻/圖像前景分割、目標定位、監控錄像分析以及圖像檢索等領域中[73]。如圖10所示,圖(b)列為顯著性檢測結果,高亮了所有顯著性物體,圖(c)為co-saliency檢測結果,僅高亮兩幅圖像中共同的顯著性物體。基于學習的co-saliency檢測算法大致步驟如下:首先,采用現有的無監督顯著性檢測算法獲得粗略顯著圖;然后,通過自學習方法融合自上而下的先驗知識來檢測共同顯著目標的形象;最后,優化所得的顯著圖[74]。Zhang等人[75]提出基于深度學習的協同顯著性檢測算法,利用預先訓練的VGG-16網絡獲得輸入組圖掩膜,用于移除背景區域,同時高亮共同顯著區域,然后采用掩膜指導的FCN獲得共同顯著圖,并通過迭代優化多尺度標注平滑模型改進檢測結果。
3)考慮深度信息的顯著性檢測 隨著3D圖像采集設備(如Kinect、iPhone X)的出現和流行,深度圖像為傳統RGB圖像提供了重要的補充信息。RGB-D圖像的顯著性檢測涉及RGB圖像和深度圖像的顯著性檢測和融合問題[76]。從融合階段可分為早期融合模式、晚期融合模式和交叉級融合模式。Song等人[77]采用早期融合方式,將深度信息看做圖像的一個通道,和RGB三通道同時輸入顯著性檢測模型進行多層次顯著性計算;Fan等人[78]則采用晚融合的方式,分別獲得RGB圖像和深度圖像的顯著性預測,通過后期處理如像素級相加或相乘進行融合;第三種方式是交叉級融合,首先采用不同網絡分別提取RGB特征和深度特征,然后進行特征融合,輸入顯著值預測模型得到最終的顯著圖[79]。一般情況下,深度圖像的質量比RGB圖像質量要差一些,存在較多噪聲,而且兩者的內在結構不同,簡單的線性融合和連接并不能獲得性能的較大提升。為解決這一問題,Zhao等人[80]利用對比度先驗增強深度信息,并將獲得的增強深度圖和RGB特征在流形金字塔模型框架下融合,得到高質量的顯著性檢測結果。
5 應用領域
5.1 在計算機視覺任務中的應用
顯著性檢測被廣泛應用于多種計算機視覺任務中。Zhang等人[81]將顯著性檢測用于圖像壓縮感知研究中,采用顯著性模型檢測出圖像中的重要區域,為其分配較高的采樣率,從而提高重要區域的圖像重建質量。Marchesotti等人[82]采用顯著性檢測結果進行圖像縮略圖提取和生成,主要步驟為:給定標注數據集和目標圖像,檢索與目標圖像相似的圖像;提取圖像中的顯著性區域;最后,細化顯著性區域,提取和生成縮略圖。Seo等人[83]探討了顯著性檢測在自動目標檢測系統中的應用,自動目標檢測系統多用于軍事,輔助或代替人類專家執行危險環境中的任務,因為作業環境復雜,目前仍面臨諸多挑戰。作者提出一種無須訓練的局部顯著性檢測算法,能夠快速檢測出圖像中的顯著性目標。近年來,有學者在圖像質量評價研究中引入視覺顯著性特征。視覺顯著性體現了人類視覺系統對圖像中物體的關注度,基于視覺顯著性的圖像質量評價算法更加符合人類視覺系統對圖像的感知,有助于提升圖像質量評價算法的總體性能。Zhang等人[84]分析了20種流行的顯著性檢測模型和12種廣泛使用的圖像質量評價算法,以探索顯著性檢測對于圖像質量評價的性能改進程度。Wang等人[85]提出一種新穎的、以顯著性為指導的復雜圖像檢索算法,采用Itti等人[1]提出的經典顯著性檢測模型、結合圖像復雜度級別構建相關反饋模型以彌補圖像檢索中的語義鴻溝,在復雜數據集上的實驗結果表明其性能優于目前流行的圖像檢索算法。Jacobson等人[86]將顯著性檢測應用于視頻幀率上轉換處理中,提出一種尺度感知的顯著性區域檢測算法,并將其輸出的顯著圖作為視頻幀率上轉換算法區域分類器的輸入,實驗證明,該算法在峰值信噪比、結構相似性等度量標準上均優于傳統幀率上轉換算法。Ren等人[87]將顯著性檢測結果應用于物體識別領域,具體做法是將顯著圖與基于稀疏編碼的空間金字塔匹配模型(ScSPM)相結合進行圖像表示,并且將區域的顯著值當做權重以強調顯著性區域在特征池化模型中的作用。
目前主流的顯著性檢測算法主要針對非壓縮域的圖像或視頻,為了避免解碼/編碼的復雜操作,Ammar等人[88]提出一種直接從壓縮流(MPEG-4 AVC)中提取顯著圖的方法,并將其結果顯著圖用于確定水印的嵌入區域,幫助算法在規定的嵌入信息量和魯棒性要求下獲得期望的水印透明度。基于以下認知:相對于圖像其他區域,顯著性區域的真實和完整性更加關鍵和重要,顯著性區域的竄改將會在很大程度上改變圖像所表達的信息,Muratov等人[89]將顯著性檢測用于圖像竄改檢測中,獲得了較好的檢測效果。Liu等人[90]提出一種基于語義分析和顯著性檢測的行人重識別算法,將顯著性檢測用于語義產生的圖像塊,選擇出更有可能存在行人的圖像塊,然后利用PHOG、HSV和SIFT特征彌補顯著性檢測的不足,獲得了預期的檢測結果。
5.2 在相關領域中的應用
顯著性檢測與相關領域的先驗知識相結合可幫助快速定位實際應用場景中的目標物體,從而為后續處理提供便利。顯著性檢測算法可幫助快速檢測出交通場景中的行人、車輛、交通標志等目標,為無人駕駛車輛提供外部環境和路況信息[91]。顯著性檢測與醫學圖像處理相結合,有助于快速、準確地確定圖像中的異常區域。Zhao等人[92]提出一種基于強度和空間分布唯一性的顯著性檢測算法,該算法的優點是可以檢測不同種類圖像中的不同病灶區域,而無須調整參數,作者在視網膜圖像上驗證了該算法的有效性。Mitra等人[93]提出一種三維多通道MR圖像上的顯著性檢測算法,以提升腦部腫瘤檢測的精確度,相較于二維顯著性檢測算法,該方法能夠得到更加精確的VoI(volumes of interest)。
6 結束語
顯著性檢測是計算機視覺領域的研究熱點之一,其研究既可對計算機視覺相關領域(如目標檢測、圖像分割、感知壓縮等)提供有益借鑒,也可促進機器視覺在行業中的應用(如醫學圖像處理、自動駕駛和智能安防等)。本文深入分析了顯著性檢測的理論和方法,總結了顯著性檢測數據集的發展和演化,并對顯著性檢測研究的發展趨勢以及應用領域進行了探討。
目前顯著性檢測中仍然存在一些難點問題,如數據集的偏置問題、復雜場景中顯著性物體檢測問題、深度學習網絡構建問題,以及顯著性檢測模型和人類視覺之間的差異問題等??煽紤]與相關研究(如目標建議、語義分割、場景標記)相結合,尋找可行的解決方法。另一方面,可借助比單幅圖像更加豐富的信息,如RGBD圖像中的深度信息、視頻中的時序信息以及多幅圖像之間的關聯信息,進一步提升檢測精度。
參考文獻:
[1]Itti L, Koch C, Niebur E. A model of saliency-based visual attention for rapid scene analysis[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[2]Cheng Mingming, Mitra N J, Huang Xiaolei. Global contrast based salient region detection[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2014,37(3):569-582.
[3]蔣峰嶺,孔斌,錢晶,等.顯著性物體檢測研究綜述[J].測控技術,2021,40(1):1-15.(Jiang Fengling, Kong Bin, Qian Jing, et al. Review on salient object detection[J].Measurement amp; Control Technology,2021,40(1):1-15.)
[4]Liu Yixiu, Zhang Yunzhou, Coleman S. A new patch selection me-thod based on parsing and saliency detection for person re-identification[J].Neurocomputing,2020,374:86-99.
[5]Tinchev G, Penate-Sanchez A, Fallon M. SKD: keypoint detection for point clouds using saliency estimation[J].IEEE Robotics and Automation Letters,2021,6(2):3785-3792.
[6]丁新堯,張鑫.基于顯著性特征的選擇性目標跟蹤算法[J].電子學報,2020,48(1):118-123.(Ding Xinyao, Zhang Xin. Visual tracking with salient features and selective mechanism[J].Acta Electronica Sinica,2020,48(1):118-123.)
[7]Bai Cong, Chen Jianan, Huang Ling, et al. Saliency-based multi-feature modeling for semantic image retrieval[J].Journal of Visual Communication and Image Representation,2018,50:199-204.
[8]Wang Wenguan, Shen Jianbing, Yu Yizhou, et al. Stereoscopic thumbnail creation via efficient stereo saliency detection[J].IEEE Tans on Visualization and Computer Graphics,2016,23(8):2014-2027.
[9]Shafieyan F, Karimi N, Mirmahboub B, et al. Image retargeting using depth assisted saliency map[J].Signal Processing: Image Communication,2017,50:34-43.
[10]Deng Tao, Yang Kaifu, Li Yongjie, et al. Where does the driver look? Top-down-based saliency detection in a traffic driving environment[J].IEEE Trans on Intelligent Transportation Systems,2016,17(7):2051-2062.
[11]王文冠,沈建冰,賈云得.視覺注意力檢測綜述[J].軟件學報,2019,30(2):416-439.(Wang Wenguan, Shen Jianbing, Jia Yunde. Review of visual attention detection[J].Journal of Software,2019,30(2):416-439.)
[12]Harel J, Koch C, Perona P. Graph-based visual saliency[C]//Proc of the 20th Annual Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2007:545-552.
[13]Judd T, Ehinger K, Durand F, et al. Learning to predict where humans look[C]//Proc of the 12th IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2009:2106-2113.
[14]Borji A, Itti L. Exploiting local and global patch rarities for saliency detection[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2012:478-485.
[15]Liu Nian, Han Junwei, Zhang Dingwen, et al. Predicting eye fixations using convolutional neural networks[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2015:362-370.
[16]Shi Jiuchen, Zhang Dong. Recurrent fully convolutional networks based on optical flow for video eyes fixation prediction[C]//Proc of International Conference on Computer,Communication and Network Technology.2018:212-216.
[17]Cornia M, Baraldi L, Serra G, et al. Predicting human eye fixations via an LSTM-based saliency attentive model[J].IEEE Trans on Image Processing,2018,27(10):5142-5154.
[18]Pan Junting, Ferrer C, McGuinness K, et al. SalGAN: visual saliency prediction with generative adversarial networks[EB/OL].(2016-07-01).https://arxiv.org/abs/1701.01081v2.
[19]Alexe B, Deselaers T, Ferrari V. Measuring the objectness of image windows[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2012,34(11):2189-2202.
[20]Cheng Mingming, Liu Yun, Lin Wenyan, et al. BING: binarized normed gradients for objectness estimation at 300 fps[J].Computational Visual Media,2019,5(1):3-20.
[21]Jie Zequn, Lu Wenfeng, Sakhavi S, et al. Object proposal generation with fully convolutional networks[J].IEEE Trans on Circuits and Systems for Video Technology,2016,28(1):62-75.
[22]Zhang Qing, Lin Jiajun, Li Wenju, et al. Salient object detection via compactness and objectness cues[J].The Visual Computer,2018,34(4):473-489.
[23]Zeng Zhaoyang, Liu Bei, Fu Jianlong, et al. WSOD2: learning bottom-up and top-down objectness distillation for weakly-supervised object detection[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:8291-8299.
[24]Liu Tie, Yuan Zejian, Sun Jian, et al. Learning to detect a salient object[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2010,33(2):353-367.
[25]Achanta R, Hemami S, Estrada F, et al. Frequency-tuned salient region detection[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2009:1597-1604.
[26]Yang Chuan, Zhang Lihe, Lu Huchuan, et al. Saliency detection via graph-based manifold ranking[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2013:3166-3173.
[27]Kim J, Han D, Tai Y, et al. Salient region detection via high-dimensional color transform[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2014:883-890.
[28]Zhang Jianming, Sclaroff S, Lin Zhe, et al. Minimum barrier salient object detection at 80 fps[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:1404-1412.
[29]Yan Qiong, Xu Li, Shi Jianping, et al. Hierarchical saliency detection[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2013:1155-1162.
[30]Liu Zhi, Zou Wenbin, Le Meur O. Saliency tree: a novel saliency detection framework[J].IEEE Trans on Image Processing,2014,23(5):1937-1952.
[31]Jiang Peng, Ling Haibin, Yu Jingyi, et al. Salient region detection by UFO: uniqueness, focusness and objectness[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2013:1976-1983.
[32]崔麗群,陳晶晶,任茜鈺,等.融合多特征與先驗信息的顯著性目標檢測[J].中國圖象圖形學報,2020,25(2):321-332.(Cui Liqun, Chen Jingjing, Ren Xiyu, et al. Saliency object detection based on multiple features and prior information[J].Journal of Image and Graphics,2020,25(2):321-332.)
[33]Borji A, Cheng Mingming, Jiang Huaizu. Salient object detection: a benchmark[J].IEEE Trans on Image Processing,2015,24(12):5706-5722.
[34]Xia Changqun, Li Jia, Chen Xiaowu, et al. What is and what is not a salient object? Learning salient object detector by ensembling linear exemplar regressors[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:4399-4407.
[35]Arbeláez P, Pont-Tuset J, Barron J, et al. Multiscale combinatorial grouping[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2014:328-335.
[36]Tong Na, Lu Huchuan, Ruan Xiang, et al. Salient object detection via bootstrap learning[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:1884-1892.
[37]Zhu Wangjiang, Liang Shuang, Wei Yichen, et al. Saliency optimization from robust background detection[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2014:2814-2821.
[38]Borji A, Cheng Mingming, Jiang Huaizu, et al. Salient object detection:a survey[J].Computational Visual Media,2019,5(2):117-150.
[39]He Shengfeng, Lau R, Liu Wenxi, et al. SuperCNN: a superpixelwise convolutional neural network for salient object detection[J].International Journal of Computer Vision,2015,115(3):330-344.
[40]Xu Dan, Huang Shucheng, Zuo Xin. Spatial-aware global contrast representation for saliency detection[J].Turkish Journal of Electrical Engineering and Computer Sciences,2019,27(4):2412-2429.
[41]Wang Lijun, Lu Huchuan, Ruan Xiang, et al. Deep networks for saliency detection via local estimation and global search[C]//Proc of IEEE International Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2015:3183-3192.
[42]Lee G, Tai Y, Kim J. Deep saliency with encoded low level distance map and high level features[C]//Proc of IEEE International Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:660-668.
[43]Long J,Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:3431-3440.
[44]Li Guanbin, Yu Yizhou. Deep contrast learning for salient object detection[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:478-487.
[45]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL].(2015-04-10).http://doi.org/10.48550/arxiv.1409.1556.
[46]Liu Nian, Han Junwei.DHSNet:deep hierarchical saliency network for salient object detection[C]//Proc of IEEE International Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:678-686.
[47]Hou Qibin, Cheng Mingming, Hu Xiaowei, et al. Deeply supervised salient object detection with short connections[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:5300-5309.
[48]Wang Wenguan, Shen Jianbing, Cheng Mingming, et al. An iterative and cooperative top-down and bottom-up inference network for salient object detection[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:5961-5970.
[49]方正,曹鐵勇,洪施展,等.融合深度模型和傳統模型的顯著性檢測[J].中國圖象圖形學報,2018,23(12):1864-1873.(Fang Zheng, Cao Tieyong, Hong Shizhan, et al. Saliency detection via fusion of deep model and traditional model[J].Journal of Image and Graphics,2018,23(12):1864-1873.)
[50]Huang Gao, Liu Zhuang, Maaten L Q. Densely connected convolutional networks[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:4700-4708.
[51]Su Jinming, Li Jia, Zhang Yu, et al. Selectivity or invariance: boundary-aware salient object detection[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:3798-3807.
[52]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:770-778.
[53]Li Xin, Yang Fan, Cheng Hong, et al. Contour knowledge transfer for salient object detection[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:355-370.
[54]Zhao Ting, Wu Xiangqian. Pyramid feature attention network for saliency detection[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3080-3089.
[55]Zhou Huajun, Xie Xiaohua, Lai Jianhuang, et al. Interactive two-stream decoder for accurate and fast saliency detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:9138-9147.
[56]Chen Changrui, Sun Xin, Hua Yang, et al. Learning deep relations to promote saliency detection[C]//Proc of AAAI Conference on Artificial Intelligence.2020:10510-10517.
[57]Ji Yuzhu, Zhang Haijun, Wu Q M. Saliency detection via conditional adversarial image-to-image network[J].Neurocomputing,2018,316:357-368.
[58]Wu Yong, Liu Zhi, Zhou Xiaofei. Saliency detection using adversarial learning networks[J].Journal of Visual Communication and Image Representation,2020,67:102761.
[59]Wang Lijun, Lu Huchuan, Wang Yifan, et al. Learning to detect salient objects with image-level supervision[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2017:136-145.
[60]Zeng Yu, Zhuge Yunzhi, Lu Huchuan, et al. Multi-source weak supervision for saliency detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:6074-6083.
[61]Zhang Jing, Zhang Tong, Dai Yuchao, et al. Deep unsupervised saliency detection: a multiple noisy labeling perspective[C]//Proc of IEEE International Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2018:9029-9038.
[62]Li Guanbin, Yu Yizhou. Visual saliency based on multiscale deep features[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:5455-5463.
[63]Zhang Dingwen, Han Junwei, Zhang Yu. Supervision by fusion:towards unsupervised learning of deep salient object detector[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:4048-4056.
[64]Li Yin, Hou Xiaodi, Koch C, et al. The secrets of salient object segmentation[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2014:280-287.
[65]Deng Jia, Dong Wei, Socher R, et al. ImageNet: a large-scale hie-rarchical image database[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2009:248-255.
[66]Xiao Jianxiong, Hays J, Ehinger K, et al. SUN database: large-scale scene recognition from abbey to zoo[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition,Piscataway,NJ:IEEE Press,2010:3485-3492.
[67]Li Guanbin, Xie Yuan, Lin Liang, et al. Instance-level salient object segmentation[C]//Proc of IEEE International Conference on Compu-ter Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:2386-2395.
[68]Fan Dengping, Cheng Mingming, Liu Jiangjiang, et al. Salient objects in clutter: bringing salient object detection to the foreground[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:186-202.
[69]Alpert S, Galun M, Brandt A, et al. Image segmentation by probabilistic bottom-up aggregation and cue integration[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2011,34(2):315-327.
[70]Hsu K, Lin Y, Chuang Y. DeepCO3: deep instance co-segmentation by co-peak search and co-saliency detection[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:8846-8855.
[71]Tian Xin, Xu Ke, Yang Xin, et al. Weakly-supervised salient instance detection[EB/OL].(2020)[2021-10-15].https://arxiv.org/pdf/2009.13898.pdf.
[72]Liu Nian, Li Long, Zhao Wangbo, et al. Instance-level relative saliency ranking with graph reasoning[EB/OL].(2021)[2021-10-15].https://ieeexplore.ieee.org/abstract/document/9523772.
[73]Zhang Dingwen, Fu Huazhu, Han Junwei, et al. A review of co-saliency detection algorithms: fundamentals, applications, and challenges[J].ACM Trans on Intelligent Systems amp; Technology,2018,9(4):1-31.
[74]Zhang Dingwen, Meng Deyu, Li Chao, et al. A self-paced multiple-instance learning framework for co-saliency detection[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:594-602.
[75]Zhang Kaihua, Li Tengpeng, Liu Bo, et al. Co-saliency detection via mask-guided fully convolutional networks with multi-scale label smoo-thing[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3095-3104.
[76]Liu Zhengyi, Song Tengfei, Xie Feng. RGB-D image saliency detection from 3D perspective[J].Multimedia Tools and Applications,2019,78(6):6787-6804.
[77]Song Hangke, Liu Zhi, Du Huan, et al. Depth-aware salient object detection and segmentation via multiscale discriminative saliency fusion and bootstrap learning[J].IEEE Trans on Image Processing,2017,26(9):4204-4216.
[78]Fan Xingxing, Liu Zhi, Sun Guangling. Salient region detection for stereoscopic images[C]//Proc of the 19th IEEE International Confe-rence on Digital Signal Processing.Piscataway,NJ:IEEE Press,2014:454-458.
[79]Shigematsu R, Feng D, You Shaodi, et al. Learning RGB-D salient object detection using background enclosure, depth contrast, and top-down features[C]//Proc of IEEE International Conference on Computer Vision Workshops.Piscataway,NJ:IEEE Press,2017:2749-2757.
[80]Zhao Jiaxing, Cao Yang, Fan Dengping, et al. Contrast prior and fluid pyramid integration for RGBD salient object detection[C]//Proc of IEEE International Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2019:3922-3931.
[81]Zhang Zhang, Bi Hongbo, Kong Xiaoxue, et al. Adaptive compressed sensing of color images based on salient region detection[J].Multimedia Tools and Applications,2020,79(21):14777-14791.
[82]Marchesotti L, Cifarelli C,Csurka G. A framework for visual saliency detection with applications to image thumbnailing[C]//Proc of the 12th IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:2232-2239.
[83]Seo H J, Milanfar P. Visual saliency for automatic target detection, boundary detection, and image quality assessment[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing.Piscataway,NJ:IEEE Press,2010:5578-5581.
[84]Zhang Wei, Borji A, Wang Zhou, et al. The application of visual saliency models in objective image quality assessment:a statistical evaluation[J].IEEE Trans on Neural Networks and Learning Systems,2015,27(6):1266-1278.
[85]Wang Haoxiang, Li Zhihui, Li Yang, et al. Visual saliency guided complex image retrieval[J].Pattern Recognition Letters,2020,130:64-72.
[86]Jacobson N, Nguyen T Q. Video processing with scale-aware saliency: application to frame rate up-conversion[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2011:1313-1316.
[87]Ren Zhixiang, Gao Shenghua, Chia L T, et al. Region-based saliency detection and its application in object recognition[J].IEEE Trans on Circuits and Systems for Video Technology,2013,24(5):769-779.
[88]Ammar M, Mitrea M, Hasnaoui M, et al. MPEG-4 AVC stream-based saliency detection: application to robust watermarking[J].Signal Processing: Image Communication,2018,60:116-130.
[89]Muratov O, Dang-Nguyen D, Boato G, et al. Saliency detection as a support for image forensics[C]//Proc of the 5th International Symposium on Communications,Control and Signal Processing.Piscataway,NJ:IEEE Press,2012:1-5.
[90]Liu Yixiu, Zhang Yunzhou, Coleman S, et al. A new patch selection method based on parsing and saliency detection for person re-identification[J].Neurocomputing,2020,374:86-99.
[91]Kuang Hulin, Yang Kaifu, Chen Long, et al. Bayes saliency-based object proposal generator for nighttime traffic images[J].IEEE Trans on Intelligent Transportation Systems,2017,19(3):814-825.
[92]Zhao Yitian, Zheng Yalin, Zhao Yifan, et al. Uniqueness-driven saliency analysis for automated lesion detection with applications to retinal diseases[C]//Proc of International Conference on Medical Image Computing and Computer Assisted Intervention.Berlin:Springer,2018:109-118.
[93]Mitra S, Banerjee S, Hayashi Y. Volumetric brain tumour detection from MRI using visual saliency[J].PLoS One,2017,12(11):e0187209.