基于多任務深度卷積神經網絡的顯著性對象檢測算法

2018-03-20 00:43:02李建平陳雷霆

計算機應用 2018年1期

楊帆，李建平，李鑫，陳雷霆

(電子科技大學計算機科學與工程學院，成都 611731)(*通信作者電子郵箱fanyang_uestc@hotmail.com)

0 引言

視覺顯著性可以幫助人類快速地過濾掉不重要的信息，讓我們的注意力更加集中在有意義的區域，從而能更好地理解眼前的場景。隨著計算機視覺技術的發展，大家希望電腦也能擁有和人類相同的能力，即在分析和理解一個復雜的場景時，電腦可以更加有針對性地處理有用的信息，從而能大幅度降低算法的復雜度，并且排除雜波的干擾。一般來說，視覺顯著性算法主要可以被分為兩大類：1)眼動估計；2)顯著性對象檢測。本文的工作主要針對第2)類問題進行研究。顯著性對象檢測算法的目標是檢測圖像(輸入場景)中最能吸引人注意的整個對象區域。目前，顯著性對象檢測算法被廣泛運用于計算機視覺和多媒體領域的任務中，包括對象追蹤[1]、對象發現[2]、對象識別[3]、稠密匹配[4]、圖像檢索[5]等。

顯著性對象檢測不受限于對象的類別、尺寸大小、位置、個數，這些不確定因素使得它成為目前計算機視覺和人工智能領域中的一個難題。在傳統做法中，研究人員根據觀察到的各種先驗知識對顯著性對象檢測算法進行建模，生成顯著性圖。這些先驗知識包括：對比度、中心先驗、邊緣先驗、語義先驗等，但在復雜的場景中，傳統方法往往不夠準確。這是因為這些觀察往往限于低級別的特征(例如，顏色和對比度等)，而不能準確反映出顯著性對象本質的共同點。

近年來，深度卷積神經網絡(Convolutional Neural Network, CNN)廣泛運用于計算機視覺的各個領域，很多困難的視覺問題都獲得了重大的進展。不同于傳統方法，深度卷積網絡可以從大量的樣本中建模并且自動地、端到端地學習到更為本質的特征，從而有效地避免了傳統人工建模和設計特征的弊端。在顯著性對象檢測領域，深度卷積網絡也被廣泛地使用[6-8]，并且大幅度地提高了顯著性對象檢測的準確性和魯棒性，但是由于深度網絡需要大量運用的池化操作(例如max-pooling和average-pooling)編碼上下文信息，這些方法總是不能很好地保存對象邊緣的信息，而事實上，對象的邊緣信息對于顯著性檢測非常重要。認知科學的研究也表明：人的視覺注意力在對象中流動并且被對象邊緣所阻擋。忽略這些邊緣信息或者不能正確編碼這些邊緣信息，往往只能得到次優的結果。

針對邊緣信息被忽略的問題，本文提出一種全新的顯著性對象檢測模型，該模型基于一個新設計的多任務的卷積神經網絡，并且該模型同時訓練和學習顯著性區域和邊緣信息。不同于現存單一任務的深度學習方法，本文檢測結果的生成同時依賴于顯著性對象邊緣和區域的信息。在三個廣泛使用的顯著性對象檢測公共數據庫上的實驗結果表明，本文所提方法在準確率、召回率以及均方誤差上均優于傳統算法和單一任務的深度學習算法。

1 相關工作

顯著性對象檢測算法可以被歸納為兩個類別：傳統方法和基于深度學習的方法。傳統方法主要基于各種不同的先驗知識，然后利用這些先驗知識進行數學建模，從而計算出每個像素的顯著性值。Cheng等[9]利用全局對比度計算對象的顯著性圖，該方法認為人的注意力總是傾向于那些對比度(全局對比度或者局部對比度)比較強烈的區域，從而可以通過顏色直方圖的計算，快速找出圖像中那些對比度強烈的區域。除此之外，邊緣先驗也廣泛地運用在顯著性對象檢測算法中，并衍生出各種類型的算法。這類算法假設圖像邊緣的區域往往不是顯著性對象的區域，因為人們在日常拍照的過程中，總是將顯著性的對象置于相對中間的位置。其中基于流形排序的散射算法[10]、基于二值圖的顯著性檢測算法[11]、基于邊緣接觸的顯著性對象檢測算法[12]等都取得了不錯的效果。除此之外，監督學習的方法也運用在顯著性對象檢測的任務中[13]。另外，Li等[14]提出構建顯著性的特征，并且建立與已有樣本的稠密對應關系，從而引導顯著性對象的檢測。傳統方法運用各種觀察和先驗知識進行數學建模，從而檢測出圖像或者場景中的顯著性對象。因為這些方法總是缺少了足夠的語義信息，所以它們不可避免地會在應對復雜場景和先驗矛盾的情況下失效。

由于深度卷積網絡強大的建模能力和自動的端到端的學習方式，很多近期的工作基于深度卷積網絡學習有效的特征，從而進行顯著性對象檢測。例如：文獻[6]利用更加豐富的上下文信息學習顯著性對象區域等；文獻[7]基于一個多尺度編碼上下文的深度卷積網絡進行顯著性對象檢測；文獻[8]同時編碼傳統特征向量和深度特征向量，利用它們的互補優勢進行顯著性對象檢測；文獻[15]基于一個多流卷積網絡學習顯著性對象的特征；文獻[16]通過兩個獨立的深度神經網絡分別計算區域和邊界信息，并且利用條件隨機場進行優化。這些方法相對傳統顯著性對象檢測方法大幅度提高了檢測的準確率，但是由于深度網絡的池化操作不能更好地保存對象的邊緣信息(也稱邊緣信息損失)，因而導致整個對象區域的邊緣模糊。為了解決上述問題，稠密條件隨機場(Dense Conditional Random Field)被廣泛地運用來優化深度網絡檢測的結果，進而得到完整的區域和清晰的邊緣；但是稠密條件隨機場的計算比較耗時，而且由于稠密條件隨機場基于低級別的圖像特征(比如顏色)，因而它在應對復雜場景時，也并不是特別有效。綜上所述，基于深度卷積網絡的顯著性對象檢測算法仍然有較大的提升空間。

2 基于多任務深度CNN的顯著性對象檢測

本文提出的顯著性對象檢測算法主要基于一個多任務卷積神經網絡。不同于現有基于卷積神經網絡進行顯著性對象檢測的框架，本文提出的多任務深度卷積網絡同時進行顯著性對象區域和邊緣兩種特征的學習，并且它們共享同一個底層表達。該網絡的輸入為任意一張圖像，輸出為一個顯著性對象區域的檢測結果以及一個顯著性邊緣的檢測結果。根據邊緣的檢測結果，生成一系列候選區域，這些區域結合顯著性區域的檢測結果重新進行排序并且加權求和，從而最后生成最終的顯著性圖。

2.1 多任務深度卷積神經網絡結構

多任務深度卷積神經網絡的目標是同時對圖像的邊緣和區域信息進行編碼。如圖1所示，在編碼過程中(encode process)，該網絡共享一個VGG- 16網絡，在解碼過程(decode process)中，該網絡包括一個顯著性區域檢測分支以及一個顯著性邊緣檢測分支。其中顯著性對象區域檢測子網絡是一個整體嵌套網絡(holistically-nested network)[17]，顯著性對象邊緣檢測是一個反卷積網絡(deconvnet)。在訓練的過程中，采取交互的方式訓練這個網絡：先固定顯著性對象邊緣檢測子網絡，訓練顯著性對象區域子網絡；然后固定顯著性對象區域檢測子網絡，調整(fine-tune)顯著性對象邊緣檢測子網絡。上述過程交替執行，直到損失函數(loss function)不再下降為止。在執行的過程中，輸入一張圖像，深度卷積網絡自動同時生成顯著性對象區域圖和顯著性對象邊緣圖。值得注意的是，兩個子網絡共享同一個底層VGG- 16網絡，因而它們可以保持一定的相關性，從而更加準確。

圖1 多任務深度卷積網絡整體框架結構

2.2 顯著性對象區域檢測子網絡

顯著性對象檢測是一個相對復雜的任務，它不僅需要高層次的語義信息，還需要低層次的局部信息，因而本文提出的顯著性對象區域檢測子網絡同時融合VGG- 16的淺層信息和深層信息。類似于整體嵌套網絡，將VGG- 16每個組的最后一層作為邊緣特征輸出(side-output)，另外在每個邊緣輸出中加入一個卷積層，從而更好地編碼上下文信息。

顯著性對象區域檢測子網路的輸入為一張任意圖像I，輸出為顯著性區域概率圖ψ(I;θR)，其中θR為顯著性對象區域檢測子網絡的網絡參數。該網絡學習多尺度顯著性對象區域特征，然后利用一個融合網絡整合各個尺度計算的顯著性對象的預測結果，并且得出最終的顯著性區域概率圖。VGG- 16有6個不同的尺度，其中最后一個尺度更多地整合全局信息，而顯著性對象檢測是一個像素級的分類問題，因而只利用VGG- 16的前5個尺度進行顯著性對象區域的檢測，并且每個尺度對應分類器的權重為ki，其中i=1,2,…,5。本文運用標準交叉熵代價函數(cross-entropy loss)去訓練整個網絡，計算每個像素和標注的差值。顯著性對象區域子網絡每個尺度的代價函數被定義為：

(1)

(2)

通過上述代價函數訓練，顯著性對象區域檢測子網絡可以有效地對圖像的顯著性區域進行預測。然而正如前文討論，由于深度卷積網絡固有的信息損失的缺陷(如圖2所示)，該網絡并不能完整地保存對象的邊緣信息，因此在該網絡基礎上，設計了另一個重要分支，對顯著性對象邊緣的特征進行有效的學習和提取。

2.3 顯著性對象邊緣檢測子網絡

如圖1所示，顯著性對象邊緣檢測網絡分支是一個反卷積網絡。理論上，反卷積網絡可以看成是卷積網絡的逆過程，即將上層的卷積圖作為輸入，然后進行反卷積操作，得到新的卷積圖。如表1所示，在本文的多任務深度卷積神經網絡中設計了6個反卷積層，分別對應了VGG- 16的6個尺度。顯著性對象邊緣子網絡的設計參考文獻[18]，但是這里的任務是顯著性對象的檢測，而不是給定類別的對象邊緣檢測，因此，在訓練的過程中，運用大量顯著性圖的人工標注，提取出邊緣，并且進行自動的端到端的學習，從而學習到每個反卷積網絡的參數。代價函數仍然為交叉熵代價函數計算顯著性對象邊緣：

(1-Bp) lnP(Bp=0|I;θB)

(3)

其中：Bp表示坐標p對應的邊緣標注，θB表示反卷積網絡的所有參數。因而，整個多任務深度卷積網絡的代價函數可以定義為：

Lall(θ)=Lfuse(θ)+Lb(θ)

(4)

其中Lall(θ)為整個多任務深度卷積網絡的代價函數。基于深度學習的框架，本文用隨機梯度下降的方式求解上述代價函數和訓練模型，從而訓練好整個模型。

在測試時，多任務深度卷積網絡的輸入為任意一張圖像，輸出為一個顯著性對象區域概率圖和一個顯著性對象邊緣概率圖。顯著性對象圖需要融合上述兩種輸出結果，從而得到一個更好的顯著性檢測結果。

表1 顯著性對象邊緣檢測子網絡參數設置

2.4 顯著性對象圖生成

如圖2，為了融合顯著性對象區域和邊緣的所有信息，首先利用顯著性對象邊緣的概率圖，并且通過多尺度聯合分組算法[19]，生成大量的候選區域，再結合多任務深度卷積網絡輸出的顯著性對象區域檢測的結果，并通過以下方式重新計算這些候選區域為顯著性對象區域的概率：

(5)

(6)

其中：Scorep(Ri)表示像素p由第i個候選區域決定的顯著性分數；Norm{·}表示歸一化操作，即最后需要將相加的值重新歸化到[0,1]。

圖2 顯著性對象圖生成框架

2.5 訓練和測試細節

本文運用MSRA- 10000[9]作為訓練數據。對于每個訓練的樣本，首先將它們的尺度調整為224×224。邊緣標注是通過對顯著性圖進行梯度計算提取出來。本文運用“poly”學習率衰減方式訓練整個網絡，并且學習衰減率被定義為(1-iter/maxiter)power；同時將初始的學習率設置為10-7，并且power=0.9，最大循環次數為60 000，運用隨機梯度下降法，去優化整個網絡。因為本文的網絡為一個多任務網絡，因此在訓練的過程中，需要先固定顯著性對象區域檢測子網絡，學習顯著性對象邊緣檢測子網絡的參數；之后再固定顯著性對象邊緣檢測子網絡，學習顯著性對象區域檢測子網絡的參數。上述訓練交替進行直到代價函數收斂，整個訓練過程耗時24 h左右。

測試過程中，僅僅只需要輸入任意一張圖像，網絡會自動生成它對應的顯著性區域圖和顯著性對象邊緣圖作為輸出。之后本文利用網絡輸出結果，根據2.4節描述，生成最終的顯著性對象圖。

3 實驗結果與分析

3.1 數據庫和對比方法

運用3個廣泛使用的顯著性對象檢測數據庫，包括擴展的復雜場景顯著性數據集(Extended Complex Scene Saliency Dataset, ECSSD)[20]、大連理工-歐姆龍顯著性數據集(DUT-OMRON)[10]以及帕斯卡數據集(PASCAL-S)[21]，作為測試數據，驗證本文所提方法的有效性。其中ECSSD中有1 000幅圖像，這些圖像包含一個或者多個顯著性對象，并且具有非常復雜的場景；DUT-OMRON是另外一個最具有挑戰的顯著性對象檢測數據庫，含有5 168幅特別具有挑戰的圖像，這些圖像包含非常復雜的場景；PASCAL-S被認為是目前最難的數據庫之一，它包含850幅圖像，這些圖像含有一個或者多個對象，并且這些對象具有不同的顯著值。上述三個數據庫被廣泛運用于驗證顯著性對象檢測算法的有效性。

為了進一步驗證本文方法的優越性，將本文提出的方法與目前常見的顯著性對象檢測算法進行比較。這些方法分為兩類：第一類是公認準確度排名較高的傳統方法，包括顯著性區域融合(Discriminative Regional Feature Integration, DRFI)[13]算法、基于最小障礙(Minimum Barrier, MB+)[22]顯著性檢測算法、基于流排序(Manifold Ranking, MR)[10]顯著性檢測算法、基于魯棒背景檢測(Robust Background Detection, RBD)[12]顯著性優化、基于高維顏色變換(High-Dimensional Color Transform, HDCT)[23]顯著性檢測、基于二值圖包圍方式(Boolean Map Saliency, BMS)[11]顯著性檢測。第二類為目前基于深度學習的顯著性對象檢測算法，包括：基于多信息深度學習(Multi-Context, MC)[6]顯著性檢測、基于多尺度深度紋理(Multi-scale Deep Feature, MDF)[24]顯著性檢測、基于距離圖深度(Encoded Low-level Distance, ELD)[8]顯著性檢測。

3.2 準確率-召回率曲線

準確率-召回率曲線被廣泛用來驗證顯著性對象檢測算法。通過設置不同的閾值，從而計算各個方法檢測結果準確率和召回率。如圖3所示，本文提出的方法在三個廣泛使用的數據集上都獲得最高的準確率-召回率。總的來說，基于深度卷積網絡的方法具有更高的準確率。這是因為深度卷積網絡在學習的過程中能更好地捕獲高級的語義信息，因而能更好地應對復雜的場景。傳統方法(包括DRFI、MB+、MR、RBD、HDCT、BMS)在處理復雜場景時(例如DUT-OMRON和PASCAL-S數據庫中的圖像)，由于它們基于觀察所得的線索進行數學建模，而這些線索并不能完全覆蓋所有情形，因而不能很好地應對復雜的場景。除此之外，本文方法由于克服了深度卷積神經網絡邊緣信息損失缺陷，因而取得更準確的顯著性圖。

3.3 F-measure

為了進一步驗證本文所提方法，除了準確率-召回率曲線，本文還運用F-measure(Fβ)對提出的方法進行驗證和比較。F-measure也一種驗證顯著性對象檢測算法的方法，通過如下公式計算：

(7)

其中β為權重，參照文獻[11，13，22]，本文設置β=0.3，強調precision的重要性。F-measure值越高表明算法檢測顯著性對象檢測的準確度越高。表2總結了本文所提方法與常見的顯著性對象檢測算法在三個廣泛使用的標準數據庫上的檢測結果。

圖3 不同方法的準確率-召回率曲線

Tab. 2 Detection results comparison of different methods on three widely-used benchmarks

從表2可以得出：1)相比傳統顯著性對象檢測算法，基于深度學習的顯著性對象檢測算法能夠計算出準確度高的結果；2)本文所提方法在三個具有挑戰性的數據庫上都獲得最高準確率；3)本文所提方法魯棒性相對較高，在不同難度數據庫上都獲得較高的準確率。

3.4 平均絕對誤差

平均絕對誤差(Mean Absolute Error, MAE)是指顯著性圖和人工標注的均方誤差，常常作為驗證顯著性對象檢測的重要指標。MAE是計算檢測出的顯著性圖的每個像素和人工標注顯著性圖的每個像素的平均絕對誤差：

(8)

其中：W和H分別表示顯著性圖的寬度和高度；S(x,y)和G(x,y)分別代表在坐標為(x,y)處方法預測的顯著性值和人工標注的顯著性值。

如表2所示，本文提出的方法在三個廣泛使用的公共數據集上獲取了最低的方差錯誤。這是因為本文提出方法能夠生成更加準確的結果，并且更好地保存了邊緣信息。同樣的，相比傳統方法，基于深度卷積網絡的方法取得更低的錯誤率，而本文方法比現有基于深度學習的方法更能有效保存邊緣信息，防止邊緣信息丟失，因而取得準確度高的結果。

3.5 視覺比較

視覺比較的結果如圖4中所示。和最后一列人工標注(GroundTruth, GT)作對比，本文所提方法生成的最后結果更接近于人工標注，本文所提方法即使在特別具有挑戰的場景中，仍然可以生成準確的顯著性圖。相比傳統方法，基于深度卷積網絡的方法的檢測結果更加集中在正確的區域，這是因為這些方法能有效學習到高級的語義信息。本文所提方法由于整合了邊緣和區域的信息，因而能更有效地保存邊緣信息，在背景復雜的場景中，本文提出方法仍然具有較高的魯棒性。

圖4 不同方法的視覺比較

3.6 運行效率比較

各種方法的運行效率比較如表3所示。

表3 運行效率比較 s

由于基于深度學習的方法需要運用GPU加速，因而本文用兩種不同的實驗環境分別測試傳統方法和基于深度學習方法的運行效率。具體來說，對于傳統顯著性對象檢測方法，本文的實驗環境為Windows操作系統，CPU為i7 2.50 GHz，內存為8 GB；對于基于深度學習的方法，用GPU進行加速，實驗環境為Linux系統，GPU為NVIDIA GTX 1080ti，顯存為11 GB。本文所提算法平均1.1 s完成一張圖像的檢測，運行速率上低于一些高效率算法(比如MB+)，但是本文所提算法卻獲得了最高的準確度。另外，本文提出算法的運行效率仍然大幅度高于現有的部分算法。

4 結語

本文提出一種基于深度卷積網絡的顯著性對象檢測算法。該算法能有效地整合邊緣信息和區域信息，從而獲得更高的準確性。為了實現對象邊緣信息和區域信息的提取，本文提出了一個多任務的深度卷積網絡，該網絡共享相同的底層結構，從而大幅度縮減了訓練和運行時間。在獲取顯著性對象邊緣和區域信息后，本文進一步提出一個簡單、有效的整合算法，精確地過濾了錯誤信息并且準確地保存了對象邊緣信息。實驗結果表明，本文所提的多任務深度學習框架能更好地整合顯著性對象邊緣信息和區域信息，從而能達到更好的效果。

當然，由于本文算法依賴于對象邊緣先驗知識提取對象候選區域，因此對于非常復雜的場景或者對象與圖像邊緣過度接觸的情況，本文算法仍然存在不足。這些問題將在后續的研究中被逐步改善，進一步提高算法效果。

References)

[1] BORJI A, FRINTROP S, SIHITE D et al. Adaptive object tracking by learning background context [C]// CVPR 2012: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 23-30.

[2] ZHU J, WU J, XU Y, et al. Unsupervised object class discovery via saliency-guided multiple class learning [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(4): 826-875.

[3] RUTISHAUSER U, WALTHER D, KOCH C, et al. Is bottom-up attention useful for object recognition? [C]// CVPR 2004: Proceedings of the 2004 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2004: 37-44.

[4] YANG F, LI X, CHENG H, et al. Object-aware dense semantic correspondence [C]// CVPR 2017: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 2777-2785.

[5] HE J, FENG J, LIU X, et al. Mobile product search with bag of Hash bits and boundary re-ranking [C]// CVPR 2012: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 3005-3012.

[6] ZHAO R, OUYANG W, LI H, et al. Saliency detection by multi-context deep learning [C]// CVPR 2015: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1265-1274.

[7] LI G B, YU Y Z. Visual saliency based on multi-scale deep features [C]// CVPR 2015: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 5455-5463.

[8] LEE G, TAI Y W, KIM J. Deep saliency with encoded low level distance map and high level features [C]// CVPR 2016: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 660-668.

[9] CHENG M, NILOY J, HUANG X, et al. Global contrast based salient region detection [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 569-582.

[10] YANG C, ZHANG L, LU H, et al. Saliency detection via graph-based manifold ranking [C]// CVPR 2013: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 3166-3173.

[11] ZHANG J, SCLAROFF S. Exploiting surroundedness for saliency detection: a Boolean map approach [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(5): 889-902.

[12] ZHU W, LIANG S, WEI Y, et al. Saliency optimization from robust background detection [C]// CVPR 2014: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 2814-2821.

[13] JIANG H, WANG J, YUAN Z, et al. Salient object detection: a discriminative regional feature integration approach [C]// CVPR 2013: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 2083-2090.

[14] LI X, YANG F, CHEN L, et al. Saliency transfer: an example-based method for salient object detection [C]// IJCAI 2016: Proceedings of the 2016 International Joint Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2016: 3411-3417.

[15] LI X, ZHAO L, WEI L, et al. DeepSaliency: multi-task deep neural network model for salient object detection [J]. IEEE Transactions on Image Processing, 2016, 25(8): 3919-3930.

[16] 李岳云,許悅雷,馬時平,等.深度卷積神經網絡的顯著性檢測[J].中國圖象圖形學報,2016,21(1):53-59.(LI Y Y, XU Y L, MA S P, et al. Saliency detection based on deep convolutional neural network [J]. Journal of Image and Graphics, 2016, 21(1): 53-59.)

[17] XIE S, TU Z. Holistically-nested edge detection [C]// CVPR 2016: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 1395-1403.

[18] YANG J, PRICE B, COHEN S, et al. Object contour detection with a fully convolutional encoder-decoder network [C]// CVPR 2016: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 193-202.

[19] ARBELAEZ P, PONTTUSET J, BSRRO J, et al. Multiscale combinatorial grouping [C]// ICCV 2014: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 328-335.

[20] XIE Y, LU H, YANG M. Bayesian saliency via low and mid level cues [J]. IEEE Transactions on Image Processing, 2013, 22(5): 1689-1698.

[21] LI Y, HOU X, KOCH C, et al. The secrets of salient object segmentation [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 280-287.

[22] ZHANG J, SCLAROFF S, LIN Z, et al. Minimum barrier salient object detection at 80 FPS [C]// ICCV 2015: Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 1404-1412.

[23] KIM J, HAN D, TAI Y W, et al. Salient region detection via high-dimensional color transform [C]// CVPR 2014: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 883-890.

[24] LI G, YU Y. Visual saliency based on multiscale deep features [C]// CVPR 2015: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 5455-5463.

This work is partially supported by the National Natural Science Foundation (6157021026), the National High Technology Research and Development Program (863 Program) of China (2015AA016010).

YANGFan, born in 1987, Ph. D. candidate. His research interests include computer vision, deep learning, dense semantic correspondence.

LIJianping, born in 1964, Ph. D., professor. His research interests include wavelet signal processing, pattern recognition, image processing.

LIXin, born in 1986, Ph. D. candidate. His research interests include computer vision, deep learning, artificial intelligence.

CHENLeiting, born in 1966, Ph. D., professor. His research interests include computer graphics, multimedia technology, image processing.