,,,
(1.中國科學院 上海微系統與信息技術研究所,上海 200050; 2.中國科學院大學,北京 100049)
視覺顯著性可以引導人類視覺系統在解析場景時,只將視覺注意力集中在場景中顯著的視覺刺激區域,這樣可以大大降低人腦需要進一步處理的信息量,提高對場景進行感知和理解的效率。這一重要機制在認知心理學、神經學、計算機視覺等領域中都是重要的研究問題。在計算機視覺領域中,視覺顯著性可以應用于圖像分割[1]、視頻壓縮[2]、目標的檢測與識別[3-5]、圖像質量評價[6-7]等領域,出現了眾多的計算模型來模擬人類視覺系統的這種機制,力求準確快速地提取出圖像和視頻中的顯著性目標或區域。
視覺顯著性的模型主要分為2種:一種是自底向上的計算模型,這種模型從圖像底層的視覺刺激如顏色、紋理等圖像特征出發,提取顯著性的區域;另外一種模型是自上而下的計算模型,這種模型與觀察者觀測場景的目的性和場景的上下文語義有關,比如駕駛場景下道路上的車輛行人等更加吸引人的視覺注意力。
本文從底層的場景信息出發,同時考慮深度信息、運動信息,融合進傳統的二維視覺顯著性框架,提出適用于動態場景的三維視覺顯著性模型。并針對三維動態場景下顯著性數據集的稀缺問題,通過實驗收集人眼在這些場景下的視覺注意力分布,構建一個用于評價算法性能的三維顯著性數據集。
傳統的自底向上的視覺顯著性模型都受到人類視覺系統的center-surround機制[8]、特征集成理論[9]以及早期注意力模型[10]的啟發,從二維圖像特征的局部對比度出發進行顯著性的決策。但是人眼的顯著性決策是在真實的三維世界中進行的,人眼獲取的信息不僅僅局限于圖像平面上的顏色、亮度等二維信息,還包含了人眼到物體的距離、物體的運動狀態等更加復雜的場景信息,而這些模型都忽略了這一因素,因此可以說這些模型的研究并不符合人眼的視覺注意力機制,并且應用的場景也很有限。另外的一些研究考慮了場景的運動信息,如文獻[11]將運動顯著性與顏色顯著性融合在一起,考慮視頻中動態場景的顯著性;一些研究考慮了場景的深度信息,如文獻[12]通過比較人眼在觀看2D和3D場景時的視線分布發現深度對顯著性的重要影響;文獻[13]直接將深度信息作為額外的特征通道融入到Itti[8]模型中去計算深度顯著圖;文獻[14]則研究了將2D顯著圖與深度信息融合獲取3D顯著圖的方法。這些方法的研究場景更接近真實的三維世界,但是只單獨考慮了深度因素或者運動因素。
本文提出一個融合運動、深度、顏色信息的顯著性算法框架,如圖1所示。算法首先根據所求場景的左圖獲取到場景的顏色信息,根據左右和前后幀圖像通過OSF[15]算法獲取場景的光流信息和視差信息。利用雙目立體視覺中視差與深度的關系,進一步提取出場景的深度信息。光流信息只代表真實三維世界中的點在圖像平面上的運動,并不能真實地反映目標的三維運動信息,本文利用光流信息、深度信息和相機的投影矩陣獲取場景中各點在相機坐標系下的三維運動軌跡,用它來表征場景的運動特征。在獲取到當前場景的顏色、運動和深度信息后,先通過一個改進的超像素分割算法將場景分割為一系列的區域,采用RANSC算法(隨機抽樣一致性算法)計算出每個區域的主要顏色、運動和深度信息,然后根據每種特征分別計算出顏色顯著圖、運動顯著圖和深度顯著圖,最后使用動態融合的方法將三者融合,得到最終的顯著性結果。

圖1 算法框架
首先根據視差信息可以推算出場景的深度信息,然后利用深度信息和光流信息進一步獲取到各點在相機坐標系下的三維運動矢量。
2.1.1 深度信息的獲取
在左右兩個相機光軸平行時,視差與深度存在如圖2所示的關系。

圖2 視差與深度的轉換關系
P點在左右像平面上的投影為P1、P2,兩點的x坐標分別為XL、XR,f為相機的焦距,B為兩相機的基線長,Z為P點的深度信息,通過推算可以得到深度與視差的關系:
(1)
其中,d為視差信息(d=XL-XR),這樣結合兩相機之間的基線長度與相機的焦距可以得到場景的深度信息。
2.1.2 相機坐標系下三維運動矢量的獲取
光流信息表征的是三維場景中點的運動在圖像平面上的投影。在相機運動的情形下,背景的運動都是由于相機的運動所造成的,這些運動是一致的。但是由于光流只是實際運動在圖像平面上的投影,背景各個區域的光流矢量的方向和大小其實是不同的,這就導致了在相機運動時,利用光流難以有效地區分因相機運動導致的背景區域的運動和場景中物體自身發起的運動,因此難以從場景中提取出運動顯著的目標。針對這個問題,本文結合光流信息和深度信息推算出場景中的點在相機坐標系下的三維運動矢量來表征場景的運動特征,推算的方法如圖3所示。

圖3 真實三維空間中點在前后像平面上的投影示意圖
三維場景中的點P在前后幀像平面上的投影分別為P1(u1,v1)、P2(u2,v2)。前一幀圖像的相機坐標系光心為O1,點P在此相機坐標系下的三維坐標為(x1,y1,z1);后一幀相機的光心運動到O2,新的相機坐標系以O2為原點,P在當前坐標系下的坐標變為(x2,y2,z2)。Pprojection是相機的內參投影矩陣(式(2)),表示相機坐標系下的坐標到圖像坐標的變換關系,兩個坐標之間的轉換關系如式(3)、式(4)所示。
(2)
(3)
(4)
像平面上點P1、P2的坐標可以由光流信息得到,結合前后幀的深度信息z1、z2,即可推算出式(3)、式(4)中的兩個尺度因子s1、s2,兩式相減即可得到點P在前后兩個相機坐標系下的三維運動矢量:
(5)
使用三維運動矢量的優勢在于:背景中的點在相機坐標系下的運動都是由于相機坐標系的旋轉或者平移產生的,這些點的三維運動矢量都是相同的,而場景中真正發生運動的點的三維運動矢量不僅與相機坐標系的幾何變換有關,還與自身的運動方向和大小有關,因此與背景中的點的三維運動矢量存在明顯差異,利用兩者之間的差異可以有效地將背景區域和前景目標區分開來。
SLIC超像素分割算法能夠較好地分割不同物體,生成的超像素緊湊整齊,并且算法時間效率高。但是該算法只從LAB顏色空間去考慮像素點之間的相似度量,在室外復雜場景下,如果目標物體與背景的顏色區分度很低,再加上光照陰影等因素的影響,分割算法的性能易受到較大的影響,難以很好地分割出不同物體的邊界。自然場景下同一個剛體運動目標的運動方向和速度都是一致的,因此運動特征也可以作為像素間相似程度的衡量準則之一,基于這一點本文將2.1節得到的運動信息融入分割算法,以提高復雜場景下的算法分割效果。
算法步驟和SLIC分割算法類似:先以網格化的形式初始化聚類種子點;然后在種子點的鄰域內進行迭代的聚類,直至算法收斂或者達到迭代次數上限,在這一步中對聚類的準則進行調整,把運動信息融合進去。SLIC算法的聚類準則如式(6)所示,distc(i)是像素點i與種子點之間在LAB顏色空間的歐幾里得距離,dists(i)是像素點i與種子點之間在空間位置上的歐幾里得距離,Nc和Ns是相應的距離歸一化因子,I是圖像上所有像素點的集合;調整后的聚類準則如式(7)所示,加入了像素點i與種子點之間的三維運動矢量距離distm(i),Nm是對應的距離歸一化因子。
(6)
(7)
迭代聚類過程完成之后,將不連續的超像素和尺寸過小的超像素分配給鄰近的超像素,最終生成一系列緊湊、近似均勻的超像素,將場景分割為不同的區域。
SLIC算法與融入運動信息的SLIC算法的分割結果如圖4所示,通過圖4(b)和圖4(c)的對比可以看到改進后的算法在前景和背景顏色相近時能夠更好地分割物體的邊界。為了便于可視化的對比,觀察框線區域,原來的算法會將車輛和背景分割到同一個超像素中,而改進后的算法能將兩者有效地分割開。

圖4 分割算法改進前后的分割結果
運動顯著性算法的目的是檢測場景中因為運動而對視覺注意力產生影響的區域。在諸如機器人自主導航、自動駕駛等領域,圖像的采集都是在攝像機高速運動場景下進行的,如何在這種場景下進行運動顯著性目標的準確檢測仍然是一個難題。主流的運動檢測方法主要分為3種:幀間差分法[16],背景抽取法[17]和基于光流的方法。幀間差分法只適用于攝像機靜止場景下的運動目標檢測,背景抽取法需要首先對特定場景下的背景進行數學建模,從而在接下來的圖像幀中去除背景區域,該方法要求初始場景中不存在目標物體,否則需要較長的背景更新過程才能完成對背景的正確建模。在2.1節中已經闡述了光流表征運動信息的局限性,在運動相機場景下難以將相機運動導致的背景運動和目標自身發起的運動區分開,如圖5 (b)所示。場景中某些小塊區域的顯著性較高是因為光照條件惡劣或者區域深度較大時深度計算不準確導致的。本文基于2.1節中獲得的場景中點在相機坐標系下的三維運動矢量,提出一種基于區域局部和全局對比度融合的運動顯著性算法。

圖5 運動顯著性結果
算法分為3步:1)根據2.2節中改進的超像素分割算法將場景分割為一系列的區域,R表示這些區域的集合(R={Ri|i=1,2,…,n}),利用RANSC算法(隨機抽樣一致性算法)計算出每個超像素的三維運動矢量,代表這塊區域的運動方向與速度;2)按照式(8)、式(9)計算每個超像素塊運動矢量的局部對比度與全局對比度;3)按照式(10)融合局部對比度和全局對比度,得到每個區域的運動顯著性結果。
(8)
(9)
m_sal(i)=wl×m_contrastl(i)+wg×
m_contrastg(i)
(10)
其中,m_contrastl(i)和m_contrastg(i)分別表示區域Ri的局部運動對比度和全局運動對比度,Ni是區域Ri鄰域內的區域,distm(i,j)和dists(i,j)分別是區域Ri與Rj之間的顏色距離和空間距離,wl和wg是兩者融合的權重,σ因子本文中取0.4。
采用局部對比度和全局對比度進行融合的優勢在于可以在兩個尺度上提取對比度明顯的區域。局部對比度可以有效地提取出局部鄰域內運動信息與周圍區域存在明顯對比的區域。但是局部對比度存在一個問題:由于超像素分割會將同一目標分割為多個區域,因此只計算局部對比度會導致目標中間區域的對比度較低,產生“空洞”的現象;而加入全局對比度可以填補目標中心區域的空洞,同時衡量出在全局尺度上對比度明顯的區域。運動顯著性檢測的結果如圖5(c)所示。
在真實三維場景下,深度信息是決定人類視覺注意力的重要影響因素之一。文獻[12]中的研究發現人眼在觀察同樣內容的2D圖像和3D圖像時注視點存在明顯的差異,另外一個直觀的事實就是人眼會更多地把視覺注意力集中到距離自己較近的目標上,這些都說明深度信息對于顯著性的判斷是至關重要的。
將深度信息融入到視覺注意力模型中有2點優勢:1)根據前景與背景區域所處深度平面的差別,可以解決前景與背景區域由于二維特征相似產生的混淆問題;2)能夠幫助提取場景中的多個顯著性目標。
將深度信息融合到視覺注意力模型中去,主要分為2種方法:1)利用深度信息直接對二維特征得到的顯著性結果進行加權處理;2)單獨利用深度信息生成深度顯著性結果,再和二維特征的顯著性結果融合,這種方法更接近人類視覺系統的處理機制。
另外一個研究的問題是如何考慮深度信息,一些研究中[18]直接利用深度信息,認為距離人眼越近的區域(深度越小)越能吸引人的視覺注意力,越遠的區域則越不顯著;另外一些方法[19-20]考慮區域與鄰域內其他區域的深度對比度信息,認為深度對比度大的區域更為顯著。還有一些實驗[21]表明當目標距離人眼過近時,人眼會產生不適的現象,由于這種不適感人的視覺注意力都會集中到這些區域,此時深度信息對顯著性起到決定性的作用。本文綜合考慮以上的研究發現,提出一種基于深度信息和深度對比度的深度顯著性算法,綜合考慮上面提到的3個因素。
首先同樣利用RANSC算法得到每個區域的深度信息;借鑒傳統視覺顯著性模型中的center-bias機制[19],利用高斯模型建立深度大小對顯著性的影響模型,具體關系如式(11)所示。
(11)
其中,d_coff(i)表示區域Ri的深度顯著性系數,di表示區域Ri的深度,dmin是場景的最小深度,參數dr由場景的景深范圍和實驗得到。
同時考慮深度對比度對視覺注意力的影響。以往的研究[14]在考慮深度對比度對顯著性的影響時,效仿傳統的center-surround機制[8],計算每個區域相對于周圍鄰域內所有區域的深度對比度,比如利用一個DOG算子計算每個區域的局部對比度,這些算法都是應用在一些較為簡單的靜態場景下,背景區域基本都處在同一個深度平面上,而目標物體處在另外一個深度平面上。設想在諸如街道、高速公路等室外復雜場景下,背景區域并不是都位于相同的深度平面上,往往深度從近及遠變化范圍很大,尤其是在遠處相鄰的背景區域間的深度差會很大,因此用這些傳統的方法會將背景區域誤檢為深度對比度很高的區域。為了在復雜的室外場景下有效地檢測出深度對比明顯的區域,本文提出一種基于水平區域內深度相對對比度的計算方法。
通過對典型場景下(如圖4(a)左圖中的場景)不同區域所處深度平面的分析,有如下兩點發現:
1)同一水平線上的背景區域基本都位于同一深度平面上,在這條水平線上如果出現了凸出的目標物體,則深度會與背景區域存在明顯的對比。
2)考慮到如圖4(a)左圖所示的這些復雜場景中,場景兩側會出現如房屋、樹木等從近處向遠處延伸的背景區域,導致在遠處的背景區域深度與同一水平線上的鄰域也會存在較大的深度差。為了抑制這些遠處的背景區域,在計算出每個區域相對于同一水平線上其他區域的深度對比度之后,用當前區域的深度信息進行歸一化處理,不僅可以達到抑制遠處背景的效果,同時可以更好地突出水平線上深度凸出的區域。
綜合以上2點發現,本文通過下面的方法計算每個區域的深度對比度:首先對場景的區域集合R進行劃分,根據每個區域的水平位置(即區域中心的垂直坐標)將其劃分到不同的區域集合中去:R={Ni|i=1,2,…,m},Ni表示第i個橫向區域集合,總共劃分為m個橫向區域集合。劃分的準則如式(12)所示。如果區域Ri中心的垂直坐標pos_y[i]處于橫向區域集合Ni的垂直坐標上界upper[i]和垂直坐標下界lower[i]之間,就將其劃分到Ni中。
Ni={Ri|upper[i] (12) 劃分結束后分別計算各個橫向區域集合中每個區域相對于該集合內其他區域的深度相對對比度,計算方法如式(13)所示,Nh是區域Ri所處橫向區域的集合,d_contrast[i]即表示區域i的深度對比度。 (13) 最后考慮目標太近時對人眼易產生不適這一因素,當目標的深度小于人眼觀測的舒適距離時,該區域的顯著性是最高的。 綜合深度信息和深度對比度,按照式(14)得到最終的深度顯著性結果,式中τ是人眼觀測的舒適距離閾值。 (14) 心理學的研究[11]發現,人類視覺系統對于運動信息的感知相比于其他的視覺刺激信號更為敏感。因此在動態的場景下,運動顯著性在顯著性的決策中占據主導的地位;而在靜態的場景下人眼則會更多地關注顏色和深度凸顯的區域。基于這兩點本文根據場景的運動、顏色和深度顯著圖對比度來動態調整3個顯著性結果的融合權重。 以運動顯著圖舉例,需要使用一個定量的參數去衡量這個場景下是否有運動顯著的目標存在。根據2.3節得到的運動顯著圖,若該圖中各個區域的顯著值接近,意味著各個區域的運動對比度接近,場景中不存在明顯的運動目標,如果存在部分區域的顯著值明顯高于其他區域,則說明場景中存在運動對比度很高的目標,此時通過一個運動對比度因子k_motion來表征運動顯著圖中是否存在顯著的運動目標,按照式(15)可以得到k_motion因子。 (15) 其中,salmax、salavg、salmin分別是運動顯著圖中的最大值、均值和最小值,k_motion因子越大,表示該場景中存在運動顯著目標的可能性越大。 同樣的方法可以得到顏色顯著圖和深度顯著圖中的對比度因子k_color和k_depth,利用這3個對比度因子根據式(16)~式(18)動態調整3個顯著圖的融合權重,sigma為實驗確定的參數,本文中取0.3。 (16) (17) (18) 最后根據式(19)將3個顯著圖融合得到最終的顯著性結果,m_sal、d_sal、c_sal分別是運動顯著圖、深度顯著圖和顏色顯著圖。 sal=wm×m_sal+wd×d_sal+wc×c_sal (19) 因為運動信息相比于其他視覺刺激的重要性更高,所以當k_motion較大時,運動顯著圖的權重wm較大,顏色顯著圖和深度顯著圖兩者之間再根據k_color和k_depth動態地調整。各特征下的顯著圖及融合結果如圖6所示。本文中顏色顯著性的計算使用文獻[22]中的方法,從圖6(a)可以看到復雜的場景下顏色顯著性結果非常雜亂,因此在融合時的權重wc很低,這種情況下顏色顯著性的結果是不可信的,融合的權重置為0,場景的顯著性結果由運動和深度信息所決定。由圖6(e)可以看到融合后的結果可以同時突出運動顯著和深度顯著的區域。 圖6 各特征下的顯著圖及融合結果 傳統的顯著性評價數據集諸如MSRA10K、ECSSD[23]、JuddDB[24]等都是針對二維并且靜態場景下的顯著性數據集,另外一些數據集如NUS-3DSaliency[12]是針對三維場景下的顯著性數據集,但是局限于靜態場景下的研究。現有的數據集都無法評價本文研究的三維動態場景下的顯著性算法。 針對數據集的稀缺問題,本文依據KITTI數據集收集到的雙目圖像數據,對經過校正后的左右相機圖片進行處理,將其水平方向的圖像分辨率壓縮至原來的一半,并左右對齊拼接在一起,形成左右并排的立體圖像。從數據集中選取出64個不同的動態場,包含了KITTI數據集中城市、住宅區、道路等多個種類場景下的不同圖像數據。選取每個場景下的前后6幀圖像,采用3.0 frame/s的幀率獲取這個場景下的視頻數據。實驗過程中邀請5位同事對這64個場景下的視頻數據進行場景的顯著性標注。首先在SONY 3D電視上播放3D視頻,讓實驗的參與者站在距離電視1 m的位置上,頭部對準電視的中心,利用被動式3D眼鏡觀看每個場景,然后標注出他們認為的場景中的顯著性區域(也就是選出視頻播放過程中視線的落點區域)。在采集數據時力求觀察者不要對場景進行內容上的理解,簡單地從視覺刺激層次上選取顯著的目標區域,因此每一個場景在觀察者實驗時只播放一遍(2 s左右),同時觀察者在標注顯著性區域時可以選取任意多個顯著區域,也可以選擇在某些場景下不標注任何的顯著性區域;可以標注出完整的顯著性目標,也可以只標注某個物體的一部分作為顯著的區域。 根據相機運動情況和場景中是否存在運動目標可以將這些場景分為4類:1)相機運動并且場景中至少存在一個運動目標的場景;2)相機運動但是場景中不存在運動目標的場景;3)相機靜止并且場景中至少存在一個運動目標的場景;4)相機靜止并且場景中無運動目標的場景。 在實驗過程中,通過對實驗參與者標注的顯著性區域的分析,有如下發現:1)在包含運動目標的場景下,參與者標注的顯著性區域基本都集中在運動區域上,說明在動態的場景下,運動確實是顯著性的決定性因素;2)在不存在運動目標的場景下,觀察者標注的顯著性區域更多集中在顏色或者亮度對比度強的地方;3)距離觀察者很近的目標,即使處于靜止的狀態也會被標注為顯著性區域;4)當道路邊緣或者視野較中間的位置出現行人時,這些區域往往是顯著的。第2)點的發現驗證了在靜態的場景下,顏色等特征確實是決定顯著性的因素之一,第1)點和第3)點發現則驗證了深度和運動信息在三維動態場景下很大程度上決定著顯著性,而第4)點的發現與場景的高層特征有關,這一點不在本文的討論范疇之內。 根據實驗參與者標注的顯著性數據,選擇顯著性區域標注較為一致的場景,利用圖像處理軟件NI Visual Assistant獲取得到各個場景下的顯著性Ground Truth數據。 利用上文得到的數據集對本文算法(下面用MDC表示)進行驗證,同時與HC[22]、RC[22]、GMR[25]這3種算法進行對比,這3個算法對于靜態單目場景下的顯著性檢測均可以取得較好的效果。各個算法的顯著性結果如圖7所示。 圖7 各算法的顯著性結果 為了對不同算法的性能進行定量評價,本文對不同場景下的準確率、召回率、真正率、假正率進行計算并獲取平均值,繪制出不同算法的準確率-召回率曲線與ROC曲線,同時計算出不同算法的F-measure值與AUC值來對算法的整體性能進行直觀的對比。各項性能指標的結果如圖8所示。 圖8 不同算法的定量評價 準確率-召回率曲線越接近右上角(1,1)點,表示算法的性能越好;ROC曲線越接近左上角(0,1)點,表示算法的性能越好;F-measure值按式(20)計算,本文β2=0.3,F-measure值越高表示算法表現越好,MeanF-measure是所有閾值下F-measure的平均值,MaxF-measure是所有F-measure的最大值,AUC值是ROC曲線下方與水平坐標軸之間的面積,AUC值越大表示算法性能越好。 (20) 從圖7的可視化結果以及圖8的各項評價指標均可以發現,圖7(b)~圖7(d)這3種基于二維圖像特征的顯著性算法的結果都存在明顯的問題。本實驗進行對比的目的僅在于說明傳統的顯著性算法不適用于較為復雜的真實三維場景下的顯著性決策。這些算法在靜態單目的簡單場景下可以達到很好的顯著性檢測效果,但是它們只考慮了場景中靜態圖像的顏色、紋理等二維信息,因此應用場景十分有限。人類視覺系統的顯著性決策是在真實三維場景下進行的,所以只考慮二維圖像平面上的顯著性顯然不符合人眼的視覺注意力機制。從圖7的可視化結果中可以看到,本文提出的融合深度和運動信息的顯著性算法更接近數據集的ground truth信息,而圖8中的各評價指標也驗證了本文算法相對于其他3種算法具有明顯的優勢。 在真實三維場景下,運動、深度、顏色等信息都是決定視覺顯著性的重要因素。本文針對傳統視覺顯著性領域研究的局限性,提出了一個融合場景運動、深度信息的三維視覺顯著性算法,適用于三維動態場景下的顯著性目標檢測,更貼合人眼的視覺注意力機制。同時針對該領域的數據集稀缺問題,提出一個三維動態場景下的顯著性評價數據集,并通過本文算法與傳統算法在此數據集上的結果對比,驗證了本文算法的優越性。 本文從場景的底層特征信息出發,考慮在視覺刺激層次上的顯著性區域,然而人類視覺系統的注意力機制同時受到高層特征[26]的影響,比如場景的上下文語義、觀察者觀察場景時的目的性等。下一步的研究方向就是研究高層特征與視覺顯著性之間的關聯,并將其與本文給出的底層特征模型融合,得到一個更加貼近于人眼視覺注意力機制的計算模型。 [1] DONOSER M,URSCHLER M,HIRZER M,et al.Saliency Driven Total Variation Segmentation[C]//Proceedings of the 12th IEEE International Conference on Computer Vision.Washington D.C.,USA:IEEE Press,2009:817-824. [2] GUO Chenlei,ZHANG Liming.A Novel Multiresolution Spatiotemporal Saliency Detection Model and Its Applications in Image and Video Compression[J].IEEE Transactions on Image Processing,2010,19(1):185-198. [3] SHEN Hao,LI Shuxiao,ZHU Chengfei,et al.Moving Object Detection in Aerial Video Based on Spatiotemporal Saliency[J].Chinese Journal of Aeronautics(English Edition),2013,26(5):1211-1217. [4] REN Zhixiang,GAO Shenghua,CHIA L T,et al.Region-based Saliency Detection and Its Application in Object Recognition[J].IEEE Transactions on Circuits & Systems for Video Technology,2014,24(5):769-779. [5] 李正周,李文艷,譚 菊,等.基于空時顯著性感知的運動目標檢測方法[J].計算機應用研究,2010,27(6):2391-2393. [6] LIU H,HEYNDERICKX I.Studying the Added Value of Visual Attention in Objective Image Quality Metrics Based on Eye Movement Data[C]//Proceedings of IEEE International Conference on Image Processing.Washington D.C.,USA:IEEE Press,2009:3097-3100. [7] 馮 欣.基于視覺顯著性的網絡丟包圖像和視頻的客觀質量評估方法研究[D].重慶:重慶大學,2011. [8] ITTI L,KOCH C,NIEBUR E.A Model of Saliency-based Visual Attention for Rapid Scene Analysis[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,1998,20(11):1254-1259. [9] TREISMAN A M,GELADE G.A Feature-integration Theory of Attention[J].Cognitive Psychology,1980,12(1):97-136. [10] KOCH C,ULLMAN S.Shifts in Selective Visual Attention:Towards the Underlying Neural Circuitry[J].Human Neurobiology,1985,4(4):219-227. [11] ZHAI Yun,SHAH M.Visual Attention Detection in Video Sequences Using Spatiotemporal Cues[C]//Proceedings of ACM International Conference on Multimedia.New York,USA:ACM Press,2006:478-482. [12] LANG Congyan,NGUYEN T V,KATTI H,et al.Depth Matters:Influence of Depth Cues on Visual Saliency[C]//Proceedings of the 12th European Conference on Computer Vision.Berlin,Germany:Springer,2012:101-115. [13] 曾志宏,李建洋,鄭漢垣.融合深度信息的視覺注意計算模型[J].計算機工程,2010,36(20):200-202. [14] WANG Junle,DASILVA M P,LECALLET P,et al.Computational Model of Stereoscopic 3D Visual Saliency[J].IEEE Transactions on Image Processing,2013,22(6):2151-2165. [15] MENZE M,GEIGER A.Object Scene Flow for Autonomous Vehicles[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2015:3061-3070. [16] WANG Zhihu,XIONG Jiulong,ZHANG Qi.Motion Saliency Detection Based on Temporal Difference[J].Journal of Electronic Imaging,2015,24(3). [17] 萬盼盼,張 軼.一種改進的基于背景差分的運動目標檢測方法[J].計算機技術與發展,2015,25(2):38-41. [18] GAO Shanshan,CHI Jing,LI Li,et al.Saliency Detection Based on Superpixels Clustering and Stereo Disparity[J].Applied Mathematics Journal of Chinese Universities,2016,31(1):68-80. [19] WANG Junle,FANG Yuming,NARWARIA M,et al.Stereoscopic Image Retargeting Based on 3D Saliency Detection[C]//Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing.Washington D.C.,USA:IEEE Press,2014:669-673. [20] JIANG Lixing,KOCH A,ZELL A.Salient Regions Detection for Indoor Robots Using RGB-D Data[C]// Proceedings of IEEE International Conference on Robotics and Automation.Washington D.C.,USA:IEEE Press,2015:1323-1328. [21] JIANG Qiuping,SHAO Feng,JIANG Gangyi,et al.A Depth Perception and Visual Comfort Guided Computational Model for Stereoscopic 3D Visual Saliency[J].Signal Processing Image Communication,2015,38(3):57-69. [22] CHENG Mingming,MITRA N J,HUANG Xiaolei,et al.Global Contrast Based Salient Region Detection[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2011,37(3):409-416. [23] YAN Qiong,XU Li,SHI Jianping,et al.Hierarchical Saliency Detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2013:1155-1162. [24] BORJI A.What Is a Salient Object? A Dataset and a Baseline Model for Salient Object Detection[J].IEEE Transactions on Image Processing,2014,24(2):742-756. [25] YANG Chuan,ZHANG Lihe,LU Huchuan,et al.Saliency Detection via Graph-based Manifold Ranking[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2013:3166-3173. [26] HUANG Xun,SHEN Chengyao,BOIX X,et al.SALICON:Reducing the Semantic Gap in Saliency Prediction by Adapting Deep Neural Networks[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2015:262-270.2.5 多個顯著圖的動態融合

3 三維動態場景下的顯著性數據集
4 實驗結果與算法評價


5 結束語