徐彬競,施 霖
(昆明理工大學 信息工程與自動化學院,云南 昆明 650500)
圖像顯著性區域檢測方法能夠定位并提取人類視覺系統感興趣的區域。顯著性檢測廣泛應用于各種計算機視覺任務中,如以顯著性檢測內容來指導圖像內容描述[1-2],在圖像定位和分類任務中,顯著性檢測內容轉化無監督學習為實例學習[3],以及用于構建測試視覺問答模型性能的數據集[4]等。1998年,ITTI等人[5]從圖像強度、結構方面入手,通過數學歸納法描述顯著性特征。圖像顯著性的早期檢測方法主要利用圖像的紋理、顏色等低級特征,或是水平線、中心點等中級特征信息來得到顯著性圖。例如,ZHAI等人[6]提出基于線性復雜度計算圖像顯著性檢測方法(Linear computational Complexity Salient Region Detection,LC);基于對頻率的考慮,ACHANTA等人[7]提出了基于頻率調諧的圖像顯著性檢測方法(Frequency-tuned Salient Region Detection,FT)。此后,深度學習的發展,使大量神經網絡得以應用在顯著性檢測領域。在卷積神經網絡(Convolutional Neural Networks,CNN)的基礎上,大量神經網絡模型被提出并加入到顯著性檢測任務中。例如,LIU等人[8]提出PiCANet模型來選擇性地關注圖像全局或局部上下文,并為每個像素構建信息豐富的上下文特征;QIN等人[9]提出U2-Net模型能夠從淺層和深層捕獲更豐富的圖像局部和全局信息,并且可以基本無視分辨率的影響;LIU等人[10]提出PoolNet模型將池化運算更好地運用于顯著性檢測上;QIN等人[11]提出BASNet模型包括一個預測-細化結構和一個混合損失結構,可以實現于高度準確的顯著性預測。
顏色特征由于具有強大的魯棒性,即旋轉不變性和尺度不變性,故在圖像顯著性研究方面具有重要價值。視覺顏色顯著性研究能有效指導工業生產、生活、交通等領域的安全標志的識別性,從而減少事故的發生[12]。顏色特征在圖像檢索方面由于其高效性而有著廣泛的運用[13]。工作記憶表征的顏色特征有著較強的引導效力,相比較其他刺激特征(如方向、形狀)更具有優先性[14]。在設計領域,顏色語義有著裝飾審美性、詮釋產品功能、提升產品價值等功能[15]。顏色特征顯著性可以在醫學圖像處理領域更好地識別病理特征[16]。
圖像的顯著性檢測在圖像處理中有著重要的作用。顏色特征是圖像信息重要的組成部分,如何有效地提取顏色顯著性區域就成為重要的問題。傳統的顯著性檢測方法往往更注重圖像的低層次特征信息,顏色顯著性檢測往往基于對比度、RGB值等信息而非語義信息。神經網絡的出現,很大程度上解決了無視語義信息的問題,但現有顯著性數據集大都聚焦于物體顯著性檢測而非顏色顯著性檢測,例如DUTS數據集[17]、HKU-IS數據集[18]等。沒有相關數據集則無法完成顏色顯著檢測神經網絡訓練。
因此,本文設計了一種獲取眼動注視點數據的顏色顯著性實驗平臺,采用EyeTribe眼動儀,由實驗獲取被試關注圖片上顏色信息時的視線位置數據并標注于圖像,從而制作出數據集。相較于手工標注,眼動注視點數據能準確記錄人眼看到圖像時的視覺注意位置[19],能更好地反映出被試對于圖像顏色信息的注意信息。首先,用此數據集中訓練集分別利用傳統算法FT和LC進行顯著性區域檢測。其次,分別利用PiCANet、PoolNet、U2-Net及BASNet4種顯著性檢測神經網絡模型進行訓練。最終,對比各方法的顯著性檢測結果評價指標,得到在該任務上表現最為優異的方法。
本次實驗選取印象派畫作中較為著名的100幅畫作,按照1 920×1 020的分辨率縮放,空白區域以黑色填充的方式標準化后作為實驗顯示圖像,如圖1所示。印象派畫作有著顯著的色彩特點:按照光譜色選用顏料作畫,畫面對比度強,使用高純度色彩,運用主觀色彩[20]。這些特點使其在色彩信息的表達上更加豐富與突出,同時語義信息更加強烈。如此,能夠更好地獲取被試對顏色信息刺激后的反應。

圖1 圖像標準化
本文設計的顏色顯著性檢測實驗平臺,采用EyeTribe眼動儀作為視線位置記錄裝置。該裝置是一種眼動追蹤系統,可以通過從人眼睛的角膜反射點位置獲取視線在顯示屏上的投影位置。眼睛注視坐標是相對于人正在觀看的屏幕計算的,由屏幕坐標系給出的一對(x,y)坐標表示。圍繞該眼動儀配備了顯示器、頭部固定支架,如圖2所示。其中s為被試頭部與眼動儀水平距離,其值為35.55 mm;l為被試頭部與顯示器的水平距離,其值為40.00 mm。

圖2 實驗平臺示意圖
該實驗平臺經過多次測試,可以滿足對被試眼動軌跡的準確記錄的需求,下面將結合基于此平臺的顏色顯著性實驗,進一步介紹本設計。
本文的顏色顯著性實驗完整過程如圖3所示。實驗分為兩個模塊:模塊A為實驗準備階段,確定被試通過色盲測試且眼動儀能準確記錄被試注視點;模塊B為正式實驗階段,記錄被試對整個圖片集的顏色顯著區域注視點集合,并生成數據集。

圖3 實驗流程圖
被試將頭部放置于頭部固定支架,首先進行色盲測試。確認被試色覺正常后,實驗全程被試都以此姿勢進行實驗。之后,定標程序開始運行。顯示器上顯示游標,被試跟隨游標移動注視點,直至完成眼動定標,獲得評分,直至評分大于等于4(意味著此校準結果非常適合眼動追蹤,視線誤差角度<0.7°),繼續進行后續實驗。顯示器將顯示標準化后的圖像,首先顯示4副圖像進行測試。當圖片顯示時,請被試欣賞并依次注視圖片上最感興趣的多個顏色區域而非物體,每幅圖像顯示22 s。當4幅圖全部實驗完畢,將每幅圖像注視點坐標集合以alpha值為0.5的白色點的形式標注于該圖像,如 圖4所示。被試確認標注白色區域正確。至此,實驗準備工作完成。

圖4 被試確認用標注圖
實驗正式開始時,顯示器將會依次顯示100幅標準化后的圖像,每幅圖像顯示時間為22 s,同樣令被試依次注視圖片上最感興趣的多個顏色區域。實驗結束后,獲取被試對所有圖像注視點的坐標集合。
在13個被試正確完成實驗后,將所獲得的注視點坐標集合以alpha值為0.5的白色點的形式標注于分辨率為1 920×1 080的黑色圖像上,如圖5所示。采用該方法獲得的圖片集合即為神經網絡訓練的顏色顯著性檢測標簽。與標準化后的圖像兩兩配對,成為顏色顯著性檢測數據集,其中20%為測試集,80%為訓練集。

圖5 實驗生成神經網絡訓練用數據集示例
對實驗獲取數據集中的測試集分別使用傳統方法和深度學習方法進行顯著性檢測,并與實驗獲得的真值進行對比,如圖6所示。通過F-measure最大值MaxF和MAE值來評估顏色顯著性檢測最優方法。

圖6 各算法顏色顯著性檢測效果示意圖
基于頻率調諧的圖像顯著性檢測(Frequencytuned Salient Region Detection,FT)方法利用了顏色和亮度的特性,從原始圖像中保留比其他現有技術更多的頻率內容,是一種利用顏色和亮度的低水平特征計算圖像顯著性的頻率調整方法。該方法易于實現,速度快,并提供全分辨率顯著性圖。
基于線性復雜度計算圖像顯著性檢測(Linear computational Complexity Salient Region Detection,LC)方法通過計算圖像特征值的直方圖,遍歷整個圖像的計算特征值距離矩陣,為每一個對應像素值分配顯著值得到顯著圖,將顯著圖歸一化并顯示。
傳統方法著重關注圖像中的基礎、低級的特征信息,并未考慮到圖像中的語義信息關聯。近年來,卷積神經網絡(Convolutional Neural Networks,CNNs)將語義信息的關聯納入預測中,隨后全卷積神經網絡(Fully Convolutional Networks,FCNs)的出現大大提高了檢測的效率與性能,并逐步替代了傳統的圖像顯著性檢測方法。語境在顯著性檢測任務中扮演著重要的角色。本文采用4個在顯著性檢測任務中質量較好的神經網絡對顏色顯著性實驗獲得的數據集進行訓練。PiCANet顏色顯著性檢測時,區別于基于淺層顏色信息的傳統方法,PiCANet能夠充分考慮語境信息以及語義信息,將圖像中更符合人類視覺特征的顏色顯著區域檢測出來。語境在顯著性檢測任務中起著重要作用,但并非所有上下文信息都有助于顯著性檢測的最終決策,一些相關區域通常更有用,而其他嘈雜的語義信息應該被丟棄,由此提出了一種新的像素級上下文注意網絡PiCANet,該模型選擇性地關注全局或局部上下文,并為每個像素構建信息豐富的上下文特征。由于CNN的金字塔狀結構特征,較淺的階段通常具有更大的空間尺寸并保留豐富、詳細的低級信息,而更深的階段包含更多高級語義知識,更擅長定位顯著對象的確切位置。
2.2.1 PoolNet
檢測顏色顯著性時,PoolNet具有更大的感受野,能考慮到更大范圍的顏色信息,同時,該網絡模型對顏色邊緣的檢測也具有更好的效果。U形結構在深度學習中是常見的結構,此結構能夠通過在分類網絡上構建自上而下的路徑來構建豐富的特征圖。首先,高層語義信息會逐漸傳遞到較淺層,因此較深層捕獲的位置信息可能會同時逐漸被稀釋。其次,CNN的感受野大小與其層次深度不成正比,并且會產生邊界損失。PoolNet基于U形結構通過擴展池化模型來解決這些問題。該模型通過設計兩個簡單的基于池化模塊GGM(全局引導模塊)和FAM(特征聚合模塊),從而將池化更好地運用于顯著性檢測上。GGM在特征圖上的每層都能關注到顯著物體,在每次橫向連接的時候都加入高層的語義信息。FAM幫助模型降低上采樣導致的混疊效應,同時對感受野進行放大。
2.2.2 U2-Net
進行顏色顯著性檢測時,U2-Net沒有使用圖像分類的預訓練主干模型,可以從頭訓練,得到更符合顏色顯著性檢測的模型。其體系結構是一個兩層嵌套的U結構,這使得網絡能獲得更深入的特征顏色信息,同時以高分辨率圖像計算,而不會顯著增加內存和計算成本。利用殘差U型模塊不同尺度、不同感受野的混合,能夠捕捉更多的全局顏色信息。
2.2.3 BASNet
進行顏色顯著性檢測時,大多數網絡都更加關注于區域提取的準確率。為了獲得高精度顏色邊界和精細顯著性結構的分割,BASNet采用深層編碼器-解碼器的結構先得到一個全局的、粗糙的結果,之后采用RRM(殘差求精模塊)修正結果,得到局部的、精細的結果。該模型引入結構相似性損失,最后三種損失(BCE損失,SSIM損失,IoU損失)相加。為解決邊界模糊問題,該模型更注重邊界質量,計算時,邊界的損失值比物體內部或其他地方損失值的權重更高,以降低交叉傳播圖像邊界和區域中訓練時的信息所帶來的假錯率,從而獲取更加準確的顏色顯著性區域的邊界。
本文主要采用顯著性檢測中MAE值和F-Measure 最大值MaxF這兩個評價指標對顏色顯著性檢測結果進行評價。
2.3.1 平均絕對離差MAE
平均絕對離差(Mean Absolute Deviation,MAE) 的計算方法如式(1)所示:

式中:W和H分別表示圖像的寬度和高度,S為該模型計算得到的顯著圖,GT為顏色顯著實驗獲取的被試注視點標注真值。一般地,MAE值越小表示該方法效果越好。
2.3.2 F-measure
精度(Precision)和召回率(Recall)的計算方式如式(2)、式(3)所示:

式中:M為二值化下預測的顯著性圖,G為顏色顯著實驗獲取的被試注視點標注真值圖。
F-measure綜合了查全率和查準率,計算方式如式(4)所示:

式中:β代表非負權重,用以平衡召回率與準確率之間的關系。通常,β2取值為0.3.在對比時往往選取F-measure的最大值MaxF作為模型的評價標準。一般地,F-measure值越大,表示該模型性能越好。
為了從數據上直觀地對比本文所選取的方法,在表1中展示了不同的顏色顯著性檢測方法在本次實驗所得數據集上的性能參數,并使用平均絕對離差MAE、F-measure的最大值MaxF作為評價指標。所有數據均以測試集結果作為對比。通過表中數據對比可知,不論是以MAE參數還是MaxF參數來看,傳統方法在顏色顯著性檢測時性能均不佳。因為傳統方法不是面向顏色顯著性檢測設計的算法,同時不能充分考慮圖像中的語義信息。對比神經網絡模型時,PiCANet、U2-Net、BASNet在該精度下的MAE值同為最優,再對比MaxF值,BASNet在本次實驗中擁有最佳性能,說明BASNet模型首先獲得粗糙檢測結果再精細化結果更符合人眼關注顏色時的特征。同時,BASNet更加關注顯著性區域的邊界,故得到更精確的顏色顯著性檢測 區域。

表1 各算法顏色顯著性檢測評價指標對比
顯著性檢測領域常用的數據集有DUTS、HKU-IS、 Judd及SOD數據集。將本次實驗生成的數據集和常用顯著性檢測數據集分別用BASNet訓練后,預測結果對比示例如圖7所示,MAE值與MaxF值對比如表2所示。本文方法所獲得數據集在MAE值和MaxF值上表現均為最優。

圖7 各數據集顯著性檢測效果示意圖

表2 各數據集顏色顯著性檢測評價指標對比
利用本文搭建的實驗平臺開展顏色顯著性實驗,準確記錄被試觀察圖像中顏色顯著性區域并獲取數據。對比分析各個顯著性檢測方法,結果表明,在顏色顯著性檢測任務上,BASNet表現最優。以最優方法分別對傳統顯著性檢測數據集和本文實驗所得數據集訓練后,結果表明,本文數據集具有最好的性能。本文的實驗結果可為進一步提升顏色顯著性檢測效果奠定基礎。