郭迎春,張 萌,郝小可
河北工業大學 人工智能與數據科學學院,天津300400
在計算機圖像處理和計算機圖形學中,圖像重定向是指對數字圖像的大小進行調整,以此來適配不同顯示終端的長寬比。隨著互聯網和5G 技術的迅速發展,無論是技術方面還是用戶體驗方面都在不斷提升,除了設備性能不斷優化外,顯示屏幕也在逐漸改進來滿足人們的不同需求,如圖1 所示。面對不同的顯示屏幕大小,如何確保在屏幕的各種形態下,圖像內容顯示既完整又美觀是研究者們面臨的又一新問題,因此尋找一個合適的圖像重定向技術是十分重要的。當圖像的長寬比與顯示屏幕的長寬比不匹配時,利用圖像重定向技術,改變圖像的尺寸大小來適應顯示設備,從而可以提高顯示設備的利用率并優化視覺終端的顯示效果[1]。

圖1 不同顯示設備的圖像重定向Fig.1 Image retargeting results on different display devices
傳統的圖像重定向方法主要包括均勻縮放和剪切。均勻縮放通過最近鄰域插值[2]、雙線性插值[3]等方法改變圖像大小,適用于目標圖像與原始圖像變化比例不大的情況,且運算速度快。當這個變化比例較大時,會出現明顯的拉伸或擠壓變形。剪切是通過去除不重要的區域獲得目標圖像,方法簡單但會導致圖像內容顯示不完全,通常結合美學感知獲得具有高美感的圖像[4-11]。
傳統的圖像重定向方法主要包括均勻縮放和剪切。均勻縮放通過最近鄰域插值[2]、雙線性插值[3]等方法改變圖像大小,適用于目標圖像與原始圖像變化比例不大的情況,且運算速度快。當這個變化比例較大時,會出現明顯的拉伸或擠壓變形。剪切是通過去除不重要的區域獲得目標圖像,方法簡單但會導致圖像內容顯示不完全,通常結合美學感知獲得具有高美感的圖像[4-11]。
基于內容感知的圖像重定向是目前主流的方法。該方法根據圖像內容使圖像變形盡量發生在非重要的區域,從而獲得更好的視覺效果,具有代表性的是基于內容感知的圖像重定向[12],其特點是獲取重要度圖,根據重要度圖進行重定向。重要度圖的獲取對于圖像重定向至關重要,而獲取符合人類視覺感知的重要度圖是具有挑戰性的任務。
隨著深度學習的發展,大量有標注的數據為圖像重定向提供了新的研究途徑。然而基于深度神經網絡的圖像重定向仍處于研究的初級階段,本文從圖像重定向的發展入手,對基于重要度圖和深度神經網絡在圖像重定向領域的發展問題進行歸納總結。此外,還介紹了一些常用的數據集以及評價方法,并探討該領域在未來的研究方向。
總體來說,本文主要有以下三方面貢獻:
(1)以重要度圖的獲取為線索,回顧了經典圖像重定向方法的原理以及優缺點。
(2)詳細總結了基于深度神經網絡的圖像重定向方法,雖然較傳統方法文獻數量較少,但是深度神經網絡可以彌補手工特征的缺點,更好地表示圖像語義結構,獲取更準確的重定向圖像。
(3)介紹了常用的圖像重定向數據集以及評價方法,針對現階段存在的問題,簡單探討了該領域未來的研究方向。
圖像重定向技術對于長寬比相同的顯示設備的重定向在現階段的發展較為成熟,比如對圖像進行按比例均勻縮放,但對于長寬比不同的圖像重定向技術還在探索階段。面對這樣的問題,早期的方法是剪切或像素填充,剪切的方法容易造成圖像主體內容丟失,填充的方法會影響圖像的美觀并且降低顯示設備的利用率。
為彌補早期方法的缺點,2007年Avidan和Shamir[12]首次提出基于內容感知的圖像重定向方法。該方法專注于保護圖像主體內容,首先檢測出圖像在視覺上重要的區域,從而獲得重要度圖,以此確定圖像中各個區域的重要程度;然后根據像素的重要程度進行重定向處理,對重要度高的區域盡量保持不變或采取均勻縮放,將由于縱橫比改變所產生的形變盡可能隱藏在重要度較低的區域,這樣就可以保護圖像的主體區域,以此獲得較好的視覺效果。因此,基于內容感知的圖像重定向技術可分為兩步:獲取圖像重要度圖和基于重要度圖的重定向。
圖像重要度圖反映的是人眼對圖像中不同內容區域變化的敏感程度[13]。不同的觀察者有不同的主觀看法,并且不同的應用場景也有不同的理解。在深度學習技術出現之前,大多是利用低層特征構造重要度圖,通過手工特征進行圖像重定向。該類方法屬于無監督學習方法,通常利用圖像梯度、顯著度、對比度等信息計算重要度圖。隨著深度學習的發展,基于深度學習的圖像重定向技術獲得了廣泛的研究。該類方法大多屬于有監督的方法,需要大量有標注的數據集訓練網絡。由于深度學習具有強大的表征能力,能夠彌補低層特征缺乏的高級語義信息,獲得圖像的語義特征,從而能夠準確檢測出復雜場景的重要度圖。表1按照基于手工特征和基于深度學習方式歸納總結了多種獲取重要度圖的方法。

表1 重要度圖獲取方法Table 1 Importance map acquisition method
基于重要度圖的重定向技術大致可分為三類:以線裁剪為代表的離散型重定向算法[12,17,28-33],以變形為代表的連續型重定向算法[14,16,34-41]和多操作重定向算法[42-47]。
(1)離散型重定向算法
線裁剪(seam carving,SC)[12]是最早的基于內容感知的圖像重定向算法,主要分為計算像素的重要度和增刪裁剪線兩個步驟。本著保護高能量像素,增刪低能量像素的原則,該算法首先利用梯度圖獲得圖像重要度圖,然后采用動態規劃算法找到累積能量最小的八連通路徑作為最佳裁剪線,通過插入或刪除該裁剪線達到放大或縮小的目的。對于一幅大小為n×m的圖像,其垂直裁剪線S可表示為:

式中,x(i)表示映射x:[1,…,m]→[1,…,n],S是一條從第一行到最后一行的八連通路徑。每條裁剪線S的能量計算由對應像素的重要度決定,若像素(i,j)的重要度為e(i,j),則S的能量表示為,因此最優裁剪線S*定義為S*=minE(S)。最優裁剪線通過動態規劃算法獲取,其中像素點(i,j)的累積能量M(i,j)可表示為:

獲取累積能量圖后,在能量圖的最后一行找到最小累積能量的像素點,然后向上進行回溯,即可得到累積能量最小的最佳裁剪線。該算法能夠有效地實現長寬比不同的圖像重定向,但其僅僅將梯度圖作為重要度圖的參考條件,沒有考慮當圖像主體內部平滑區域梯度值較小時裁剪線會大量穿過圖像主體區域的情況。由于裁剪線一般將最邊緣的行(列)累積能量最小的像素作為起點,這會導致裁剪線穿過面積較小的重要區域或集中于一個區域生成,發生扭曲變形的情況。文獻[30]針對線裁剪算法對圖像過度裁剪造成的失真問題,提出基于圖像分塊的線裁剪算法,將分塊的思想融入到線裁剪并優化累積能量圖。為保護圖像內容不丟失的同時還要保證圖像的視覺美感,文獻[48]引入美學原則來指導裁剪線的生成。離散型算法在圖像重定向的長寬比變化不大時,效果較好,但是當目標圖像的長寬比變化過大時,往往會丟失圖像的信息,造成圖像主體內容扭曲變形。
(2)連續型重定向算法
以變形為代表的連續型重定向算法是將圖像分成網格,并計算各個網格內像素的重要度值,在重要度值及邊界條件約束下,保障重要度值高的網格不發生形變或進行均勻拉伸,而使形變發生在重要度值低的網格中。文獻[14,16,34-37]采用四邊形網格,文獻[38-41]采用三角形網格,其中Guo 等人[38]利用三角網格參數化,提出了基于顯著性的網格參數化重定向方法,旨在估量劃分的不同區域的目標網格的邊長。網格變形算法在圖像背景復雜時,會使圖像重要區域在重定向過程中產生壓縮或拉伸等變形失真現象。為解決圖像保護不足的問題,Du 等人[49]融合梯度值、顯著性、顏色等多種特征確定可變形空間,確定最優變形尺寸,從而保護不可變形區域的內容。谷香麗等人[50]運用彈簧近似法控制網格變形,對三角形網格設置彈簧系統,與已有的網格變形算法相比,效率變高。
(3)多操作重定向算法
早期的多操作重定向算法(multi-operator,MULTIOP)[42]是結合線裁剪、裁剪和縮放算法實現重定向。該算法考慮到對圖像的多種影響因素,如圖像內容丟失程度、主體對象變形程度、圖像結構損壞程度,然后折中選擇,確定各個操作算法的執行順序和數量,保證圖像的整體效果不失真變形。MULTIOP算法比單一算法具有更好的泛化效果,不足之處是該算法時間花費較長,而且大部分多操作算法的優化過程并沒有找到最優的結果,只是得到相對較優的結果。因此,如何設計各種操作算法的順序以及操作時間是相對較難解決的問題。表2 總結了三種典型的圖像重定向技術SC[12]、縮放和拉伸(scaleand-stretch,SNS)[16]以及MULTIOP[42]的優缺點。

表2 三類典型圖像重定向方法的比較Table 2 Comparison of three typical image retargeting methods
大多數基于內容的重定向方法在獲取重要度圖時,都使用加權結合的特征信息,例如梯度表示的邊緣信息,顏色代表的顏色對比度信息,顯著性定義的每個像素的重要性,但是在高層語義信息的表示,以及融合高層語義信息和低層細節信息方面還存在局限性。隨著深度學習的出現,研究者嘗試將深度神經網絡應用在圖像重定向領域。深度神經網絡可以提取豐富的語義信息,并且能夠更好地表示圖像語義結構,這讓深度學習在圖像重定向領域中逐漸占有主導地位,因此近年來有大量相關研究成果涌現[18-26,51-52]。
基于手工特征的圖像重定向方法中重要度圖是由低層信息獲取,缺乏高層語義特征,通用性受到限制。因此,研究者利用深度神經網絡的優勢,通過網絡獲取圖像語義信息,彌補這一局限。大量實驗證明[18-26],基于深度學習的圖像重定向方法無論是定性結果還是定量結果都超越了傳統方法。當然,圖像重定向深度學習方法也經歷了一個從簡單到復雜的發展過程。起初研究者關注于利用神經網絡改善圖像的重要度圖,雖然深度學習的研究工作大多屬于有監督的學習范疇,但是圖像重定向研究者也在無監督或弱監督的方向上進行嘗試。近年來,隨著美學感知在計算機視覺領域中的應用發展,一些結合美學質量評估的圖像重定向方法被提出,這類方法有的通過美學評價模型選出美學評分最高的區域進行圖像裁剪[4,6-8],有的結合深度強化學習的思想[10-11],利用美學評價模型計算獎勵分數,從而找到全局最優的重定向結果。
基于深度神經網絡的圖像重定向方法按照實現過程可分為四種類型,分別為神經網絡直接生成目標圖像、生成對抗網絡生成目標圖像、神經網絡提取重要度圖進行圖像重定向以及結合注視點Gaze進行圖像重定向。表3對各類代表性算法進行總結。

表3 基于深度神經網絡的圖像重定向方法Table 3 Comparison of image retargeting methods based on deep neural network
(1)神經網絡直接生成目標圖像
Cho 等人首次將卷積神經網絡應用于圖像重定向領域,提出了一種弱監督和自監督的深度卷積神經網絡(weakly and self-supervised deep convolutional neural network,WSSDCNN)[18],通過輸入原圖像和目標比例,讓網絡學習從原圖像到目標網格的逐像素移位映射,從而輸出目標圖像,實現了一種端到端的內容感知圖像重定向框架,其中還隱含地學習圖像的注意力圖引導移位圖的生成。Arar 等人提出一種利用神經網絡深層特征調整圖像的方法DNR(deep network resizing)[20],該方法在圖像特征空間中應用線裁剪對圖像大小進行調整,利用已訓練的VGG19 網絡進行圖像檢測,再通過網格采樣層優化圖像,減少偽影產生。同樣,為了在深度特征空間將原始圖像重定向到目標長寬比,Lin 等人提出深度圖像重定向方法(deep image retargeting,DeepIR)[23],設計一種利于保持語義結構的均勻重采樣(uniform re-sampling,UrS)方法,通過逐步最近領域(nearest neighbor field,NNF)[53]融合方式,有效地將高層語義內容和低層細節信息結合,實現由粗到細的圖像重構結果。UrS的設計保留了深度網絡特征的重要語義信息,避免由于過度移除列/行像素而導致的內容丟失、結構混亂。由于大多數的深度學習需要帶有標注的數據集進行訓練,Tan等人提出了一種無監督雙循環深度學習網絡(deep cyclic image retargeting,CycleIR)[19],不需要任何注釋信息,將圖像進行兩次重定向操作,生成與原圖同樣大小的圖像,引入循環感知一致性損失訓練網絡。利用神經網絡直接生成目標圖像的流程圖如圖2所示。

圖2 利用深度神經網絡直接生成目標圖像的流程圖Fig.2 Process of using deep neural networks to directly generate target images
(2)生成對抗網絡
生成對抗網絡(generative adversarial network,GAN)[54]作為一種生成模型,也可應用在圖像重定向領域。Shocher等人利用GAN學習圖像內部分布,提出InGAN(internal GAN)模型[51],如圖3,無需任何訓練樣本,在單個輸入圖像上進行訓練,合成大量大小、形狀和長寬比不同的新圖像,所有圖像都具有與輸入圖像相同的內部分布,實現圖像的擴充和拉伸。與InGAN不同的是,Mastan 等人提出深度上下文內部學習的圖像重定向方法(deep contextual internal learning,DCIL)[52],同樣使用生成對抗網絡,在損失計算上考慮到原圖像與目標圖像之間上下文特征的差異,使生成器輸出的分布與自然圖像的分布相似。但是,這類基于GAN 的重定向方法受限于每幅圖像都要經過大量訓練才能學到其內部的分布情況,并且適用于紋理結構連續的自然圖像。

圖3 InGAN網絡結構Fig.3 Architecture of InGAN
(3)神經網絡提取重要度圖
如圖4,一些研究者利用神經網絡檢測圖像重要度圖,再結合傳統重定向方法,如線裁剪、線性縮放、多操作、網格變形、像素融合[55]等生成目標圖像。例如Song等人[21]利用編碼器解碼器結構提取圖像深度能量圖,再結合線裁剪算法實現重定向;Wu 等人[22]提出結合深度神經網絡的圖像變形方法,通過融合預訓練網絡[56]生成的視覺重要度圖和前景掩碼圖來引導圖像變形。為保證重要度圖與人類主觀感知保持一致,一些研究方法還結合顯著圖、圖像上下文和高級語義信息來檢測圖像中背景區域和前景區域。為保護始圖像的語義成分,Liu 等人提出了語義保持的深度圖像重定向框架(semantics preserving deep image retargeting,SP-DIR)[24]。該方法首先通過深度解析網絡提取多個語義分量圖,包括前景、上下文和背景,然后利用分類引導融合網絡將各種語義分量圖融合成具有像素級重要度的語義合成圖,最后結合現有的重定向方法生成目標圖像。設計的分類引導融合網絡將圖像分類為面向對象或面向場景兩種類別,并為不同類別的圖像學習不同的融合參數,保留了原始圖像的語義信息。Yan等人[25]提出了一種基于語義分割和像素融合的圖像重定向方法,采用預訓練的RefineNet[57]生成高分辨的預測圖像,然后結合顯著圖獲取最終的重要度圖,最后采用像素融合方式得到目標圖像。Ahmadi等人[26]考慮到圖像上下文對圖像語義部分的重要作用,提出一種混合型顯著性檢測方法,最終的顯著圖由基于顏色、基于對比度和基于語義分割的顯著圖線性組合獲得。其中語義分割網絡使用預先訓練的PSPNet[58]將整個網絡分成編碼器和解碼器兩部分,編碼器提取的特征用于解碼器生成分割圖和上下文檢測,考慮到不同的分割對象在不同的上下文語境中具有不同的重要性,因此根據檢測的像素類別和所屬的上下文語境給圖像像素分配顯著值,最終利用像素融合的方法進行圖像重定向。

圖4 深度神經網絡提取重要度圖引導圖像重定向的流程圖Fig.4 Process of using deep neural networks to obtain importance map to guide image retargeting
(4)注視點
生物學和心理學實驗都表明,人類在觀察一幅圖像時,首先會聚焦在圖像中最顯著的區域,然后再將目光轉移到第二個區域。為更加符合人類的視覺感知,考慮到人眼注意力分配情況,Zhou等人[1]提出了一種新的重定向框架,利用人眼的注視行為快速縮小照片,網絡模型如圖5。該模型首先利用幾何保持圖排序算法(geometry-preserved graph ranking)有效地選擇多個顯著目標塊來模擬人眼注視移動路徑(gaze shifting path,GSP);然后利用聚合的CNN網絡分層學習每個GSP的深度表示;在此基礎上,構建出用于學習高質量美學照片先驗知識的概率模型[59]。同樣,Wang等人[27]提出一種感知引導的多通道視覺特征融合方法,利用簡單線性迭代聚類(simple linear iterative clustering,SLIC)[60]將圖像分割成超像素,用于構造小圖,隨后通過所設計的稀疏約束算法選出最顯著的小圖并將它們連接起來,形成GSP。GSP 的提出彌補了現有方法不能有效編碼人類視覺機制的缺點,它可以很好地反映人眼的注意力分配和選擇。

圖5 結合Gaze的圖像重定向算法Fig.5 Gaze-based image retargeting method
一般情況下,由于圖像中不同區域具有不同的特征,多操作圖像重定向比單操作算法具有更好的泛化效果。早期的MULTIOP[42]會有陷入局部最優的可能性,并且時間復雜度按指數增長,效率低下。近年來,研究者提出了基于深度強化學習的多操作算法,這類方法既具有深度學習的感知能力,又具有強化學習的決策能力,可以直接獲取操作符的序列,而不用遍歷每一個操作符后再進行選擇,大大減少了計算時間。下面將介紹兩種應用深度強化學習的多操作算法。
Zhou等人首次應用深度強化學習實現多操作的圖像重定向,提出了一種基于語義和美學感知的弱監督多操作圖像重定向框架(aesthetics aware multi-operator image retargeting,SAMIR)[61]。與之前使用相似度測量的多操作算法不同,該模型利用語義和美學感知度量作為獎勵函數,保證圖像內容不丟失以及重定向后的圖像具有高質量的視覺效果。具體網絡模型如圖6所示,智能體根據全局特征和局部特征從動作空間中選擇適合當前的操作符,得到這一步的重定向圖像,再根據語義和美學度量計算當前的獎勵,用來更新智能體,重復這個過程,直到達到目標大小。其中語義感知度量采用PatchMatch[62-63]計算,美學度量用視圖查找網絡(view finding network,VFN)[4]計算美學得分。

圖6 SAMIR網絡結構Fig.6 Architecture of SAMIR
在MULTIOP[42]中,定義了一種新的圖像雙向相似度測量指標(bi-directional warping,BDW),但是基于深度強化學習的方法中不能直接采用BDW分數作為獎勵計算,因為每幅圖像的BDW 評分差異很大。為解決這個問題,Kajiura 等人[64]提出了一種自我博弈的獎勵機制,通過讓智能體與它的副網絡進行較量,即BDW分數的比較,并根據勝利或失敗計算獎勵,這樣可以處理BDW 分數差異大的問題。另外,該方法提出了一個動態改變選擇每個動作權重的方法,根據選擇動作的頻率改變損失的權重,讓相對強和相對弱的動作的選擇概率相等,避免網絡一直選擇較強的動作。在該方法中其他評估功能(如美學評估[65])也可以用作獎勵。
圖像裁剪常用于圖像編輯,其目的是通過去除圖像的外部區域改善圖像,試圖找到比輸入圖像更好的構圖。一般來說,專業攝影師會用到一些構圖技巧獲得高質量的照片,如黃金比例、三分法、視覺平衡和簡潔。然而建立計算機模型模擬這些技術產生高質量的照片是一個具有挑戰性的任務。
早期研究者利用這些專業技巧改善圖像構圖[66-70],但是從這些文獻中可以看出,傳統方法非常依賴研究者對攝影領域知識的理解,這將限制他們的工作進展。由于深度學習的快速發展和新提出的大規模數據集,利用卷積神經網絡完成圖像裁剪的研究不斷涌現,這些方法可分為基于注意力的裁剪方法和基于美學感知的裁剪方法。基于注意力的裁剪方法[5,71-72]是在原始圖像中找到視覺上最顯著的區域,然后對候選框進行排序,這樣可以保證最終的裁剪圖像中保留原有的主體內容。然而這些方法只是單一地考慮注意力,未考慮圖像構成,可能無法產生視覺上高質量的裁剪圖像,因此研究者加入美學感知的思想,試圖從輸入圖像中找到視覺上令人愉悅的裁剪窗口,利用提取的圖像特征評估圖像美學分數。本節將介紹幾種代表性的基于美學感知的圖像裁剪方法,表4對這些方法進行總結。

表4 基于美學感知的圖像裁剪算法總結Table 4 Summary of aesthetic-aware image cropping algorithms
(1)滑動窗口策略
基于滑動窗口策略的圖像裁剪方法一般分為兩階段,如圖7,第一階段通過滑動窗口策略提取多個裁剪候選框,第二階段對每個裁剪候選框圖像進行美學評估,選出美學得分最高的候選框圖像作為最終裁剪圖像。Chen等人考慮到專業攝影師拍出的照片一般具備較好的構圖,而如果從專業圖像中隨機裁剪一塊,就會影響原來圖像的構圖,因此原圖在構圖方面的分數應該高于隨機裁剪的圖像。基于這樣的假設,他們提出視圖查找網絡VFN[4],如圖8,利用Hinge 損失實現網絡訓練,如式(3):

圖7 采取滑動窗口策略的圖像裁剪流程圖Fig.7 Flow chart of image cropping with sliding window

圖8 VFN網絡結構Fig.8 Architecture of VFN

其中,Ij、表示原始圖像及其對應的裁剪圖像,Φ(Ij)、Φ()表示原始圖像及其對應裁剪圖像的美學分數,g為間隙參數,表示Φ(Ij)、Φ(之間的最小距離。該模型只能知道圖像構圖的好壞,無法自動從原圖中裁剪出構圖好的裁剪圖,因此在裁剪方面,采用的是滑動窗口策略,根據網絡輸出的分數決定最終美學分數高的裁剪框。
(2)注意力感知策略
基于滑動窗口的圖像裁剪方法通過反復計算所有滑動窗口的美學得分才能確定最優的裁剪窗口,這樣的方式耗時嚴重,效率低下。Wang 等人設計了一種基于深度學習的注意力矩形框預測和美學質量分類的級聯模型(attention box prediction and aesthetics assessment,ABP-AA)[6]。該方法不需要通過滑動窗口搜索圖像域內所有可能的位置,而是通過注意力預測網絡初步確定一個包含重要內容的區域,縮小裁剪候選框的搜索范圍,時間效率有所提高。這種基于注意力感知的圖像裁剪方法(如圖9)采取由“確定”到“調整”的方式進行裁剪,通過ABP網絡生成注意力矩形框作為初始矩形框,然后在其周圍生成一組裁剪候選框,再由AA網絡評判出美學質量最高的候選框作為最終的裁剪區域。

圖9 采取注意力感知的圖像裁剪流程圖Fig.9 Flow chart of image cropping with attention-aware
(3)回歸網絡策略
無論是基于滑動窗口的裁剪方法還是基于注意力感知的裁剪方法,它們在多個候選框提取和美學評估的問題上效率低下。為學習和分析視覺顯著性區域與圖像美學區域之間的關系,Lu等人[7]設計了一個用于圖像裁剪的回歸神經網絡,如圖10。該方法首先檢測圖像中的顯著區域,利用文獻[5]提出的方法尋找圖像中包含感興趣對象的最優初始裁剪框,然后將具有視覺顯著性的初始裁剪圖像輸入到基于VGG16[74]的回歸網絡中,預測出坐標偏移因子,得到最終的裁剪區域。與其他提取多個候選框的方法不同的是,該方法只產生一個包含感興趣對象的裁剪框,并直接從回歸網絡中獲取美學質量高的裁剪框,大大提高了時間效率。

圖10 采取回歸網絡策略的圖像裁剪流程圖Fig.10 Flow chart of image cropping with regression network
同樣,Lu等人[8]提出的基于深度學習的端到端圖像自動裁剪框架也是利用深度神經網絡提取圖像的顯著特征圖,確定圖像中包含感興趣對象的候選裁剪區域,然后利用回歸網絡得到最終的裁剪矩形框。值得注意的是,文章汲取傳統數字圖像處理方法的優點,在生成的顯著特征圖后加入軟二值化層(soft binarization layer),通過這一層,可以增強顯著性的效果。
(4)弱監督學習策略
Lu等人提出一種基于圖像分布的弱監督圖像裁剪框架[73],該框架利用高質量美學圖像與裁剪圖像的似然分布差異來指導裁剪框坐標的預測訓練,無需裁剪框的標注信息。另外,該框架還加入顯著性損失,確保網絡更多地關注圖像中視覺顯著的區域。Li 等人將圖像裁剪過程設計為序列決策的過程,提出了一個弱監督的美學感知深度強化學習框架(aesthetics aware reinforcement learning,A2-RL)[10],并通過美學評估模型計算獎勵分數,網絡模型如圖11 所示。該模型是第一個基于深度強化學習的圖像自動裁剪方法,根據決策子網絡輸出的概率分布從動作空間中選擇對應的操作算子,利用新得到的裁剪框的美學分數和上一步得到的裁剪框的美學分數之間的差值計算該操作獲得的獎勵,從而讓獎勵函數引導智能體在每一次迭代中找到令人滿意的裁剪框。因此,它不需要依賴滑動窗口策略,可以在數步或十幾步內完成裁剪過程,大大減少運行時間,并且可以獲得任意尺寸位置的裁剪窗口。

圖11 A2-RL網絡結構Fig.11 Architecture of A2-RL
Li等人在A2-RL模型上進行改進,提出了一個快速美學感知的對抗強化學習框架(fast aesthetics-aware adversarial reinforcement learning,Fast A3RL)[11]。與之前不同的是,Fast A3RL模型是對提取的特征圖執行動作空間中的裁剪操作,并且加入對抗學習的思想,即同時訓練裁剪網絡和美學評估網絡,讓美學評估網絡對裁剪后的圖像輸出較低的美學分數,讓裁剪網絡嘗試輸出得分較高的裁剪圖像,形成對抗學習。
圖像重定向技術的目標是使調整后的圖像達到與原始圖像相同的人類視覺美學要求,雖然圖像質量評價方法已經相對成熟,但是圖像重定向質量評價仍處于起步階段[75]。一般地,圖像重定向質量評價方法可分為兩類:主觀評價方法和客觀評價方法。
主觀評價方法依靠人的主觀感覺評判圖像的質量,不同的人對圖像質量的感知也不同[76]。為定性地評價重定向圖像的質量,研究者除了視覺比較同一幅圖像的不同重定向目標圖像外,還采取用戶調查的方式進行定性評價。用戶調查一般會將不同的重定向方法進行兩兩比較,具體方法是每幅圖像根據不同的重定向方法生成對應的目標圖像,并且在同一時間給志愿者展示同一幅圖像的兩種重定向結果圖,讓志愿者在一定的時間內從中選出質量高的一幅,根據最后的比較結果看哪種方法更符合人類的視覺觀感。還有的研究者要求志愿者在觀察評價時,從五個質量等級中選擇一個等級來評價重定向圖像,這五個評價等級包括壞、差、合格、好、優秀。
3.2.1 基于重定向圖像的評價指標
(1)FRR(feature remain ratio)[23]:該指標測量的是重定向圖像在深度特征中的保留比例,計算如式(4),其中FO、FR分別代表原始圖像和重定向圖像,FRR 值越大,表示圖像質量越好。

(2)FD(feature dissimilarity)[23]:該指標計算的是在特征空間中原始圖像和重定向圖像之間的平方差,如式(5)。FD值越小,表示圖像質量越好。

(3)結構相似性SSIM(structural similarity)[77]:該指標用來衡量兩幅圖像的相似程度,它分別從亮度、對比度、結構三方面對圖像進行相似度評估,如式(6),其中α、β、γ均大于0。在實際應用中,SSIM 簡化表達式如式(7),其中x、y分別表示參考圖像和測試圖像,μ、σ分別表示圖像的均值和標準差,σxy表示參考圖像和測試圖像的協方差,C1、C2表示常數。SSIM分值越大,說明兩幅圖像的相似度越高。在文獻[27]中,研究者提出了一種改進的SSIM 指標計算方式,如式(8),與之前方式不同的是,該公式加入深度特征比較,圖像深度特征計算如式(9)。


(4)IoU(intersection over union):該指標常用來評估算法的裁剪精度,計算如式(10),其中C表示真實裁剪區域,C′表示預測的裁剪區域。IoU的值越大說明裁剪的窗口與真實裁剪窗口越接近,即裁剪效果越好。

(5)BDE(boundary displacement error):該指標用來評估裁剪窗口與真實裁剪窗口四條邊之間的距離,如式(11),其中Bi與分別表示真實裁剪窗口和預測裁剪窗口的邊界坐標。BDE 值越小說明預測的裁剪窗口與真實窗口越接近,即裁剪效果越好。

(6)排序比較:為驗證重定向方法的有效性,研究者提出了一種排序比較的方法,根據重定向圖像的客觀評價指標分數對重定向方法進行降序排序。對于一幅圖像,指標分數最好的重定向方法排名第一,以此類推,根據排名給每一種方法進行打分(1 為最好,往后越來越差),然后將采取同一種方法的所有圖像的分數相加,進行比較,數字越小說明排名越高,即重定向效果越好。有的研究者會計算各排序得分的均值和標準差,然后比較不同方法排序順序的平均值和標準差,均值最小和標準差最小的重定向方法越優秀和穩定。
重定向技術的發展離不開重定向客觀評價方法的發展,為衡量不同重定向方法的重定向效果,研究者提出了一些重定向質量評價算法。例如MULTIOP[42]中提出采用雙向相似度BDW 來度量圖像間的相似性,計算如式(12),式中S和T分別表示原始圖像和目標圖像,Si和Ti分別表示原始圖像和目標圖像的第i行,h表示圖像的高度,A-DTW 是一種非對稱動態時間變形算法(一種度量兩個1D 信號或時間序列之間相似性的算法)。BDW 分數反映的是原始圖像與目標圖像之間的差值,即目標圖像中有多少不屬于原始圖像的內容信息以及目標圖像對原始圖像內容信息保留的完整程度,該方法測量每一行/列之間的相似性,然后將最大對齊誤差作為度量距離。其他方法,如SIFT-flow[78]、ARS(aspect ratio similarity)[79]、MLF(multiple-level feature)[80]、BDS(bidirectional similarity)[81]、EH(edge histogram)[82]、CL(color layout)[83]常作為客觀評價指標來評估不同的重定向方法。具體的,SIFT-flow 在兩幅圖像之間匹配密集采樣的像素級SIFT 特征;ARS 可以觀察出圖像在重定向過程中的幾何變化;MLF利用縱寬比相似度、邊緣組相似度等多級特征衡量圖像質量的退化;BDS為雙向相似度,通過設計的優化函數來滿足不同大小圖像的雙向相似性度量,當BDS 值較大時表明目標圖像中包含盡可能多的原始圖像信息,盡可能少地引入新的偽影;EH 是一種用來捕獲圖像邊緣特征的方法,先將圖像劃分為小圖并計算小圖的邊緣直方圖,再進行歸一化,最后計算圖像的直方圖;CL 則是一種提取圖像局部顏色特征的方法,能夠反映圖像顏色的空間分布,具有計算成本低,匹配計算速度快,識別準確率高等優點。

3.2.2 基于語義分類的評價指標
在圖像重定向任務中,為定量確認重定向后的圖像中主體內容是否保存完好,采用語義分類相關的評價指標來評估重定向圖像的質量。例如平均精度均值(mean average precision,mAP)是多標簽圖像分類任務中常用的評測指標,用于評估重定向前后圖像的分類精度,利用所有類別的平均精度值求和后再除以所有類別的數目來計算,如式(13)~(15)。

此外,在DNR模型中,為了評估重定向操作對語義細節的保留情況,Arar 等人[20]計算語義分數(semantic score,SS),即比較重定向前后圖像經過VGG19 網絡層的激活程度,如式(16),其中Fi(I)、Fi(O)分別表示原始圖像和重定向圖像。如果重定向操作破壞了語義區域,原始圖像的激活值會增加,那么這個分值會低,反之,這個分值會增大。

3.2.3 基于顯著性的評價指標
通常顯著性檢測相關的評價指標也被用來評估網絡預測的重要度圖。例如:EMD 距離(earth mover’s distance),是一種度量距離的指標,用于測量兩個分布之間的距離;皮爾遜相關系數(pearsons linear correlation coefficient,CC),用于評估預測圖與真實圖之間的線性關系,CC指標越大說明該模型性能越好;KL散度(Kullback-Leibler divergence),用于衡量預測圖和真實圖間概率分布的差異,當兩個分布相同時,該指標為0,反之,該指標會增大;直方圖交叉核(histogram intersection),常用于評估兩個離散概率分布(直方圖)的相似度;平均絕對誤差(mean absolute error,MAE),用于計算預測圖和真實圖對應位置的差值,是最常用的評估指標,MAE分值越小說明該算法的性能越好。
3.2.4 GSP評估
在基于人眼注視點的重定向方法中[1,27],為評估預測的人眼轉移路徑與真實的人眼轉移路徑是否一致,研究者設計一種評價方法度量人眼轉移路徑與預測的人眼轉移路徑的重疊率。一般使用眼動儀EyeLink II2記錄觀察者的注視路徑,然后沿著這條注視路徑將所有的分割區域連接起來,得到真實的人眼轉移路徑。重疊率計算如式(17)。

因為深度神經網絡的訓練依賴大量訓練數據,所以圖像重定向研究從基于手工特征的傳統方法發展到基于深度學習的方法離不開重定向數據集的發展。下面將介紹目前常用于深度學習方法的數據集。
(1)RetargetMe[84]:該數據集是圖像重定向質量評估(image retargeting quality assessment,IRQA)第一個發布的基準數據集,共包含80幅圖像,其中37幅圖像用于用戶研究,屬性包含線條/邊、人/臉、紋理、前景目標、幾何結構以及對稱性,并且這37幅圖像使用8種不同的重定向方法,生成對應的8 種重定向結果,重定向方法包括CR(cropping)、SCL(scaling)、SC、MULTIOP、SM[32]、SNS[16]、SV[85]、和WARP[86],選擇的重定向比例為原圖像高度或寬度的50%或75%。該數據集的圖像主觀評價方案是以配對比較的方式[87]進行,每次展示同一幅圖像的兩種不同重定向方法的結果圖像,由測評者投票選出質量更好的圖像,每種重定向結果的主觀評分由受歡迎程度即測評者投票記錄確定,選擇的客觀評價指標為BDS、BDW、EH、CL。
(2)CUHK[88]:該數據集共收錄57 幅原圖像以及對應的171 幅重定向圖像,包含的圖像屬性有人/臉、清晰的前景目標、自然場景(包括平滑或紋理)、幾何結構,數據集中每幅原圖像采用3 種不同的重定向方法,生成3種重定向結果。這3 種重定向方法從10 種具有代表性的方法中隨機選擇,包括RetargetMe數據集中使用的8種方法以及SCSC(optimized seam carving and scale)[43]和ENER(energy-based deformation)[14],重定向比例為原圖像高度或寬度的50%或75%。該數據集選擇的主觀評價方案與RetargetMe 數據集使用的配對比較方案不同,該數據集采用5 種離散質量評測表(例如壞、差、合格、好、優秀)為每幅圖像進行主觀評分,得到每幅圖像的平均主觀分數(mean opinion score,MOS),選擇的客觀評價指標為EMD、BDS、EH、SIFT-flow。
(3)NRID[89]:該數據集包含35 幅原圖像,并且每幅圖像采用5種重定向方法,包括MULTIOP、SCL、SC、SM和WARP,重定向比例為原圖像高度或寬度的75%。該數據集的主觀評價方案與RetargetMe 數據集中的評價方案一樣。此外提出了一種有效的客觀度量方法來評估重定向圖像的視覺質量,該度量是基于圖像的SIFTflow[78]向量場的局部方差來測量圖像前后的幾何失真,還結合了基于顯著圖評估的信息損失。實驗結果表明,所提出的客觀度量方法與主觀排名高度一致。
上述圖像數據集的總結如表5,包括數據集中原圖像的數量、重定向比例、重定向圖像數量、重定向算法、主觀評價方法。還有一些數據集,如顯著性檢測的數據集HKU-IS[90]、語義分割的數據集Pascal VOC 2007[91]、美學評估的數據集AVA[92],也常用于訓練網絡。

表5 常見圖像重定向數據集Table 5 Summary of common image retargeting datasets
(1)CUHK-ICD(CUHK image cropping dataset)[70]:該數據集是由香港中文大學發布的專門用于圖像裁剪的數據集,共包含950幅圖像,涵蓋各種圖像類別,包括動物、建筑、人類、風景、夜景、植物和靜物,每幅圖像都由3位專業攝影師手動裁剪,因此形成3個標注數據集。
(2)FCD(Flickr cropping dataset)[93]:該數據集中的每幅圖像都是從Flickr上下載后經過人工篩選得到的,共包含1 743 幅經過人工標記裁剪窗口的圖像以及31 430 對與原始圖像相匹配的裁剪圖像對。在FCD 數據集中,有兩種類型的注釋:裁剪窗口以及排序,以大約4∶1的比例將1 743幅圖像分為訓練集和測試集,因此有348幅測試圖像用來評估圖像裁剪的性能。
(3)HCD(human crop dataset)[94]:該數據集共包含500幅測試圖像,每幅圖像由10位專業人士進行裁剪標注。HCD 中對每幅圖像的注釋比前兩個數據集多,因此評價指標有些不同,一般將預測的裁剪窗口與10 個GroundTruth窗口進行指標計算,選擇最大的作為結果。
本章將對上述提到的基于深度學習重定向方法進行總結,包括文獻的發布時間、使用的測試數據集、采用的評價方法、模型的優缺點。
基于深度神經網絡的圖像重定向算法總結如表6。采用深度神經網絡提取深度特征直接引導圖像重定向的算法有WSSDCNN[18]、DNR[20]、DeepIR[23]、CycleIR[19]。其中WSSDCNN 是第一個采用深度網絡解決內容感知圖像重定向的方法,由于人為設置卷積核的大小,不能輸入任意大小的圖像。DNR利用已訓練的VGG19網絡進行圖像檢測,獲取圖像重要區域,在圖像特征空間中應用線裁剪對圖像大小進行調整,當VGG19 網絡不能提供準確的重要區域時,重要目標的不同區域仍然具有較低的像素值,可能導致最終的結果目標失真。另外與其他深度學習方法相比,該方法借鑒線裁剪的方法,重定向同一幅圖像的處理時間花費也很大。DeepIR中設計的UrS 方法避免了由于過度移除列/行像素導致的內容丟失,結構混亂,但是圖像重建過程中耗費時間長。CycleIR 不需要任何注釋信息,將圖像進行兩次重定向操作,生成與原圖同樣大小的圖像,但是當背景與主體對比度較低時,獲取的重要度圖不準確而導致重定向結果不佳。隨著GAN 生成效果的提升,研究者將圖像重定向問題轉化成分布匹配問題,利用GAN 學習圖像內部的分布情況,實現圖像的擴充和拉伸,例如InGAN[51]、DCIL[52],但該類方法適用于紋理結構連續的自然圖像,并且受限于每幅圖像都要經過大量訓練,網絡才能學到其內部的分布情況。

表6 基于深度神經網絡的圖像重定向算法總結Table 6 Summary of image retargeting algorithms based on deep neural network
另外,利用深度神經網絡提取重要度圖再進行圖像重定向操作的算法還有很多,如Song等人[21]、Wu等人[22]利用深度網絡獲取視覺重要圖從而引導圖像重定向,但預訓練的VGG網絡性能的好壞限制該類方法獲取視覺重要度圖的準確度,當重要區域太大或者過于分散時,提取的重要度圖不能完全將重要目標分割出來,因此會產生不準確的重要區域語義信息。還有一些方法,如SP-DIR[24]、Yan 等人[25]、Ahmadi 等人[26]的模型不僅僅考慮低級特征,還結合語義、上下文等信息構造重要度圖。其中,Yan 等人的方法將顯著圖與語義分割圖進行融合,但對于多目標復雜場景的圖像,顯著對象的重要性會分散在背景區域的分割對象中,可能導致結果圖像的顯著目標失真。Ahmadi等人的方法考慮到不同的分割對象在不同的上下文語境中具有不同的重要性,因此根據檢測的像素類別和所屬的上下文語境給圖像像素分配顯著值,然而由于同一列分配的比例因子相同,從上一列到下一列可能會發生突然變化,導致直線發生扭曲,圖像結構易發生形變。為更加符合人類的視覺機制,Zhou 等人[1]、Wang 等人[27]結合GSP 構建顯著區域,GSP 的提出彌補了現有方法不能有效編碼人類視覺機制的缺點,它可以很好地反映人眼的注意力分配和選擇。此類方法利用CNN 體系結構來深度表示GSP,最后通過建立概率模型學習專業圖像的先驗知識,然而該類方法選擇前5個顯著小圖構建GSP,對于多目標復雜的圖像,當顯著區域多于5 時,可能導致結果中少部分目標存在失真現象。
基于深度強化學習的多操作算法總結如表7。雖然早期的MULTIOP算法仍然可以與現在最先進的方法相媲美,但MULTIOP 算法需要大量的時間生成多個操作算子的結果才能找到操作算子的最佳組合,而基于深度強化學習的多操作算法大大減少了MULTIOP算法的時間花費。SAMIR[61]是第一個應用深度強化學習實現多操作的算法。Kajiura等人[64]不僅采用深度強化學習,還加入自我博弈機制以及動態改變動作選擇權重的方法,根據勝敗計算獎勵實現快速有效的多操作方法。同時以上兩種方法都可以將美學感知評估用作獎勵來指導智能體的優化以及動作因子的選擇,以獲得高質量的重定向結果。但是多操作中的裁剪方法會導致圖像內容顯示不完整,獲取的結果少部分會出現周圍目標內容丟失的情況,并且每次同一幅圖像測試時選擇的動作序列不相同,因此也無法保證每次選擇的操作因子序列是全局最優的。

表7 基于深度強化學習的多操作重定向算法總結Table 7 Summary of multi-operation retargeting algorithms based on deep reinforcement learning
基于美學感知的圖像裁剪算法總結如表8。采用滑動窗口策略的算法耗時太長,效率低下,如VFN[4]通常預設置大小和比例對整個圖像進行掃描,提取豐富的候選框,然后再對每個候選框進行美學評估,選擇得分高的作為最優的裁剪結果。后來研究者采用“確定-調整”的方式縮小提取候選框的空間,提出基于注意力感知的圖像裁剪模型,如ABP-AA[6],通常先經過視覺顯著性檢測確定初始裁剪框,再對周圍區域進行掃描和美學評估,大大縮小了候選框的搜索范圍。也有一些如Lu 等人的方法[7-8],利用回歸網絡直接輸出預測的坐標因子,這些方法遠遠小于傳統裁剪方法所需的候選框的數量。也有一些研究者提出弱監督的裁剪框架,無需邊界框去監督,如Lu等人[73]、Fast A3RL[11]、A2-RL[10],其中后兩個模型加入深度強化學習的思想,根據決策子網絡輸出的概率分布從動作空間中選擇對應的操作算子,采用美學分數計算操作獲得的獎勵,從而讓獎勵函數引導智能體在每一次迭代中找到令人滿意的裁剪框。另外,本文也總結了這9 種算法在CUHK-ICD、FCD、HCD 數據集上的裁剪性能,如表9 所示,使用兩個有代表性的質量評價指標,即IoU、BDE來定量比較不同的裁剪方法。

表8 基于美學感知的圖像裁剪算法總結Table 8 Summary of image cropping algorithms based on aesthetic-aware

表9 基于美學感知的圖像裁剪算法在CUHK-ICD、FCD、HCD數據集上的比較Table 9 Comparison of aesthetic-aware image cropping algorithms on CUHK-ICD,FCD and HCD datasets
深度學習的迅速發展,有力地推動了圖像重定向技術的研究。本文詳細介紹了近5 年幾種典型的基于深度學習的圖像重定向方法,這些方法有的結合傳統的重定向技術,有的利用深度神經網絡直接生成重定向結果。它們通過改進重要度圖對圖像進行調整,在現有圖像低層信息的基礎上,不僅結合高級語義信息和上下文信息獲取視覺顯著區域,還考慮到結合人眼轉移路徑、美學評價來鑒別圖像重要區域,獲取符合人類視覺感知的高質量圖像。
但任何的方法都有優缺點,例如在CycleIR 模型[19]中,當生成的圖像效果不好時,產生失敗的原因有兩點:背景與主體的對比度較低,模型將背景區域劃分為視覺重要區域;視覺重要區域缺乏關注,只檢測出部分視覺重要內容,因此該類方法適合背景與主體對比度大、主體明顯的圖像。在根據重要度圖分配縮放因子的方法[26]中,通常為同一列的像素分配相同的縮放因子,容易導致某一列到下一列的縮放因子發生突變,線性區域扭曲偏移,因此該類重定向方法不適合包含大量線性結構的圖像。
從上述文獻中來看,目前還沒有一種通用性強的圖像重定向方法,要想讓圖像重定向技術走向成熟,依然還有一些需要解決的問題。關于未來的研究方向,可以從以下幾方面進行考慮:
(1)采用其他學習方法。大多數基于深度學習的重定向方法都是采用弱監督或自監督的方式訓練網絡,例如WSSDCNN 是第一個采用深度網絡解決內容感知圖像重定向的方法,使用圖像及其像素級注釋計算內容損失和結構損失達到訓練網絡的目的。有的方法采用無監督的方式,如CycleIR將圖像進行兩次重定向操作,通過引入循環感知一致性損失訓練網絡,無需任何圖像注釋信息。深度學習初期由于缺乏用于訓練深度模型的圖像重定向數據集,還沒有將監督方式應用在重定向領域。因為構造帶有注釋的重定向圖像,需要采集大量圖像,標注數據集的代價也很高,而最近文獻[95]提出了一種解決方案,在多種重定向方法的結果基礎上,使用IRQA算法,創建了一個新的用于重定向任務的數據集,該方法的提出讓監督方式應用在重定向領域成為了可能,實現了圖像在特征空間中得到精準訓練。另外,結合強化學習也是一種新的嘗試領域。強化學習任務可表述為馬爾科夫決策過程,通過不斷“試錯”進行探索式學習,具有很強的決策能力,不需要特定的數據,只需要根據獎勵或懲罰來學習新的知識,更加適應環境。而深度網絡在圖像處理領域取得了一定的成功,但其缺乏一定的決策能力,將其感知能力和強化學習的決策能力相結合來處理圖像數據的感知決策成為很多研究者的研究方向。基于深度強化學習的重定向技術已經有了一些研究工作,例如文獻[10,11,61,64]等,這類方法無論是多操作算法還是裁剪算法,都是根據決策網絡輸出的概率分布從動作空間中選擇對應的操作算子,利用新得到的圖像計算獎勵因子,從而引導智能體在每一次迭代中得到滿意的結果,最終的效果很大程度上取決于動作空間的操作算子,操作算子性能越好,最終效果也會越好。不過強化學習通常需要計算獎勵來引導智能體向“正確”的方向發展,在上述文獻中,有的采用語義感知計算獎勵函數,有的采用美學感知計算獎勵,有的借助BDW分數差異計算獎勵,但是通過實驗測試可以發現,輸入同一幅圖像得到的操作序列是不同的,無法保證每次選擇的操作因子序列是全局最優的。因此,設計一個獎勵函數來引導未來行動,同時還要保證智能體可以不斷地優化學習避免陷入局部最優是一件具有挑戰的事情。
(2)對重要度圖的改進。現有的圖像重定向方法在處理簡單場景或單一目標的圖像上效果不錯,但是在處理具有多個目標的復雜圖像時,大多數檢測方法平等地給予不同顯著目標相等的顯著值,無法區分不同目標的重要程度,出現重要區域不是丟失就是把背景區域劃分為重要區域的情況,導致重定向結果中次顯著目標或面積小的顯著目標保護不周、結構變形的情況。但事實上,人類在觀看復雜場景的圖像時,注意力會優先聚焦于最顯著的目標,其次關注到第二顯著目標,以此類推。針對多目標圖像,文獻[96]通過設計的實例級相對顯著性排序模型來獲取圖像的重要區域,再利用線裁剪算法進行圖像重定向。其中實例級相對顯著性排序模型先通過改進實例分割網絡獲取目標,然后增加圖卷積的網絡用于預測目標顯著性排名,得到的顯著性排名圖能夠很好地反映不同顯著目標的重要性。實驗結果表明,這種方式獲取的重定向結果中最顯著的目標保存較好,變形較少,而較不顯著的目標先發生變形或者在目標比例較大的情況下被刪除。另外,可以采用人眼注意圖,同樣考慮到人類視覺注意力的優先級分配問題,可以在原有視覺重要度圖的基礎上結合人眼注意圖,利用兩者的互補性提升重要度圖的檢測質量。但是如何建模人眼注意圖符合真實人眼注意路徑以及如何將兩者有效結合起來,也是值得探究的問題。
(3)圖像重定向與美學評價相結合。目前大多數的圖像重定向方法重點關注圖像內容的保護,忽略了圖像美學對于重定向結果的影響。一方面現有的基于美學感知的圖像重定向技術大多只應用在圖像裁剪上,而裁剪會導致圖像語義內容不完整,另一方面美學評價是一種人類主觀感知而不是客觀評價,由計算機建模人類的美學感知也是一大難題。文獻[97]提出一種結合美學的圖像重定向方法,通過主干網絡獲取多層級的圖像美學特征,再由注意力機制自適應地融合得到圖像的美學信息,在此基礎上與圖像顯著圖、直線檢測圖、梯度圖進行融合生成重要度圖來指導圖像多操作算法。實驗結果表明,結合美學信息能很好地保護圖像的整體美學結構,生成的重定向圖像既保留了原始圖像的語義內容,又保證較高的視覺質量。不過,美學特征難以適應不同類別的圖像,因此建立一個適用于不同圖像類別,并且兼顧圖像語義和美學感知的重定向方法也是一大挑戰。
(4)采用輕量級網絡模型。深度學習方法采用神經網絡作為基礎網絡,并且需要大量數據進行網絡訓練,時間復雜度高。考慮到重定向移動端的需求,如何設計一種輕量級的網絡模型,使得圖像重定向方法更加簡便快捷,也是研究人員未來的研究方向。近年來一些輕量級網絡如MobileNet、ShuffleNet 和Xception 等的出現,為輕量級網絡的圖像重定向提供了實現的可行性,相比于傳統的深度模型,在保證準確率的前提下,通過不同于傳統的卷積方式來減少網絡的參數,滿足實時性的需求。