侯士江 侯英 馮希等



關鍵詞:注意力管理 眼動跟蹤 視點預測 產品設計 深度學習
中圖分類號:TB472 文獻標識碼:A
文章編號:1003-0069(2022)07-0134-03
引言
當面對復雜場景、大量信息涌入時,人的注意力會過濾掉過冗余信息,只關注圖像中的部分區(qū)域,人類的視覺系統(tǒng)能夠快速從場景中定位到具有辨識性和吸引力的目標,這種能力被稱為視覺注意機制。設計的關鍵目標是傳達不同設計元素的相對重要性,以便觀者知道將注意力集中在何處,以及如何解釋設計,即設計應該提供有效的注意力管理[1]。
長期以來,設計師和研究人員一直在研究眼動跟蹤,以此作為理解圖像感知的線索。但是眼動測量過程比較耗時,在實際應用中存在著諸多限制,對圖像眼動感知的預測研究已經成為計算機視覺中的一個經典課題。早期的自然圖像顯著性方法依賴于手工編碼特征,最近在大數(shù)據(jù)集上訓練的深度學習方法的表現(xiàn)有了實質性提升。然而,這些方法大多專門為分析自然圖像而開發(fā),未針對設計圖像進行有效的訓練。本研究關注設計領域的圖像重要性預測,并基于所開發(fā)的預測模型嘗試了多種設計應用,對設計中注意力的影響因素進行了分析和闡釋。
一、研究現(xiàn)狀
(一)設計中的注意力指向
注意是指主體的心理活動對一定對象存在指向和集中,具體來說,就是有機體對周圍環(huán)境刺激的選擇性知覺。“注意”是設計中的重要概念,能夠吸引消費者的注意實現(xiàn)促銷功能[2]。
注意指向主要包括目的指向和刺激驅動捕獲。在目的指向設計中,設計師必須明確提供給用戶該產品最重要的信息,包括性能、結構、材質、使用方式等,提高設計說服力。如何給予用戶一定的視覺引導,使之關注到預設信息是一項重要的工作。而在刺激驅動捕獲中,外界輸入的信息越強、越不穩(wěn)定、越難控制則越容易吸引人的注意。需要注意的是,長時間的注意之后會引起信息超載現(xiàn)象,因此,在具體設計中要遵循適度原則。
(二)基于視覺焦點的設計研究
當前在設計領域單純聚焦于用戶視覺注意力機制的研究相對較少,更多是以捕捉用戶眼動的形式來呈現(xiàn),關注眼動跟蹤在視覺傳達、仿生設計、意象設計及設計評價領域的應用。
吳丹等人[3]指出用戶視覺注意力與圖像情感相結合是當前圖像情感研究發(fā)展的重要趨勢,構建了基于視覺注意力的圖像情感研究框架;許永生等[4]通過模擬駕駛實驗的形式,從視覺層、行為層、心理層三個維度分析駕駛員的注意力分配情況,總結界面布局設計原則,得到優(yōu)化設計方案;呂健等[5]在眼動跟蹤實驗的基礎上提出一種面向產品造型風格的用戶認知模式及量化模型;孫元等[6]研究了眼動數(shù)據(jù)與FAHP相結合的產品感性認知測量方法。
設計師和相關研究人員一直在借助設備(如眼動儀)進行眼動和設計感知的研究,然而眼動設備價格昂貴,需要苛刻的實驗室環(huán)境,并且會耗費大量的人力物力,所以在實際應用中受到了限制。而人工智能為設計感知提供了新的方向。
(三)顯著性檢測
顯著圖(Saliency Map)由Koch & Ullman提出,用一個概率分數(shù)來衡量每個像素點的顯著程度,通過算法模仿人類的視覺注意來查找圖像或視頻中令人最感興趣的部分。
顯著性目標檢測就是使用計算機去模擬視覺注意力分配機制,將注意力資源盡可能地分配到最重要的區(qū)域,從而實現(xiàn)對資源有效利用。其發(fā)展主要經歷了三個階段:① Itti & Koch等首次提出顯著性計算方法開始,以Koch & Ullman算法為基礎,基于圖像的顏色、紋理、方向特征的對比差異計算中心環(huán)繞差,然后通過融合多顯著性圖得到最終的預測圖;② Achanta、Cheng等認為此類任務可以轉化為對圖像求二進制分割的顯著性圖問題;③ 基于神經網絡的顯著性檢測算法。這類算法減少了對先驗知識的依賴,不需要復雜的人工特征標記,因此得到廣泛使用。基于神經網絡的圖像顯著性目標檢測的相關研究很多,其模型大多基于完全卷積神經網絡(FullyConvolutional Networks,F(xiàn)CN)[7]或其變形體,并逐漸關注網絡淺層特征和高層特征之間的差異性。
二、圖像視點預測模型(IVPM)
對自然圖像的顯著性預測已變得相當有效,而對設計元素的重要性預測卻鮮見研究。本文提出一種圖像視點預測模型(ImageViewpoint Prediction Model,IVPM),IVPM使用深度學習架構,并在通用的、反映人真實視覺認知規(guī)律的圖形設計重要性(GraphicDesign Importance,GDI)標記數(shù)據(jù)集[8]上進行訓練。該眾包數(shù)據(jù)集使用“重要性”一詞來描述設計元素的相對感知權重,圖像顯著性可看作是“重要性”的一種描述形式。IVPM模型吸納了真實人工標記數(shù)據(jù)中的一些高級趨向,能正確加權不同設計元素的相對重要性(見圖1)。熱點圖中暖色表示更高的重要性,關注程度更高。
(一)數(shù)據(jù)收集
IVPM使用GDI數(shù)據(jù)集[8]進行訓練,該數(shù)據(jù)集包含F(xiàn)lickr的1 078個平面設計的真值(Ground Truth,GT)重要性標記圖,并80%-20%分割將1 078張GDI圖像分為訓練集(862張圖像)和測試集(216張圖像)。
(二)IVPM的損失函數(shù)及模型架構
IVPM預測位圖圖像中每個像素位置上內容的重要性。每個像素i輸出重要性預測Pi∈[0,1],其值越大表示重要性越高。
與在自然圖像上表現(xiàn)良好的顯著性模型類似,IVPM基于FCN架構。給定每個像素i上的真值重要性Qi∈[0,1],在所有像素i=1,2,…,N上,優(yōu)化FCN模型參數(shù)Θ的sigmoid交叉熵損失:
式中,Pi=σ(fi(Θ))是FCN輸出fi(Θ)傳入sigmoid激活函數(shù)σ(x)=(1+exp(-x))-1所得出的重要性預測值。需要注意的是,該損失函數(shù)常用于二元分類,即Qi∈{0,1}。這里將其擴展到實值Qi∈[0,1]。
在Caffe環(huán)境下,經過連續(xù)池化,模型預測變?yōu)檩斎雸D像分辨率的1/32。為了提高預測的分辨率并捕獲更精細的細節(jié),按照Long等人[7]中的步驟添加來自較前層的跳躍連接以形成FCN-16s模型,實驗發(fā)現(xiàn)FCN-16s(具有來自pool4的跳躍連接)相較FCN-32s模型捕捉到了更多細節(jié),改善了預測效果(由于樣本數(shù)有限,實驗采用了經過預訓練的FCN-32s模型[9]初始化網絡參數(shù),并對其進行微調)。模型架構如圖2所示。
(三)預測模型的評估
使用顯著性評估指標Kullback-Leibler 散度(KL)和互相關(Cross Correlation,CC)來評估預測圖與GT重要性標記圖之間的相似性。KL對錯誤預測進行高度懲罰,因此未能預測到GT重要位置的稀疏圖將獲得較高的KL值(低分)。給定GT重要性圖Q和所預測的重要性圖P,KL值計算如下:
高CC得分、低KL得分說明預測效果良好。在測試圖像數(shù)據(jù)集上的實驗中,CC平均得分為0.69,KL平均得分為0.33,顯示了不錯的性能。
(四)IVPM的時間性能分析
模型訓練完成后,在Intel Core i7-10510U CPU、16G RAM配置筆記本電腦上的測試顯示,針對800×640像素的圖像僅需≈12s就能夠完成顯著圖和熱點圖的生成。神經網絡的時間性能優(yōu)勢使得將IVPM集成到其他設計工具中成為可能,設計的每次更改迭代都能夠得到即時反饋。
三、基于IVPM的設計應用
近年來的研究表明大腦利用眼球以1/10秒的速度獲取重要信息,而這些信息將服務于正在進行的核心任務。如何讓用戶更容易發(fā)現(xiàn)我們的產品?如何讓商家更有效的廣告?如何讓我們的網頁和軟件更容易觸動用戶?這些都需要我們關注注意力的設計管理。
如表1所示,實驗結果表明IVPM在自然圖像、海報設計、產品設計以及包裝設計等多種應用中均有上佳預測表現(xiàn),顯示了出色的擴展性能。在一些特定的設計研究如意象仿生設計中,明顯可以實現(xiàn)特征要素的辨識和交互式設計反饋。
四、設計圖的注意力影響因素
注意力的影響因素較多,可將其分為低層級屬性、高層級興趣和學習關聯(lián)。其中,低層級屬性主要關注圖像中特征的差異性,這也是本文的主要研究內容之一;而高層級興趣和學習關聯(lián)顯然會影響注意力,并在IVPM智能預測中發(fā)揮作用,但其影響程度難以量化測量,故不做過多討論。
(一)低層級屬性
顯著性主要基于區(qū)域中特征密度的差異,較大的差異會產生更高的顯著性。因此,可以通過使用特征線索來引導注意:如果一個區(qū)域中存在獨特的特征,顯著性將很高,即使與其周圍的特征差異不大,仍然會被較快關注。通常,此類屬性包括:亮度(對比度)、顏色(色調)、長度、寬度、方向(2D)、曲率(二維)、凹凸(3D)、運動、閃爍等。
有趣的是,測試“小米”新舊LOGO發(fā)現(xiàn),如圖3所示,舊LOGO的視覺焦點更集中于中心的“mi”字樣,“mi”與外圍的方框呈分離狀態(tài),而在新LOGO中“mi”與周圍圓潤的框線更趨向為視同一個整體。
在產品設計中,造型設計拓展了現(xiàn)代設計形態(tài),又相對符合當代社會人們的審美需求,同時為材料選擇、結構造型提供了無限可能,材質、紋理和質感、尺度、功能特征、工程特征等通常是注意力影響因素。如表2所示,標識、按鈕、形態(tài)轉折、強對比區(qū)域(亮度、色彩、材質)、柵格/開孔、界面等經常是引起注意力集中的重點部位,IVPM模型均能實現(xiàn)準確預測,這為在設計過程中可實現(xiàn)交互式的視覺反饋提供了可行性。
(二)高層級興趣
注意力受被試興趣愛好的約束。如果被試對特定項的興趣足夠高,則這種高層級就會覆蓋低層級考慮。興趣必然涉及高級意識,盡管“興趣”具有相當明確的主觀含義,但很難對其進行客觀表述,有時會被場景中出乎意料的特征所捕獲。
(三)學習關聯(lián)
學習關聯(lián)可以被視為低層級和高層級機制的混合體,關聯(lián)形成依賴于學習,也可能取決于觀者的文化背景。
結論
本文提出了用于預測視覺焦點的IVPM模型,能夠推廣到各種設計應用,其快速時間性能使得用于交互式設計工具成為可能。該模型為設計師和觀者了解需要將注意力集中在何處,以及如何解釋設計提供了高效的解決方案。關于注意力影響因素的討論對相關領域的研究者和設計人員有一定的參考價值,希望能帶來更多的思考。
基于網絡攝像頭的眼動跟蹤方法的出現(xiàn),使得直接使用眼動數(shù)據(jù)訓練模型變得可行。本文對注意力相關問題的討論還不全面,未來有可能會進行更加深入的研究。