石 敏,侯 明,劉亞寧,,毛天露 ,王兆其
(1.華北電力大學控制與計算機工程學院,北京 102206;2.中國科學院計算技術研究所,北京 100190)
視覺和心理學研究發現,人類視覺系統通過從外界獲取圖像信息傳送入大腦,通過大腦對圖像信息進行分析和理解,然后獲得對外界信息的感知。視覺感知的敏感度不僅受到光強度、波長的影響,還與記憶與經驗等更高層次的心理因素有關。人眼接受的信息量往往十分巨大,遠超過大腦處理信息的能力。因此,人眼視覺注意機制會主動忽略一些“無關緊要”的信息,而保留部分重點關注的信息。視覺感知過程,能夠選擇性地將注意力集中于復雜環境中的某一小部分感興趣的區域,而暫時忽視其他次重要的區域。例如,人觀察在草地上奔跑玩耍的小孩時,視線會集中在小孩的身上,而不會過多關注草地等背景。
在進行服裝運動建模時,已有的方法通常只考慮影響服裝運動的第一要素,即物理世界中各種力的作用對服裝變形的驅動,而完全忽略了人眼主觀作用對服裝變形感知逼真性的影響。事實上,受人眼分辨率以及注意度的影響,即使通過高精度建模可以使得布料面上更多的細節被模擬出來,但受視覺精度的限制,現實中的人眼也很難捕獲到如此多的變形細節。
綜上分析,研究人類視覺注意機制,并構建有效的服裝顯著性模型,可在后期用于指導更加有效的服裝運動建模,提高模擬效率。本文通過對著裝人體運動視頻數據進行分析,構造了種類多樣的視頻樣本,包括:真實場景和動畫場景,簡單場景和復雜場景。基于眼動儀采集人眼觀看服裝視頻的注視數據,并采用高斯卷積生成顯著圖。在進行視頻特征提取時,結合了底層圖像特征、高層語義特征以及運動特征,共同構造特征向量和標簽,并通過支持向量機(support vector machine,SVM)訓練得到基于服裝視頻的顯著性預測模型。
通過實驗對比驗證,本文方法的性能在服裝視頻顯著性預測時,優于傳統的顯著性預測算法,具有一定的魯棒性。本文方法的研究思路如圖所示。

圖1 服裝視覺顯著性預測模型研究思路
目前,視覺注意機制[1]在廣告、目標跟蹤、視頻分析、醫學[2]等領域均有重要應用。視覺感知過程主要包括2種研究機制:底層特征驅動的自下向上的感知過程和主觀任務驅使的自上而下的感知過程。前者會受到視覺系統所接受到的場景中色彩、明暗亮度、紋理方向以及對比度等特征[3]的影響。后者與主體的任務、目的、知識等主觀因素息息相關,所以也被稱作任務驅動的視覺感知[4]。ITTI模型[5]是最初的視覺顯著模型,將各通道特征差異圖進行跨尺度的融合,并進行歸一化處理,形成該通道上的特征顯著圖,然后將上述特征顯著圖進行線性融合得到最終的顯著圖。HOU和ZHANG[6]提出了頻譜殘差(spectral residual,SR)模型,通過分析背景是否滿足某種變換來提取背景,其余的是感興趣的區域。GUO等[7]認為圖像的視覺顯著性信息包含在圖像的相位譜中。因此,提出了僅使用傅立葉頻譜的相位譜信息來計算圖像的顯著性的想法,提出了四元數傅里葉變換的相位譜(phase spectrum of quaternion Fourier transform,PQFT)模型。GUO等[8]提出了一種基于運動感知的快速視頻顯著性檢測方法。首先分析光流場來獲得前景先驗,然后將外觀對比、緊密度度量等空間顯著性特征合并到一個多線索集成框架中,最后將不同的顯著性線索組合在一起,實現時間一致性。
近年來,基于Deep Learning的視覺顯著性預測模型構建方法開始大量涌現。LI和 YU[9]通過卷積神經網絡(convolutional neural networks,CNN)來提取圖像特征,并且根據多尺度深度特征(multiscale deep feature,MDF)構建顯著性模型。KüMMERER等[10]以AlexNet[11]框架為基礎,提出了Deep Gaze框架來預測視覺顯著圖。LI等[12]提出了DeepSaliency模型,其是一種將分割任務和顯著性目標檢測任務相結合的多任務網絡模型。ZENG等[13]根據數據集特點提出了一種針對 image-level標注的多源弱監督顯著性預測模型。
已有工作未見針對服裝運動視頻的顯著性預測的研究。本文通過分析著裝人體運動視頻數據,構造了種類多樣的視頻樣本,并利用眼動技術采集真實人眼的注視數據。在進行視頻特征提取時,結合了底層圖像特征、高層語義特征以及運動特征,共同構造特征向量和標簽,并通過SVM訓練得到基于服裝視頻的顯著性預測模型,并用以指導服裝模擬的多精度變化。
2.1.1 實驗樣本
服裝視頻不同于其他數據,具有主體突出、背景相對簡單的特點,實驗人員的注意力更容易被著裝人物所吸引。為了提高預測服裝視頻顯著性的準確性以及魯棒性,本文搜集了種類多樣的服裝視頻數據用以進行數據采集,其中包括真實場景的視頻以及虛擬場景的服裝動畫。數據樣本如圖2所示。
2.1.2 眼動實驗過程
本文采用的是60 Hz遙測式Gazepoint眼動儀。受試者在采集眼動數據前需要進行注視點的校準。而校驗準確性與校驗點持續時間以及校驗點個數密切相關。本文采用9個校驗點,每個校驗點持續1.5 s。校驗完畢后,受試者應保持頭部相對靜止,避免晃動。在此狀態下,穩定地采集觀看服裝視頻的注視點信息。
眼動數據是按照時間序列以文本的形式存儲,首先刪除無效的注視點數據,然后將每個視頻禎的注視點疊加,產生焦點圖。最后根據高斯卷積對疊加后的焦點圖進行卷積操作生成平滑的視覺顯著圖,作為ground truth。視覺顯著圖如圖3所示。其中,一維高斯函數公式為

其中,x為坐標值;σ為x的方差;μ為x的平均值。在實際計算中,以中心點作為坐標原點,因此平均值μ為0,可得

二維高斯函數可由上推導并計算每個點的權重,即


圖2 采集樣本展示

圖3 由焦點圖產生視覺顯著圖
完成注視點的采集之后,需要對眼動數據預處理,即只保留落在服裝區域上的注視點信息。經過高斯卷積生成相應的顯著圖后,采用攝像機模型,將二維顯著圖映射到三維服裝模型上,從而獲得三維服裝模型頂點的顯著值。結果如圖所示。

圖4 二維顯著圖映射到三維服裝模型
3.1.1 亮度特征提取
計算視頻幀圖像的視覺顯著性,亮度特征是不可或缺的。r,g,b分別對應圖像的紅、綠、藍3個顏色通道。為了得到圖像的亮度特征,求3個通道平均,使彩色圖像轉化為灰度圖像,即

然后對圖像高斯濾波以及下采樣得到ITTI模型中的高斯金字塔,分別對應圖像不同尺度的亮度特征圖,計算出相鄰像素點亮度的差異性。在高斯金字塔中,下一層的灰度圖像大小為上一層的一半,總共具有 9個不同尺度的灰度圖像,如圖5所示。

圖5 由高斯金字塔得到的9個不同尺度圖像
得到高斯金字塔的灰度圖像后,根據ITTI模型的“center-surround”算子對金字塔中的灰度圖像跨尺度差值計算,得出2個不同尺度灰度圖像的亮度差異圖。需要注意的是進行差值運算時,需要將低分辨率的灰度圖像上采樣至與之運算的較高分辨率圖像大小,即

其中,Θ 為“center-surround”算子;I(c)為“center”的灰度圖像;I(s)為“surround”的灰度圖像;I(c,s)為差值運算得到的亮度差異圖,根據高斯金字塔將不同尺度的灰度圖采用“center-surround”算子計算多個亮度差異圖;I(σ)為高斯金字塔對應的 9個不同尺度亮度灰度,σ= 0,1,2,…,8 。本文中表示將高斯金字塔中編號為2,3,4尺度下的灰度圖同與其相隔3,4個尺度的灰度圖進行“center-surround”運算。最終計算出的不同尺度下的多個亮度差異圖,代表跨尺度灰度圖之間的差異性。
3.1.2 顏色特征提取
圖像顏色也是能夠影響視覺注意度的重要特征,本文采取紅、綠、藍和黃(R,G,B,Y)4種廣義的顏色通道提取圖像顏色特征,具體計算為

如圖6所示,上方的6個顏色特征圖像分別為R,G,B3個顏色通道值及R,G,B通道的概率值;下方的5個圖像是采用中值濾波器濾波三維顏色直方圖后得到的概率。
3.1.3 方向特征提取
研究表明視覺皮層中某些細胞對特定方向的刺激有較強烈的反應。為了得到不同方向特征圖像,本文使用 Gabor濾波器對亮度信息濾波,二維濾波函數包含一個余弦函數以及一個高斯核函數,即


圖6 顏色特征圖像
3.1.4 紋理特征提取
紋理信息描述了圖像表面紋理特性及與周圍的差異性,是圖像的基本特征。紋理特征在視覺顯著性預測方向被廣泛采用。人眼視覺系統的不同通道之間具有位移不變、線性的特點。可控金字塔算法[14]能夠檢測出圖像的邊緣、奇異點以及紋理等特征,將圖像分解為不同方向和尺度的子帶特征圖,其具有方向可控性與位移不變性的優點,因此可控金字塔算法常用于紋理特征的提取工作。如圖7所示,將圖像在4個方向以及3個尺度上分解為13個子帶特征圖。

圖7 可控金字塔得到的子帶特征
視覺注意機制因為是由自上而下和自底向上2個視覺過程共同驅動的。而且基于任務的自上而下的視覺過程會使人有意識的決定視覺注意區域。因此,高層語義特征是顯著性預測不可或缺的考慮因素。
3.2.1 中心偏向特征
JUDD等[15]通過采集人眼注視點信息,分析論證了人眼在觀察圖像信息時,注視點往往集中在中心區域范圍。將所有的視覺顯著圖融合求平均后,如圖8所示,可以看出越趨近于中心的區域顯著度越高。并且,顯著區域大約集中于圖像25%的區域范圍內。因此,本文采用中心偏向的高層特征,表現越趨向于中心的區域顯著度越高的特點。

圖8 關注點
用歐式距離來衡量圖像各個像素點與中心的距離,即

其中,center_dis為圖像(x,y)坐標處像素點到圖像中心的距離;(center_x,center_y)為圖像中心位置坐標。
3.2.2 人的檢測
通過分析人眼關注點數據,發現視覺系統非常關注有人出現的圖像區域。本文使用RAMANAN等[16]人體目標檢測算法,可以檢測出游人體所在的區域。如圖9所示,紅色方框中所包含的區域是算法檢測到的人體。本文將人體區域的顯著度設置為1,而其余非人體部分顯著度則設置為0。

圖9 人體檢測特征
視頻相較于圖像最大的區別是具有運動特征,運動特征往往更容易吸引關注。光流法、全局運動補償、塊匹配法和幀差法等是目前運動特征提取的主要方法。本文使用光流法獲取視頻禎圖像的運動特征,如圖10所示。

圖10 運動特征
為了構造顯著性預測模型的訓練集以及測試集,首先提取圖像的底層特征、高層語義特征以及根據幀差法提取的運動特征,得到30個特征圖。然后根據眼動實驗采集的注視點數據高斯卷積生成顯著圖,用來確定圖像各像素的顯著度大小。通過隨機選取顯著程度較高區域的N個像素點作為正樣本,顯著程度較低區域的N個像素點作為負樣本,提取樣本特征向量,并設置其對應的正負標簽。
如圖11所示,隨機選取其顯著程度在前30%區域內的 15個像素點作為正樣本,隨機選取顯著程度最低的30%區域內的15個像素點作為負樣本;然后提取樣本點在各個特征圖相應坐標位置的特征構成該點的特征向量,并將正樣本標簽置為+1,負樣本標簽置為-1。

圖11 提取特征向量
本文選用SVM進行模型構建。在設計的訓練樣本空間中尋找一個超平面將顯著的正樣本點和非顯著的負樣本點分隔開,并保證劃分的正確率最高,即

其中,x為訓練樣本點,是一個30維向量;w為x中各個特征值的權重矩陣;wT為w的轉置矩陣。
眼動采集所選取的實驗樣本種類豐富,有助于提高服裝視頻顯著性預測模型的魯棒性。在設計訓練樣本和測試樣本時,本文將每段服裝視頻按照每秒 5幀截取視頻幀圖像。將視頻幀圖像縮放到200×200的大小,減少圖像像素數目,增加計算效率。每段視頻截取連續相同數目的訓練視頻幀圖像和測試視頻幀圖像,并提取底層、高層以及運動特征并設置其標簽,形成模型需要的訓練樣本集和測試樣本集。本文采用的是線性核函數,運算速度快且適用于大規模數據的訓練。訓練完成后,SVM模型將學習到每個特征的權重,權重的大小反應特征對預測結果的影響大小。
為了對本文方法的性能進行驗證,針對不同的視頻背景與著裝人體動畫進行實驗,將本文方法與ITTI,基于圖形的視覺顯著性(graph-based visual saliency,GBVS[17]),PQFT[7]方法進行對比,并應用受試者工作特征曲線(receiver operating characteristic curve,ROC)、曲線下面積(area under curve,AUC)和標準化掃描路徑顯著性(normalized scan-path saliency,NSS)等評價指標進行量化分析。實驗選用的硬件環境為:CPU i5 8600K,8 G內存。
訓練模型時,共選取 11段服裝視頻,并且每段服裝視頻隨機選取連續的150幀圖像作為訓練樣本,20幀圖像作為測試樣本。在每幀圖像的顯著圖中,隨機在顯著度前30%區域選取15個正樣本點,后30%區域隨機選取15個負樣本點。當繼續增加每幀圖像中樣本點的數量時,并沒有提高模型的性能。為了保證評價標準的準確性,在進行實驗方法性能對比時,在每段服裝視頻中隨機選取3段幀序列,每段幀序列包含 10張視頻幀圖像。然后應用ITTI,GBVS,PQFT和本文方法進行顯著性預測,得到AUC和NSS,再對其求平均值。實驗結果如下:AUC,NSS評價指標的對比情況見表1,各模型方法的時間消耗對比見表2,ROC曲線如圖2所示。
由以上實驗數據可知,本文提出的服裝視頻顯著性預測模型相較于傳統的經典模型,在 NSS和AUC評價指標上都優于其他3種方法,ROC曲線中右下角所包圍區域更大,說明本文方法能夠更準確地預測服裝視頻幀圖像各區域的顯著性。雖然本文方法在預測圖像顯著度的時間消耗上略高于傳統方法,但運算速度依然比較快并低于1 s,并不會對模型性能產生較大影響。各模型預測結果如圖13所示。

表1 各模型性能對比

表2 各模型時間消耗對比

圖12 各模型ROC曲線對比

圖13 各模型算法結果圖
服裝模型顯著性可用于指導構建多精度服裝模型,即對于服裝模型的高顯著性區域進行高精度建模,低顯著性區域則采用粗化操作來降低模型精度,使得服裝模擬的效果和效率達到平衡(圖14)。

圖14 服裝多精度模型
本文對著裝人體運動視頻數據進行分析,構造了種類多樣的視頻樣本,并利用眼動技術采集真實人眼的注視數據。在進行視頻特征提取時,結合了底層圖像特征、高層語義特征以及運動特征,共同構造特征向量和標簽,在此基礎上,通過訓練得到SVM 的服裝視頻的顯著性預測模型,可用于指導服裝模型的多精度建模。由于本文方法面向服裝動畫任務提取的特征更為全面,并且根據真實眼動數據生成顯著圖指導模型訓練,因此,與ITTI,GBVS,PQFT方法相比,有更好的顯著性預測效果。
本文主要針對服裝顯著性模型進行樣本選取,但底層特征、高層特征以及運動特征等圖像特征中具有一定的通用性,因此可以啟發其他視覺領域的應用,也可以將本文獲取的樣本數據推廣用于其他的深度網絡模型來進行顯著性預測,但是否可以得到良好的訓練結果,也取決于選定的網絡結構以及對樣本的需求量等。此外,由于本文將實驗樣本數據集限定在單人服裝視頻數據,因此會導致模型對多人場景下的顯著性預測任務泛化能力有限。下一步將研究深度網絡預測服裝顯著性問題,針對此研究,將加大樣本數據采集以及多樣化場景的樣本選取,也包括多人著裝動畫場景的構建等。