圖像視覺屬性應用研究綜述

2017-11-29 12:05:35寧建紅

大陸橋視野·下 2017年12期

關鍵詞：應用

寧建紅

【摘要】視覺屬性作為圖像表示的中間層，具有人類可理解的語義特征，同時比圖像底層特征存儲方便，簡潔高效，能夠實現跨類識別。本文介紹了屬性的定義及分類，討論了屬性預測方法，并對圖像視覺屬性應用的領域進行了探討，分析了在各個應用中的優勢及不足。最后對視覺屬性的發展前景進行了展望。

【關鍵詞】視覺屬性；屬性分類；屬性預測；應用

1.引言

圖像可以用屬性進行語義描述，屬性可以表示圖像中對象是否存在，它可以描述對象的顏色、形狀、材質、部件、類別及功能，也可以表示場景的類別以及上下文信息等。如斑馬是黑白相間、有條紋的動物，這里使用了顏色、紋理屬性，飛機可以用有機翼、輪子、發動機等部件屬性進行描述，也可以用是金屬的、能夠飛行的材質屬性和功能屬性進行描述。近年來，屬性被廣泛地應用于計算機視覺問題研究，如對象識別[1-3]、人臉識別[4]、場景識別[5]、視頻中的行為識別[6]、服裝的風格識別[7-8]、細粒度圖像識別等問題。屬性已經成為搭建圖像底層特征到高層語義的橋梁，并且展示了自己獨特功能。

2.屬性定義及分類

2.1二值視覺屬性

視覺屬性的值可以是離散的，或者連續的。大部分研究者為了使用屬性進行分類，把屬性的值定義為存在或不存在兩種選擇，稱之為二值視覺屬性，即每個屬性的取值范圍只有1或者0。如Farhadi[1]用二值屬性描述動物山羊，有角、有四條腿、有頭、有毛，用二值屬性描述對象的構成、形狀、材質等信息，建了APascal-aYahoo dataset，收集了15339幅圖像，32個類別，64個二值屬性，Lampert建立了Animal with Attribute dataset，收集了30000幅動物圖像，50個類別，85個二值屬性。Patterson and Hay建立了The Sun Attribute dataset，包含了14340幅圖像，717類別，102個二值屬性。

2.2相對視覺屬性

從人類的認知角度出發，認識和理解事物有時并不能從存在或不存在的角度去區分，有時需要運用比較的方法去區分。Parikh和Grauman最先提出了相對視覺屬性，相對視覺屬性是指和其他圖像相比，圖像中某個屬性的強度或優勢。如一幅圖像開始不能確定人是否有微笑這個屬性。和不同的圖像比較，比A圖像微笑程度弱，比B圖像微笑程度強。如果只用二值屬性來表示，就無法表示。因為這個屬性表示一種程度。相對屬性將屬性的取值范圍擴大，從（0，1）變成（?∞，+∞）。相對屬性的重要作用在于對樣本中同一屬性的屬性值相對關系進行比較，確定排序關系。Parikh和Grauman提出通過對每個屬性學習排序函數的方法，給每對樣本給出相對相似性約束。但是對于不同的屬性，不同的屬性值，不具備可比性。

3.屬性預測

屬性作為圖像的中間層表示，在計算機視覺的各個領域中發揮了非常重要的作用。因此提取圖像底層特征構建屬性分類器，進行屬性預測是一個必不可少的環節。Lampert提出了直接屬性預測模型DAP（Direct attribute prediction）和間接屬性預測模型IAP（Indict attribute prediction）。DAP模型建立了固定的類別-屬性關系，通過樣本與類別間的訓練，蘊含了對屬性值的訓練，從而取得了相關分類器參數。在測試階段，測試樣本的屬性值可直接獲取，從而可以推知樣本所屬的類別，這個類別也可以是一種訓練階段未見樣本的類別。IAP模型通過訓練樣本獲得每類的概率，其次獲得這些類別與屬性間的依賴關系。Wang[3]提出了條件隨機場模型的屬性預測方法，Yu[14]提出了概率主題模型，Scheirer將屬性分類器輸出轉化成基于極值理論的可能性估計問題。Parikh and Grauman進行了相對屬性預測。

4.視覺屬性應用

4.1對象識別

2009年，Farhadi[1]提出用屬性來描述對象，屬性可以是對象的組成部分，可以是形狀，也可以是材質，并且指明屬性具有區別對象類的作用，使用了1000個具有類區分能力的屬性。提取圖像底層特征用線性SVM分類器對屬性分類器進行訓練學習，再通過圖像的屬性中間層表示進行圖像分類，對象的屬性表示不僅能夠識別對象類，而且還可以形成新的對象類。同年，Lampert也提出用屬性表示對象，研究了訓練類和測試類不相交的情況下，用屬性表示圖像，缺少訓練集圖像的情況下，依然能夠識別新的對象類。并提出了DAP和IAP兩個屬性預測模型。不同的類別間可以共享屬性，屬性的特殊性使得它在轉換學習或零命中學習領域得到了比較廣泛的應用。

4.2人臉識別

Kumar et al.[4]使用了兩種分類器：屬性分類器和Simile分類器。用年齡、性別、頭發顏色等視覺屬性表示人臉，采用人工標注的人臉圖像學習分類器構建屬性模型，然后用屬性分類器輸出的屬性值構建人臉表示。Simile分類器采用某個具體的人臉區域作為正例定義屬性，屬性值代表了其它人臉的對應區域與它的相似程度。提出的這兩種分類器加速了自然條件下人臉識別的性能，在LFW （Labeled Faces in the Wild）數據集上取得了較好的識別效果。

4.3場景識別

場景識別的目標是使計算機能夠從人類的認知角度來理解圖像的場景語義信息，有效辨別圖像場景類內差異性和場景類間相似性。Vogel and Schiele[5]對本地圖像區域進行語義屬性描述，如一幅圖像可以描述成水、巖石、植物等。圖像可以用這些區域語義屬性出現的概率來表示，并把它運用到圖像的場景分類和檢索中。

4.4行為識別

Liu J G et al.[6]用屬性來描述人類的各種動作，首先人為設定動作的一些屬性，作為潛在變量，同時從數據中學習一些數據驅動屬性，用信息論的方法從訓練集推導出這些屬性。建立了潛在SVM模型，潛在變量表示每一個行為類的每一個屬性的重要程度，這些數據驅動屬性擴展了人為設定屬性的范圍，提高了動作識別的精確性。endprint

5.結束語

在互聯網大數據時代，在對存儲和計算要求較高的情況下，如大規模的圖像檢索和移動平臺上的圖像檢索，基于視覺屬性的中層圖像表示往往比基于視覺底層特征的圖像表示更簡潔高效。視覺屬性表達了人類可理解的語義特征，有助于將以往學習到的屬性知識遷移到新的對象或類別上，從而減少對訓練數據的需求。同時視覺屬性有利于人機進行交互。目前，視覺屬性已經應用于計算機視覺的各個領域，并且會在更多的領域得到廣泛的應用。

參考文獻：

[1]Farhadi A，Endres I，Hoiem D，et al. Describing objects by their attributes[C].Computer Vision and Pattern Recognition，IEEE Conference on 20091778 -1785.

[2]Felix X.Yu， Liangliang Cao， Rogerio S. Feris， John R. Smith， Shih-Fu Chang. Designing Category-Level Attributes for Discriminative Visual Recognition[C].IEEE Conference on Computer Vision and Pattern Recognition，2013，771-778.

[3]Wang Y，Mori G.A discriminative latent model of object classes and attributes[C] . Computer Vision–ECCV 2010，Lecture Notes in Computer Science Volume 6315，2010，155-168.

[4]Kumar N，Berg A C， Belhumeur P N et al. Attribute and simile classifiers for face verification[C]. Proceedings of the IEEE International Conference on Computer Vision.2009：365 -372.

[5]Julia Vogel，Bernt Schiele.Semantic Modeling of Natural Scenes for Content-Based Image Retrieval[J].International Journal of Computer Vision，2007，72（2）：133–157.

[6]Jingen Liu，B.Kuipers，S. Savarese. Recognizing human actions by attributes[C]. IEEE Conference on Computer Vision and Pattern Recognition，2011，3337-3344.

[7]Lukas Bossard，Matthias Dantone et al. Apparel Classification with Style[C]. Computer Vision–ACCV 2012，Lecture Notes in Computer Science Volume 7727， 2013， 321-335.

[8]M.Hadi Kiapour， Kota Yamaguchi. Hipster Wars： Discovering Elements of Fashion Styles[C].Computer Vision–ECCV 2014，Lecture Notes in Computer Science Volume 8689，2014，472-488.endprint