基于多模態字典學習的微視頻場所類別識別

2017-07-05 12:59:40張江龍黃祥林

中國傳媒大學學報(自然科學版) 2017年4期

關鍵詞：模態特征方法

張江龍，黃祥林

(中國傳媒大學理工學部，北京 100024)

基于多模態字典學習的微視頻場所類別識別

張江龍，黃祥林

(中國傳媒大學理工學部，北京 100024)

微視頻的迅猛增長為對微視頻的有效管理及利用帶來新的挑戰，本文對微視頻的場所識別進行研究。場所信息可帶來一些潛在的多媒體應用如：地標/場所檢索、地理位置摘要生成、城市計算和基于地理位置服務。但是由于微視頻的音頻部分表達能力不強，這大大地影響到微視頻場所信息的表達。為此，本文提出了一個基于多模態字典學習算法。該算法能借助外部音頻信息來增強微視頻音頻部分的表達。大量的實驗證明了該算法的有效性。

微視頻；場所類別；多模態；字典學習

1 引言

傳統視頻分享網站的流行，大大地改變了互聯網。這些視頻分享網站允許用戶錄制高質量、長時長的視頻，并分享給其他用戶。但是自從2012年底，用戶挖掘視頻的方式發生了巨大的改變：微視頻在不同的社交網絡上快速增長。國內也出現了錄制微視頻的應用，比如秒拍；在2016年底，中國最流行的社交網絡微信也推出了一個限制拍攝時長為10秒的微視頻拍攝功能。

微視頻除了具有簡潔性、真實性和成本低等優點，社交網絡鼓勵用戶在上傳微視頻的同時也簽到其地理位置信息。智能手機或移動設備的GPS能夠智能地列出其所在位置可能的位置選擇，比如在一棟大樓中一層餐廳，還是二層的辦公室，用戶手動選擇的這些場所位置。Foursquare等地理位置提供商自動把這個地理位置映射到場所類別。識別用戶及其上傳多媒體的地理位置信息有潛在應用及意義，如地標/場所檢索、地理位置摘要生成、城市計算和基于地理位置服務。

微視頻包含三個模態：視覺、聽覺和文本模態，每個模態的表達能力差別很大，例如聽覺模態遠遠不如視覺模態，這會造成模態表達的“木桶效應”。本文針對這問題，提出一種基于多模態字典學習的微視頻場所類別識別框架。該框架包含兩部分內容：外部音頻數據庫的建立和音頻增強多模態字典學習的算法(acouStic enhAnced multI-modaL dictiOnary leaRning，SAILOR)。具體地，首先定義了幾百個和生活有緊密關聯的聲學概念(acoustic concepts)，并假設這些聲學概念在微視頻的音頻中也存在的。接著通過這些聲學概念到互聯網去爬取相應的音頻素材，并作為本文的外部音頻資源庫。在第二部分，本文通過多模態字典學習模型框架把外部音頻模態和微視頻的音頻模態無縫地融合起來。這是通過假設它們之間共享一個空間的字典聯系起來的。最后通過這個模型去判斷未知場所的微視頻類別。

接下來的章節安排：首先介紹現有的多模態字典學習及音頻概念檢測等相關工作；第三節詳細描述增強多模態字典學習(SAILOR)算法；第四節給出實驗的結果及分析，最后總結全文。

2 文獻綜述

2.1 字典學習

一般地，把字典學習分為：無監督字典學習和有監督字典學習。無監督字典學習的主要思想：在大量無標簽的數據中學習得到的字典能夠盡可能重構原始信號。1993年，Mallat[1]提出了基于小波分析提出了信號可以用一個超完備字典(Over-complete Dictionary)進行表示，并引進了匹配追蹤算法(Matching Pursuit，MP)，從而開啟了超完備字典的稀疏表達的先河。Olshausen 和 Field[2]顯示了自然圖片和哺乳動物大腦的視覺感知皮層的關系。同時提出了一個不同的稀疏表達模型，該模型可以從訓練數據自適應地學習超完備字典，并使用最優方向算法(Method of Optional Directions，MOD)分別對字典和稀疏表達進行交替更新。其不僅能夠限制了模型的稀疏性，同時對字典進行L2范式限制，以防止字典元素過于大而引起過擬合。然而當訓練數據比較大的時候，MOD的訓練時長比較長。因此為了處理大量數據的訓練，Elad等[3]提出一個快速的字典學習方法K奇異值分解方法(K-Singular Value Decomposition，K-SVD)。K-SVD使用奇異值分解的方法依次對字典的單個原子(atom)進行更新。在每輪迭代中，只有被使用的到原子才會更新，這樣大大減少了運算量。Mairal等[4]提出一個在線的算法來學習字典，來進一步提高學習效率。無監督字典學習在不少學習領域雖然取得很大的成果，但是其只注重信號的重構能力(reconstruction ability)，因此不少學者在此基礎上對在任務分類能力(dicriminative capability)進行了不少的研究。該類的研究主要利用任務數據的標簽來增加字典學習模型的判別能力，因此也稱有監督字典學習。Mairal等[5]對于每個分類類別學習一個字典，這種基于類別的字典(task-specific dictionary)能夠增強字典的判別能力。Wang等[6]先從訓練數據中學習出來的字典及其表達，接著把其表達放入到分類器中去進行訓練。但是，其把字典學習和分類器的訓練分開學習而成，這種方式不能同時優化字典學習和分類損失。為此，Mairal等[7]提出一個任務驅動字典學習(task-driven dictionary learning)方法，把分類的損失函數加入到字典學習中，來一起訓練字典和分類模型的系數。Zhu等[8]更進一步考慮把領域知識的適用性(domain adaptability)加入到有監督字典學習，進一步提高分類器的判別性。

目前大多的字典學習是單模態的，即其訓練數據只包含單模態。在Zheng等[9]工作中，一個共有的字典(common dictionary)和幾個特殊視角的字典(view-specific dictionary)同時被學習出來，并應用于多視角運動識別。這些特殊視角的字典是用于表達不多視角的特征，而共有字典則是表達不多視角的共同特征。這種方法屬于任務驅動字典學習，但是其不能用在異構多模態的字典融合。Monaci等[10]提出一種多模態字典學習模型(Multi-modal Dictionary Learning，MDL)來提取多模態特征的經典模板。該模板可以捕捉動態瞬時多模態信息，并可以用在同時恢復多模態信息。Zhuang等[11]學習多模態字典，并使用單個模態去檢索多模態信息。但是這種方法并沒有利用模態之間的關系去做特征融合。Bahrampour等[12]提出一個多模態任務驅動字典學習(Multimodal Task-Driven Dictionary Learning，MTDL)，即可以融合異構多模態特征，又考慮了分類模型的判別性。本文提出的算法也屬于有監督多模態字典學習，但是同上述算法不同的是，本算法使用外部資源來增強字典的表達能力，從而提高模型的表達和判別能力。

2.2 音頻概念檢測

對用戶生成視頻的音頻概念檢測是一個相對較新的領域[13]。從音頻概念模型角度考慮，其可以分為基于數據驅動(data-driven)[14]和任務驅動(task-driven)[15]兩種方法。對于視頻的音頻概念檢測的主要動力是：音頻能夠為特定事件提供補充信息，特別是當有些圖片或視覺信息很難捕捉的到信息。最近幾項研究[14，15]，表明了檢測音頻事件比單純使用基于特征學習方法更加能夠填補底層特征語義與高層語義之間的關系。本文也是基于這個考慮，使用音頻概念檢測來為最終的微視頻的內容分析做準備。

3 多模態字典學習算法

微視頻本身就是多模態的(視覺和聽覺模態)，每個模態都帶有互補信息，它們之間的融合可以包含各自模態所不能表達的信息。基于這個考慮，微視頻的場所識別問題是多模態的問題。本小節包含以下兩個部分：1)介紹傳統MDL的不足；2)總結增強多模態字典學習(SAILOR)的介紹。

MTL，其可以通過以下公式的優化獲得字典和稀疏表達：

(1)

(2)

(3)

其中δm是個半徑參數，在此簡單地等價于所在第m個模態樣本特征空間歐式距離的中值。公式(2)的最后一項表示樣本表達的順暢性，但是這一項直接求解比較困難，為了簡化優化目標，可以進一步把其寫成

(4)

(5)

一般可以通過梯度下降方法去對公式(5)求解。

4 實驗及結果分析

本實驗的數據庫，包含了276，264個微視頻，442個場所類別。使用兩種測度來評估結果：宏F1(Macro-F1)和微F1(Micro-F1)。

4.1 音頻模態表達

為了理解音頻模態特征的代表性，本文首先學習不同音頻特征表達的效果。本文分別抽取了短時頻譜能量(spectrum)、梅爾倒譜系數(MFCC)和堆疊去噪自解碼(SDA)，其維度分別513、39和200維。其中spectrum和MFCC的窗大小為46ms加上50%的重復率，兩種池化方式：最大值池化和平均值池化分別應用在每個音頻的所有窗函數中。而SDA則是通過spectrum的平均池化的結果去訓練。由于外部數據是帶有標簽的，每個音頻代表一個音頻概念，因此可以使用帶標簽的數據來了解特征的代表性。本實驗報告10折交叉驗證的均值和方差來驗證不同特征的代表性，測量尺度為Micro-F1和Macro-F1，其結果如表1所示。從表1可以觀察到：1)對于spectrum特征，平均值池化得到Micro-F1和Macro-F1效果，都比最大值池化的效果好。2)而對于MFCC的結論和spectrum卻是相反的。這可能是由于MFCC包含語義比spectrum高，因此最大值池化的效果會好。3)MFCC最大值池化的效果比spectrum平均值池化效果好。4)SDA無論在Micro-F1還是在Macro-F1的效果都比其他好不少。本文對SDA和其他方法做學生測試(t-test)，發現其p-value的值都遠小于0.05，這說明了SDA的代表性比其他特征表達方法顯著。因此接下來的音頻特征表達使用的是SDA。

表1 不同音頻特征的表達性

4.2 模型比較

本文把SAILOR與以下幾個基準算法進行比較：

1)晚期融合(late fusion)：該方法把每個模態特征單獨訓練softmax模型，最終把模型綜合起來決定最終結果。

2)任務驅動字典學習(task-driven dictionary learning，D3L)：該方法是字典學習的有監督版本，其可以利用標簽信息來增強模型的判別性。本文分別對各個模態進行任務驅動字典學習，最終利用晚期融合算法來判別最終結果。

3)多模態字典學習(Multimodal Dictionary Learning，MDL)：該方法利用了模態之間的聯合稀疏表達來增強字典的表達能力，其屬于特征前期融合領域。最終學習出來的稀疏表達，再通過softmax分類器進行訓練。

4)多模態任務驅動字典學習(Multimodal Task-driven Dictionary Learning，MTDL)，該方法不僅在多模態特征層學習共同稀疏表達，而且在決策層使用判決分數來共同決定結果。

5)SAILOR-e：這是SAIOLR版本的縮減版本，其不借助外部音頻資源，即不考慮公式(2)的第二項。

6)SAILOR-rs：這是SAIOLR版本的縮減版本，其不考慮特征表達的順暢性，即不考慮公式(2)的最后一項，把λ2設置為0。

7)SAILOR-sc：這是SAIOLR版本的縮減版本，其不考慮特征表達的稀疏性，即不考慮公式(2)的第三項，把λ1設置為0。

不同模型比較結果顯示在表2中，其列分別表示模型方法，Micro-F1，Macro-F1和p-value。由表2可以觀察到：1)所有的字典學習方法在Micro-F1測度上都比晚期融合算法好，這說明了稀疏表達的有效性。2)MDL表現比D3L要好，這說明了聯合稀疏表達能夠增強字典之間的表達能力。3)TMDL比MDL略好，說明了任務驅動字典學習可以增強單純使用多模態字典學習模型的判別性。4)SAILOR比其他模型都好，包括TMDL，這更加確定了微視頻聽覺模態表達的不足，需要借助外部資源來增強模型表達。5)SAILOR比其他SAILOR縮減版本算法要好，這同時說明了借助外部音頻資源，模型表達的順暢性和稀疏表達的必要性。

表2 不同模型性能的比較

5 總結

首先介紹了字典及音頻概念檢測的相關工作。接著分析傳統的MDL的兩個不足，引出本文提出的算法SAILOR，該方法基于兩個重要的假設，從這兩個假設出發，詳細介紹了SAILOR的建模。最后通過音頻模態的表達和模型比較的實驗來驗證了SAILOR的有效性。

[1]Daubechies I.The wavelet transform，time-frequency localization and signal analysis[J].IEEE Transactions on Information Theory(TIT)，36(5)：961-1005，1990.

[2]Olshausen，Bruno A，David J Field.Sparse coding with an overcomplete basis set：A strategy employed by V1[J].Vision research，37(23)：3311-3325，1997.

[3]Aharon，Michal，Michael Elad，Alfred Bruckstein.K-SVD：An algorithm for designing overcomplete dictionaries for sparse representation[J].IEEE Transactions on Signal Processing(TSP)，54(11)：4311-4322，2006.

[4]Mairal J，Bach F，Ponce J，Sapiro G.Online dictionary learning for sparse coding[J].International Conference on Machine Learning(ICML)，689-696，2009.

[5]Mairal J，Bach F，PonceJ.Task-driven dictionary learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)，34(4)：791-804，2012.

[6]Wang S，Zhang L，Liang Y，Pan Q.Semi-coupled dictionary learning with applications to image super-resolution and photo-sketch synthesis[J].IEEE conference on Computer Vision and Pattern Recognition(CVPR)，2216-2223，2012.

[7]Mairal，Julien，Jean Ponce，Guillermo Sapiro，Andrew Zisserman，Francis R Bach.Supervised dictionary learning[J].Advances in Neural Information Processing Systems(NIPS)，1033-1040，2009.

[8]Zhu F，Shao L.Weakly-supervised cross-domain dictionary learning for visual recognition[J].International Journal of Computer Vision(IJCV)，109(1-2)：42-59，2014.

[9]J Zheng，Z Jiang.Learning view-invariant sparse representations for cross-view action recognition[J].IEEE International Conference on Computer Vision(ICCV)，3176-3183，2013.

[10]G Monaci，P Jost，P Vandergheynst，B Mailh’e，S Lesage，R Gribonval.Learning multimodal dictionaries[J].IEEE Transaction Image Processing(TIP)，16(9)：2272-2283，2007.

[11]Y Zhuang，Y Wang，F Wu，Y Zhang，W Lu.Supervised coupled dictionary learning with group structures for multi-modal retrieval[J].Association for the Advancement of Artificial Intelligence(AAAI)，1070-1076，2013.

[12]Bahrampour，Soheil.Multimodal task-driven dictionary learning for image classification[J].IEEE Transactions on Image Processing(TIP)，25(1)：24-38，2016.

[13]Ravanelli M，Elizalde B，Ni K，Friedland G.Audio concept classification with hierarchical deep neural networks[J].IEEE European Signal Processing Conference(EUSIPCO)，606-610，2014.

[14]Pancoast，Stephanie Lynne，Murat Akbacak，Michelle Hewlett Sanchez.Supervised acoustic concept extraction for multimedia event detection[J].ACM international workshop on Audio and Multimedia methods for large-scale video analysis，9-14，2012.

[15]Castan D，Akbacak M.Segmental-GMM Approach based on Acoustic Concept Segmentation[J].International Speech Communication Association(INTERSPEECH)，15-19，2013.

(責任編輯：宋金寶)

Multi-modal Dictionary Learning towards Venue Category Estimation from Micro-videos

ZHANG Jiang-long，HUANG Xiang-lin

(Faculty of Science and Technology，Communication University of China，Beijing 100024，China)

The rapid development of micro-videos poses great challenges for multimedia management and retrieval.To alleviate this problem，we focus on venue category estimation from micro-video.The spatial information embedded in micro-video benefits multifaceted application，such as location/venue retrieval，landmark summarization，city computing，and location-based services.However，we find that the audio tracks embedded in micro-videos are less representation among three modalities，which greatly hinder the venue expression of micro-videos.Towards this end，we proposed a novel multi-modal dictionary learning approach.This approach is capable of borrowing external audio source to enhance the micro-videos.Extensive experiments conducted on a real-world data set have demonstrated the effective of our proposed model.

micro-videos；venue category；multi-modal；dictionary learning

2017-03-28

張江龍(1987-)，男(漢族)，福建泉州人，中國傳媒大學博士研究生.E-mail：zhangjianglong135@126.com

1673-4793(2017)04-0034-06