井佩光,李亞鑫,蘇育挺
(天津大學 電氣自動化與信息工程學院,天津 300072)
隨著近年來移動互聯網快速發展,加之智能手機的普及,短視頻成為一種極具代表性的新興數字媒體形式。作為用戶生成內容(User Generated Contents,UGCs)[1]之一,即用戶可以在各大網絡平臺自由上傳和分享自己的視頻內容,短視頻具有內容豐富、輕量化、時間短等特點,這也進一步促使短視頻快速傳播。數據顯示,中國短視頻用戶規模已突破8億,針對豐富的短視頻數據開展相關研究很有必要。
目前,針對短視頻的研究主要集中在以下幾個方向。短視頻場景分類:LIU等[2]抓住短視頻時短的特點,提出一個聯合建模稀疏性和多序列結構的端到端模型,以此來捕獲視頻幀之間的時序結構和短視頻的稀疏表示。短視頻流行度預測:JING等[3]提出一種基于低秩多視角嵌入的直推式學習方法,尋求一組具有低秩約束的特定視圖的投影矩陣,以將多視圖特征映射到公共子空間中,此外,構建圖正則化項以提高泛化能力并進一步防止過擬合問題。短視頻用戶推薦:CHEN等[4]提出了一種融合用戶多種興趣特征表示的深度神經網絡模型,采用對用戶信息、條目信息、歷史信息和鄰居信息4種用戶興趣表示進行融合。針對短視頻作為多媒體內容往往存在多個標注信息,筆者致力于解決短視頻多標簽分類問題。
傳統的監督學習是從樣本空間學習X到標簽空間Y的映射關系,即W:X→Y,此時的Y多為一個標簽,具有唯一的語義信息。不同于此,現實中各個標簽會存在共現屬性,例如“唱歌”和“彈吉他”往往會同時出現在同一樣本里,標簽之間具有很強的語義關聯性,所以其任務就變成了要學習從樣本空間到具有多語義信息的標簽空間的映射關系,此關系為一對多。現有的多標簽學習有以下方法:將多標簽分類問題轉換為二元分類或者多分類問題,以便利用在傳統監督學習上取得良好效果的分類算法;利用低秩表征來獲得公共的低秩表示,JIA等[5]提出一種利用低秩結構來穩定獲取標簽之間局部關聯性的學習模型;利用深度網絡來進行相關性學習,CHEN等[6]提出一種基于圖的語義關聯正則化方法,用來增強表示學習的能力,其主要用于探索個人屬性方面的相互關聯,以此來進行UGCs的隱私檢測。受此啟發,筆者利用圖網絡在學習拓撲結構方面的優勢,將其應用于多標簽分類問題,以每個標簽類別作為節點,挖掘標簽關聯性,學習一組相互依賴的目標分類器。
多模態特征融合目的是充分利用多個視角下信息[7]。在短視頻分類任務中,除在圖像分類中常用到的視覺信息外,還有音頻、文本、軌跡等特征,這些視角下特征具有異構性,但是彼此之間又存在關聯,即模態間一致性,同時,各種信息又相互補充,即模態間互補性,如何兼顧兩者獲得最佳特征表征是多模態學習的關鍵。早期多模態融合往往采用特征拼接的方式,例如將視覺特征和音頻特征直接串聯融合,這種方法沒有考慮各個模態間的一致性,造成信息冗余和特征復雜化。之后具有代表性的融合方法是子空間學習,其基本思想是存在一個各個模態共享的子空間,以此來獲取共享信息,代表性方法是典型相關分析(Canonical Correlation Analysis,CCA)[8],通過使兩個視圖在公共子空間上相關性最大來獲得兩個模態間最相關的成分,并將其作為兩者的公共特征。除此之外,利用深度網絡進行特征融合也逐漸興起。黨吉圣等[9]通過構建注意力融合層學習全局單點特征和局部幾何特征的隱含關系,挖掘表征模型類別的幾何特征;ZHANG等[10]考慮模態缺失,整合跨模態子空間學習和無參分類器進行分類任務;張麗娟等[11]通過一個域分離網絡將視覺模態信息和音頻模態信息劃分為公有域部分和私有域部分,以期對兩種信息進行分離;張志昌等[12]采用注意力機制將局部信息與全局結構信息進行向量融合,使局部和全局信息優勢互補,增強特征的豐富性。
針對目前研究有限的短視頻分類任務,筆者提出了一種基于多模態子空間編碼的短視頻多標簽分類方法,主要貢獻如下:
(1) 筆者提出了一個新穎的多標簽分類框架,針對短視頻的數據特點,該框架將樣本空間多模態信息融合和標簽空間相關性建模進行融合統一,充分利用樣本特征信息和標簽的關聯語義信息,獲得更準確的分類結果;
(2) 針對多模態信息,引入子空間編碼學習,搭建公共潛在表示到多模態特征信息的編碼網絡,兼顧各模態下一致性和互補性信息,獲取完備本征的公共表示;針對多標簽信息,采用圖卷積網絡學習相互關聯耦合的標簽語義表示,指導短視頻的多標簽分類;
(3)采用交替學習的優化策略對模型進行求解,在公開的多標簽數據集上進行實驗,與其他算法進行比較,提高了多標簽分類的準確度,驗證了筆者所提模型的有效性。
對于視頻這種多媒體信息,傳感器的差異或視角的不同會提取出多個模態下的信息。這些信息彼此關聯,造成同一樣本不同模態特征存在冗余,不同模態下又存在其他模態缺少的信息,互相補充;同時標簽之間具有強語義關聯,不同標簽可能出現在同一個短視頻中,表現為標簽共現。由于子空間學習在挖掘特征共性上的優勢,筆者將其發展到多標簽學習任務當中,同時為了構建標簽間的語義關聯,提出了一種基于多模態子空間編碼的短視頻多標簽分類模型。該模型將特征表征和標簽語義建模統一到一個框架,可以同時兼顧樣本空間和標簽空間,進而提高了最終分類結果的準確性。筆者提出的模型如圖1所示,實線和虛線箭頭分別表示訓練和測試過程。對于給定的短視頻,對其從3個模態(視覺、音頻、軌跡)提取對應特征。在訓練階段,構建3個模態下子空間編碼網絡和標簽空間下圖卷積網絡,以樣本空間的重構損失和標簽空間的分類損失作為約束損失函數,訓練整體網絡,獲得多模態重構映射和標簽語義表示;在測試階段,以重構損失作為約束,獲得測試樣本的潛在子空間表示,融合標簽語義表示,得到測試集分類結果。
給定一組帶有標簽的短視頻數據集X={X(1),X(2),…,X(V)},其中V是視角的個數,X(v)∈RDv×N是在第v個視角下的特征矩陣,Dv是在第v個視角下的特征維度,N是短視頻樣本數量;同時給定標簽矩陣Y={Yij}∈{0,1}N×C,其中C為標簽的個數,如果第i個短視頻攜帶第j個標簽,則相應的Yij=1,反之,Yij=0。筆者所提算法是充分利用多個模態特征的一致性和互補性,將多視角子空間學習和標簽語義信息學習整合為一個統一框架,用于下游的多標簽分類任務,提高了分類性能。
1.1.1 多模態子空間編碼
子空間學習假設存在一個公共子空間,可以刻畫出不同視角下的特征,其目的是充分利用各個視角的信息。假設存在一個共享公共表示H,其可以通過一組映射重構出各個樣本在每個視角下特征,即X(v)=fv(H)。其中,對任意視角v,構造屬于其所對應的重構映射fv(·)。分別對3個模態采用多層感知神經網絡構建對樣本特征的重構映射。對于同一樣本,不同模態共享同一完備公共表示H,以其編碼多個模態下的樣本特征X(v)。
假設在給定公共表示的情況下,各個視角條件獨立,對于多視角子空間學習的關鍵就是對不同的可用視角進行有效的信息編碼:
p(X|H)=p(X(1)|H)p(X(2)|H)…p(X(V)|H) 。
(1)
在給定樣本X的情況下,對公共表示H進行似然建模:
(2)

(3)

(4)
1.1.2 多標簽語義關聯學習
圖卷積網絡(Graph Convolutional Network,GCN)[13]由許多節點和邊組成,常用于半監督學習任務,其本質是通過節點間信息的傳遞更新節點的向量表示,往往應用在非歐幾里得空間的數據上。標簽之間存在復雜的耦合關聯,因此,采用圖方法來建模標簽間的相互依賴,以此捕捉標簽空間的拓撲結構。對于圖卷積網絡中的第l層,其標簽描述矩陣為H(l)∈Rd×C,對應的相關矩陣A∈RC×C,其中C為節點的個數,d表示節點特征的維度。筆者將每個標簽的詞嵌入向量作為節點表示,然后用圖卷積網絡進行更新,得到下一層的節點表示。每層的網絡更新規則如下:
(5)
(6)
(7)
綜合上述的重構損失和多標簽分類損失,可得整體目標函數:
(8)
其目標函數將多視角子空間學習和多標簽語義學習集成到統一的框架下,兩部分在更新迭代過程中互相影響,彼此約束,保證了模型更新過程的整體性。
由于整體目標函數的非凸特性,筆者采用交替學習的策略更新網絡參數和公共表示。在每次更新時,依次固定網絡中的其他參數,利用反向傳播(Back Propagation,BP)[14]算法對一個參數進行學習,直至達到收斂。在這個過程中,采用隨機梯度下降(Stochastic Gradient Descent,SGD)[15]去進行迭代更新。具體參數更新過程如下:
① 固定Θh和Wg,求以下梯度進行H的更新:

(9)
其中,?(v)是U(v)關于H的梯度。由式(4)可得
(10)
② 固定H和Wg,求以下梯度進行Θh的更新:
(11)
③ 固定H和Θh,求以下梯度進行Wg的更新:
(12)
中文的實驗在大樣本短視頻多標簽數據集MTSVRC上進行,數據集在AI Challenger 2018挑戰賽中由美圖公司公開發布,數據集樣例如圖2所示。
該數據集中總計含有約20萬個短視頻數據,視頻時長集中在5~15 s,短視頻信息均具有多個模態的表征,例如視覺、音頻、軌跡等。短視頻的標簽總計有63個常見類別,標注主要從視頻主體、場景、動作以及人物屬性多個維度展開,每個短視頻標注1~3個標簽。表1統計了攜帶不同數目標簽的短視頻數量。

表1 攜帶不同數目標簽的短視頻數量
針對短視頻數據集以上特點,對數據集進行預處理,提取出所需樣本特征和標簽特征。根據短視頻集中視覺畫面,將每條短視頻按時間提取15幀關鍵幀,對其用視覺幾何組(Visual Geometry Group,VGG)[16]提取特征,再經過平均池化形成2 048維視覺特征;每個樣本幾乎都包含聲音,筆者采用梅爾頻率倒譜系數 (Mel Frequency Cepstral Coefficients,MFCC)[17]提取出維度為2 048的音頻特征;考慮到標簽與許多動作的關聯性,采用軌跡池深卷積描述子(Trajectory-pooled Deep-convolutional Descriptors,TDD)[18]提取2 048維度軌跡特征。除此之外,對于標簽特征,主要是文本信息,采用全局向量詞表示(Global Vectors for word representation,GloVe)[19]模型提取63個標簽的詞嵌入向量,作為標簽特征表示。將數據集按照4∶1比例劃分訓練集和測試集。
實驗過程采用了5種常用多標簽學習的評價指標來評估模型的性能,包括平均精度(Average Precision)、覆蓋度(Coverage)、漢明損失(Hamming Loss)、排序損失(Ranking Loss)和1-錯誤率(One-Error)。除覆蓋度外,所有的值集中在0到1之間,其中,平均精度的值越大,分類效果越好,其余4項指標的值越小,性能越好。在實驗過程中,對于超參數的調節主要是以平均精度為主,其計算公式如下:
(13)
2.3.1 算法收斂性
模型采用交替學習策略進行訓練,迭代過程采用隨機梯度下降進行參數更新,批大小設置為128。為驗證文中算法的可行性,整體損失和平均精度隨訓練次數的結果如圖3所示。從圖中可以發現,整體損失隨著迭代次數增加而快速降低,隨后趨于穩定;而平均精度隨著迭代次數增加而快速升高,而后趨于穩定,兩者基本都在25次訓練后達到收斂。這證明模型能夠經過訓練后達到收斂,驗證了算法的可行性。
2.3.2 公共表示維度分析
為了研究初始化的共享公共表示H對整個模型分類效果的影響,將公共表示H的維度用d表示,實驗中將其范圍設置為64~2 048。圖4展示了不同公共表示維度下的分類性能。
從圖4中可以看出,分類性能對公共表示的維度比較敏感。當d=512時,各項指標達到最優,當維度較低時,由于其對特征信息的重構有限,導致結果無法達到最好;當維度較高時,在訓練的過程中,結果最高,但是在測試時,結果降低,說明過大的維度導致了過擬合現象的產生,在訓練時對干擾信息等噪聲也進行了學習,導致結果變差。由此可見,公共表示維度在最終分類結果上具有重要作用。
2.3.3 消融實驗
為驗證充分利用各個模態信息的有效性和各模態信息對結果的影響程度,在固定其他條件的情況下,分別在單個模態、兩兩組合模態和3個模態組合下進行實驗。結果如表2所示,其中V、A、T分別表示視覺模態、音頻模態和軌跡模態。

表2 不同模態組合的多標簽分類性能對比
從表2可以看出:單個模態下視覺模態的結果要高于其他兩個模態,在短視頻這樣的媒體信息中,視覺模態含有更豐富的語義信息;相較之下,音頻模態的結果最差,一個可能的原因是在短視頻中含有較多的背景音樂等噪聲干擾。其次,無論是兩種模態相互組合還是利用全部模態信息,結果都要優于只使用單個模態信息的結果,尤其當采用3個模態信息組合時,結果達到最優,這說明筆者提出的模型能夠充分利用多個模態間的一致性和互補性信息,獲得能夠體現原始數據的本征表示。
2.3.4 與其他算法的對比
為證明筆者所提模型在多標簽分類任務中的有效性,在保證數據集和所需特征一致的情況下,將筆者提出的算法與其他算法進行對比,其中,所涉及到的算法有三維卷積網絡(3D Convolutional networks,C3D)[20]、典型相關自動編碼器(Canonical Correlated AutoEncoder,C2AE)[21]、多標簽K最近鄰算法(Multi-Label K-Nearest Neighbor,MLKNN)[22]、谷歌網絡(Googlenet)[23]、具有全局和局部相關性的多標簽學習(multi-label GLObal and loCAL label,GLOCAL)[24]、穩健多視角子空間學習(Robust Multi-view Subspace Learning,RMSL)[25]、用流形正則化鑒別特征選擇模型(Manifold regularized Discriminative Feature Selection,MDFS)[26]、雙重關聯半監督多標簽學習(Dual Relation semi-supervised Multi-Label,DRML)[27]。上述算法整體上可以分為3類:基于多模態表示學習(RMSL,C2AE)、基于深度網絡進行特征表征(Googlenet,C3D),基于標簽相關性學習(GLOCAL,MLKNN,MDFS,DRML)。
將筆者提出的算法與以上算法在5個評價指標上進行對比,結果如表3所示。

表3 不同算法的多標簽分類性能對比
從表3可以得到:① 在表中所列方法中,筆者提出的算法在5個指標上的綜合表現最優,這證明了筆者所提算法的有效性;② 基于深度表征的算法,例如Googlenet、C3D,沒有取得較好的效果,可能是因為這類網絡層數較深,數據集樣本的欠缺導致訓練不充分;③ 基于多模態表示學習的算法(RMSL,C2AE)取得了不錯的結果,證明了利用多個模態信息的重要性;④ 基于標簽相關性學習的算法,例如DRML,因為考慮了標簽間的相互依賴和分布關系,所以結果要優于其他算法。綜合來看,筆者所提模型在對樣本特征進行處理時,充分考慮了多個模態間的一致性和互補性,盡可能保證信息的充分利用,減少信息的丟失。對于標簽空間,利用圖卷積網絡學習標簽間的分布,將兩者整合到同一個框架下,實現了最好的分類結果。
目前關于短視頻進行的相關研究相對較少,針對其在多標簽分類中遇到的問題,筆者提出了一種多模態特征融合的短視頻多標簽分類模型。該模型將多個視角下的子空間編碼學習與多標簽相關性學習整合到一個統一框架下。該框架利用子空間編碼網絡學習多個視角下更本征的公共表示,同時利用圖卷積網絡挖掘標簽間的語義相關性。整個網絡采用基于隨機梯度下降的交替學習策略進行參數的更新求解。在公開的短視頻多標簽分類數據集上的實驗結果表明,模型充分利用各個視角下的特征信息和標簽的語義信息,提高了分類的準確性。