陳怡然 廖 寧
(重慶工程學院 重慶 400056)
隨著計算機技術和網絡技術的發展,信息不再僅僅是單一的文字或語言,而是以更加多樣化的媒體數據的形式呈現,包括文本、圖形、圖像、視頻和音頻等等[1]。媒體數據的非格式化特性使得對數據的歸類,分析,搜索和使用都存在比較大的困難。隨著媒體數據采集設備的廣泛普及以及計算機處理能力、網絡帶寬的不斷提高,多媒體數據呈現海量增長的趨勢,現今互聯網上 85%以上的數據業務包含了非結構化的圖像、音頻和視頻等媒體數據[2-3]。如何建立起一種高效、準確的媒體數據流語義識別方法以提升視頻檢測、視頻行為識別等已成為國內外學者的研究熱點,同時也給人們帶來了巨大的挑戰和亟待解決的研究問題[4]。
90年代初,在圖像檢索領域出現了基于內容的多媒體分析與檢索技術,隨著視頻成為一種主要的網絡資源,美國的卡耐基梅隆大學(Carnegie Mellon University,CMU)、哥倫比亞大學(Columbia University)及 IBM Watson 研究中心及微軟研究院等研究機構紛紛開展了視頻語義分析理解的相關研究,出現了以CMU的Infomedia、哥倫比亞大學的VideoQ和IBM的MARVEL等為代表的媒體應用系統。國內的一些研究單位,如中科院自動化所和計算所、以及清華大學、浙江大學、上海交通大學和南京大學等高校也開展了類似研究工作。
視頻場景語義分析是對視頻信息所包含事物的狀態描述和邏輯表示,涉及人和物的動作、表情、音頻、圖像序列等信息。視頻場景語義分析與識別是對視頻包含的語義信息進行特征提取、整理、分析與識別的過程,涉及人的視覺機理、圖像識別、機器學習、模式識別和深度學習等領域。
鏡頭分割是視頻場景預處理的第一步,現如今比較成熟的鏡頭分割方法有X2直方圖匹配算法與梯度法。基于X2直方圖匹配與梯度法鏡頭檢測算法,來檢測視頻中鏡頭切換和淡入淡出。該算法是通過計算視頻中連續兩幀圖像的直方圖差值來檢測鏡頭切換。除切換外,另一個重要的鏡頭連接方式是淡入淡出,其特點是視頻幀的畫面先漸漸暗下去,然后再亮起來,因此每幀畫面的相鄰像素相關性都會先變小再變大,而每兩個像素的梯度恰好能代表他們的相關性。
關鍵幀提取是要獲取視頻場景中能夠代表鏡頭內容的圖像。Li提出一種中基于非相鄰幀比較的關鍵幀提取算法。算法的思想是選擇鏡頭中的第一幀作為第一個關鍵幀和參考幀,然后計算后續幀和當前參考幀的差異,當差異大于預定的閾值時,則選后續幀為關鍵幀和參考幀,重復上述過程直到鏡頭結尾。
鏡頭聚類是完成視頻場景預處理的重要步驟,首先通過HSV空間中的顏色直方圖來描述關鍵幀的整體顏色特征,并以此作為特征值進行關鍵幀聚類;接著通過計算關鍵幀之間的相似度值作為輸入來計算鏡頭相似度來對上述顏色直方圖特征進行匹配;最后計算簇中元素間的最大相似度,當相似度值大于一個預先設定的閾值時,將這兩個簇合并為一個簇,聚類的終止條件是直到簇間距離都小于閾值。歸為一類的鏡頭集,即為場景,聚類結束即完成對將視頻的場景劃分。

通道中層語義特征提取主要時卷積神經網絡中的卷積、采樣和全連接過程。卷積本質上是通過一個或多個可訓練的濾波器即卷積核,來對原特征向量做一次或多次非線性變化。為了更好地描述每兩層之間的卷積過程,我們通過(Nl,bl*bl)來描述第L層神經元;通過多個可訓練的濾波器f(n*n)向量和多個連接表(Nl*Nl-1)來描述L層和L-1層之間神經元的卷積運算。
在視頻的場景分析中,通過多個可訓練的濾波器f(n*n)向量卷積一個輸入為m*n維的圖像,然后加上偏置b,得到卷積層的輸出特征圖用(Nl,bl*bl)描述,Nl代表第L層的特征圖個數,bl代表第L層的特征圖維數。第一層輸入的是圖像,后面階段輸入的是從前一層抽取的卷積特征圖集合的一個子集。具體要幾個特征圖來卷積構成后一層的一個特征圖,需要先設定好一張兩層特征圖之間的連接表,該表記錄著兩層特征圖之間的連接關系。
以行為語義通道為例,卷積層公式如下:

子采樣本質上是給卷積層中得到的每一個特征圖進行降維。典型的操作一般是對輸入圖像中大小維n*n塊的所有像素進行求和,這樣輸出圖像的兩個維度上縮小了n倍。
全連接是將卷積核在前一層所有的特征圖上做卷積操作,將特征向量降為1*n維的向量,本項目將每個通道上的語義,通過各自全連接層,輸出一個1*n向量特征。


公式(2)中Z(l+1)表示的是融合層三層中層語義的卷積輸出。
RBM是一種特殊形式的玻爾茲曼機,可通過輸入數據集學習概率分布的隨機生成神經網絡,具有較好的泛化能力。而由多個RBM結構堆疊而成的深度信念網絡能提取出多層抽象的特征,從而用于分類合目標識別。
RBM的結構如圖1所示,整體是一個二分圖大的結構,分為2層:一層為可見層(visible units),也稱為輸入層;另一層為隱層(hidden units)。

圖1 RBM的結構圖
RBM的隱藏變量h和可見變量v之間存在對稱性的連接(Wij),但是隱藏變量之間或者可見變量之間沒有連接。該模型通過模擬熱力學能量定義了基于h和v的聯合概率分布公式(3)。由于同層變量之間沒有連接,因此根據聯合概率分布可方便計算出每一個單元的激發概率。

根據方程(3),可定義隱層和可見層的概率分布:


每一個單元的激發概率為:

CNN 是多層感知機(MLP)的一個變種模型,是近幾年來快速發展并引起廣泛重視的一種高效識別方法。它是從生物學概念中演化而來的。20世紀60年代,Hubel等在研究貓腦皮層中用于局部敏感和方向選擇的神經元時發現其獨特的網絡結構可以有效地降低反饋神經網絡的復雜性,繼而提出了CNN。
一般來說,CNN的基本結構包括2層:一層為特征提取層,每個神經元的輸入與前一層的局部接受域相連,并提取該局部的特征。一旦該局部特征被提取后,它與其他特征間的位置關系也隨之確定下來;另一層為特征映射層,網絡的每個計算層由多個特征映射組成,每個特征映射是一個平面,平面上所有神經元的權值相等。特征映射結構采用的sigmoid函數作為卷積網絡的激活函數,使得特征映射具有位移不變性。此外,由于一個映射面上的神經元共享權值,因而減少了網絡自由參數的個數。卷積神經網絡中的每一個卷積層都緊跟著一個用來求局部平均與二次提取的計算層,這種特有的兩次特征提取結構減小了特征分辨率。其具體結構圖如圖2所示。

圖2 卷積神經網絡多層卷積運算和采樣過程圖


偏置blp和濾波器權重wlp,q,s,t通過反向傳播算法進行訓練。輸出層的位面為Dl-1*Dl-1,其中Dl=Dl-1-Kl+1。
子抽樣層Sl在每個出入位面上使用Kl*Kl平滑濾波:

首先將視頻模型描述為視聽雙模態,其中該模型的輸入是視頻幀和與視頻幀同步的連續聲譜。本項目預計采用基于稀疏理論的深度自動編碼器異構多模態的深度學習方法。
深度自動編碼器是一種利用無監督逐層貪心預訓練和系統性參數優化的多層非線性網絡,能夠從無標簽數據中提取高維復雜輸入數據的分層特征,并得到原始數據的分布式特征表示的深度學習神經網絡結構,其由編碼器、解碼器和隱含層組成。
基于稀疏理論的深度自動編碼器對原始自動編碼器的隱含層添加了約束條件并增加了隱含層數量,能提取高維數據變量的稀疏解釋性因子,保留原始輸入的非零特征,增加表示算法的魯棒性,增強數據的線性可分性,使物體邊界變得更加清晰。
該識別模型分為輸入層、共享表示層以及輸出層。
輸入層:為視頻資源的2個模態,即聲譜和視頻幀,其中聲譜采用RBM訓練,視頻幀采用CNN訓練。
共享表示層:這一層的關鍵是找到特征模態的轉換表示從而最大化模態之間的關聯性。本文采用典型關聯分析(canonical correlation analysis,CCA)的方法尋找聲譜波和視頻幀數據的線性轉換從而形成性能優良的共享表示。
CCA是先將較多變量轉化為少數幾個典型變量,再通過其間的典型相關系數來綜合描述兩組多元隨機變量之間關系的統計方法,有助于綜合地描述兩組變量之間的典型相關關系。基本過程是從兩組變量各自的線性函數中各抽取一個組成一對,它們應是相關系數達到最大值的一對,稱為第1對典型變量,類似地就可以求出第2對、第3對等,這些成對變量之間互不相關,各對典型變量的相關系數稱為典型相關系數。所得到的典型相關系數的數目不超過原兩組變量中任何一組變量的數目。輸出層:這一層為聲譜和視頻的重構。還原視頻信息的同時,識別視頻中的物體。