彭太樂 ,張文俊 ,丁友東 ,郭桂芳
PENG Taile1,2,ZHANG Wenjun3,DING Youdong3,GUO Guifang2
1.上海大學 通信與信息工程學院,上海 200072
2.淮北師范大學 計算機科學與技術學院,安徽 淮北 235000
3.上海大學 影視藝術技術學院,上海 200072
1.School of Communication&Information Engineering,Shanghai University,Shanghai 200072,China
2.School of Computer Science and Technology,Huaibei Normal University,Huaibei,Anhui 235000,China
3.School of Film and TV Arts&Technology,Shanghai University,Shanghai 200072,China
隨著YouTube、YouKu、Baidu視頻這樣的視頻網站的不斷涌現,視頻的數量以前所未有的速度增長,視頻分類也受到越來越多研究者的關注。傳統的視頻分類方法通常是在提取視頻的底層特征或音頻特征[1-2]的基礎上進行的。視頻的底層物理特征主要指幀圖像的物理特征,如顏色、形狀、紋理、空間位置等,通過比較這些視覺特征間的相似性實現分類。也有一些文獻,諸如文獻[3],依據文本實現視頻分類,目前一些研究工作是針對一些特定的視頻片段進行的,比如文獻[4-5]中的體育視頻、醫學視頻等。
一個視頻片段通常由若干個鏡頭組成,一個鏡頭則由若干幀圖像組成。對于一幀圖像來說,圖像場景通常包含多個對象,其蘊涵著豐富的視覺信息和語義信息。從語義角度來看,這些對象是相關聯的。在基于語義的分類方面,Bag of words(詞袋)模型[6]是較成功的模型,LI Feifei[7]、Bosch[8]、朱旭鋒[9]等人分別利用Latent Dirichlet Allocation(LDA)模型、概率潛在語義分析(pLSA)模型、以FCM聚類代替K均值聚類等來改進Bag of words模型,得到較好的場景分類效果。
從人類視覺感知原理可知,人們總是可以從一段視頻中掌握一個特定的主題。同一主題的視頻片段之間總有相似的空間關系和語義關系。比如在一段足球比賽視頻的幀圖像中,盡管觀眾不同,比賽場館不同,運動員的比賽服裝不同;但都由統一規格的比賽場地,顏色鮮明的草地,比賽雙方球員都在同一運動場上競技。對于同一類型的視頻場景,從制作者的情感角度來看,視頻中各鏡頭的HSV顏色特征總體上是一致的。
時序特性是視頻固有的屬性,是視頻場景理解不可缺少的要素,相鄰鏡頭(尤其是漸變鏡頭)的關鍵幀具有較高的相關度,這包括空間相關度和語義相關度。經典的詞袋分類模型,本質上是通過計算場景視覺詞匯直方圖,來達到分類的目的。一般情況下,經典詞袋模型中的視覺詞匯由圖像的子區域特征(SIFT特征)產生,沒有考慮圖像子空間的上下文聯系。
本文提出的視頻場景分類算法結合關鍵幀圖像的SIFT特征、由關鍵幀合成圖像的HSV顏色空間特征,充分考慮相鄰關鍵幀的時序上下文關系。文中選取的特征組合能更充分合理地體現視頻信息,進一步指導視覺詞匯的生成,使生成的視覺詞匯更能代表圖像對象。
在詞袋(Bag of words)圖像分類模型中,圖像場景是依據視詞的出現頻率來進行分類的,視覺詞匯是由圖像的局部區域特征來形成,丟失了其周圍patch塊上下文子區域的圖像信息。為此本文提出一種結合圖像patch特征及幀間圖像時序上下文關系的方法,使得所提取的局部特征能夠更加充分合理地表示圖像語義信息,并結合具體類別視覺詞匯生成辦法,使得所生成的視覺詞匯表具有更好的區分能力。
圖1給出基于時序上下文特征視頻場景分類的系統框圖。首先對視頻片段進行關鍵幀提取,產生Frame={f1,f2,…,fn},將關鍵幀按時序歸一化為 16×16的圖像塊,并分別提取其SIFT特征,按時序連接歸一化的關鍵幀生成圖像I,對于每個圖像塊分別結合其水平方向的空間相鄰區域,形成水平方向的上下文特征;依據上下文特征形成特征集合并聚類形成視覺詞匯,進一步形成上下文視覺詞匯表,進而形成圖像的視覺詞匯描述;訓練多核SVM分類器來完成場景分類。

圖1 場景分類的系統框圖
文中采用瞿中等[10]提出的算法實現視頻鏡頭檢測、分割及關鍵幀提取。
首先,設定一段給定的視頻片段Videoi,從第1幀開始,計算 fj、fj+1相鄰幀直方圖的交集,根據閾值δ1(δ1=0.9)判斷鏡頭邊緣變化情況。利用幀間灰度顏色差值進行鏡頭邊界的二次檢測。進行非均勻分塊加權,分別計算每個圖像塊像素差值并與分塊幀差閾值(δ2=20)作比較,并加以標注。然后對每個圖像塊的標注變量進行加權求和,接著與分塊加權閾值(δ3=0.2)進行比較,進一步檢測鏡頭邊緣變化情況。光線變化是影響鏡頭檢測結果的重要因素,考慮到光線變化因素,文中將幀數小于20的鏡頭劃歸到相鄰的上一個鏡頭。文中根據鏡頭中幀圖像的最大熵值選擇關鍵幀。如圖2所示。

圖2 提取關鍵幀并合成圖像
為了提取視頻幀圖像的關鍵視覺特征,首先通過對關鍵幀歸一化。從攝影的角度來看,一張圖像的主題主要集中在圖像的中間區域,圖像邊緣多為冗余信息。首先對幀圖像進行縮放,以圖像中心為軸進行剪切,形成16×16的子區域,對每一子區域提取其稠密SIFT特征。SIFT特征是圖像的局部特征描述子,其對旋轉、尺度縮放、仿射變換、亮度變化保持不變性。提取圖像局部特征(SIFT特征)時,首先將子區域劃分為4×4個更小的子區域(圖像塊),并統計每個子區域上8個方向的梯度直方圖,將該16個小子區域連接構成128維SIFT特征向量。
對于給定的歸一化后的關鍵幀圖像集合,根據時序關系合成圖像I,相鄰圖像塊(子區域)之間存在著較強的上下文信息相關性,為了得到較精確的視覺詞匯,必須考慮到空間相鄰圖像塊之間語義聯系[11]。對于圖像I的一個局部圖像塊(子區域)Ix,x為圖像塊標記,其水平方向的相鄰圖像塊表示為Ix+1。如圖3所示,將圖像塊Ix與其時序相鄰的圖像塊形成上下文關系。結合后的上下文視覺特征為:

式中,fx為圖像塊Ix的SIFT特征,fx+1為按時序相鄰的圖像塊Ix+1的SIFT特征。

圖3 時序上下文特征結合方式圖
在形成局部上下文特征后,直接將SIFT特征向量連接,形成一個特征集C={C1,C2,…,Cn},隨后進行K-means聚類形成視覺詞匯,W={w1,w2,…,wn}。在基于靜態的圖像分類中,由于每幅圖像分割后的子區域數是比較大的,在訓練數據庫的圖像時,產生的特征數是巨大的,造成訓練的速度緩慢。本文方法雖然也會造成信息冗余,由于關鍵幀圖像的個數相對較少,歸一化后的圖像尺寸為16×16,使得SIFT特征的維數不會過高,對SVM多核聚類不會造成太大的困難。
在常見的RGB、HSV、HIS等顏色空間當中,HSV顏色特征具有最好的分辨特性[12]。HSV是與人的視覺感官最接近顏色模型,能較好地描述圖像的各種顏色分布。對于彩色圖像在HSV空間的顏色直方圖,本文采用四維向量表示,前三維分別為H、S、V三個通道,第四維表示顏色在圖像中所占的比率。HSV有助于描述幀圖像的全局特征,對于圖像場景分類是非常重要的,它可以使產生的詞匯更加精確,顏色特征定義了圖像的基調。比如,在黃色基調的沙漠中行走的是駱駝而不是綿羊,在綠色基調的草原上行走的通常是綿羊而不是駱駝,雖然駱駝和綿羊在圖像上的表現比較相似。
多核學習是一種特征融合方式,從理論上分析一個好的基于核函數的分類方法能有效實現高維向量的分類,對于圖像的一組不同特征選擇不同的核函數參數,其分類準確率波動較大。本文通過對不同的特征采取不同的核函數,使得多核學習可以通過核函數組合達到最佳分類效果。
對于基于單特征的多核學習來說,通過公式(2)加權求核函數[13]:

若以Sigmoid核為核函數,則多核學習的判別函數為:

γ∈Rr,b∈R為SVM參數,Kj(x)為第 j個核函數對于輸入樣本x的輸出結果。
由于文中引入圖像的SIFT特征及HSV顏色特征進行分類,定義新的多核方法。對于不同特征選取不同的核函數,然后將不同特征的核函數進一步組合,加權求核函數:

式中KMKL(x)為多特征核函數,N為使用的特征數,本文N為2,αl為核函數組合系數,Kl(x)為特征l的核函數組合。
考慮到不同特征對分類的貢獻不同,為了得到最佳分類效果,賦予不同特征不同的核權重。多特征多核學習判別函數為:

目前,多數視頻分類算法沒采用標準視頻數據庫,客觀上為算法性能比較造成了困難。為了相對客觀地評估本文算法的性能,文中實驗所用視頻數據均來自互聯網。文中選取了6類常見的視頻片段,分別是演奏視頻、舞蹈視頻、MV視頻、電影片段、足球比賽視頻及演講視頻。每一類視頻有100個片段左右。所有程序均在相同的硬件環境下進行。在實驗時,從每一類視頻中隨機選取訓練視頻片段數分別為10段、20段、30段、40段、50段、60段,測試視頻片段數分別為60段、50段、40段、30段、20段、10段。從多核學習的原理可知,不同的核函數組合進行分類,效果是不同的,為了選擇合適的核函數組合,本文首先通過小樣本實驗確定核函數組合。選擇在多特征分類中多個常用的多項式核和高斯核進行組合,測試在各種組合下的平均分類準確率,選擇平均分類準確率較高的核函數組合。
進一步考察不同的訓練樣本對各種視頻分類的影響,本文選取的視頻如圖4所示。

圖4 實驗結果比較

表1 平均分類準確度表
從圖4中可看出,本文算法采用混合核函數進行訓練,能取得較好的分類結果。另外,對由漸變式鏡頭組成的視頻片段分類效果較佳,主要原因是漸變式鏡頭相鄰關鍵幀的空間相關性及語義相關性比切變鏡頭要高,漸變式鏡頭相鄰關鍵幀的圖像色彩背景大體是一致的。在實驗中給出了60個訓練樣本,40個測試樣本情況下,運用SIFT特征的方法進行分類、運用SIFT特征及HSV顏色特征(采用多項式核進行訓練)的方法進行分類、運用SIFT特征及HSV顏色特征(采用高斯核進行訓練)的方法進行分類、運用SIFT特征及HSV顏色特征(采用高斯核+多項式核進行訓練)的方法進行分類,在程序運行20次的情況下得到了平均分類準確度。如表1所示。
本文提出一種結合時序上下文信息的視頻場景分類方法,該方法將視頻的分類問題轉化為圖像場景的分類。將歸一化后的相鄰關鍵幀拼接,形成相鄰圖像塊,是關鍵幀之間形成空間上和語義上的鄰接關系,根據SIFT特征,形成視覺詞匯,進一步形成了考慮圖像間類別差異的上下文視覺詞匯表,并結合多核學習解決了視頻場景的分類問題。通過多個實驗結果表明,本文方法具有較好的視頻場景分類效果,能較好地實現漸變式鏡頭組成的視頻片段的分類。本文僅提取了稠密SIFT特征及HSV顏色特征并進行了分類,今后可對局部特征的提取并進行拓展,比如提取稀疏并結合全局特征、上下文特征進行稀疏編碼結合多核學習進行進一步研究視頻場景分類問題。
[1]Rouvier M,Linares G,Matrouf D.On-the-fly video genre classification by combination of audio features[C]//IEEE International Conference on Acoustics Speech and Signal Processing(ICASSP),2010:45-48.
[2]李榮杰,蔣興浩,孫鐵鋒.一種基于音頻詞袋的暴力視頻分類方法[J].上海交通大學學報,2011,45(2):214-218.
[3]王鵬,蔡銳,楊士強.“文本為主”的多模態特征融合的新聞視頻分類算法[J].清華大學學報:自然科學版,2005,45(4):475-478.
[4]宋剛,肖國強,代毅,等.基于視頻區域特征及HMM的體育視頻分類研究[J].西南師范大學學報:自然科學版,2010,35(2):180-184.
[5]馮文剛,高雋,Buckles B P,等.無監督學習的無線膠囊內診鏡視頻分類方法[J].中國圖象圖形學報,2011,16(11):2041-2046.
[6]Yang Jun,Jiang Yugang,Alexander H,et al.Evaluating bagof-visual-words representations in scene classification[C]//Proceedings of the International Workshop on Multimedia Information Retrieval,2007:197-206.
[7]Li Feifei,Perona P.A Bayesian hierarchical model for learning natural scene categories[C]//Proc of IEEE Int Conf on Computer Vision and Pattern Recognition(CVPR’05).USA:IEEE Computer Society,2005:524-531.
[8]Bosch A,Zisserman A.Scene classification using a hybrid generative/discriminative approach[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2008,30(4):712-727.
[9]朱旭鋒,馬彩文,劉波.采用改進詞袋模型的空中目標自動分類[J].紅外與激光工程,2012,41(5):1384-1388.
[10]瞿中,高騰飛,張慶慶.一種改進的視頻關鍵幀提取算法研究[J].計算機科學,2012,39(8):300-303.
[11]胡正平,涂瀟蕾.多方向上下文特征結合空間金字塔模型的場景分類[J].信號處理,2011,27(10):1536-1542.
[12]Berens J.Image indexing using compressed color histograms[M].Norwich:Spinger,2002.
[13]汪洪橋,孫富春,蔡艷寧,等.多核學習方法[J].自動化學報,2010,36(8):1037-1050.