張佳豪 千博
摘 要:關鍵幀提取技術是視頻檢索領域的一個核心問題。關鍵幀提供了視頻的主要內容,能減少視頻存儲占用空間。文章提出了一種基于MI-SURF特征的關鍵幀提取算法。該算法融合互信息熵和SURF圖像局部特征來提取關鍵幀。實驗結果表明,該算法所得的關鍵幀能有效表示視頻內容。
關鍵詞:互信息熵;SURF特征點;關鍵幀提取;HSV顏色空間
隨著多媒體技術和視頻監控技術的進一步發展,視頻數據大量充斥在我們周邊,在規定的時間內檢索出視頻的關鍵幀具有重要意義。
此前,研究人員已經提出了多種關鍵幀提取算法。Zhao等[1]提出利用邊緣直方圖和平均灰度直方圖的方法來提取關鍵幀,該方法主要缺點是內容覆蓋率不高。Sun等[2]結合互信息(Mutual Information,MI)和圖像熵來提取關鍵幀。Barbieri等[3]提出利用尺度不變特征轉換(Scale Invariant Feature Transform,SIFT)局部興趣點來提取關鍵幀。
本文提出基于MI-SURF特征的關鍵幀提取算法。首先,將輸入的視頻序列轉換到HSV顏色空間。然后,根據相鄰兩幀之間的互信息熵的大小確定視頻突變邊界,將視頻分割成不同的視頻子集,最后根據視頻子集的互信息熵和視頻幀的加速穩健特征(Speeded Up Robust Features,SURF)來提取關鍵幀。
1 理論基礎
1.1 HSV顏色空間
HSV顏色空間比RGB空間更能精確反映圖像的灰度變化和顏色變化,根據HSV顏色空間的定義,對于任意像素點R、G、B的分量值,其對應的HSV顏色空間中H、S、V的分量值由如下公式[4]計算得出。
1.3 SURF特征
SIFT特征[8]是一種穩定的具有代表性的局部興趣點,是一個128維的特征向量。它對旋轉、顏色、拍攝視角具有尺度不變性。在SIFT特征的基礎上,Bay等[9]提出了SURF特征。SURF特征除具有SIFT特征的尺度不變特性,還在提取圖像特征點上比SIFT快。
2 本文算法
為了能夠準確提取視頻關鍵幀,本文提出了基于MI-SIFT特征的關鍵幀提取算法。該算法首先將視頻V{f1,f2,……fn}轉換到HSV顏色空間。接著,計算相鄰兩幀圖像互信息熵I(fk,fk+1),利用I(fk,fk+1)衡量兩幀圖像的相似度,如果I(fk,fk+1)T(T為設定的互信息熵標準差閾值),根據SURF特征點匹配算法選取關鍵幀,否則選取視頻子集vk的中的第一幀作為部分關鍵幀。本文算法的核心流程如圖1所示。
2.1 互信息熵特征提取
關鍵幀提取要選取合適準確的特征來表示視頻圖像的主要信息。本文首先采用互信息熵標準差δk對視頻子集vk進行關鍵幀提取。算法實現過程如下。
Step1 根據互信息熵分割形成視頻片段集 V{v1,v2,……vk},計算每個vk相鄰兩幀的互信息熵的集合INK={I1,2,I2,3……Ik,k+1}。
Step2 計算每個視頻子集vk的互信息熵標準差δk。
Step3 比較δk與互信息熵標準差閾值T的大小,如果δk 2.2 SURF特征點匹配算法 對于vk的關鍵幀候選集KCS,需要提取多個關鍵幀。本文采用SURF特征匹配算法來提取關鍵幀。算法步驟如下。 Step1 首先將vk的KCS中第一幀作為VKS的第一個關鍵幀,保證VKS不為空,至少有一個關鍵幀。 Step2 將KCS中每一幀的SURF特征向量與VKS中每一幀的SURF特征向量進行相似性測量。當兩幀相似性SURF特征向量大于10%,則認為兩幀是相似的。這里特征向量相似性測量采用Zhao等[10]提出的OOS(One-to-One Symmetric)算法。反之,將該幀加入VKS中。 Step3 對每一個視頻子集vk重復進行 Step1、Step2,最終得到一系列的關鍵幀集合VKS。將所有VKS取并集得到整個視頻關鍵幀。 3 實驗結果分析 為了檢測本文算法的有效性,選擇 Windows10,Intel Corei5,8GB內存的計算機以及MatlabR2017b作為開發平臺測試算法。實驗中選取了20個不同場景下的視頻進行測試,并確定各參數的值。S參數是一個經驗值,在本實驗中,設定S=7.3,T參數是所有視頻子集vk的互信息熵標準差的平均值。為驗證本文算法的有效性,將本文算法與基于K-means聚類[11]的關鍵幀提取算法進行比較,比較結果如圖2—3所示。 圖2檢測到3個關鍵幀,圖3檢測到8個關鍵幀。其中,圖3存在1幀冗余。通過分析原始視頻發現,視頻中人進行一次完整的喝水過程可分解為4個動作,包括喝水前手握水杯動作,將水杯移到嘴唇動作,喝水動作,仰起頭喝水動作,放下水杯動作。圖2僅僅檢測到手握水杯和將水杯移到嘴唇的動作。據此可以判斷圖3對視頻內容的表達更加精準。 由以上分析可知,本文提出的基于MI-SURF特征的關鍵幀提取算法優于K-means聚類的關鍵幀提取算法,能夠較完整地表達出原視頻的主要內容。基于K-means聚類的關鍵幀提取算法與本文算法比較,存在較多漏檢幀,對視頻中內容的表達不夠完整。
4 結語
針對原始視頻關鍵幀提取中存在漏檢和冗余的問題,本文提出了基于MI-SURF特征的關鍵幀提取算法,在HSV顏色空間上,利用互信息熵將視頻分割成不同的視頻子集,在每一個視頻子集中,利用互信息熵標準差和SURF特征來提取關鍵幀。通過實驗證明,該算法對于原始視頻還原度好,能夠準確地表達原視頻內容。
[參考文獻]
[1]ZHAO X,LIU J,HU G,et al.Adaptive key-frame selection based on image features in Distributed Video Coding[C].Jiuzhai:International Conference on Computational Problem-Solving,2013 .
[2]SUN L N,ZHOU Y H.A key frame extraction method based on mutual information and image entropy[C].Hangzhou:International Conference on Multimedia Technology,2011 .
[3]BARBIERI T T D S,GOULARTE R. KS-SIFT: a keyframe extraction method based on local features[C].Taichung:International Symposium on Multimedia,2014 .
[4]YOON I,KIM S,KIM D,et al.Adaptive defogging with color correction in the HSV color space for consumer surveillance system[J].IEEE Transactions on Consumer Electronics,2012(1):111-116.
[5]ZIZHU F,ERGEN L.New approach on image retrieval based on color information entropy[J].Journal of Optoelectronics Laser,2008(1):1122-1126.
[6]SHI Y G,ZOU M.Performance comparison of statistics based similarity measures for image registration[J].Chinese Journal of Computers,2004(9):1278-1283.
[7]SHI Y,HUANG S N,ZHANG Y S.A mutual information and joint entropy based method for shot change detection[J].Computer Engineering & Applications,2006(30):54-56.
[8]SUKTHANKAR R,PCA-SIFT Y K.A more distinctive representation for local image descriptors[C].Washington:Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattem Recognition,2004.
[9]BAY H,TUYTELAARS T,VAN GOOL L. Surf: Speeded up robust features[C].Graz:Proceedings of the European Conference on Computer Vision,2006.
[10]ZHAO W L,NGO C W,TAN H K,et al.Near-duplicate keyframe identification with interest point matching and pattern learning[J].IEEE Transactions on Multimedia,2007(5):1037-1048.
[11]司若妍,張明.基于 K-means 聚類算法的視頻關鍵幀提取的研究[J].現代計算機,2016(7):59-63.