支衛建
(北方工業大學 信息學院,北京 100043)
隨著網絡和自媒體的發展,視頻文件呈現指數級別增加,面對如此多的視頻數據,如何快速有效地從這些視頻庫中檢索出人們感興趣的視頻,已經成為當今信息化時代的一個難題[1]。視頻數據存在數據量大,維度高的特征,在檢索過程中需要消耗大量的內存和搜索時間[2]。
目前普遍的方法就是采用提取關鍵幀的技術建立索引,進行視頻檢索。關鍵幀的提取方法有:基于顏色特征的關鍵幀提取[3]、基于視頻內容的關鍵幀提取[4],但前者提取的關鍵幀會產生冗余,后者對于視頻量巨大、內容繁多的情況下,效果不佳。而比較熱門的視頻檢索方法如:基于深度學習的關鍵幀提取與視頻檢索[5]、基于k-means++聚類的視頻摘要生成算法[6]等,均基于全局特征提取關鍵幀,只能將視頻幀作為整體進行考慮,對于視頻幀中人的面部變化無法兼顧,而人臉識別[7-8]對視頻中每一幀的人臉圖像都能兼顧,但因視頻量大,視頻相鄰幀的冗余度高,降低了檢索的效率。在視頻檢索過程中,使用索引能夠有效地解決這個問題,因此,提取關鍵幀建立索引成為重要步驟之一。
本文結合人臉識別和K-means的特點,提出了一種人臉識別和改進的K-means聚類相結合提取關鍵幀檢索視頻的方法。該方法結合神經網絡,有效地提升了視頻檢索的準確率。
視頻關鍵幀中的面部特征代表了整個鏡頭中人臉的顯著性特征,因此,準確提取關鍵幀能夠有效地降低視頻檢索的處理時間,提高檢索準確率。
在視頻檢索的過程中,主要分為三個部分:人臉檢測[9-10]、人臉特征提取[11]、K-means聚類[12-13]三個部分。
在整個視頻檢索過程中,雖然能夠檢索到視頻幀的人臉圖像,但是會存在三個問題:
(1)檢測人臉不準確,出現漏檢或者檢測到的圖像為非人臉的現象,導致提取的特征實際上不含人臉而產生誤差。
(2)檢測的圖像是人臉的置信度較低,但仍將該人臉特征作為主要特征而產生偏差。
(3)在海量視頻中,檢索視頻對機器的內存和運算能力要求較高,檢索速度在一定程度上有所限制。
為了解決以上問題,在人臉識別過程中,首先使用多任務卷積神經網絡(MTCNN,Multi-task convolutional neural network)[14]對人臉進行檢測。將檢測到的人臉圖片回歸后進行人臉對齊,并統一裁剪為112*112的人臉。
但本文不同的是,在人臉檢測時,對同一張視頻幀分別從四個角度(0°,90°,180°,270°)進行檢測,避免漏檢。另外,檢測人的面部圖像時,新添加了一個置信度,當置信度較低的時候,檢測出來的人臉圖像實際上并非真正的面部圖片。因此,對檢測到的人臉置信度設置一個閾值,去除置信度較低的面部圖片,解決提取特征時輸入不含人的面部信息的問題。
然后利用ResNet-50網絡結構[15]提取512維特征向量能夠實現增加類內緊湊性和類間的差異。但是該方法不同的是在檢測到的人臉置信度較低的時候,提取到的面部特征仍作為視頻鏡頭內的一個主要特征并不能較好地表達該視頻幀中的人臉信息。因此本文算法中增加一個權值,解決置信度較低的人臉作為主要特征帶來的問題。
Zhou等[16]首先在數據集上隨機選取K個數據對象作為初始聚類中心,然后計算每個數據對象到中心的歐氏距離,并取其最小值作為中心點,形成K個聚類中心,并重復以上步驟到中心點不再變化為止。但隨機選取初始聚類中心易造成不穩定性。
因此Guo等[17]對上述的方法進行了改進,結合密度塊劃分的思想,提出基于初始聚類中心優化的K-means聚類算法。改進算法的基本思想:采用高密度對象更可能為聚類中心的思想,劃分了密度集合區間,充分考慮到了數據集的密度分布問題,大大減少了隨機性挑選初始聚類的中心。但是該方法需提前選取K值,并劃分塊數,當類別差別較大,并且無法確定時,難以確定K值。
為了解決無法準確選取K個初始聚類中心的問題,結合人臉識別的優點,提出了人臉識別和K-means聚類結合的方法。該方法的中心思想是:使用MTCNN從視頻幀的不同方向檢測出人臉,并提取出人臉特征,然后根據人臉自適應劃分集合,快速確定K值,最后通過多次調整,找到簇類中心。此方法可以快速收斂,并且聚類的精度也會提升,使用聚類獲取的關鍵幀作為索引。
改進的K-means聚類具體步驟如下:
(1)將神經網絡提取的特征序列排序Xn,將檢測到的第一個人臉特征作為簇的中心T。
(2)計算Xi到T的距離,并獲取最大值和最小值,并且進行歸類為N1,N2。其中n代表該類中人臉的數量。
(3)對N1類的人臉特征求取均值T,然后取所有人臉到T的距離,將距離最小的人臉特征所在的視頻幀作為關鍵幀;對N2類的人臉特征求取平均值Z,并取與Z距離最近的人臉特征作為該簇的中心T,重復第二步驟。
K-means聚類過程中,需要對提取的特征進行處理,Fi為第i個人臉特征,λ為檢測分數,Xi為加權后的人臉特征,則每個面部特征X如公式所示。

然后以第一個人臉特征作為簇的中心T,計算的距離為Diff,則獲取距離如公式所示。

在獲取到距離后,進行比對并進行求取距離比較近的類的中心T如公式所示。

檢索的過程中,相似度度量是歐氏距離,計算人臉特征向量X和人臉特征向量Y的距離。
如表1所示,在實驗的過程中將數據分為三類,分別是影視、娛樂和體育,其中影視涵蓋動作片、戰爭、懸疑等類別,體育涵蓋羽毛球、乒乓球、籃球等運動。

表1 不同方法在數據集中的對比
本實驗中驗證算法的有效性按照標準計算查全率、查準率和調和平均數的方法,如公式所示,并與其它最新技術進行對比。

其中,Nc表示正確找到的鏡頭數,Nm表示遺漏的鏡頭數,Nf表示錯誤找到的鏡頭數。Recall(R)是查全率,表示所有鏡頭中,正確找到的數量比例,Precision(P)是查準率,表示所有找到的鏡頭中檢索正確的比例,F-Measure(F1)綜合查全率和查準率的結果。本實驗的測試視頻數據來自IQIYI公開的數據集,用來驗證本文算法的效果,與原方法進行對比發現,平均查準率提升了1.1%,F1指標在方法對比中均較高,因此,本文方法可以用來檢索目標人物的視頻片段。
本文提出了一種結合人臉識別和改進的K-means聚類的視頻檢索方法,該方法提取視頻鏡頭的關鍵幀。改進方法去除了冗余特征,只保留能準確地表達鏡頭人物面部特征的信息,因此使用這些特征建立索引能夠提升視頻檢索的準確率。但是當遇到看不到人臉或者人臉不清晰的情況下,還需對人的頭部和身體姿態進一步研究,目標人物的視頻片段檢索將會達到更好的效果。