李想
(武漢郵電科學研究院湖北武漢430000)
隨著互聯網技術的快速發展,數據量呈指數式的增長,伴隨著移動互聯網的浪潮,我們真正進入了大數據時代。于此同時,視頻作為網絡數據的重要組成部分,其數目也在飛速增長,如何管理這些視頻信息,已成為很棘手的問題。視頻檢索技術的出現使得我們能提取視頻關鍵信息,而深度學習的出現使得我們能對視頻中敏感信息進行高效準確的分類,從而能得到敏感信息。
第二部分是基于深度學習的分類模型,該模型用于將得到的關鍵幀進行分類,檢索我們需要的信息。本文設計了一種基于深度學習的網絡模型VGG16,它是一種卷積神經網絡。由一系列的偏置項和權重項的神經元組成,每個神經元都接受若干輸入,并進行點積計算。將結果進行非線性處理,最后通過分數函數進行預測。整體設計流程圖如圖1所示。

圖1 總體設計流程圖
本文設計分為兩部分,第一部分為視頻關鍵幀提取部分,設計一種算法從一段視頻中提取一段關鍵幀序列,用來代表整段視頻的主要內容。該算法對整段視頻進行鏡頭邊界檢測,對于任何一個鏡頭,我們將第n/2作為其關鍵幀,然后生成一個視頻關鍵幀候選的序列,對該段序列進行K-Means聚類,通過聚類的有效性分析方法選取最佳的聚類數量。最后對于每一類選取聚類中心的幀作為視頻的關鍵幀[1-4]。
本文設計的關鍵幀提取算法分為3部分:視頻特征的提取、視頻邊界檢測、關鍵幀序列的聚類。
特征,即對應某一對象某些可量化的屬性。對于視頻來說,主要分為通用性特征和針對特定領域的特征[5-6]。針對視頻的多樣性,本文考慮的是通用性特征。總結考慮到關鍵幀提取速度、圖像特征提取的高效性,圖像特征選為顏色直方圖和顏色分部描述子。
一般來說圖像顏色的表示都是基于顏色空間的,例如 RGB、HSV、YCbCr等[7-8]。本文設計的算法是在HSV顏色空間中生成的顏色直方圖,其中H分為16份,S和V分為4份,所以生成了256個直方圖索引。首先對直方圖索引進行初始化即:Hist(h,s,v)=0,直方圖的兩幀fi和fj的相似度可以定義為:

其中0表示兩圖的顏色直方圖差距最大,1表示相同。對于顏色分部描述子,它是用來描述圖像中顏色的空間分部該特征提取過程分為:圖像分塊,即屬于圖像分為64個等大的區域;主導顏色選擇,即每一塊選取一個主導顏色并生成一個8*8的微縮圖;對64個像素的Y、Cb、Cr分量進行離散余弦變換,得到3組系數;最后對得到的離散余弦洗漱進行Zigzag掃描,從中選取少量的低頻系數構成改頭像的分部描述子。分別記為Dy、DCb、DCr.此時定義幀fi和幀fj之間的距離為

其中DYik表示幀fi的Y分量的離散余弦系數的第k項,wYK對應其權重;越接近0表示兩幀圖像越相似,圖像描述子方便在不進行視頻切割的情況下,對圖像進行快速檢索。
本文的邊界檢測基于突變型的鏡頭切換,根據視頻領域變換的特點,給出了鏡頭邊界系數的定義,該系數抗噪能力強。設鄰域窗的寬度為2N+1,所以第i幀的鄰域窗幀差為:

其中K=N(N+1)/2。相對而言,鏡頭內的變化比鏡頭間的變化小的多;若鏡頭內任意兩幀距離為Ds,鏡頭間為Db,顯然Ds<<Db,若此時N取3,切第K幀和第K+1幀發生鏡頭突變,則可得去常數序列Osw(j)為(1,3,6,6,3,1),定義第i幀鏡頭邊界相似系數:

根據前面所得,當相鄰幀之間切換時,鏡頭邊界相似系數接近1,其余情況下為0與1之間一個較小的值。圖2為某段視頻的視頻邊界系數。

圖2 視頻邊界系數圖
圖中的峰值點對應于鏡頭切換,非邊界處鏡頭邊界系數較小,這使我們更好的選取閾值,本文中取0.85,當且僅當鏡頭邊界系數大于該值時,我們認為檢測到了鏡頭邊界。
由于同一鏡頭可能重復出現,這將導致我們得到的關鍵幀序列出現重復,為了降低最終得到的關鍵幀序列的重復性,我們對關鍵幀序列進行了聚類操作:即K均值聚類,最后通過聚類的有效性方法確定K值[9-10]。
本文的評價方案是M.Halkidi提出的,定義了聚類性能指標SD(c)=aScat(c)+dis(c),其中Scat(c)為單一類的類內距離,a為Dis(c)表示類之間的距離,由于此兩項的取值范圍相差較大,故設置一個權重因數a,也就是Dis(cmax),其中cmax為最大預設聚類數量。當且僅當該值最小時取得的c,為最優聚類數量。
文中用到的神經網絡是基于卷積神經網絡,它是由一系列的偏置項和權重向的神經元組成[11-15]。具體結構如圖3所示。
VGG16模型是一種卷積神經網絡模型,數據通過帶有偏置項和權重項的神經元輸入,然后進行點積,對結果進行非線性處理和分數函數預測。本文應用的VGG16模型采用BP算法來求解目標函數,采用將輸出的算是函數誤差反向傳播到各層的輸出單元上,求解權重梯度,之后更新權重參數。利用BP算法反復迭代減少誤差,以此來完成整個模型的訓練。

圖3 VGG16模型結構圖
訓練過程中學習率為0.01,動量為0.9,權值衰減為0.000 5,每迭代10個epoch學習率衰減10倍,每迭代100次顯示一次,最大迭代次數為30個epoch。
本部分主要對上文中設計的網絡模型進行測試和并通過對比選出最優結果。選取如表1所示的樣本集。

表1 各類訓練集和測試集樣本數一覽表
針對Others類(安全類,負樣本)非常多,其它不安全類所占比例非常小(250:1)的問題,提出在訓練分類模型時,增大Others類訓練樣本在整個訓練集中所占的比例。這里我們實驗了3個模型,其它不安全類訓練樣本數不變,Others類樣本數分別為25 000、50 000、100 000。并通過我們設計的模型進行訓練,結果如表2~4所示。
其中,TP為系統檢索到的相關文件數,TP+FN為系統所有相關的文件總數,TP+FP為系統所有檢索到的文件總數,Recall為系統召回率,Precision為系統準確率。
把表格結果各個類的召回率和準確率用折線圖表示出來如圖4所示,橫坐標表示Others類樣本數增加:

表2 訓練集Others類樣本數為25 000

表3 訓練集Others類樣本數為50 000

表4 訓練集Others類樣本數為10 0000
由圖表實驗結果可以看出,隨著Others類訓練集樣本數增加,系統平均Recall(召回率)下降,Precision(準確率)上升。當Others類訓練集樣本數為50 000時,系統平均召回率為0.793 158,準確率為0.719 958。當Others類訓練集樣本數為100 000時,系統平均召回率為0.755 652,準確率為0.723 318。兩個模型都滿足要求。從折線圖可以看出,隨Others類訓練集樣本數增加,系統召回率下降較快,并且有一半以上的類在Others類訓練集樣本數為50 000時,準確率最高。所以我們認為當Others類訓練樣本數為50 000時,模型分類效果最好。

圖4 Others類增加時類召回率(圖a)與類準確率(圖b)曲線圖
本文針對視頻中如何快速檢索敏感信息的問題,首先通過基于邊界相似系數的關鍵幀提取算法提取能表示視頻主要內容的關鍵幀,然后可以通過應用的VGG16模型進行敏感信息快速檢索。為了驗證該模型的有效性及最優性,文章最后對該模型進行測試驗證,并通過改變Others類的數目對比試驗,確定了最優模型。
[1]曹長青.基于內容的視頻檢索中關鍵幀提取算法研究[D].太原:太原理工大學,2013.
[2]汪翔.基于內容的視頻檢索關鍵技術研究[D].合肥:安徽大學,2012.
[3]惠雯,趙海英,林闖,等.基于內容的視頻取證研究[J].計算機科學,2012,39(1):27-31.
[4]夏潔,吳健,陳建明,等.基于虛擬檢測線的交通視頻關鍵幀提取[J].蘇州大學學報:工科版.2010,30(2):1-5.
[5]Jia Y,Shelhamer E,Donahue J,et al.Caffe:Convolutional architecture for fast feature embedding[C].ACM Multimedia,2014.
[6]Ross Girshick,Jeff Donahue,Trevor Darrell,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[J].Computer Science,2013:580-587.
[7]Pass G,Zabih R.Histogram refinement for content-based image retrieval[C]//IEEE Workshop on Applications ofComputer Vision.IEEE Computer Society,2012:96-102.
[8]He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[J]. Computer Science,2015.
[9]Angadi S,Naik V.Entropy based fuzzy c means clustering and key frame extraction for sports video summarization[C]//Signal and Image Processing(ICSIP),2014 Fifth International Conference on.IEEE,2014:271-279.
[10]Charikar M S.Similarity estimation techniques from rounding algorithms[C]//Thiry-Fourth ACM Symposium on Theory of Computing.ACM,2010:380-388.
[11]Yoo D,Park S,Lee J Y,et al.Multi-scale pyramid pooling for deep convolutional representation[C]//Computer Vision and Pattern Recognition Workshops.IEEE,2015:71-80.
[12]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J].Advances in Neural Information Processing Systems,2012,25(2):2012.
[13]Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J].Eprint Arxiv,2014.
[14]Yoo D,Park S,Lee J Y,et al.Multi-scale pyramid pooling for deep convolutional representation[C]//Computer Vision and Pattern Recognition Workshops.IEEE,2015:71-80.
[15]Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C].ComputerVision and Pattern Recognition,2015.