□萬玉萍 楊 玲
在通信與互聯網普及的今天,數字視頻在網絡上的傳播更加容易,在全世界范圍內形成了海量的數據庫。面對這些海量的視頻信息,如何對它進行有效地組織、管理、分類以及檢索,近年來已經成為國內外眾多學者研究的主要熱點之一,也是極具挑戰性的研究課題。
目前,視頻分類的主流解決思路是采用基于視頻內容的處理和檢索,主要通過以下兩類方式實現:
一、部分區域固定特征監測方式。即通過逐幀的分析視頻圖像,定位圖像中需要查詢的相關特征,根據此特征的匹配程度,確定圖形和視頻是否屬于暴恐視頻。此類方法的代表性處理手段有:匹配暴恐組織旗幟或臺標,匹配服飾特征,匹配特定性人物等。通常要實現此類方法,需要采用人臉識別、紋理識別、相似度計算等方法。
該方式的缺點是由于過度依賴固定特征和固定區域,當暴恐視頻內容發生變化時,難以有效區分。具體而言,在采用一些暴恐組織的旗幟、臺標等特定特征進行識別時,對于基于該類組織的暴視頻的識別效果會比較好。然而一旦出現新的暴恐組織或者該組織改用新的旗幟和臺標,即這些特定特征發生變化了,新的暴恐視頻就很難在該類識別算法中被分類出來。
二、圖像整體特征方式。即通過圖像特征提取算法,獲得圖像整體系統特征,通過大量數據的訓練,獲得分類器模型,利用此分類器模型實現對后續的圖像視頻的分類識別。此類方法中采用的圖像特征提取算法通常有:SIFT 算法、灰度共生矩陣法、傅里葉功率譜法等。
該方式的缺點是由于采用的是固定特征提取算法,當視頻中摻雜了干擾數據后,此類算法將會獲得大量帶噪音的特征,極大降低分類的效果。尤其在海量數據下,難以適應特定需求。具體而言,在采用一些現成的暴恐視頻比如暴恐組織進行教授爆炸物制作方法的視頻進行整體特征提取后,一旦遇到跟此特征比較相似行為的視頻(如影視劇中相似的情節,甚至是動畫片中有類似的情節)等,都可能會被歸類為暴恐而被識別出來,導致分類效果大打折扣。
通過對現有視頻分類技術深入分析,現在出現了基于內容的深度網絡特征的視頻分類技術,該技術分為線下訓練和線上預測兩大部分。
線下訓練部分:用戶提供同時包含敏感視頻和正常視頻的訓練數據。該技術從這些訓練數據中提取視頻幀并利用深度人工神經網絡從中抽取能夠表示視頻內容的視覺特征。深度神經網絡在一定程度上模仿了人腦對于外在世界的從粗到細的視覺感知過程。因此,較傳統經驗設計的諸如顏色、紋理、SIFT 直方圖等特征,基于深度網絡得到的視覺特征能夠在多個粒度上更有效地描述視頻內容。因此該種特征特別適用于分析含有復雜內容的視頻數據。再進一步通過結合后續的有監督學習,該描述能夠自動識別區分暴恐視頻與正常視頻的視覺模式。該技術與其他視頻檢索分類算法相比,其優勢在于識別過程不依賴于人為指定的特征庫,比如特定臺標、旗幟等,這就使得該技術對于未知暴恐視頻有更好的適應性。
分類器訓練模塊主要是建立用于區分敏感視頻和正常視頻的決策模型。考慮到訓練數據量很大,且正負樣本分布極不平衡,即敏感視頻相對只占極少部分。因此,傳統的分類器訓練方法在此場景下并不適用。為此,設計了一種基于迭代集成學習的訓練算法,即通過多次加權采樣,解決大數據量和樣本分布不平衡問題——綿羊sheep。該技術通過多輪迭代,自動從海量數據中找到最容易被錯分為sheep的訓練樣本。將這些樣本加到線下訓練部分,可提高視頻分類技術的判別能力。
線上預測部分:未知視頻數據。同樣調用特征提取模塊從中抽取視頻特征,然后利用已訓練好的決策模型對它們進行預測,并返回可能性最大的視頻供人工檢驗。在保證100%召回率(把所有目標視頻都找到)的前提下,該技術能夠有效排除大量正常視頻,從而極大提高人工檢索的效率。
將一組(10 個)暴恐測試視頻的視頻幀集隨機摻入一個包含120 萬張網絡圖片的數據集中,技術對所有圖像、視頻進行打分并排序,檢查需要查看多少張圖片,才能完全找到這10 個暴恐視頻(檢測準確率)。
這10 個暴恐視頻,在技術打分排序后的位置分別為:第1,24,28,35,69,90,121,123,125,135 處。也就是說要完全確定這10 個暴恐視頻,只需要人工查看前135 個預測結果即可,檢測準確率為:10/135=7%
在上述實驗中,針對模糊暴恐視頻如何提高技術的識別分類能力。采用增加訓練集合樣例的方式,重新訓練模型。讓技術識別能力得到進一步提升。為個別類型的視頻,建立單獨的分類器,從而更精確區分特殊視頻。利用音頻處理技術,實現對特定暴恐聲音分類,輔助于圖像的分類技術,將會進一步提高視頻的檢測準確率。