黃 立,朱定局
(華南師范大學 計算機學院,廣州 510631)
隨著5G 網絡技術的發展和視頻拍攝以及創作技術門檻的降低,包括以嗶哩嗶哩為代表的長視頻平臺和以抖音為代表的短視頻平臺的視頻規模、投稿數和用戶活躍度都得到了極速的增長,導致了現在互聯網上的視頻數據量呈爆炸式增長.以長視頻平臺嗶哩嗶哩為例,根據嗶哩嗶哩2020年第二季度的財報顯示,該平臺視頻創作者月均投稿量相比上個季度同比增長148%,日均視頻播放量達到了12 億次.面對大量的視頻數據,如何從這些視頻庫中檢索出人們所需的視頻,是當下面臨的一個挑戰.因此,許多視頻檢索系統也由此而誕生和引入.
本文旨在綜述基于語義的視頻檢索方法,在第1 節中詮釋了相關視頻術語,在第2 節中討論了基于語義的視頻檢索系統的結構,在第3 節中對基于語義的視頻檢索領域中的應用進行了概述,在最后第4 節中作了總結與展望.
視頻檢索技術的相關概念包括視頻檢索技術本身的分類和發展,以及視頻的基礎概念知識.
視頻檢索的檢索技術主要有兩種形式:基于文本的視頻檢索技術(Text Based Video Retrieval,TBVR)[1]和基于內容的視頻檢索技術(Content Based Video Retrieval,CBVR)[2].在基于文本的視頻檢索技術中,需要對視頻進行大量的手工注釋,這種方法的視頻檢索依賴于與每個視頻相關的元數據,例如標簽、標題、描述和關鍵字等,缺點是需要人工進行注釋.基于內容的視頻檢索技術的研發初衷就是為了解決基于文本的視頻檢索技術中的缺點,基于內容的視頻檢索技術能夠自動地識別視頻中內容的特征,例如顏色、紋理、形狀等,然后根據所提取的特征做進一步的處理,包括關鍵幀檢測提取、聚類和建立索引等工作.
語義表達是構建高效視頻數據索引的基礎,除了視頻畫面中所表現的各種物體顏色和形狀等信息,真正能夠讓人們識別視頻的關鍵因素還是視頻所表達的意義和概念.因此,基于語義的視頻檢索技術(Semantic Based Video Retrieval,SBVR)[3,4]是視頻檢索系統領域的重要研究方向.通常情況下,人類能夠準確感知視頻中的內容所表達的意義,但計算機的感知能力還遠不如人類般切實,這種差異化的表現被稱為語義鴻溝(semantic gap)[5,6].基于語義表達技術的核心思想是將從視頻的內容中提取到的低層特征與人類對這些特征的認知理解之間進行映射匹配,結構如圖1所示.

圖1 跨越語義鴻溝
視頻的屬性信息可以分為3 類:第1 類是顏色、形狀等視覺上可見的低層特征信息;第2 類是聽覺上的如響度和音調等,或是文字和符號等描述信息;第3 類是用戶能夠感知到的視頻中發生的事情的語義信息.能被用來確定視頻中所發生的事件的語義的信息包括:事件對象信息、空間信息和時間信息.提取不同模態的視頻特征的目的,就是為了彌合低水平特征和高水平語義概念之間的鴻溝.
視頻的結構自頂向下主要分為:視頻、場景、鏡頭和幀,如圖2所示.視頻是由許多場景組成,是一組連續靜態圖像的序列,同時敘述一個完整的故事結構.場景是一組在語義上相關、在時間上相鄰的鏡頭,是在相同的地點和連續的時間內進行描述的一個高級的概念.物理邊界描述了鏡頭,語義邊界則描述了場景.鏡頭是指使用單個鏡頭進行連續拍攝的片段,且視頻序列內容也沒有明顯變化,是一段視頻序列的基本組成單元,鏡頭邊界檢測(shot boundary detection)[7]是指將視頻片段分割到鏡頭層面的處理操作.幀是構成完整運動畫面的靜止圖像之一,是視頻中的最小單位.關鍵幀是由于連續幀之間的相似性,因此需要根據鏡頭內容的復雜性從單個鏡頭中選擇一個或多個關鍵幀,所選擇的關鍵幀即代表著當前視頻幀的內容.

圖2 視頻分層結構
基于語義的視頻檢索系統的總體結構如圖3所示.包括如下幾個部分:結構分析,包括鏡頭邊界檢測、關鍵幀提取和場景分割;特征提取,即從視頻圖像中提取特征;視頻挖掘,即對提取到的特征進行挖掘;視頻標注,即對提取特征的語義索引的構建和對相關知識的挖掘;用戶查詢,即在視頻數據庫中搜索所需的視頻;相關性反饋,即通過相關性反饋優化搜索結果.

圖3 基于語義的視頻檢索系統結構
首先通過鏡頭檢測算法將視頻分割成多個鏡頭,然后確定能夠代表該鏡頭的關鍵幀.
鏡頭邊界檢測是指將整個視頻流分割成多個鏡頭,在鏡頭邊界位置的幀與其下一幀在視覺特征上是相當不同的,這是大多數鏡頭檢測算法所依賴的基本原則.鏡頭邊界指的是連續鏡頭突變或漸變(如溶解、淡入、淡出、擦除等)的轉折點[8].鏡頭邊界檢測常用的方法有:閾值法[9]將幀與幀之間的相似性與預先設定的閾值進行比較;統計法將鏡頭的邊界檢測作為分類任務,可以采用支持向量機(Support Vector Machines,SVM)的監督學習算法[10]和模糊K-means (Fuzzy Kmeans)的無監督學習算法[11]等方法進行分類.
由于同一鏡頭的幀存在冗余,因此選擇一個或者多個最能反映鏡頭內容的幀作為關鍵幀來表示鏡頭,提取關鍵幀的關鍵在于選擇最能反映鏡頭內容同時盡可能避免冗余的幀[12].可以利用顏色直方圖、邊緣圖和低層形狀特征等方式確定關鍵幀,關鍵幀的提取可以基于順序比較[13]、參考幀[14]、聚類算法[15]和對象-事件模式[16]等.
特征是視頻數據中的描述性參數,視頻數據的特征描述一般分為:低層特征、高層特征、對象特征和運動特征等.
低層特征可以從關鍵幀中提取,包括從完整圖像中提取的全局特征和所選圖像部分的局部特征.顏色特征的典型表示包括顏色直方圖、顏色矩陣和顏色相干向量等,其中使用最多的是顏色直方圖,它描述了圖像中每種顏色的相對數量.紋理特征可以通過Gabor濾波器[17]、小波變換[18]、方向特征[19]和共現矩陣[20]等方式來提取.形狀特征可以通過連接物體的邊緣線,從關鍵幀的物體的輪廓中提取.邊緣直方圖描述符(Edge Histogram Descriptor,EHD)[21]是一種用于邊緣檢測的算法,使用直方圖描述邊緣的分布.
對象特征包括對象所在區域內的顏色、形狀和紋理等特征,可以根據這些相關特征來返回可能包含相似對象的視頻片段.對象表示法是一種描述對象的方法,通過該方法可以方便地從視頻流中檢測和檢索出對象.一般可以用物體的形狀來表示,例如基于原始的幾何形狀、輪廓和邊界線,也可以用物體的外觀來表示.對象特征的缺點是視頻中對對象的識別比較復雜,目前還是主要專注于識別對象的特定部分,比如僅針對手部等.
運動是動態視頻的基本特征,它攜帶了視頻的時間信息,與顏色、紋理等其他特征相比,更接近于客觀的語義概念.基于運動的特征分為兩類:第1 類是基于相機鏡頭的運動特征,例如放大縮小、向左向右平移、向上向下傾斜等;第2 類是基于物體本身的運動特征.運動統計法[22],視頻幀中的點在視頻中形成運動分布圖,從而提取統計運動的特征.運動軌跡法[23],通過對視頻中物體運動軌跡的建模,提取軌跡特征,這些特征的準確性依賴于運動視頻中正確的分割和目標跟蹤.對象關系法[24],對多個對象之間的關系進行描述,而這些特征的缺點是很難標記每個對象及其位置.
視頻中的文本是對視頻進行自動標注和建立索引的關鍵信息,幀或幀序列中的文本會根據其不同的屬性展示不同的變化,如運動狀態、顏色狀態、幾何狀態以及邊緣狀態等.由于文本區域對噪聲比較敏感,在分辨率較低時,需要對文本特征進行增強處理,同時可以采用光學字符識別(Optical Character Recognition,OCR)技術提取文本特征并將其轉換為純文本.
視頻挖掘是從視頻數據中挖掘發現特定的匹配模式及其相關性,從而提取出未被發現的內容的過程.
視頻的語義事件是人們在觀看視頻時能夠理解的高層次語義信息,視頻事件的檢測技術試圖使計算機對事件的感知能力接近于人類對事件的感知能力.而導致計算機對視頻事件理解困難的原因有很多,例如目標檢測和跟蹤的不準確、某些事件的畫面發生變化、不同事件的畫面表現相似、事件語義的定義解釋存在歧義等.
使用無監督或半監督學習技術來自動檢測未知的匹配模式,利用匹配模式可以檢測挖掘出與當前匹配模式不同的非尋常事件.匹配模式挖掘還可以發現一些特殊的內容,例如挖掘相似的運動模式[25]和挖掘相似的目標對象[26].
視頻關聯挖掘可以定義為檢測不同事件之間的未知關系,識別不同對象之間的關聯模式的過程.
在基于語義的視頻檢索中,視頻標注是為視頻鏡頭分配語義概念的過程,如人、車、天空和行人等.視頻標注和視頻分類的一個不同之處在于視頻分類一般適用于整個視頻,而視頻標注通常使用的是視頻鏡頭作為基礎組成單元.由于視頻標注技術有助于彌合語義鴻溝,因此它也是視頻分析任務的基礎,自動化生成視頻標注至今仍然是一項艱巨的任務.基于學習技術,視頻標注可以分為3 類:監督學習[27]需要足夠數量的標記訓練樣本來學習每個概念的具有魯棒性的檢測器,并且需要的數量隨著特征維數的增加而急劇增加;主動學習[28]是將無標記樣本與監督學習技術相結合來解決無標記樣本問題的一種有效方法;半輔助學習[29]也是一種利用未標記樣本增加已標記樣本信息的有效方法.
視頻檢索的目的是返回用戶查詢的最相關的視頻,而不同的提交查詢數據會得到非常不同的查詢結果.
查詢類型可以分類為基于非語義的查詢,例如按對象查詢和按示例查詢等,以及基于語義的查詢,例如按關鍵字查詢和按自然語言查詢等.按示例查詢,用戶提供一個圖像或視頻作為示例,以便在該查詢中檢索所需的視頻.從特定的圖像或視頻示例中提取低層特征,然后通過特征相似性度量確定相似視頻;按草圖查詢,視頻草圖由用戶繪制,以便使用它們檢索所需的視頻;按對象查詢,利用用戶提供的對象圖像,在系統視頻數據庫中檢索出現的所有該對象;按關鍵字查詢,用一組關鍵字描述用戶的查詢,它能夠從視頻中獲得一定程度的語義信息;按概念查詢,也稱為語義查詢,它是關鍵字查詢和示例查詢的擴展,用以縮小查詢結果范圍,它依賴于具有與視頻內容信息相關概念的語義標注;按自然語言查詢,這是表示語言查詢中最自然也是最合適的方向,這種類型查詢的難點在于分析和從自然語言中派生出正確的語義信息;基于組合的查詢,集成各種類型的查詢,如關鍵字查詢和對象查詢,它適用于多模型的系統.
根據用戶對檢索系統的查詢提交,將相似度度量技術應用于數據庫中的視頻檢索.一些常見的相似性度量依據包括歐氏距離(Euclidean distance)、平方弦距離(squared chord distance)、卡方距離(chi-squared distance)、發散度和相關性等.根據查詢類型,選擇用于度量視頻相似性的方法.特征匹配方法[30]根據對應幀的特征之間的距離來度量視頻與查詢條件之間的相似度.文本匹配方法[31]采用歸一化處理后的向量空間模型來計算概念描述文本與查詢文本之間的相似性.組合匹配方法[32]結合不同的匹配方法,它能夠適應多種模式.
相關性反饋將用戶查詢條件帶入系統循環檢索,用以縮小提交查詢所表示的內容和用戶所想內容之間的差距.相關性反饋是對檢索結果的優化,相關性反饋根據查詢條件和返回視頻之間的相似性,對檢索到的視頻進行評分排名來反映用戶所表達意思的優先級.根據檢索結果列出視頻,以便于最相關的視頻在檢索列表的頂部呈現給用戶.顯式相關性反饋[33]要求用戶確定選擇相關的視頻,顯式反饋因為直接利用了用戶的反饋,所以反饋效果較好,但也需要更多的互動和用戶的配合.隱式相關性反饋[34]當用戶點擊檢索到的視頻時,記錄此次點擊用以優化檢索結果,與顯式反饋不同,隱式反饋不需要用戶協作,更容易被接受和實施,但從用戶處收集的信息不如顯式反饋的信息精確.偽相關性反饋[35]在沒有用戶干預的情況下,從已有的檢索結果中選擇正樣本和負樣本,再將這些樣本送回系統中進行研究處理,雖然偽相關性反饋無需與用戶進行交互,但語義的理解差距導致偽相關性反饋在應用中受到一定限制.
近年視頻檢索技術在商業、工業和教育等領域都進行了一定規模的應用,以下選擇主要從視頻盜版檢測、視頻廣告監管以及其他方向的應用進行闡述.
隨著互聯網技術的發展,近年來中國網絡核心版權的產業規模迅速增長,核心版權包括大眾所熟知的視頻、音樂、文學、游戲、廣告以及圖片等,國內視頻網站也越來越重視版權價值并將維護版權作為發展重點.與此產生鮮明對比的是網絡視頻盜版給企業特別是著作權方帶來了嚴重的損失,并且這種影響是全球性的,盜版造成的損失與正版產生的收入呈正相關,在越來越多正版視頻出現的同時,視頻的盜版現象也越來越嚴重.典型的侵權模式主要是用戶通過下載、破解等手段從擁有正版版權的視頻網站上非法下載內容,經過一些包括添加水印、廣告在內的剪輯、加工處理后,將盜版文件上傳至網盤、集合類視頻網站等平臺供其他用戶非法下載觀看從而獲取不正當收益.
視頻檢索技術可以實現在大規模的視頻數據中檢索出近似重復的視頻片段,便于精準、快速打擊盜版視頻.Chou 等[36]提出了一種基于時空模式的分層過濾框架下的近重復視頻檢索與定位方法,通過基于模式的索引樹(Pattern-based Index Tree,PI-Tree),快速過濾掉非近似重復的視頻,再設計基于m 模式的動態規劃(m-Pattern-based Dynamic Programming,mPDP)算法來定位近似重復的視頻片段.da Silva 等[37]提出了一種相似自連接(similarity self-join)的聚類策略,視頻數據集中所有彼此相似的元素進行自連接操作,將近似重復的視頻片段聚集起來進行定位.當被盜視頻被進行一些加工處理,例如被添加廣告水印或被做了剪輯時,對近似重復視頻檢索技術便會產生一定的影響造成一定程度的誤判.為提高在視頻畫面發生變化時檢索的準確率,D’Amiano 等[38]提出了一種用于檢測和定位畫面發生一些變化的被拷貝視頻的方法,通過快速隨機化Patch 匹配算法和分層分析策略,對被遮擋、旋轉和壓縮的近似重復視頻片段也具有較好的檢測和定位能力.
視頻廣告作為數字視頻中的一個重要組成部分,正潛移默化地影響著人們的生活,其作為商業信息的重要載體,在傳遞商業信息上起著無可替代的作用.隨著視頻廣告數量的不斷增加和廣告播放方式的多樣化,通過視頻檢索技術對特定廣告進行監管和識別,有利于支撐廣告動態分成業務生態,輕松把控廣告投放的時間、次數等,同時保障了廣告版權方和投放平臺的利益,另外,基于此技術可以進行廣告的高效識別、替換及廣告位競拍.
在海量視頻集中對廣告商品準確、快速的識別和定位,有利于平臺的廣告監管部門對視頻中出現的廣告進行把控和管理,可以實現通過廣告的分布合理評估營收等應用.Xu 等[39]提出了一種引入高集成度的多級特征集成模型的方案,通過更緊密地融合視覺與文本特征信息,再根據輸入的文本數據,如特定廣告物品描述文本,利用一種雙層的長短時記憶(Long Short-Term Memory,LSTM)模型直接預測句子查詢和視頻片段之間的相似度分數,再使用分段網絡過濾掉目標物品不存在的視頻片段,從而可以對出現目標廣告物品的視頻片段實現定位.Mithun 等[40]提出了一種多模態視覺線索檢索的框架,根據多模態的視覺線索使用多專家系統(mixture of expert system)進行檢索.為了能夠更有效地利用視頻中可用的多模態線索來完成視頻文本檢索的任務,多專家系統注意力主要聚焦于3 個較為顯著和穩定的視頻線索,即物體、活動和地點,通過對廣告商品在這3 個方面較完整的文本描述,檢索文本與系統模型的組合可以進行較高質量的檢索定位工作.相比直接使用文本進行對廣告商品的檢索,當文字概念描述與廣告商品本身不容易契合時,使用商品圖片進行檢索也是一個可用的選擇.Garcia 等[41]提出了一種基于深度學習(deep learning)架構的非對稱時空嵌入(asymmetric spatio-temporal embedding)模型,用以在視頻集合中根據余弦相似度(cosine similarity)找到與輸入物品圖像最匹配的視頻片段.Cheng 等與Alibaba Group 一同提出了一種新的深度神經網絡模型AsymNet[42],目標是將視頻中出現的商品衣物與線上店鋪中相同的商品進行匹配.從每個視頻幀的被檢測目標區域中提取深度視覺特征,并將其輸入到LSTM 框架中進行序列建模,再對視頻的LSTM 隱藏狀態與從靜態圖像中提取的圖像特征進行聯合建模,實現視頻中的商品與網上購物圖像的精確匹配,樣例效果如圖4所示,虛線左邊為視頻片段,右邊為商品圖,方框圈出部分為匹配結果中細節裝飾的差異.

圖4 AsymNet 模型的部分檢索匹配結果[42]
視頻檢索技術除了應用在商業視頻領域,例如視頻盜版檢測和視頻廣告監管等方向之外,還可以應用于城市建設、智能交通、安防監管和教育視訊等領域.平安城市建設作為全國范圍的以視頻監控應用為主導,兼顧城市管理、交通管理和應急指揮等應用的綜合體系,自然成為智能產品和技術應用的重點.隨著感知型攝像機的硬件實力配合云計算的強大算力進入現實應用中,可以對海量視頻數據進行分析以實現基于語義的視頻檢索應用,例如高危人員比對、人臉照片檢索、全身像檢索、車輛視頻管控和防區視頻管控等智能應用.隨著城市汽車保有量的迅速增長,交通問題日漸突出,交通監視控制系統、交通誘導系統和信息采集系統等在交通管理中逐漸發揮越來越大的作用,視頻檢索技術運用在交通領域可以實現對包括車牌、車標、車型、車輛顏色和司乘人員等信息進行自動檢索,對各類交通違法事件也可以實現智能監測.由于公安、司法監所關押人員的特殊性,安全管理工作尤為重要,智能視頻檢索技術用在監獄監所中,可以實現警戒線檢測、劇烈運動檢測、起身檢測、區域逗留檢測、視頻遮擋檢測等應用,方便快速發現監所內人員及設備的異常狀況,及時做出處理措施,有效遏制所內各類突發事件進一步發展.在教育信息化的大背景下,傳統的現場教學已經無法滿足遠程教學、后期回看等教學要求.通過視頻檢索技術,可以實現對教師教學細節的跟蹤記錄,后期可根據教學場景進行畫面切換,為學生、老師實時或后期觀看時提供更好的體驗.
將視頻內容具有的特征轉化為人類的語義概念,是近年來備受關注的研究課題.本文綜述了基于語義的視頻檢索技術的研究,視頻檢索算法的本質任務是根據用戶提交的查詢,從給定的數據集合中返回相似的視頻,挖掘和提取視頻信息中的語義概念以及如何跨越語義鴻溝的問題仍然是現今視頻檢索系統中面臨的主要挑戰.目前還沒有一種完全通用的框架可以用于各種視頻的語義特征提取,當前檢索系統的研究應用大多是為了提高特定領域的檢索性能和效率.當系統自動檢測語義的特征時,更精確的檢測設備對于檢測結果準確率的提高有很大幫助.相關性反饋通過收集用戶在搜索過程中的反饋信息,是對查詢進行迭代更新的有效方法,查詢結果得到改進,檢索性能也會得到提高.檢索模型對檢索結果具有決定性的影響,通過合理的策略組合獲得多模態和多概念的學習模型,可以發揮檢索模型和多概念學習模型各自的優勢,提高檢索系統的性能.雖然在視頻檢索領域已經做了大量的科研工作,但仍有一些方向可以進一步研究發展:
(1)分層次解析視頻內容畫面的特征信息,以選擇合適的特征用于語義概念檢測.視頻在不同的層次上通常會包含不同的語義信息,按照特定的規則提煉不同層次的語義信息,再針對不同層次的特征使用不同的映射或學習方法,可以減小單層特征信息交叉解析時帶來的影響偏差.
(2)提升概念探測器的性能,提高概念檢測的速度和精度.在用戶進行查詢條件輸入時,可以直接從中提取高級語義概念將其轉換生成合適的概念檢測器,對視頻片段中的語義概念進行檢測,縮減處理流程.再通過循環迭代接收相關性反饋信息,根據反饋不斷完善檢測方法提升檢測精度.
(3)融合不同的機器學習方法獲得更準確的語義概念.如何提高對廣泛概念的識別性能仍然是一個極具挑戰性的問題,尤其是對于較稀有的概念.近年來通過引入各種不同的機器學習方法,結合跨模態檢索技術對視頻片段的語義概念構建準確度對比傳統方法有顯著的提升,結合深度學習的檢索方式已然成為視頻檢索領域的熱點.