龐尚珍 馮 雪
[摘要]隨著信息技術(shù)不斷發(fā)展,視頻信息越來越廣泛的應(yīng)用,如何快速有效地進(jìn)行視頻檢索變得越來越重要。詳細(xì)介紹基于內(nèi)容的視頻檢索技術(shù)的國內(nèi)外發(fā)展現(xiàn)狀和常用算法,并介紹現(xiàn)有虹膜識別技術(shù)中存在的主要問題。
[關(guān)鍵詞]信息技術(shù) 視頻檢索 算法研究
中圖分類號:TP3文獻(xiàn)標(biāo)識碼:A文章編號:1671-7597(2009)0910048-01
一、引言
隨著信息技術(shù)和計算機(jī)互聯(lián)網(wǎng)的飛速發(fā)展,視頻信息因其內(nèi)容的豐富性,直觀性以及巨大的信息量在醫(yī)療、衛(wèi)星遙感、地質(zhì)探測、科學(xué)考察、影視娛樂、教育和在線信息服務(wù)等領(lǐng)域得到了越來越廣泛的應(yīng)用。然而,由于視頻數(shù)據(jù)量的巨大和數(shù)據(jù)格式的非結(jié)構(gòu)化特點,有效地訪問和檢索視頻內(nèi)容變得十分困難。因此,如何有效、準(zhǔn)確的進(jìn)行視頻檢索已經(jīng)成為多媒體領(lǐng)域一項重要的、迫切需要解決的問題。
二、國內(nèi)外研究現(xiàn)狀
傳統(tǒng)的視頻檢索技術(shù)是基于對視頻內(nèi)容描述的文本的檢索,而基于內(nèi)容的視頻檢索,是根據(jù)視頻的內(nèi)容和上下文的關(guān)系對視頻數(shù)據(jù)庫中的視頻數(shù)據(jù)進(jìn)行檢索,是要從視頻的所有幀中提取主要內(nèi)容,并從下至上地對視頻內(nèi)容進(jìn)行結(jié)構(gòu)化描述。目前,國內(nèi)外的研究人員已經(jīng)對基于內(nèi)容的視頻檢索作了一定的研究,并且取得了一定的成果。
目前,已開發(fā)出的基于內(nèi)容的視頻檢索系統(tǒng)主要分為兩類[1]:一類是按提供的圖像示例進(jìn)行檢索。這種系統(tǒng)首先提取示例的圖像特征矢量,再與圖像庫中的圖像特征矢量進(jìn)行比較,尋找相似的圖像;另一類是直接按照指定的圖像視覺特征進(jìn)行檢索。這種系統(tǒng)將顏色、紋理、形狀等視覺特征轉(zhuǎn)化為特征矢量與數(shù)據(jù)庫中的事先提取的圖像視覺特征矢量進(jìn)行匹配。無論是哪一類系統(tǒng),實現(xiàn)基于內(nèi)容的視頻檢索,均需要對視頻進(jìn)行如下處理和分析:視頻分割、關(guān)鍵幀提取、特征提取與分析、視頻內(nèi)容組織和相似性比較。
(一)視頻分割
視頻是非結(jié)構(gòu)化的二維圖像流序列,它的基本組成單位是幀,視頻流是具有時序關(guān)系的幀的集合。一秒的視頻約包含24-30幀,以幀為查詢單位,計算量過大,從而導(dǎo)致查詢時間過長,因此,通常將視頻分割成合適的視頻單元鏡頭,從分割后得到的鏡頭中提取關(guān)鍵幀作為基本的查詢單位進(jìn)行視頻片段的匹配查詢。視頻分割就是研究如何對視頻進(jìn)行有效分割,使得分割后的視頻單元能夠較為準(zhǔn)確地表達(dá)相對完整的內(nèi)容,以便于視頻檢索和瀏覽。
目前,視頻的分割方法常用的有基于時域信息的運(yùn)動分割法和基于時空信息的聯(lián)合分割法。
基于時域信息的運(yùn)動分割法,是根據(jù)運(yùn)動信息的均一性估算圖像的運(yùn)動區(qū)域,常用的閾值法[2],統(tǒng)計算法[3],光流場分割法[4]均屬于這一類。閾值法和統(tǒng)計算法比較簡單,但均需要人為地預(yù)先設(shè)定閾值,因此不具有自適應(yīng)性;光流場分割法復(fù)雜度比較高,難以實現(xiàn)實時性。在不要求計算出每個像素的精確運(yùn)動矢量時,可將視頻幀分割成互不重疊的像素塊,用塊運(yùn)動矢量場來描述幀間運(yùn)動[5],在精度和復(fù)雜度之間得到折中。
基于時空信息的聯(lián)合分割法[6],這種方法是通過空域分割將圖像分割為具有準(zhǔn)確邊界的語義區(qū)域,時域分割定位圖像的運(yùn)動區(qū)域,最后綜合空域和時域的分割結(jié)果進(jìn)行區(qū)域融合,得到較好的視頻分割結(jié)果。
(二)關(guān)鍵幀提取
鏡頭通常是在一個場景下拍攝的,所以一個鏡頭下的各幀圖像會有相當(dāng)多的重復(fù)信息,因此,通常選取能夠描述鏡頭主要內(nèi)容的幀作為關(guān)鍵幀,根據(jù)內(nèi)容的復(fù)雜程度,一個鏡頭可以有一個或多個關(guān)鍵幀。常用的關(guān)鍵幀提取主要有三種[1]:1.固定間隔抽取法。這種方法是最簡單的關(guān)鍵幀提取法,運(yùn)算量小,但是這要提取關(guān)鍵幀有可能遺漏持續(xù)時間較短的鏡頭。2.基于圖像特征提取法。基于圖像的特征,如顏色特征,運(yùn)動信息等的提取方法,能夠提取最不相關(guān)的幾幀作為關(guān)鍵幀,包含最多的信息;但是,關(guān)鍵幀的數(shù)量依賴于圖像內(nèi)容隨時間的變化情況,計算量大。3.視頻幀聚類法。得到的聚類在聚類內(nèi)和聚類間距量度上都是最優(yōu)的,最靠近聚類質(zhì)心的一幀被選為關(guān)鍵幀。聚類后可以很好的避免相似鏡頭的跨類存在,檢索時可減少相似性比較的范圍。如文獻(xiàn)[7]中所述,聚類后將特征相似的鏡頭劃分為一類,如圖1所示。這種方法在近年的視頻檢索研究中被廣泛應(yīng)用。

(三)特征提取與分析
視頻特征提取主要包括高層內(nèi)容語義特征提取和低層或中層物理特征提取[1][8]。低層或中層物理特征提取主要是從視頻關(guān)鍵幀中提取顏色、紋理、形狀、空間特征,運(yùn)動等低中層特征以及MPEG-7中定義的視覺特征描述子。高層內(nèi)容語義特征提取主要包括利用OCR技術(shù)實現(xiàn)對關(guān)鍵幀中的字符提取,利用人臉檢測技術(shù)實現(xiàn)人臉特征的提取,利用音頻特征進(jìn)行說話人或者說話內(nèi)容的識別等。高層內(nèi)容語義特征提取更為復(fù)雜,但相對的更為精確。提取特征后,要對所提取的多個特征進(jìn)行融合,最終形成特征矢量,便于比對。
(四)視頻內(nèi)容組織
系統(tǒng)對視頻數(shù)據(jù)庫中的內(nèi)容進(jìn)行分析,形成特征庫,建立特征索引提高檢索效率,常用的有樹形索引結(jié)構(gòu)[9],基于量化近似的索引結(jié)構(gòu)[10]和基于降維德索引結(jié)構(gòu)。樹形索引適用于低于20維德數(shù)據(jù)空間;基于量化近似的索引結(jié)構(gòu)查詢效率高,但是結(jié)構(gòu)復(fù)雜;基于降維德索引結(jié)構(gòu)克服了樹形索引的維數(shù)問題,但是降低了查詢精度。
(五)相似性比較
相似度比較用來測量查詢鏡頭或特征矢量與庫中鏡頭或特征矢量匹配
程度的一種方法。在實際應(yīng)用中,最常用的方法是Hausdorff距離和均值距離,Hausdorff距離是一個集合中的點到另外一個集合中點的最小距離中的最大值;均值距離是兩個集合中點的最小距離中的最大值。這兩種方法是點集間相似度度量的較好方法。
三、存在的問題
隨著網(wǎng)絡(luò)的不斷發(fā)展,面對海量的視頻信息,如何高速、有效地檢索視頻信息,仍然是我們面臨的主要問題。在特征提取中如何更有效地利用語義特征對視頻進(jìn)行注釋;在關(guān)鍵幀提取中如何更簡單有效地實現(xiàn)關(guān)鍵幀的提取;如何面對越來越多視頻信息如何更合理、有效地管理;在相似性比較中如何更快速有效的進(jìn)行相似度測量等等,這些問題都是急待解決的問題。
四、總結(jié)
雖然視頻檢索技術(shù)還存在著一定的不足,但我相信隨著科技水平的不斷提高,問題的解決和研究的深入,視頻檢索產(chǎn)品將會在我們生產(chǎn)、生活的各個領(lǐng)域發(fā)揮有效作用,并帶來巨大的社會效益。
參考文獻(xiàn):
[1]劉富強(qiáng),數(shù)字視頻信息處理與傳輸教程,北京:機(jī)械工業(yè)出版社,2004.
[2]A.Neri,S.Colonnese,G.Russo and P.Talone.Automatic moving object and background separation.Signal Processing,vol.66,no.2,pp.219
-232,1998.
[3]T Aach,A Kaup and R Mester.Statistical model-based change detection in moving video.Signal Processing,1993,31(2):165-180.
[4]G.Adiv.Determining three-dimensional motion and structure from optical flow generated by several moving objects.IEEE Trans.Pattern Analysis and Machine Intelligence,vol. 7,pp.384-401,July,1985.
[5]朱向軍,視頻運(yùn)動對象分割與先進(jìn)運(yùn)動估計/運(yùn)動補(bǔ)償算法之研究,浙江大學(xué)博士學(xué)位論文,2006.
[6]曾慶渝,視頻分割算法研究及實踐,浙江大學(xué)碩士學(xué)位論文,2005.
[7]蔣海娜,基于鏡頭的視頻檢索方法研究,重慶大學(xué)碩士學(xué)位論文,2007.
[8]張靜,視頻信息檢索研究,復(fù)旦大學(xué)博士學(xué)位論文,2006.
[9]A.Guttman,"R-tree:A dynamic index structure for spatial searching",Pro.of the ACM SIGMOD International Conference on Management of Data,pp.47-54,1984.
[10]R.Weber,H.-J.Schek,S.Blott,"A Quantitative Analysis and Performance study for similarity-search Methods in high-dimensional spaces",Pro.of the 24th VLDB Conference New York,1988.