論利用結(jié)構(gòu)分析法進(jìn)行視頻檢索

2010-12-02 00:38:50李海玉

濰坊工程職業(yè)學(xué)院學(xué)報 2010年2期

關(guān)鍵詞：特征內(nèi)容

李海玉

(濰坊教育學(xué)院山工機(jī)電工程學(xué)院,山東青州 262500)

論利用結(jié)構(gòu)分析法進(jìn)行視頻檢索

李海玉

(濰坊教育學(xué)院山工機(jī)電工程學(xué)院,山東青州 262500)

在原有的檢索技術(shù)的基礎(chǔ)上,提出一種基于關(guān)鍵幀技術(shù)的結(jié)構(gòu)分析法對視頻信息進(jìn)行檢索,并根據(jù)結(jié)果分析提出了其應(yīng)用前景。

視頻檢索;關(guān)鍵幀;結(jié)構(gòu)分析法

1 研究背景

隨著網(wǎng)上資源的劇增,人們檢索資料越來越麻煩。現(xiàn)在大部分網(wǎng)站提供的檢索方法主要是搜索引擎,在搜索引擎處輸入要搜索的文字描述,查找所需要的內(nèi)容,即文字檢索。面對日漸龐大的圖像、視頻多媒體信息,僅僅依靠搜索引擎來檢索是不現(xiàn)實(shí)的。為了提高視頻的檢索速度和效率,科學(xué)家們不斷研究新的方法來適應(yīng)飛速發(fā)展的視頻檢索技術(shù)的需要。本文將先對傳統(tǒng)的幾種檢索方法進(jìn)行簡要的說明,分析其局限性,并提出利用結(jié)構(gòu)分析法進(jìn)行視頻檢索的方法。

1.1 基于文本的圖片檢索

最初的檢索方法是先為圖片庫里的每幅圖片進(jìn)行注解,用戶查詢時,提交一個文本,文本的內(nèi)容就是對要查詢的圖片的詳細(xì)說明。這種方法在初期視頻庫的內(nèi)容較少時基本可以滿足用戶的要求。但是隨著視頻庫容量的增加,光靠文字說明圖片和視頻的特征是很不現(xiàn)實(shí)的,而且在檢索的時候很難準(zhǔn)確地找到所需要的材料。要檢索一段特定的視頻 (如世界杯的精彩進(jìn)球鏡頭),僅僅利用文字特征進(jìn)行描述就顯得力不從心了。在此基礎(chǔ)上,人們想到了是否可以根據(jù)圖片或視頻本身的特征進(jìn)行檢索。

1.2 基于內(nèi)容的圖片檢索

內(nèi)容主要包括圖像的顏色、形狀和紋理。

1.2.1 顏色特征是圖像最直觀、最明顯的特征,一般采用直方圖來描述基于顏色特征的檢索。但顏色特征不能反映圖像的空間特征,有很大局限性。

1.2.2 采用基于形狀特征進(jìn)行檢索的時候,用戶可以通過勾畫圖像的形狀或輪廓,從圖像庫中檢索形狀相似的圖像。利用這種方法也會產(chǎn)生一些誤差。如查找意大利的地圖,結(jié)果可能會搜索到一雙靴子的圖形。

大學(xué)生心理健康檔案，記錄大學(xué)生個體在社會適應(yīng)過程和在校學(xué)習(xí)生活過程中的心理活動狀態(tài)及其發(fā)展、變化情況。建設(shè)大學(xué)生心理健康檔案建設(shè)途經(jīng)有多種，但主要的有以下幾種。

1.2.3 圖像還可以看成是不同紋理區(qū)域的組合,紋理描述的難點(diǎn)在于它與物體的形狀有密切的關(guān)系,需要考慮粗糙性、方向性和對比性三種特征。

1.3 對視頻信息的檢索

視頻信息在時間上是連續(xù)的,畫面是運(yùn)動的,視頻檢索要求在大量的視頻數(shù)據(jù)中找到所需的視頻片段,而視頻信號和很多參數(shù)有關(guān),信息量大,因此視頻檢索非常困難。現(xiàn)在的視頻信號檢索,主要是運(yùn)用基于內(nèi)容的多特征的檢索方法,用戶在檢索的時候,提供給系統(tǒng)想要查找的視頻的一些特點(diǎn),如鏡頭的主色調(diào)、鏡頭的運(yùn)動特點(diǎn)等,計算機(jī)根據(jù)這些特點(diǎn)查找出相應(yīng)的視頻素材。

針對以上檢索方法的局限性,本文提出了一種新的方法,即用結(jié)構(gòu)分析法對視頻信號進(jìn)行檢索。為了改變多媒體數(shù)據(jù)瀏覽和檢索的這種狀態(tài),必須將無序的多媒體數(shù)據(jù)有序化(即先對所有的視頻幀進(jìn)行聚類,得到視頻的分層結(jié)構(gòu),把視頻信號的單元按照從大到小的順序進(jìn)行有序的排列),讓用戶能隨時檢索到想要的多媒體數(shù)據(jù),讓多媒體信息能自動地適應(yīng)環(huán)境,快速地檢索,并在網(wǎng)上迅速、可靠地傳送,從而提高檢索的效率和速率。

2 關(guān)鍵幀技術(shù)

關(guān)鍵幀就是用于描述一段視頻的關(guān)鍵圖像,它反映了視頻的主要內(nèi)容,因此被稱為關(guān)鍵幀或代表幀。在基于內(nèi)容的視頻檢索中,關(guān)鍵幀可以作為靜態(tài)圖像處理,也可以用于視頻瀏覽,以決定用戶要查找的基本內(nèi)容。由于一般情況下,一個鏡頭的持續(xù)時間較短,而且鏡頭內(nèi)的視覺特征基本保持不變,因此用關(guān)鍵幀來表示一個鏡頭更有意義。視頻的關(guān)鍵幀可以用一組鏡頭的關(guān)鍵幀來表示,也可以將視頻中所有鏡頭的關(guān)鍵幀的統(tǒng)計直方圖取平均,選擇與該平均直方圖最接近的鏡頭關(guān)鍵幀做為視頻關(guān)鍵幀。

3 結(jié)構(gòu)分析法

由于視頻的時態(tài)特性和層次化結(jié)構(gòu),瀏覽也是層次化進(jìn)行的,這樣可以適當(dāng)減少瀏覽的內(nèi)容。瀏覽的一般方法是將視頻的所有鏡頭代表幀按順序排列在屏幕上。但一段具有完整故事情節(jié)的視頻包含許多鏡頭。如一段15分鐘的影片一般要包含幾百個鏡頭,一部電影有1個至2個小時,則可能包含上千個以至更多的鏡頭。如果將所有鏡頭的關(guān)鍵幀順序排列在屏幕上,瀏覽將會費(fèi)時費(fèi)力,由此提出用層次化的瀏覽方式。首先初步定位查找的視頻內(nèi)容,瀏覽視頻段的內(nèi)容;二是對于某段視頻內(nèi)容,瀏覽它的場景代表幀;三是瀏覽場景下的鏡頭代表幀。這樣,就可以逐步縮小瀏覽范圍,而不至于一開始就在眾多的鏡頭關(guān)鍵幀中尋找。

假設(shè)一個包含很多電影的視頻庫,首先可以按照電影的拍攝年代、基本類型(如武打片、言情片、戰(zhàn)爭片等)等加以分類,對于具體的類型,就可以按照層次化分析。

(1)視頻層：是指視頻庫中相互獨(dú)立的視頻基本單元,如電影視頻庫中的一部片子等。視頻層將視頻庫中的每一段視頻用一個典型圖像幀來表示,類似于電影廣告中的宣傳片,再配合視頻標(biāo)題如電影名稱來表現(xiàn)。

(2)場景層：是指視頻層下的一個完整的故事單元,場景層可以通過場景關(guān)鍵幀小圖標(biāo)來表現(xiàn)。

(3)鏡頭層：是用于瀏覽的最小單位,關(guān)鍵幀反映了一個鏡頭的內(nèi)容,一般用鏡頭關(guān)鍵幀小圖標(biāo)來表現(xiàn)。

每一層的一個單元可用小圖標(biāo)形式顯示在屏幕上供用戶瀏覽。用戶首先粗略地瀏覽視頻層,確定是否有想要的視頻。如果有,則進(jìn)一步瀏覽該層下的具體的場景層,然后可從場景中瀏覽鏡頭關(guān)鍵幀層以及整個鏡頭的內(nèi)容,以用來最后決定該鏡頭或關(guān)鍵幀所表示的內(nèi)容是否是其所需要的視頻。這種層次化的瀏覽方式可用圖1來表示。

圖1 順序的層次化

4 流程圖、計算機(jī)模擬結(jié)果及分析

4.1 流程圖

為了把視頻段結(jié)構(gòu)化,設(shè)計流程圖見圖2：

圖2 計算機(jī)模擬的部分流程圖

4.2 模擬結(jié)果顯示

本文在進(jìn)行實(shí)驗?zāi)M時采用的是《平安事務(wù)所》的視頻片段,共有16個幀畫面,4個鏡頭,3個場景,對該段視頻進(jìn)行結(jié)構(gòu)分析,并對每個鏡頭和場景提取關(guān)鍵幀并進(jìn)行分層顯示該視頻段的結(jié)構(gòu),可以得到以下的顯示結(jié)果,如圖3所示。

圖3 分層顯示視頻段的關(guān)鍵幀的視頻結(jié)構(gòu)圖

4.3 結(jié)果分析

當(dāng)采用本文提出的方法檢索視頻素材時,要想得到第九幅畫面,只要從三個場景層中找到相應(yīng)的關(guān)鍵幀,就可方便快捷地從視頻庫中找到所需要的視頻幀。如果采用逐幀查找的方法,就需要對16幅畫面分別進(jìn)行提取特征,然后再和想要的畫面進(jìn)行比較。如果用戶還想從該素材庫中查找另外一個持槍的鏡頭,如第五幀,由于該素材庫己經(jīng)建立了從上而下的視頻層次化結(jié)構(gòu),因此可以直接從場景層中找到該鏡頭的關(guān)鍵幀,迅速找到所需的畫面,大大提高了檢索的速度和效率。通過實(shí)驗可以得到,利用結(jié)構(gòu)分析法進(jìn)行檢索時,查準(zhǔn)率一般可達(dá)90%以上,檢索效率也大有提高。

5 研究意義及應(yīng)用前景

從上面的分析可以看出,視頻鏡頭的檢測與基于內(nèi)容的視頻數(shù)據(jù)庫管理這一問題緊密聯(lián)系。這些技術(shù)的日益成熟不僅將創(chuàng)造出巨大的社會價值,而且將改變?nèi)藗兊纳罘绞健Ｋ推渌夹g(shù)一起,將給人們的生活帶來翻天覆地的變化。

5.1 嶄新的視頻數(shù)據(jù)庫和網(wǎng)上視頻檢索

它與傳統(tǒng)數(shù)據(jù)庫技術(shù)相結(jié)合,可以方便地實(shí)現(xiàn)海量多媒體數(shù)據(jù)的存儲和管理;它與傳統(tǒng)Web搜索引擎技術(shù)相結(jié)合,可以用來檢索HTML網(wǎng)頁中豐富的多媒體信息。

5.2 視頻點(diǎn)播或交互式電視

實(shí)時的結(jié)構(gòu)化處理為交互式視頻服務(wù)提供了方便,用戶可以自由查找某段新聞、某個電影片段,觀看球賽精彩鏡頭等。

5.3 非線性編輯系統(tǒng)

管理大量的視頻節(jié)目,迅速進(jìn)行準(zhǔn)確的編輯處理,省去觀看全部畫面的勞苦。

5.4 嶄新的視頻處理

今天我們對文字的處理已得心應(yīng)手,可自由地對文本進(jìn)行增刪、改寫、藝術(shù)處理等操作。視頻處理的目標(biāo)也將豐富多彩,但首要的一步便是結(jié)構(gòu)化視頻數(shù)據(jù)。

5.5 其他需要視頻數(shù)據(jù)庫的場合

數(shù)字圖書館、藝術(shù)收藏和博物館管理、遙感和地球資源管理、遠(yuǎn)程醫(yī)療、天氣預(yù)報以及軍事指揮系統(tǒng)。

[1]張彥民.基于內(nèi)容的檢索技術(shù)[J].情報學(xué)報,1999,(12).

[2]基于內(nèi)容檢索的視頻處理技術(shù)研究[J].計算機(jī)工程與應(yīng)用,1998,(6).

[3]A.MURAT TEK ALP.數(shù)字視頻處理[M].江春,等,譯.北京：電子工業(yè)出版社,1998.

(責(zé)任編輯：潘敏)

2009-11-29

李海玉(1981-),女(漢族),山東諸城人,濰坊教育學(xué)院山工機(jī)電工程學(xué)院教師.

TP391.4 文獻(xiàn)標(biāo)識碼：A 文章編號：1009-2080(2010)02-0095-02