楊帆
(陜西工業(yè)職業(yè)技術(shù)學(xué)院 陜西 咸陽 712000)
隨著多媒體技術(shù)、網(wǎng)絡(luò)技術(shù)、通信技術(shù)的發(fā)展,大量的信息開始逐步演變?yōu)橥ㄟ^數(shù)字的方式來進(jìn)行傳輸和存儲。作為多媒體技術(shù)中最為復(fù)雜的視頻數(shù)據(jù)更是成為人們生活中不可獲取的信息渠道來源。傳統(tǒng)的檢索方式是通過對視頻信息最為底層物理特征和高層語義特征進(jìn)行逐個的文本標(biāo)注,然后采用文本數(shù)據(jù)庫的相關(guān)技術(shù)建立關(guān)鍵詞數(shù)據(jù)庫,最后利用文本數(shù)據(jù)庫檢索方法實(shí)現(xiàn)。隨著視頻數(shù)量的增加,傳統(tǒng)方式已經(jīng)不能滿足大量視頻搜索的要求,導(dǎo)致用戶無法準(zhǔn)確搜索到有效資源,形成資源閑置與浪費(fèi)。對此,本文提出一種基于內(nèi)容的視頻檢索系統(tǒng),并著重對檢索算法進(jìn)行研究。
所謂的基于內(nèi)容檢索則是指通過計算機(jī)直接從相關(guān)的多媒體信息內(nèi)容當(dāng)中提取出各種不同的特征,包括紋理、形狀、顏色等。然后根據(jù)提取的特征或特征集對其進(jìn)行相似性的匹配查找,并以相似度較大的前N個匹配結(jié)果按照遞減的順序展現(xiàn)給用戶。其具體的檢索過程則如圖1所示。

圖1 基于內(nèi)容的檢索過程Fig.1 Based on contentretrieval process diagram
基于內(nèi)容的視頻檢索作為當(dāng)前檢索的一個重點(diǎn)研究對象,其主要涉及數(shù)據(jù)庫、圖像處理、模式識別以及網(wǎng)絡(luò)等各個領(lǐng)域。而當(dāng)前針對內(nèi)容的檢索其出發(fā)點(diǎn)都是基于底層特征或者是低層語義進(jìn)行提取,提取的特征也比較單一,對內(nèi)容的檢索通常只進(jìn)行近似度的匹配而不對視頻的內(nèi)容進(jìn)行理解。而從人的認(rèn)知的角度來講,人對視頻的理解和描述,是基于概念的。而這種方式與傳統(tǒng)的低層特征相比,人們更容易通過概念等高層語義的知識對視頻內(nèi)容進(jìn)行檢索。由此高層語義成為人們判斷相似度的一個準(zhǔn)則。而如何在現(xiàn)實(shí)中消除人們對低層語義和高層語義兩者之間存在的“語義鴻溝”,成為本文研究和探討的重點(diǎn)。
鏡頭檢測作為對圖像特征提取的作為基礎(chǔ)的部分,其原理則是采用某種方法將視頻分割成若干個不同的鏡頭的過程。在實(shí)踐的應(yīng)用中經(jīng)常采用諸如直方圖法、模糊匹配法、基于邊緣檢測法等。如基于邊緣檢測則是利用新圖像和舊圖像相鄰幀邊緣像素距離較遠(yuǎn)的原理,用邊緣變化率的方法來判斷其鏡頭的轉(zhuǎn)換。其具體的步驟則是:首先取相鄰兩幀的圖像,分別定義為 fi(x,y)、fi+1(x,y),對上述圖像進(jìn)行平滑處理后,提取出圖像的邊緣像素,最后通過公式(1)的邊緣變化率的計算實(shí)現(xiàn)對其鏡頭轉(zhuǎn)換的判斷。

在視頻信息當(dāng)中,視頻是鏡頭構(gòu)成,而鏡頭是由關(guān)鍵幀構(gòu)成。對此,要對特征值進(jìn)行提取,其最為關(guān)鍵的就是對關(guān)鍵幀的特征進(jìn)行提取。而由于視頻信息中的視覺信息進(jìn)行提?。y理、顏色、形狀)進(jìn)行研究(本文以紋理提取為例)
紋理特征其是由區(qū)域當(dāng)中的灰度值的分布及其變化所共同決定的,有效的反映了表面的結(jié)構(gòu)分布,以及該結(jié)果與周邊環(huán)境的關(guān)系等信息,從而成為重要的視覺特征。對場地紋理的計算,Tamura等人則提出從對比度、粗細(xì)度和方向性3個不同的角度進(jìn)行反應(yīng)。其中對比度和圖像灰度的動態(tài)范圍及邊緣的尖銳程度有著很大的關(guān)系,從而測量圖像的中局部的灰度的變化;其中的粗糙度則主與圖像的分辨率有著很大關(guān)系,分辨率大則紋理較粗;所謂的方向性則是全局的紋理特征,通過方向?qū)φw的紋理進(jìn)行描述,從而查看其往哪個方向集中或者是散布。其具體的計算公式為(本文以粗糙度為例):
首先根據(jù)公式(2)對圖像當(dāng)中大小為2k*2k個像素的活動窗口當(dāng)中的像素平均強(qiáng)度進(jìn)行計算。

其中 K=1,2,…5,g(i,j)表示位于(i,j)的像素灰度值。
其次,計算圖像中的每個像素在水平坐標(biāo)和垂直坐標(biāo)方向上互不重合窗口的平均強(qiáng)度的差。

其中的每個像素,能夠讓E為最大的k值對像素的最佳的尺寸,其具體的計算如公式(5)、(6)。

最后通過計算圖像中的Sbest來得到整體的粗糙度:

1)獨(dú)立分量分析算法
在完成對低層特征值的提取之后,如何在有限的樣本中找到分類機(jī)制,從而使得測試樣本和未知的數(shù)據(jù)都能夠達(dá)到一個非常好的結(jié)果。對此,本中文引入一種獨(dú)立分量分析算法,從而提取視頻的最為關(guān)鍵的高維特征獨(dú)立特征。其具體的實(shí)現(xiàn)則為:
第一步,構(gòu)建L*N的矩陣;
第二步,利用ICA快速定位算法對矩陣進(jìn)行定位分析;
第三步,用最小平方誤差法對X估計值Xmse進(jìn)行求解;
第四步,用快速定位法生成矩陣W1。
由此通過上述的步驟對其中訓(xùn)練樣本中的第i個ICA值進(jìn)行求解。
2)基于SVM的視頻檢索算法
支持向量機(jī)(SVM,Support Vector Machine)為一種統(tǒng)計學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法,也是高層語義提取當(dāng)中經(jīng)常用到的一種學(xué)習(xí)模型。該模型其方法則是首先通過對已知的訓(xùn)練集類建立模型,以此描述該類數(shù)據(jù)集,最后通過構(gòu)造的模型對未知的對象作進(jìn)一步的分類。該算法步驟為:
stepl:從訓(xùn)練的樣本當(dāng)中選取部分正樣本集合和負(fù)樣本集合,從而構(gòu)成該算法的原始訓(xùn)練本集;
step2:對這些樣本集進(jìn)行訓(xùn)練;
step3:將該系統(tǒng)應(yīng)用于非初始樣本集:
step4:將其中誤分的正樣本全部將其加入到正樣本集當(dāng)中,誤分的負(fù)樣本則增加到負(fù)樣本集合中;
step5:重復(fù)前面的stepl到step4,直到這個過程收斂。
通過對系統(tǒng)構(gòu)造要求中的準(zhǔn)確性的要求,本文結(jié)合內(nèi)容檢索算法,將系統(tǒng)的功能分為視頻檢索模塊和數(shù)據(jù)庫處理模塊,其具體的整體功能則如圖2所示。

圖2 系統(tǒng)整體架構(gòu)設(shè)計Fig.2 Overall system architecture design
該整體架構(gòu)包括視頻檢索模塊和數(shù)據(jù)庫管理模塊。其中視頻檢索模塊主要為用戶的檢索提供一個簡單、簡潔的模塊,從而使得用戶可通過該界面對需要查詢的文本信息、視頻信息等進(jìn)行檢索,以此提取對應(yīng)的特征值和數(shù)據(jù)庫內(nèi)容匹配,并將最終的結(jié)果展現(xiàn)給用戶。該模塊可細(xì)分為檢索界面、檢索接口及結(jié)果展示模塊[7]。數(shù)據(jù)庫包括視頻庫、特征庫和知識庫。其中視頻庫存放相關(guān)的原始視頻;特征庫則用來存儲各種關(guān)鍵特征內(nèi)容;知識庫存放內(nèi)容的先驗(yàn)知識。同時對該平臺的開發(fā)采用ASP.NET技術(shù),以VS2010作為開發(fā)平臺,以C#作為開發(fā)語言,數(shù)據(jù)庫管理系統(tǒng)采用SQL Server 2008。
通過對系統(tǒng)的設(shè)計,實(shí)現(xiàn)了包括視頻檢索和視頻管理等在內(nèi)的功能。其中視頻管理主要包含視頻上傳、視頻分析和視頻刪除;視頻分析主要采用基于內(nèi)容的體育視頻檢索算法對視頻進(jìn)行檢索;視頻檢索主要負(fù)責(zé)向廣大的用戶提供接口,以此讓用戶完成對視頻數(shù)據(jù)的檢索。用戶可通過視頻檢索、關(guān)鍵詞完成檢索。系統(tǒng)將檢索的結(jié)果直接反饋,檢索界面如圖3所示。

圖3 系統(tǒng)檢索界面實(shí)現(xiàn)Fig.3 System search interface realization
文中針對基于內(nèi)容的體育視頻分類,采用傳統(tǒng)的低層特征提取方法對特征值進(jìn)行提取,并提出采用獨(dú)立分量分析算法對關(guān)鍵特征值進(jìn)行計算,從而實(shí)現(xiàn)了對視頻檢索的分類。通過該系統(tǒng)的實(shí)現(xiàn),拓展了原始的概念認(rèn)識,并提高了用戶視頻檢索的準(zhǔn)確性。
[1]王讓定,李雪芳.基于BP神經(jīng)網(wǎng)絡(luò)的視頻鏡頭突變檢測算法[J].計算機(jī)應(yīng)用研究,2008,25(11):3480-3482.WANG Rang-ding,LI Xue-fang.Mutation detection algorithm based on BP neural network video camera[J].Application Research of Computers,2008,25(11):3480-3482.
[2]劉偉.基于內(nèi)容的視頻檢索系統(tǒng)的研究與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2010.
[3]許文竹,徐立鴻.基于仿射傳播聚類的自適應(yīng)關(guān)鍵幀提取[J].計算機(jī)科學(xué),2010(1):268-270.XUWen-zhu,XULi-hong.Keyframeextraction adaptive affinity propagation clustering algorithm[J].Computer Science,2010(1):268-270.
[4]袁杰.基于內(nèi)容的綜合多特征圖像檢索方法研究[D].金華:浙江師范大學(xué),2009.
[5]劉駿偉.基于SVM和ICA的視頻幀字幕自動定位與提取[J].中國圖象圖形學(xué)報,2003,8(11):1334-1350.LIU Jun-wei.Based on SVM and ICA video frames automatically locate and extract subtitles[J].China Image and Graphics,2003,8(11):1334-1350.
[6]高如如,朱俊株,鄧昌葛,等.一種基于顯著點(diǎn)和SVM相關(guān)反饋的圖像檢索方法 [J].小型微型計算機(jī)系統(tǒng),2012(1):173-177.GAO Ru-ru,ZHU Jun-zhu,DENG Chang-ge.A significant point and SVM relevance feedback image retrieval[J].Micro Computer System,2012(1):173-177.
[7]董冬,朱成亮,胡瑛,等.試驗(yàn)數(shù)據(jù)管理平臺設(shè)計研究[J].火箭推進(jìn) ,2014(4):67-72.DONG Dong,ZHU Cheng-liang,HU Ying,et al.Design of test data management platform[J].Journal of Rocket Propulsion,2014(4):67-72.