摘 要:多個內(nèi)核的學習方法已被廣泛用于在視覺概念學習中。BoVW方法的目的是利用可視化數(shù)據(jù)表使解決問題的時間效率降低,它是真正的人類感知。在文章中,我們提出了一種新的多模態(tài)融合的視頻搜索方式,搜索方式是從一組不同的知識來源,探討一個大組預定義的語義概念的多模態(tài)融合的權(quán)重計算的一種新方法。實驗結(jié)果驗證了我們的方法,優(yōu)于現(xiàn)有的多模態(tài)融合方法。
關(guān)鍵詞:分量;視覺語義概念;多模態(tài)
1 引言
檢測大量的語義概念是被視為視頻語義搜索和檢索[1]中的中間步驟。視頻搜索引擎的挑戰(zhàn)之一是預測用戶的搜索意圖。因此,一個成功的搜索系統(tǒng)是自適應搜索策略的多模態(tài)形式的制定,并最終返回一組相關(guān)的視頻剪輯。傳統(tǒng)的內(nèi)容是基于視頻檢索中提取低級別的視覺功能代表的視頻內(nèi)容,但存在巨大的語義差距之間的低級別的視覺特征和人們的高層次的視頻內(nèi)容的概念理解,所以人們更愿意在語義層面上的視頻內(nèi)容進行檢索。目前,視覺詞袋的方法已經(jīng)成為主流的方法在視頻語義概念檢測費其優(yōu)異的分類功率。但是,也存在一些懸而未決的問題,如BoVW通常使用BoVW生成可視的字典,這樣的屬性的BoVW將導致視覺詞同義的問題許多視覺詞語的描述相同種特征點[2]。
在本文中,我們提出了一種新的融合策略,通過多方式查詢映射到大量的語義概念,并利用所選擇的概念,以確定融合權(quán)重。
2 目前存在的多模態(tài)的視頻搜索
多模態(tài)融合是在有效的視頻搜索引擎中長期存在的問題。現(xiàn)有的大多數(shù)的不同線性的搜索方式,根據(jù)重量計算戰(zhàn)略,我們大致將其劃分為三大類:啟發(fā)式的融合,查詢的時間融合,和監(jiān)督查詢的類別相關(guān)的融合。
首先,多個內(nèi)核的學習,需要提出由Pavlidis的基因功能分類的異構(gòu)數(shù)據(jù)融合,然后擴展到多類分類中。其次,核心理念BoVW是散列點使用幾個穩(wěn)定的發(fā)行版,基于地方敏感的散列函數(shù),保證彼此接近的點比相距甚遠的點有一個更高的碰撞的概率。要驗證的BoVW聚類的有效性,我們把它與一個相同的隨機生成的數(shù)據(jù)集進行BoVW聚類。
為了應對上述問題,從自動發(fā)現(xiàn)訓練例子進行了研究。查詢類所產(chǎn)生的各種方式的查詢文本的相關(guān)性和搜索性能的一致性的基礎上的集群培訓查詢[3]。
3 基于多模態(tài)融合的視頻語義概念檢測
雖然所選擇的概念進行查詢的語義,不是所有的概念探測器是可靠的視頻搜索。在下文中,我們所依據(jù)的框架是:視覺語義概念檢測算法。
首先,依據(jù)提出的方法進行哈希映射圖像功能,這些功能集群為特征子集。為了克服隨機函數(shù)g(v),我們選擇L替代函數(shù)g1,…,gL從 開始查找gi,我們采用它來進行哈希映射圖像特征構(gòu)建哈希表,并把相鄰的特征點到同一個桶。根據(jù)所提出的方法桶散列機制,在哈希表中的每個桶代表簇和L函數(shù)g1,…,gL,共計從L簇得到結(jié)果,混凝土聚類程序如下:
(1)特征提取。選擇分別從每個語義概念訓練數(shù)據(jù)集T的圖像以形成圖像設置成I={I1,I2,…,Ik,…,IT-1,IT},然后I中的所有圖像的視覺特征提取得到的特征向量集設置成R={v1,v2,…,vk,…,vK-1,vK},這里K是R中的總向量號。
(2)提出的方法降維的映射。對每個R特征點的v,采用函數(shù)gi進行降維的映射,并獲得k的維向量gi(v)。
(3)桶散列提出的方法。對每個維向量gi(v)計算出主要的和次要的哈希值h1(gi(v))和h2(gi(v))。然后給這些點在同一個哈希表
在測試階段中,給定的測試圖像q,提取視覺特征,并把它們分別設置到MKL分類對應的每個語義的概念,然后利用投票策略對識別結(jié)果L進行統(tǒng)計。最后,具有大多數(shù)民意調(diào)查的結(jié)果被認為是作為識別結(jié)果,并采取相應的分類器的分數(shù)平均值作為語義概念的檢測分數(shù)。因此,每個語義概念對應于具有最大得分被視為最終的檢測結(jié)果的檢測分數(shù)和語義概念。
集群使用BoVW,它是多個內(nèi)核學習集群局部特征點的視頻幀,以獲得一個隨機的視覺詞典的合奏。算法的過程包含三個步驟如下:
被選擇的關(guān)鍵幀T從列車數(shù)據(jù)構(gòu)造的圖像集I={I1,I2,…,Ik,…,IT-1,IT}中選擇,然后從局部特征池R={r1,r2,…,rk,…,rK-1,rK}中篩選被檢測的關(guān)鍵幀點,其中rK是一個128位的SIFT描述符。
對于任意的SIFT點r?綴R,通過gi映射并獲得一個二維矢量gi(v),然后分別計算它的主哈希值h1(gi(v))和次哈希值h2(gi(v))。SIFT點具有相同的主散列鍵和散列鍵將被存儲在同一個桶,從而得到一個哈希表 ,其中代表一個單獨的桶,Ni表示桶的數(shù)量。哈希表Ti被視為一個視覺字典Wi,Ti中的每個桶被看作是一個可視化的詞。
一般情況下,過高或過低的發(fā)生概率有微弱的視覺詞匯識別能力,我們可以放棄這些可視化的話,獲得一個更緊湊的視覺詞典
。
能夠根據(jù)上述方案的隨機視覺詞典產(chǎn)生一個獨立的函數(shù)g1,…,gL。而且整個過程是可伸縮的,如果被添加到一個新的語義概念,我們只需要檢測SIFT點及其相應的關(guān)鍵幀和散列這些點使用多個內(nèi)核學習,實現(xiàn)動態(tài)擴展,隨機視覺詞典。
基于上面生成的隨機的視覺字典,視覺詞語的直方圖中提取視頻關(guān)鍵幀作為特征向量。對于在視覺字典視覺詞Wi中的每一個w,我們可以估算的視頻關(guān)鍵幀的視覺字的地方是在關(guān)鍵幀檢測的SIFT點的分布,其中rk是一個SIFT點k。使用可視化字典L,我們可以從任意一個視頻關(guān)鍵幀的直方圖H1,…,HL中提取視覺詞L。
SVM模型訓練的基礎上提取的直方圖。對于每一個語義概念,SVM模型的訓練,使每一個測試視頻幀將得到分類結(jié)果。最后,最高投票策略用于整合的結(jié)果,并且被視為最終的語義概念檢測結(jié)果具有最大的語義概念。
4 驗證
在實驗中,L和k是多個內(nèi)核學習算法的兩個重要參數(shù)。較大的L將減少的算法,這是有益的。k在哈希表中有很大的影響。在一般情況下,視覺詞典的尺寸越大,其分類能力強,但作為生長算法的效率也將降低。
此外,我們比較BoVW和多個內(nèi)核的學習算法的時間效率。SIFT描述符的作為聚類特征點,從訓練圖像中提取1000000 SIFT描述符,然后集中由BoVW和多個內(nèi)核學習和多個內(nèi)核學習的時間效率比較。我們觀察到的BoVW簇大小的增加,消耗的時間呈線性增加,而多個內(nèi)核的學習增加一點。因此,多個內(nèi)核的學習聚類算法仍然可以保持較高的時間效率的情況下,圖像的規(guī)模迅速擴大的主要的,因此它更適合于實際應用。
5 結(jié)束語
我們已經(jīng)介紹了一種動態(tài)利用多個視頻語義概念檢測方式的方法。我們發(fā)現(xiàn),此方法可以準確地計算出每個查詢的禁飛區(qū),這在很大程度上擴展了現(xiàn)有的流行技術(shù),一個查詢映射到一個預先計算權(quán)重的幾個類別。實驗結(jié)果表明,語義概念不僅可以作為基礎的搜索方式,也可以用于確定權(quán)重的搜索方式。
參考文獻
[1]C.G.M.Snoek,B.Huurnink,L. Hollink,M.de Rijke,G.Schreiber,and M.Worring,“Adding semanticsto detectors for video retrieval,”IEEE Transaction on Multimedia,vol.9,no.5,pp.975-986,2007.
[2]楊晶晶,李遠寧,田永紅.多內(nèi)核樣本視覺感念學習方法[J].歐洲信號處理協(xié)會雜志,2010(3):220-232P.
[3]蔣玉剛,Chong-WahNgo.視覺詞匯接近和語言學的語義視頻索引和近重復檢索[J].計算機視覺和圖像理解,2009,113(3):405-414.
作者簡介:趙建勛(1980-),男,籍貫:河南鄭州人,現(xiàn)職稱:講師,學歷:碩士,研究方向:從事嵌入式開發(fā),移動應用開發(fā)的教學研究工作。