基于多模態融合的視頻語義概念檢測

2013-12-31 00:00:00趙建勛黃繼海

科技創新與應用 2013年28期

摘要：多個內核的學習方法已被廣泛用于在視覺概念學習中。BoVW方法的目的是利用可視化數據表使解決問題的時間效率降低，它是真正的人類感知。在文章中，我們提出了一種新的多模態融合的視頻搜索方式，搜索方式是從一組不同的知識來源，探討一個大組預定義的語義概念的多模態融合的權重計算的一種新方法。實驗結果驗證了我們的方法，優于現有的多模態融合方法。

關鍵詞：分量；視覺語義概念；多模態

1 引言

檢測大量的語義概念是被視為視頻語義搜索和檢索[1]中的中間步驟。視頻搜索引擎的挑戰之一是預測用戶的搜索意圖。因此，一個成功的搜索系統是自適應搜索策略的多模態形式的制定，并最終返回一組相關的視頻剪輯。傳統的內容是基于視頻檢索中提取低級別的視覺功能代表的視頻內容，但存在巨大的語義差距之間的低級別的視覺特征和人們的高層次的視頻內容的概念理解，所以人們更愿意在語義層面上的視頻內容進行檢索。目前，視覺詞袋的方法已經成為主流的方法在視頻語義概念檢測費其優異的分類功率。但是，也存在一些懸而未決的問題，如BoVW通常使用BoVW生成可視的字典，這樣的屬性的BoVW將導致視覺詞同義的問題許多視覺詞語的描述相同種特征點[2]。

在本文中，我們提出了一種新的融合策略，通過多方式查詢映射到大量的語義概念，并利用所選擇的概念，以確定融合權重。

2 目前存在的多模態的視頻搜索

多模態融合是在有效的視頻搜索引擎中長期存在的問題。現有的大多數的不同線性的搜索方式，根據重量計算戰略，我們大致將其劃分為三大類：啟發式的融合，查詢的時間融合，和監督查詢的類別相關的融合。

首先，多個內核的學習，需要提出由Pavlidis的基因功能分類的異構數據融合，然后擴展到多類分類中。其次，核心理念BoVW是散列點使用幾個穩定的發行版，基于地方敏感的散列函數，保證彼此接近的點比相距甚遠的點有一個更高的碰撞的概率。要驗證的BoVW聚類的有效性，我們把它與一個相同的隨機生成的數據集進行BoVW聚類。

為了應對上述問題，從自動發現訓練例子進行了研究。查詢類所產生的各種方式的查詢文本的相關性和搜索性能的一致性的基礎上的集群培訓查詢[3]。

3 基于多模態融合的視頻語義概念檢測

雖然所選擇的概念進行查詢的語義，不是所有的概念探測器是可靠的視頻搜索。在下文中，我們所依據的框架是：視覺語義概念檢測算法。

首先，依據提出的方法進行哈希映射圖像功能，這些功能集群為特征子集。為了克服隨機函數g（v），我們選擇L替代函數g1，…，gL從開始查找gi，我們采用它來進行哈希映射圖像特征構建哈希表，并把相鄰的特征點到同一個桶。根據所提出的方法桶散列機制，在哈希表中的每個桶代表簇和L函數g1，…，gL，共計從L簇得到結果，混凝土聚類程序如下：

（1）特征提取。選擇分別從每個語義概念訓練數據集T的圖像以形成圖像設置成I={I1，I2，…，Ik，…，IT-1，IT}，然后I中的所有圖像的視覺特征提取得到的特征向量集設置成R={v1，v2，…，vk，…，vK-1，vK}，這里K是R中的總向量號。

（2）提出的方法降維的映射。對每個R特征點的v，采用函數gi進行降維的映射，并獲得k的維向量gi（v）。

（3）桶散列提出的方法。對每個維向量gi（v）計算出主要的和次要的哈希值h1（gi（v））和h2（gi（v））。然后給這些點在同一個哈希表

在測試階段中，給定的測試圖像q，提取視覺特征，并把它們分別設置到MKL分類對應的每個語義的概念，然后利用投票策略對識別結果L進行統計。最后，具有大多數民意調查的結果被認為是作為識別結果，并采取相應的分類器的分數平均值作為語義概念的檢測分數。因此，每個語義概念對應于具有最大得分被視為最終的檢測結果的檢測分數和語義概念。

集群使用BoVW，它是多個內核學習集群局部特征點的視頻幀，以獲得一個隨機的視覺詞典的合奏。算法的過程包含三個步驟如下：

被選擇的關鍵幀T從列車數據構造的圖像集I={I1，I2，…，Ik，…，IT-1，IT}中選擇，然后從局部特征池R={r1，r2，…，rk，…，rK-1，rK}中篩選被檢測的關鍵幀點，其中rK是一個128位的SIFT描述符。

對于任意的SIFT點r？綴R，通過gi映射并獲得一個二維矢量gi（v），然后分別計算它的主哈希值h1（gi（v））和次哈希值h2（gi（v））。SIFT點具有相同的主散列鍵和散列鍵將被存儲在同一個桶，從而得到一個哈希表，其中代表一個單獨的桶，Ni表示桶的數量。哈希表Ti被視為一個視覺字典Wi，Ti中的每個桶被看作是一個可視化的詞。

一般情況下，過高或過低的發生概率有微弱的視覺詞匯識別能力，我們可以放棄這些可視化的話，獲得一個更緊湊的視覺詞典

。

能夠根據上述方案的隨機視覺詞典產生一個獨立的函數g1，…，gL。而且整個過程是可伸縮的，如果被添加到一個新的語義概念，我們只需要檢測SIFT點及其相應的關鍵幀和散列這些點使用多個內核學習，實現動態擴展，隨機視覺詞典。

基于上面生成的隨機的視覺字典，視覺詞語的直方圖中提取視頻關鍵幀作為特征向量。對于在視覺字典視覺詞Wi中的每一個w，我們可以估算的視頻關鍵幀的視覺字的地方是在關鍵幀檢測的SIFT點的分布，其中rk是一個SIFT點k。使用可視化字典L，我們可以從任意一個視頻關鍵幀的直方圖H1，…，HL中提取視覺詞L。

SVM模型訓練的基礎上提取的直方圖。對于每一個語義概念，SVM模型的訓練，使每一個測試視頻幀將得到分類結果。最后，最高投票策略用于整合的結果，并且被視為最終的語義概念檢測結果具有最大的語義概念。

4 驗證

在實驗中，L和k是多個內核學習算法的兩個重要參數。較大的L將減少的算法，這是有益的。k在哈希表中有很大的影響。在一般情況下，視覺詞典的尺寸越大，其分類能力強，但作為生長算法的效率也將降低。

此外，我們比較BoVW和多個內核的學習算法的時間效率。SIFT描述符的作為聚類特征點，從訓練圖像中提取1000000 SIFT描述符，然后集中由BoVW和多個內核學習和多個內核學習的時間效率比較。我們觀察到的BoVW簇大小的增加，消耗的時間呈線性增加，而多個內核的學習增加一點。因此，多個內核的學習聚類算法仍然可以保持較高的時間效率的情況下，圖像的規模迅速擴大的主要的，因此它更適合于實際應用。

5 結束語

我們已經介紹了一種動態利用多個視頻語義概念檢測方式的方法。我們發現，此方法可以準確地計算出每個查詢的禁飛區，這在很大程度上擴展了現有的流行技術，一個查詢映射到一個預先計算權重的幾個類別。實驗結果表明，語義概念不僅可以作為基礎的搜索方式，也可以用于確定權重的搜索方式。

參考文獻

[1]C.G.M.Snoek，B.Huurnink，L. Hollink，M.de Rijke，G.Schreiber，and M.Worring，“Adding semanticsto detectors for video retrieval，”IEEE Transaction on Multimedia，vol.9，no.5，pp.975-986，2007.

[2]楊晶晶，李遠寧，田永紅.多內核樣本視覺感念學習方法[J].歐洲信號處理協會雜志，2010（3）：220-232P.

[3]蔣玉剛，Chong-WahNgo.視覺詞匯接近和語言學的語義視頻索引和近重復檢索[J].計算機視覺和圖像理解，2009，113（3）：405-414.

作者簡介：趙建勛（1980-），男，籍貫：河南鄭州人，現職稱：講師，學歷：碩士，研究方向：從事嵌入式開發，移動應用開發的教學研究工作。

科技創新與應用2013年28期

科技創新與應用的其它文章: 綜合解堵技術發展與應用; 混合粉對蛋糕感官品質影響的研究; 淺談煤礦巷道掘進技術; 地鐵運營改進方案; 機械加工尺寸的預測控制研究; 陶瓷藝術的現代性轉變