吳韻怡
(廣州華立科技職業學院, 藝術與傳媒學院, 廣東, 廣州 511325)
新媒體是指以網絡通信為基礎,以數字技術和移動通信等技術為支撐,向受眾提供信息服務的一種數字化復合媒體形態,不僅繼承傳統媒體的優點,而且將傳統媒體所存在的區域與信息交互局限性現象有效解決,達到信息傳播與交互的高效率與廣泛性[1-3]。
面對新媒體背景下視頻廣告數量的不斷增長,視頻廣告的類型也隨之增多,對于各類型視頻廣告的有效分類便成為當下的重要研究課題,且應用前景非常廣闊[4]。正確的視頻廣告分類能夠幫助用戶提升視頻類型搜索的效率,且輔助各企業對用戶實行對應搜索產品的視頻廣告推薦等。但是在面對海量的視頻廣告數據時,僅依靠人工分類標識無法實現分類的有效性與效率,且對于時間、物力及人力成本等均消耗較大,故采用合理有效的分類技術實現新媒體背景下的視頻廣告分類尤為關鍵[5-6]。
基于此,本文設計一種新媒體背景下的視頻廣告分類系統,提升視頻廣告的分類精度與效率。
設計由基礎層、邏輯分析與處理層、存儲層構成的系統整體架構。基礎層也就是用戶界面操作部分,其作用是將簡便易操作的檢索口提供給使用者,同時向使用者反饋系統分類結果;邏輯分析與處理層的作用為對輸入的原始視頻廣告進行分析,同時通過分割處理得到由數個視頻段中選取的中間幀序列,并將此中間幀序列存儲于數據庫內,提取數據庫內所存儲中間幀序列的特征并進行分類評分,線性疊加各分類評分后,獲取整體視頻廣告的類型預估結果,實現視頻廣告分類;存儲層的作用為記錄日志文件與對模式視頻廣告的有關信息實施儲存[7]。系統的整體架構如圖1所示。
邏輯分析與處理層的功能為分析輸入的原始給定模式視頻廣告序列,采用鏡頭長度序列匹配與幀匹配相結合的視頻廣告匹配算法,以J幀匹配分割所輸入的給定視頻廣告序列,獲取到M個視頻段,并從中選取出L個中間幀;采用多支流網絡(MSN)對此中間幀序列實施編碼,提取出視頻廣告中的有用信息,通過多支流網絡的各分類網絡輸出其三維特征譜E,向多支流網絡的各支流中引入預測試的空域注意力預估模型,實現對和視頻類型有關區間的定位,融合空域注意力預估模型所預估的注意力譜和各條支流網絡所提取到的特征譜,通過2個全連接層之后獲取各視頻廣告的分類評分,線性疊加各分類評分后,得到視頻廣告類型的整體預估結果。邏輯分析與處理層結構如圖2所示。

圖1 系統整體架構圖

圖2 邏輯分析與處理層結構圖
首先給定某個模式視頻廣告序列,通過鏡頭分割方法劃分此模式視頻廣告為一組視頻段,將每個視頻段看作一個鏡頭,各個鏡頭之間擁有單獨的語義信息,持續的各視頻幀間存在類似或同等內容在同一個鏡頭中。故當下鏡頭視頻中的全部視頻幀可通過鏡頭中的視頻幀呈現[8-9]。其次以時間順序為依據選擇L個鏡頭,當下鏡頭采用鏡頭中的視頻幀替換,向多支流網絡(MSN)內依次傳輸L個視頻幀。然后為了對同視頻類型有關的區間實行定位,將各個預測試的注意力預估模型(APN)引入MSN的各條支流內實現,融合APN預估的注意力譜和各條支流網絡所提取到的特征譜,經由全連接層實行分類。最后APN模型通過線性疊加全部支流的分類結果,實現對當下視頻廣告類型的準確預估,完成系統的分類功能。分類方法過程如圖3所示。
1.3.1 鏡頭分割
由于視頻廣告的鏡頭分割關鍵在于及時性與精度,其中及時性可通過鏡頭的長度匹配實施保障,而精度則可通過幀匹配實現[10]。所以為確保視頻廣告分割的及時性與精度,需規避運用鏡頭長度序列匹配時的長耗時問題與幀匹配的精度微低的問題,通過結合鏡頭長度序列匹配和幀匹配的視頻廣告匹配算法實現。

圖3 分類方法過程圖
視頻廣告匹配算法理念為先將模式視頻廣告序列的長度與第一個J幀獲取,分析此模式視頻廣告,得到其鏡頭序列,再通過第一個J幀匹配模式視頻廣告。因在全部幀內大概有1/14的占比為J幀,同時J幀通過幀內預估的方式進行解碼,這與其他幀需以J幀為依據實行預測或同時向前后2個方向實行預測的幀不同。最終通過鏡頭分割方法分割由匹配點開始的模式視頻廣告長度的當下視頻,將當下鏡頭長度序列獲取到。如果當下視頻鏡頭的長度序列與模式視頻廣告鏡頭長度序列一致,那么可認定完成一次模式視頻廣告的分割,繼續對第一個J幀圖像實施匹配;反之即二者不同時,則認定為未完成模式視頻廣告的分割,則繼續對下個J幀圖像實施匹配。最終獲取到分割后的M個視頻段,從M個視頻段內依次選擇出中間幀替換當下視頻段,同時向數據庫內輸入所選擇的L個中間幀。具體過程如圖4所示。

圖4 鏡頭分割過程圖
1.3.2 多支流網絡框架

(1)

1.3.3 空域注意力預估模型
(1)模型引入
為了對網絡由產品有關區間提取判斷性的特征實施輔助,將各個空域注意力預估模型APN引入到多支流網絡的各條支流內[13-14]。向一個注意力預估模塊與一條分類支流內共同輸入給定的測試視頻幀Y,分別產生注意力譜C∈Hr×v與特征譜E∈Hr×v×ar。融合注意力譜C和特征譜E的各個通道,在向全連接層輸入前,其式為

(2)


(2)模型測試
輸入一個視頻幀到注意力預估模型內,可輸出一張同等于輸入尺寸的注意力譜。注意力預估模型采用分割內經常使用的全連接網絡(FCN)為基礎網絡,故它由兩個全連接層、數個Relu層、Max Pooling層與卷積層共同構成。因注意力預估模型內包含數個Max Pooling層,故其輸出譜的尺寸比輸入圖像尺寸小。可通過引入一層轉置卷積層到全連接層之后的方式,實現上采樣注意力譜,達到輸出注意力譜的尺寸同等于輸入圖像尺寸的目的[15]。轉換問題為對各個像素屬于注意力區間的置信度實行預估,實現對注意力預估模型的測試。故在此對現實區間x和注意力預估模型的注意力譜q間的損耗通過Softmax with loss實施運算,其式為:
(3)
式中,像素數量與類型數量分別通過S和A表示,一個像素是否屬于注意力區間即類型數量,通過xj,i表示,當第j個像素為第i類時,此值是1,反之則是0,第j個像素為第i類的置信度通過qj,i表示,其可通過注意力預估模型獲取。
為檢驗本文系統設計的合理性與系統的性能,現以MATLAB對本文系統實施仿真,同時以舞蹈類(A)、服裝類(B)、食品類(C)、化妝品類(D)、建筑類(E)和飾品類(F)同一電視頻道的6類不同視頻廣告為實驗對象,通過鏡頭分割結果、空域注意力預估結果、準確率和實時性4項指標,驗證本文系統的分類性能。
采用本文系統對實驗電視頻道的6個不同視頻廣告實施分類,得到的分類結果如圖5所示。

(a) 舞蹈類

(d) 化妝品類
通過圖5可得出,本文系統通過圖4的鏡頭分割過程,能夠準確將6類不同的視頻廣告分類,能夠滿足實驗要求,實現視頻廣告的準確分類,可用于實際不同領域產品的視頻廣告分類中。
基于上述鏡頭分割結果,采用設計的空域注意力預估模型對視頻廣告分類效果進行預估和評價,設計空域注意力預估模型的目的在于盡可能有效過濾掉眼睛所獲取的大量無用的視覺信息,提高視覺識別能力,也在另一個層面上證明分類結果的有效性。分別對比本文系統、基于SVM的分類系統與基于神經網絡的分類系統在12個小時內同一電視頻道的隨機數量視頻廣告的空域注意力預估實驗,對比3個不同系統的預估效果。對比結果如表1所示。

表1 各系統的預估效果對比
為了更清晰地對比各系統的分類效果,測試各系統的準確率,得到準確率結果如圖6所示。由圖6可知,本文系統的準確率高于其他2種系統,且誤判率較其他2種系統有很大程度的降低。

圖6 準確率對比
在上述實驗的基礎上,為進一步驗證本文系統分類的應用前景,對比本文系統、基于SVM的分類系統與基于神經網絡的分類系統3種系統,測試在6個小時內同一電視頻道的隨機數量視頻廣告中準確分類出舞蹈類的時間,得到時間對比結果如圖7所示。

圖7 各系統的實時性對比結果
結合圖6、圖7可知,在保證分類準確率的基礎上,本文系統的分類時長明顯低于其他2種系統。由此可見,本文系統的分類效果非常優越,分類結果精準度高,系統性能較好。
本文設計一種新媒體背景下的視頻廣告分類系統,針對當下新媒體背景下產生的海量視頻廣告實施合理有效的分類,提升用戶體驗與搜索效率,為實現有效分類,采用了空域注意力預估模型與多支流網絡相結合的方式,提升視頻中相關區間的顯著性,并有效降低無關區間的干擾性,達到準確的視頻廣告分類目的。仿真實驗分析得出本文系統的分類效果顯著,精度高且性能較好,具有很高的實際應用價值。在以后的研究中會繼續應用本文系統對其他視頻實施分類分析,擴大本文系統的應用前景。