黨 進 蒙俊杰
(廣西科技大學,廣西 柳州545026)
隨著移動網絡與手機設備性能大幅度的提升,短視頻行業出現迅猛的發展,2017年行業市場規模達到57.3 億元,同比增長達到183.9%,而2020年全行業市場規模預計會達到300億元,平均年增長率為74%[1]。短視頻行業不可估量的經濟收益引起了投資者的重視。但是要實際做到商業化,提高平臺的內容變現能力是重要環節。本文將深度學習技術應用于短視頻投放領域,提出了一種基于深度學習的視頻物體檢測和內容推薦系統,結合視頻內容進行高相關度低打擾性的廣告推送,從而實現在保證用戶體驗的基礎上,提升投放廣告的有效性。
視頻關鍵幀是指從短視頻中獲取某些至關重要的幀,可以用一幀表現出視頻一個時間段的主要內容[2]。圖像差分指[3]把兩張圖片的像素值做差,減弱圖片的相似部分突顯圖片的變化部分。本文基于幀間差分的方法,將兩幀圖片實現差分,獲得圖片的平均像素強度,它可以評判兩幀圖片的變化大小。所以當短視頻中的某一幀與前一幀圖片的內容形成了大的改變,便指定它是關鍵幀,并將其選擇出來。基于幀間差分的視頻關鍵幀提取算法簡單快捷,運行速度快,很好的適應了短視頻視頻關鍵幀的快速提取。
SSD(Single Shot MultiBox Detector)全稱為單發多框檢測器,將定位和檢測任務封裝在網絡的一次前向傳播中,從而可以大大加快檢測速度,在不同的特征圖上去分別匹配預測不同尺度的目標,因此有良好的目標檢測精度[4],同時可以部署在較輕的硬件上。
SSD模型框架[5]如圖1所示,以VGG16做骨干網絡,將原本VGG16的Conv5_3層后的pooling層進行修改,通過新的pooling層后特征矩陣的高和寬是不會發生變化的。在該層后通過一系列卷積可以得到6個不同的預測層,在這6個預測特征層上去預測不同尺度以及比例的目標,預測后通過非極大值抑制算法和濾出小概率目標就可以得到最終的預測結果。

圖1 SSD模型
SSD網絡一共有6個預測特征層,在6個預測特征層上,分別去預測不同大小目標。
如在第1層中檢測相對較小的目標,隨著抽象程度不斷加深,我們會檢測相對較大的目標。2-6層檢測目標會越來越大。
SSD按照如下規則生成Default box[6]:
3.3.1 以特征圖上每個點的中點為中心,生成一些同心的先驗框。正方形先驗框最小邊長為min_size。
每個特征圖對應先驗框的min_size和max_size由以下公式決定,公式中m是使用特征圖的數量,SSD中m一般為6。


損失分為兩個部分,類別損失(Lcn(x,c))和定位損失(Lloc(x,l,g)),其中N為匹配到的正樣本個數,a一般設為1。對于類別損失,計算公式如下:


本文將推薦任務抽象為一個圖片的問題進行研究,將順序排列的消費者的短期行為表示為一個矩陣,使用卷積過濾器提取其局部特征,獲得消費者的一般愛好和短期興趣[7]。本文介紹一種Caser模型(卷積序列嵌入推薦模型)。
序列模式有三種如圖2所示。

圖2 三種序列模式
(1)point-level(點級模式):點級模式表示歷史序列中單個項目對目標項目的影響。(2)union-level,no skip(聯級模式,無跳躍):聯級模式表示前幾個操作對后續目標的影響。(3)union-level,skip once(聯級模式,無跳躍):采用跳躍的方式,三個序列采用并聯的方式影響的不是相鄰的序列,而是跳躍的影響非相鄰的下一個序列。
Caser對用戶的日常愛好和順序模式進行建模,使用卷積神經網絡(CNN)學習序列特征,采用隱因子模型(LFM)學習用戶特征。Caser模型,包含三個部分:(1)Embedding層:對用戶,項目序列進行表示。(2)卷積層:學習近期用戶行為的特征。(3)全連接層:將拼接的序列特征與用戶偏好映射到用戶在當前時間與每個物品交互的可能性。
本文將深度學習物體檢測結果用于個性化內容推薦,推動廣告投放的智能性,實現了海量視頻潛在信息的挖掘和匹配,具有重要的理論研究意義和商業價值。