向志華, 梁玉英
(廣東理工學院 信息技術學院, 廣東 肇慶 526100)
隨著移動互聯網技術與網絡環(huán)境的不斷改善,傳統(tǒng)的以文本為主的交流方式正逐漸向視頻和圖片過渡,這一轉變促進了短視頻行業(yè)的蓬勃發(fā)展[1].調查指出,短視頻行業(yè)從2016年開始爆發(fā)式增長,到2017年其規(guī)模已達到57.3億元,并將于2020年達到300億元[2].相較于傳統(tǒng)行業(yè),短視頻行業(yè)具有流量、內容成本低,回報率高的特點.但要真正挖掘其商業(yè)價值,提升其內容變現能力仍是各大短視頻平臺的痛點.因此,如何結合短視頻的內容和商業(yè)化產品的特點來提升短視頻平臺的變現能力,且將短視頻流量精準地匹配到商業(yè)化路線上,仍面臨巨大的挑戰(zhàn)[3-5].
目前,國內的短視頻平臺主要有抖音視頻、西瓜視頻和快手視頻等[6],這些短視頻平臺主要采用一種隱藏的形式推送廣告,即將不同長度的廣告與常規(guī)視頻相結合,在用戶觀看短視頻的同時必然會接收到所推送的廣告[7-9].但該廣告推送方式無法根據用戶的特點推送,其針對性較差.而國外短視頻平臺如OneWay等,旨在為開發(fā)者和廣告客戶提供更優(yōu)的短視頻廣告解決方案.其根據用戶的歷史觀看記錄來提供精準的廣告投放,提高所投放廣告的有效性[10-12].同時,OneWay也使用開屏廣告與360°全景廣告的方式來豐富廣告投放的形式.但此廣告投放方式并未結合當前用戶觀看的短視頻內容,無法提供物體級的廣告投放方案[13-15].
物體級廣告投放即使用圖像處理技術,從短視頻中提取出關鍵幀并在其中進行檢測,且根據檢測結果投放廣告[16].其中關鍵幀提取方法包括:1)基于鏡頭邊界的方法,使用幀平均來提取每個鏡頭的關鍵幀,或直接將最開始一幀與最后一幀作為關鍵幀[17];2)基于運動分析的方法,僅在視頻的靜止點處提取關鍵幀.
本文提出了一種基于機器學習的視頻識別與自適應推送算法,該算法通過準確地檢測出短視頻中的物體,并結合基于用戶行為的內容推薦算法,向用戶推薦其感興趣的內容.本文所提出的內容推薦算法不但不會引起用戶的反感,且還能增加推薦內容的點擊概率,提升推薦內容的收益率.
本文從物體級廣告投放方式出發(fā),提出了一種基于深度學習的圖片檢測與內容推薦算法.該算法首先使用FFMpeg解析短視頻,然后使用基于內容的關鍵幀提取算法,提取出短視頻的關鍵幀,并使用Faster-RCNN目標檢測算法對視頻中的目標進行檢測、分類.最后,通過將檢測出的物品與需要推薦的內容信息進行匹配,自適應地向用戶推薦與視頻內容相關的廣告.本文所提出方法的整體流程,如圖1所示.該方法主要包括:關鍵幀提取、目標檢測與識別和廣告推薦3個模塊.

圖1 算法整體流程Fig.1 Overall flow chart of algorithm
本文直接從CDN采集的視頻信息中獲取視頻幀,并采用關鍵幀提取技術來排除冗余圖像.其中,關鍵幀能代表一組視頻的內容概要,其提取過程相當于一個數據壓縮過程,且目標是最小化幀與幀間的相似性.
本文首先將視頻序列的第一幀作為參考幀,然后依次計算其他各幀與選定參考幀間的相似度.通過與相似度閾值δ進行比較來確定新的一幀是否可以設置為新的關鍵幀.當相似度小于閾值δ時,將該幀設為關鍵幀,并將其作為后續(xù)幀的參考幀.循環(huán)上述過程,直至結束遍歷視頻序列.本文使用顏色、紋理和形狀信息作為相似度計算指標,其中基于顏色直方圖的相似度計算過程如下:

(1)
(2)

2) 當Sij<δC時,則表示該幀與上一關鍵幀具有較小的相似度,即當前幀所包含的額外信息較少,本文將該幀作為新的關鍵幀;當Sij≥δC時,表示該幀與上一關鍵幀具有較高的相似度,則舍棄該幀.
使用上文所述的方法提取出關鍵幀后,本文使用Faster R-CNN物體檢測框架進行實時檢測.使用Faster R-CNN算法處理一張M×N大小的圖片,首先需要進行一系列卷積與池化操作得到特征圖,然后在特征圖上采用3×3的滑動操作,每次滑動將產生9個錨框.這9個錨框的中心對應著滑動窗口的中心,且具有3種不同的面積:1 282、2 562和5 122;3種不同的長寬比:2∶1、1∶1和1∶2.
得到錨框特征后,Faster R-CNN算法使用1×1×256×18與1×1×256×36兩個卷積層,分別得到一個18維的向量和一個36維的向量.具體生成網絡操作如圖2所示,圖2中將256維特征回歸到4k個候選框的位置坐標中,并分類為2k個類別中的一類.根據位置和類別信息,可以將這些候選框歸類為正負樣本,即將與真實區(qū)域大于0.7的框作為正樣本;將真實區(qū)域小于0.3的框作為負樣本.

圖2 候選區(qū)域生成網絡Fig.2 Candidate area generation network
為了優(yōu)化上述目標檢測網絡,Faster R-CNN算法對候選區(qū)域進行Softmax二分類,并設目標函數為
(3)

(4)
(5)
該目標檢測網絡的訓練過程如下:
1) 使用ImageNet數據集對預訓練模型進行初始化,并獨立訓練區(qū)域生成網絡;
2) 使用步驟1)訓練好的區(qū)域生成網絡訓練目標檢測網絡;
3) 使用步驟2)得到的網絡初始化一個新的區(qū)域生成網絡,將步驟1)得到的區(qū)域生成網絡與Fast R-CNN網絡的權重固定,僅更新區(qū)域生成網絡的權重;
4) 固定權重共享的網絡層,加入Fast R-CNN所特有的特征提取層形成一個統(tǒng)一的網絡,然后繼續(xù)訓練,并微調整個網絡.
本文提出了一種基于反饋的推薦系統(tǒng),通過搜集和分析不同用戶在觀看短視頻時的行為來調整用戶對系統(tǒng)所推薦廣告的權重.推薦系統(tǒng)整體流程如圖3所示,可以看出,該系統(tǒng)使用閉環(huán)設置,根據用戶的行為調整系統(tǒng).

圖3 基于反饋的推薦系統(tǒng)流程Fig.3 Flow chart of feedback-based recommendation system
基于系統(tǒng)根據用戶在觀看短視頻時的行為來調整系統(tǒng)所推薦的廣告權重,行為級別的具體設置過程如下:
1) 在播放視頻時,系統(tǒng)并未推送任何廣告,但用戶主動觸發(fā)目標檢測操作來觀察視頻中的某一物體時,具有最高級別的權重;
2) 在播放視頻時,用戶看到廣告,并點擊廣告鏈接,這一過程具有第二高的權重;
3) 在播放視頻時,用戶看到廣告推送,但未進行任何操作直至廣告結束,這一過程具有第三高的權重;
4) 在播放視頻時,用戶看到廣告并點擊關閉廣告,這一過程具有第四高的權重.
本文根據上述用戶行為的反饋,設置了如表1所示的權重調整表.系統(tǒng)根據用戶的喜好來調整權重,并通過反復試驗來設置用戶感興趣閾值和不感興趣閾值.

表1 用戶喜好權重設置Tab.1 Settings for user preference weight
本文使用C/S架構實現基于機器學習的視頻識別與自適應推送算法,該系統(tǒng)使用云端預處理模塊提供靜態(tài)文件分發(fā)和負載均衡服務;使用網絡接口模塊作為客戶端與服務器進行數據傳輸的通道;使用視頻展示模塊實現視頻解碼和渲染,從而進一步實現視頻播放與廣告推送展示.基于該系統(tǒng)軟硬件平臺,本文分別進行關鍵幀采樣測試實驗與用戶喜好閾值設置實驗.
為了研究采樣步長和相似度閾值對關鍵幀提取算法的影響,使用一段時長為100 s的短視頻進行仿真測試.本文測試不同采樣步長與相似度閾值組合下的關鍵幀提取的數量,結果如表2所示.

表2 關鍵幀提取數量Tab.2 Number of extracted key frames
通過多組人工測試結果表明,該組視頻實際包括20幀關鍵幀.對比表2的結果可知,當采樣步長為2~4 s,相似度閾值在0.5~0.7時提取出的關鍵幀數量符合真實情況.當增加相似度閾值或減小采樣步長時,提出的關鍵幀數量將增加;而減小相似度閾值或增加采樣步長時,提出的關鍵幀數量將減少.綜合考慮計算量與提取出的關鍵幀的數量,本文設置采樣步長為3 s,相似度閾值為0.6.
本文算法根據用戶與視頻的交互行為來生成用戶偏好表,以記錄用戶對不同物品的偏好分數.將用戶對每個類別的物品偏好分數設置為0~100間的整數,并初始化為50.在系統(tǒng)運行時,根據表1給出的權值實時更新該偏好分值.
本文使用直方圖統(tǒng)計用戶偏好分值的分布情況,設置一組包含200種不同物品,100個用戶的實驗進行仿真測試.用戶偏好分值的直方圖分布如圖4所示.
當偏好閾值設置過高時,僅有極少的物品能被推送給用戶;而閾值設置過低時,則無法達到減少物體類別的要求.本文通過權衡用戶偏好和物品數量來選取喜好閾值,并設置用戶喜好閾值為70.
基于上述分析和參數設置,本文使用25部時長為300 s的短視頻測試文中提出推薦算法的有效性.其中這25個短視頻包括15個不同的物體類別,本文算法能依次匹配這些物體及廣告信息.文中將這25個視頻分為不同時長的5組視頻,表3給出了不同方法在這些短視頻上的廣告推薦結果.從表3中可以看出,本文算法平均能達到84.19%的推薦精度,相比于文獻[16]所提出的算法,推薦精度有所提升.

圖4 用戶偏好分值的直方圖分布Fig.4 Distribution histogram of user preference scores
本文提出了一種基于機器學習的視頻識別與自適應推送算法.該算法使用基于顏色相似度的關鍵幀提取算法,從短視頻中提取出關鍵幀,形成短視頻的信息摘要;使用Faster R-CNN目標檢測算法,可以快速檢測出關鍵幀中包含的目標來形成廣告推薦;所提出的基于用戶偏好的廣告推薦算法可以實時更新用戶的偏好權重來進行廣告推薦.算法實現與仿真測試結果表明,所提出的方法不但不會引起用戶的不適感,而且可以增加推薦內容的點擊概率,提升廣告推送的收益率.

表3 不同時長視頻的推薦精度Tab.3 Recommendation accuracy of videos with different lengths