楊 麗 秦江濤
(上海理工大學 上海 200093)
近年來,隨著互聯網技術的發展,網絡視頻平臺已成為互聯網用戶的核心網絡活動[1],最新的CNNIC報告顯示,中國網絡視頻用戶規模高達9.27億且短視頻用戶占整體網民的88.3%[2]。為了更好地滿足用戶在觀看時的娛樂和互動需求,各大視頻平臺爭先引入彈幕功能,使得彈幕視頻成為流行。在大數據時代背景下,用戶在很大程度上決定了彈幕視頻的傳播力度,用戶在觀看過程中的點贊和發送彈幕等行為會影響播放量,反映了用戶對視頻的認可和偏好。彈幕視頻和傳統視頻有明顯的不同,彈幕視頻播放量的預測和影響因素分析相比傳統視頻來說更為復雜,利用數據挖掘技術對彈幕視頻播放量的預測以及影響因素的探究,可以使平臺更好地甄別視頻質量好壞,從而加大在高質量視頻上的推廣力度,提升平臺的經濟效益。
彈幕的興起使得學者們從文化視角、發展策略和傳播學等不同角度對其進行了研究。文化視角下著重分析了彈幕文化東西方發展差異[4]和語言特征等,丁國棟[5]等分析了B站物理教學視頻的彈幕,揭示彈幕文本的生成經歷了初次生成、接受再生產和高能激發三個階段且其交互具有吐槽化和去中心化等多個特點,更有效地促進了教師的教學;孫振虎[6]和韓素梅[7]等分別從參與式文化視角下探究了視頻觸發彈幕文本和彈幕影響視頻創作的原因以及參與式文化的新型特征。發展策略方面研究大多聚焦在彈幕對消費者購買行為和購買意愿影響上,李曼寧[8]和李稚[9]等探究用戶情感和廣告插入機制之間的相關性并創新性的提出情感匹配廣告插入機制和動態廣告插入機制,為網絡視頻平臺提供新的營銷策略思路。傳播學視角下,研究熱點在傳播模式和播放量影響因素等方面。王璐[10]通過分析彈幕的特點,證明彈幕可以滿足人們在情感、娛樂和社交三個方面的需求;周洋[11]和張舒涵[12]等分別從多個角度探究了彈幕對軍事題材視頻傳播效果的影響以及官方賬號視頻傳播的即時影響力;陳明紅[13]等依據ELM理論,將變量分為兩類路徑來構建彈幕視頻播放量影響因素模型,并驗證識別出可以引發視頻播放的組合路徑。在預測算法的使用上,最為普遍就是利用多元回歸算法[14]來建立預測模型,機器學習和深度學習算法也逐漸被應用在預測問題上。在目前的機器學習算法中,隨機森林(Random Forest,RF)和XGBoost算法的預測效果最為突出,RF模型實現簡單且預測效果較好,不容易產生過擬合現象[15]。任才溶等[16]提出基于RF的PM2.5濃度等級預測方法,結果表明該模型預測具有較好的精確度和召回率;XGBoost算法具有高準確度和可擴展性,可以發現數據間的依賴關系[17],Noh Byungjoo等[18]根據步態特征建立了XGBoost模型來對老年人的跌倒風險水平分類,確定最佳步態特征來預防老年人跌倒。長短時記憶(Long Short Term Memory,LSTM)神經網絡模型是目前比較流行的深度學習算法,它是傳統的循環神經網絡模型的特殊變形[19]。Luo Junling等[20]針對美國的COVID-19每日確診病例數據,采用LSTM算法和XGBoost算法建立預測模型,證明通過隔離非感染者,降低易感人群和感染者的接觸率可以有效減少每日確診病例。
通過文獻調研發現,彈幕視頻播放量的預測及影響因素分析的研究還不夠深入且模型較為簡單,在針對預測問題上大多采用的算法比較單一,缺乏采用不同特征選擇和不同算法之間的對比分析。鑒于此,本文以國內彈幕視頻網站中最具有影響力之一的嗶哩嗶哩彈幕網(以下簡稱B站)作為研究對象,利用特征選擇方法對數據樣本特征進行篩選,分別采用機器學習算法和深度學習算法對播放量進行預測,比較分析不同算法在預測彈幕視頻播放量方面的優劣以及影響播放量的因素。
本研究的總體框架設計如圖1所示。對彈幕視頻網站進行網頁分析并采集視頻數據,對文本數據進行jieba分詞,利用停用詞表和sklearn中的countervectorizer方法把文本數據轉化為文本向量,對數值數據進行預處理;其次根據特征變量和預測變量的皮爾遜相關系數進行特征選擇;分別構建RF、XGBoost和LSTM模型,探索預測播放量最優算法;最后采用播放量預測最優的算法從彈幕視頻自身特征、創作者特征、數值特征、文本特征四個維度探究不同特征對預測結果的影響,按照評價指標對結果進行分析。

圖1 彈幕視頻播放量研究框架
本研究針對B站反爬蟲設置采用分布式訪問機制獲取日常、生活和VLOG三個關鍵字下的7832條視頻數據,由于用戶對其發布的視頻可以隨時修改,難以對播放量的影響量化,所以選擇同一天的視頻并對24h后的播放量進行預測。數據集一共包含17列數據,其數據表現形式如表1所示。

表1 獲取的數據信息
獲取的數據中可能存在不符合要求的數據,所以要對其進行去重、缺失值和數據歸一化等預處理。本文利用式(1)來對數據進行歸一化處理。

其中X′表示歸一化處理后的數據,X表示原始數據,Xmax和Xmin分別表示X中的最大值和最小值。然后利用分詞函數和正則匹配對標題和簡介兩個文本特征進行分詞,使用停用詞表過濾結果,調用countervectorizer方法把文本數據轉換為128維的詞向量并用平均值來表示視頻文本向量,作為輸人預測算法中的特征。經過預處理后,最終選擇爬取到的6563條視頻數據進行研究,以24h后的播放量作為預測標簽探究影響視頻播放量的相關因素。
為了降低計算維度,提高模型預測性能,利用特征選擇來對特征進行篩選,本文采取皮爾遜相關系數來進行特征選擇,對于數據中的特征變量x和y通過實驗可以得到若干組數據,記為(xi,yi)(i=1,2,3…,n),其計算公式為


圖2 特征變量和預測變量的相關系數
2.5.1 選擇模型
RF是一種無監督機器學習算法,本質上是以決策樹為基礎構建Bagging集成并結合隨機子空間的分類和預測算法[21]?;舅枷胧抢胋oostrap抽樣方法從N個原始樣本數據中抽取n(n<N)個樣本,重復K次并保持樣本容量和原始數據集一致,然后在每個決策樹節點分裂時,從全部M個特征中隨機抽取m個子特征,再從子特征中選擇最優特征作為分裂特征;通過K次訓練得到k個決策樹模型(f1(X),f2(X),…,fk(X))和K個預測結果,根據結果進行投票決定最終的預測結果,模型表示如下:

其中,F(X)表示組合后的預測模型,Y表示標簽特征,I(·)為示性函數,X表示特征變量。
XGBoost算法是在梯度提升決策樹基礎上對損失函數和特征選擇等方面進行了優化,可以有效地構建增強樹且并行運行[22]。算法的思想是用后一個模型來校正前一個模型產生的誤差,不斷重復來達到優化目標函數的目的,整體模型和目標函數分別可表示為

其中,i=1,2,…,n,n為樣本數量,yi為預測輸出,K是樹的數量,fk(Xi)是第k棵樹的數量,F是所有回歸樹的集合,分別表示誤差項和正則化項。
LSTM神經網絡模型是循環神經網絡的特殊變形,在其基礎上增加了輸入門(i)、遺忘門(f)、輸出門(o)三個邏輯控制單元,改進了其容易梯度消失和梯度爆炸的問題,使得網絡可以在更長的數據序列中取得較好的結果[23]。LSTM神經網絡的神經單元結構如圖3所示。

圖3 LSTM神經網絡的神經單元結構
LSTM神經網絡在t時刻的輸出Ht為Ht=ot*tanh(Ct),其中:

輸入門和輸出門的輸出:

式中:it,ft,ot分別表示為t時刻的輸入門、遺忘門、輸出門的輸出,tanh為雙曲正切函數,Ht和Xt分別表示t時刻的輸入向量和隱藏層的輸出,σ為sigmoid激活函數,Ct為t時刻的記憶單元狀態,w和b分別表示計算時權重矩陣和偏置矩陣。
2.5.2 選擇評價指標
為了進一步判斷模型的優劣,本文采用擬合優度R2衡量模型擬合精度,使用平均絕對誤差(MAE)衡量模型預測精度,計算公式如下:

其中yi是待訓練的真實數值,均值是,通過訓練得到預測值為,m表示樣本量,R2越接近1且MAE越低則說明模型擬合程度越好,預測的準確率越高。
本研究采用五折交叉驗證劃分訓練集和驗證集,RF模型利用GridSearchCV實現自動調參,確定模型最優參數分別為max_depth=3,迭代次數n_estimators=80;XGBoost模型的輔助參數學習率、隨機采樣比例和樹的最大高度在模型預測時對算法的性能影響較大,最終確定模型的迭代次數n_estimators=30,任務函數為gamma,學習率learning_rate=0.3,初始預測得分base_score=0.5,且樹的最大高度為3。RF模型和XGBoost模型預測值和實際值的對比分別如圖4和圖5所示。

圖4 隨機森林模型在測試集上的預測值

圖5 XGBoost模型在驗證集上的預測值
LSTM神經網絡模型需要調節的參數較多,對目標變量在輸入層按式(1)進行歸一化處理,為了防止過擬合,dropout設置為0.01,使用MAE作為損失函數,adam作為模型的優化器,數據訓練設置進行5000個epoch,每次使用16條訓練數據進行前向和反向傳播,模型在80個epoch以后達到了很不錯的效果,圖6表示LSTM神經網絡模型在驗證集上的預測結果。

圖6 LSTM神經網絡模型在驗證集上的預測值
從圖4、圖5和圖6中可以看出,RF模型和XGBoost模型預測值和真實值的曲線最為接近,模型的預測結果和真實值誤差較小,模型擬合效果比較好;LSTM神經網絡模型預測值和真實值之間的誤差比較大,模型擬合效果較差。由表2可知,RF模型的R2為0.967,MAE為215.916,而LSTM模型的R2為0.701,從評價指標可以看出RF模型在測試集上的具有更高預測精度。綜合可知,在彈幕視頻播放量預測方面,RF模型比XGBoost模型和LSTM神經網絡模型預測效果更好,而LSTM神經網絡模型表現最差。

表2 不同模型在測試集上的評價指標
在已確定彈幕視頻播放量預測采用RF算法的基礎上,分別選取視頻自身特征和創作者特征來對視頻播放量進行預測,通過比較評價指標探究視頻自身特征是否對播放量影響最大;其次,特征變量的也可分為數值特征和文本特征兩類,比較利用數值和文本兩類特征進行預測和利用所有特征進行預測的實驗結果,分析視頻的文本特征是否可以提升預測效果以及對視頻播放量的影響程度。不同特征進行預測的實驗結果如圖7所示。

圖7 選取不同特征預測結果
由圖可以看出,視頻自身特征進行預測得到的R2為0.966,MAE為215.920,這一結果和候選特征預測結果近似,創作者特征進行預測的R2是0.223,說明其對于視頻播放量的影響幾乎可以忽略不計,進一步表明視頻自身特征對于視頻播放量的影響是最大的。其次,分別將選取數值特征和文本特征進行預測的評價指標和候選特征的預測結果對比,可以看出添加了文本特征預測的結果明顯比只用數值特征進行預測的效果好,說明文本特征只在一定程度影響視頻播放量且影響比較小。所以,彈幕視頻網站在進行日常的推廣過程中可以重點關注視頻自身特征和數值特征這種對播放量影響比較大的變量,進而促進視頻播放量增長,提高經濟效益。
本研究選取B站彈幕視頻作為研究對象,對比傳統機器學習方法和深度學習方法在彈幕視頻播放量預測方面的優劣,并選取不同的特征進行比較實驗,探究影響視頻播放量的關鍵因素。實驗結果表明,RF算法在本研究的數據基礎上的預測效果要優于XGBoost算法和LSTM神經網絡模型,而且LSTM神經網絡進行預測的誤差比較大。利用RF算法選取不同特征進行預測,比較實驗結果發現,彈幕視頻自身特征對于視頻播放量的影響最大,視頻文本特征只是在一定程度上影響視頻播放量且影響較小。
后續工作中將深入挖掘視頻的評論和彈幕內容并對其進行情感分析,作為特征變量擴展預測模型,并且追蹤監測一定時間段內的視頻播放量數據,采用時間序列數據并應用相應模型進行預測,深入探索視頻播放量影響機制和預測算法。