李鑒橋,關虎,張樹武
(1.中國傳媒大學 信息工程學院,北京100024;2.中國科學院 自動化研究所數字內容中心,北京 100190)
基于神經網絡的視頻網站自制節目播放量的預測建模
李鑒橋1,關虎2,張樹武2
(1.中國傳媒大學 信息工程學院,北京100024;2.中國科學院 自動化研究所數字內容中心,北京 100190)
自2005年起,由最初的低成本到如今的專業規模化,我國視頻網站自制節目以其形式多元、內容豐富成為眾多網民的新寵。本文選取五大視頻平臺,共101部數據進行分析,提出了一套影響播放量的指標體系,并且在該指標體系基礎之上構建了一套基于BP神經網絡的播放量預測模型,同時針對神經網絡波動性的特點,對預測模型進行必要的改進。該指標體系和預測模型的研究能為節目上映前的投資、盈利提出更全面可靠的參考方案,對我國視頻產業的研究與發展有所裨益;而且,以該播放量預測模型為基礎,利用科學、合理的評估體系和方法,可以對視頻版權相關產品或服務進行定價,有助于簡化并規范版權交易的詢價議價過程,科學合理地確定版權作品的創意附加值,對版權價值評估及版權交易的進行具有重要指導意義。
影響因素量化;BP神經網絡;播放量預測
近年來,隨著網絡視頻競爭日益激烈,內容同質化態勢日趨嚴重,各大視頻網站紛紛試水自制內容領域,自制內容成為在線視頻網絡差異化競爭的策略[1]。自制節目憑借其成本低廉、制作靈活、互動性強等優勢,越來越受到網民的追捧和廣告商的青睞[2]。好的自制節目能夠幫助視頻網站實現內容差異化,增強用戶粘性,提升品牌與知名度,為視頻網站帶來可觀的版權收入[2]。視頻網站自制節目受追捧程度的主要衡量數據是視頻播放量[3],而擁有較高的播放量,隨之而來的是更高的商業利潤。對視頻播放量進行預測對投資決策具有重要的實際意義,同時能夠為視頻版權交易與價值評估工作打下堅實的技術基礎,能夠規范版權管理與交易市場。
對于版權價值評估,基本方法為收益法、市場法、成本法等[4]。在文化產業中,僅有電影領域有所涉及,對于預測方法大多數采用線性回歸以及BP神經網絡而當前對視頻網站自制節目進行播放量預測的研究較少,相關的應用更是罕見。因此,本文結合自制節目的特點,提出一種影響播放量預測的指標體系,以及一種基于前向型神經網絡的視頻網站自制節目播放量預測模型,并且針對于神經網絡存在波動性的特點,對預測模型進行改進,使輸出結果更精準,從而更好地服務于視頻網站產業發展。
影響自制節目播放量的因素有很多,諸如:播出平臺、播出時長、制作公司、主持人、綜藝偏好等等。總體上可以將影響因素劃分為兩類,即:內部因素和外部因素。這兩類因素共同構成了播放量預測模型的一級指標。在這兩個一級指標之下,經過研究和分析,又設置了13個二級指標,分別是:節目嘉賓、是否為續集、播出時長、播出時間間隔、受眾定位、公眾影響、媒體關注、觀看期待、綜藝偏好等。結合中國當下的市場特點,本文圍繞以下因素進行分析。
2.1 主持人
主持人是支撐節目的核心人物,其語言風格、形象個性等對節目走向起到直接的引導作用,所以將觀眾對主持人的熟知程度作為預測節目播放量的標準之一。
2.2 節目嘉賓
對于節目形態來說,除了單一的娛樂新聞播報節目,還有邀請明星加入的真人秀、訪談節目,嘉賓的人氣和知名度吸引著粉絲去觀看綜藝,這對播放量有著很重要的影響,所以將有無節目嘉賓作為預測節目播放量的標準之一。
2.3 制作公司
聯合出品的自制節目相對于獨立平臺出品的節目,前期投入的人力成本更大,通常來說,節目制作效果更好。所以將此作為預測節目播放量的標準之一。
2.4 是否為續集
對于一部即將上映的節目來說,由于節目本身的獨特性,很難做到還未播出就得到觀眾的認可,但如果觀眾對節目的內容較為熟悉和喜愛的話,比如續集綜藝,前期就積累了一大批的粉絲群,會在上映時得到粉絲較高的關注度和播放量,從而擴大觀影影響。所以將是否為續集作為預測節目播放量的標準之一。
2.5 是否完結
對于正在上映的綜藝來說,隨著時間的推移、后續的播出從而產生的話題度,對綜藝的播放量會有很大的影響,并且綜藝屬于可以反復消費的產品,播出時間越長,播放量也會隨著時間的增長而增長。因此已播出完結的綜藝節目比正在上映的綜藝更有優勢。所以將是否完結作為預測節目播放量的標準之一。
2.6 播出時長
通常情況下,綜藝的內容越豐富,越多樣化,時長就越長,對觀眾的吸引力就越大。因此節目的時長也對播放量有著一定的影響。所以將播出時長作為預測節目播放量的標準之一。
2.7 播出時間間隔
綜藝最常見的播出間隔是周播,周播給綜藝的口碑營造創造了時間,觀眾會更有興趣觀看節目,而日播或者其他播出間隔所播出的節目具有時效性,過了時效期觀眾幾乎沒有興趣再去觀看。所以將播出時間間隔作為預測節目播放量的標準之一。
2.8 播出平臺
播放的平臺很大程度上決定著節目對觀眾的吸引能力,平臺靠著豐富的影視資源和優秀的自制綜藝本身就吸引了一大批用戶,因此平臺的搜索指數越高,反映觀眾越多,反之觀眾越少,未來收益風險越大。所以將播出平臺作為預測節目播放量的標準之一。
2.9 受眾定位
所謂受眾定位,即明確節目的目標受眾,分為普適性定位和特殊性定位。普適性定位即針對廣大網絡視頻用戶普遍適用,而特殊性定位是指根據喜好、地域、年齡、性別等差異進行的精準定位,這一類偏向小眾化的播放量相對有局限性,所以將受眾定位作為預測節目播放量的標準之一。
2.10 公眾影響
綜藝播出后產生了話題度,吸引著觀眾進行討論,討論量越多,綜藝對公眾的吸引程度就越高。同時綜藝越吸引人,觀眾越樂于在社交平臺上分享此節目,從而提高了節目的知名度,影響著播放量。所以將公眾影響作為預測節目播放量的標準之一。
2.11 媒體關注
通過市場媒體宣傳從而吸引觀眾的注意力,根據知曉效應,對于一部綜藝節目,知曉的人越多,潛在的觀眾被挖掘的也越多,對觀眾的影響力越高,一般就能獲得越高的播放量。所以將媒體關注作為預測節目播放量的標準之一。
2.12 網絡口碑
在網綜業內流傳著一句話,就是所謂的“初期靠宣傳、后期靠口碑”,可見網絡口碑對于一部綜藝的成功來說起到了非常重要的作用,豆瓣等之類的網站為觀眾提供了討論節目和評價節目的網絡平臺,從而初期形成的網絡口碑深刻影響著觀眾的觀看決策。所以將網絡口碑作為預測節目播放量的標準之一。
2.13 綜藝偏好
在綜藝節目播出后,綜藝偏好能夠很大程度地反映消費者對綜藝題材和內容的感興趣程度。消費者對綜藝的偏好程度越高,在網站上的搜索量就越高,綜藝播放量就會越高。所以將綜藝偏好作為預測節目播放量的標準之一。
綜上所述可以得到視頻網站自制節目播放量評估指標體系,如圖1所示。

圖1 視頻網站自制節目評估指標體系
對于文化產業的數據預測,通常采用多元線性回歸以及神經網絡方法,而對于多元線性回歸方法而言,本文選取的影響指標存在較強的共線性,且擬合度較差,所以此方法不適合于本文研究。
神經網絡從結構上分類可分為前向型網絡和反饋型網絡[5]。不同的神經網絡有著不同的特點和適用領域:前向型網絡適合用于非線性映射和分類;反饋型網絡適用于聯想記憶、存儲。而對于節目播放量的預測,一般分為定性預測和定量預測,本文將定性變量量化,進行定量預測,特點是以客觀實際資料作為預測的依據,運用數學方法進行處理分析,受主觀因素的影響較小,利用現代化的計算方法,進行大量的計算工作和數據統計,根據本文的研究,選擇前向型神經網絡來訓練播放量評估模型。
應用于訓練的前向型神經網絡的算法有很多,如Hebb學習法、Widrow-Hoff學習法,BP學習法等算法[6]。Hebb學習法比較簡單,難以應用于大規模數據處理,Widrow-Hoff學習算法很難應用于多層網絡。而BP學習法是在Widrow-Hoff學習法的基礎上發展而來的,目前在大規模數據處理、非線性系統映射等領域有著最廣泛的應用[7]。使用BP學習法的神經網絡也稱為BP(Back Propagation)神經網絡,本文選擇使用該算法。
本文首先對影響指標進行量化處理,對于輸入的數據進行歸一化處理,然后確定輸入層、輸出層、隱含層的結構,最后針對神經網絡的波動性,對預測算法進行改進,使預測值更加精準。
3.1 影響指標量化處理
本文引入的影響播放量的因素既有定量變量,又有定性變量,為了能夠在同一模型中反映這些因素對播放量的影響,需要將這些定性變量進行量化,所以將影響播放量的指標做以下具體處理,見表1。

表1 指標量化表說明
3.2 影響因素歸一化
對于輸入的數據采用均勻歸一化,如公式1所示:

(1)
其中,X表示歸一化之后的數據,datai表示當前待歸一化的數據,data表示全部數據,i表示數據索引,取值為[1,n]。
3.3 確定模型結構
BP神經網絡的全稱是誤差反向后傳網絡,其原理是利用輸出后的誤差來估計輸出層的直接前導層的誤差,再用這個誤差估計更前一層的誤差,如此一層一層的反傳下去,就獲得了所有其他各層的誤差估計。其學習規則是使用最速下降法,通過反向傳播來不斷調整網絡的權值和閾值,使網絡的誤差平方和最小[8]。BP神經網絡模型拓撲結構包括輸入層(input layer)、隱含層(hide layer)和輸出層(output layer),其網絡結構如圖2所示。

圖2 三層BP神經網絡結構圖
3.3.1 輸入層
根據對影響指標的分析,輸入層神經元共有13個,即:(13個指標:主持人、節目嘉賓、制作公司、是否為續集、是否完結、播出時長、播出時間間隔、播出平臺、受眾定位、公眾影響、媒體關注、網絡口碑、綜藝偏好)input={ZCR,JMJB,ZZGS,SFXJ,SFSY,BCSC,BCJG,BCPT,SZDW,GZYX,MTGZ,WLKB,ZYPH}。
3.3.2 輸出層
本文中BP模型的輸出值為自制節目播放量,輸出層的神經元激活函數采用公式(2)的tanh函數:

(2)
由于tanh函數的值域在[-1,1]區間,因此需要使用公式(3)進行歸一化的逆運算,其中,實際預測結果用result表示:

(3)
result表示對歸一化的結果進行還原所得的實際預測結果,f(Z)表示經神經網絡計算所得的歸一化預測結果。
3.3.3 隱含層
隱含層節點都使用式(2)tanh函數,采用節點數為19個,經過多次測試,綜合考慮收斂速度和精度,節點數為19個時效果最好。
3.4 預測算法改進
隨著隱含層節點數量的增加,模型的計算容納能力也隨之增加,但同時對預測的結果會帶來波動性,這是因為輸出層之前任意兩個節點之間的權值收斂方向發生變化,都會對結果造成影響。因此,本文對預測算法進行改進,所采用的策略如下:首先采用相同的數據進行五次訓練,由于初始值的不同,五次訓練將會得到五個不同的神經網絡;接下來將測試數據分別輸入五個神經網絡,計算出所得結果的平均值,將該平均值視為預測結果的中心值;最后找出五個預測結果中距離該中心值最遠,即與中心值相差最大的一個數據,去掉該數據,重新計算余下數據的平均值,將該平均值視為最終的預測結果。
改進后的預測算法的偽代碼表示如下:
Begin
/*設errorsum為整數,初始化為0*/
for ilt;-1 to size(testing,1)
do predict lt;- mean(a(i,:))/*mean求平均值,預測值都存儲在a中,將a的值求平均*/
aa lt;-(a-predict) /*預測值與平均預測值的誤差*/
[c,d]lt;-max(abs(aa)) /*求出與平均預測值距離最遠的值*/
a(i,d)lt;-0 /*去掉距離最遠的平均值*/
predict lt;- sum(a(i,:))/4 /*求剩余預測值的平均值*/
b lt;-((testingLabels(i)+1)/2)*(dianjimax-dianjimin)+dianjimin /*反歸一化,從0-1反歸一化到原來的數據
disp([predict b]);
errorsum lt;- abs(predict -b)= errorsum /*計算11個的總平均預測誤差
/*打印 i、predit、b的值*/
end
average lt;-errorsum/11 /*平均預測誤差*/
fclose(fid)
End
本文用于仿真實驗的視頻播放量以及各個指標采集數據來源于骨朵數據、艾恩視頻智庫(網絡綜藝)等[1],共收集了愛奇異、優酷、騰訊、樂視、芒果TV五大視頻平臺的所有自制綜藝,共110部作為本實驗的數據集。
在實驗工具選擇上,考慮到Matlab在科學計算領域有著較高的精度,因此本文使用Matlab實現并改進優化BP模型,采用“|真實值-預測值|/檢測數據個數”作為平均絕對誤差。
首先用matlab隨機產生90個訓練數據及11個檢測數據,然后通過90個訓練數據訓練模型,再分別采用傳統BP以及本文優化的BP模型,對相同的檢測數據進行測試,檢測10次,得到結果如圖3所示。

圖3 兩種模型的平均絕對誤差對比
實驗結果表明,本文優化的BP模型在一定程度上解決了BP神經網絡預測數據的波動性,預測結果更加接近真實播放量。因此,此模型能夠為自制節目的投資和放映以及版權價值的預測評估提出有價值的參考,具有實際意義。
視頻行業近年來發展迅猛,各大視頻網站利用自身平臺優勢,打造自己的原創戰略,比起視頻網站購買天價的電視劇、電影版權,成本上要節省很多,同時能夠保證視頻內容的獨家性,進而吸引更多的廣告主來投放廣告[9]。本文為視頻網站自制節目從業人員、制作人員和廣告主能夠在這個全新的市場中及時洞察用戶的行為習慣和收視偏好、發掘潛力巨大的新市場,提出了一套行之有效的解決方案。結合我國實際情況,提出一套播放量的評估體系,并建立基于BP神經絡的視頻網站自制節目播放量預測模型。此外,還對算法結構進行了調整,改進了預測流程,通過對比實驗,一定程度上解決了預測模型精度過低的問題,并證實了選取指標的科學性。
由結果可知,影響播放量兩個方面的因素:內部因素和外部因素對于播放量的影響都是顯著的,打破以往在分析影響因素時僅分析節目自身因素的思維,能夠更好地為視頻網站的投融資以及視頻版權交易評估服務,促進視頻產業及其版權產業的發展壯大。
[1]王詩雨. 論網絡視頻自制節目《大牌駕到》的節目特色[D].中國青年政治學院,2015.
[2]劉真. 我國視頻網站自制節目研究[D].山東大學,2015.
[3]王黎鵬,薛凱元. 我國視頻網站自制節目現狀的調查分析[J]. 西部廣播電視,2015(04):11-12.
[4]王守龍,陳宇明,王智源.版權資產價值評估基本方法及其市場化運用[J].出版發行研究,2015(05):20-22.
[5]從爽,戴誼. 遞歸神經網絡的結構研究[J]. 計算機應用,2004(08):18-20.
[6]侯瑞. 人工神經網絡BP算法簡介及應用[J].科技信息,2011(3):75.
[7]劉彩紅. BP神經網絡學習算法的研究[D].重慶師范大學,2008.
[8]盧文景. 電影版權價值評估系統的研究與實現[D].中國傳媒大學,2016.
[9]何雨朔. 我國視頻網站自制節目現狀及其發展策略研究[D].曲阜師范大學,2013.
[10]百度指數[OL].http://index.baidu.com/.
[11]藝恩網[OL]. http://www.entgroup.cn/.
[12]骨朵網[OL].http://www.guduomedia.com.
[13]豆瓣網[OL].https://www.douban.com.
[14]微指數[OL].http://www.weizhishu.com.
[15]360指數[OL].http://index.haosou.com.
(責任編輯:宋金寶)
ModelingonPlaybackVolumePredictionofSelf-producedProgramsofChineseVideoWebsites
LI Jian-qiao1,GUAN Hu2,ZHANG Shu-wu2
(1.Information Engineering School,Communication University of China,Beijing 100024,China;2.Digital Content Center,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China)
Since 2005,from the initial low-cost to today’s professional scale,self-produced programs of Chinese video websites become new favorite of many net citizens depend on its form of diversity and substantial content. This paper selects 5 major video websites,analyses 101 data,a index system of an impact at the play times was proposed,and build a model on BP neural network based on the index system. At the same time,according the volatility of BP,the forecasting model is improved.The research of the index system and the model can provide a more comprehensive and reliable reference scheme for the investment and profit before the release of the program,which is beneficial to the research and development of China’s video industry. Moreover,based on the forecasting model,the use of scientific and reasonable evaluation system and methods can be used to price video related products or services to help simplify and standardize the bargaining process of copyright transactions,scientifically and rationally.The creative added value of copyright works is of great significance to the evaluation of copyright and the conduct of copyright transactions.
influencing factor quantification;BP neural network;playback prediction
N37
A
1673-4793(2017)06-0026-07
2017-09-26
國家科技支撐計劃課題(2015BAH49F01)
李鑒橋(1993-),男(漢族),黑龍江人,中國傳媒大學碩士研究生.