李奕,王曉峰
(上海海事大學信息工程學院,上海201306)
2017年中國電影總票房突破500億大關,細數近10年,就中國電影票房而言,從2009年的100億元激增到2017年559億元,創造了各種票房神話。隨著政府扶持政策不斷出臺,吸引了包括阿里在內多個互聯網巨頭投資影業,這種種跡象表明,我國電影市場正向產業化轉型。然而經過調研表明,中國電影市場并沒有表明上光鮮,除去國外引進片,多達七成的國產電影處于虧本狀態,所以能否提前預測一部電影在上映之前的票房多少對投資人來說至關重要。
得益于國外電影業比中國成熟,國外學者在票房預測模型方面有很多建樹,20世紀80年代李特曼票房模型[1]認為電影票房取決于創意、發行、營銷三個方面,導演、演員、出品地、類型、續集、檔期、提名、劇情、評分、發行公司這十大因素與票房相關。20世紀90年代斯格特·蘇凱票房模型[2]認為電影票房主要包括創意、發行模式和市場推廣三個方面,屏幕數量、分級、奧斯卡提名、奧斯卡獲獎、檔期、圣誕節上映、MPAAR分級、CR104等22個因素與票房相關。21世紀初陳白鶴等[3]提出電影票房取決于電影品牌、客觀特征、專家的評級和觀眾的評級、經銷商這四個方面,模型因素包括了預算、觀眾和專家評級、續集、屏幕數量、MPAAR、演員、劇本、檔期、復活節上映等。2006年Sharda[4]提出以多層神經網絡為基礎對電影票房進行分類,但其數據收集時全部采用0,1賦值,喪失了數據的解釋性。2012年Barman[5]等提出利用反饋神經網絡算法對電影票房進行了預測,但其神經網絡結構簡單,只有一個隱藏層,也忽略了導演、演員等一系列影響因素。2013年Marshall[6]等提出結合電影實時觀影人次進行動態預測電影票房。2014年隨著大數據和云計算技術的迅猛發展,百度票房預測模型[7]利用搜索引擎和社交網絡關鍵詞的搜索量、轉發量、評論量、各大主流視頻網站電影預告片的點擊量加上各項百度指數等諸多因素綜合來預測電影票房,然而由于樣本有些可以人為更改,“臟數據”的存在導致百度票房模型有時預測偏差過大,例如2014年上映的《黃金時代》,模型給出的兩億票房預測值與實際慘淡的4000萬相去甚遠。同年,鄭堅[8]等在Barman的基礎上根據電影上映期間的數據對BP神經網絡進行了優化。2015年重慶大學李金芝[9]等提出了基于泛函網絡的票房預測模型,通過先對電影進行聚類再預測的方法,但其僅選取了231部樣本,其中15部作為測試集,一共選擇了五個因子作為網絡的輸入端,誤差精度也較大。2016年張慧[10]等提出基于深度學習對電影票房進行預測,但其僅選擇2015年和2016年票房前25名共計50部票房相關數據作為樣本,數據樣本過小,導致說服力不大。2017年張雪[11]等探索性運用卷積神經網絡對國內電影票房進行預測,但缺少制作成本、宣傳成本、微博、電影評分等一系列相關數據導致結果不是非常理想。

表1 部分原始數據表
本文結合上述國內外現狀,從豆瓣網、微博、時光網、藝恩網以及中國電影票房網這五個電影票房網站處選取了共計20個相關因素,并進行了適當的數據預處理,構建了一個國內電影票房相關因子數據集。其中微博2009年出現,導致相關數據僅能從2009年后開始搜集。因此本文選取了2010年到2017年這八年一共440部票房過千萬的電影作品作為研究對象,由于國產電影的類型較為集中,因此本文未將電影類型選為因素,同時也去除了像音樂劇、動畫劇、配音劇,愛國宣傳劇等類型較少,數據無法考察的微量樣本。除此之外,由于所有樣本均是內地上映的國產電影,因此也未將出品地作為相關因子。
本文選取票房數據相關因素原始數據如表1,因子說明見表2。
神經網絡模型起源于人類對自身思維模式的探究,是一個非線性的數據建模工具,由輸入層和輸出層外加一個或者多個隱藏層,神經元之間相互連接并同時賦予相關權重,根據不同數據可以選擇不同算法進行訓練,通過不斷調整學習率、偏置、網絡權重等參數,從而當誤差最小化時給出相應預測值。神經網絡和傳統的線性回歸模型不同,它無需數據集的因變量和自變量有特定關系,隨著大量數據進行不斷迭代訓練后,神經網絡將自動接近最貼近的內在模型結構,從而建立函數內在映射關系。當前隨著人工智能的復興,針對各行各業的需求,越來越多的神經網絡結構不斷出現,并在圖像處理、圖像分類、導航、數據預測、通信等多個領域有了運用,這些運用正極大地改變人類的生活方式。

表2 數據因子說明表
本文采用的BP神經網絡是所有神經網絡中最為基礎也是應用最廣闊的模型之一。本文以電影票房數值為因變量,IP改編、特效、序列、出品公司、發行公司、檔期為因子,剩余14個連續型因子作為協變量搭建模型。數據集劃分為訓練集和測試集,其比例為8:2如表3所示,采用交叉檢驗的方式,迭代次數5000次。模型結構如圖2,其輸入層共有20個神經節點,共計2個隱藏層,其中本文根據公式(1)-(3)選取了隱藏層節點個數,其中M代表隱藏層節點數,N代表輸入層節點數,L代表輸出層節點數,α代表1-10之間的常數,根據最佳節點選擇公式,本模型分別試用了(9,4)和(7,3)節點數,經過多次測試發現當第一個隱藏層有9個節點,第二個隱藏層有4個節點效果最佳,網絡信息如表4。此外激活函數選取了tanh雙曲正切函數,訓練類型采用批處理方式,學習算法采用梯度下降算法,經過多種調試后發現當學習率為0.38,動能0.9,偏置為0.5時可以得到令人滿意的預測值,最終結果采用此參數設置運行10次后的平均值。

本文整體模型思路流程如圖3。

圖1 BP神經網絡最簡單結構

表3

表4

圖2
模型預測部分結果如表5。

表5

圖3 模型的建立過程
摘錄仿真實驗的部分結果可知,發現各大票房區間擬合結果令人滿意,第386條《追兇》誤差值最大為12.5%,除去超過20億票房的捉妖記和美人魚誤差預測較大外,其余誤差基本控制在[-10%,10%]以內。其中捉妖記和美人魚分別是2015年和2016年內地票房冠軍,口碑良好,尤其《美人魚》是導演周星馳歷時三年創作出來的作品,鑒于星爺在中國粉絲眾多,加上電影題材新穎與當時熱門話題環保相結合,很多人二刷三刷電影票前去支持,由于本文所有數據是根據電影上映前收集而來,確實也未考慮到群眾效應帶來的影響,因此未能進行較為準確的預測情有可原。
本文從中國內地電影票房市場出發,把電影實際總票房作為因變量,導演、編劇、第一主演、第二主演、第三主演、上映檔期等多達20個因子作為自變量,并對其進行了歸一化處理,另外對BP神經網絡網絡結構做了調整,優化了BP神經網絡電影預測票房模型,最終效果令人滿意。值得注意的是,本文暫未將盜版因素考慮在內,鑒于國內盜版情況屢見不鮮,為了更加精準的分析預測,希望相關部門加以管制,本文鼓勵支持正版。