楊威 李龍澍
【摘要】以新浪微博中電影主演和導演的粉絲數、相關微博轉發量、評論量等微博數據為基礎,利用神經網絡建立電影票房的預測模型并利用微博數據進行預測研究。研究表明,本文構建的模型可以在一定程度上用于電影票房的預測,其準確率為90%。
【關鍵詞】微博數據;神經網絡;電影票房;預測模型
1.引言
據2011年IDC的《Digital Universe Sduty》報告顯示,數據以每年超過50%的速度增長,全球信息總量每過兩年就會增長一倍。在眾多產生大數據的平臺中,Twitter、新浪和騰訊微博等使用簡單便捷、信息豐富、傳播速度快、更新迅速、影響范圍廣,新浪微博是中國微博產業的主導力量。
電影作為一種生存期短的商品,對其票房的預測難度較大,當前關于電影票房的研究較少。Kyung Jae Lee和Woojin Chang(1999)用貝葉斯網絡研究票房的影響因素,給出了預測模型[1]。Sharda R和Delen D(2006)利用影響電影票房的多個屬性,以多層神經網絡算法為基礎,提出一種電影票房分類模型[2]。Marshall P等(2013)提出使用電影歷史數據預測電影上映期間的累計觀眾數量,使用多元線性回歸算法預測第1周的觀眾人數,再用其預測后幾周的觀眾總數[3]。王錚和許敏(2013)基于Logit 模型的研究電影票房的影響因素發現明星和導演存在顯著的票房效應[4]。鄭堅和周尚波(2014)利用神經網絡算法,提出一種基于反饋神經網絡的電影票房預測模[5]。
電影上映前,主創人員會對電影進行微博宣傳,對電影有潛在消費欲望的網友會關注這些并評論和轉發。對粉絲數多的用戶,這是一種便宜、高效、傳播范圍廣且迅速的營銷方式。本文在此研究基礎上,嘗試利用神經網絡方法,基于微博數據對電影票房進行預測性研究。
2.相關數據收集和處理
2.1 確定數據指標
本文采用新浪微博的相關數據來對電影票房預測研究,選取電影主創的粉絲數,相關轉發量和評論量作為票房預測的指標體系(見圖1)。
因此,在對票房進行相關分析時提取以電影名稱為關鍵詞的相關主創的微博,統一選取電影主演1、主演2、導演的粉絲數、相關微博評論量、轉發量作為研究指標并收集數據。粉絲數、轉發量和評論量越大對票房的貢獻率越大。
圖1 電影票房預測的數據指標
2.2 數據收集
電影的微博營銷時間通常集中在上映之前和上映的幾周之內。為了使本文的研究結果得到驗證,本文選擇的2013年上映的45部電影研究,電影名稱見表1。
本文的數據收集流程見圖2:
(1)搜索電影名稱確定其導演和主要演員;
(2)查找主演和導演的個人認證微博中以電影名為關鍵詞對其原創和轉發的所有微博,收集其粉絲數量;
(3)收集有關電影所發微博的轉發數和評論數。
2.3 數據處理
在收集數據時會遇到幾個問題:
(1)有的電影主演沒有個人認證微博,其粉絲數和轉發數、評論數無法收集;
(2)有的電影主演的微博評論對粉絲關閉,只有互粉者可以評論;
(3)由于個人情感等原因,每部電影的相關轉發數和評論數差距較大。
鑒于以上問題,需要對采集到的數據進行預處理。
(1)對于沒開通微博的主演和導演,以和其影響力相同的微博賬戶來代替。
(2)對粉絲評論關閉的主演和導演,采用其發布的其他的微博轉發數和評論數來近似替代,并采取轉發數和評論數求均值來提高對比性。本文收集的電影的部分微博數據見表2、3。
表1 2013年上映的45部電影
序號 名稱 序號 名稱 序號 名稱 序號 名稱
1 西游降魔篇 13 不二神探 25 毒戰 37 神奇
2 致青春 14 廚子戲子痞子 26 非常幸運 38 控制
3 私人定制 15 無人區 27 逃出生天 39 在一起
4 狄仁杰 16 掃毒 28 天臺愛情 40 白狐
5 中國合伙人 17 盲探 29 激戰 41 我愛的是你愛我
6 警察2013 18 101次求婚 30 我想和你好好的 42 越來越好之村晚
7 北京遇上西雅圖 19 分手合約 31 等風來 43 意外的戀愛時光
8 小時代1 20 全民目擊 32 笑功震武林 44 一場風花雪月的事
9 風暴 21 四大名捕2 33 摩登年代 45 超級經紀人
10 富春山居圖 22 一夜驚喜 34 忠烈楊家將
11 小時代2 23 特殊身份 35 百星酒店
12 一代宗師 24 被偷走的那五年 36 宮鎖沉香
圖2 電影微博數據收集流程
表2 部分電影的微博數據
序號 名稱 主1粉絲(萬) 主1轉發量 主1評論量 主2粉絲(萬) 主2轉發量
1 西游降魔篇 5334 753 1392 2455 1673
2 致青春 515 4379 4539 4208 9436
3 私人定制 412 1226 2055 1809 287
4 狄仁杰 515 819 558 1484 1867
5 中國合伙人 2118 8276 2817 1476 2772
6 警察2013 2216 4461 4574 3759 3519
7 北京遇上西雅圖 516 2740 2833 556 5726
8 小時代1 2994 13201 12724 3335 7790
9 風暴 901 232 246 6687 2772
10 富春山居圖 901 232 246 556 5726
表3 電影的微博數據
序號 名稱 主2評論量 導演粉絲(萬) 導演轉發量 導演評論 票房
1 西游降魔篇 1979 1739 7060 5875 124603
2 致青春 7796 5712 2401 2109 71888
3 私人定制 173 1739 7060 5875 71210
4 狄仁杰 908 1 386 254 60036
5 中伙 1812 4 65 49 53857
6 警察2013 14724 4 324 72 53266
7 北京遇上西雅圖 1979 6 38 22 51967
8 小時代1 5160 3168 22310 8069 48409
9 風暴 1812 1 400 100 31452
10 富春山居圖 1979 1 400 100 30013
3.構建模型
3.1 研究工具
采用Spss Clementine12.0軟件的神經網絡節點構建模型。
3.2 構建神經網絡預測模型
微博收集的相關數據采用神經網絡來構建電影票房的相關預測模型,需要確定其輸入層、隱藏層和輸出層的神經元個數。神經網絡模型結構見圖3。神經網絡模型的輸入輸出變量名和數據類型見表4。
圖3 神經網絡模型結構
表4 神經網絡模型的輸入輸出變量名
圖4 完整的模型圖
4.實證分析
4.1 仿真實驗
利用微博平臺收集的有關45部電影的微博數據進行仿真實驗時,使用45個數據的66%作為訓練數據,34%作為測試數據,測試集和訓練集是采取隨機抽樣的方法得到的,這兩個部分的數據完全分離,沒有重復樣本。在實驗中,將訓練數據作為訓練集對模型進行訓練,使用測試集對模型進行測試。
將主1粉絲數、主1轉發數、主1評論量、主2粉絲數、主2評論量、主2轉發量、導演粉絲數、導演轉發量、導演評論量的方向設置為輸入,將票房設置為輸出。將神經網絡節點加入到模型中,設置神經網絡的隱藏層數和每層的神經元數。在神經網絡節點的專家選項中選擇兩個隱藏層,層1選擇6,層2選(下轉第16頁)(上接第13頁)擇2。基于神經網絡的完整模型見圖4。
4.2 結果分析
利用微博數據進行建模之后,得出變量重要性見表5。基于數據的分析,可知導演粉和主2粉對電影票房預測模型有著很高的貢獻率。如果某部電影導演的粉絲數、轉發量和評論量大大高于其他電影導演,那么導演的指標的貢獻率比主演的指標要高。在現實的電影票房中,小時代的導演郭敬明和致青春導演趙薇粉絲數、轉發量、評論量都遠超其他導演,票房也遠比其他電影高。
表5 變量的重要性
變量名 變量重要性 變量名 變量重要性 變量名 變量重要性
主2粉絲數 0.24 導演評論量 0.124 導演轉發量 0.041
導演粉絲數 0.183 主2轉發量 0.117 主1評論量 0.032
主2評論量 0.181 主1粉絲數 0.058 主1轉發量 0.025
經過神經網絡模型使用訓練集數據建模得到的模型的估計準確性為89.894%,即訓練集數據的擬合優度為90%,從模型預測的精準性來看,數據量的增多會提高模型的預測結果。
4.3 模型評估
使用訓練集數據建立基于神經網絡的電影票房預測模型之后,要使用測試集數據對模型預測性能進行評估。本文使用相同的測試集數據分別對電影票房的線性回歸模型和決策樹模型進行測試,來比對神經網絡的預測準確性。三種模型對測試集數據進行預測的平均相對誤差見表6,平均誤差見圖5。可知運用神經網絡預測模型具有良好的預測精確度。
表6 三種模型的平均相對誤差 ?%
方法 平均相對誤差
神經網絡 82.42
C&RT 94.07
線性回歸 104.55
圖5 三種模型的誤差對比圖
5.結束語
本文利用Spss Clementine中的神經網絡節點構建了電影票房的預測模型。通過結果分析得出電影票房與主演和導演粉、轉和評和電影票房的關系,并給出了具體的預測模型。其精確度為89.894%,平均誤差相對較小,具有一定的可信度。
但是,本文建模所用的電影數目為45個,進一步加大數據量可以提高模型的精確度,同時微博數據不局限于電影主創們的微博,還可以通過統計一定時間內以某部電影為關鍵詞所發微博總量等數據來預測電影票房,增加輸入神經元個數也能提高模型的準確性。下一步的研究可以將微博作為平臺,將微博中關于某部電影的情感分析加入到電影票房的預測中,也可進一步考慮微博轉發深度、評論活躍程度,以及相關微博數量隨電影上映日期臨近的變化趨勢等數據,這些都可以被有效的提煉為特征并加入到模型中。
參考文獻
[1]Ramya Neelamegham,Pradeep Chintagunta.A Bayesian Model to Forecast New Product Performance in Domestic and International Markets[J].Marketing Science,1999,18(2)115-136.
[2]Sharda R,Delen D.Predicting box-office success of motion pictures with neural networks[J].Expert Systems with Applications,2006,30(2):243-254.
[3]MarshallP,Dockendorff M,Ibanez S.A forecasting system for movie attendance[J].Journal of Business Research,2013,66(13):1800-1806.
[4]王錚,許敏.電影票房的影響因素分析——基于Logit模型的研究[J].經濟問題探索,2013,11:96-102.
[5]鄭堅,周尚波.基于神經網絡的電影票房預測建模[J].計算機應用,2014,03:742-748.