999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的電影票房預測系統設計與實現

2018-08-19 09:26:48吳晶晶
科學與財富 2018年23期

吳晶晶

摘要:早在1989年Barry Litman建立了第一個電影預測模型,隨著電影市場和互聯網的迅速發展,運用大數據理念,電影票房預測系統應運而生。它是考察影響電影票房的諸多因素基礎上,采用回歸統計分析方法研發出的預測系統。電影定檔后正式海報會在線上/線下宣傳,觀眾會通過海報圖像上提供的信息來決定是否買票觀看電影。預測系統收集最近10年的電影數據,根據提交海報生成的特征,并分類到相似海報的已上映影片,根據相似海報的電影票房數據進行多元回歸分析來預測該電影的票房收入。

關鍵詞:回歸統計分析;票房預測;多元回歸;電影預測模型

1概述

本課題研究內容主要基于機器學習技術設計并實現電影票房預測系統。主要貢獻包括三部分:1,基于機器學習的電影票房預測系統的體系結構和實現;2,基于深度學習的電影特征抽取方法;3,基于回歸分析的電影票房預測方法,預測未上映的電影中國票房收入。

2電影票房預測系統結構

電影票房預測系統如圖1所示,該系統分為三個模塊:1,電影海報與票房數據處理模塊。2,基于深度學習的海報圖像特征抽取模塊。3,基于線性回歸的電影票房預測模塊。

2.1電影海報與票房數據處理

數據源來自CBO中國票房網、時光網、imdb等電影相關的在線服務網站。用Python語言設計并實現一個數據收集與處理程序,該程序從互聯網電影信息網站爬取電影信息(電影名稱、海報圖像、上映時間、總票房、評分),并保存到關系型數據庫(MySQL5.7)中。

2.2基于深度學習的海報圖像特征抽取方法

用VGG16來訓練神經網絡,選擇某一層次作為特征向量,即可描述數據集中的電影概貌。在系統設計中,選擇使用基于Keras的深度學習框架提升訓練神經網絡的效率。利用訓練結果得到的特征向量計算余弦相似性,得到相似海報,最后找到同類電影。

2.3基于線性回歸的電影票房預測方法

深度神經網絡自動提取的電影海報特征不一定是人類可直觀理解的特征。根據海報提取的特征,對此分類。

回歸分析是機器學習一種預測性的建模技術,它研究的是因變量(目標)和自變量(預測器)之間的關系。這種技術通常用于發現兩個或多個變量之間的因果關系:1,表明自變量(年份/評分等)和因變量(票房收入)之間的顯著關系;2,表明多個自變量對一個因變量的影響強度。

1,根據電影A的海報提取的電影特征進行聚類,計算同類電影的票房均值。 ,其中,A是電影A的票房均值,p是第k部電影與電影a的相似度,v是第k部電影的票房)。

2,獲取到該類電影票房均值(Y),年份(X)的樣本數據。

3,利用回歸分析找到一條擬合線,從而預測下一年的電影票房均指作為此電影的票房預測。

線性回歸是機器學習最重要的算法之一,通過擬合最佳直線來建立自變量和因變量的關系。回歸線用Y=m*X+b來表示,這條直線能以最小的誤差(Loss)來擬合數據。

找最佳擬合直線時,如果因變量y與自變量x的關系為非線性的,但是又找不到適當的函數曲線來擬合,則可以采用一元多項式回歸。

二元則采用梯度下降法求解方程組。在多維特征中,要保證特征具有相近的尺度,這將幫助梯度下降算法更快地收斂。解決的方法是嘗試將所有特征的尺度都盡量縮放到-1到1之間,最簡單的方法就是(X-mu) /sigma,其中mu是平均值,sigma是標準差。損失函數和單變量一樣,依然計算損失平方和均值。和單變量線性回歸問題中一樣,是要找出使得代價函數最小的一系列參數。

3實驗

類1海報電影票房預測:

1,把年月份換算成小數表示Y=year+mouth/13如2017年4月用數字2017.31表示。載入matplotlib庫后,用pandas讀取數據存儲的.csv,寫一個函數把數據轉換為X值(年月份)、Y值(票房總收入/萬元)。

2,線性回歸分析,其中predict_year為要預測的年份,函數返回對應的票房收入。構造回歸圖像,獲取預測值,構造返回字典:定義截距值、回歸系數、預測值。

3,構造回歸對象,繪出已知數據散點圖和預測直線,獲取預測值2018,輸出結果為112052.45751675萬元。

預測類1海報的電影2018年上映票房收入為12052.5萬元。實際電影復仇者聯盟3:無限戰爭2018年累計票房為236490.5萬元。從直線上看該類電影票房呈逐年上升趨勢。

4,多項式線性回歸是是一種特殊的線性回歸,直觀地解釋是根據樣本點去擬合一條多項式曲線。

degree是多項式中自變量x的階數。雖然其圖形經過了大部分的點,但會存在擬合過度(over-fitting)的情況,并沒有從輸入和輸出中推導出一般的規律,而是記憶訓練集的結果,并沒有實際的參考價值。

5,定義年月份為x1、評分為x2,向量x=(x1,x2),y為票房收入,進行二元回歸分析。例如:x=[2017.54,7.2],y=[567886.1]。

6,對數據特征的尺度都盡量縮放到-1和1之間,輸出x,均值,標準差:

計算損失平方和均值,轉化為向量化計算

對theta求導,套入迭代公式,并存儲歷史誤差

預處理設置迭代次數和學習率

7,預測年份為2018,分數為8.1,x=[2018,8.1],使用模型預測結果,計算y。輸出結果為13067.68萬元。從預測結果上看二元回歸分析比一元線性回歸更接近實際票房數值。

4總結與展望

電影票房預測系統在實際中具有實際意義,它能分析預測不同種類電影的票房價值,成為電影產業投融資重要參考工具,對電影產品定價及衍生產品開發都具有較強的指導作用。在實驗中遇到許多問題,如:時光網電影海報有多張:預告海報、角色海報、國外海報等,每類海報差異巨大,會影響下一步的海報特征抽取,本課題以網站標簽為中國正式海報為準進行抓取。VGG16抽取特征后可能會出現聚類不明顯的情況,還需對數據進行降噪、過濾處理,增加神經網絡訓練次數。電影市場潛力巨大,隨著模型的不斷完善,也會應用到其他領域。

參考文獻:

[1]袁璐,沈浩.基于深度學習的電影海報推薦系統[J].現代電影技術,No.05/2018

[2]鄭堅,周尚波.基于神經網絡的電影票房預測建模[J].計算機應用,2014,34(3):742-748.

[3]胡曉紅、王紅.基于多元線性回歸的電影票房預測研究[J].信息技術與信息化,1672-9528.2018.h2.048

主站蜘蛛池模板: 亚洲欧美另类视频| 91精品国产麻豆国产自产在线 | 国产美女免费| 久久国产亚洲偷自| 波多野结衣一区二区三区四区视频| 国产成人成人一区二区| 亚洲色图欧美一区| 成人永久免费A∨一级在线播放| 久久免费观看视频| 亚洲日韩高清无码| 无码丝袜人妻| 日本人妻丰满熟妇区| 永久毛片在线播| 91福利在线观看视频| 国产无码在线调教| 国语少妇高潮| 国产精品无码翘臀在线看纯欲| 高h视频在线| 伊人91在线| 日韩在线视频网站| 九九九国产| 国产久草视频| a级毛片免费网站| 91香蕉视频下载网站| 亚洲中文在线视频| 精品国产网| 亚洲欧美综合另类图片小说区| 国产成人成人一区二区| 欧美黑人欧美精品刺激| 欧美中文字幕在线二区| 亚洲色图欧美| 亚洲一区二区日韩欧美gif| 久草青青在线视频| 尤物成AV人片在线观看| 日本伊人色综合网| 国产成人在线无码免费视频| 女人18一级毛片免费观看| 婷婷六月在线| 久久青青草原亚洲av无码| 免费在线不卡视频| 国产91高清视频| 欧美亚洲国产日韩电影在线| 国产剧情无码视频在线观看| 国产xxxxx免费视频| 99国产精品免费观看视频| 青青久在线视频免费观看| 美美女高清毛片视频免费观看| 免费女人18毛片a级毛片视频| 婷婷伊人久久| 久久精品一品道久久精品| 亚洲国产欧美国产综合久久| 亚洲人成网7777777国产| 日韩精品久久久久久久电影蜜臀| 精品伊人久久久久7777人| 欧美亚洲香蕉| 永久免费精品视频| 白丝美女办公室高潮喷水视频| 亚洲成av人无码综合在线观看| 日本一本正道综合久久dvd| 国产三级视频网站| 丁香婷婷久久| 91 九色视频丝袜| 久久久精品久久久久三级| 第一页亚洲| 福利在线免费视频| 国产女人在线观看| 91精品国产情侣高潮露脸| 无码精油按摩潮喷在线播放| 在线无码私拍| 激情無極限的亚洲一区免费| 91激情视频| 色香蕉网站| 午夜人性色福利无码视频在线观看| 亚洲全网成人资源在线观看| 亚洲aaa视频| AV老司机AV天堂| 国内精品视频区在线2021| jizz国产视频| 久久精品这里只有精99品| 亚洲国产精品成人久久综合影院| 久热中文字幕在线观看| 9999在线视频|