999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的電影票房預測系統設計與實現

2018-08-19 09:26:48吳晶晶
科學與財富 2018年23期

吳晶晶

摘要:早在1989年Barry Litman建立了第一個電影預測模型,隨著電影市場和互聯網的迅速發展,運用大數據理念,電影票房預測系統應運而生。它是考察影響電影票房的諸多因素基礎上,采用回歸統計分析方法研發出的預測系統。電影定檔后正式海報會在線上/線下宣傳,觀眾會通過海報圖像上提供的信息來決定是否買票觀看電影。預測系統收集最近10年的電影數據,根據提交海報生成的特征,并分類到相似海報的已上映影片,根據相似海報的電影票房數據進行多元回歸分析來預測該電影的票房收入。

關鍵詞:回歸統計分析;票房預測;多元回歸;電影預測模型

1概述

本課題研究內容主要基于機器學習技術設計并實現電影票房預測系統。主要貢獻包括三部分:1,基于機器學習的電影票房預測系統的體系結構和實現;2,基于深度學習的電影特征抽取方法;3,基于回歸分析的電影票房預測方法,預測未上映的電影中國票房收入。

2電影票房預測系統結構

電影票房預測系統如圖1所示,該系統分為三個模塊:1,電影海報與票房數據處理模塊。2,基于深度學習的海報圖像特征抽取模塊。3,基于線性回歸的電影票房預測模塊。

2.1電影海報與票房數據處理

數據源來自CBO中國票房網、時光網、imdb等電影相關的在線服務網站。用Python語言設計并實現一個數據收集與處理程序,該程序從互聯網電影信息網站爬取電影信息(電影名稱、海報圖像、上映時間、總票房、評分),并保存到關系型數據庫(MySQL5.7)中。

2.2基于深度學習的海報圖像特征抽取方法

用VGG16來訓練神經網絡,選擇某一層次作為特征向量,即可描述數據集中的電影概貌。在系統設計中,選擇使用基于Keras的深度學習框架提升訓練神經網絡的效率。利用訓練結果得到的特征向量計算余弦相似性,得到相似海報,最后找到同類電影。

2.3基于線性回歸的電影票房預測方法

深度神經網絡自動提取的電影海報特征不一定是人類可直觀理解的特征。根據海報提取的特征,對此分類。

回歸分析是機器學習一種預測性的建模技術,它研究的是因變量(目標)和自變量(預測器)之間的關系。這種技術通常用于發現兩個或多個變量之間的因果關系:1,表明自變量(年份/評分等)和因變量(票房收入)之間的顯著關系;2,表明多個自變量對一個因變量的影響強度。

1,根據電影A的海報提取的電影特征進行聚類,計算同類電影的票房均值。 ,其中,A是電影A的票房均值,p是第k部電影與電影a的相似度,v是第k部電影的票房)。

2,獲取到該類電影票房均值(Y),年份(X)的樣本數據。

3,利用回歸分析找到一條擬合線,從而預測下一年的電影票房均指作為此電影的票房預測。

線性回歸是機器學習最重要的算法之一,通過擬合最佳直線來建立自變量和因變量的關系。回歸線用Y=m*X+b來表示,這條直線能以最小的誤差(Loss)來擬合數據。

找最佳擬合直線時,如果因變量y與自變量x的關系為非線性的,但是又找不到適當的函數曲線來擬合,則可以采用一元多項式回歸。

二元則采用梯度下降法求解方程組。在多維特征中,要保證特征具有相近的尺度,這將幫助梯度下降算法更快地收斂。解決的方法是嘗試將所有特征的尺度都盡量縮放到-1到1之間,最簡單的方法就是(X-mu) /sigma,其中mu是平均值,sigma是標準差。損失函數和單變量一樣,依然計算損失平方和均值。和單變量線性回歸問題中一樣,是要找出使得代價函數最小的一系列參數。

3實驗

類1海報電影票房預測:

1,把年月份換算成小數表示Y=year+mouth/13如2017年4月用數字2017.31表示。載入matplotlib庫后,用pandas讀取數據存儲的.csv,寫一個函數把數據轉換為X值(年月份)、Y值(票房總收入/萬元)。

2,線性回歸分析,其中predict_year為要預測的年份,函數返回對應的票房收入。構造回歸圖像,獲取預測值,構造返回字典:定義截距值、回歸系數、預測值。

3,構造回歸對象,繪出已知數據散點圖和預測直線,獲取預測值2018,輸出結果為112052.45751675萬元。

預測類1海報的電影2018年上映票房收入為12052.5萬元。實際電影復仇者聯盟3:無限戰爭2018年累計票房為236490.5萬元。從直線上看該類電影票房呈逐年上升趨勢。

4,多項式線性回歸是是一種特殊的線性回歸,直觀地解釋是根據樣本點去擬合一條多項式曲線。

degree是多項式中自變量x的階數。雖然其圖形經過了大部分的點,但會存在擬合過度(over-fitting)的情況,并沒有從輸入和輸出中推導出一般的規律,而是記憶訓練集的結果,并沒有實際的參考價值。

5,定義年月份為x1、評分為x2,向量x=(x1,x2),y為票房收入,進行二元回歸分析。例如:x=[2017.54,7.2],y=[567886.1]。

6,對數據特征的尺度都盡量縮放到-1和1之間,輸出x,均值,標準差:

計算損失平方和均值,轉化為向量化計算

對theta求導,套入迭代公式,并存儲歷史誤差

預處理設置迭代次數和學習率

7,預測年份為2018,分數為8.1,x=[2018,8.1],使用模型預測結果,計算y。輸出結果為13067.68萬元。從預測結果上看二元回歸分析比一元線性回歸更接近實際票房數值。

4總結與展望

電影票房預測系統在實際中具有實際意義,它能分析預測不同種類電影的票房價值,成為電影產業投融資重要參考工具,對電影產品定價及衍生產品開發都具有較強的指導作用。在實驗中遇到許多問題,如:時光網電影海報有多張:預告海報、角色海報、國外海報等,每類海報差異巨大,會影響下一步的海報特征抽取,本課題以網站標簽為中國正式海報為準進行抓取。VGG16抽取特征后可能會出現聚類不明顯的情況,還需對數據進行降噪、過濾處理,增加神經網絡訓練次數。電影市場潛力巨大,隨著模型的不斷完善,也會應用到其他領域。

參考文獻:

[1]袁璐,沈浩.基于深度學習的電影海報推薦系統[J].現代電影技術,No.05/2018

[2]鄭堅,周尚波.基于神經網絡的電影票房預測建模[J].計算機應用,2014,34(3):742-748.

[3]胡曉紅、王紅.基于多元線性回歸的電影票房預測研究[J].信息技術與信息化,1672-9528.2018.h2.048

主站蜘蛛池模板: 久久大香伊蕉在人线观看热2 | 国产尤物jk自慰制服喷水| 亚洲无线观看| 青草视频久久| 久久这里只有精品国产99| 亚洲欧美日韩综合二区三区| 久久五月天国产自| 一区二区午夜| 欧美日韩一区二区三区四区在线观看| 999福利激情视频| 久久久久青草大香线综合精品| 国产成人亚洲精品色欲AV| www.国产福利| 国产人人射| 亚洲欧美精品日韩欧美| 亚洲三级电影在线播放| 91伊人国产| 国产精品七七在线播放| 极品性荡少妇一区二区色欲| 国产在线无码一区二区三区| 国产日韩av在线播放| 亚洲精品不卡午夜精品| 国产精品美女自慰喷水| 91在线高清视频| 免费看a毛片| 狼友视频一区二区三区| 亚洲国产成人麻豆精品| 亚洲av中文无码乱人伦在线r| 免费a在线观看播放| 亚洲永久视频| 亚洲国产精品日韩欧美一区| 五月天婷婷网亚洲综合在线| 久久国产精品嫖妓| 午夜视频在线观看区二区| 色噜噜狠狠狠综合曰曰曰| 国内丰满少妇猛烈精品播 | 国产剧情无码视频在线观看| 91娇喘视频| 久久伊人操| 亚洲第一在线播放| 波多野结衣无码中文字幕在线观看一区二区| 亚洲国产天堂久久综合226114| 国产精品区视频中文字幕| 国产人免费人成免费视频| 中日韩欧亚无码视频| 久久精品波多野结衣| 日韩色图在线观看| 国产福利一区在线| 久久a级片| 91精品国产一区自在线拍| 精品自窥自偷在线看| 日韩美毛片| 国产亚洲欧美在线专区| 国产在线欧美| 欧美国产在线看| 国产裸舞福利在线视频合集| 一区二区三区四区精品视频 | 国产在线无码一区二区三区| 天天色天天综合网| 日韩一区精品视频一区二区| 丁香婷婷久久| 国产AV毛片| 亚洲成A人V欧美综合| 国产真实二区一区在线亚洲| 国产精品视频久| 91精品情国产情侣高潮对白蜜| 国产成人精品男人的天堂下载| 欧美一级高清片久久99| www.精品国产| 999精品色在线观看| 真实国产乱子伦视频| 黄色不卡视频| 亚洲视频无码| 日韩性网站| 国产熟睡乱子伦视频网站| 毛片基地视频| 久草视频福利在线观看| 亚洲欧美不卡视频| 亚洲日韩欧美在线观看| 亚洲欧美日韩动漫| a毛片免费观看| 亚洲天堂在线视频|