999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的電影票房預測系統設計與實現

2018-08-19 09:26:48吳晶晶
科學與財富 2018年23期

吳晶晶

摘要:早在1989年Barry Litman建立了第一個電影預測模型,隨著電影市場和互聯網的迅速發展,運用大數據理念,電影票房預測系統應運而生。它是考察影響電影票房的諸多因素基礎上,采用回歸統計分析方法研發出的預測系統。電影定檔后正式海報會在線上/線下宣傳,觀眾會通過海報圖像上提供的信息來決定是否買票觀看電影。預測系統收集最近10年的電影數據,根據提交海報生成的特征,并分類到相似海報的已上映影片,根據相似海報的電影票房數據進行多元回歸分析來預測該電影的票房收入。

關鍵詞:回歸統計分析;票房預測;多元回歸;電影預測模型

1概述

本課題研究內容主要基于機器學習技術設計并實現電影票房預測系統。主要貢獻包括三部分:1,基于機器學習的電影票房預測系統的體系結構和實現;2,基于深度學習的電影特征抽取方法;3,基于回歸分析的電影票房預測方法,預測未上映的電影中國票房收入。

2電影票房預測系統結構

電影票房預測系統如圖1所示,該系統分為三個模塊:1,電影海報與票房數據處理模塊。2,基于深度學習的海報圖像特征抽取模塊。3,基于線性回歸的電影票房預測模塊。

2.1電影海報與票房數據處理

數據源來自CBO中國票房網、時光網、imdb等電影相關的在線服務網站。用Python語言設計并實現一個數據收集與處理程序,該程序從互聯網電影信息網站爬取電影信息(電影名稱、海報圖像、上映時間、總票房、評分),并保存到關系型數據庫(MySQL5.7)中。

2.2基于深度學習的海報圖像特征抽取方法

用VGG16來訓練神經網絡,選擇某一層次作為特征向量,即可描述數據集中的電影概貌。在系統設計中,選擇使用基于Keras的深度學習框架提升訓練神經網絡的效率。利用訓練結果得到的特征向量計算余弦相似性,得到相似海報,最后找到同類電影。

2.3基于線性回歸的電影票房預測方法

深度神經網絡自動提取的電影海報特征不一定是人類可直觀理解的特征。根據海報提取的特征,對此分類。

回歸分析是機器學習一種預測性的建模技術,它研究的是因變量(目標)和自變量(預測器)之間的關系。這種技術通常用于發現兩個或多個變量之間的因果關系:1,表明自變量(年份/評分等)和因變量(票房收入)之間的顯著關系;2,表明多個自變量對一個因變量的影響強度。

1,根據電影A的海報提取的電影特征進行聚類,計算同類電影的票房均值。 ,其中,A是電影A的票房均值,p是第k部電影與電影a的相似度,v是第k部電影的票房)。

2,獲取到該類電影票房均值(Y),年份(X)的樣本數據。

3,利用回歸分析找到一條擬合線,從而預測下一年的電影票房均指作為此電影的票房預測。

線性回歸是機器學習最重要的算法之一,通過擬合最佳直線來建立自變量和因變量的關系。回歸線用Y=m*X+b來表示,這條直線能以最小的誤差(Loss)來擬合數據。

找最佳擬合直線時,如果因變量y與自變量x的關系為非線性的,但是又找不到適當的函數曲線來擬合,則可以采用一元多項式回歸。

二元則采用梯度下降法求解方程組。在多維特征中,要保證特征具有相近的尺度,這將幫助梯度下降算法更快地收斂。解決的方法是嘗試將所有特征的尺度都盡量縮放到-1到1之間,最簡單的方法就是(X-mu) /sigma,其中mu是平均值,sigma是標準差。損失函數和單變量一樣,依然計算損失平方和均值。和單變量線性回歸問題中一樣,是要找出使得代價函數最小的一系列參數。

3實驗

類1海報電影票房預測:

1,把年月份換算成小數表示Y=year+mouth/13如2017年4月用數字2017.31表示。載入matplotlib庫后,用pandas讀取數據存儲的.csv,寫一個函數把數據轉換為X值(年月份)、Y值(票房總收入/萬元)。

2,線性回歸分析,其中predict_year為要預測的年份,函數返回對應的票房收入。構造回歸圖像,獲取預測值,構造返回字典:定義截距值、回歸系數、預測值。

3,構造回歸對象,繪出已知數據散點圖和預測直線,獲取預測值2018,輸出結果為112052.45751675萬元。

預測類1海報的電影2018年上映票房收入為12052.5萬元。實際電影復仇者聯盟3:無限戰爭2018年累計票房為236490.5萬元。從直線上看該類電影票房呈逐年上升趨勢。

4,多項式線性回歸是是一種特殊的線性回歸,直觀地解釋是根據樣本點去擬合一條多項式曲線。

degree是多項式中自變量x的階數。雖然其圖形經過了大部分的點,但會存在擬合過度(over-fitting)的情況,并沒有從輸入和輸出中推導出一般的規律,而是記憶訓練集的結果,并沒有實際的參考價值。

5,定義年月份為x1、評分為x2,向量x=(x1,x2),y為票房收入,進行二元回歸分析。例如:x=[2017.54,7.2],y=[567886.1]。

6,對數據特征的尺度都盡量縮放到-1和1之間,輸出x,均值,標準差:

計算損失平方和均值,轉化為向量化計算

對theta求導,套入迭代公式,并存儲歷史誤差

預處理設置迭代次數和學習率

7,預測年份為2018,分數為8.1,x=[2018,8.1],使用模型預測結果,計算y。輸出結果為13067.68萬元。從預測結果上看二元回歸分析比一元線性回歸更接近實際票房數值。

4總結與展望

電影票房預測系統在實際中具有實際意義,它能分析預測不同種類電影的票房價值,成為電影產業投融資重要參考工具,對電影產品定價及衍生產品開發都具有較強的指導作用。在實驗中遇到許多問題,如:時光網電影海報有多張:預告海報、角色海報、國外海報等,每類海報差異巨大,會影響下一步的海報特征抽取,本課題以網站標簽為中國正式海報為準進行抓取。VGG16抽取特征后可能會出現聚類不明顯的情況,還需對數據進行降噪、過濾處理,增加神經網絡訓練次數。電影市場潛力巨大,隨著模型的不斷完善,也會應用到其他領域。

參考文獻:

[1]袁璐,沈浩.基于深度學習的電影海報推薦系統[J].現代電影技術,No.05/2018

[2]鄭堅,周尚波.基于神經網絡的電影票房預測建模[J].計算機應用,2014,34(3):742-748.

[3]胡曉紅、王紅.基于多元線性回歸的電影票房預測研究[J].信息技術與信息化,1672-9528.2018.h2.048

主站蜘蛛池模板: 国产精品刺激对白在线| 欧美日韩国产在线人成app| 中国一级特黄视频| 国产色伊人| 国产亚洲精品无码专| 精品人妻AV区| 免费看美女毛片| 欧美色99| 三上悠亚在线精品二区| 国产成人精品一区二区秒拍1o| 综合网天天| 午夜福利免费视频| 精品国产网| 欧美专区在线观看| 免费 国产 无码久久久| 国产区免费精品视频| 午夜成人在线视频| 小说 亚洲 无码 精品| 国产精品一区二区在线播放| 日本在线亚洲| 国产麻豆福利av在线播放| 国产精品成人观看视频国产| 国产精品专区第一页在线观看| 女人av社区男人的天堂| 亚洲αv毛片| 欧美人与牲动交a欧美精品| 亚洲成人播放| 免费在线观看av| 女人毛片a级大学毛片免费| 欧美伦理一区| 国产日本欧美亚洲精品视| 久久不卡国产精品无码| 亚洲欧美不卡视频| 欧洲av毛片| 亚洲成人动漫在线观看| 免费一看一级毛片| 六月婷婷激情综合| 亚洲中久无码永久在线观看软件| 亚洲无码久久久久| 在线国产91| 久久情精品国产品免费| 亚洲人成网站18禁动漫无码| 国产精品亚欧美一区二区| 国产菊爆视频在线观看| 欧美日韩亚洲综合在线观看| 91精品国产丝袜| 黄色成年视频| 毛片免费在线| 国产素人在线| 亚洲欧洲免费视频| 无码日韩人妻精品久久蜜桃| 精品久久777| 欧美精品v| 青青久久91| 日韩精品一区二区三区大桥未久 | 国产欧美日韩在线一区| 中文字幕人成人乱码亚洲电影| 国产情侣一区| 天天综合天天综合| 最近最新中文字幕在线第一页| 国产欧美网站| 国产一二三区在线| 在线另类稀缺国产呦| 日韩大片免费观看视频播放| 亚洲有无码中文网| 精品久久香蕉国产线看观看gif| 日韩精品免费在线视频| 亚洲国产日韩欧美在线| 福利国产微拍广场一区视频在线| 国产白丝av| 2048国产精品原创综合在线| 精品国产网站| 拍国产真实乱人偷精品| 国产欧美视频在线| 久久精品国产免费观看频道| 黄色网页在线观看| A级毛片无码久久精品免费| 亚洲中文字幕国产av| 亚洲精品不卡午夜精品| 成年片色大黄全免费网站久久| 色135综合网| 99草精品视频|