摘 要:電影行業蒸蒸日上,看電影成為越來越多人的日常娛樂方式,與此同時,影院間的競爭更加激烈。在充滿機遇和威脅的市場中,提高自己的競爭優勢成為影院必須面對的問題。隨著數據挖掘技術的不斷發展,引入影院管理信息系統是一個有重要意義的課題。本文從影院管理信息系統出發,首先闡述了數據挖掘的概念、算法和一般步驟,然后介紹了數據準備和數據預處理,最后重點分析了數據挖掘在影院系統中的具體應用。
關鍵詞:影院管理;數據挖掘;信息系統;數據庫
中圖分類號:TP311.13 文獻標識碼:A 文章編號:2096-4706(2018)08-0082-03
Abstract:The movie industry is booming. Watching movies has become a daily entertainment mode for more and more people. At the same time,the competition between cinemas is fiercer. In a market full of opportunities and threats,to improve their competitive advantage becomes a problem that theaters must face. With the continuous development of data mining technology,introducing theater management information system is an important issue. This thesis starts with the theater management information system,first elaborates the concept,algorithm and general steps of data mining,then introduces data preparation and data preprocessing,and finally analyzes the specific application of data mining in the theater system.
Keywords:cinema management;data mining;information system;database
0 引 言
中國電影行業蓬勃發展。從票房規模上看,根據國家廣電總局電影局發布的數據可以看到,2017年全國電影總票房為559.11億元,同比增長13.45%(兩者均包括服務費)。從銀幕上看,全國新增銀幕9597塊,銀幕總數已達到50776塊,同比增長約23.3%;從觀影人次上看,2017年觀影人次為16.2億人次,較2016年同比增長18.1%,放映場次為9469萬場,較去年同比增長27.2%。相對應地,單場上座人數也有所下滑;從平均票價上看,2017年與2016年略有下滑。由此可見,在觀影人次不斷增長的同時,全國的銀幕數量也在不斷上升,影院市場競爭激烈,把握機遇和應對競爭成為了每個影院必須面對的挑戰。
近年來,數據思維及數據分析方法逐漸滲透到各行各業中,數據挖掘技術在商業領域已經不是一個新名詞,它最早成功應用于高投入、高風險、高回報的金融領域,現在正在不斷地向電信、保險、零售等客戶資源信息密集的行業拓展。它在電影行業的應用也越來越廣、越來越深。本文將從影院管理信息系統出發,研究數據挖掘技術在其中的用武之地,探求數據挖掘在提高影院競爭力方面的具體應用。
1 數據挖掘
隨著電影行業的高速發展,各影院都建立了自己的管理信息系統,擁有較為完善的數據庫系統。經過多年運營,影院內部積累了大量的業務數據,如售票數據、會員信息數據、影片放映數據等,這些數據一般都是海量的,要最大限度地利用這些數據,從中分析挖掘出對影院運營有用的信息。傳統以MIS為代表的查詢、報表類工具已經滿足不了人們對數據進行深層次分析的需求。在這種背景下,影院對數據挖掘技術在影院信息系統的深入應用有了急切的需求和更高的要求。
1.1 數據挖掘的概念
數據挖掘是從海量、不完全的、有噪聲的、模糊的、隨機的大型數據庫中發現隱含在其中有價值的、人們事先不知道的、潛在有用的信息和知識的過程,即“從數據中挖掘知識”的過程,也是一種決策支持過程。它主要基于人工智能、機器學習、模式學習和統計學等。通過對大數據進行高度自動化地分析,做出歸納性的推理,從中挖掘出潛在的模式,發現那些不能靠直覺發現的信息或知識,甚至是違背直覺的信息或知識,把握行業結構的進化,跟蹤正在出現的連續性和非連續性變化,以及分析現有和潛在競爭對手的能力和方向,幫助企業、商家和用戶調整市場營銷策略、改善企業管理、減少風險以及理性面對市場,并做出正確的決策,從而幫助企業獲得競爭優勢。
1.2 數據挖掘的算法
大數據挖掘常用的方法有分類、回歸分析、聚類、關聯規則、神經網絡方法和Web數據挖掘等。這些方法從不同的角度對數據進行挖掘。下面主要對數據挖掘技術中的一些經典算法進行了介紹。
(1)分類技術。分類是找出數據庫中一組數據對象的共同特點,并按照分類模式將其劃分為不同的類,目的是通過分類模型將數據庫中的數據項映射到某個給定的類別中。它是數據挖掘技術中應用最廣泛的技術之一,目前在商業上應用得最多。其中分類模型也稱作分類器,其構造方法主要有統計方法、機器學習方法、神經網絡方法和粗糙集方法等;
(2)回歸分析。回歸分析通過函數表達數據映射的關系來發現屬性值之間的依賴關系。它可以應用到對數據序列的預測及相關關系的研究中。在市場營銷中,回歸分析可以被應用到各個方面;
(3)聚類技術。聚類類似于分類,但與分類的目的不同,是把一組個體按照相似性歸成若干類,即“物以類聚”。屬于同一類別的數據間的相似性很大,但不同類別之間數據的相似性很小,跨類的數據關聯性很低。常見聚類算法有K-Means、K-Medoids和DBSCAN等;
(4)關聯規則。關聯規則的目的是挖掘出隱藏在數據間的相互關系,即可以根據一個數據項的出現推導出其他數據項的出現。其挖掘過程主要包括兩個階段:第一階段為從海量原始數據中找出所有的高頻項目組,第二階段為從這些高頻項目組產生關聯規則;
(5)人工神經網絡。人工神經網絡是一種通過訓練來學習的非線性預測模型,具有對非線性系統數據的快速擬合能力,可以完成分類、聚類和特征提取等多種數據挖掘任務。其最大的特點在于具有學習能力,可以通過學習大量樣本數據來獲取輸入、輸出之間的函數關系。
1.3 數據挖掘的步驟
數據挖掘完整的步驟為:
(1)理解數據和數據的來源;
(2)獲取相關知識與技術;
(3)整合與檢查數據;
(4)去除錯誤或不一致的數據;
(5)建立模型和假設;
(6)實際數據挖掘工作;
(7)測試和驗證挖掘結果;
(8)解釋和應用。
2 數據挖掘準備過程
為了更好地挖掘影院的海量數據,并從中獲得有效信息,數據分析人員需要獲取不同來源的數據,并對數據進行清洗、集成、變換和歸約等。
2.1 數據準備
數據的來源主要分為內部數據和外部數據。影院的日常經營會產生大量的數據,這些數據會存儲在影院的數據庫中,由于數據挖掘對數據真實性、規范性和完整性的要求比較高,且存儲粒度低的細節數據有利于取得好的數據挖掘效果,因此對影院管理信息系統的設計和架構有一定要求。此外,影院的管理信息系統還需獲取和存儲外部數據,主要包括美團、豆瓣、貓眼等電影票售票平臺中的銷售、觀眾評論等數據。
2.2 數據預處理
沒有高質量的數據就沒有高質量的挖掘結果。實際應用系統中收集的數據通常是“臟”數據,往往具有不完整、有噪聲和不一致的問題,需要填充空缺的值、識別孤立點、消除噪聲以及糾正數據中的不一致。數據清洗完后就開始數據集成、變換和歸約。數據歸約主要是降維,讓數據更突出以及更有代表性。
3 數據挖掘在影院信息系統的應用
2017年11月26日,國家新聞出版廣電總局電影局主辦的學習座談會上,電影局長張宏森表示:“到2020年,預計中國電影市場將成為世界第一大電影市場,銀幕數量預計超過6萬塊,年產影片800部左右,年票房預計達到700億元,總體實力會有一個更大的躍升。”面對越來越大的市場,影院信息化已成常態,利用好影院日常經營中產生的海量數據和市場上冗雜的相關數據來提升自身的競爭力是一大難題,值得思考。
3.1 數據挖掘在影院選擇電影方面的應用
電影數量不斷上升,很多情況下影院必須對放映的電影有所取舍。決策樹、邏輯回歸、人工神經網絡都可以有效輔助影院選擇放映的影片,并對排片等進行決策。影響一部電影票房的因素不但有電影本身的先導因素,比如影片預算、導演、演員、口碑以及大量的主觀因素,包括影片排片、影片宣傳及發行。這里的先導因素可用作決策樹、邏輯回歸、人工神經網絡等算法對電影票房進行預測時的變量,然后用大量歷史數據對電影票房預測模型進行訓練,得到較為準確的模型。通過該模型預測得到的票房可作為影院對該電影是否放映及其排片的決策依據。當然,預測票房模型在接下來仍需不斷加以訓練來提高精度。
3.2 數據挖掘在影院選擇合作售票平臺方面的應用
線上購票已經成為主流觀影人群的習慣動作,2015年以來,通過大規模的票補,線上售票占比逐漸提升。2017年全國線上售票比例大約在81.7%,較2016年的76.1%提高了約6個百分點。目前觀眾常用的購票平臺有十多個,選擇適量、合適的售票平臺開展合作可以幫助影院實現更好的發展。
影院信息系統首先需要對一些常見售票平臺的數據進行收集存儲;然后統計分析觀影人群主要通過哪幾個平臺購買電影票以及滿意度如何等。其中滿意度的測量評價從平臺的售票數量、影院售票途徑中的占比和用戶評論等多個維度展開。用戶評論的分析會涉及到簡單自然語言的處理,部分評論需要用到TF-IDF進行進一步分析;最后管理層可通過OLAP技術來輔助決策。
3.3 數據挖掘在影院會員客戶保留和拓展方面的應用
影院的長期經營發展需要客戶保留和客戶拓展兩方面的共同提高。對現有的會員客戶,影院將對其觀影次數、頻率、觀看影片類型等利用分類、預測的數據挖掘技術進行跟蹤分析,升級服務方案,提高客戶滿意度,從而提高其忠誠度,在其有流失預兆時能及時做出反應進行挽回。影院除收集會員的觀影信息外,也需要收集非會員客戶的觀影行為信息,有針對性地發現客戶的反應行為模式,將潛在的會員客戶列表排序,努力發展這些客戶成為會員。這部分主要用到數據挖掘技術中的分類、聚類和關聯分析。
影院也可通過關聯分析觀影人群在電影類型喜好上的潛在特點,對支持度、置信度高的幾部影片進行套餐化銷售,例如看了《脫單告急》的觀眾也喜歡看《21克拉》,或者看了《后來的我們》的觀眾,通常還會選擇觀看《戰神紀》,這些影片的電影票則可以開展同時購買優惠或送飲料的活動。這不僅能提高影院銷售額,也便捷優惠了客戶,提升他們對影院的滿意度。
3.4 數據挖掘在影院宣傳方面的應用
影響一部電影票房的因素除電影本身的先導因素外,還有大量的主觀因素,如影片排片、影片宣傳及發行。因此,影院在海報布置、等候區預告片播放、會員客戶短信推送方面大有可為。分析即將上映和正在上映的影片在網上的輿論、和度等數據可輔助決策該影片的海報大小、擺放位置和等候區大屏幕上預告片的播放頻率。
影院數據分析人員對會員的觀影行為進行因子分析,對其進行分類,然后根據每類會員的行為特征,可有針對性地推薦影片或推薦購買套餐,套餐會有不同影片搭配售票、同時購買同部影片的多張票或購買某時間段的電影票可享優惠等多種類型。
4 結 論
電影院作為產業鏈的終端環節,在整個電影產業格局中扮演著至關重要的角色,影院的運營也帶動與電影相關業態的發展,因而影院建設一直是電影產業發展的重點。當前全球電影銀幕市場趨于飽和,院線發展逐漸由新建影院模式向合并收購模式轉變。提高和保持自己的競爭優勢對影院而言至關重要,將數據挖掘深入應用到影院管理信息系統中,將對影院的運營產生持續性的積極影響,并得到理想的效果。
參考文獻:
[1] 閆曉妍.基于數據挖掘技術的企業智能競爭情報系統研究 [J].現代情報,2007(11):187-189.
[2] 羅芳.數據挖掘技術在移動通信決策支持系統中的應用 [J].交通與計算機,2004(4):74-76.
[3] 張蓉.數據挖掘技術在房地產客戶關系管理系統中的應用 [J].現代情報,2006(6):185-187.
[4] 王玉帛.基于數據挖掘對影響電影票房因素的淺析 [J].通訊世界,2017(2):236-237.
[5] 鄭建智,段占祺,應桂英.數據倉庫和OLAP技術在衛生統計決策支持系統中的應用 [J].中國衛生信息管理雜志,2012,9(3):47-51.
作者簡介:孫夢璐(1996.12-),女,漢族,浙江慈溪人,本科。研究方向:信息管理與信息系統。