999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中國電影產業基礎數據庫創建與可視化系統設計實現

2020-11-07 03:34:32張海悅
現代電影技術 2020年9期
關鍵詞:可視化界面數據庫

張海悅 王 萃 劉 達

(中國電影科學技術研究所,北京100086)

一、引言

隨著中國電影業發展日益強盛,電影產業基礎數據呈爆發式增長。近幾年,我國影院飛速發展,影院數量達1萬余家,銀幕數超過6萬塊,已顯著超越美國成為全球銀幕數最多的國家。與此同時,我國國產電影、電影制作公司也在積極成長和發展進步。

目前,我國電影產業基礎數據來源多樣,主要來自于各個電影網絡平臺和相關機構。但各個平臺、機構之間相對獨立,數據缺乏統一標準,部分數據存在不規范、不準確、互操作性差、難以共享等問題,導致電影產業數據難以相互兼容和互聯互通,無法被有效利用。

為解決上述問題,有效集成我國電影產業基礎數據,創建中國電影產業基礎數據庫十分必要。通過創建完善的基礎數據庫,實現各平臺數據統一集成,有效解決多來源數據不準確、多方采集及難以共享的問題。數據是持續增長的,建立統一、有效的技術標準,避免數據更新時發生重復、混淆等問題,實現數據的可持續更新與應用。通過對完善的數據進行可視化、分析與挖掘,實現數據的有效利用,為電影產業發展提供決策參考。

二、中國電影產業基礎數據的來源與分類

為確保數據的全面、準確和穩定,我們對數據來源進行調研分析,分別從影院、影片、影人和制作公司對電影產業基礎數據進行分類、細化及多元化采集。

影院數據包含影院基本信息數據、票務數據、監管數據、設備數據、地理位置數據和周邊商業體數據。影院基本信息數據和設備數據主要來自行業機構,但各機構的數據各有側重,互為補充,卻又自成一體,數據格式相互不統一,需整合關聯后使用。影院票務數據采用國家電影事業發展專項資金管理委員會辦公室的 “全國電影票務綜合信息系統”數據為主要來源,該系統是我國官方電影票務數據接收平臺,全國各影院都應按規定將放映的每一場電影票務數據,通過計算機售票系統上報至該平臺,該數據接收平臺是迄今我國票務數據最具權威性和最為完整的數據庫。影院監管數據主要來源于中國電影發行放映協會。結合國家統計局的行政地域劃分數據對影院地址所在省份、市、區縣等進行劃分,并通過采集獲取各影院所在位置經緯度數據和影院周邊商業體數據。影院所屬院線圖標與用戶喜愛度等數據從主流網站獲取。

影片數據包含影片基本信息數據、票務數據、內容數據、評論數據。目前,影片基本信息數據在行業機構內還沒有完整的數據庫,但主流電影網站有大量數據,數據相對公開透明。因此,通過綜合對比分析,選用數據更權威、全面的電影網站作為影片基本信息和評論數據的主要來源。影片票務數據采用國家電影事業發展專項資金管理委員會辦公室數據作為主要來源。影片內容數據中,一部分數據包括影片劇情地點、年代及故事創作來源等,此類數據量較小,行業內外都缺乏有效數據來源,因此采用人工標注的方式獲取;另外一部分體現影片概況的數據,通過自然語言處理(NLP)與機器學習(Machine Learning)算法分析得到。

影人數據包含影人基本信息數據、關系數據以及受眾數據。影人基本信息及影人關系數據均采用與影片基本信息相同的電影網站為主要數據來源。采用搜索引擎的影人搜索指數作為影人受眾數據主要來源。

制作公司數據包含制作公司基本信息數據、地理位置數據、參與制作影片數據以及影片制作人員數據。由于我國電影制作公司流動性較大,制作職能缺乏統一清晰的定義,目前行業內外關于制作公司的權威數據寥寥無幾。為了保證數據的準確性,同時考慮到數據獲取的可操作性,我們選用影片片尾字幕作為制作公司數據的獲取來源。通過對影片片尾字幕信息進行采集、錄入與處理,可以獲得電影后期制作公司、特效制作公司、制作人員、參與職能等數據。同時,采集制作公司地址,進一步獲取公司所在省份、市、區縣、經緯度等地理位置數據。

三、中國電影產業基礎數據的規范化處理、有效集成及基礎數據庫創建

我國電影產業基礎數據來源于行業各個機構和互聯網,各個數據源之間缺乏統一標準,各自獨立,但又交叉重疊、相互關聯,導致電影數據源難以完全兼容,無法形成覆蓋整個電影產業的完整數據庫。為解決上述問題,根據電影產業數據特點,對數據進行一系列清洗和ETL預處理工作,主要包含以下具體工作:

·無效、缺失、異常數據處理

針對源數據中存在重復、測試、亂碼等 “臟數據”,進行刪除處理。通過對數據源關聯比較,對數據類比判斷,刪除邏輯錯誤數據。針對缺失數據,采集其他來源數據以作填充。針對內容異常數據,與其他來源的數據進行比對,更正錯誤數據。

·影院、公司經緯度數據校準

通過數據采集獲得各個影院和公司所在位置經緯度數據。針對地處偏僻或由于地圖自身原因導致的不準確數據,對采集得到的經緯度數據進行反向采集,即采集經緯度對應的地址數據,與影院、公司原有地址進行比對,若地址相同,則經緯度數據為正確;若地址不同,則重新人工采集經緯度數據直至正確定位影院或公司所在位置,進而建立精準的影院、公司位置數據。

·制作公司業務類型數據劃分

由于各個影片片尾字幕沒有明確的格式規定,公司名稱與業務類型各不相同,導致獲取到的制作公司后期業務類型名稱繁雜多樣,種類數量高達500種。因此,對功能相似的業務類型進行規范化和統一化處理,最終縮減為9種業務類型,包括聲音制作、視覺特效、動畫制作、數字母版等。

·消除源數據不一致性

針對數值單位不一致,在數據存儲時,將所有數值統一轉化為全數值類型,以解決數值單位及格式不統一的問題。

針對數據主鍵不一致,為了將異源數據進行集成,保證數據的可擴展性,對各類數據的主鍵進行統一規劃。影院數據方面,我們借助影院名稱關鍵詞、地址、院線等信息進行判斷匹配,將所有影院數據都統一到符合GY/T 276-2013《電影院票務管理系統技術要求和測量方法》標準的影院編碼。針對多個數據來源,完成了近2萬家不同影院名稱的重新編碼工作。影片數據方面,參考GY/T 276-2013標準,以影片編碼中的放映年代、國家與地區信息為基準,對影片進行編碼,為每部影片定義唯一標識。

針對影廳設備數據不一致,目前來自各行業機構的影院設備數據各有側重,互為補充,但卻相互獨立,且影院的影廳命名有所差異,無法自動整合。為解決此問題,根據各來源數據特點,結合影廳座位數、最大觀影人次、設備類型等數據進行判斷,整合關聯多方來源影廳數據,構建完整、準確的影院設備數據。

·非結構化數據匹配關聯

由于獲取的非結構化數據的命名規則雜亂無章,不利于管理與應用。因此,以統一編碼后的數據主鍵為基準,為非結構化數據重新命名,實現非結構化數據與結構化數據的匹配關聯。

通過對電影產業基礎數據實施采集、清洗、預處理、關聯、集成等處理,截止目前共計涵蓋電影產業數據約2.1億條,覆蓋11361家影院、1354部影片、4201位影人和873家制作公司,數據起始時間為2014年,未來將不斷更新完善產業數據。

在數據入庫之前,根據數據特點,將數據分為影院、影片、影人及制作公司四個子數據庫,各子數據庫下包含該類別相關的所有數據。根據以上原則設計的中國電影產業基礎數據庫的體系架構如圖1所示,各子數據庫根據數據內容劃分在不同的數據庫表中,影院子數據庫包括基本信息表、設備表、票務表和周邊表;影片子數據庫包括基本信息表、影片內容表、評論表和票務表;影人子數據庫包括基本信息表、影人關系表和受眾表;制作公司子數據庫包括基本信息表、參與制作影片表和制作人員表。各個子數據庫均設有主鍵編碼,子數據庫內各表之間通過編碼關聯。同時,數據庫包含影院所屬院線圖標、影片海報和影人照片等非結構化數據,這些數據通過文件名稱與對應的結構化數據關聯。

綜上所述,結構化數據和非結構化數據實現相互關聯,子數據庫內部實現相互關聯,在各個子數據庫之間,影片作為4個子數據庫的共有數據,將4個子數據庫關聯起來,進而形成一個相互關聯的完整數據庫,即中國電影產業基礎數據庫。在查詢和提取數據庫中數據時,可自動提取出與指定數據相關的各庫表下所有數據。

圖1 中國電影產業基礎數據庫體系架構設計

四、中國電影產業基礎數據可視化系統設計實現

基于中國電影產業基礎數據庫,中國電影科學技術研究所設計并實現完成了可視化系統,以多層架構形式將數據形象化、直觀化,宏觀展現我國電影力量分布與聚集區域、各個環節生產能力發展趨勢、產業鏈在全國的覆蓋程度以及制作與生產的契合度等,微觀展現各影院、影片、影人以及制作公司的詳細數據情況。

可視化系統由主界面系統和業務系統共同構成,主界面系統用于展示全國總體信息,業務系統用于展示單個實體的詳細信息。如圖2為可視化系統總體架構圖,箭頭表示系統各頁面的鏈接關系。可視化系統首頁為總覽主界面,展示全國電影總體現狀與發展趨勢,并分別設計影院、影片、制作主界面,用以展示我國在影院、影片、制作方面的總體情況與地域分布特點。主界面支持年份、省市和院線等篩選功能,便于多角度、多維度查看電影產業發展情況。通過點擊主界面中具體的影院、影片、制作公司、影人名稱,或點擊影院、制作公司所在地圖位置,可鏈接至相應業務頁面,展示其詳細信息。業務頁面支持智能搜索功能,以便快速查詢需要的數據。

圖2 中國電影產業基礎數據可視化系統總體架構圖

可視化系統主界面系由四大引擎組成:布局引擎、篩選引擎、圖表引擎、數據引擎。系統架設于三大服務之上:數據服務、布局服務、地圖服務。數據庫選用與中國電影基礎數據庫一致的MySQL數據庫。布局服務通過讀取布局配置文件給布局引擎,布局引擎在前臺構建布局,布局配置文件的格式為JSON格式。通過IIS發布網站,服務讀取數據在地圖上繪制圖表。

由于可視化系統主界面的數據計算量較大,為了確保加載內容的完整性,提升系統加載速度,按界面展示需求,盡量細分每個展示模塊所需的數據。數據庫設計以中國電影產業基礎數據庫為基礎,充分考慮數據量、存儲效率、數據表關聯、數據庫擴展等,分離出適于可視化系統調用讀取的數據表,并添加必要的冗余字段。

相比展示宏觀數據的主界面系統,業務系統展示的數據微觀、鎖碎,且數據量大。因此在設計業務系統時采用了與主界面系統不同的底層設計,重點采用輕型框架設計,減少了圖形渲染和復雜引擎的使用。當通過主界面點擊進入業務系統時,業務系統的URL分發器將收到的請求分發給不同的view視圖函數處理,view視圖再調用相應的模板和數據模型,將這些資源打包傳送回瀏覽器進行頁面渲染。

如圖3所示,為設計實現的中國電影產業基礎數據可視化系統 “首頁”,即系統的總覽主界面,展示全國電影產業地域發展情況,界面地圖層以氣泡和散點形式展現各省份的票房、影院數量、制作公司數量及影院地理位置分布。地圖周圍以數字儀表盤、柱狀圖、面積圖、熱點圖、標靶圖等形式展示我國電影行業發展現狀、基本分布特點及變化趨勢。鼠標滑過圖表會顯示當前圖表對應類型、年份的詳細數據。總覽主界面支持對年份、省份、院線數據多條件篩選。

圖3 中國電影產業基礎數據可視化系統總覽主界面

影院、影片和制作公司主界面風格與總覽界面保持一致,以多樣化、特色化信息呈現形式分別展示我國影院、影片和制作公司數據的分布特點與變化趨勢。目前該可視化系統已嵌入中國電影科技網(http∶//www.crifst.ac.cn/),作為網站的主體模塊之一服務行業。

五、總結與展望

針對電影行業內外多元化、跨領域的海量多源異構數據,我們通過采集、清洗、預處理、整合、存儲、關聯分析、可視化等處理,有效集成了行業內外的結構化數據和非結構化數據,并根據數據特點設計構建了內部互聯、對外統一的中國電影產業基礎數據庫,突破了行業內長久以來面臨的數據不兼容、透明度和互操作性差、缺乏統一標準等問題,避免后期因需求不同導致的重復采集與清洗工作。通過建立統一、有效的技術標準,避免了數據更新及應用時發生重復、混淆、不一致等問題,實現數據的有效積累與可持續應用。

整合完成的中國電影產業基礎數據庫,涉及要素廣泛,覆蓋電影全產業鏈,完整展現了我國電影產業現狀和發展趨勢,有效解決了多來源數據不準確、多方采集、互操作性差、難以共享等問題,為推動電影行業提質升級提供了有力的數據支撐。同時,基于完整、有效、準確的電影產業基礎數據,通過應用數據可視化(Data Visualization)技術,構建實現了中國電影產業基礎數據可視化系統,為中國電影產業把握發展趨勢、發現發展規律和規避發展風險提供了直觀、高效、科學的技術手段。可以預見,隨著電影產業不斷深度融入大數據時代,中國電影產業基礎數據庫和可視化系統將在支撐中國電影高質量和可持續發展方面發揮重要作用。?

猜你喜歡
可視化界面數據庫
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
國企黨委前置研究的“四個界面”
當代陜西(2020年13期)2020-08-24 08:22:02
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
基于FANUC PICTURE的虛擬軸坐標顯示界面開發方法研究
數據庫
財經(2017年2期)2017-03-10 14:35:35
人機交互界面發展趨勢研究
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
主站蜘蛛池模板: 日本草草视频在线观看| 动漫精品啪啪一区二区三区| 国产波多野结衣中文在线播放| 中国一级特黄视频| 国产美女无遮挡免费视频| yjizz视频最新网站在线| 亚洲欧美h| 欧美中文字幕在线播放| 91丝袜美腿高跟国产极品老师| 草逼视频国产| 日韩精品久久久久久久电影蜜臀| 99热这里只有精品2| 免费AV在线播放观看18禁强制| 久无码久无码av无码| 亚洲人成人无码www| 亚洲熟妇AV日韩熟妇在线| 怡春院欧美一区二区三区免费| 亚洲一区网站| 国产精品美人久久久久久AV| 国产精品亚欧美一区二区三区| 99视频只有精品| 青青热久免费精品视频6| 波多野结衣第一页| P尤物久久99国产综合精品| 久久www视频| 国产三级视频网站| 伊人久久综在合线亚洲91| 国产精品xxx| 免费观看无遮挡www的小视频| 国产成人综合亚洲欧洲色就色| 亚洲国内精品自在自线官| 亚洲天堂视频在线观看免费| 香蕉国产精品视频| 午夜视频在线观看区二区| 午夜福利视频一区| 国产美女在线免费观看| 青青草91视频| 成人毛片免费在线观看| 欧美97色| 欧美中出一区二区| 亚洲资源站av无码网址| 成人亚洲国产| 午夜啪啪福利| 欧美日韩高清| 不卡无码h在线观看| 精品久久久久久中文字幕女| 久久永久视频| 女同久久精品国产99国| 欧美午夜视频| 国产真实乱子伦视频播放| av在线无码浏览| 亚洲高清中文字幕在线看不卡| 婷婷色一区二区三区| 国产美女免费网站| 精品久久国产综合精麻豆| 国产自在线拍| 色综合婷婷| 成人福利在线看| 国产一区二区在线视频观看| 免费一级大毛片a一观看不卡| 亚洲第一视频网| 丁香婷婷综合激情| 91视频免费观看网站| 久久这里只有精品2| 亚洲国产精品VA在线看黑人| 麻豆精品视频在线原创| 亚洲无码91视频| 国产欧美中文字幕| 婷婷综合亚洲| 毛片免费在线视频| 91精品情国产情侣高潮对白蜜| 国产成人高清精品免费软件| 日韩在线中文| a网站在线观看| 精品精品国产高清A毛片| 一本综合久久| 日韩欧美视频第一区在线观看| 欧美激情福利| 狠狠v日韩v欧美v| 欧美综合区自拍亚洲综合天堂 | 亚洲AV成人一区二区三区AV| 2021国产v亚洲v天堂无码|