999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于爬蟲技術(shù)的電影評論信息獲取及可視化設(shè)計

2021-12-16 23:54:27王雪
河南科技 2021年18期

王雪

摘 要:觀看電影是現(xiàn)代人在繁忙的工作學(xué)習(xí)之余放松身心、獲得精神安慰的重要休閑方式,然而現(xiàn)在國內(nèi)外影片繁多且質(zhì)量參差不齊,各類影評網(wǎng)站對影片的評價也比較分散,獲取集中的信息難度較大。由此,本文進(jìn)行了基于爬蟲技術(shù)的電影評論信息獲取及可視化設(shè)計,將電影影評等數(shù)據(jù)信息采集、分析與挖掘、可視化等功能集于一體,幫助電影觀眾匯總了解電影評論信息。

關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;可視化設(shè)計;電影評論

中圖分類號:TP391.3 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-5168(2021)18-0014-03

Abstract: Watching movies is an important leisure way for modern people to relax their body and mind and obtain spiritual comfort after busy work and study. However, there are many films at home and abroad and their quality is uneven. The evaluation of films by various film review websites is also scattered, so it is difficult to obtain centralized information. Therefore, this paper carried out the film review information acquisition and visualization design based on crawler technology, which integrates the functions of data information collection, analysis and mining, visualization and so on, so as to help the film audience summarize and understand the film review information.

Keywords: web crawler;visual design;film review

在互聯(lián)網(wǎng)與多媒體技術(shù)結(jié)合的初期,視頻網(wǎng)站類型和數(shù)量比較少,而且各類多媒體信息的數(shù)據(jù)總量也不大,互聯(lián)網(wǎng)用戶在尋找特定需求信息時相對較容易,花費時間也較少。而隨著互聯(lián)網(wǎng)技術(shù)在全球的迅速普及,各類網(wǎng)站在短期內(nèi)紛紛涌現(xiàn),互聯(lián)網(wǎng)用戶要想快速、準(zhǔn)確地搜尋到所需要的數(shù)據(jù)或內(nèi)容變得越來越困難,花費的時間也越來越多。為此,各類搜索網(wǎng)站以及搜索引擎便產(chǎn)生、發(fā)展壯大起來。網(wǎng)絡(luò)爬蟲是搜索引擎的核心,例如,國內(nèi)的百度搜索,其爬蟲名稱為百度蜘蛛,它每時每刻都會在大量的互聯(lián)網(wǎng)信息和內(nèi)容中不間斷地進(jìn)行爬取操作,獲取并記錄有用的信息和內(nèi)容,對互聯(lián)網(wǎng)用戶的關(guān)鍵詞進(jìn)行分析、處理,從已經(jīng)爬取并記錄的信息內(nèi)容中找出用戶所需信息所在的網(wǎng)頁,并按照某種排序規(guī)則排名,然后將相關(guān)信息結(jié)果推送給用戶[1-2]。

網(wǎng)絡(luò)爬蟲技術(shù)作為搜索引擎最重要的技術(shù)組成部分之一,已成為當(dāng)前網(wǎng)絡(luò)技術(shù)研究的焦點和熱點。網(wǎng)絡(luò)爬蟲技術(shù)可以分為通用爬蟲技術(shù)和聚焦爬蟲技術(shù)兩類。其中,通用爬蟲技術(shù)主要用來提供基于關(guān)鍵詞的搜索或檢索服務(wù);聚焦爬蟲技術(shù)主要用于搜集、下載網(wǎng)頁信息內(nèi)容,其會依據(jù)提前設(shè)定的內(nèi)容來抓取信息,更加具有針對性,它并不追求覆蓋率,而是使特定用戶因特定目的獲取某類特定的數(shù)據(jù)資源。

1 網(wǎng)絡(luò)爬蟲架構(gòu)

網(wǎng)絡(luò)爬蟲架構(gòu)主要由三部分構(gòu)成:網(wǎng)絡(luò)爬蟲調(diào)度端、網(wǎng)絡(luò)爬蟲主程序、目標(biāo)數(shù)據(jù)。其中,網(wǎng)絡(luò)爬蟲調(diào)度端主要負(fù)責(zé)啟動網(wǎng)絡(luò)爬蟲主程序,啟動整個爬蟲的工作狀態(tài);網(wǎng)絡(luò)爬蟲主程序主要負(fù)責(zé)調(diào)用URL管理器、網(wǎng)頁下載器和網(wǎng)頁解析器;目標(biāo)數(shù)據(jù)主要負(fù)責(zé)抓取并解析有價值的信息。

網(wǎng)絡(luò)爬蟲主程序主要由三部分構(gòu)成:URL管理器、網(wǎng)頁下載器、網(wǎng)頁解析器。URL管理器的主要功能是管理、存儲URL,包括已經(jīng)爬取過信息的URL和待爬取信息的URL,目的是防止出現(xiàn)重復(fù)爬取或漏爬取的問題;網(wǎng)頁下載器的主要功能是連接URL地址,將相關(guān)信息下載保存到本地電腦中;網(wǎng)頁解析器的主要功能是將已經(jīng)獲取并下載存儲的信息中有價值的內(nèi)容進(jìn)行解析,得到更加直觀的信息。網(wǎng)絡(luò)爬蟲架構(gòu)見圖1。

網(wǎng)絡(luò)爬蟲架構(gòu)及爬取信息的流程主要是依靠爬蟲調(diào)度端調(diào)用爬蟲主程序來獲取特定的目標(biāo)數(shù)據(jù)。首先,調(diào)度器調(diào)用URL管理器,詢問是否存在待爬取的URL,若詢問返回的結(jié)果是肯定的,則調(diào)度器從URL管理器提取排序第一個的待爬取URL地址,并利用下載器通過URL地址下載特定信息,然后將獲取到的信息內(nèi)容發(fā)送給解析器,以便于解析可能存在的有用數(shù)據(jù)信息或得到新的URL,最后調(diào)度器將獲取到的有用數(shù)據(jù)信息發(fā)給應(yīng)用程序,并將新得到的URL新增到URL管理器。重復(fù)執(zhí)行上述流程。

調(diào)度器調(diào)用URL管理器的流程是:調(diào)度器調(diào)用URL管理器,可以從一個URL開始,也可以從多個URL開始,將這些URL存儲在“待爬取”的URL隊列中,并按照設(shè)定的排序從隊列中提取出URL地址,然后將URL地址發(fā)送給網(wǎng)頁下載器,其執(zhí)行下載信息內(nèi)容的操作,調(diào)度器收到下載的信息內(nèi)容后,再將相關(guān)內(nèi)容發(fā)送給網(wǎng)頁解析器,爬取用戶所需要的內(nèi)容信息。在整個爬取過程中,還會遇到可能已經(jīng)爬取過信息內(nèi)容的URL,這時需要在已經(jīng)爬取過信息內(nèi)容的URL隊列中比對,如果確認(rèn)是沒有爬取過的信息內(nèi)容,則作為新的URL進(jìn)行處理,把該URL放到URL隊列末尾的位置。整個過程是循環(huán)執(zhí)行的,直到待爬取的URL隊列全部為空時,才能停止爬取,并下載已爬取的信息內(nèi)容。

2 功能模塊設(shè)計

2.1 設(shè)計流程

本文基于爬蟲技術(shù)的電影評論信息獲取及可視化設(shè)計流程如圖2所示。

本文的電影評論信息獲取及可視化設(shè)計的主要用戶群體為:想深入了解某部電影、決定值不值得看并且可以在線觀看的用戶。設(shè)計的主要功能是:全面有效地采集電影相關(guān)信息、對采集的信息進(jìn)行處理、將信息進(jìn)行解析并直觀地展示。采集的電影數(shù)據(jù)主要有三類:電影基本信息、影評文本信息、電影評價分布。本研究主要采集的數(shù)據(jù)源是豆瓣電影,實現(xiàn)采集數(shù)據(jù)源的預(yù)處理,把數(shù)據(jù)分析結(jié)果在文件中直觀地展現(xiàn)出來。

2.2 電影信息采集模塊

電影信息采集模塊的主要功能是采集電影相關(guān)數(shù)據(jù)信息,然后對已采集到的數(shù)據(jù)信息進(jìn)行清洗處理。豆瓣電影網(wǎng)站是一個沒有視頻版權(quán)的網(wǎng)站,它可以為用戶提供電影評論、交流的平臺,而且與其他視頻網(wǎng)站相比,豆瓣電影網(wǎng)站在電影評論和交流信息方面具有較好的區(qū)分度。為此,本文以豆瓣電影網(wǎng)站為數(shù)據(jù)來源,采集的數(shù)據(jù)信息源均來自豆瓣電影網(wǎng)站[3-5]。

網(wǎng)絡(luò)爬蟲爬取的信息主要有兩類:第一,電影的基本內(nèi)容,例如,電影名稱、語言類別、導(dǎo)演姓名、演員姓名、評分信息等。這類電影信息可以用作電影詳細(xì)信息頁面的展示。第二,影片的網(wǎng)絡(luò)地址,可以作為影片及信息的特征標(biāo)識項來構(gòu)造采集相關(guān)電影評論信息的URL。

本文選擇《叢林奇航》作為示例,電影采集的字段包括電影名稱、基本信息、評分信息、電影簡介、影評信息,如圖3所示。打開網(wǎng)頁后,找到該影片的評論頁面,建議使用的瀏覽器是“Chrome瀏覽器”,使用開發(fā)者工具,用于查看網(wǎng)頁的源代碼。通過查看網(wǎng)頁的源代碼可以發(fā)現(xiàn),包含電影名字的結(jié)點為span property="v:itemreviewed",導(dǎo)演、編劇、主演、類型、制片等信息均位于節(jié)點class="pl",豆瓣評分位于節(jié)點class="ll rating_num",影片簡介位于節(jié)點property="v:summary",影評信息(短評)位于節(jié)點class="short",影評信息(完整評論)位于節(jié)點class="full"。

網(wǎng)絡(luò)爬蟲可以根據(jù)用戶提前設(shè)定的爬取條件,拼接成目標(biāo)URL并進(jìn)行訪問。一般來說,爬取的信息數(shù)據(jù)是不能直接使用的,需要用戶結(jié)合瀏覽器工具對HTML源代碼進(jìn)行分析和判斷,然后通過解析庫來拆解得到需要的特定信息。

另外,豆瓣網(wǎng)站雖然對網(wǎng)絡(luò)爬蟲較為友好,但仍有反爬蟲機制。如果沒有進(jìn)行延遲的設(shè)置,同時發(fā)起大量訪問請求,可能會被拒絕訪問。此外,如果沒有登錄豆瓣,只能訪問前10頁的影片。因此,發(fā)起爬取數(shù)據(jù)的HTTP請求需要帶上已注冊會員賬號的cookie。

2.3 數(shù)據(jù)可視化處理

獲取電影評論信息后,可以通過利用可視化軟件生成詞云圖,或者利用其他可視化方法更加直觀清晰地表達(dá)出給定電影的影評信息圖。

豆瓣電影網(wǎng)站用戶數(shù)量非常龐大,且擁有非常豐富的影評信息。如果潛在的觀影用戶希望獲取某特定電影的各類信息,特別是關(guān)于電影的評論信息,其需要打開豆瓣電影網(wǎng)站頁面,找到相關(guān)電影,然后再逐條查看關(guān)于電影的各種評論信息,最后還需要對各類評論信息進(jìn)行歸納匯總后形成一個更加直觀的關(guān)于電影情況的印象,從而做出最后判斷,即是否是自己喜歡的電影,是否愿意付費觀看電影。整個過程非常復(fù)雜,而且對潛在觀影用戶的要求較高,且會花費用戶較多的時間來完成整個過程,這顯然與用戶想通過觀影來放松心情、獲取感官享受的目的相悖。因此,通過技術(shù)手段采集、匯總觀影評論信息,以直觀的方式推送給用戶就非常有必要。

本文首先介紹了網(wǎng)絡(luò)爬蟲的進(jìn)展情況,然后討論了網(wǎng)絡(luò)爬蟲架構(gòu),最后介紹了實現(xiàn)功能模塊設(shè)計、采集電影信息功能模塊設(shè)計、數(shù)據(jù)可視化處理等內(nèi)容,以期為用戶了解網(wǎng)絡(luò)爬蟲機制、實現(xiàn)簡單的功能提供一定的參考。

參考文獻(xiàn):

[1]郭二強,李博.大數(shù)據(jù)環(huán)境下基于Python的網(wǎng)絡(luò)爬蟲技術(shù)[J].計算機產(chǎn)品與流通,2017(12):82.

[2]董博,李羽中,劉學(xué)敏,等.基于爬蟲的數(shù)據(jù)監(jiān)控系統(tǒng)[J].計算機系統(tǒng)應(yīng)用,2017(10):53-56.

[3]周昆,王釗,于碧輝.基于語義相關(guān)度主題爬蟲的語料采集方法[J].計算機系統(tǒng)應(yīng)用,2019(5):190-195.

[4]林椹尠,袁柱,李小平.一種主題自適應(yīng)聚焦爬蟲方法[J].計算機應(yīng)用與軟件,2019(5):316-321.

[5]蕭婧婕,陳志云.基于灰狼算法的主題爬蟲[J].計算機科學(xué),2018(增刊2):146-148.

主站蜘蛛池模板: 国产真实自在自线免费精品| 新SSS无码手机在线观看| 人人爱天天做夜夜爽| 三级国产在线观看| 午夜精品久久久久久久无码软件| 久久精品人人做人人综合试看| 久久精品亚洲热综合一区二区| 69综合网| 婷婷激情五月网| 国产丝袜91| 91伊人国产| 91在线国内在线播放老师 | 中文字幕在线免费看| 欧美中文字幕在线二区| 国产97区一区二区三区无码| 日韩国产综合精选| 老汉色老汉首页a亚洲| 国产成人精品一区二区三区| 综合色区亚洲熟妇在线| 久久久久亚洲精品成人网 | 国产成人亚洲欧美激情| 精品一區二區久久久久久久網站| 国产一级α片| 国产大片喷水在线在线视频| 99re经典视频在线| 国产亚洲精| 日本国产精品| 一级在线毛片| 1级黄色毛片| 伊人AV天堂| 无码久看视频| 国产99精品久久| 国产成人夜色91| 日本精品一在线观看视频| 自拍偷拍欧美日韩| 超碰aⅴ人人做人人爽欧美| 91色在线观看| 中文字幕在线观| 成人久久精品一区二区三区| 露脸国产精品自产在线播| 色综合久久无码网| 女同国产精品一区二区| 男人的天堂久久精品激情| 久久99久久无码毛片一区二区| 天堂在线www网亚洲| 啪啪啪亚洲无码| 久久99热66这里只有精品一| 天堂网国产| 国产三级国产精品国产普男人| 国产亚洲欧美日韩在线观看一区二区| 国产精品嫩草影院av| 色屁屁一区二区三区视频国产| 国产jizz| 97se综合| 国产成人禁片在线观看| 精品无码国产一区二区三区AV| 玖玖精品视频在线观看| 71pao成人国产永久免费视频| 国产免费久久精品44| 亚洲AV免费一区二区三区| 又粗又硬又大又爽免费视频播放| 手机在线免费不卡一区二| 日本精品αv中文字幕| 午夜福利视频一区| 亚洲国产日韩在线成人蜜芽| 毛片最新网址| 欧美日韩第二页| 久久精品无码中文字幕| 国产精品福利尤物youwu| 亚洲一区免费看| 国产理论一区| 特级aaaaaaaaa毛片免费视频| 国产AV无码专区亚洲精品网站| 国产视频自拍一区| 国产日韩丝袜一二三区| 久久久久久国产精品mv| 欧美成人看片一区二区三区| 久久综合结合久久狠狠狠97色| 亚洲天堂日韩av电影| 波多野结衣亚洲一区| 这里只有精品在线播放| 98超碰在线观看|