999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python聚焦網(wǎng)絡(luò)爬蟲(chóng)的用戶在線評(píng)論內(nèi)容分析

2020-10-12 13:02:38王煜煒
科學(xué)與信息化 2020年20期

摘 要 近年來(lái),隨著“互聯(lián)網(wǎng)+”的全面推進(jìn),互聯(lián)網(wǎng)上的信息量不斷增加,如何高效、快速地獲取目標(biāo)信息,并對(duì)信息進(jìn)行有效分析成為亟待解決的問(wèn)題。本研究設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于Python的聚焦網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng),以體育場(chǎng)館用戶在線評(píng)論為例,對(duì)評(píng)論信息進(jìn)行獲取,并對(duì)數(shù)據(jù)進(jìn)行可視化展示和內(nèi)容分析,結(jié)果表明,該系統(tǒng)能夠較好挖掘用戶對(duì)于場(chǎng)館評(píng)論中隱藏的信息。

關(guān)鍵詞 Python;聚焦網(wǎng)絡(luò)爬蟲(chóng);在線評(píng)論;內(nèi)容分析

引言

物聯(lián)網(wǎng)、人工智能、大數(shù)據(jù)、5G等技術(shù)的不斷發(fā)展和成熟,有效促進(jìn)了互聯(lián)網(wǎng)數(shù)據(jù)的增長(zhǎng)。互聯(lián)網(wǎng)數(shù)據(jù)通常具有海量、多維、多尺度等大數(shù)據(jù)的特點(diǎn),采取有效的方法和手段對(duì)互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行收集和分析,是理解互聯(lián)網(wǎng)數(shù)據(jù)的重要手段[1]。傳統(tǒng)的數(shù)據(jù)收集方法和技術(shù)(如調(diào)查問(wèn)卷,采訪)會(huì)受到資金、地理位置和樣本量等一系列條件的影響和限制。網(wǎng)絡(luò)爬蟲(chóng)依托于大數(shù)據(jù)框架和計(jì)算機(jī)技術(shù),可用于對(duì)海量互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行請(qǐng)求和提取,為深層次的內(nèi)容分析和挖掘奠定了基礎(chǔ)[2]。

本文基于Python標(biāo)準(zhǔn)庫(kù)、第三方庫(kù)和爬蟲(chóng)技術(shù),設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)聚焦網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng),用于對(duì)指定網(wǎng)頁(yè)和內(nèi)容進(jìn)行爬取,并進(jìn)一步對(duì)爬取到的數(shù)據(jù)進(jìn)行存儲(chǔ)和內(nèi)容分析。在實(shí)例分析中,爬蟲(chóng)系統(tǒng)第一步將抓取“趣運(yùn)動(dòng)”網(wǎng)站(http://www.quyundong.com/)中體育場(chǎng)館用戶評(píng)論信息的頁(yè)面,第二步對(duì)網(wǎng)頁(yè)進(jìn)行解析并過(guò)濾無(wú)關(guān)的內(nèi)容和數(shù)據(jù),第三步對(duì)抓取數(shù)據(jù)進(jìn)行存儲(chǔ),第四步對(duì)體育場(chǎng)館用戶中差評(píng)信息進(jìn)行詞云圖展示和詞頻統(tǒng)計(jì),第五步對(duì)高頻詞匯和詞云圖進(jìn)行分析,挖掘造成中差評(píng)的主要原因,為場(chǎng)館改進(jìn)提供建議,同時(shí)為其他用戶提供決策依據(jù)。

1基于Python的聚焦網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)設(shè)計(jì)

1.1 聚焦網(wǎng)絡(luò)爬蟲(chóng)定義

通用網(wǎng)絡(luò)爬蟲(chóng)通過(guò)統(tǒng)一資源定位符(Uniform Resource Locator,URL)搜索網(wǎng)頁(yè),通過(guò)遍歷所有待抓取URL隊(duì)列,將網(wǎng)頁(yè)相關(guān)數(shù)據(jù)返回給用戶[3]。聚焦網(wǎng)絡(luò)爬蟲(chóng)基于通用網(wǎng)絡(luò)爬蟲(chóng),專注于抓取滿足特定主題和特定屬性的網(wǎng)頁(yè)。該爬蟲(chóng)策略性搜索、獲取、下載、維護(hù)與特定主題相關(guān)的網(wǎng)頁(yè)URL,所有其他無(wú)關(guān)的URL將通過(guò)程序代碼被過(guò)濾。通過(guò)采用聚焦網(wǎng)絡(luò)爬蟲(chóng),用戶無(wú)須通過(guò)網(wǎng)頁(yè)搜索引擎來(lái)獲取信息,這樣既節(jié)省了時(shí)間和精力,又提高了數(shù)據(jù)采集的可靠性、針對(duì)性和準(zhǔn)確性[4-6]。聚焦網(wǎng)絡(luò)爬蟲(chóng)下載的“面向主題”的數(shù)據(jù),后續(xù)可通過(guò)采用有效的內(nèi)容分析和挖掘技術(shù),提取出數(shù)據(jù)中隱藏的有價(jià)值信息。

1.2 聚焦網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)工作流程

該聚焦網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)工作流程分為下列5部分,如圖1所示。

(1)URL隊(duì)列:聚焦網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)基于指定一個(gè)或幾個(gè)網(wǎng)頁(yè)網(wǎng)址,把這些網(wǎng)址作為URL種子,將URL種子放入U(xiǎn)RL隊(duì)列中等待爬取。

(2)網(wǎng)頁(yè)獲取:根據(jù)指定URL,按照一定的規(guī)則對(duì)網(wǎng)頁(yè)進(jìn)行遍歷,發(fā)送請(qǐng)求并執(zhí)行相應(yīng)爬取。

(3)網(wǎng)頁(yè)處理:對(duì)網(wǎng)頁(yè)信息進(jìn)行解析和處理,提取出與研究主題相關(guān)的網(wǎng)頁(yè)內(nèi)容部分,過(guò)濾掉其他無(wú)關(guān)數(shù)據(jù)和內(nèi)容。

(4)數(shù)據(jù)存儲(chǔ):對(duì)進(jìn)行網(wǎng)頁(yè)處理后,與研究主題相關(guān)的數(shù)據(jù)進(jìn)行存儲(chǔ),本研究中將其存儲(chǔ)為Excel格式。

(5)可視化和內(nèi)容分析:對(duì)存儲(chǔ)數(shù)據(jù)進(jìn)行可視化以及內(nèi)容分析,包括詞云可視化分析、詞頻統(tǒng)計(jì)等方法。

2數(shù)據(jù)爬取與存儲(chǔ)具體實(shí)現(xiàn)

本章借助Python聚焦網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng),以爬取 “趣運(yùn)動(dòng)”網(wǎng)站體育場(chǎng)館用戶在線評(píng)論為例,進(jìn)行數(shù)據(jù)爬取與存儲(chǔ)的具體實(shí)現(xiàn),分為以下3步。

(1)網(wǎng)頁(yè)抓取。趣運(yùn)動(dòng)網(wǎng)站采用的是異步加載Ajax技術(shù),通過(guò)分析趣運(yùn)動(dòng)網(wǎng)站結(jié)構(gòu)和網(wǎng)址構(gòu)造,得到獲取用戶評(píng)論的URL請(qǐng)求地址為http://www.quyundong.com/venues/jsonComments?random=xxxx&page=****&business_id=####,該請(qǐng)求由3個(gè)網(wǎng)頁(yè)參數(shù)組成:xxxx對(duì)應(yīng)的是隨網(wǎng)頁(yè)請(qǐng)求生成的隨機(jī)數(shù)(random)、****對(duì)應(yīng)的是在線評(píng)論頁(yè)數(shù)(page)、####對(duì)應(yīng)的是場(chǎng)館編號(hào)(business_id)。確定3個(gè)參數(shù)后,采用Python中的第三方requests庫(kù)對(duì)指定場(chǎng)館用戶在線評(píng)論URL請(qǐng)求進(jìn)行抓取。

(2)網(wǎng)頁(yè)處理。趣運(yùn)動(dòng)網(wǎng)站用戶評(píng)論信息以JSON格式進(jìn)行存儲(chǔ),評(píng)論信息的JSON結(jié)構(gòu)如圖2所示,故調(diào)用Python中的JSON庫(kù)對(duì)評(píng)論信息進(jìn)行解析。由于評(píng)論信息以鍵值對(duì)的形式存在,在遍歷每位已注冊(cè)用戶評(píng)論信息時(shí),僅需篩選出評(píng)論時(shí)間(create_time)、評(píng)論內(nèi)容(content)、評(píng)論等級(jí)(comment_rank),其他的信息:評(píng)論ID(comment_id)、場(chǎng)館ID(business_id)、用戶ID(user_id)、用戶姓名(user_name)、用戶頭像(avatar)、用戶上傳圖片列表(image_list),由于與該研究主題關(guān)聯(lián)不大,將被過(guò)濾掉,不參與數(shù)據(jù)爬取。最終將所有符合要求的評(píng)論信息存入一個(gè)結(jié)果集中。

(3)數(shù)據(jù)存儲(chǔ)。調(diào)用Python中的Workbook庫(kù),將第二步得到的結(jié)果集寫(xiě)入Excel文件,對(duì)體育場(chǎng)館用戶評(píng)論數(shù)據(jù)進(jìn)行存儲(chǔ)。最終獲取到用戶有效在線評(píng)論數(shù)據(jù)18023條,從這些數(shù)據(jù)中篩選出評(píng)論為3分及以下(comment_rank<=3,滿分5分)的中差評(píng)共768條,作為可視化和內(nèi)容分析的對(duì)象。

3可視化與內(nèi)容分析具體實(shí)現(xiàn)

在聚焦網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)架構(gòu)中,爬取完所需數(shù)據(jù)之后,需對(duì)數(shù)據(jù)進(jìn)行可視化和內(nèi)容分析,旨在挖掘出數(shù)據(jù)中隱藏的有價(jià)值信息。

(1)數(shù)據(jù)可視化。讀取所有用戶在線評(píng)論文本,導(dǎo)入Python中的jieba中文分詞庫(kù),獲取在線評(píng)論的中文分詞列表。接著使用wordcloud詞云庫(kù),設(shè)置stopwords屏蔽詞參數(shù),對(duì)數(shù)據(jù)進(jìn)行清洗,同時(shí)設(shè)置詞云圖的形狀、背景顏色、高度、寬度和字體,結(jié)果可生成相應(yīng)詞云圖,對(duì)場(chǎng)館用戶評(píng)論數(shù)據(jù)中出現(xiàn)頻率較高的“關(guān)鍵詞”予以可視化的展示(如圖3所示)。接著調(diào)用Sklearn庫(kù)中的CountVectorizer函數(shù),分別提取詞匯和計(jì)算詞頻,對(duì)評(píng)論數(shù)據(jù)中的詞匯進(jìn)行詞頻統(tǒng)計(jì),并將結(jié)果存儲(chǔ)在CSV文件中。

(2)內(nèi)容分析。對(duì)篩選出的評(píng)論為3分及以下的中差評(píng)數(shù)據(jù)進(jìn)行統(tǒng)計(jì),其中評(píng)分為3分的用戶評(píng)論共389條,占比50.65%;評(píng)分為2分的106條,占比13.80%;評(píng)分為1分的260條,占比33.86%;評(píng)分為0分的13條,占比1. 69%。

結(jié)合詞云圖和詞頻分析結(jié)果,發(fā)現(xiàn)出現(xiàn)次數(shù)最多的前10個(gè)高頻詞匯分別是:場(chǎng)館(286次)、不好(130次)、燈光(84次)、服務(wù)態(tài)度(70次)、沒(méi)有(68次)、價(jià)格(65次)、地板(54次)、空調(diào)(54次)、位置(49次)、態(tài)度(38次)。由此可以得出以下結(jié)論,用戶對(duì)于使用體育場(chǎng)館的需求主要包括:場(chǎng)館的燈光、收費(fèi)價(jià)格、地板、空調(diào)、位置和工作人員的服務(wù)態(tài)度。該結(jié)果基于聚焦網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)數(shù)據(jù)收集、存儲(chǔ)、分析整個(gè)流程,反映了趣運(yùn)動(dòng)網(wǎng)站用戶在線評(píng)論的真實(shí)情況,挖掘了用戶在參與體育場(chǎng)館設(shè)施健身過(guò)程中的具體需求。

4結(jié)束語(yǔ)

本文基于Python構(gòu)建了聚焦網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng),實(shí)現(xiàn)了對(duì)趣運(yùn)動(dòng)網(wǎng)站體育場(chǎng)館用戶在線評(píng)論信息的爬取、存儲(chǔ)和內(nèi)容分析,分析結(jié)果表明:聚焦網(wǎng)絡(luò)爬蟲(chóng)專注于特定主題和內(nèi)容的收集,提高了信息收集效率,節(jié)省了大量的時(shí)間。同時(shí),對(duì)用戶評(píng)論數(shù)據(jù)的存儲(chǔ)便于進(jìn)一步的數(shù)據(jù)管理和分析,也能對(duì)有效數(shù)據(jù)進(jìn)行保存。再者,對(duì)存儲(chǔ)數(shù)據(jù)的可視化和內(nèi)容分析結(jié)果,包括詞云圖可視化和詞頻統(tǒng)計(jì),可進(jìn)一步為場(chǎng)館硬件和軟件設(shè)施改進(jìn)提供決策,也可為用戶選擇體育場(chǎng)館提供參考。上述結(jié)論驗(yàn)證了本文提出的聚焦網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的有效性和實(shí)用性,下一步的工作是繼續(xù)優(yōu)化聚焦網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng),結(jié)合多線程與并發(fā)等技術(shù),同時(shí)加入更多的文本分析算法,對(duì)整個(gè)系統(tǒng)性能進(jìn)行優(yōu)化,使其爬取效率更高、功能更加完善。

參考文獻(xiàn)

[1] 杜曉旭,賈小云.基于Python的新浪微博爬蟲(chóng)分析[J].軟件,2019, 40(4):182-185.

[2] 劉暉,石倩.基于網(wǎng)絡(luò)爬蟲(chóng)的新聞網(wǎng)站自動(dòng)生成系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電子技術(shù)與軟件工程,2019(13):18-19.

[3] 陸樹(shù)芬.基于Python對(duì)網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦編程技巧與維護(hù),2019(2):26-27,51.

[4] 郭向向,鄭嘉慧,苗學(xué)芹.基于Python聚焦型網(wǎng)絡(luò)爬蟲(chóng)的影評(píng)獲取技術(shù)[J].時(shí)代金融,2019(11):71-72.

[5] 高宇,楊小兵.基于聚焦型網(wǎng)絡(luò)爬蟲(chóng)的影評(píng)獲取技術(shù)[J].中國(guó)計(jì)量大學(xué)學(xué)報(bào),2018,29(3):299-303.

[6] 楊國(guó)志,江業(yè)峰.基于python的聚焦網(wǎng)絡(luò)爬蟲(chóng)數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].科學(xué)技術(shù)創(chuàng)新,2018(27):73-74.

作者簡(jiǎn)介

王煜煒(1990-),男,湖北武漢人;畢業(yè)院校:武漢大學(xué),專業(yè):軟件工程,學(xué)歷:博士研究生,現(xiàn)就職單位:江漢大學(xué),研究方向:人工智能。

主站蜘蛛池模板: 中文字幕乱码中文乱码51精品| 2021国产乱人伦在线播放| 伊人成人在线| 综合色区亚洲熟妇在线| 国产97视频在线| 亚洲色图欧美激情| 免费午夜无码18禁无码影院| 伊人成人在线| 亚洲AV免费一区二区三区| 国产无码网站在线观看| 久久人搡人人玩人妻精品一| 亚洲高清在线天堂精品| 亚国产欧美在线人成| 幺女国产一级毛片| 四虎影视库国产精品一区| 亚洲欧洲日韩国产综合在线二区| 亚洲区第一页| 91久草视频| 精品人妻一区无码视频| 亚洲欧美日韩成人高清在线一区| 4虎影视国产在线观看精品| 蜜臀AV在线播放| 一级香蕉人体视频| 97av视频在线观看| 亚洲三级a| 福利片91| 国产欧美在线视频免费| 欧美成人二区| 欧美高清三区| 国产自在线播放| 亚洲免费三区| 91在线国内在线播放老师| 欧美a在线| 国产凹凸一区在线观看视频| 亚洲经典在线中文字幕| 亚洲精品在线观看91| 亚洲一区二区约美女探花| 色婷婷天天综合在线| 91av成人日本不卡三区| 精品久久久久成人码免费动漫| 成人在线天堂| 国产第二十一页| 就去色综合| 老司机aⅴ在线精品导航| 无码高潮喷水在线观看| 婷婷色在线视频| 成年免费在线观看| 国产午夜不卡| 91九色视频网| 5388国产亚洲欧美在线观看| 91免费精品国偷自产在线在线| 成年人国产网站| 国产丝袜无码一区二区视频| 亚洲一级毛片在线观播放| 无码AV高清毛片中国一级毛片| 4虎影视国产在线观看精品| 99热国产这里只有精品无卡顿" | 午夜a级毛片| 国禁国产you女视频网站| 波多野结衣在线se| 538国产在线| 国产精品视频白浆免费视频| 狼友av永久网站免费观看| 91麻豆国产视频| 免费观看成人久久网免费观看| 日韩一级毛一欧美一国产| 国产成年女人特黄特色大片免费| 99久视频| 欧美一级在线| 欧美影院久久| 亚洲欧洲一区二区三区| 在线不卡免费视频| 国产精品页| 亚洲AV一二三区无码AV蜜桃| 日本人妻丰满熟妇区| 亚洲中文在线看视频一区| 欧美a在线视频| 中文天堂在线视频| 日本91视频| 动漫精品啪啪一区二区三区| 亚洲日本精品一区二区| 亚洲视频免费在线|