999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數(shù)據(jù)的招聘信息爬蟲技術(shù)研究與實(shí)現(xiàn)

2020-06-24 03:06:44張婷姚仿秋
中國(guó)新通信 2020年2期

張婷 姚仿秋

摘要:網(wǎng)絡(luò)招聘中信息量巨大,數(shù)據(jù)冗余較多,導(dǎo)致很多求職者在瀏覽招聘信息時(shí)往往不知道如何選擇。網(wǎng)絡(luò)爬蟲,一種基于python語(yǔ)言的專有性搜索工具,能夠?qū)⒕W(wǎng)絡(luò)上的信息下載保存到本地,還能將網(wǎng)頁(yè)爬取到的大量信息用于數(shù)據(jù)分析和大數(shù)據(jù)研究。

本文實(shí)現(xiàn)了Scrapy爬蟲對(duì)招聘網(wǎng)站的數(shù)據(jù)爬取,通過(guò)搭建Flask框架對(duì)采集的數(shù)據(jù)進(jìn)行可視化分析。其分析結(jié)果可以幫助求職者在瀏覽招聘信息時(shí)更好地評(píng)估工資水平,有效地判斷招聘信息是否合理,進(jìn)而有效提高求職者在尋求招聘崗位時(shí)的效率。

關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;Scrapy框架;網(wǎng)絡(luò)招聘信息

隨著互聯(lián)網(wǎng)的高速發(fā)展和大數(shù)據(jù)時(shí)代的來(lái)臨,網(wǎng)絡(luò)招聘已經(jīng)成為企業(yè)之間人才競(jìng)爭(zhēng)的主要手段。相對(duì)于傳統(tǒng)的線下招聘而言,網(wǎng)絡(luò)招聘成本低、覆蓋面廣、易于發(fā)布信息、招聘信息種類眾多[1],通過(guò)網(wǎng)絡(luò)平臺(tái)求職者還可以更快地與招聘者進(jìn)行溝通聯(lián)系,節(jié)約了彼此之間的時(shí)間成本。同時(shí)由于“互聯(lián)網(wǎng)+”經(jīng)濟(jì)的蓬勃發(fā)展,使得網(wǎng)絡(luò)招聘成為我國(guó)招聘市場(chǎng)的主流趨勢(shì)[2]。招聘信息本身存在不同時(shí)段的時(shí)效性,不同政策的工資變化不同,冗余度大,成效低,讓求職者很難匹配到自己心儀的工作。

本文使用網(wǎng)絡(luò)爬蟲技術(shù)爬取三個(gè)招聘網(wǎng)站的招聘信息,將爬取下來(lái)的招聘數(shù)據(jù)進(jìn)行智能可視化分析,發(fā)掘數(shù)據(jù)中隱藏的價(jià)值,摸索網(wǎng)站招聘規(guī)律。通過(guò)得出結(jié)論,可以更有效地幫助求職者找到適合自己的工作。

一、網(wǎng)絡(luò)爬蟲技術(shù)概述

隨著大數(shù)據(jù)時(shí)代的來(lái)臨,互聯(lián)網(wǎng)上的數(shù)據(jù)容量爆炸性地增長(zhǎng),高性能的網(wǎng)絡(luò)搜索引擎以及定向的信息獲取的需求,使得網(wǎng)絡(luò)爬蟲技術(shù)逐漸成為人們研究的對(duì)象。網(wǎng)絡(luò)爬蟲就是通過(guò)模擬瀏覽器發(fā)出網(wǎng)絡(luò)請(qǐng)求,獲取網(wǎng)站服務(wù)器返回的響應(yīng),并按照一定需求爬取數(shù)據(jù)的腳本程序。網(wǎng)絡(luò)爬蟲可以分為兩類:通用爬蟲和聚焦爬蟲。

1.1 通用爬蟲概述

通過(guò)用戶初始規(guī)定的一個(gè)待爬取URL地址列表,爬蟲從中按順序爬取URL地址,通過(guò)DNS解析獲得到主機(jī)網(wǎng)頁(yè)的ip地址,然后交給下載器去下載網(wǎng)頁(yè),將采集成功的網(wǎng)頁(yè)保存到本地磁盤中,并且將已爬取的URL地址做出標(biāo)志防止二次爬取,保存到磁盤中的網(wǎng)頁(yè)又存在許多鏈接信息,再?gòu)闹凶トRL地址放入待爬取列表中去進(jìn)行分析。如果發(fā)現(xiàn)有未下的url就放在待抓取url隊(duì)列的列尾,從而等待調(diào)度下載。如此循環(huán)下載,待抓取隊(duì)列為空時(shí),爬蟲就完成了對(duì)網(wǎng)頁(yè)的下載。

1.2? 聚焦爬蟲概述

通用網(wǎng)絡(luò)爬蟲所采集的網(wǎng)頁(yè)數(shù)據(jù)和正常用戶在瀏覽器中訪問(wèn)的數(shù)據(jù)是一樣的,而在大多數(shù)情況在,這些網(wǎng)頁(yè)數(shù)據(jù)中有90%是對(duì)用戶來(lái)說(shuō)是不需要的。聚焦爬蟲則可以根據(jù)用戶的需求而去爬取特定的一些內(nèi)容,是一種面向主題、面向需求的爬蟲。本次論文所使用的爬蟲就是聚焦爬蟲。

二、搭建Scrapy框架

2.1 Scrapy框架

Scrapy框架是Python語(yǔ)言開(kāi)發(fā)的,基于Twisted異步網(wǎng)絡(luò)框架的開(kāi)源爬蟲框架。用戶可以根據(jù)需求在Scrapy框架各個(gè)模塊中編寫好要爬蟲的規(guī)則、存儲(chǔ)的結(jié)構(gòu),就能快速、靈活地爬取web網(wǎng)站的數(shù)據(jù)。其主要的框架組件有以下幾個(gè):

(1)Scrapy Engine(引擎)組件:負(fù)責(zé)各個(gè)組件之間的連接、信號(hào)傳遞

和數(shù)據(jù)通信,是整個(gè)框架組件的核心。

(2)Spiders(爬蟲)組件:用來(lái)定制爬取web網(wǎng)頁(yè)的規(guī)則,發(fā)出Request

請(qǐng)求到Schedule(調(diào)度器),同時(shí)也接收Downloader(下載器)發(fā)送過(guò)來(lái)的Response響應(yīng),并從中提取到item字段所需要的數(shù)據(jù)由引擎發(fā)送到Item管道,如果有需要根據(jù)的url鏈接,就繼續(xù)提交給調(diào)度器。

(3)Schedule(調(diào)度器):接收到爬蟲組件發(fā)送過(guò)來(lái)的Request請(qǐng)求,將請(qǐng)求進(jìn)行入隊(duì)列處理,進(jìn)而交給Downloader下載。

Scrapy架構(gòu)圖如下所示,其中綠線表示數(shù)據(jù)流向。

圖2為Scrapy框架的工作流程圖。

三、 基于網(wǎng)絡(luò)爬蟲的數(shù)據(jù)采集實(shí)驗(yàn)

本研究的實(shí)驗(yàn)基于Python軟件進(jìn)行,對(duì)北京計(jì)算機(jī)崗位招聘信息進(jìn)行爬蟲實(shí)驗(yàn),其中爬蟲程序運(yùn)行過(guò)程如圖3。

運(yùn)行完畢之后,打開(kāi)navicat可視化工具查看下載的招聘數(shù)據(jù)內(nèi)容,如圖4。

三個(gè)爬蟲項(xiàng)目最大的區(qū)別在于各自網(wǎng)站數(shù)據(jù)傳輸?shù)腢RL,這是各不相同的,通過(guò)抓包分析能獲取到網(wǎng)站數(shù)據(jù)傳輸?shù)腏son地址,將其包裝到爬蟲模塊中去發(fā)送請(qǐng)求。前程無(wú)憂和拉鉤網(wǎng)爬蟲項(xiàng)目的反爬蟲設(shè)置、數(shù)據(jù)庫(kù)連接、數(shù)據(jù)清洗都與智聯(lián)招聘網(wǎng)爬蟲項(xiàng)目一致。執(zhí)行各自的爬蟲名即可完成對(duì)網(wǎng)站數(shù)據(jù)的抓取。

四、結(jié)論

本文實(shí)現(xiàn)了使用Python的Scrapy爬蟲框架對(duì)三個(gè)招聘網(wǎng)站的招聘信息采集,本文從求職者的角度去進(jìn)行數(shù)據(jù)分析,利用Flask框架簡(jiǎn)單,靈活的特點(diǎn),完成后臺(tái)服務(wù)器的搭建和使用SQLAlchemy模塊對(duì)采集的數(shù)據(jù)進(jìn)行操作,實(shí)現(xiàn)可對(duì)不同崗位進(jìn)行搜索分析的網(wǎng)頁(yè)。求職者可以通過(guò)圖形的分析結(jié)果進(jìn)而判斷招聘信息是否合理,有利于更好地選擇工作。

參考文獻(xiàn):

[1]杜玉帆,杜瑩瑩.“互聯(lián)網(wǎng)+”時(shí)代下網(wǎng)絡(luò)招聘行業(yè)發(fā)展探析[J].中國(guó)市場(chǎng),2018(11):180-181.

[2]耿玉德,張?jiān)?招聘網(wǎng)站求職滿意度影響因素分析——以高校大學(xué)學(xué)生為例[J].工業(yè)經(jīng)濟(jì)論壇,2018,05(05):82-89.

[3]杜玉帆,杜瑩瑩.如何應(yīng)對(duì)網(wǎng)絡(luò)招聘中的虛假信息[J].中國(guó)市場(chǎng),2018,(11):180-181.

[4] 北京大學(xué)天網(wǎng)搜索引擎[EB/OL].http:∥pku.edu.cn,2019-05-03

[5]趙禹婷.我國(guó)網(wǎng)絡(luò)招聘市場(chǎng)的現(xiàn)狀及提升對(duì)策研究[J].現(xiàn)代交際,2019(05):243-244.

[6]畢寧寧. 移動(dòng)互聯(lián)網(wǎng)環(huán)境下企業(yè)招聘渠道研究[D].東北師范大學(xué),2018.

[7]郭越. 虛假網(wǎng)絡(luò)招聘中的法律問(wèn)題研究[D].山西大學(xué),2018.

[8]鄭毅. 某公司招聘管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].電子科技大學(xué),2018.

[9]趙丹. 網(wǎng)絡(luò)招聘信息的分析與挖掘[D].貴州財(cái)經(jīng)大學(xué),2017.

[10]彩廣畏. 從網(wǎng)絡(luò)招聘信息看我國(guó)人才需求狀況[D].湖南師范大學(xué),2017.

作者簡(jiǎn)介:

張婷,(1982.08.29-),女,岳陽(yáng)職業(yè)技術(shù)學(xué)院,414000,漢族,湖南省岳陽(yáng)市,碩士,講師,大數(shù)據(jù)。

主站蜘蛛池模板: a网站在线观看| 全午夜免费一级毛片| 国产在线日本| 亚洲国产午夜精华无码福利| 在线中文字幕网| 亚洲国产日韩视频观看| 99国产精品免费观看视频| 久久77777| 亚洲有无码中文网| 中文字幕在线一区二区在线| 视频一区亚洲| 无码国产伊人| 香蕉视频在线精品| 日本欧美视频在线观看| 熟妇无码人妻| 白丝美女办公室高潮喷水视频| 欧美在线网| 国产特级毛片aaaaaa| A级毛片无码久久精品免费| 亚洲香蕉久久| 久久天天躁狠狠躁夜夜2020一| 亚洲精品无码成人片在线观看| 色屁屁一区二区三区视频国产| 黄色网址免费在线| 日本成人精品视频| 免费一级无码在线网站| 日本人又色又爽的视频| 国产福利微拍精品一区二区| 免费国产在线精品一区| 亚洲av色吊丝无码| 国产熟女一级毛片| 国产一二视频| 在线观看国产精美视频| 国模视频一区二区| 亚洲欧美日韩天堂| 在线观看国产黄色| 一本大道香蕉久中文在线播放| 国产极品美女在线观看| 伊人久久青草青青综合| 亚洲日韩欧美在线观看| 亚洲三级影院| 18禁影院亚洲专区| 国产99精品久久| 亚洲美女操| 欧美一区二区自偷自拍视频| 国产精品成人免费综合| 精品人妻AV区| 最新日韩AV网址在线观看| 91探花在线观看国产最新| 亚洲国产成人精品无码区性色| 亚洲全网成人资源在线观看| 在线播放精品一区二区啪视频| 影音先锋亚洲无码| www.狠狠| 精品小视频在线观看| 国产成人综合久久| 国产精品无码AⅤ在线观看播放| 国产黄色视频综合| 亚洲人成影视在线观看| 亚洲国产综合自在线另类| 国产亚洲欧美日韩在线观看一区二区| 色综合五月婷婷| 色综合久久88色综合天天提莫| 久久综合久久鬼| 亚洲区视频在线观看| 中文字幕在线欧美| 激情六月丁香婷婷四房播| 久久婷婷人人澡人人爱91| 国产99精品视频| 欧亚日韩Av| 99热这里只有精品5| 91精品国产91欠久久久久| 一本无码在线观看| 婷婷开心中文字幕| 亚洲香蕉伊综合在人在线| 九色91在线视频| 国产精品亚洲αv天堂无码| 国产激爽大片高清在线观看| 丝袜高跟美脚国产1区| 奇米精品一区二区三区在线观看| 香蕉久久国产精品免| 久久亚洲天堂|