999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于網(wǎng)絡(luò)爬蟲的學(xué)生就業(yè)信息挖掘與推送研究

2019-09-24 02:00:29陳康琛劉進(jìn)進(jìn)陳興雷
電腦知識(shí)與技術(shù) 2019年19期

陳康琛 劉進(jìn)進(jìn) 陳興雷

摘要:為了解決大學(xué)生獲取就業(yè)信息滯后、時(shí)間成本高昂以及與用人組織間信息不對稱的問題,提出運(yùn)用網(wǎng)絡(luò)爬蟲信息技術(shù)和郵件推送技術(shù)的設(shè)計(jì)思想,以自動(dòng)化控制減少人工操作為實(shí)現(xiàn)途徑,開發(fā)和研究學(xué)生就業(yè)信息挖掘與推送系統(tǒng)。系統(tǒng)包括輸入加載模塊,信息抓取模塊,結(jié)果輸出模塊和郵件推送模塊。以Python計(jì)算機(jī)設(shè)計(jì)語言為基礎(chǔ),進(jìn)行代碼編譯,實(shí)現(xiàn)以全國大學(xué)生就業(yè)公共服務(wù)立體化平臺(tái)(新職網(wǎng))為自動(dòng)爬取對象,對網(wǎng)站工作日當(dāng)天信息JSON數(shù)據(jù)源下載存儲(chǔ),信息抓取模塊與郵件推送模塊相配合,在索引JSON數(shù)據(jù)庫進(jìn)行深度挖掘后,自動(dòng)將輸出匯總結(jié)果推送至郵箱。系統(tǒng)操作簡單,高效可靠,在畢業(yè)季中有較大推廣應(yīng)用可能。

關(guān)鍵詞:python;網(wǎng)絡(luò)爬蟲;就業(yè)信息;郵件推送

中圖分類號:TP391? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號:1009-3044(2019)19-0006-03

Abstract: In order to solve the problems of inadequate access to employment information, high time cost and asymmetric information between college students and employers, this paper puts forward the design idea of using web crawler information and email push technologies to develop and study a mining and pushing system of student employment information, so that the manual operation can be reduced through an automatic control. The system includes input loading module, information capture module, result output module, and email push module. The code is compiled on the basis of Python computer design language. Taking NCSS (New Career Service Site for Students) as the automatic crawler object, it downloads and saves the daily information JSON data source from the website on workdays. Combined with information capture module and email push module, the output summary results can be automatically pushed to the mailbox after in-depth mining of index JSON database. The system is efficient, reliable and easy to use, which may be widely used in the graduation season.

Key words: python; web crawler; employment information; email push

1 引言

近年來,大學(xué)生畢業(yè)人數(shù)逐年增長,2019年全國高校畢業(yè)生人數(shù)預(yù)計(jì)834萬[1],再創(chuàng)歷史新高。大學(xué)生就業(yè)難已成為社會(huì)關(guān)切的熱點(diǎn)問題之一。面對最難就業(yè)季和就業(yè)崗位信息的動(dòng)態(tài)更新,大學(xué)畢業(yè)生每天需要進(jìn)行煩瑣的人工查詢和篩選操作,耗費(fèi)大量的時(shí)間成本,同時(shí)也無法及時(shí)得到大量有效的招聘信息,更有招聘信息檢索不當(dāng)和數(shù)據(jù)挖掘深度不夠的情況發(fā)生,使其與心儀的就業(yè)崗位失之交臂。目前在我國網(wǎng)絡(luò)招聘市場中,已呈現(xiàn)出智聯(lián)招聘、前程無憂和中華英才網(wǎng)這類綜合性招聘網(wǎng)站領(lǐng)先,其他地方性、行業(yè)性、搜索型和社交型等多種網(wǎng)站并存發(fā)展的多元格局[2]。雖然就業(yè)信息平臺(tái)已搭建完成,但都還需大學(xué)生逐個(gè)進(jìn)行人工查詢、篩選的操作,耗時(shí)耗力,從用戶體驗(yàn)來說,不夠自動(dòng)化。因此,本文設(shè)計(jì)一款就業(yè)信息挖掘與推送系統(tǒng),對保證就業(yè)信息時(shí)效性,使大學(xué)生自動(dòng)化高效定制就業(yè)信息具有重要意義,為全國大學(xué)生就業(yè)信息獲取提供了新的方法和途徑。

2 項(xiàng)目相關(guān)技術(shù)和設(shè)計(jì)

2.1 Python

Python是一種簡單易學(xué)、功能強(qiáng)大的計(jì)算機(jī)程序設(shè)計(jì)語言, 它有高效率的高層數(shù)據(jù)結(jié)構(gòu), 簡單而有效地實(shí)現(xiàn)面向?qū)ο缶幊獭ython簡潔的語法和對動(dòng)態(tài)輸入的支持,讓人更加容易閱讀、調(diào)試和擴(kuò)展,再加上其高度集成了解釋性、交互性、面向?qū)ο笮院拓S富的可擴(kuò)展性等特點(diǎn)[3],可根據(jù)情況,導(dǎo)入多種模塊,大量的第三方函數(shù)庫對其進(jìn)行了支持,使得Python語言在爬蟲和大數(shù)據(jù)處理分析方面具有明顯優(yōu)勢,特別適用于快速的應(yīng)用開發(fā),也成為當(dāng)前程序設(shè)計(jì)的熱門語言之一。

本項(xiàng)目,運(yùn)用python中的os, requests, BeautifulSoup模塊編寫自定義函數(shù)CXRD,實(shí)現(xiàn)新職網(wǎng)JSON源文件的下載;requests, lxml, BeautifulSoup模塊編寫自定義函數(shù)XJCX,實(shí)現(xiàn)JSON數(shù)據(jù)源的解析;smtplib, MIMEText模塊編寫自定義函數(shù)sendmail,實(shí)現(xiàn)電子郵件的自動(dòng)推送。通過以上自定義函數(shù)的調(diào)用,再結(jié)合re, time, tkinter, tkinter.filedialog, tkinter.messagebox模塊和正則表達(dá)式對大學(xué)生就業(yè)信息挖掘與推送軟件進(jìn)行編譯,便能夠達(dá)成就業(yè)信息網(wǎng)頁自動(dòng)獲取、崗位詳情信息主動(dòng)解析和匯總結(jié)果電子郵件推送等目標(biāo)。

2.2 網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲(Web Crawler),又稱網(wǎng)絡(luò)蜘蛛(Web Spider)或Web信息采集器,是一個(gè)自動(dòng)下載網(wǎng)頁的計(jì)算機(jī)程序或自動(dòng)化腳本,是搜索引擎的重要組成部分[4]。網(wǎng)絡(luò)爬蟲的基本實(shí)現(xiàn)原理及過程:通過互聯(lián)網(wǎng)獲取網(wǎng)頁初始URL鏈接,將初始網(wǎng)頁存儲(chǔ)至數(shù)據(jù)庫,并對初始網(wǎng)頁中出現(xiàn)的新URL鏈接進(jìn)行爬取,始終重復(fù)上述過程,直至滿足設(shè)定的停止條件。若無停止條件,將直到無法獲取新的URL鏈接為止。以此實(shí)現(xiàn)對網(wǎng)頁數(shù)據(jù)的遍歷、挖掘和保存。本項(xiàng)目即利用Python中對網(wǎng)頁內(nèi)容的自動(dòng)爬取功能,完成對網(wǎng)站數(shù)據(jù)的收集與更新。

2.3 正則表達(dá)式

JSON指的是類似JavaScript對象的一種數(shù)據(jù)格式,這種數(shù)據(jù)格式是服務(wù)器和客戶端數(shù)據(jù)交互的媒介。在對網(wǎng)站JSON數(shù)據(jù)源下載存儲(chǔ)后,基于正則表達(dá)式進(jìn)行匹配,對JSON文本數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,以極其簡單的操作方式從煩瑣雜亂的字符串中提取我們想要的特定部分。例如:本項(xiàng)目中,通過recNames=re.findall('.recName.*?(?=,)',line)的方式進(jìn)行信息提取,實(shí)現(xiàn)對“,”前含有“recName”的字符串的自動(dòng)匹配并輸出內(nèi)容。其中, '.recName.*?(?=,)'即為正則表達(dá)式。

2.4 網(wǎng)站Robots協(xié)議

Robots.txt是存放于網(wǎng)站目錄下的ASCII編碼的文本文件,它通常告訴搜索引擎蜘蛛程序在此網(wǎng)站中可以抓取和禁止抓取的內(nèi)容[5],直接標(biāo)明爬蟲服務(wù)程序在其網(wǎng)站上的許可抓取信息范圍,此協(xié)議的存在是為了保護(hù)網(wǎng)站數(shù)據(jù)和敏感信息。

大學(xué)生就業(yè)信息挖掘與推送系統(tǒng)爬取信息源采用新職網(wǎng)數(shù)據(jù)源,經(jīng)過瀏覽器訪問如下網(wǎng)址http://www.ncss.org.cn/robots.txt,此頁面顯示結(jié)果為

“404 Not Found”即未設(shè)置robots.txt,因此,在未經(jīng)新職網(wǎng)授權(quán)的情況下,網(wǎng)絡(luò)爬蟲可直接對其數(shù)據(jù)源的所有信息內(nèi)容進(jìn)行抓取,即其數(shù)據(jù)源向社會(huì)開放。

2.5 系統(tǒng)運(yùn)行設(shè)計(jì)

要對有效的就業(yè)招聘信息進(jìn)行搜集,首先需要確定就業(yè)信息發(fā)布于哪些網(wǎng)站上。本項(xiàng)目以新職網(wǎng)(http://ncss.org.cn)為例,對專業(yè)就業(yè)信息進(jìn)行獲取,人為設(shè)定專業(yè)對應(yīng)的篩選關(guān)鍵詞。在對目標(biāo)網(wǎng)址和關(guān)鍵詞確立完成后,便是對其URL所對應(yīng)的網(wǎng)頁詳情內(nèi)容進(jìn)行爬取,找出含有以上篩選關(guān)鍵詞的信息。完成信息抓取后,設(shè)定以方便閱讀的格式進(jìn)行本地保存,以一條信息對應(yīng)一條鏈接輸出為宜。最終,將爬取匯總結(jié)果通過QQ郵箱一鍵推送。

3 項(xiàng)目系統(tǒng)分析及實(shí)現(xiàn)

3.1 輸入加載模塊

首先導(dǎo)入Beautiful Soup模塊,它是一個(gè)具有強(qiáng)大功能的工具箱,內(nèi)置python支持的大量函數(shù),可實(shí)現(xiàn)lxml網(wǎng)頁解析、文檔樹的遍歷和搜索以及CSS選擇等功能,為本次設(shè)計(jì)的系統(tǒng)python代碼進(jìn)行靈活調(diào)用函數(shù)提供了較大幫助。

隨后對專業(yè)對應(yīng)的篩選關(guān)鍵詞進(jìn)行導(dǎo)入,利用tkinter模塊中的filedialog和messagebox標(biāo)準(zhǔn)對話框模塊,生成文件選擇對話框,獲取專業(yè)檢索詞的文件路徑,運(yùn)用open(,[r,w,a,b])函數(shù)讀取檢索詞,其中r:讀操作;w:寫操作;a:添加操作,b:二進(jìn)制存取操作,此模塊采用r只讀操作即可完成設(shè)計(jì)需求,采用文件對話框txt文本導(dǎo)入設(shè)計(jì)是因?yàn)榭芍苯訉?dǎo)入數(shù)個(gè)專業(yè)檢索詞,避免在代碼運(yùn)行過程中逐個(gè)輸入文本情況的發(fā)生。爬蟲腳本內(nèi)容如下:

在對新職網(wǎng)JSON數(shù)據(jù)源下載本地存儲(chǔ)完成后,利用re模塊構(gòu)建設(shè)置正則表達(dá)式,并基于正則表達(dá)式進(jìn)行匹配,對獲取到的JSON數(shù)據(jù)進(jìn)行篩選和匹配,得到符合條件的“recName”, “recId”, “jobTitle”, “jobId”數(shù)據(jù)內(nèi)容,為信息抓取模塊中網(wǎng)頁詳情檢索和結(jié)果輸出正常創(chuàng)造前提條件。

3.2 信息抓取模塊

在輸入加載模塊運(yùn)行完成后,便需要運(yùn)用崗位URL查詢信息,進(jìn)行網(wǎng)頁詳情頁面的檢索詞檢索,為了防止因網(wǎng)絡(luò)波動(dòng)或服務(wù)器不穩(wěn)定造成連接失敗的問題,設(shè)定服務(wù)器重連次數(shù)“3”,運(yùn)用BeautifulSoup和lxml模塊對新職網(wǎng)職位網(wǎng)頁進(jìn)行解析,解析結(jié)果為新職網(wǎng)網(wǎng)站html代碼,通過對整個(gè)新職網(wǎng)網(wǎng)頁html代碼的分析總結(jié),得出使用BeautifulSoup中的方法find_all查詢匹配li標(biāo)簽中的職業(yè)名稱和div標(biāo)簽中的招聘企業(yè)所處地域,之后,若職位詳情頁面中含有檢索詞字段即返回該頁面的URL,否則,直接返回空值。如下所示:

3.3 結(jié)果輸出模塊

在信息抓取模塊運(yùn)行完成后,便是將檢索篩選結(jié)果進(jìn)行本地保存,將會(huì)以"jobTitle":"**"(職位名稱)、"recName ":"**"(企業(yè)名稱)、"address":**(企業(yè)地址)、URL鏈接(網(wǎng)頁詳情)的形式保存為txt文本文檔,直接將職位名稱、招聘企業(yè)名稱、企業(yè)所在省市和職位詳情鏈接進(jìn)行顯示,方便推送郵件時(shí)收件方進(jìn)行閱讀查看,至此,檢索結(jié)果輸出完成。

3.4 郵件推送模塊

電子郵件進(jìn)行一鍵推送功能的實(shí)現(xiàn)采取自定義發(fā)送電子郵件函數(shù)的方法,導(dǎo)入smtplib, MIMEText模塊,該模塊簡單定義了一個(gè)SMTP客戶端,對SMTP協(xié)議(簡單郵件傳輸協(xié)議)進(jìn)行簡單的封裝,可用于向任何互聯(lián)網(wǎng)機(jī)器發(fā)送使用SMTP協(xié)議的郵件,將郵件服務(wù)器及短號、發(fā)送方郵箱和郵箱授權(quán)碼等信息進(jìn)行輸入編譯后,依然按照文件對話框的方式導(dǎo)入收件方郵箱,在有需要的情況下進(jìn)行輸出結(jié)果的批量用戶一鍵發(fā)送,方便快捷。實(shí)現(xiàn)代碼如下:

4 項(xiàng)目系統(tǒng)運(yùn)行試驗(yàn)

在完成大學(xué)生就業(yè)信息挖掘與推送系統(tǒng)代碼編譯后,需要對整個(gè)代碼及設(shè)計(jì)模塊的運(yùn)行進(jìn)行試驗(yàn)驗(yàn)證, 測試整個(gè)系統(tǒng)的可靠性和高效性,所得試驗(yàn)具體參數(shù)記錄結(jié)果如下表所示:

主站蜘蛛池模板: 亚洲欧美另类日本| 国产二级毛片| 天天综合网亚洲网站| 国产色网站| 第一区免费在线观看| 久久香蕉国产线看精品| 99re精彩视频| 香蕉精品在线| 婷婷综合色| 毛片网站观看| 亚洲成人一区二区三区| 91精品最新国内在线播放| 一本色道久久88| 国产成人综合网| 亚亚洲乱码一二三四区| 国产精品手机在线播放| 亚洲成a人在线观看| 免费A级毛片无码免费视频| 亚洲av色吊丝无码| 午夜少妇精品视频小电影| 激情无码字幕综合| 蜜芽国产尤物av尤物在线看| 欧美一级高清片欧美国产欧美| 国产黑丝一区| 午夜无码一区二区三区在线app| 成人毛片在线播放| 久久永久免费人妻精品| 一本大道AV人久久综合| 97色婷婷成人综合在线观看| 真人免费一级毛片一区二区| 国产一区成人| 国产打屁股免费区网站| 六月婷婷激情综合| 亚洲成a人在线播放www| 国产女人水多毛片18| 一区二区三区精品视频在线观看| 91精品小视频| 国产欧美视频综合二区| 日韩国产另类| 成人精品免费视频| 欧美亚洲欧美| 日韩 欧美 小说 综合网 另类| 91人妻日韩人妻无码专区精品| 啪啪永久免费av| 亚洲精品爱草草视频在线| 午夜精品区| 国产精品大白天新婚身材| 日韩毛片免费观看| 亚洲欧州色色免费AV| 黄色污网站在线观看| 亚洲男人在线天堂| 色悠久久久| 一级福利视频| 伊人成人在线| 亚洲人成网线在线播放va| 国内99精品激情视频精品| 亚洲欧美激情小说另类| 国产制服丝袜无码视频| 日本午夜网站| 中文字幕人成人乱码亚洲电影| 四虎成人在线视频| 2020最新国产精品视频| 欧美激情视频一区| 国产高清不卡视频| 99免费在线观看视频| 久久人妻xunleige无码| 高h视频在线| 中文字幕资源站| 幺女国产一级毛片| 久久这里只有精品国产99| 日本欧美成人免费| 国内精品久久久久鸭| 国产第一福利影院| 日韩av电影一区二区三区四区| 中文字幕无码中文字幕有码在线| 2024av在线无码中文最新| 国产门事件在线| 国产自在线播放| 亚洲有无码中文网| 中文字幕首页系列人妻| 国产超薄肉色丝袜网站| 免费高清a毛片|