999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Jsoup爬蟲的BOSS直聘信息爬取

2023-06-15 11:11:07張鵬
無線互聯科技 2023年2期

張鵬

摘要:當前,就業成為人們生產生活的重要主題,隨著互聯網的飛速發展,招聘網站成為求職者就業的主要通道,網站中的招聘職位雖然豐富,但較難迅速獲取崗位中的重要信息。文章采取Jsoup網絡爬蟲技術,爬取了BOSS直聘網站中天津市的Java崗位信息,并使用POI技術將崗位中的重要信息經過數據處理保存為本地Excel文件,便于求職者直觀地對所搜索的崗位進行篩選判斷,具有良好的實用價值。

關鍵詞:Jsoup;網絡爬蟲;Boss直聘

中圖分類號: TP392? 文獻標志碼:A

0 引言

隨著互聯網的迅猛發展,就業方式已由傳統的線下招聘逐步轉變為高效快捷的網絡求職,通過各類招聘網站尋找崗位成為人們求職的主要方式,其中,BOSS直聘憑借其獨創的“找工作,與老板談”模式成為求職網站,特別是互聯網行業求職的主流網站之一。雖然通過網站可以便捷地查詢到崗位的需求信息,但是,人們在這些冗余的崗位需求信息中很難找到貼合自身的崗位信息,且不容易掌握某個崗位的薪資平均水平、分布地域等重要數據。

為了快速獲取某類型崗位的全部招聘信息,便于用戶快速篩選薪資、地域等實用數據,本文采用Jsoup的爬蟲技術,以java作為崗位關鍵字,將BOSS直聘網站上的主要招聘信息逐頁爬取并保存到本地Excel文件中,同時進行數據預處理,方便求職者直觀地對所搜索的崗位進行研究與選擇。

1 招聘信息爬取研究現狀

國內已存在較多學者使用爬蟲技術爬取招聘網站的案例。例如,孫暖等[1]采用Scrapy框架,基于Python語言設計爬蟲采集方案并實現了面向獵聘、拉鉤等招聘類網站的數據采集,最終成功獲取50 000余條數據。梅杰[2]采用網絡爬蟲技術獲取智聯招聘網站中的互聯網行業數據,并對獲取的數據集進行刪除、轉換。毛遂等[3]采取Python爬蟲對51Job招聘網站上的Python相關崗位進行爬取,并對爬取的本地數據進行可視化分析。

為解決招聘網站信息不直觀的問題,本文將對所用技術進行分析,設計爬蟲模型并完成代碼實現,以便呈現出清晰直觀的招聘崗位現狀,為相關崗位的人才提供良好的職業決策判斷。

2 相關技術分析

2.1 網絡爬蟲的原理

隨著互聯網的飛速發展,網絡成為數據與信息的載體中心,挖掘這些數據背后的意義尤為重要。網絡爬蟲是一種程序代碼或者腳本文件[4],可以遵循一定的規則自動獲取網站上的數據。

2.2 Jsoup技術簡介

Jsoup是一款HTML解析器,擁有十分方便的API處理HTML文檔,比如,參考了DOM對象的文檔遍歷方法,參考了CSS選擇器的用法等等,因此,可以使用Jsoup快速地爬取頁面數據。

2.3 POI技術簡介

Apache POI是用Java編寫的免費開源的跨平臺的Java API,提供對Microsoft Office格式檔案讀和寫的功能。POI也用于操作Excel,其中,Excel中的工作簿、sheet、行和單元格都可以在POI中找到相應的對象進行操作[7]。

3 爬取招聘信息模型設計與實現

招聘信息爬取功能的核心是首先通過攜帶請求對目標網頁發出請求并取得服務器響應,接著將獲得的響應內容(Document)通過Jsoup進行解析,封裝為實體類對象的集合,其中,翻頁功能使用遞歸調用方法實現。在獲取到所有的招聘數據后,對數據進行預處理,并將其保存為本地Excel文件。爬取流程如圖1所示。

3.1 分析網頁URL,確定訪問路徑

BOSS直聘是一個動態網頁,需要分析其URL來實現崗位關鍵字、城市、頁碼等參數的填充。該網站崗位搜索首頁URL為https://www.zhipin.com/web/geek/job,是不變部分,其后需要添加3個參數,分別為崗位關鍵字query、城市關鍵字city和頁碼page。

將query設置為java,city設置為天津,城市代碼為101030100,訪問第一頁時,page參數可省略,因此可以得到天津市java崗位的招聘信息URL為:

https://www.zhipin.com/web/geek/job?query=java&city=101030100

使用Jsoup.connect(url)獲取連接,攜帶header發起請求,將網頁保存在Document對象中。

3.2 分析網頁結構

訪問招聘信息URL,得到天津市java崗位的第一頁,頁面內有30個招聘信息。利用谷歌瀏覽器的F12開發者工具查看所要的爬取內容在網頁上對應的標簽,可以得到它的屬性、HTML代碼等。對網頁進行分析發現,每一個招聘信息都是以

  • 的列表標簽保存,而崗位名稱、薪資、地點等重要信息都放于li這個節點下。因此,調用Jsoup提供的API,使用CSS選擇器獲取所有招聘信息,封裝為網頁中的元素集合。

    Listlist = ?????doc.getElementsByClass("job-card-wrapper");

    3.3 將網頁內容封裝為對象集合

    本文定義了一個核心方法getBossTJList(String url, String area),用于將網頁內容封裝為招聘信息List。其中url參數為招聘信息URL,area參數為要搜索的崗位關鍵字,設置該參數旨在方便求職者隨時切換求職崗位。

    依據網頁元素集合List,每一個Element代表一個招聘信息,通過對其進行for循環,提取主要的招聘信息如崗位名稱、薪資、公司名稱、地理位置、學歷要求等。部分代碼如下:

    //崗位名稱

    String job_title = e.getElementsByClass("job-title").text();

    //薪資

    String salary = e.getElementsByClass("salary").text();

    //地理位置

    String job_address = e.getElementsByClass("job-area").text();

    本文使用Job實體類對象存儲招聘信息,每獲取一個Element中的主要招聘數據,就將它們封裝為一個Job對象。設置全局靜態變量集合job_list,將Job對象依次添加進集合中。

    3.4 遞歸實現翻頁功能

    BOSS直聘網站的頁碼部分位于

    的分頁對象中,在該div模塊中存在“頁數+2個”標簽,多出來的2個代表“上一頁”和“下一頁”按鈕。在某頁爬取結束后,獲取當前頁面的頁碼,并將其加1來指定下一頁面。當前所在頁的標簽,擁有特定的class="selected"屬性。

    int currentPage =

    Integer.parseInt(page.get(0).getElementsByClass("selected").text());

    currentPage+=1;

    當前頁獲取完畢后,應判斷是否需要繼續遞歸調用getBossTJList()方法獲取下一頁;若當前頁為尾頁,則停止調用。將標簽的數量減去2,可直接獲取總頁數。核心代碼如下:

    Thread.sleep(3000);

    if (currentPage<=lastPage){

    String href = "&"+page+"="+currentPage;

    getBossTJList(Commons.BOSS_JOBURL+href,area);

    }

    采用遞歸來逐頁遍歷招聘信息,最終可以得到300條數據。手工降低執行頻率,Thread.sleep(3000)是每3秒執行一次調用,通過模擬人點擊的方式達到反爬蟲的目的。

    3.5 保存Excel數據

    3.5.1 設置文件路徑

    定義了一個getExcel(String area)方法,area參數為要搜索的崗位關鍵字,設置該參數用來進行本地Excel文件按崗位命名,命名規則為"D:\\天津-"+area+".xls"。

    3.5.2 遍歷招聘信息,保存文件

    調用HSSFWorkbook的構造方法,新建一個表格文件。調用其createSheet(sheetname)方法創建sheet,本文中sheet名稱為崗位關鍵字area。使用sheet對象的createRow(rownum)方法創建第一行,第一行中分別添加序號、崗位名稱、薪資、公司名稱、工作地址、經驗要求、學歷要求7列。遍歷job_list對象,填充Excel表格對象,使用HSSFWorkbook的write()方法寫入本地,即可保存Excel文件。

    3.6 數據的預處理

    經爬取后的招聘信息中,薪資顯示為“5K~8K”,將工資單位采用“元/月”進行統一,并對工資范圍區間用其均值進行取代,如“5K~8K”,顯示為6 500元/月,清晰直觀,便于求職者篩選崗位。根據數據清洗原理對空缺值進行處理[8]。最終呈現的Excel文件如圖2所示。

    4 結語

    面對日趨嚴峻的就業形勢,僅憑線下的宣講招聘、單一的網絡簡歷投遞已經不能滿足人們迫切的就業需求。本文選用互聯網就業網站BOSS直聘,其崗位豐富,但無法對招聘數據進行提取和便捷篩選。利用Jsoup技術對BOSS直聘的數據進行爬取,整合公司位置、薪資單位等有效信息。整個過程快速便捷,針對性強,能夠將較為冗余的信息變得更加精簡,符合當前大數據時代的發展趨勢。

    參考文獻

    [1]孫暖,曹小平,劉軍.基于Python的互聯網招聘數據采集技術[J].信息與電腦(理論版),2020(18):161-163.

    [2]梅杰.基于關聯規則的網絡招聘信息挖掘與分析[D].貴陽:貴州大學,2021.

    [3]毛遂,毛紅霞.基于51job網站招聘信息的爬取與分析——以Python技術崗位為例[J].網絡安全技術與應用,2021(4):47-49.

    [4]熊艷秋,嚴碧波.基于jsoup爬取圖書網頁信息的網絡爬蟲技術[J].電腦與信息技術,2019(4):61-63.

    [5]王曉東.Apache POI組件批量操作Excel文件的應用探索[J].金融科技時代,2019(6):47-49.

    [6]劉萍,劉瑞文,胡秀麗.基于圖書借閱行為的數據預處理方法研究[J].內蒙古科技與經濟,2020(19):121-122,161.

    (編輯 何 琳)

    BOSS Zhipin information crawl based on Jsoup crawlers

    Zhang? Peng

    (Tianjin Electronic Information Vocational and Technical College, Tianjin 300350, China)

    Abstract:? At present, employment has become an important theme of peoples production and life. With the rapid development of the Internet, recruitment websites have become the main channel for job seekers to obtain employment. Although there are many recruitment positions in the websites, it is difficult to quickly obtain important information in the positions. The article adopts Jsoup web crawler technology to crawl the Java post information of Tianjin in BOSS Zhipin website, and uses POI technology to process and save the important information in the post into local Excel file, which is convenient for job seekers to screen and judge the searched posts intuitively, and has good practical value.

    Key words: Jsoup; web crawler; BOSS Zhipin

  • 主站蜘蛛池模板: 国产在线欧美| 麻豆精品在线| 国产在线观看成人91| 99精品国产高清一区二区| 亚洲一欧洲中文字幕在线| 中文字幕日韩久久综合影院| 免费在线国产一区二区三区精品| 亚洲自偷自拍另类小说| 日韩免费视频播播| 国产一区在线视频观看| 在线观看亚洲精品福利片| 欧美一级专区免费大片| 一本综合久久| 久久国产精品嫖妓| 亚洲女同欧美在线| 国产成人凹凸视频在线| 国产成人亚洲精品无码电影| 欧美五月婷婷| 99这里精品| 54pao国产成人免费视频| 亚洲一区二区在线无码| 日韩大乳视频中文字幕| 国产在线精品网址你懂的| 国产午夜无码专区喷水| 视频一本大道香蕉久在线播放| 亚洲码一区二区三区| 国国产a国产片免费麻豆| 免费不卡在线观看av| 超清无码一区二区三区| 日本一本在线视频| 亚洲第一成网站| 欧美日本在线观看| 91最新精品视频发布页| 日韩a级毛片| 亚洲男人在线| 国产欧美专区在线观看| 香蕉蕉亚亚洲aav综合| 欧美综合区自拍亚洲综合天堂| 91丨九色丨首页在线播放| 中字无码精油按摩中出视频| av天堂最新版在线| 少妇高潮惨叫久久久久久| 人禽伦免费交视频网页播放| 国产91九色在线播放| 亚洲欧美天堂网| 久久9966精品国产免费| 永久免费精品视频| 韩日免费小视频| 亚洲无码四虎黄色网站| 午夜欧美在线| 九一九色国产| 一级全黄毛片| 97精品伊人久久大香线蕉| 免费中文字幕在在线不卡| 精久久久久无码区中文字幕| 欧美日韩国产系列在线观看| 一级黄色网站在线免费看| 欧美亚洲一区二区三区导航| 自拍欧美亚洲| 中文字幕啪啪| 日本午夜网站| 亚洲欧美一区二区三区麻豆| 尤物精品视频一区二区三区| 亚洲国产天堂久久综合| 免费无遮挡AV| 国产一级精品毛片基地| 欧美色伊人| 91精品国产麻豆国产自产在线| 亚洲日韩AV无码一区二区三区人| 亚洲天堂.com| 亚洲欧美成人在线视频| 亚洲精品国产日韩无码AV永久免费网| 色噜噜狠狠色综合网图区| 2021精品国产自在现线看| a亚洲视频| 亚洲黄网视频| 国产伦片中文免费观看| 九九久久99精品| 亚洲高清国产拍精品26u| a级毛片在线免费观看| 日韩国产综合精选| 日韩午夜伦|