胡鵬 李長云 傅榮鑫



摘要:“擇業難”“就業難”已是大學生面臨的兩難問題。該文基于網絡校園招聘,利用Python和SPSS工具需求視角分析就業現狀。研究表明,熱門職位集中在計算機、互聯網,主要分布在北上廣深城市,但“新一線”需求比例在上升,并且私營企業占比最大。另外,企業更看重大學生的基礎能力、工作態度和品質。該研究為大學生就業、擇業提供參考和借鑒。
關鍵詞:就業指導;大學生招聘;數據挖掘;Python
中圖分類號:TP3-0? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)27-0035-03
1 背景
隨著我國改革開放不斷深化,高校教育模式也從精英轉為大眾教育,導致大學生就業壓力日益增大。通過分析,人們發現“就業難”的影響因素之一就是“擇業難”。由于企業和學生存在信息不對稱問題[1],導致人才結構性化短缺。
因此,本文用爬蟲算法收集招聘網站信息,分析需求的熱門區域、熱門職業、熱門職位的技能要求等。為高校和大學生解決“就業難”“擇業難”的問題。
2 大學生招聘方式分析
企業針對大學生招聘通常會采用校園招聘或者網絡招聘。
校園招聘是專門針對應屆大學生的招聘方式。目前,應屆畢業生主要就業途徑就是校園招聘,但是,艾瑞咨詢在《中國校園招聘大學生洞察白皮書》中指出獲得1~3家企業面試的學生比例近40%,這說明應屆畢業生雖然參與不少校園招聘,但成功獲取Offer還是具有一定難度。網絡招聘是以招聘平臺為載體,企業在平臺發布招聘信息,它可以將就業信息全方位地提供給學生[2],相較于傳統的線下招聘,它更節約時間成本和空間成本。典型的招聘網站如“前程無憂”“智聯招聘”等。網絡招聘發展至今,已經積累了大量的職位信息,隨著AI技術的日漸成熟,依靠網絡就能夠實現精準的職位推薦[3],對于促進大學生就業是十分有意義的。
3 企業招聘市場需求數據挖掘
3.1 數據獲取
1)數據源的選擇。招聘網站有很多,但是最有影響力的綜合招聘網站非前程無憂(51job.com)莫屬。前程無憂招聘網站上具有海量的招聘信息,覆蓋的知名企業較多。所以本文選擇從前程無憂招聘網站上獲取職位信息。
2)Python爬蟲獲取數據。Python閱讀簡單,代碼結構清晰、明了[4]。利用爬蟲算法獲取以下信息。①獲取熱門職位名單。前程無憂網有各類職位信息,職位名稱眾多,為了Python爬蟲可以實現,我們需要先確定職位名稱。由于前程無憂沒有提供職位名稱集合,我們選擇從BOSS直聘首頁獲取職位名稱。②獲取熱門職位信息。由于我們研究的市場需求是針對大學生就業,所以在爬取職位信息時,將工作年限參數設置為“在校生/應屆生”。獲取熱門職位的爬蟲代碼如下:
def count_page():
"根據boss直聘首頁的職位名獲取職位名稱集合,再從前程無憂上獲取熱門職位"
driver_path = r"D:\Chrome\Downloads\chromedriver.exe"
file_name = r"D:\Python_code\Python程序\爬蟲相關代碼\51job\原始數據\數量.xlsx"
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
}
browser = webdriver.Chrome(executable_path=driver_path)
url = "https://www.zhipin.com/"
job_names = []
browser.get(url)
html = browser.page_source
selector = etree.HTML(html)
job_names += selector.xpath("http://div[@class='job-menu']//div[@class='menu-sub']//li/div[@class='text']/a/text()")
name_nums = {}
for name in job_names:
browser = webdriver.Chrome(executable_path=driver_path)
input_tag = browser.find_element_by_id("kwdselectid")
input_tag.send_keys(name)
input_tag.clear()
click_tag = browser.find_element(By.LINK_TEXT, "搜索")
click_tag.click()
html = browser.page_source
html = etree.HTML(html)
job_url = html.xpath("http://div[contains(@id,'filter_workyear')]//li[2]/a/@href")
web = requests.get(job_url, headers=headers)