基于數據挖掘的大學生就業市場需求分析

2021-11-08 13:12:09胡鵬李長云傅榮鑫

電腦知識與技術 2021年27期

胡鵬李長云傅榮鑫

摘要：“擇業難”“就業難”已是大學生面臨的兩難問題。該文基于網絡校園招聘，利用Python和SPSS工具需求視角分析就業現狀。研究表明，熱門職位集中在計算機、互聯網，主要分布在北上廣深城市，但“新一線”需求比例在上升，并且私營企業占比最大。另外，企業更看重大學生的基礎能力、工作態度和品質。該研究為大學生就業、擇業提供參考和借鑒。

關鍵詞：就業指導;大學生招聘;數據挖掘;Python

中圖分類號：TP3-0? ? ? 文獻標識碼：A

文章編號：1009-3044（2021）27-0035-03

1 背景

隨著我國改革開放不斷深化，高校教育模式也從精英轉為大眾教育，導致大學生就業壓力日益增大。通過分析，人們發現“就業難”的影響因素之一就是“擇業難”。由于企業和學生存在信息不對稱問題[1]，導致人才結構性化短缺。

因此，本文用爬蟲算法收集招聘網站信息，分析需求的熱門區域、熱門職業、熱門職位的技能要求等。為高校和大學生解決“就業難”“擇業難”的問題。

2 大學生招聘方式分析

企業針對大學生招聘通常會采用校園招聘或者網絡招聘。

校園招聘是專門針對應屆大學生的招聘方式。目前，應屆畢業生主要就業途徑就是校園招聘，但是，艾瑞咨詢在《中國校園招聘大學生洞察白皮書》中指出獲得1～3家企業面試的學生比例近40%，這說明應屆畢業生雖然參與不少校園招聘，但成功獲取Offer還是具有一定難度。網絡招聘是以招聘平臺為載體，企業在平臺發布招聘信息，它可以將就業信息全方位地提供給學生[2]，相較于傳統的線下招聘，它更節約時間成本和空間成本。典型的招聘網站如“前程無憂”“智聯招聘”等。網絡招聘發展至今，已經積累了大量的職位信息，隨著AI技術的日漸成熟，依靠網絡就能夠實現精準的職位推薦[3]，對于促進大學生就業是十分有意義的。

3 企業招聘市場需求數據挖掘

3.1 數據獲取

1）數據源的選擇。招聘網站有很多，但是最有影響力的綜合招聘網站非前程無憂（51job.com）莫屬。前程無憂招聘網站上具有海量的招聘信息，覆蓋的知名企業較多。所以本文選擇從前程無憂招聘網站上獲取職位信息。

2）Python爬蟲獲取數據。Python閱讀簡單，代碼結構清晰、明了[4]。利用爬蟲算法獲取以下信息。①獲取熱門職位名單。前程無憂網有各類職位信息，職位名稱眾多，為了Python爬蟲可以實現，我們需要先確定職位名稱。由于前程無憂沒有提供職位名稱集合，我們選擇從BOSS直聘首頁獲取職位名稱。②獲取熱門職位信息。由于我們研究的市場需求是針對大學生就業，所以在爬取職位信息時，將工作年限參數設置為“在校生/應屆生”。獲取熱門職位的爬蟲代碼如下：

def count_page（）：

"根據boss直聘首頁的職位名獲取職位名稱集合，再從前程無憂上獲取熱門職位"

driver_path = r"D：＼Chrome＼Downloads＼chromedriver.exe"

file_name = r"D：＼Python_code＼Python程序＼爬蟲相關代碼＼51job＼原始數據＼數量.xlsx"

headers = {

'User-Agent'： 'Mozilla/5.0 （Windows NT 10.0; Win64; x64） AppleWebKit/537.36 （KHTML， like Gecko） Chrome/73.0.3683.86 Safari/537.36'

}

browser = webdriver.Chrome（executable_path=driver_path）

url = "https：//www.zhipin.com/"

job_names = []

browser.get（url）

html = browser.page_source

selector = etree.HTML（html）

job_names += selector.xpath（"http://div[@class='job-menu']//div[@class='menu-sub']//li/div[@class='text']/a/text（）"）

name_nums = {}

for name in job_names：

browser = webdriver.Chrome（executable_path=driver_path）

input_tag = browser.find_element_by_id（"kwdselectid"）

input_tag.send_keys（name）

input_tag.clear（）

click_tag = browser.find_element（By.LINK_TEXT， "搜索"）

click_tag.click（）

html = browser.page_source

html = etree.HTML（html）

job_url = html.xpath（"http://div[contains（@id，'filter_workyear'）]//li[2]/a/@href"）

web = requests.get（job_url， headers=headers）