鐘靜 羅南超
摘要:文章使用八爪魚采集器在智聯招聘網上采集了成都范圍內有關計算機科學與技術專業工作招聘的技能要求,通過數據預處理、關聯規則來處理采集到的大量數據,挖掘出各職位和對應能力要求之間的關聯程度,以便此專業學生找工作時了解自己應該掌握的技能側重點以及學校對工作單位所需要的人才的技能進行有針對性的培養。
關鍵詞:招聘信息;文本挖掘;關聯規則
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2019)06-0001-02
目前很多高校呈現出培養的畢業生掌握的技能和企業所需要的人才掌握的技能無法匹配,導致大量大學生畢業卻無法和企業招聘條件接軌,沒有實際操作能力只能去各種技術補習機構培訓后才能找到心儀的工作,企業也無法快速找到和自己需求匹配的畢業生們。我們各個高校可以從這些招聘信息中提煉出自己學校有關專業的就業崗位的用人需求,設置對口的專業課程,以此來為用人單位培養對口人才;同時也解決了企業難以找到對口畢業生的難題。本文對“智聯招聘”成都地區計算機科學與技術專業相關工作崗位的招聘信息進行了挖掘,并且提煉出這些崗位招聘信息里面出現頻率較高的技能做了統計,以便學校為本專業的學生設置合適的課程。
1數據挖掘處理
1.1數據來源
本文利用八爪魚采集器于2017年12月對智聯招聘網近一個月成都范圍內各工作崗位對計算機科學與技術專業人才所需要掌握的技能等各方面進行采集,總共得到招聘信息11205條,其中每條招聘信息包括職位名稱、能力要求、知識要求等內容,通過數據庫函數對數據進行去重處理,最終得到8248條可用數據。
1.2數據預處理[1]
采集的數據中包含大量文本信息,所以通過數據庫函數對這些文本進行數據預處理。
1.2.1 循環刪除,避免日志文件暴增
循環刪除的偽代碼如下,該方法仍有一些局限性,耗時過長,并且會長期使數據庫處于簡單恢復模式下:
--ALTER DATABASE database_name SET RECOVERY SIMPLE ; while @index<@EndIndex begin delete table_name where index<=@index; set @index+=@Increment end
1.2.2 將數據插入到臨時表中,把原表drop
把原始表中的數據通過select語句篩選出來,然后批量插入導新表中,這種方式利用了大容量日志(Bulk Logged)操作的優勢。由于 SELECT INTO,INSERT SELECT 是大容量日志操作,select命令不會產生大量日志文件,因此,執行插入比執行刪除的效率更高。最后,執行drop命令,刪除整個原始表,幾乎不消耗任何時間。
--ALTER DATABASE database_name SET RECOVERY BULK_LOGGED ; insert into new_table select column_list from original_table where filter_retain drop table original_table
把臨時表重命名,執行 sp_rename 或手動重命名,其中 @objtype 參數是可選的,默認值是NULL,對表重命名,設置參數 @objtype='object':
sp_rename [ @objname = ] 'object_name' , [ @newname = ] 'new_name' [ , [ @objtype = ] 'object_type' ]
1.2.3 對分區表執行分區轉移操作
SQL Server的分區表實際上是一系列物理上獨立存儲的“表”(也叫分區)構成的。被剝離的分區,通過drop命令刪除,這種方法,耗時最短,資源消耗最小,效率最高。
alter table original_table SWITCH PARTITION source_partition_number TO temporary_table drop table temporary_table
1.3應用關聯規則處理數據
2結語
綜合數據采集及關聯規則的結果,我們可以找到計算機科學與技術專業學生畢業后在成都范圍內就職崗位的用人需求,這樣有助于同學們根據自己畢業后理想的工作崗位進行課程的重點學習,也有助于學院根據此結果對課程設置進行調整以適應社會用人單位需求。而且文章較文獻[5]具有更強的針對性,具體落實到某一個專業,而不是參雜了很多其他應用例子,給讀者直截了當的印象。這個基于Web招聘信息的計算機科學與技術專業人才技能需求挖掘成功后,不僅針對計算機科學與技術這個專業,或者成都這個范圍內的工作崗位用人需求,也可以針對其他專業以及全國各地的工作崗位用人需求,以解決現存的這個產出和需求對接不上的嚴峻問題。在各個高校的“產出”與工作單位的“需求”的對接工作上可以起到很好的銜接作用。
參考文獻:
[1] 悅光陰.大數據操作刪除去重.http://www.cnblogs.com/ljhdo/
[2] 劉暢.基于Web文本挖掘的數據分析崗位需求研究[J].中國管理信息化,2018,21(10):76-79.
[3] 李玉潔,楊威.淺析行動導向教學法中數據挖掘的應用[J].知識經濟,2016(11):97.
[4] 王小玉,王亞東,馮麗.關聯規則的挖掘[J].信息技術,2003(1):55-57.
[5] 鐘曉旭.基于Web招聘信息的文本挖掘系統研究[D].合肥:合肥工業大學,2010.
.