於 雯
(漢江師范學院,湖北 十堰 442000)
目前,高校的信息化研究與進展不斷加深,已有不少高校通過數據分析等信息化手段對學生進行行為畫像,如:根據學生學習成績的學習預警;通過學生的食堂消費數據為貧困學生提供生活補助;對學生進出圖書館以及借閱圖書信息推薦閱讀榜單及年度讀書達人等應用。這些基于數據分析的智能化應用不僅提高了學校的管理水平,也為學生提供了更加人性化的服務[1]。目前,各高校針對學生就業技能方向的研究仍處于起步階段,雖然大多數高校都開設有就業培訓課程,但是不少培訓課程和實際就業要求不匹配,缺乏專業的技能分析,部分學生對于該類課程的重視程度不夠,使得培訓無法達到預期效果。
隨著近年應屆畢業生數量的節節攀升,高校畢業生的就業問題一直是社會關注的重點問題,大量的待就業群體對社會的穩定與發展帶來挑戰。與此同時,許多企業也面臨著無法招到滿意員工的困擾,造成了用人難的局面。為了更好地解決這一問題,提高畢業生與企業之間的匹配度,本文利用招聘信息關鍵詞的提取與分析來了解企業需求,幫助畢業生更具針對性地提升職場技能,從而選擇符合自身發展的崗位;企業則能通過準確匹配人才,解決用工難的問題,進一步推動就業情況的改善?;陉P鍵詞提取的崗位匹配度分析包括三大部分工作:首先是通過抽取某高校的信息工程專業人才培養方案,基于該專業人才培養方案中開設的課程,將通識課程和專業課程進行劃分,分別對應就業技能中的通用技能和專業技能;再根據學生每門課程的成績代表對該技能的掌握程度,從而得到學生的職業技能表;其次是利用TD-IDF的關鍵詞提取技術,對該專業的對口就業崗位進行關鍵詞提取;最后根據技能表和崗位關鍵詞進行匹配度分析,主要工作流程如圖1所示,通過就業技能的分析與匹配可以使學生更清楚地了解自身技能情況和企業的招聘要求,更加有針對性地提高自身專業技能。

圖1 就業崗位匹配度分析流程
以某高校信息工程專業為例,人才培養方案中列出了該專業所開設的全部課程,根據課程的不同屬性將其分為通識課程和專業課程,對應不同課程屬性分析其培養目標中不同的就業技能。其中,通識課程對應于職場通用技能,專業課程對應于專業技能,如表1所示。

表1 專業課程信息
根據所開設課程的教學大綱,提取不同專業課程所教授的專業技能[2],例如:程序設計語言課程大綱中要求通過該門課程能夠使學生系統地學習和掌握C語言的編程知識。因此,可以提取C語言為該門課程對應的技能,通過分析所有課程大綱,形成該專業學生的所學技能,基礎表如表2所示。此外,學生還可以課外通過網絡課程、實踐、競賽等途徑自學掌握多種技能,需要學生根據自身情況進行添加以構成就業技能擴展表,最終構成該名學生完整的技能信息。

表2 課程與技能對照
通過學校的教務系統獲取學生每門課程的學習成績,根據學生的課程成績,對學生掌握的知識技能情況進行排序,成績較好的課程可以記為對該門課程所講授的知識技能的掌握程度較高,從而為后續專業崗位匹配度分析提供參考依據[3]。將課程成績低于60分(含60分)記為了解該門課程所對應的知識技能;課程成績大于60分低于80分(含80分)記為熟悉該門課程知識技能;課程成績大于80分記為掌握該門課程的知識技能。例如:從系統中獲取某位同學的成績,并按照成績高低排序后可以得到該同學的通過學習學校課程所獲得的知識技能熟練度信息情況,如表3 所示。

表3 知識技能掌握情況
利用網絡爬蟲技術采集招聘網站上的招聘信息,根據招聘信息中的崗位要求分析招聘企業所需的專業技能,進行關鍵詞提取。通過觀察發現爬取到的數據包含大量的臟數據和高耦合的數據[3],本研究需要對這些臟數據進行清洗與預處理后才能正常使用。經過數據清洗,最終得到包含崗位名稱、地區、行業、公司、薪資、崗位職責等信息的招聘崗位數據集1 800條。
崗位職責信息通常為一段短文本描述,需要對短文本進行去除停用詞、中文分詞以及詞性標注等操作,以達到更好的分析效果。
中文句子的最小單位是字,而詞才是具有語義的最小單位,英文的每個單詞都以空格結尾對句子進行切分,而中文文本的句子中沒有詞的界限,不能直接區分出詞和字,因此需要按照中文漢字的排列將連續的字按照規律組合成詞語的形式。中文分詞就是基于這種思想將字轉換成為詞的操作,是對于中文文本分析首要的預處理操作,分詞的效果將直接影響詞性的劃分和后續文本處理的效果。針對中文的分詞工具有很多種,目前國內比較常用的分詞系統包括 jieba分詞、中科院的 NLPIR中文分詞系統,哈爾濱工業大學語言技術平臺(LTP)分詞系統等。jieba分詞是一種常用的開源分詞庫,主要是因為它能夠根據分割模型以最精確的方式分離句子。同時,jieba 還支持用戶自定義的詞庫,可以有效地提高準確率。本文利用jieba分詞工具對崗位描述中的中文短文本進行中文分詞,分詞代碼及結果如圖2所示。
經過中文分詞處理,中文文本的每個句子將會以詞語為基本單位完成劃分,而有些詞語不具有實際意義,對關鍵詞的提取產生干擾,也會加大數據分析的工作量,造成提取的關鍵詞無效,所以在分詞處理以后,引入停用詞來優化分詞的結果。利用哈工大的停用詞表對分詞后的文本去除停用詞,從文本中刪除了無用的重復信息,以便關注更加重要的信息,并且不會對任務訓練產生負面影響,還可以減少訓練時間。
TF-IDF算法包含了TF算法和IDF算法兩部分。TF(Term Frequency)算法是統計一個詞在一篇文檔中出現的頻次,基本的算法思想為一個詞在文檔中出現的次數越多,對文檔的表達能力就越強,但是缺少對文檔的區分能力,在本文的分析中,表示某個崗位關鍵詞在單個崗位中出現的頻率。
(1)
計算TF值時,僅用頻次來表示,長文本中的詞出現頻次高的概率會更大,這一點會影響到不同文檔之間關鍵詞權值的比較。因此,在計算過程中,對詞頻做歸一化處理,即分母一般為文檔總詞數。
IDF(Inverse Document Frequency)算法是統計一個詞在文檔數據集的多少個文檔中出現。算法表明一個詞在越少的文檔中出現,則其對文檔的區分能力也就越強。IDF強調詞的區分能力,但一個詞既然能夠在一篇文檔中頻繁出現,表明這個詞能夠很好地表現該篇文檔的某些特征,可以降低一些在所有崗位中都通用或者常用的詞語而對單個崗位影響不大的詞語的作用[4]。
(2)
計算IDF時,采用拉普拉斯平滑在分母+1,避免部分新詞沒有在語料庫中出現而導致分母為0的情況,增強算法的健壯性。TF-IDF算法從詞頻、逆文檔頻次兩個角度對詞的重要性進行度量。結合兩種算法的優勢即考慮詞的出現頻次,也考慮詞對文檔的區分能力。TF-IDF值越大,該詞語就越適合提取為文檔的關鍵詞。它的優點是能過濾掉一些常用但不具有代表意義的詞,同時保留影響整個文本的重要字詞。這里應用于提取各崗位招聘需求關鍵詞。根據字詞在單個崗位中出現的次數和在整個市場所有崗位中出現的頻率來計算一個詞重要程度。
(3)
在信息傳輸、軟件和信息技術服務業-軟件開發工程師中,“嵌入式”和“開發”出現的頻率分別為0.7和0.9,即:
TF(嵌入式)=0.7
(4)
TF(開發)=0.9
(5)
總共有1 800個崗位,其中有50個崗位包含“嵌入式”這個詞,500個崗位包含“開發”這個詞,可以得到:
(6)
(7)
(8)
(9)
可以看到,雖然“嵌入式”出現頻率TF小于“開發”,但是TF-IDF大于“開發”,即TF-IDF得到的是在本行業崗位中出現頻率高且在其他崗位中出現頻率低的關鍵詞,實現了對不同崗位的招聘信息的關鍵詞提取。
根據該專業畢業生就業去向信息,統計該專業畢業生的主要對口就業方向及崗位,同時根據招聘網站上需求該專業學生相關崗位信息,得到該專業對口的主要就業崗位前五名為:電子工程師、硬件工程師、嵌入式開發、測試工程師、信息工程師。對招聘網站中的這幾個崗位要求通過Python程序設計進行文本處理,分詞后[5],利用TF-IDF方法提取出崗位要求的技能關鍵詞如表4所示。

表4 專業對口崗位要求關鍵詞
根據學生所學課程技能和掌握程度與招聘崗位技能關鍵詞進行匹配分析。推薦匹配度較高的崗位,供學生進行就業方向參考。如根據上述學生所掌握的知識技能表和招聘崗位的關鍵詞進行匹配分析。熟練度為掌握,則匹配技能數乘以系數1;熟練度為熟悉,則匹配技能數乘以系數0.8;熟練度為了解,則匹配技能數乘以系數0.5。經過對專業技能和崗位匹配度計算,可以得到每位同學對應不同崗位的匹配度數值。數值越高說明該同學和對應崗位的需求越契合,可以在學生選擇就業時提供對口的崗位建議,同時也可提醒學生對期望崗位所欠缺的知識技能,可以提早進行規劃學習,提高自己的競爭力[6]。如表5所示,得到該名同學與電路設計工程師崗位要求的匹配度最高為5分,則可建議該同學在求職時多關注電路設計工程師相關崗位,有針對性地完善自己的簡歷及求職方向。

表5 崗位匹配
本文基于TF-IDF算法對招聘崗位關鍵詞的提取分析,從眾多的招聘信息中提取出不同崗位的需求關鍵詞,對求職與就業以及個人綜合能力的提升都可以提供具有說服力的指導建議,實驗結果能夠較準確地對學生所學知識和就業崗位要求進行匹配,推薦適合學生的就業崗位,也可以提醒學生所欠缺的技能,提高學生對就業的認識,同時對高校的課程設置具有一定的參考價值,可以面向社會需求調整課程設置,提高學生的就業率。同樣,本文對于學生自學的個性化技能分析不足,對學生的個性化就業與創業指導有所欠缺。