

摘要:面對高校畢業生規模持續攀升與就業市場競爭加劇的挑戰,傳統就業指導模式在滿足個性化需求方面顯現不足。為提升就業指導的精準性與有效性,該文提出一種基于內容過濾技術的個性化就業指導模型。該模型深度挖掘了某省級智慧就業平臺近五年的海量多維數據(涵蓋生源、崗位與歷史去向) ,通過構建精細化的學生與崗位畫像,并利用加權的余弦相似度算法進行精準匹配。研究系統闡述了從數據預處理、多維特征建模到崗位推薦的全過程。研究的創新點在于,利用數據驅動的方式,為在校生提供基于學長學姐真實就業軌跡的、具備高度參考價值的崗位推薦,旨在引導其樹立理性務實的就業觀,科學規劃職業生涯,從而有效緩解就業市場的結構性供需錯配矛盾。
關鍵詞:內容過濾;推薦系統;就業指導
中圖分類號:G42" " " 文獻標識碼:A
文章編號:1009-3044(2025)28-0048-03
開放科學(資源服務) 標識碼(OSID)
0 引言
隨著我國高等教育的普及化,在校大學生總數不斷增加,2025屆全國普通高校畢業生規模預計達1 222萬人,創歷史新高,高校畢業生就業工作形勢嚴峻,做好高校畢業生就業工作事關民生保障與社會穩定。與此同時,在畢業生就業群體中,部分畢業生存在“慢就業”“緩就業”以及就業期望與市場需求脫節等現象,如盲目扎堆一線、二線城市,過度傾向選擇機關事業單位和國企等“穩定”工作,造成區域人才供需失衡和持續升高的“考公熱”“考編潮”。不合理的就業觀念會導致畢業生產生不切實際的就業預期,而錯誤的就業預期會成為阻礙就業市場供需匹配的重要因素。針對就業指導課程教育中存在的就業預期引導失位導致種種不合理的就業觀念的問題,本文提出基于內容過濾(Content-based filtering, CB) 的推薦技術,對某省近五年高校畢業生就業去向數據進行全量分析研究,力求盤活歷史數據的價值,以客觀數據為依據,通過直觀數據展示基于相同特征群體的學長學姐們的畢業去向的崗位推薦,對當前畢業年度的大學生的就業預期進行合理引導,探索一條“一生一策”的精準指導新路徑。
1 基于內容過濾的推薦技術概述
近年來,互聯網尤其移動互聯網技術的蓬勃發展,數據呈現指數級增長的態勢,各類應用系統中產生了海量的多元數據,信息爆炸使得信息的利用率反而降低,導致獲取有效信息變得困難。推薦系統(Recommendation System, RS) 就是利用數據挖掘、預測算法、機器學習等技術,研究如何有效過濾和篩選信息,幫助用戶獲取符合其需求的個性化信息。一個完整的推薦系統包括三個模塊,分別是收集用戶的行為記錄模塊、分析用戶喜好的模型分析模塊和推薦算法模塊[1]。常見的推薦系統有協同過濾系統(Collaborative Filtering, CF) 、基于內容過濾系統和混合推薦系統。
基于內容過濾的推薦技術是推薦系統中的經典范式,其核心思想是向用戶推薦與其過去喜歡的物品相似的物品,以用戶歷史選擇或偏好記錄為參考,結合顯式反饋(如評價、喜歡/不喜歡) 與隱式反饋(如瀏覽、點擊、停留時間) 獲取交互記錄,學習并標記用戶偏好特征,再計算該偏好與待測推薦對象的內容相似度,按相似度排序,為用戶推薦符合興趣的對象[2]。其原理示意圖如圖1所示,該技術通過分析用戶歷史偏好(如顯式評分或隱式瀏覽行為) ,構建用戶畫像(User Profile) ;同時,對物品本身的內容屬性進行特征提取,形成物品畫像(Item Profile) 。推薦過程即是匹配用戶畫像與物品畫像的過程。該技術不依賴于其他用戶的數據,而是深度分析物品本身的內容屬性和用戶歷史偏好記錄。這使得它具有良好的解釋性、無冷啟動問題以及適合處理文本數據等優點。基于以上優勢,本研究選擇內容過濾技術作為研究算法。基于內容過濾的推薦技術的構建一般分為三個步驟:偏好挖掘、特征建模以及相似度計算[3]。常見的計算相似度的方法有余弦相似度(Cosine Similarity) 、Jaccard 相似度和歐氏距離等。
2 基于內容過濾技術的大學生就業指導的應用構建
根據基于內容過濾的推薦系統的定義,本章將從偏好挖掘、特征建模以及相似度計算三個核心環節,詳細闡述如何構建一個應用于大學生就業指導的推薦系統。
2.1 偏好挖掘
偏好挖掘是整個推薦系統的基石,其核心是高質量、多維度的基礎數據的準備。本研究的數據來源于某省高校畢業生智慧就業管理平臺近5年的就業崗位信息、畢業生生源信息、畢業生去向信息等就業數據,數據表及字段結構如表1所示。由于原始數據中存在部分字段項值缺失、字典不一致和格式錯誤等問題,必須首先對原始數據進行預處理與清洗。
數據的預處理分為三個步驟。第一步是數據脫敏,對學號、姓名、聯系方式、身份證號等敏感信息進行加密處理,以保護學生和用人單位的隱私,確保數據安全。第二步是缺失值處理,針對績點和薪資等數值型字段的值缺失問題,使用同年度專業范圍內的平均值填充;對于職位性質等單選型字段,統一使用“未提供”進行填充;對于崗位職責、任職資格等關鍵文本字段,若缺失則直接舍棄該條記錄,以保證推薦質量。第三步是數據清洗與標準化,對地區等字段進行歸一化處理,如將“北京”“北京市朝陽區”統一為“北京”;對單位名稱進行清洗,去除“(總公司) ”“有限公司”等干擾詞。
經過數據預處理步驟后,表1的扁平化數據結構被重構為三個相互關聯的特征向量庫:
1) 崗位特征向量:[崗位代碼、崗位名稱關鍵詞代碼、工作所在地代碼、學歷要求代碼、職位性質代碼、需求專業代碼、外語要求代碼、崗位職責向量、任職資格向量、薪資福利、單位代碼、單位行業代碼、單位性質代碼、單位規模代碼、單位特色標簽向量]。
2) 生源特征向量:[學校代碼、學號、學歷代碼、性別代碼、政治面貌代碼、生源地代碼、專業技能代碼、專業績點、社會實踐特征向量[實習、職業規劃大賽、挑戰杯、創業、志愿服務]。
3) 去向特征向量:[學校代碼、學號、學歷代碼、性別代碼、生源地代碼、畢業去向代碼、單位代碼、單位性質代碼、工作職業類別代碼、工作所在地代碼、薪資]。
最后,收集用戶的顯式反饋,這里把學長學姐的歷史去向信息,如就業、創業、升學、出國作為一種顯式反饋,把回生源地就業、參加創業大賽后選擇自主創業、學生干部選擇考公等信息當作隱式反饋,以此構建用戶的偏好檔案。
2.2 特征建模
在偏好挖掘的數據準備階段之后,需要將這些格式各異的文本、類別、數值信息,轉換為計算機可以理解和處理的數學形式。本研究采用向量空間模型(Vector Space Model,VSM) ,將每個學生和每個崗位都表示為高維空間中的一個向量。構建過程分為特征編碼、權重確定、降維處理和向量融合四個步驟。
第一是特征編碼處理,特征編碼是將原始數據轉換為數值向量的過程。對于學歷、專業、行業、地區、職位性質等具有固定字典的結構化字段,采用獨熱編碼(One-Hot Encoding) 處理,以避免在類別間引入錯誤的序數關系,保證特征的獨立性。但當類別數量巨大時,獨熱編碼會產生高維稀疏向量,帶來“維度災難”的挑戰。例如,學歷有專科、本科、碩士、博士四個字典值,則學歷為碩士的數據可以被編碼為[0,0,1,0]的二進制向量。對于崗位職責、任職資格、單位特色標簽等長文本字段,首先使用Jieba中文分詞庫對文本進行切分,去除如“的”“和”“以及”等無實際意義的詞語,然后使用詞頻—逆文檔頻率(TF-IDF) 算法計算每個詞的權重。TF-IDF的核心思想是如果一個詞在一個文檔中出現頻率越高,同時在所有文檔中出現的頻率越低,則該詞對該文檔的區分能力越強,權重也應越大[4]。通過TF-IDF計算可以為每個長文本字段描述生成一個由關鍵詞及其權重組成的向量,精確捕捉其關鍵要求。對于專業績點、薪資等連續數值型字段,由于其取值范圍差異巨大,為避免在后續計算中結果被大數值范圍的特征主導,使用最小—最大歸一化(Min-Max Scaling) 算法,將其統一線性地縮放到一定區間。
第二是特征權重確定。根據實踐經驗與理論共識,不同的特征對于最終匹配結果的貢獻度是不同的,例如專業要求的相關性通常遠高于單位規模。因此,根據特征的貢獻度不同,需要為不同特征賦予大小不一的權重。首先,通過信息增益(Information Gain) 和卡方檢驗(Chi-Square Test) 等統計學指標,評估每個特征的區分能力,如計算“是否為計算機專業”這個特征對于“是否能成功匹配軟件工程師崗位”這個決策的貢獻度。通過信息增益和卡方檢驗計算,可以篩選掉貢獻度低,甚至產生噪聲的特征,保留最關鍵的特征。其次,結合多年的就業指導研究實踐,劃分字段級的權重體系,如設定專業匹配度權重為0.3、技能匹配度權重為0.25、工作地點偏好權重為0.2、學歷要求權重為0.15、單位性質偏好權重為0.1等。該權重體系將直接影響后續相似度計算的準確性,確保模型能夠捕捉到學生和崗位之間最重要的匹配維度。
第三是降維處理。經過獨熱編碼和TF-IDF處理后,部分特征向量的維度會非常高,這會導致維度災難問題,即由于計算復雜度的急劇增加,數據變得稀疏,模型性能下降。為了解決這個問題,本文使用主成分分析(Principal Component Analysis, PCA) 算法對數據進行降維。PCA是通過線性變換將原始高維數據投影到一個新的低維坐標系中,使得投影后的數據方差最大[5]。最后,保留累計方差貢獻率較高的主成分,如保留95%的方差,可以在最大程度保留原始信息的同時,將維度壓縮到可控范圍,從而極大提升模型的運行效率和穩健性。
第四是向量融合。向量融合是將經過編碼、加權和降維處理的各類特征向量,按照統一的順序進行拼接,融合成一個最終的、標準化的整體表示向量。經過拼接融合后的向量既保留了不同特征視角的關鍵信息,又構建了生源向量和崗位向量在同一個語義空間中的可比性,為下一步的相似度計算提供了穩定、一致的輸入數據格式。
2.3 相似度計算
相似度計算是整個推薦系統的核心步驟,其目的是通過量化計算,以實現衡量當下的生源崗位向量與歷史數據中的學長學姐的生源去向向量在向量空間中的接近程度。本研究選用余弦相似度作為向量相似度的計算方法[6],余弦相似度的思想是通過計算兩個向量夾角的余弦值來評估它們的相似性,其優勢在于它只關注向量的方向而不關心其大小,這對于處理像TF-IDF這類長度不一的文本向量以及融合了不同權重特征的向量時尤為適用。設生源崗位向量為A,生源去向向量為B,相似度公式為:
[Sim(A,B)=A?B‖A‖ ‖B‖]" " " (1)
其中[ A?B]為向量內積,[‖A‖ ‖B‖]為向量范數。
計算流程:首先對輸入的生源崗位向量與生源去向向量按字段權重進行加權處理。其次計算加權向量的內積。再次分別求向量模長并歸一化。最后,得到相似度分值,范圍為[0,1],值越大表示匹配度越高。在實際推薦中,將候選崗位按相似度降序排序,結合國家重大政策導向與重點領域建設進行二次篩選,以提升結果的導向性與精準性。
3 實驗與結果分析
3.1 實驗設計
3.1.1 數據集
本次實驗基于某省2021—2025屆畢業生的求職信息,共計352萬畢業生的生源和畢業去向信息,涉及相關畢業年度共計668.8萬個崗位。按時間留后法,將2021—2024屆的相關數據作為模型訓練集,2025屆數據作為模型測試與驗證數據。
3.1.2 評價指標
為了評估推薦效果,本實驗采用精確率(Precision@N) 、召回率(Recall@N) 、F1值(F1-score) 、命中率(HitRate) 四個量化指標衡量本文的算法與平臺使用的原推薦算法之間的差異。原推薦算法使用的是基于學生就業意向的隨機推薦算法,根據學生登記的就業意向,如意向行業、意向地區、意向薪資等字段,在崗位庫中檢索相關聯的最近的10個崗位來推薦。
3.2 實驗結果
如表2所示,本文模型在Precision@10、Recall@10、F1-score@10、HitRate@10上均顯著高于基于學生就業意向的隨機推薦算法,分別提升181%、215%、196%、185%,驗證了本文算法較原有基線模型算法的有效性。
4 結論
4.1 結果解讀
平臺使用的原推薦算法是根據學生在平臺里登記的就業意向信息,從數據庫中簡單命中,并根據時間降序排列,提取Top10的崗位來進行推薦,算法相對簡單,并沒有考慮到學生興趣、技能、實踐等更深層次多維度的意向需求。本文的研究通過特征加權精準地捕捉了核心匹配維度,降維處理提升了模型魯棒性,根據學長學姐的就業經歷,能夠相對精準地向學生推薦符合其需求的就業崗位。
4.2 現實意義
通過實驗驗證,本文提出的基于內容過濾技術的大學生就業指導具有一定的可行性與有效性,通過數據展示比對,畢業生在進入秋招季后,能根據本院往屆就業實際情況以及省內與自身相似群體的就業去向,及時調整就業預期,做到“既要仰望星空,又要腳踏實地”。同時,也能夠為學校在開展就業指導教育時提供翔實的數據支撐,避免泛泛而談。
4.3 局限性分析
隨著00后畢業生已成為當下的主流,00后個性鮮明與張揚,更加追求自身價值的實現和權益的保障,并且由于家庭條件較好,慢就業現象突出。基于歷史經驗的崗位推薦,可能不再適用新形勢下的就業指導,如何運用深度學習、機器學習等人工智能技術推進“一生一策”的個性化精準就業指導,還有待進一步的研究。
5 結論與展望
在大學生就業指導中應用基于內容過濾的推薦技術,為大學生展示基于過往就業去向信息的崗位推薦,有效扭轉當下存在的各種不合理的就業觀念與預期,推進大學生以更加務實、更加理性的心態來制定就業規劃。未來研究將聚焦于融合協同過濾技術構建混合推薦模型,以緩解內容過濾的“信息繭房”問題,并探索引入深度學習模型(如Word2Vec、BERT) 進行更深層次的語義特征提取,以期實現更精準的“人崗”智能匹配。
參考文獻:
[1] 劉君良,李曉光.個性化推薦系統技術進展[J].計算機科學,2020,47(7):47-55.
[2] 于蒙,何文濤,周緒川,等.推薦系統綜述[J].計算機應用,2022,42(6):1898-1913.
[3] 曹毅,賀衛紅.基于內容過濾的電子商務推薦系統研究[J].計算機技術與發展,2009,19(6):182-185.
[4] 武永亮,趙書良,李長鏡,等.基于TF-ID F和余弦相似度的文本分類方法[J].中文信息學報,2017,31(5):138-145.
[5] 陳佩.主成分分析法研究及其在特征提取中的應用[D].西安:陜西師范大學,2014.
[6] 朱后坤.關于推薦系統的統計預測研究[D].上海:上海交通大學,2010.
【通聯編輯:張薇】