999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于協同過濾算法的智能崗位分析系統的設計與實現

2023-10-08 13:15:16
軟件工程 2023年10期
關鍵詞:可視化用戶系統

陳 亮

(大連東軟信息學院, 遼寧 大連 116023)

0 引言(Introduction)

據教育部公布的最新數據顯示,2022年高校應屆畢業生人數再創新高,突破1 000萬人,整體社會的就業壓力依然巨大[1]。對于求職者來說,招聘網站是其獲取求職信息的主要方式,目前市面上已有許多類型的招聘網站,這些網站會定期發布一些企業的招聘需求,但是這些招聘信息的數據量龐大,求職者想要在海量的招聘信息中找到適合自身需求的崗位十分困難,這些網站存在的一個普遍問題是只為企業發布招聘信息和求職者搜索招聘信息提供了一個平臺,但是并不能給求職者提供高效、系統性的專業建議和指導,求職者在這些平臺上也無法快速、準確的地獲取自己需要的企業招聘信息。基于此,本文設計實現了一個基于協同過濾算法的智能崗位分析系統,旨在利用大數據和人工智能技術對海量的招聘信息數據進行智能分析和處理,不僅可以讓求職者更加直觀地了解目前的就業行情與需求,也可以讓求職者更快速和便捷地獲取適合自己的崗位需求信息。

1 系統數據架構(System data architecture)

智能崗位分析系統整體數據架構包括數據采集、數據存儲、數據分析和數據可視化展示等部分。數據源主要來自主流招聘網站上公開的招聘信息,采集技術采用Python爬蟲框架Scrapy,原始數據存儲在Hadoop平臺分布式文件系統HDFS上,通過Hive進行數據查詢和處理,得到的數據結果通過Sqoop導入MySQL數據庫,通過機器學習領域的協同過濾算法進行智能化分析,最后通過可視化技術對結果數據進行展示。系統數據架構圖如圖1所示。

圖1 系統數據架構圖Fig.1 System data architecture diagram

2 系統設計(System design)

2.1 系統用例設計

本系統主要包括兩個角色,分別為管理員和普通用戶。滿足用戶基本業務需求的用例是高層用例,這些用例包括用戶基本操作和管理員基本操作。高層用例圖如圖2所示。

圖2 高層用例圖Fig.2 High-level use case diagram

2.2 數據采集與清洗

數據采集部分采用Python爬蟲框架技術Scrapy,獲取主流招聘網站的招聘信息,作為整個系統的原始數據源。Scrapy是開源快速的網絡爬蟲框架,可以從網站獲取網頁數據信息,并從頁面中得到用戶想要的數據,它的核心是Scrapy engine爬蟲引擎,通過Scheduler調度模塊模擬發送HTTP請求、Downloader下載器模塊接收并生成頁面響應,Spider爬蟲程序模塊迭代提取網頁中的數據內容,Item Pipeline數據管道模塊對獲得的數據進行持久化的存儲[2]。Scrapy爬蟲框架如圖3所示。

圖3 Scrapy爬蟲框架Fig.3 Scrapy crawler frame

2.3 數據平臺搭建

平臺環境搭建采用虛擬化技術虛擬出三臺Linux服務器構成集群,主機名分別設為shixun01、shixun02、shixun03。集群配置shixun01 CPU核心數為4,磁盤空間為50 GB,內存大小為8 GB;shixun02 CPU核心數為2,磁盤空間為50 GB,內存大小為4 GB;shixun03 CPU核心數為2,磁盤空間為50 GB,內存大小為4 GB[3]。在搭建好的數據平臺上安裝Hadoop、MySQL、Hive、Sqoop等軟件工具。數據平臺如圖4所示。

圖4 數據平臺Fig.4 Data platform

2.4 數據倉庫建設與開發

數據倉庫使用Hive技術進行建設。整體數據倉庫架構分為原始數據層、基礎數據層、明細數據層、聚合數據層和應用數據層。原始數據層接收采集的原始數據,基礎數據層存儲經過清洗后的原始數據,明細數據層根據業務場景將基礎數據進行細化分類,聚合數據層根據業務主題和需求提前聚合相關統計數據,應用數據層根據需求存儲用于產出可視化圖表的應用結果數據。數據倉庫架構圖如圖5所示。

圖5 數據倉庫架構Fig.5 Data warehouse architecture

2.5 算法分析

預測問題一直是機器學習領域中最重要的問題。很多算法包括回歸算法、決策樹算法等都是用來解決預測的常用算法。本系統預測算法采用經典的協同過濾算法,首先依據用戶屬性特征,找到具體相似興趣的用戶,其次根據用戶評價矩陣以及對產品的評價結果構建協同過濾算法,進而預測其他未評分的項目或者用戶,最后根據預測出的結果對用戶進行推薦。

該算法的基本操作步驟如下:①利用已經擁有的用戶行為歷史數據,構造用戶項目評分矩陣;②通過相似度計算公式計算用戶之間的相似度,將相似度較高的用戶當作目標用戶的近鄰集;③在進行評分預測后,按照TOP-N原則為用戶進行推薦[4]。

2.5.1 構建用戶項目評分矩陣

構建用戶項目評分矩陣Rmn,矩陣行中有m個用戶,用U表示,U={U1,U2,…,Um},矩陣列中有n個項目,用I表示,I={i1,i2,…,in},Rij表示用戶i對項目j的實際評分,若用戶i對項目j未評分,則Rij為0,用戶項目評分矩陣公式如下:

(1)

2.5.2 用戶評分相似度計算

用戶評分的相似度計算以用戶項目評分矩陣為基礎,用評分矩陣中的每一行的評分向量表示用戶的實際興趣。所以,計算用戶評分的相似度實質上就是計算用戶評分向量之間的距離[5]。傳統的協同過濾算法中最常用的計算相似度的方法是皮爾遜相似度計算方法,其計算公式如下:

(2)

在獲取用戶a和其他全部用戶的相似度后,將相似度排名最高的前h個用戶作為該用戶的近鄰集,應用評分預測公式得出最終的預測評分。評分預測公式如下[6]:

(3)

本系統可以實現智能化求職者薪資預測功能,根據用戶輸入的條件和用戶的瀏覽記錄信息等數據,運用傳統的協同過濾算法和皮爾遜相似度計算方法,計算出用戶評分向量之間的距離,應用評分預測公式得出最終的預測評分,測算出匹配求職者條件和能力的薪資范圍,并響應到前端模塊。推薦流程圖如圖6所示。

圖6 推薦流程圖Fig.6 Flow chart of recommendation

2.6 數據的可視化展示

可視化展示部分前端采用Axure RP工具,它是一種用來進行原型設計的專業工具,可以快速地創建網站原型和應用軟件原型,同時可以定義需求和規格,生成網站和應用軟件規格說明文檔[7]。網站內的分析圖采用第三方可視化工具Sugar BI,Sugar BI基于百度Echarts,能提供豐富的圖表組件,開箱即用、零代碼操作、不需要SQL,降低開發成本的同時,還能提高業務對數據的使用效率[8]。Sugar BI支持多種方式對接數據源,如直連數據庫、上傳Excel/CSV文件、API接口、靜態JSON錄入等[9]。

3 系統實現(System implementation)

3.1 首頁展示

用戶進入系統首頁,可以進行注冊和登錄,首頁顯示可視化展示系統、智能招聘系統和需求分析系統等功能入口。系統首頁如圖7所示。

圖7 系統首頁Fig.7 System homepage

3.2 數據概況界面

點擊進入數據概況界面,界面顯示的信息包含公司全稱、公司簡稱、公司規模、融資階段、區域、職位名稱、工作經驗、學歷要求、薪資、職位福利、經營范圍、職位類型。界面上方包含查詢功能和搜索功能,用戶能更清晰、直觀地找到適合的職位。數據概況界面如圖8所示。

圖8 數據概況界面Fig.8 Data overview interface

3.3 可視化模塊

為了能讓用戶更好地分析自己的能力和找到合適的崗位需求信息,系統通過文字云圖、柱狀圖、餅狀圖、漏斗圖、矩形數形圖等形式分別對企業發布的薪資情況、企業情況、公司規模分布、學歷和工作經驗分布等進行了詳細的可視化展示。企業發布的薪資概況界面如圖9所示。

圖9 薪資概況界面Fig.9 Salary overview interface

企業概況界面如圖10所示。

圖10 企業概況界面Fig.10 Enterprise overview interface

3.4 智能化模塊

目前,系統的智能化模塊已完成用戶薪資預測功能,用戶輸入相關信息后,系統就能根據算法模型預測其最低薪資標準,并在前端進行展示。薪資預測功能如圖11所示。

圖11 薪資預測功能Fig.11 Salary forecasting function

3.5 關鍵技術難點

用戶評分矩陣對于協同過濾算法來說,是十分重要的概念,主要作用是計算項目間或用戶間的相似度,用戶評分矩陣的稀疏程度對預測結果有明顯的影響。如果用戶評分矩陣特別稀疏,整體的預測和推薦的質量會大幅下降,所以如何解決用戶評分矩陣的稀疏性,是提高協同過濾算法預測和推薦質量的核心。

皮爾遜相似度的計算方法在計算的過程中不會使用缺失數據,所以本文使用皮爾遜相似度計算時不用考慮數據稀缺的問題,而是需要著重考慮共同評分項數目不同的問題,可以使用預測數據填充的方法解決未知評分的問題,具體方法如圖12所示[10]。

圖12 改進的算法過程Fig.12 Improved algorithm process

4 結論(Conclusion)

本系統圍繞招聘系統無法聚焦和智能分析的問題,設計了一個集招聘信息可視化展示和智能分析于一體的系統。該系統包括數據采集、數據清洗、平臺搭建、數據倉庫建設、智能分析以及可視化展示等部分;系統通過Python爬蟲技術獲取主流招聘網站的數據作為原始數據源,通過虛擬化技術和Linux操作系統搭建Hadoop大數據平臺,通過Hive技術進行數據倉庫建設和數據處理,將得到的結果數據通過Sqoop導入MySQL數據庫,通過協同過濾算法進行智能分析,通過Axure RP和Sugar BI對結果數據進行可視化展示,可視化展示可以幫助用戶清晰直觀地看到供需關系,用戶點擊智能招聘系統,可以按照其所在城市、掌握的技術、工作年限等條件,快速找到符合自己需求的招聘信息,為廣大求職者提供了一個方便、準確、快捷的智能崗位分析平臺。

目前,系統智能化部分采用的協同過濾算法是經典傳統的算法,雖然在解決未知評分的問題上做了相應優化,但是預測評分和精度方面還有待提升,后續會嘗試采用更多的協同過濾改進算法進行持續迭代,提高算法的精度。同時,會開發更多的智能化功能,不斷滿足求職者對招聘信息數據分析方面的需求。

猜你喜歡
可視化用戶系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: 伊人久久大香线蕉影院| 国产av无码日韩av无码网站| 男人的天堂久久精品激情| 狠狠色婷婷丁香综合久久韩国| 亚洲女人在线| 亚洲二区视频| 欧美综合中文字幕久久| 日韩美毛片| 色精品视频| 成人免费黄色小视频| 国产在线一区二区视频| 久久久久亚洲精品成人网| 亚洲中文字幕久久精品无码一区| 亚洲五月激情网| 手机在线免费不卡一区二| 欧美激情伊人| 日本a级免费| 国产人成网线在线播放va| 久久精品国产亚洲麻豆| 亚洲欧美在线看片AI| 日本不卡免费高清视频| 制服丝袜 91视频| 99re这里只有国产中文精品国产精品| 四虎国产永久在线观看| 亚洲人成在线免费观看| 国产欧美精品专区一区二区| 欧美精品1区| 色综合天天综合| 国产91在线|中文| 国产成人8x视频一区二区| a级毛片网| 中文成人在线视频| 久久男人视频| 91偷拍一区| 色爽网免费视频| 久久永久视频| 好吊日免费视频| 日韩在线网址| 狼友视频国产精品首页| 激情爆乳一区二区| 国产丝袜91| 国产精品女同一区三区五区| 99久久精品国产麻豆婷婷| 国产成人超碰无码| 中文字幕在线免费看| 日韩免费毛片| 91精品福利自产拍在线观看| 日本a∨在线观看| 女人av社区男人的天堂| 国产另类乱子伦精品免费女| 亚洲人成网站日本片| 国产精品护士| 久久黄色影院| 91福利一区二区三区| 久久亚洲国产一区二区| 欧美日韩北条麻妃一区二区| AV无码无在线观看免费| 亚洲天堂久久| 视频在线观看一区二区| 欧美在线观看不卡| av一区二区三区高清久久| 久久中文无码精品| 日韩在线播放欧美字幕| 99ri国产在线| 91视频日本| 成人午夜网址| 亚洲天堂日韩av电影| 国产办公室秘书无码精品| 三级毛片在线播放| 国产男女免费视频| 精品免费在线视频| 91国内视频在线观看| av色爱 天堂网| 韩国自拍偷自拍亚洲精品| 午夜电影在线观看国产1区| 久久99精品久久久大学生| 亚洲国产天堂久久九九九| 午夜爽爽视频| 日本人真淫视频一区二区三区| 5555国产在线观看| 九一九色国产| 亚洲欧美综合另类图片小说区|